Apa itu data sintetik?

Data sintetik kursus ranap

 

 

Pengenalan

Apa itu data sintetik?

Jawapannya agak mudah. Manakala data asal dikumpul dalam semua interaksi anda dengan orang sebenar (cth pelanggan, pesakit, pekerja dsb.) dan melalui semua proses dalaman anda, data sintetik dijana oleh algoritma komputer. Algoritma komputer ini menjana titik data baharu dan tiruan sepenuhnya.

Selesaikan cabaran privasi data

Data yang dijana secara sintetik terdiri daripada titik data baharu dan tiruan sepenuhnya tanpa hubungan satu dengan satu dengan data asal. Oleh itu, tiada titik data sintetik boleh dikesan kembali atau direkayasa terbalik kepada data asal. Akibatnya, data sintetik dikecualikan daripada peraturan privasi, seperti GDPR dan berfungsi sebagai penyelesaian untuk menyelesaikan dan mengatasi cabaran privasi data.

Tambah dan simulasi

Aspek generatif penjanaan data sintetik membolehkan untuk menambah dan mensimulasikan data baharu sepenuhnya. Ini berfungsi sebagai penyelesaian apabila anda tidak mempunyai data yang mencukupi (kekurangan data), ingin menambah sampel kes tepi atau apabila anda belum mempunyai data lagi.

Di sini, fokus Syntho adalah data berstruktur (data diformat dalam jadual yang mengandungi baris dan lajur, seperti yang anda lihat dalam helaian Excel), tetapi kami selalu ingin menggambarkan konsep data sintetik melalui gambar, kerana lebih menarik.

Jenis data sintetik

Tiga jenis data sintetik memang wujud dalam payung data sintetik. 3 jenis data sintetik tersebut ialah: data tiruan, data sintetik yang dijana berdasarkan peraturan dan data sintetik yang dijana oleh kecerdasan buatan (AI). Kami menerangkan secara ringkas tentang 3 jenis data sintetik yang berbeza.

Data tiruan / data olok-olok

Data dummy ialah data yang dijana secara rawak (cth. oleh penjana data olok-olok).

Akibatnya, ciri, perhubungan dan corak statistik yang terdapat dalam data asal tidak dipelihara, ditangkap dan diterbitkan semula dalam data dummy yang dijana. Oleh itu, keterwakilan data tiruan / data olok-olok adalah minimum berbanding dengan data asal.

  • Bila hendak menggunakannya: untuk menggantikan pengecam langsung (PII) atau apabila anda tidak mempunyai data (belum) dan tidak mahu menghabiskan masa dan tenaga untuk menentukan peraturan.

Data sintetik yang dihasilkan berdasarkan peraturan

Data sintetik yang dijana berasaskan peraturan ialah data sintetik yang dijana oleh set peraturan yang telah ditetapkan. Contoh peraturan yang dipratakrifkan itu mungkin anda ingin mempunyai data sintetik dengan nilai minimum, nilai maksimum atau nilai purata tertentu. Mana-mana ciri, perhubungan dan corak statistik, yang anda ingin hasilkan semula dalam data sintetik yang dijana berdasarkan peraturan, perlu dipratakrifkan.

Akibatnya, kualiti data akan menjadi sebaik set peraturan yang telah ditetapkan. Ini mengakibatkan cabaran apabila kualiti data yang tinggi adalah penting. Pertama, seseorang hanya boleh menentukan set peraturan terhad untuk ditangkap dalam data sintetik. Selain itu, menetapkan berbilang peraturan biasanya akan mengakibatkan peraturan yang bertindih dan bercanggah. Selain itu, anda tidak akan meliputi sepenuhnya semua peraturan yang berkaitan. Tambahan pula, mungkin terdapat peraturan berkaitan yang anda tidak tahu. Dan akhirnya (dan tidak lupa), ini akan membawa anda banyak masa dan tenaga yang menghasilkan penyelesaian yang tidak cekap.

  • Bila hendak menggunakannya: apabila anda tidak mempunyai data (belum)

Data sintetik yang dihasilkan oleh kecerdasan buatan (AI)

Seperti yang anda jangkakan daripada namanya, data sintetik yang dijana oleh kecerdasan buatan (AI) ialah data sintetik yang dijana oleh algoritma kecerdasan buatan (AI). Model AI dilatih pada data asal untuk mempelajari semua ciri, perhubungan dan corak statistik. Selepas itu, algoritma AI ini dapat menjana titik data baharu sepenuhnya dan memodelkan titik data baharu tersebut dengan cara yang menghasilkan semula ciri, perhubungan dan corak statistik daripada set data asal. Inilah yang kami panggil kembar data sintetik.

Model AI meniru data asal untuk menghasilkan kembar data sintetik yang boleh digunakan seolah-olah ia adalah data asal. Ini membuka kunci pelbagai kes penggunaan di mana data sintetik yang dijana AI boleh digunakan sebagai alternatif untuk menggunakan data asal (sensitif), seperti penggunaan data sintetik yang dijana AI sebagai data ujian, data demo atau untuk analisis.

Visualisasi cara data sintetik dicipta

Berbanding dengan data sintetik yang dijana berasaskan peraturan: bukannya anda mengkaji dan menentukan peraturan yang berkaitan, algoritma AI melakukan ini secara automatik untuk anda. Di sini, bukan sahaja ciri, hubungan dan corak statistik yang anda ketahui akan dilindungi, juga ciri, hubungan dan corak statistik yang anda tidak sedari akan dilindungi.

  • Bila hendak menggunakannya: apabila anda mempunyai (beberapa) data sebagai input untuk ditiru atau digunakan sebagai titik permulaan bagi ciri penjanaan dan penambahan data pintar

Apakah jenis data sintetik untuk digunakan?

Bergantung pada kes penggunaan anda, gabungan data tiruan / data olok-olok, data sintetik yang dijana berdasarkan peraturan atau data sintetik yang dijana oleh kecerdasan buatan (AI) adalah dinasihatkan. Gambaran keseluruhan ini memberi anda petunjuk pertama jenis data sintetik yang hendak digunakan. Memandangkan Syntho menyokong kesemuanya, sila hubungi pakar kami untuk mendalami kes penggunaan anda dengan kami.

Carta ini membentangkan pelbagai jenis data sintetik

penutup panduan syntho

Simpan panduan data sintetik anda sekarang!