Apa itu data sintetis?

Data sintetis kursus kilat

 

 

Pengantar

Apa itu data sintetis?

Jawabannya relatif sederhana. Sedangkan data asli dikumpulkan dalam semua interaksi Anda dengan orang nyata (misalnya klien, pasien, karyawan, dll.) dan melalui semua proses internal Anda, data sintetis dihasilkan oleh algoritme komputer. Algoritma komputer ini menghasilkan titik data yang benar-benar baru dan buatan.

Selesaikan tantangan privasi data

Data yang dihasilkan secara sintetis terdiri dari titik data yang benar-benar baru dan buatan tanpa hubungan satu-ke-satu dengan data asli. Oleh karena itu, tidak ada titik data sintetis yang dapat dilacak kembali atau direkayasa balik ke data asli. Akibatnya, data sintetis dikecualikan dari peraturan privasi, seperti GDPR dan berfungsi sebagai solusi untuk memecahkan dan mengatasi tantangan privasi data.

Menambah dan mensimulasikan

Aspek generatif dari pembuatan data sintetik memungkinkan untuk menambah dan mensimulasikan data yang benar-benar baru. Ini berfungsi sebagai solusi ketika Anda tidak memiliki cukup data (kelangkaan data), ingin up-sampel edge-cases atau ketika Anda belum memiliki data.

Di sini, fokus Syntho adalah data terstruktur (data yang diformat dalam tabel yang berisi baris dan kolom, seperti yang Anda lihat di lembar Excel), tetapi kami selalu ingin mengilustrasikan konsep data sintetis melalui gambar, karena lebih menarik.

Jenis data sintetis

Tiga jenis data sintetis memang ada dalam payung data sintetis. Ketiga jenis data sintetik tersebut adalah: data dummy, data sintetik yang dihasilkan berdasarkan aturan, dan data sintetik yang dihasilkan oleh kecerdasan buatan (AI). Kami akan menjelaskan secara singkat 3 jenis data sintetis yang berbeda.

Data tiruan / data tiruan

Data dummy adalah data yang dihasilkan secara acak (misalnya oleh generator data tiruan).

Akibatnya, karakteristik, hubungan, dan pola statistik yang ada dalam data asli tidak dipertahankan, ditangkap, dan direproduksi dalam data dummy yang dihasilkan. Oleh karena itu, keterwakilan data dummy/data tiruan minimal dibandingkan dengan data aslinya.

  • Kapan menggunakannya: untuk mengganti pengenal langsung (PII) atau ketika Anda tidak memiliki data (belum) dan tidak ingin menghabiskan waktu dan energi untuk menetapkan aturan.

Data sintetis yang dihasilkan berdasarkan aturan

Data sintetik yang dihasilkan berdasarkan aturan adalah data sintetik yang dihasilkan oleh seperangkat aturan yang telah ditentukan sebelumnya. Contoh aturan yang telah ditentukan sebelumnya adalah Anda ingin memiliki data sintetis dengan nilai minimum, nilai maksimum, atau nilai rata-rata tertentu. Setiap karakteristik, hubungan, dan pola statistik, yang ingin Anda buat ulang dalam data sintetis yang dihasilkan berbasis aturan, perlu ditentukan sebelumnya.

Akibatnya, kualitas data akan sebaik set aturan yang telah ditentukan sebelumnya. Hal ini menimbulkan tantangan ketika kualitas data yang tinggi sangat penting. Pertama, seseorang hanya dapat mendefinisikan seperangkat aturan terbatas untuk ditangkap dalam data sintetik. Selain itu, menyiapkan beberapa aturan biasanya akan menghasilkan aturan yang tumpang tindih dan bertentangan. Selain itu, Anda tidak akan pernah sepenuhnya mencakup semua aturan yang relevan. Selain itu, mungkin ada aturan relevan yang bahkan tidak Anda sadari. Dan akhirnya (dan jangan lupa), ini akan memakan banyak waktu dan energi Anda sehingga menghasilkan solusi yang tidak efisien.

  • Kapan menggunakannya: ketika Anda tidak memiliki data (belum)

Data sintetis yang dihasilkan oleh kecerdasan buatan (AI)

Seperti yang Anda harapkan dari namanya, data sintetis yang dihasilkan oleh kecerdasan buatan (AI) adalah data sintetis yang dihasilkan oleh algoritma kecerdasan buatan (AI). Model AI dilatih pada data asli untuk mempelajari semua karakteristik, hubungan, dan pola statistik. Setelah itu, algoritme AI ini mampu menghasilkan titik data yang benar-benar baru dan memodelkan titik data baru tersebut sedemikian rupa sehingga mereproduksi karakteristik, hubungan, dan pola statistik dari kumpulan data asli. Inilah yang kami sebut sebagai kembaran data sintetis.

Model AI meniru data asli untuk menghasilkan kembaran data sintetis yang dapat digunakan seolah-olah itu adalah data asli. Ini membuka berbagai kasus penggunaan di mana data sintetis yang dihasilkan AI dapat digunakan sebagai alternatif untuk menggunakan data asli (sensitif), seperti penggunaan data sintetis yang dihasilkan AI sebagai data uji, data demo, atau untuk analitik.

Visualisasi bagaimana data sintetik dibuat

Dibandingkan dengan data sintetis yang dihasilkan berdasarkan aturan: alih-alih Anda mempelajari dan menentukan aturan yang relevan, algoritme AI melakukannya secara otomatis untuk Anda. Di sini, tidak hanya karakteristik, hubungan, dan pola statistik yang Anda ketahui akan dibahas, juga karakteristik, hubungan, dan pola statistik yang bahkan tidak Anda sadari akan dibahas.

  • Kapan menggunakannya: ketika Anda memiliki (sebagian) data sebagai input untuk ditiru atau digunakan sebagai titik awal untuk pembuatan data pintar dan fitur augmentasi

Jenis data sintetis apa yang digunakan?

Bergantung pada kasus penggunaan Anda, kombinasi data dummy / data tiruan, data sintetis yang dihasilkan berbasis aturan, atau data sintetis yang dihasilkan oleh kecerdasan buatan (AI) disarankan. Ikhtisar ini memberi Anda indikasi pertama tentang jenis data sintetis yang akan digunakan. Karena Syntho mendukung semuanya, jangan ragu untuk menghubungi pakar kami untuk mendalami kasus penggunaan Anda bersama kami.

Bagan ini menyajikan berbagai jenis data sintetik

sampul panduan syntho

Simpan panduan data sintetis Anda sekarang!