Data anonim vs Data sintetis

Jika Anda menganonimkan data Anda sebelum melakukan pengujian data analitik data, ada beberapa faktor yang berperan:

  1. Di hampir semua kasus, data yang dianonimkan masih dapat ditelusuri kembali ke individu karena baris yang spesifik dan unik (misalnya rekam medis)
  2. Semakin banyak Anda menganonimkan atau menggeneralisasi, semakin banyak data yang Anda hancurkan. Ini menurunkan kualitas data Anda dan dengan demikian wawasan Anda
  3. Anonimisasi bekerja secara berbeda untuk format data yang berbeda. Ini berarti tidak terukur dan bisa sangat memakan waktu

Data sintetis menyelesaikan semua kekurangan ini dan banyak lagi. Tonton video di bawah ini untuk melihat pakar analitik dari SAS (pemimpin pasar global dalam analitik) menjelaskan tentang penilaiannya tentang perbedaan kualitas antara data asli, data yang dianonimkan, dan oleh data sintetis yang dihasilkan Syntho.

Video ini diambil dari Syntho x SAS D[N]A Café tentang Data Sintetis yang Dihasilkan AI. Temukan video lengkapnya di sini.

Edwin van Unen mengirim dataset asli ke Syntho dan kami mensintesis dataset. Tetapi pertanyaannya juga: “Apa yang akan terjadi jika kita membandingkan data sintetis dengan data yang dianonimkan?” Karena Anda kehilangan banyak informasi dalam data yang dianonimkan, apakah ini juga akan terjadi saat mensintesis kumpulan data? Kami memulai dengan kumpulan data dari industri telekomunikasi dengan 56.000 baris dan 128 kolom informasi churn perusahaan. Dataset ini disintesis dan dianonimkan sehingga Edwin dapat membandingkan sintesis dengan anonimisasi. Kemudian, Edwin mulai menjadi model menggunakan SAS Viya. Dia membangun beberapa model churn pada dataset asli, menggunakan teknik regresi klasik dan pohon keputusan, tetapi juga teknik yang lebih canggih seperti jaringan saraf, peningkatan gradien, hutan acak – teknik semacam ini. Menggunakan opsi SAS Viya standar saat membuat model.

Kemudian, saatnya untuk melihat hasilnya. Hasilnya sangat menjanjikan untuk data sintetis dan bukan untuk anonimisasi. Untuk pakar pembelajaran non-mesin di antara audiens, kami melihat area di bawah kurva ROC yang menunjukkan sesuatu tentang keakuratan model. Membandingkan data asli dengan data anonim, kita melihat bahwa model data asli memiliki area di bawah kurva ROC 8, yang cukup bagus, Namun, data anonim memiliki area di bawah kurva ROC 6. Ini berarti kami kehilangan banyak informasi dengan model anonim sehingga Anda kehilangan banyak daya prediksi.

Tapi kemudian, pertanyaannya adalah bagaimana dengan data sintetis? Di sini, kami melakukan hal yang persis sama tetapi alih-alih menganonimkan data, Syntho mensintesis data. Sekarang, kita melihat data asli dan data sintetis memiliki area di bawah kurva ROC 8, yang sangat mirip. Tidak persis sama karena variabilitas, tetapi sangat mirip. Artinya, potensi data sintetik sangat menjanjikan – Edwin sangat senang dengan hal ini.

sekelompok orang tersenyum

Data itu sintetis, tapi tim kami nyata!

Hubungi Syntho dan salah satu pakar kami akan menghubungi Anda secepat cahaya untuk menjelajahi nilai data sintetis!