Data awanama lwn Data sintetik

Jika anda menamakan data anda sebelum melakukan ujian data analisis data, terdapat beberapa faktor yang berperanan:

  1. Dalam hampir semua kes, data tanpa nama masih boleh dikesan kembali kepada individu kerana baris khusus dan unik (cth rekod perubatan)
  2. Lebih banyak anda menamakan atau menyamaratakan, lebih banyak data yang anda musnahkan. Ini merendahkan kualiti data anda dan dengan itu cerapan anda
  3. Anonimasi berfungsi secara berbeza untuk format data yang berbeza. Ini bermakna ia tidak berskala dan boleh memakan masa yang lama

Data sintetik menyelesaikan semua kekurangan ini dan banyak lagi. Tonton video di bawah untuk melihat pakar analitik daripada SAS (peneraju pasaran global dalam analitik) menerangkan tentang penilaiannya tentang perbezaan kualiti antara data asal, data tanpa nama dan data sintetik yang dijana oleh Syntho.

Video ini ditangkap daripada Kafe Syntho x SAS D[N]A tentang Data Sintetik Dijana AI. Cari video penuh di sini.

Edwin van Unen menghantar set data asal kepada Syntho dan kami mensintesis set data tersebut. Tetapi persoalannya juga: "Apakah yang akan berlaku jika kami membandingkan data sintetik dengan data tanpa nama?" Kerana anda kehilangan banyak maklumat dalam data awanama, adakah ini juga akan berlaku semasa mensintesis set data? Kami bermula dengan set data daripada industri telekomunikasi dengan 56.000 baris dan 128 lajur maklumat churn-syarikat. Set data ini telah disintesis dan dianonimkan supaya Edwin dapat membandingkan pensintesisan dengan anonimasi. Kemudian, Edwin mula bermodel menggunakan SAS Viya. Dia membina beberapa model churn pada set data asal, menggunakan teknik regresi klasik dan pepohon keputusan, tetapi juga teknik yang lebih canggih seperti rangkaian saraf, peningkatan kecerunan, hutan rawak – teknik jenis ini. Menggunakan pilihan SAS Viya standard semasa membina model.

Kemudian, tiba masanya untuk melihat hasilnya. Hasilnya sangat menjanjikan untuk data sintetik dan bukan untuk anonimisasi. Bagi pakar bukan mesin-pembelajaran dalam khalayak, kami melihat kawasan di bawah lengkung ROC yang memberitahu sesuatu tentang ketepatan model. Membandingkan data asal kepada data tanpa nama, kita melihat bahawa model data asal mempunyai kawasan di bawah lengkung ROC sebanyak .8, yang cukup bagus, Walau bagaimanapun, data tanpa nama mempunyai kawasan di bawah lengkung ROC sebanyak .6. Ini bermakna kami kehilangan banyak maklumat dengan model tanpa nama supaya anda kehilangan banyak kuasa ramalan.

Tetapi kemudian, persoalannya ialah bagaimana dengan data sintetik? Di sini, kami melakukan perkara yang sama tetapi bukannya menamakan data, Syntho mensintesis data tersebut. Kini, kita melihat kedua-dua data asal dan data sintetik mempunyai kawasan di bawah lengkung ROC .8, yang hampir sama. Tidak betul-betul sama kerana kebolehubahan, tetapi sangat serupa. Ini bermakna, potensi data sintetik sangat menjanjikan - Edwin sangat gembira tentang perkara ini.

sekumpulan orang tersenyum

Data adalah sintetik, tetapi pasukan kami adalah sebenar!

Hubungi Syntho dan salah seorang pakar kami akan menghubungi anda dengan kelajuan cahaya untuk meneroka nilai data sintetik!