Data anonim vs data sintetis

Yen sampeyan anonim data sadurunge nindakake testing data analytics data, ana sawetara faktor ing muter:

  1. Ing meh kabeh kasus, data anonim isih bisa dilacak menyang individu amarga baris tartamtu lan unik (contone, cathetan medis)
  2. Luwih akeh sampeyan anonim utawa umum, luwih akeh data sing dirusak. Iki nyuda kualitas data lan kanthi mangkono wawasan sampeyan
  3. Anonymization dianggo beda kanggo macem-macem format data. Iki tegese ora bisa diukur lan bisa dadi akeh wektu

Data sintetis ngrampungake kabeh kekurangan kasebut lan liya-liyane. Nonton video ing ngisor iki kanggo ndeleng pakar analytics saka SAS (pamimpin pasar global ing analytics) nerangake babagan penilaian babagan bedane kualitas antarane data asli, data anonim lan data sintetik sing digawe dening Syntho.

Video iki dijupuk saka Syntho x SAS D[N]A Café babagan AI Generated Synthetic Data. Temokake video lengkap ing kene.

Edwin van Unen ngirim set data asli menyang Syntho lan kita sintesis set data kasebut. Nanging pitakonan uga: "Apa sing bakal kelakon yen kita mbandhingake data sintetik karo data anonim?" Amarga sampeyan kelangan akeh informasi ing data anonim, iki uga bakal kelakon nalika sintesis dataset? Kita miwiti karo dataset saka industri telekomunikasi karo 56.000 larik lan 128 kolom perusahaan churn-informasi. Dataset iki disintesis lan dianonimake supaya Edwin bisa mbandhingake sintesis karo anonimisasi. Banjur, Edwin miwiti modeling nggunakake SAS Viya. Dheweke nggawe sawetara model churn ing set data asli, nggunakake teknik regresi klasik lan wit keputusan, nanging uga teknik sing luwih canggih kayata jaringan saraf, gradient boosting, alas acak - teknik kasebut. Nggunakake opsi SAS Viya standar nalika mbangun model.

Banjur, wektu kanggo ndeleng asil. Asil kasebut janjeni banget kanggo data sintetik lan ora kanggo anonimisasi. Kanggo ahli ora-mesin-learning ing pirsawan, kita katon ing wilayah ing ROC-kurva kang ngandhani soko bab akurasi model. Mbandingaken data asli kanggo data anonymized, kita waca sing model data asli wis area ing ROC-kurva .8, kang cukup apik, Nanging, data anonymized wis area ing ROC-kurva .6. Iki tegese kita kelangan akeh informasi karo model anonim supaya sampeyan kelangan akeh daya prediksi.

Nanging banjur, pitakonan apa data sintetik? Ing kene, kita nindakake persis padha nanging tinimbang anonim data, Syntho nyintesis data kasebut. Saiki, kita ndeleng data asli lan data sintetik duwe area ing sangisore kurva ROC .8, sing meh padha. Ora persis padha amarga variabilitas, nanging meh padha. Iki tegese, potensial data sintetik banget njanjeni - Edwin seneng banget babagan iki.

kumpulan wong mesem

Data iku sintetis, nanging tim kita nyata!

Hubungi Syntho lan salah sawijining pakar kita bakal sesambungan karo sampeyan kanthi cepet kanggo njelajah nilai data sintetik!