Data anonim vs data sintétik

Upami anjeun anonimkeun data anjeun sateuacan ngalakukeun uji data analitik data, aya sababaraha faktor anu dimaénkeun:

  1. Dina ampir kabéh kasus, data anonim masih bisa disusud deui ka individu alatan baris husus tur unik (misalna catetan médis)
  2. Beuki anjeun anonim atanapi ngageneralisasi, langkung seueur data anjeun ngancurkeun. Ieu nurunkeun kualitas data anjeun sahingga wawasan anjeun
  3. Anonymization jalan béda pikeun format data béda. Ieu ngandung harti yén éta henteu scalable sareng tiasa nyéépkeun waktos pisan

Data sintétik ngarengsekeun sadaya kakurangan ieu sareng seueur deui. Tonton pidéo di handap pikeun ningali ahli analitik ti SAS (pamimpin pasar global dina analytics) ngajelaskeun ngeunaan penilaianna ngeunaan bédana kualitas antara data asli, data anonim sareng ku Syntho ngahasilkeun data sintétik.

Video ieu dicandak tina Syntho x SAS D[N]A Café ngeunaan AI Generated Synthetic Data. Manggihan video pinuh dieu.

Edwin van Unen ngirim set data asli ka Syntho sareng kami nyintésis set data. Tapi patarosanna ogé: "Naon anu bakal kajadian upami urang ngabandingkeun data sintétik sareng data anonim?" Kusabab anjeun kaleungitan seueur inpormasi dina data anu henteu namina, naha ieu ogé bakal kajantenan nalika nyintésis set data? Urang dimimitian ku dataset ti industri telekomunikasi kalawan 56.000 baris jeung 128 kolom churn-informasi parusahaan. Dataset ieu duanana disintésis sareng anonim supados Edwin tiasa ngabandingkeun sintésis sareng anonimisasi. Lajeng, Edwin ngamimitian modeling ngagunakeun SAS Viya. Anjeunna ngawangun sababaraha model churn dina set data asli, ngagunakeun téknik régrési klasik sareng tangkal kaputusan, tapi ogé téknik anu langkung canggih sapertos jaringan saraf, gradient boosting, leuweung acak - téknik sapertos kieu. Ngagunakeun pilihan SAS Viya standar nalika ngawangun model.

Lajeng, éta waktu kasampak di hasilna. Hasilna ngajangjikeun pisan pikeun data sintétik sareng sanés pikeun anonimisasi. Pikeun ahli none-mesin-learning di panongton, urang kasampak di wewengkon handapeun ROC-kurva nu ngabejaan hal ngeunaan akurasi model. Ngabandingkeun data aslina mun data anonymized, urang tingali yen model data aslina boga wewengkon handapeun ROC-kurva .8, nu geulis alus, Sanajan kitu, data anonymized boga wewengkon handapeun ROC-kurva .6. Ieu ngandung harti urang leungit loba informasi jeung model anonymized jadi Anjeun leungit loba kakuatan prediksi.

Tapi teras, patarosan na kumaha upami data sintétik? Di dieu, urang ngalakukeun persis sarua tapi tinimbang anonymizing data, Syntho disintésis data. Ayeuna, urang tingali duanana data aslina tur data sintétik boga wewengkon handapeun ROC-kurva .8, nu sarupa pisan. Teu persis sarua alatan variability, tapi pisan sarupa. Ieu ngandung harti, potensi data sintétik pisan ngajangjikeun - Edwin pisan senang ngeunaan ieu.

rombongan jalma mesem

Data sintétik, tapi tim kami nyata!

Kontak Syntho sareng salah sahiji ahli kami bakal ngahubungi anjeun dina laju cahaya pikeun ngajalajah nilai data sintétis!