Anonymiséiert Daten vs Synthetesch Daten

Wann Dir Är Donnéeën anonymiséiert ier Dir Datetestung vun Datenanalytik ausféiert, sinn et e puer Faktoren am Spill:

  1. A bal alle Fäll kënnen anonymiséiert Donnéeën nach ëmmer op Individuen zréckverfollegt ginn wéinst spezifeschen an eenzegaartege Reihen (zB medezinesch records)
  2. Wat Dir méi anonymiséiert oder generaliséiert, wat méi Daten Dir zerstéiert. Dëst reduzéiert d'Qualitéit vun Ären Donnéeën an domat Är Abléck
  3. Anonymiséierung funktionnéiert anescht fir verschidden Dateformater. Dëst bedeit datt et net skalierbar ass a ganz Zäitopwendeg ka sinn

Synthetesch Donnéeën léisen all dës Mängel a méi. Kuckt de Video hei ënnen fir en Analytiksexpert vu SAS (globale Maart Leader an der Analytik) ze gesinn iwwer seng Bewäertung iwwer den Ënnerscheed an der Qualitéit tëscht originelle Donnéeën, anonymiséierter Donnéeën an duerch Syntho generéiert syntheteschen Donnéeën.

Dëse Video ass aus dem Syntho x SAS D[N]A Café iwwer AI Generated Synthetic Data ageholl. Fannt de komplette Video hei.

Den Edwin van Unen huet en originelle Dataset un Syntho geschéckt a mir hunn den Dataset synthetiséiert. Awer d'Fro war och: "Wat geschitt wa mir synthetesch Donnéeën mat anonymiséierter Donnéeën vergläichen?" Well Dir verléiert vill Informatioun an anonymiséierten Donnéeën, wäert dat och geschéien wann Dir en Dataset synthetiséiert? Mir hunn ugefaang mat engem Dataset aus der Telekommunikatiounsindustrie mat 56.000 Reihen an 128 Kolonnen vun der Firma Churn-Informatioun. Dësen Dataset gouf souwuel synthetiséiert an anonymiséiert sou datt den Edwin Synthetiséierung mat Anonymiséierung vergläiche konnt. Dunn huet den Edwin ugefaang mat SAS Viya ze modelléieren. Hien huet e puer Churn Modeller op der ursprénglecher Dataset gebaut, mat klassesche Regressiounstechniken an Entscheedungsbeem, awer och méi sophistikéiert Techniken wéi neural Netzwierker, Gradient Boost, zoufälleg Bësch - dës Aarte vun Techniken. Benotzt d'Standard SAS Viya Optiounen beim Bau vun de Modeller.

Dunn war et Zäit d'Resultater ze kucken. D'Resultater ware ganz villverspriechend fir synthetesch Donnéeën an net fir Anonymiséierung. Fir d'None-Machine-Learning Experten am Publikum kucke mir d'Gebitt ënner der ROC-Kurve déi eppes iwwer d'Genauegkeet vum Modell seet. Wann Dir d'Originaldaten mat den anonymiséierten Donnéeën vergläicht, gesi mir datt den ursprénglechen Datemodell e Gebitt ënner der ROC-Kurve vun .8 huet, wat zimlech gutt ass, Wéi och ëmmer, déi anonymiséiert Daten hunn e Gebitt ënner der ROC-Kurve vun .6. Dëst bedeit datt mir vill Informatioun mam anonymiséierte Modell verléieren sou datt Dir vill Prädiktivkraaft verléiert.

Awer dann ass d'Fro wat iwwer synthetesch Daten? Hei hu mir genau datselwecht gemaach, awer amplaz d'Donnéeën ze anonymiséieren, huet de Syntho d'Donnéeën synthetiséiert. Elo gesi mir souwuel d'Originaldaten wéi och d'synthetesch Donnéeën e Gebitt ënner der ROC-Kurve vun .8, wat ganz ähnlech ass. Net genau d'selwecht wéinst der Variabilitéit, awer ganz ähnlech. Dëst bedeit datt d'Potenzial vu syntheteschen Daten ganz villverspriechend ass - Edwin ass ganz frou doriwwer.

Grupp vu Leit laachen

Daten sinn synthetesch, awer eis Team ass real!

Kontakt Syntho an ee vun eisen Experten wäert Iech mat der Liichtgeschwindegkeet kontaktéieren fir de Wäert vun syntheteschen Daten ze entdecken!