Anonimizirani podaci naspram sintetičkih podataka

Ako svoje podatke anonimizirate prije izvođenja testiranja podataka analitike podataka, u igri je nekoliko čimbenika:

  1. U gotovo svim slučajevima, anonimizirani podaci još uvijek se mogu pratiti do pojedinaca zbog specifičnih i jedinstvenih redova (npr. medicinske dokumentacije)
  2. Što više anonimizirate ili generalizirate, više podataka uništavate. To smanjuje kvalitetu vaših podataka, a time i vaših uvida
  3. Anonimizacija funkcionira drugačije za različite formate podataka. To znači da nije skalabilno i može biti dugotrajno

Sintetički podaci rješavaju sve ove nedostatke i više. Pogledajte videozapis u nastavku kako biste vidjeli kako stručnjak za analitiku iz SAS-a (globalnog tržišnog lidera u analitici) objašnjava svoju procjenu o razlici u kvaliteti između izvornih podataka, anonimiziranih podataka i sintetičkih podataka koje je generirao Syntho.

Ovaj video je snimljen iz Syntho x SAS D[N]A Caféa o sintetičkim podacima generiranim umjetnom inteligencijom. Cijeli video pronađite ovdje.

Edwin van Unen poslao je izvorni skup podataka u Syntho i mi smo sintetizirali skup podataka. Ali pitanje je također bilo: "Što će se dogoditi ako usporedimo sintetičke podatke s anonimiziranim podacima?" Budući da gubite puno informacija u anonimiziranim podacima, hoće li se to dogoditi i pri sintetiziranju skupa podataka? Počeli smo sa skupom podataka iz telekomunikacijske industrije s 56.000 redaka i 128 stupaca informacija o odljevu poduzeća. Ovaj skup podataka bio je i sintetiziran i anonimiziran kako bi Edwin mogao usporediti sintetizaciju s anonimizacijom. Zatim se Edwin počeo baviti modeliranjem koristeći SAS Viya. Izgradio je nekoliko modela churn na izvornom skupu podataka, koristeći klasične tehnike regresije i stabla odlučivanja, ali i sofisticiranije tehnike kao što su neuronske mreže, povećanje gradijenta, slučajna šuma – ove vrste tehnika. Korištenje standardnih opcija SAS Viya pri izradi modela.

Onda je došlo vrijeme da pogledamo rezultate. Rezultati su bili vrlo obećavajući za sintetičke podatke, a ne za anonimizaciju. Za stručnjake koji ne uče strojno u publici, gledamo područje ispod ROC krivulje što govori nešto o točnosti modela. Uspoređujući izvorne podatke s anonimiziranim podacima, vidimo da izvorni model podataka ima područje ispod ROC krivulje od .8, što je prilično dobro, međutim, anonimizirani podaci imaju područje ispod ROC krivulje od .6. To znači da gubimo puno informacija s anonimiziranim modelom tako da gubite puno prediktivne moći.

Ali onda se postavlja pitanje što je sa sintetičkim podacima? Ovdje smo učinili potpuno isto, ali umjesto anonimizacije podataka, Syntho je sintetizirao podatke. Sada vidimo da i izvorni podaci i sintetski podaci imaju područje ispod ROC-krivulje od 8, što je vrlo slično. Nije baš isti zbog varijabilnosti, ali vrlo sličan. To znači da je potencijal sintetičkih podataka vrlo obećavajući - Edwin je vrlo sretan zbog toga.

skupina nasmijanih ljudi

Podaci su sintetički, ali naš tim je stvaran!

Kontaktirajte Syntho a jedan od naših stručnjaka stupit će u kontakt s vama brzinom svjetlosti kako bi istražio vrijednost sintetičkih podataka!