Anonimizirani podaci naspram sintetičkih podataka

Ako svoje podatke anonimizirate prije izvođenja testiranja podataka analitike podataka, u igri je nekoliko čimbenika:

U gotovo svim slučajevima, anonimizirani podaci još uvijek se mogu pratiti do pojedinaca zbog specifičnih i jedinstvenih redova (npr. medicinske dokumentacije)
Što više anonimizirate ili generalizirate, više podataka uništavate. To smanjuje kvalitetu vaših podataka, a time i vaših uvida
Anonimizacija funkcionira drugačije za različite formate podataka. To znači da nije skalabilno i može biti dugotrajno

Sintetički podaci rješavaju sve ove nedostatke i više. Pogledajte videozapis u nastavku kako biste vidjeli kako stručnjak za analitiku iz SAS-a (globalnog tržišnog lidera u analitici) objašnjava svoju procjenu o razlici u kvaliteti između izvornih podataka, anonimiziranih podataka i sintetičkih podataka koje je generirao Syntho.

Ovaj video je snimljen iz Syntho x SAS D[N]A Caféa o sintetičkim podacima generiranim umjetnom inteligencijom. Cijeli video pronađite ovdje.

Edwin van Unen poslao je izvorni skup podataka u Syntho i mi smo sintetizirali skup podataka. Ali pitanje je također bilo: "Što će se dogoditi ako usporedimo sintetičke podatke s anonimiziranim podacima?" Budući da gubite puno informacija u anonimiziranim podacima, hoće li se to dogoditi i pri sintetiziranju skupa podataka? Počeli smo sa skupom podataka iz telekomunikacijske industrije s 56.000 redaka i 128 stupaca informacija o odljevu poduzeća. Ovaj skup podataka bio je i sintetiziran i anonimiziran kako bi Edwin mogao usporediti sintetizaciju s anonimizacijom. Zatim se Edwin počeo baviti modeliranjem koristeći SAS Viya. Izgradio je nekoliko modela churn na izvornom skupu podataka, koristeći klasične tehnike regresije i stabla odlučivanja, ali i sofisticiranije tehnike kao što su neuronske mreže, povećanje gradijenta, slučajna šuma – ove vrste tehnika. Korištenje standardnih opcija SAS Viya pri izradi modela.

Onda je došlo vrijeme da pogledamo rezultate. Rezultati su bili vrlo obećavajući za sintetičke podatke, a ne za anonimizaciju. Za stručnjake koji ne uče strojno u publici, gledamo područje ispod ROC krivulje što govori nešto o točnosti modela. Uspoređujući izvorne podatke s anonimiziranim podacima, vidimo da izvorni model podataka ima područje ispod ROC krivulje od .8, što je prilično dobro, međutim, anonimizirani podaci imaju područje ispod ROC krivulje od .6. To znači da gubimo puno informacija s anonimiziranim modelom tako da gubite puno prediktivne moći.

Ali onda se postavlja pitanje što je sa sintetičkim podacima? Ovdje smo učinili potpuno isto, ali umjesto anonimizacije podataka, Syntho je sintetizirao podatke. Sada vidimo da i izvorni podaci i sintetski podaci imaju područje ispod ROC-krivulje od 8, što je vrlo slično. Nije baš isti zbog varijabilnosti, ali vrlo sličan. To znači da je potencijal sintetičkih podataka vrlo obećavajući - Edwin je vrlo sretan zbog toga.

Podaci su sintetički, ali naš tim je stvaran!

Kontaktirajte Syntho a jedan od naših stručnjaka stupit će u kontakt s vama brzinom svjetlosti kako bi istražio vrijednost sintetičkih podataka!

Što su sintetički podaci?

Izvješće o osiguranju kvalitete

Vanjska evaluacija od strane SAS-a

Vremenske serije sintetičkih podataka

Skener PII

Sintetički lažni podaci

Dosljedno preslikavanje

Deidentifikacija i sintetizacija

Sintetički podaci temeljeni na pravilima

Podskup

Implementacija i integracija

Priključnice

Proširene mogućnosti

Podržani podaci

Korisnička dokumentacija

Zakažite demo

Cijene

Sintetički podaci kao testni podaci

Sintetski podaci za analitiku

Sintetički podaci za dijeljenje podataka

Sintetički podaci za demo proizvode

Zdravstvo

Financije

Javne organizacije

Korisnička dokumentacija

Bijele knjige i vodiči

Blog

Webinari

Studije slučaja

Cijene

O nama

Posao

Anonimizirani podaci naspram sintetičkih podataka

Podaci su sintetički, ali naš tim je stvaran!

Koje poslove obavljamo

O nama

Resursi

Syntho bilten

Glavni izbornik