Anonimizirani podaci naspram sintetičkih podataka

Ako svoje podatke anonimizirate prije nego što izvršite testiranje podataka analitike podataka, u igri je nekoliko faktora:

  1. U gotovo svim slučajevima, anonimni podaci se još uvijek mogu pratiti do pojedinaca zbog specifičnih i jedinstvenih redova (npr. medicinski kartoni)
  2. Što više anonimizirate ili generalizirate, više podataka uništavate. To smanjuje kvalitetu vaših podataka, a time i uvida
  3. Anonimizacija funkcionira drugačije za različite formate podataka. To znači da nije skalabilno i može biti dugotrajno

Sintetički podaci rješavaju sve ove nedostatke i još mnogo toga. Pogledajte video ispod kako biste vidjeli kako stručnjak za analitiku iz SAS-a (globalnog tržišnog lidera u analitici) objašnjava svoju procjenu o razlici u kvalitetu između originalnih podataka, anonimiziranih podataka i sintetičkih podataka generiranih od strane Syntho-a.

Ovaj video je snimljen iz Syntho x SAS D[N]A Caféa o sintetičkim podacima generiranim umjetnom inteligencijom. Cijeli video pronađite ovdje.

Edwin van Unen je poslao originalni skup podataka u Syntho i mi smo sintetizirali skup podataka. Ali pitanje je bilo i: „Šta će se dogoditi ako uporedimo sintetičke podatke sa anonimiziranim podacima?“ Budući da gubite mnogo informacija u anonimiziranim podacima, hoće li se to dogoditi i pri sintetiziranju skupa podataka? Počeli smo sa skupom podataka iz telekomunikacijske industrije sa 56.000 redova i 128 kolona informacija o odljevu kompanije. Ovaj skup podataka je sintetiziran i anonimiziran tako da je Edwin mogao uporediti sintetizaciju sa anonimizacijom. Zatim je Edwin počeo da se bavi modeliranjem koristeći SAS Viya. Izgradio je nekoliko modela churn na originalnom skupu podataka, koristeći klasične tehnike regresije i stabla odlučivanja, ali i sofisticiranije tehnike kao što su neuronske mreže, povećanje gradijenta, slučajna šuma – ove vrste tehnika. Korištenje standardnih SAS Viya opcija prilikom izrade modela.

Onda je došlo vrijeme da se pogledaju rezultati. Rezultati su bili vrlo obećavajući za sintetičke podatke, a ne za anonimizaciju. Za stručnjake koji ne uče strojno u publici, gledamo područje ispod ROC krivulje koja govori nešto o tačnosti modela. Upoređujući originalne podatke sa anonimiziranim podacima, vidimo da izvorni model podataka ima površinu ispod ROC krivulje od 8, što je prilično dobro, međutim, anonimni podaci imaju površinu ispod ROC krivulje od 6. To znači da gubimo puno informacija s anonimnim modelom, tako da gubite puno prediktivne moći.

Ali onda se postavlja pitanje šta je sa sintetičkim podacima? Ovdje smo uradili potpuno isto, ali umjesto da anonimizira podatke, Syntho je sintetizirao podatke. Sada vidimo da i originalni i sintetički podaci imaju površinu ispod ROC krive od 8, što je vrlo slično. Nije potpuno isto zbog varijabilnosti, ali vrlo slično. To znači da je potencijal sintetičkih podataka vrlo obećavajući – Edwin je veoma sretan zbog toga.

grupa ljudi nasmejanih

Podaci su sintetički, ali naš tim je stvaran!

Kontaktirajte Syntho i jedan od naših stručnjaka će vas kontaktirati brzinom svjetlosti kako bi istražio vrijednost sintetičkih podataka!