Anonymiserede data vs syntetiske data

Hvis du anonymiserer dine data, før du udfører datatest af dataanalyse, er der flere faktorer, der spiller ind:

  1. I næsten alle tilfælde kan anonymiserede data stadig spores tilbage til enkeltpersoner på grund af specifikke og unikke rækker (f.eks. lægejournaler)
  2. Jo mere du anonymiserer eller generaliserer, jo mere data ødelægger du. Dette sænker kvaliteten af ​​dine data og dermed din indsigt
  3. Anonymisering fungerer forskelligt for forskellige dataformater. Det betyder, at den ikke er skalerbar og kan være meget tidskrævende

Syntetiske data løser alle disse mangler og mere til. Se videoen nedenfor for at se en analyseekspert fra SAS (global markedsleder inden for analytics) forklare om sin vurdering af forskellen i kvalitet mellem originale data, anonymiserede data og af Syntho genererede syntetiske data.

Denne video er optaget fra Syntho x SAS D[N]A Café om AI-genererede syntetiske data. Find hele videoen her.

Edwin van Unen sendte et originalt datasæt til Syntho, og vi syntetiserede datasættet. Men spørgsmålet var også: "Hvad vil der ske, hvis vi sammenligner syntetiske data med anonymiserede data?" Fordi du mister en masse information i en anonymiseret data, vil det så også ske ved syntetisering af et datasæt? Vi startede med et datasæt fra telekommunikationsindustrien med 56.000 rækker og 128 kolonner med information om virksomhedens churn. Dette datasæt blev både syntetiseret og anonymiseret, så Edwin kunne sammenligne syntetisering med anonymisering. Derefter begyndte Edwin at modellere ved hjælp af SAS Viya. Han byggede et par churn-modeller på det originale datasæt, ved hjælp af klassiske regressionsteknikker og beslutningstræer, men også mere sofistikerede teknikker såsom neurale netværk, gradientboosting, tilfældig skov – den slags teknikker. Brug af standard SAS Viya muligheder, når du bygger modellerne.

Så var det tid til at se på resultaterne. Resultaterne var meget lovende for syntetiske data og ikke for anonymisering. For de ikke-maskinelærende eksperter i publikum ser vi på området under ROC-kurven, som fortæller noget om modellens nøjagtighed. Sammenligner vi de originale data med de anonymiserede data, ser vi, at den originale datamodel har et areal under ROC-kurven på .8, hvilket er ret godt. De anonymiserede data har dog et areal under ROC-kurven på .6. Det betyder, at vi mister en masse information med den anonymiserede model, så du mister en masse forudsigelseskraft.

Men så er spørgsmålet, hvad med syntetiske data? Her gjorde vi nøjagtig det samme, men i stedet for at anonymisere dataene, syntetiserede Syntho dataene. Nu ser vi, at både de originale data og de syntetiske data har et areal under ROC-kurven på .8, hvilket er meget ens. Ikke helt det samme på grund af variabilitet, men meget ens. Det betyder, at potentialet for syntetiske data er meget lovende – Edwin er meget glad for dette.

gruppe mennesker smilende

Data er syntetiske, men vores team er ægte!

Kontakt Syntho og en af ​​vores eksperter vil komme i kontakt med dig med lysets hastighed for at udforske værdien af ​​syntetiske data!