Anonymiserad data vs syntetisk data

Om du anonymiserar din data innan du utför datatester av dataanalys, finns det flera faktorer som spelar in:

  1. I nästan alla fall kan anonymiserade uppgifter fortfarande spåras tillbaka till individer på grund av specifika och unika rader (t.ex. journaler)
  2. Ju mer du anonymiserar eller generaliserar, desto mer data förstör du. Detta sänker kvaliteten på din data och därmed dina insikter
  3. Anonymisering fungerar olika för olika dataformat. Det betyder att den inte är skalbar och kan vara mycket tidskrävande

Syntetisk data löser alla dessa brister och mer. Se videon nedan för att se en analysexpert från SAS (global marknadsledare inom analys) förklara sin bedömning av skillnaden i kvalitet mellan originaldata, anonymiserad data och av Syntho genererad syntetisk data.

Den här videon är hämtad från Syntho x SAS D[N]A Café om AI-genererad syntetisk data. Hitta hela videon här.

Edwin van Unen skickade en originaldatauppsättning till Syntho och vi syntetiserade datamängden. Men frågan var också: "Vad kommer att hända om vi jämför syntetisk data med anonymiserad data?" Eftersom du förlorar mycket information i en anonymiserad data, kommer detta att hända även när du syntetiserar en datauppsättning? Vi började med en datauppsättning från telekommunikationsindustrin med 56.000 128 rader och XNUMX kolumner med information om företagets churn. Denna datauppsättning syntetiserades och anonymiserades så att Edwin kunde jämföra syntetisering med anonymisering. Sedan började Edwin modellera med SAS Viya. Han byggde ett par churn-modeller på den ursprungliga datamängden, med hjälp av klassiska regressionstekniker och beslutsträd, men också mer sofistikerade tekniker som neurala nätverk, gradientförstärkning, random forest – den här typen av tekniker. Använder de vanliga SAS Viya-alternativen när du bygger modellerna.

Sedan var det dags att titta på resultatet. Resultaten var mycket lovande för syntetisk data och inte för anonymisering. För de icke-maskinlärande experterna i publiken tittar vi på området under ROC-kurvan som säger något om modellens noggrannhet. Jämför vi originaldata med anonymiserade data ser vi att den ursprungliga datamodellen har en area under ROC-kurvan på .8, vilket är ganska bra. Däremot har den anonymiserade datan en area under ROC-kurvan på .6. Detta innebär att vi förlorar mycket information med den anonymiserade modellen så att du förlorar mycket prediktiv kraft.

Men då är frågan hur är det med syntetisk data? Här gjorde vi exakt samma sak men istället för att anonymisera data, syntetiserade Syntho data. Nu ser vi att både originaldata och syntetiska data har en area under ROC-kurvan på .8, vilket är väldigt likt. Inte exakt samma på grund av variation, men väldigt lika. Det betyder att potentialen för syntetisk data är mycket lovande – Edwin är mycket glad över detta.

grupp människor ler

Data är syntetisk, men vårt team är verkligt!

Kontakta Syntho och en av våra experter kommer att kontakta dig med ljusets hastighet för att utforska värdet av syntetiska data!