Anonymiserad data vs syntetisk data

Om du anonymiserar din data innan du utför datatester av dataanalys, finns det flera faktorer som spelar in:

I nästan alla fall kan anonymiserade uppgifter fortfarande spåras tillbaka till individer på grund av specifika och unika rader (t.ex. journaler)
Ju mer du anonymiserar eller generaliserar, desto mer data förstör du. Detta sänker kvaliteten på din data och därmed dina insikter
Anonymisering fungerar olika för olika dataformat. Det betyder att den inte är skalbar och kan vara mycket tidskrävande

Syntetisk data löser alla dessa brister och mer. Se videon nedan för att se en analysexpert från SAS (global marknadsledare inom analys) förklara sin bedömning av skillnaden i kvalitet mellan originaldata, anonymiserad data och av Syntho genererad syntetisk data.

Den här videon är hämtad från Syntho x SAS D[N]A Café om AI-genererad syntetisk data. Hitta hela videon här.

Edwin van Unen skickade en originaldatauppsättning till Syntho och vi syntetiserade datamängden. Men frågan var också: "Vad kommer att hända om vi jämför syntetisk data med anonymiserad data?" Eftersom du förlorar mycket information i en anonymiserad data, kommer detta att hända även när du syntetiserar en datauppsättning? Vi började med en datauppsättning från telekommunikationsindustrin med 56.000 128 rader och XNUMX kolumner med information om företagets churn. Denna datauppsättning syntetiserades och anonymiserades så att Edwin kunde jämföra syntetisering med anonymisering. Sedan började Edwin modellera med SAS Viya. Han byggde ett par churn-modeller på den ursprungliga datamängden, med hjälp av klassiska regressionstekniker och beslutsträd, men också mer sofistikerade tekniker som neurala nätverk, gradientförstärkning, random forest – den här typen av tekniker. Använder de vanliga SAS Viya-alternativen när du bygger modellerna.

Sedan var det dags att titta på resultatet. Resultaten var mycket lovande för syntetisk data och inte för anonymisering. För de icke-maskinlärande experterna i publiken tittar vi på området under ROC-kurvan som säger något om modellens noggrannhet. Jämför vi originaldata med anonymiserade data ser vi att den ursprungliga datamodellen har en area under ROC-kurvan på .8, vilket är ganska bra. Däremot har den anonymiserade datan en area under ROC-kurvan på .6. Detta innebär att vi förlorar mycket information med den anonymiserade modellen så att du förlorar mycket prediktiv kraft.

Men då är frågan hur är det med syntetisk data? Här gjorde vi exakt samma sak men istället för att anonymisera data, syntetiserade Syntho data. Nu ser vi att både originaldata och syntetiska data har en area under ROC-kurvan på .8, vilket är väldigt likt. Inte exakt samma på grund av variation, men väldigt lika. Det betyder att potentialen för syntetisk data är mycket lovande – Edwin är mycket glad över detta.

Data är syntetisk, men vårt team är verkligt!

Kontakta Syntho och en av våra experter kommer att kontakta dig med ljusets hastighet för att utforska värdet av syntetiska data!

Vad är syntetiska data?

Kvalitetssäkringsrapport

Extern utvärdering av SAS

Syntetisk data i tidsserier

PII-skanner

Syntetisk mock-data

Konsekvent kartläggning

Avidentifiering och syntetisering

Regelbaserad syntetisk data

Underinställning

Implementering och integration

kontakter

Utökade funktioner

Stöddata

Användardokumentation

Planera en demo

Priser

Syntetiska data som testdata

Syntetisk data för analys

Syntetisk data för datadelning

Syntetisk data för produktdemo

Sjukvård

Finans

Offentliga organisationer

Användardokumentation

Whitepapers och guider

Blogg

Webbseminarier

Fallstudier

Priser

Om oss

Karriär

Anonymiserad data vs syntetisk data

Data är syntetisk, men vårt team är verkligt!

Vad vi gör

Företag

Resurser

Syntho nyhetsbrev

Huvudmeny