Syntetiske data generert av Syntho blir vurdert, validert og godkjent fra et eksternt og objektivt synspunkt av dataekspertene til SAS.
Selv om Syntho er stolte av å tilby sine brukere en avansert kvalitetssikringsrapport, forstår vi også viktigheten av å ha en ekstern og objektiv evaluering av våre syntetiske data fra industriledere. Det er derfor vi samarbeider med SAS, ledende innen analyse, for å vurdere våre syntetiske data.
SAS gjennomfører ulike grundige evalueringer av datanøyaktighet, personvern og brukbarhet av Synthos AI-genererte syntetiske data sammenlignet med de originale dataene. Som konklusjon vurderte og godkjente SAS Synthos syntetiske data som nøyaktige, sikre og brukbare i forhold til de originale dataene.
Vi brukte telekomdata som brukes til "churn"-prediksjon som måldata. Målet med evalueringen var å bruke syntetiske data til å trene ulike churn-prediksjonsmodeller og å vurdere ytelsen til hver modell. Siden churn-prediksjon er en klassifiseringsoppgave, valgte SAS populære klassifiseringsmodeller for å lage spådommene, inkludert:
Før de genererer de syntetiske dataene, delte SAS tilfeldig opp telekomdatasettet i et togsett (for å trene modellene) og et holdout-sett (for å score modellene). Å ha et separat holdout-sett for scoring gir mulighet for en objektiv vurdering av hvor godt klassifiseringsmodellen kan gjøre når den brukes på nye data.
Ved å bruke togsettet som input, brukte Syntho sin Syntho Engine for å generere et syntetisk datasett. For benchmarking laget SAS også en anonymisert versjon av togsettet etter å ha brukt ulike anonymiseringsteknikker for å nå en viss terskel (av k-anonymitet). De tidligere trinnene resulterte i fire datasett:
Datasett 1, 3 og 4 ble brukt til å trene hver klassifiseringsmodell, noe som resulterte i 12 (3 x 4) trente modeller. SAS brukte deretter holdout-datasettet til å måle nøyaktigheten til hver modell i prediksjonen av kundefragang.
SAS gjennomfører ulike grundige evalueringer av datanøyaktighet, personvern og brukbarhet av Synthos AI-genererte syntetiske data sammenlignet med de originale dataene. Som konklusjon vurderte og godkjente SAS Synthos syntetiske data som nøyaktige, sikre og brukbare i forhold til de originale dataene.
Syntetiske data fra Syntho gjelder ikke bare for grunnleggende mønstre, de fanger også dype "skjulte" statistiske mønstre som kreves for avanserte analyseoppgaver. Sistnevnte er demonstrert i søylediagrammet, noe som indikerer at nøyaktigheten til modeller trent på syntetiske data versus modeller trent på originaldata er like. Derfor kan syntetiske data brukes til faktisk trening av modellene. Inndataene og den variable viktigheten valgt av algoritmene på syntetiske data sammenlignet med originaldata var svært like. Derfor konkluderes det med at modelleringsprosessen kan gjøres på syntetiske data, som et alternativ for å bruke ekte sensitive data.
Klassiske anonymiseringsteknikker har det til felles at de manipulerer originaldata for å hindre tilbakesporing av individer. De manipulerer data og ødelegger dermed data i prosessen. Jo mer du anonymiserer, jo bedre beskyttes dataene dine, men også desto mer blir dataene dine ødelagt. Dette er spesielt ødeleggende for AI og modelleringsoppgaver der "prediktiv kraft" er avgjørende, fordi data av dårlig kvalitet vil resultere i dårlig innsikt fra AI-modellen. SAS demonstrerte dette, med et område under kurven (AUC*) nær 0.5, og demonstrerte at modellene som er trent på anonymiserte data, presterer desidert dårligst.
Korrelasjonene og relasjonene mellom variabler ble nøyaktig bevart i syntetiske data.
Area Under the Curve (AUC), en beregning for måling av modellytelse, forble konsistent.
Videre forble variabelens betydning, som indikerte den prediktive kraften til variabler i en modell, intakt når man sammenlignet syntetiske data med det originale datasettet.
Basert på disse observasjonene fra SAS og ved å bruke SAS Viya, kan vi med sikkerhet konkludere med at syntetiske data generert av Syntho Engine faktisk er på nivå med reelle data når det gjelder kvalitet. Dette validerer bruken av syntetiske data for modellutvikling, og baner vei for avanserte analyser med syntetiske data.