Ekstern evaluering av våre syntetiske data av dataekspertene til SAS

Våre syntetiske data er vurderes og godkjent av dataekspertene til SAS

Introduksjon til ekstern evaluering av våre syntetiske data av dataekspertene til SAS

Hva gjorde vi?

Syntetiske data generert av Syntho blir vurdert, validert og godkjent fra et eksternt og objektivt synspunkt av dataekspertene til SAS.

Hvorfor blir våre syntetiske data eksternt evaluert av dataekspertene til SAS?

Selv om Syntho er stolte av å tilby sine brukere en avansert kvalitetssikringsrapport, forstår vi også viktigheten av å ha en ekstern og objektiv evaluering av våre syntetiske data fra industriledere. Det er derfor vi samarbeider med SAS, ledende innen analyse, for å vurdere våre syntetiske data.

SAS gjennomfører ulike grundige evalueringer av datanøyaktighet, personvern og brukbarhet av Synthos AI-genererte syntetiske data sammenlignet med de originale dataene. Som konklusjon vurderte og godkjente SAS Synthos syntetiske data som nøyaktige, sikre og brukbare i forhold til de originale dataene.

Hva gjorde SAS under denne vurderingen?

Vi brukte telekomdata som brukes til "churn"-prediksjon som måldata. Målet med evalueringen var å bruke syntetiske data til å trene ulike churn-prediksjonsmodeller og å vurdere ytelsen til hver modell. Siden churn-prediksjon er en klassifiseringsoppgave, valgte SAS populære klassifiseringsmodeller for å lage spådommene, inkludert:

  1. Tilfeldig skog
  2. Gradientforsterkning
  3. Logistisk regresjon
  4. Nevrale nettverket

Før de genererer de syntetiske dataene, delte SAS tilfeldig opp telekomdatasettet i et togsett (for å trene modellene) og et holdout-sett (for å score modellene). Å ha et separat holdout-sett for scoring gir mulighet for en objektiv vurdering av hvor godt klassifiseringsmodellen kan gjøre når den brukes på nye data.

Ved å bruke togsettet som input, brukte Syntho sin Syntho Engine for å generere et syntetisk datasett. For benchmarking laget SAS også en anonymisert versjon av togsettet etter å ha brukt ulike anonymiseringsteknikker for å nå en viss terskel (av k-anonymitet). De tidligere trinnene resulterte i fire datasett:

  1. Et togdatasett (dvs. det originale datasettet minus holdout-datasettet)
  2. Et holdout-datasett (dvs. et undersett av det opprinnelige datasettet)
  3. Et anonymisert datasett (anonymiserte data fra togdatasettet, originalt datasett minus holdout-datasettet)
  4. Et syntetisk datasett (syntetiserte data fra togdatasettet, originalt datasett minus holdout-datasettet)

Datasett 1, 3 og 4 ble brukt til å trene hver klassifiseringsmodell, noe som resulterte i 12 (3 x 4) trente modeller. SAS brukte deretter holdout-datasettet til å måle nøyaktigheten til hver modell i prediksjonen av kundefragang.

SAS gjennomfører ulike grundige evalueringer av datanøyaktighet, personvern og brukbarhet av Synthos AI-genererte syntetiske data sammenlignet med de originale dataene. Som konklusjon vurderte og godkjente SAS Synthos syntetiske data som nøyaktige, sikre og brukbare i forhold til de originale dataene.

Har du noen spørsmål?

Snakk med en av våre eksperter

Innledende resultater av datavurderingen av SAS

Modeller trent på syntetiske data scorer svært lik sammenlignet med modeller trent på originale data

Syntetiske data fra Syntho gjelder ikke bare for grunnleggende mønstre, de fanger også dype "skjulte" statistiske mønstre som kreves for avanserte analyseoppgaver. Sistnevnte er demonstrert i søylediagrammet, noe som indikerer at nøyaktigheten til modeller trent på syntetiske data versus modeller trent på originaldata er like. Derfor kan syntetiske data brukes til faktisk trening av modellene. Inndataene og den variable viktigheten valgt av algoritmene på syntetiske data sammenlignet med originaldata var svært like. Derfor konkluderes det med at modelleringsprosessen kan gjøres på syntetiske data, som et alternativ for å bruke ekte sensitive data.

Hvorfor scorer modeller trent på anonymiserte data dårligere?

Klassiske anonymiseringsteknikker har det til felles at de manipulerer originaldata for å hindre tilbakesporing av individer. De manipulerer data og ødelegger dermed data i prosessen. Jo mer du anonymiserer, jo bedre beskyttes dataene dine, men også desto mer blir dataene dine ødelagt. Dette er spesielt ødeleggende for AI og modelleringsoppgaver der "prediktiv kraft" er avgjørende, fordi data av dårlig kvalitet vil resultere i dårlig innsikt fra AI-modellen. SAS demonstrerte dette, med et område under kurven (AUC*) nær 0.5, og demonstrerte at modellene som er trent på anonymiserte data, presterer desidert dårligst.

Ytterligere resultater av syntetiske datavurderinger av SAS

Ytterligere resultater av syntetiske datavurderinger av SAS

Korrelasjonene og relasjonene mellom variabler ble nøyaktig bevart i syntetiske data.

Area Under the Curve (AUC), en beregning for måling av modellytelse, forble konsistent.

Videre forble variabelens betydning, som indikerte den prediktive kraften til variabler i en modell, intakt når man sammenlignet syntetiske data med det originale datasettet.

Basert på disse observasjonene fra SAS og ved å bruke SAS Viya, kan vi med sikkerhet konkludere med at syntetiske data generert av Syntho Engine faktisk er på nivå med reelle data når det gjelder kvalitet. Dette validerer bruken av syntetiske data for modellutvikling, og baner vei for avanserte analyser med syntetiske data.

Konklusjoner fra dataekspertene til SAS

Sas logo

Våre syntetiske data er godkjent av dataekspertene til SAS

Referanseartikler

syntho guidedeksel

Lagre din syntetiske dataguide nå!