Ekstern evaluering af vores syntetiske data af SAS' dataeksperter

Vores syntetiske data er vurderes , godkendt af dataeksperterne fra SAS

Introduktion til den eksterne evaluering af vores syntetiske data af SAS' dataeksperter

Hvad gjorde vi?

Syntetiske data genereret af Syntho vurderes, valideres og godkendes ud fra et eksternt og objektivt synspunkt af SAS' dataeksperter.

Hvorfor evalueres vores syntetiske data eksternt af SAS' dataeksperter?

Selvom Syntho er stolte af at tilbyde sine brugere en avanceret kvalitetssikringsrapport, forstår vi også vigtigheden af ​​at have en ekstern og objektiv evaluering af vores syntetiske data fra brancheledere. Det er derfor, vi samarbejder med SAS, førende inden for analytics, for at vurdere vores syntetiske data.

SAS udfører forskellige grundige evalueringer af data-nøjagtighed, privatlivsbeskyttelse og anvendelighed af Synthos AI-genererede syntetiske data i sammenligning med de originale data. Som konklusion vurderede og godkendte SAS Synthos syntetiske data som værende nøjagtige, sikre og brugbare i forhold til de originale data.

Hvad gjorde SAS under denne vurdering?

Vi brugte telekommunikationsdata, der bruges til "churn"-forudsigelse som måldata. Målet med evalueringen var at bruge syntetiske data til at træne forskellige churn-forudsigelsesmodeller og til at vurdere ydeevnen af ​​hver model. Da churn-forudsigelse er en klassifikationsopgave, valgte SAS populære klassifikationsmodeller til at lave forudsigelserne, herunder:

  1. Tilfældig skov
  2. Gradientboosting
  3. Logistisk regression
  4. Neuralt netværk

Før generering af de syntetiske data, opdelte SAS tilfældigt teledatasættet i et togsæt (til træning af modellerne) og et holdout-sæt (til scoring af modellerne). At have et separat holdout-sæt til scoring giver mulighed for en uvildig vurdering af, hvor godt klassifikationsmodellen kan klare sig, når den anvendes på nye data.

Ved at bruge togsættet som input brugte Syntho sin Syntho Engine til at generere et syntetisk datasæt. Til benchmarking skabte SAS også en anonymiseret version af togsættet efter at have anvendt forskellige anonymiseringsteknikker for at nå en vis tærskel (af k-anonymitet). De tidligere trin resulterede i fire datasæt:

  1. Et togdatasæt (dvs. det originale datasæt minus holdoutdatasættet)
  2. Et holdout-datasæt (dvs. en delmængde af det originale datasæt)
  3. Et anonymiseret datasæt (anonymiserede data for togdatasættet, originalt datasæt minus holdoutdatasættet)
  4. Et syntetisk datasæt (syntetiserede data fra togdatasættet, originalt datasæt minus holdoutdatasættet)

Datasæt 1, 3 og 4 blev brugt til at træne hver klassifikationsmodel, hvilket resulterede i 12 (3 x 4) trænede modeller. SAS brugte efterfølgende holdout-datasættet til at måle nøjagtigheden af ​​hver model i forudsigelsen af ​​kundeafgang.

SAS udfører forskellige grundige evalueringer af data-nøjagtighed, privatlivsbeskyttelse og anvendelighed af Synthos AI-genererede syntetiske data i sammenligning med de originale data. Som konklusion vurderede og godkendte SAS Synthos syntetiske data som værende nøjagtige, sikre og brugbare i forhold til de originale data.

Har du nogen spørgsmål?

Tal med en af ​​vores eksperter

Indledende resultater af datavurderingen af ​​SAS

Modeller trænet på syntetiske data scorer meget ens i sammenligning med modeller trænet på originale data

Syntetiske data fra Syntho gælder ikke kun for grundlæggende mønstre, de fanger også dybe 'skjulte' statistiske mønstre, der kræves til avancerede analyseopgaver. Sidstnævnte er demonstreret i søjlediagrammet, hvilket indikerer, at nøjagtigheden af ​​modeller trænet på syntetiske data versus modeller trænet på originale data er ens. Derfor kan syntetiske data bruges til egentlig træning af modellerne. Indgangene og den variable betydning valgt af algoritmerne på syntetiske data sammenlignet med originale data var meget ens. Derfor konkluderes det, at modelleringsprocessen kan udføres på syntetiske data, som et alternativ til brug af reelle følsomme data.

Hvorfor scorer modeller, der er trænet på anonymiserede data, dårligere?

Klassiske anonymiseringsteknikker har det til fælles, at de manipulerer originale data for at forhindre sporing af individer. De manipulerer data og ødelægger derved data i processen. Jo mere du anonymiserer, jo bedre er dine data beskyttet, men også jo mere bliver dine data ødelagt. Dette er især ødelæggende for AI- og modelleringsopgaver, hvor "forudsigelseskraft" er afgørende, fordi data af dårlig kvalitet vil resultere i dårlig indsigt fra AI-modellen. SAS demonstrerede dette med et område under kurven (AUC*) tæt på 0.5, hvilket demonstrerede, at modellerne trænet på anonymiserede data klarer sig langt dårligst.

Yderligere resultater af syntetiske datavurderinger foretaget af SAS

Yderligere resultater af syntetiske datavurderinger foretaget af SAS

Korrelationerne og relationerne mellem variabler blev nøjagtigt bevaret i syntetiske data.

Arealet under kurven (AUC), en metrik til måling af modelydelse, forblev konsistent.

Ydermere forblev den variable betydning, som indikerede den forudsigelige kraft af variabler i en model, intakt, når man sammenlignede syntetiske data med det originale datasæt.

Baseret på disse observationer fra SAS og ved at bruge SAS Viya kan vi med sikkerhed konkludere, at syntetiske data genereret af Syntho Engine faktisk er på niveau med reelle data med hensyn til kvalitet. Dette validerer brugen af ​​syntetiske data til modeludvikling, hvilket baner vejen for avanceret analyse med syntetiske data.

Konklusioner fra dataeksperterne fra SAS

Sas logo

Vores syntetiske data er godkendt af dataeksperterne i SAS

Referenceartikler

syntho guide cover

Gem din guide til syntetiske data nu!