Synthetische datakwaliteit

Het concept van een synthetische data-tweeling uitgelegd

Syntho bootst (gevoelige) data na met AI om synthetische data-tweelingen te genereren

Met een Synthetische data tweeling, streeft Syntho naar een superieure synthetische datakwaliteit die vergelijkbaar is met de originele data. Dit doen we met onze synthetische datasoftware die gebruik maakt van state-of-the-art machine learning-modellen. Die ML-modellen genereren volledig nieuwe datapunten en modelleren ze op zo'n manier dat we de kenmerken, relaties en statistische patronen van de originele data zo behouden dat je ze kunt gebruiken alsof het originele data zijn. Dit is wat we een synthetische data-tweeling noemen - synthetische data met bewaarde kenmerken, relaties en patronen, zoals te zien in de originele data.

Synthetische datageneratie met AI door de syntho-engine

Alsof het originele data zijn?

Hoe we gegenereerde synthetische data evalueren

bekijk ons ​​kwaliteitsrapport

Stap 1

Kwaliteitsrapport

Syntho biedt een kwaliteitsrapport voor elke gegenereerde synthetische dataset om referentiële integriteit, distributies, correlaties, multivariate distributies en nog veel meer aan te tonen.

Stap 2

Externe beoordeling door SAS

Hier vergelijkt SAS AI-gegenereerde synthetische data van Syntho met originele datasets via verschillende (AI) assessments op datakwaliteit, rechtsgeldigheid en bruikbaarheid.

sas

Ons rapport over synthetische datakwaliteit

Momentopnamen uit ons rapport over synthetische datakwaliteit

uitkeringen

Synthetische datadistributies
Distributies geven inzicht in de frequentie van een bepaald datarecord voor een bepaalde categorie of waarde en worden vastgelegd door de Syntho Engine. 

correlaties

Synthetische datacorrelaties
Correlaties geven inzicht in de mate waarin twee variabelen gerelateerd zijn en worden vastgelegd door de Syntho Engine.  

Multivariaten

Multivariate distributies van synthetische data
Multivariate distributies en correlaties geven inzicht in combinaties van categorieën en worden ook vastgelegd door de Syntho Engine.

Externe referenties

Synthetische databeoordeling door SAS

Voor de casus, de doeldataset was een telecom dataset geleverd door SAS met de data van 56.600 klanten. De dataset bevat 128 kolommen, waaronder één kolom die aangeeft of een klant het bedrijf heeft verlaten ('churnned') of niet. Het doel van de case study was om de synthetische data te gebruiken om enkele modellen te trainen om klantverloop te voorspellen en om de prestaties van elk model te beoordelen. Aangezien churn-voorspelling een classificatietaak is, heeft SAS vijf populaire classificatiemodellen geselecteerd om de voorspellingen te doen, waaronder:

  1. Beslissingsboom
  2. Willekeurig bos
  3. gradiëntversterking
  4. Logistische regressie
  5. Neuraal netwerk

Alvorens de synthetische data te genereren, splitste SAS de telecomdataset willekeurig op in een treinset (voor het trainen van de modellen) en een holdout-set (voor het scoren van de modellen). Het hebben van een aparte holdout-set voor scores zorgt voor een onbevooroordeelde beoordeling van hoe goed het classificatiemodel zou kunnen werken wanneer het wordt toegepast op nieuwe data.

Met het treinstel als invoer, Syntho gebruikte zijn Syntho Engine om een ​​synthetische dataset te genereren. Voor benchmarking heeft SAS ook een geanonimiseerde versie van het treinstel gemaakt na toepassing van verschillende anonimiseringstechnieken om een ​​bepaalde drempel (van k-anonimiteit) te bereiken. De vorige stappen resulteerden in vier datasets:

  1. Een treindataset (dwz de originele dataset minus de holdout-dataset)
  2. Een holdout-dataset (dwz een subset van de originele dataset)
  3. Een geanonimiseerde dataset (gebaseerd op de originele dataset minus de holdout-dataset)
  4. Een synthetische dataset (gebaseerd op de originele dataset minus de holdout-dataset)

Datasets 1, 3 en 4 werden gebruikt om elk classificatiemodel te trainen, wat resulteerde in 15 (3 x 5) getrainde modellen. SAS gebruikte vervolgens de holdout-dataset om de nauwkeurigheid te meten waarmee elk model klantverloop voorspelt. De resultaten worden hieronder weergegeven, te beginnen met enkele basisstatistieken.

Evaluatieresultaten

Resultaten van de beoordeling door SAS

Synthetische data geldt niet alleen voor basispatronen (zoals getoond in de vorige grafieken), het legt ook diep 'verborgen' statistische patronen vast die nodig zijn voor geavanceerde analysetaken. Dit laatste wordt gedemonstreerd in het staafdiagram, wat aangeeft dat de nauwkeurigheid van modellen die zijn getraind op synthetische data versus modellen die zijn getraind op originele data, op één lijn ligt. Verder met een oppervlakte onder de curve (AUC*) dicht bij 0.5 presteren de modellen die zijn getraind op geanonimiseerde data verreweg het slechtst. Het volledige rapport met alle advanced analytics assessments op synthetische data in vergelijking met de originele data is op aanvraag beschikbaar.

Bovendien deze synthetische data kunnen worden gebruikt om datakenmerken en belangrijkste variabelen te begrijpen die nodig zijn voor de daadwerkelijke training van de modellen. De invoer die door de algoritmen op synthetische data werd geselecteerd in vergelijking met originele data, was zeer vergelijkbaar. Daarom kan het modelleringsproces op deze synthetische versie worden uitgevoerd, wat het risico op datalekken vermindert. Bij het afleiden van individuele records (bijv. telco-klant) wordt echter aanbevolen om de originele data opnieuw te trainen voor verklaarbaarheid, verhoogde acceptatie of gewoon vanwege regelgeving.    

Synthetische datakwaliteit

We hoeven ons geen zorgen te maken over de datanauwkeurigheid van synthetische data van Syntho”

Sas-logo
Video afspelen over de datakwaliteit van Syntho en de gegenereerde synthetische data-tweelingen.

Conclusies

Conclusies van de beoordeling door SAS

syntho-gids - AI-gegenereerd synthetisch dataplatform

Sla uw synthetische datagids nu op!