Evaluatie van onze synthetische data door
SAS-data-experts

Onze synthetische data worden beoordeeld en
goedgekeurd door de data-experts van SAS

Boek een demo

Conclusies op basis van de data
experts van SAS

De synthetische data van Syntho zijn grondig geëvalueerd en goedgekeurd door SAS-data-experts, wat de nauwkeurigheid en bruikbaarheid ervan bevestigt.

Synthetische vs. originele prestaties
Synthetische vs. originele prestaties
Modellen die zijn getraind op synthetische data vergeleken met de modellen die zijn getraind op originele data, vertonen zeer vergelijkbare prestaties
Prestatiekloof van geanonimiseerde data
Prestatiekloof van geanonimiseerde data
Modellen die zijn getraind op geanonimiseerde data met 'klassieke anonimiseringstechnieken' presteren slechter dan modellen die zijn getraind op de originele data of synthetische data
Snelle generatie van synthetische data
Snelle generatie van synthetische data
Synthetische datageneratie is eenvoudig en snel omdat de techniek per dataset en per datatype exact hetzelfde werkt

Eerste resultaten van de databeoordeling door SAS

Modellen die zijn getraind op synthetische data scoren
zeer vergelijkbaar in vergelijking met modellen
getraind op originele data

Het AI-algoritme leert patronen en relaties van echte data om nieuwe, synthetische data te genereren die deze kenmerken nauwkeurig nabootsen. Deze synthetische data is zo nauwkeurig dat het kan worden gebruikt voor geavanceerde analyses, en fungeert als een "synthetische data-tweeling" die functioneert als echte data.

Waarom scoren modellen die zijn getraind op geanonimiseerde data slechter?

Klassieke anonimiseringstechnieken hebben gemeen dat ze originele data manipuleren om het traceren van individuen te verhinderen. Ze manipuleren data en vernietigen daarmee data in het proces. Hoe meer u anonimiseert, hoe beter uw data beschermd is, maar ook hoe meer uw data vernietigd wordt.

Dit is vooral verwoestend voor AI- en modelleringstaken waarbij "voorspellende kracht" essentieel is, omdat data van slechte kwaliteit zullen resulteren in slechte inzichten van het AI-model. SAS heeft dit aangetoond met een oppervlakte onder de curve (AUC*) van bijna 0.5, wat aantoont dat de modellen die zijn getraind op geanonimiseerde data veruit het slechtst presteren.

Waarom scoren modellen die zijn getraind op geanonimiseerde data slechter?

Wat heeft SAS gedaan tijdens deze beoordeling?

Door Syntho gegenereerde synthetische data worden vanuit een extern en objectief standpunt beoordeeld, gevalideerd en goedgekeurd door de data-experts van SAS.

01
Telecomdata als doel

We hebben telecomdata gebruikt voor de voorspelling van ‘churn’, waarbij we ons richtten op de manier waarop synthetische data gebruikt konden worden om modellen te trainen en hun prestaties te beoordelen.

02
Model selectie

SAS selecteerde populaire classificatiemodellen voor de voorspelling:
Willekeurig bos

  • gradiëntversterking
  • Logistische regressie
  • Neuraal netwerk
03
Gegevens splitsen

Voordat synthetische data werden gegenereerd, werd de telecomdataset willekeurig verdeeld in:

  • Treinset: Wordt gebruikt voor het trainen van de modellen.
  • Holdout Set: Wordt gebruikt voor objectieve modelbeoordeling.
04
Synthetische en geanonimiseerde data genereren

Syntho genereerde een synthetische dataset met behulp van de train set. Daarnaast creëerde SAS een geanonimiseerde dataset met behulp van dezelfde data, wat resulteerde in vier datasets:

  • Originele treindataset
  • Holdout-dataset
  • Geanonimiseerde dataset
  • Synthetische dataset
05
Model opleiding

Elke dataset (origineel, geanonimiseerd en synthetisch) werd gebruikt om de churn-voorspellingsmodellen te trainen. Dit resulteerde in een totaal van 12 getrainde modellen (3 datasets x 4 modellen). De modellen werden getraind met behulp van hun respectievelijke datasets om te evalueren hoe goed ze churn-resultaten konden voorspellen. Na de training werd de nauwkeurigheid van de modellen beoordeeld met behulp van de holdout-dataset om een ​​onbevooroordeelde prestatie-evaluatie te garanderen voor alle modellen en datasets.

06
Evaluatie van modelprestaties

SAS evalueerde de nauwkeurigheid van elk model met behulp van de holdout-dataset, waarbij de voorspellende prestaties van klantverloop werden gemeten. Ze voerden ook gedetailleerde evaluaties uit van de nauwkeurigheid van de data, privacybescherming en bruikbaarheid, en concludeerden dat de synthetische data van Syntho nauwkeurig, veilig en bruikbaar waren in vergelijking met de oorspronkelijke data.

Aanvullende resultaten van synthetische databeoordelingen door SAS

Synthetische data die door Syntho worden gegenereerd, worden beoordeeld, gevalideerd en goedgekeurd vanuit een extern en objectief oogpunt door de data-experts van SAS.

correlaties

Correlaties en relaties

De correlaties en relaties tussen variabelen werden nauwkeurig bewaard in synthetische data.

Gebied onder de curve (AUC)

De Area Under the Curve (AUC), een maatstaf voor het meten van modelprestaties, bleef consistent.

Oppervlakte onder de curve-modelmetriek voor het meten van modelprestaties
Variabel belang

Het belang van de variabele, dat de voorspellende kracht van variabelen in een model aangeeft, bleef intact bij het vergelijken van synthetische data met de oorspronkelijke dataset.

variabele belangrijkheid bij het vergelijken van synthetische data met originele data

Gerelateerde artikelen

Synthetische data voor de Nederlandse Kamer van Koophandel (KVK)
Synthetische data voor de Nederlandse Kamer van Koophandel (KVK)
Synthetische data voor softwareontwikkeling en testen bij een toonaangevende Nederlandse bank
Synthetische data voor softwareontwikkeling en testen bij een toonaangevende Nederlandse bank
Synthetische test- en ontwikkelingsdata met toonaangevende EPD- en gezondheidszorgoplossingen
Synthetische test- en ontwikkelingsdata met toonaangevende EPD- en gezondheidszorgoplossingen