Externe evaluatie van onze synthetische data door de data-experts van SAS
Onze synthetische data zijn: geëvalueerd en goedgekeurd door de data-experts van SAS
Inleiding tot de externe evaluatie van onze synthetische data door de data-experts van SAS
Wat hebben we gedaan?
Door Syntho gegenereerde synthetische data worden vanuit een extern en objectief standpunt beoordeeld, gevalideerd en goedgekeurd door de data-experts van SAS.
Waarom worden onze synthetische data extern geëvalueerd door de data-experts van SAS?
Hoewel Syntho er trots op is zijn gebruikers een geavanceerd kwaliteitsborgingsrapport aan te bieden, begrijpen we ook het belang van een externe en objectieve evaluatie van onze synthetische data door marktleiders. Daarom werken we samen met SAS, leider in analytics, om onze synthetische data te beoordelen.
SAS voert verschillende grondige evaluaties uit over de nauwkeurigheid van data, privacybescherming en bruikbaarheid van de door AI gegenereerde synthetische data van Syntho in vergelijking met de originele data. Concluderend heeft SAS de synthetische data van Syntho beoordeeld en goedgekeurd als accuraat, veilig en bruikbaar in vergelijking met de originele data.
Wat heeft SAS gedaan tijdens deze beoordeling?
We gebruikten telecomdata die worden gebruikt voor ‘churn’-voorspellingen als doeldata. Het doel van de evaluatie was om synthetische data te gebruiken om verschillende churn-voorspellingsmodellen te trainen en de prestaties van elk model te beoordelen. Omdat churn-voorspelling een classificatietaak is, heeft SAS populaire classificatiemodellen geselecteerd om de voorspellingen te doen, waaronder:
- Willekeurig bos
- gradiëntversterking
- Logistische regressie
- Neuraal netwerk
Alvorens de synthetische data te genereren, splitste SAS de telecomdataset willekeurig op in een treinset (voor het trainen van de modellen) en een holdout-set (voor het scoren van de modellen). Het hebben van een aparte holdout-set voor scores zorgt voor een onbevooroordeelde beoordeling van hoe goed het classificatiemodel zou kunnen werken wanneer het wordt toegepast op nieuwe data.
Met het treinstel als invoer gebruikte Syntho zijn Syntho Engine om een synthetische dataset te genereren. Voor benchmarking heeft SAS ook een geanonimiseerde versie van het treinstel gemaakt na het toepassen van verschillende anonimiseringstechnieken om een bepaalde drempel (van k-anonimiteit) te bereiken. De voorgaande stappen resulteerden in vier datasets:
- Een treindataset (dwz de originele dataset minus de holdout-dataset)
- Een holdout-dataset (dwz een subset van de originele dataset)
- Een geanonimiseerde dataset (geanonimiseerde data van de treindataset, originele dataset minus de holdout-dataset)
- Een synthetische dataset (gesynthetiseerde data van de treindataset, originele dataset minus de holdout-dataset)
Datasets 1, 3 en 4 werden gebruikt om elk classificatiemodel te trainen, wat resulteerde in 12 (3 x 4) getrainde modellen. SAS gebruikte vervolgens de holdout-dataset om de nauwkeurigheid van elk model bij de voorspelling van klantverloop te meten.
SAS voert verschillende grondige evaluaties uit over de nauwkeurigheid van data, privacybescherming en bruikbaarheid van de door AI gegenereerde synthetische data van Syntho in vergelijking met de originele data. Concluderend heeft SAS de synthetische data van Syntho beoordeeld en goedgekeurd als accuraat, veilig en bruikbaar in vergelijking met de originele data.
Heb je nog vragen?
Neem contact op met een van onze experts
Eerste resultaten van de databeoordeling door SAS
Modellen die zijn getraind op synthetische data scoren zeer vergelijkbaar in vergelijking met modellen die zijn getraind op originele data
Synthetische data van Syntho gelden niet alleen voor basispatronen, maar leggen ook diepe 'verborgen' statistische patronen vast die nodig zijn voor geavanceerde analysetaken. Dit laatste wordt gedemonstreerd in het staafdiagram, wat aangeeft dat de nauwkeurigheid van modellen die zijn getraind op synthetische data vergelijkbaar is met die van modellen die zijn getraind op originele data. Daarom kunnen synthetische data worden gebruikt voor daadwerkelijke training van de modellen. De invoer en het variabele belang dat door de algoritmen op synthetische data werd geselecteerd, vergeleken met de originele data, waren zeer vergelijkbaar. Daarom wordt geconcludeerd dat het modelleringsproces kan worden uitgevoerd op basis van synthetische data, als alternatief voor het gebruik van echt gevoelige data.
Waarom scoren modellen die zijn getraind op geanonimiseerde data slechter?
Klassieke anonimiseringstechnieken hebben met elkaar gemeen dat ze originele data manipuleren om de herleidbaarheid van individuen te belemmeren. Ze manipuleren data en vernietigen daarbij data. Hoe meer u anonimiseert, hoe beter uw data worden beschermd, maar ook hoe meer uw data worden vernietigd. Dit is vooral verwoestend voor AI- en modelleringstaken waarbij ‘voorspellende kracht’ essentieel is, omdat data van slechte kwaliteit zullen resulteren in slechte inzichten uit het AI-model. SAS heeft dit aangetoond, met een oppervlakte onder de curve (AUC*) van bijna 0.5, wat aantoont dat de modellen die zijn getraind op geanonimiseerde data veruit het slechtste presteren.
Aanvullende resultaten van synthetische databeoordelingen door SAS
Aanvullende resultaten van synthetische databeoordelingen door SAS
De correlaties en relaties tussen variabelen werden nauwkeurig bewaard in synthetische data.
De Area Under the Curve (AUC), een maatstaf voor het meten van modelprestaties, bleef consistent.
Bovendien bleef het variabele belang, dat de voorspellende kracht van variabelen in een model aangaf, intact bij het vergelijken van synthetische data met de originele dataset.
Op basis van deze observaties door SAS en door gebruik te maken van SAS Viya kunnen we vol vertrouwen concluderen dat synthetische data gegenereerd door de Syntho Engine qua kwaliteit inderdaad op één lijn ligt met echte data. Dit valideert het gebruik van synthetische data voor modelontwikkeling en maakt de weg vrij voor geavanceerde analyses met synthetische data.
Conclusies van de data-experts van SAS
- Modellen die zijn getraind op synthetische data vergeleken met de modellen die zijn getraind op originele data, vertonen zeer vergelijkbare prestaties
- Modellen die zijn getraind op geanonimiseerde data met 'klassieke anonimiseringstechnieken' presteren slechter dan modellen die zijn getraind op de originele data of synthetische data
- Synthetische datageneratie is eenvoudig en snel omdat de techniek per dataset en per datatype exact hetzelfde werkt
Referentie artikelen
- Beoordeling door de data-experts van SAS: https://blogs.sas.com/content/hiddeninsights/2022/07/07/ai-generated-synthetic-data-easy-and-fast-access-to-high-quality-data/
- Syntho-winnaar van de SAS wereldwijde hackathon: https://www.linkedin.com/feed/update/urn:li:activity:7070047376249376769/
- Resultaten van casestudies in de gezondheidszorg: https://communities.sas.com/t5/SAS-Hacker-s-Hub/AI-Generated-Synthetic-Data-in-Healthcare/ta-p/863407
Sla uw synthetische datagids nu op!
- Wat is synthetische data?
- Waarom gebruiken organisaties het?
- Klantcases met toegevoegde waarde op basis van synthetische data
- Hoe te beginnen