AI-gegenereerde synthetische data, gemakkelijke en snelle toegang tot data van hoge kwaliteit?

AI genereerde synthetische data in de praktijk

Syntho, een expert in door AI gegenereerde synthetische data, wil privacy by design tot een concurrentievoordeel met door AI gegenereerde synthetische data. Ze helpen organisaties een sterke databasis op te bouwen met gemakkelijke en snelle toegang tot data van hoge kwaliteit en wonnen onlangs de Philips Innovation Award.

Het genereren van synthetische data met AI is echter een relatief nieuwe oplossing die doorgaans veelgestelde vragen introduceert. Om deze te beantwoorden startte Syntho samen met SAS, marktleider in Advanced Analytics en AI-software, een case-study.

In samenwerking met de Dutch AI Coalition (NL AIC) onderzochten ze de waarde van synthetische data door AI-gegenereerde synthetische data gegenereerd door de Syntho Engine te vergelijken met originele data via verschillende beoordelingen op datakwaliteit, rechtsgeldigheid en bruikbaarheid.

Is data-anonimisering geen oplossing?

Klassieke anonimiseringstechnieken hebben met elkaar gemeen dat ze originele data manipuleren om het traceren van individuen te belemmeren. Voorbeelden zijn veralgemening, onderdrukking, wissen, pseudonimisering, datamaskering en het verschuiven van rijen en kolommen. Voorbeelden vindt u in onderstaande tabel.

data anonimisering

Deze technieken introduceren 3 belangrijke uitdagingen:

  1. Ze werken verschillend per datatype en per dataset, waardoor ze moeilijk schaalbaar zijn. Bovendien zal er altijd discussie zijn over welke methoden moeten worden toegepast en welke combinatie van technieken nodig is, omdat ze anders werken.
  2. Er is altijd een één-op-één relatie met de oorspronkelijke data. Dit betekent dat er altijd een privacyrisico zal zijn, vooral door alle open datasets en beschikbare technieken om die datasets te koppelen.
  3. Ze manipuleren data en vernietigen daarbij data. Dit is vooral verwoestend voor AI-taken waarbij "voorspellende kracht" essentieel is, omdat data van slechte kwaliteit resulteren in slechte inzichten van het AI-model (garbage-in zal resulteren in garbage-out).

Ook deze punten worden via deze casus beoordeeld.

Een inleiding tot de casestudy

Voor de case study was de doeldataset een telecomdataset geleverd door SAS met de data van 56.600 klanten. De dataset bevat 128 kolommen, waarvan één kolom die aangeeft of een klant het bedrijf heeft verlaten ('churnned') of niet. Het doel van de case study was om de synthetische data te gebruiken om enkele modellen te trainen om klantverloop te voorspellen en om de prestaties van die getrainde modellen te evalueren. Aangezien churn-voorspelling een classificatietaak is, heeft SAS vier populaire classificatiemodellen geselecteerd om de voorspellingen te doen, waaronder:

  1. Willekeurig bos
  2. gradiëntversterking
  3. Logistische regressie
  4. Neuraal netwerk

Alvorens de synthetische data te genereren, splitste SAS de telecomdataset willekeurig op in een treinset (voor het trainen van de modellen) en een holdout-set (voor het scoren van de modellen). Het hebben van een aparte holdout-set voor scores zorgt voor een onbevooroordeelde beoordeling van hoe goed het classificatiemodel zou kunnen presteren wanneer het wordt toegepast op nieuwe data.

Met de treinset als input heeft Syntho zijn Syntho Engine gebruikt om een ​​synthetische dataset te genereren. Voor benchmarking heeft SAS ook een gemanipuleerde versie van het treinstel gemaakt na toepassing van verschillende anonimiseringstechnieken om een ​​bepaalde drempel (van k-anonimiteit) te bereiken. De vorige stappen resulteerden in vier datasets:

  1. Een treindataset (dwz de originele dataset minus de holdout-dataset)
  2. Een holdout-dataset (dwz een subset van de originele dataset)
  3. Een geanonimiseerde dataset (op basis van de treindataset)
  4. Een synthetische dataset (gebaseerd op de treindataset)

Datasets 1, 3 en 4 werden gebruikt om elk classificatiemodel te trainen, wat resulteerde in 12 (3 x 4) getrainde modellen. SAS gebruikte vervolgens de holdout-dataset om de nauwkeurigheid te meten waarmee elk model klantverloop voorspelt. De resultaten worden hieronder weergegeven, te beginnen met enkele basisstatistieken.

Machine Learning-pijplijn gegenereerd in SAS

Afbeelding: Machine Learning-pijplijn gegenereerd in SAS Visual Data Mining en Machine Learning

Basisstatistieken bij het vergelijken van geanonimiseerde data met originele data

Anonimiseringstechnieken vernietigen zelfs basispatronen, bedrijfslogica, relaties en statistieken (zoals in het onderstaande voorbeeld). Het gebruik van geanonimiseerde data voor basisanalyses levert dus onbetrouwbare resultaten op. In feite maakte de slechte kwaliteit van de geanonimiseerde data het bijna onmogelijk om deze te gebruiken voor geavanceerde analysetaken (bijv. AI/ML-modellering en dashboarding).

geanonimiseerde data vergelijken met originele data

Basisstatistieken bij het vergelijken van synthetische data met originele data

Synthetische datageneratie met AI behoudt basispatronen, bedrijfslogica, relaties en statistieken (zoals in het onderstaande voorbeeld). Het gebruik van synthetische data voor basisanalyses levert dus betrouwbare resultaten op. Belangrijke vraag: zijn synthetische data geschikt voor geavanceerde analysetaken (bijv. AI/ML-modellering en dashboarding)?

synthetische data vergelijken met originele data

AI-gegenereerde synthetische data en geavanceerde analyses

Synthetische data gelden niet alleen voor basispatronen (zoals getoond in de vorige grafieken), het legt ook diepe 'verborgen' statistische patronen vast die nodig zijn voor geavanceerde analysetaken. Dit laatste wordt gedemonstreerd in het onderstaande staafdiagram, wat aangeeft dat de nauwkeurigheid van modellen die zijn getraind op synthetische data versus modellen die zijn getraind op originele data vergelijkbaar zijn. Bovendien presteren de modellen die zijn getraind op geanonimiseerde data, met een oppervlakte onder de curve (AUC*) dichtbij 0.5, verreweg het slechtst. Het volledige rapport met alle advanced analytics assessments op synthetische data in vergelijking met de originele data is op aanvraag beschikbaar.

*AUC: het gebied onder de curve is een maatstaf voor de nauwkeurigheid van geavanceerde analysemodellen, waarbij rekening wordt gehouden met echte positieven, valse positieven, valse negatieven en echte negatieven. 0,5 betekent dat een model willekeurig voorspelt en geen voorspellende kracht heeft en 1 betekent dat het model altijd correct is en volledige voorspellende kracht heeft.

Bovendien kunnen deze synthetische data worden gebruikt om datakenmerken en belangrijkste variabelen te begrijpen die nodig zijn voor de daadwerkelijke training van de modellen. De invoer die door de algoritmen op synthetische data werd geselecteerd in vergelijking met originele data, was zeer vergelijkbaar. Daarom kan het modelleringsproces op deze synthetische versie worden uitgevoerd, wat het risico op datalekken vermindert. Bij het afleiden van individuele records (bijv. telco-klant) wordt het echter aanbevolen om op originele data te hertrainen voor verklaarbaarheid, verhoogde acceptatie of gewoon vanwege regelgeving.                              

AUC op algoritme gegroepeerd op methode

AUC

Conclusies:

  • Modellen die zijn getraind op synthetische data vergeleken met de modellen die zijn getraind op originele data, vertonen zeer vergelijkbare prestaties
  • Modellen die zijn getraind op geanonimiseerde data met 'klassieke anonimiseringstechnieken' presteren slechter dan modellen die zijn getraind op de originele data of synthetische data
  • Synthetische datageneratie is eenvoudig en snel omdat de techniek per dataset en per datatype exact hetzelfde werkt.

Gebruiksscenario's voor synthetische data die waarde toevoegen

Use case 1: synthetische data voor modelontwikkeling en geavanceerde analyses

Het hebben van een sterke databasis met gemakkelijke en snelle toegang tot bruikbare data van hoge kwaliteit is essentieel om modellen te ontwikkelen (bijv. dashboards [BI] en geavanceerde analyses [AI & ML]). Veel organisaties hebben echter last van een suboptimale databasis, wat resulteert in 3 belangrijke uitdagingen:

  • Toegang krijgen tot data duurt eeuwen door (privacy)regelgeving, interne processen of datasilo's
  • Klassieke anonimiseringstechnieken vernietigen data, waardoor de data niet langer geschikt zijn voor analyse en geavanceerde analyse (garbage in = garbage out)
  • Bestaande oplossingen zijn niet schaalbaar omdat ze per dataset en per datatype anders werken en grote multi-table databases niet aankunnen

Synthetische databenadering: ontwikkel modellen met zo goed als echte synthetische data om:

  • Minimaliseer het gebruik van originele data, zonder uw ontwikkelaars te hinderen
  • Ontgrendel persoonlijke data en krijg toegang tot meer data die eerder waren beperkt (bijvoorbeeld vanwege privacy)
  • Gemakkelijke en snelle datatoegang tot relevante data
  • Schaalbare oplossing die hetzelfde werkt voor elke dataset, elk datatype en voor enorme databases

Dit stelt de organisatie in staat om een ​​sterke databasis op te bouwen met gemakkelijke en snelle toegang tot bruikbare data van hoge kwaliteit om data te ontsluiten en datakansen te benutten.

 

Use case 2: slimme synthetische testdata voor het testen, ontwikkelen en leveren van software

Testen en ontwikkelen met testdata van hoge kwaliteit is essentieel om state-of-the-art softwareoplossingen te leveren. Het gebruik van originele productiedata lijkt voor de hand liggend, maar is vanwege (privacy)regelgeving niet toegestaan. Alternatief Test Data Management (TDM) tools introduceren “legacy-by-design” om de testdata goed te krijgen:

  • Houd geen rekening met productiedata en bedrijfslogica en referentiële integriteit wordt niet behouden
  • Werk langzaam en tijdrovend
  • Handmatig werk is vereist

Synthetische databenadering: test en ontwikkel met door AI gegenereerde synthetische testdata om geavanceerde softwareoplossingen te leveren die slim zijn met:

  • Productie-achtige data met behouden bedrijfslogica en referentiële integriteit
  • Eenvoudige en snelle datageneratie met ultramoderne AI
  • Privacy-door-ontwerp
  • Makkelijk, snel en agile

Hierdoor kan de organisatie testen en ontwikkelen met testdata van het volgende niveau om state-of-the-art softwareoplossingen te leveren!

Meer informatie

Geïnteresseerd? Kijk voor meer informatie over synthetische data op de website van Syntho of neem contact op met Wim Kees Janssen. Ga voor meer informatie over SAS naar: www.sas.com of neem contact op met kees@syntho.ai.

In deze use case werken Syntho, SAS en de NL AIC samen om tot de beoogde resultaten te komen. Syntho is een expert in AI-gegenereerde synthetische data en SAS is een marktleider in analytics en biedt software voor het verkennen, analyseren en visualiseren van data.

* Voorspelt 2021 – Data- en analysestrategieën om digitale bedrijven te besturen, op te schalen en te transformeren, Gartner, 2020.

syntho-gidsafdekking

Sla uw synthetische datagids nu op!