Evaluatie van nut en gelijkenis in synthetische datageneratoren: een technische diepgaande duik en vergelijkende analyse
Organisaties gebruiken data-anonimiseringstools om persoonlijk identificeerbare informatie uit hun datasets te verwijderen. Niet-naleving kan leiden tot forse boetes van regelgevende instanties en datalekken. Zonder data te anonimiseren, kunt u de datasets niet optimaal benutten of delen.
Veel anonimiseringstools kunnen geen volledige naleving garanderen. Past-gen-methoden kunnen persoonlijke informatie kwetsbaar maken voor de-identificatie door kwaadwillende actoren. Sommige statistische anonimiseringsmethoden verlagen de kwaliteit van de dataset tot een punt waarop deze onbetrouwbaar is voor data-analyse.
Wij van syntho zal u kennis laten maken met de anonimiseringsmethoden en de belangrijkste verschillen tussen vorige en volgende generatie tools. We vertellen je over de beste data-anonimiseringstools en suggereren de belangrijkste overwegingen bij het kiezen ervan.
Syntho-gids
Uw gids voor het genereren van synthetische data
Wat zijn synthetische datageneratoren?
Voer synthetische data in, een oplossing voor dit raadsel. Synthetische datageneratoren creëren datasets die echte gebruikersdata nabootsen, terwijl de anonimiteit en vertrouwelijkheid behouden blijven. Deze aanpak wint terrein in sectoren, van de gezondheidszorg tot de financiële sector, waar privacy voorop staat.
Dit bericht is bedoeld voor dataprofessionals en -enthousiastelingen, met de nadruk op de evaluatie van synthetische datageneratoren. We zullen ons verdiepen in de belangrijkste statistieken en een vergelijkende analyse uitvoeren tussen Syntho's Engine en zijn open-sourcealternatieven, waardoor inzichten worden geboden over hoe we de oplossingskwaliteit van het genereren van synthetische data effectief kunnen beoordelen. Bovendien zullen we ook de tijdskosten van elk van deze modellen evalueren om meer inzicht te verschaffen in de werking van de modellen.
Hoe kies je de juiste methode voor het genereren van synthetische data?
In het diverse landschap van het genereren van synthetische data is er een overvloed aan methoden beschikbaar, die allemaal om de aandacht strijden met hun unieke mogelijkheden. Het kiezen van de meest geschikte methode voor een bepaalde toepassing vereist een grondig begrip van de prestatiekenmerken van elke optie. Dit vereist een uitgebreide evaluatie van verschillende synthetische datageneratoren op basis van een reeks goed gedefinieerde statistieken om een weloverwogen beslissing te kunnen nemen.
Wat volgt is een rigoureuze vergelijkende analyse van de Syntho Engine naast een bekend open-source framework, de Synthetic Data Vault (SDV). In deze analyse gebruikten we veelgebruikte metrics zoals statistische betrouwbaarheid, voorspellende nauwkeurigheid en intervariabele relaties.
Evaluatiestatistieken van synthetische data
Voordat we een specifieke maatstaf introduceren, moeten we erkennen dat er talloze ideologieën bestaan over het evalueren van synthetische data, die elk inzicht geven in een bepaald aspect van data. Met dit in gedachten vallen de volgende drie categorieën op als belangrijk en veelomvattend. Deze statistieken bieden inzicht in verschillende aspecten van datakwaliteit. Deze categorieën zijn:
- Statistische getrouwheidsmetrieken:Het onderzoeken van fundamentele statistische kenmerken van de data, zoals gemiddelden en varianties, om ervoor te zorgen dat de synthetische data aansluiten bij het statistische profiel van de oorspronkelijke dataset.
- Voorspellende nauwkeurigheid: Onderzoek naar de prestaties van het model voor het genereren van synthetische data, getraind met originele data en geëvalueerd op synthetische data (Train Real – Test Synthetic, TRTS) en vice versa (Train Synthetic – Test Real, TSTR)
- Intervariabele relaties: Deze gecombineerde categorie omvat:
- Functiecorrelatie: We beoordelen hoe goed de synthetische data de relaties tussen variabelen in stand houdt met behulp van correlatiecoëfficiënten. Een bekende metriek als de Propensity Mean Squared Error (PMSE) zou van dit type zijn.
- Wederzijdse informatie:We meten de onderlinge afhankelijkheden tussen variabelen om de diepte van deze relaties te begrijpen, en niet alleen correlaties.
Vergelijkende analyse: Syntho Engine versus open source-alternatieven
De vergelijkende analyse werd uitgevoerd met behulp van een gestandaardiseerd evaluatiekader en identieke testtechnieken voor alle modellen, inclusief Syntho Engine- en SDV-modellen. Door datasets uit identieke bronnen te synthetiseren en deze aan dezelfde statistische tests en machine learning-modelbeoordelingen te onderwerpen, zorgen we voor een eerlijke en onbevooroordeelde vergelijking. In het volgende gedeelte worden de prestaties van elke generator voor synthetische data gedetailleerd beschreven voor het bereik van de hierboven gepresenteerde statistieken.
Wat betreft de dataset die voor de evaluatie werd gebruikt, gebruikten we de UCI-dataset voor volwassenentellingen wat een bekende dataset is in de machine learning community. We hebben de data opgeschoond voorafgaand aan alle training en vervolgens de dataset gesplitst in twee sets (een training- en een holdout-set voor testen). We hebben de trainingset gebruikt om 1 miljoen nieuwe datapunten te genereren met elk van de modellen en hebben verschillende statistieken geëvalueerd op deze gegenereerde datasets. Voor verdere machine learning evaluaties hebben we de holdout-set gebruikt om statistieken te evalueren zoals die gerelateerd aan TSTR en TRTS.
Elke generator werd uitgevoerd met standaardparameters. Omdat sommige modellen, zoals Syntho, out-of-the-box met alle tabeldata kunnen werken, is er geen fijnafstemming gedaan. Het zoeken naar de juiste hyperparameters voor elk model zou een aanzienlijke hoeveelheid tijd in beslag nemen, en Tabel 2 laat al een groot tijdsverschil zien tussen het model van Syntho en de modellen die worden getest.
Het is opmerkelijk dat de Gaussiaanse Copula Synthesizer, in tegenstelling tot de rest van de modellen in SDV, gebaseerd is op statistische methoden. De rest is daarentegen gebaseerd op neurale netwerken zoals Generative Adversarial Networks (GAN)-modellen en variatieve auto-encoders. Dit is de reden waarom Gaussiaanse Copula kan worden gezien als een basislijn voor alle besproken modellen.
Resultaten
Datakwaliteit

De eerder besproken naleving van trends en representaties in de data zijn te vinden in Figuur 1 en Tabel 1. Hier kan elk van de gebruikte maatstaven als volgt worden geïnterpreteerd:
- Algemene kwaliteitsscore: Algemene beoordeling van de kwaliteit van synthetische data, waarbij verschillende aspecten zoals statistische gelijkenis en datakenmerken worden gecombineerd.
- Kolomvormen: Beoordeel of de synthetische data dezelfde distributievorm behouden als de echte data voor elke kolom.
- Trends in kolomparen: Evalueert relaties of correlaties tussen kolommenparen in synthetische data in vergelijking met echte data.
Over het geheel genomen behaalt Syntho zeer hoge scores op alle vlakken. Om te beginnen kan Syntho, als we kijken naar de algehele datakwaliteit (geëvalueerd met de SDV-metriekbibliotheek), een resultaat van meer dan 99% behalen (met kolomvormadhesie van 99.92% en kolompaarvormadhesie van 99.31%). Dit terwijl SDV een resultaat van maximaal 90.84% behaalt (met Gaussian Copula, met een kolomvormadhesie van 93.82% en kolompaarvormadhesie van 87.86%).

Gegevensdekking
De Diagnosis Report-module van SDV brengt ons op de hoogte dat SDV-gegenereerde data (in alle gevallen) meer dan 10% van de numerieke bereiken mist; in het geval van Triplet-Based Variational Autoencoder (TVAE) ontbreekt dezelfde hoeveelheid categorische data in vergelijking met de originele dataset. Er werden geen dergelijke waarschuwingen gegenereerd met de resultaten die werden behaald met Syntho.

In de vergelijkende analyse illustreert de grafiek van Figuur 2 dat SDV-archieven marginaal betere resultaten behalen in categoriedekking met sommige van hun modellen (namelijk met GaussianCopula, CopulaGAN en Conditional Tabular GAN – CTGAN). Niettemin is het belangrijk om te benadrukken dat de betrouwbaarheid van de data van Syntho die van SDV-modellen overtreft, aangezien de discrepantie in de dekking tussen categorieën en bereiken minimaal is en slechts een variantie van 1.1% vertoont. SDV-modellen laten daarentegen een aanzienlijke variatie zien, variërend van 14.6% tot 29.2%.
De hier weergegeven metriek kan als volgt worden geïnterpreteerd:
- Categorie dekking: Meet de aanwezigheid van alle categorieën in synthetische data in vergelijking met echte data.
- Bereik dekking: Evalueert in hoeverre het bereik van waarden in synthetische data overeenkomt met dat in echte data.

utility
Als we verder gaan met het onderwerp van het nut van synthetische data, wordt de kwestie van het trainen van modellen op de data relevant. Om een evenwichtige en eerlijke vergelijking te maken tussen alle frameworks, hebben we de standaard Gradient Boosting Classifier uit de SciKit Learn-bibliotheek gekozen, aangezien deze redelijk geaccepteerd wordt als een goed presterend model met out-of-the-box-instellingen.
Er worden twee verschillende modellen getraind, één op de synthetische data (voor TSTR) en één op de originele data (voor TRTS). Het model dat op de synthetische data is getraind, wordt geëvalueerd met behulp van een holdout-testset (die niet werd gebruikt tijdens het genereren van synthetische data) en het model dat op originele data is getraind, wordt getest op de synthetische dataset.

De hierboven gevisualiseerde resultaten demonstreren de superioriteit van het genereren van synthetische data door de Syntho-engine in vergelijking met andere methoden, aangezien er geen verschil is tussen de resultaten verkregen door de verschillende methoden (wat wijst op een grote gelijkenis tussen de synthetische en echte data). Bovendien is de rode stippellijn in de grafiek het resultaat dat is verkregen door het evalueren van de basisprestaties van een Train Real, Test Real (TRTR)-test om een basislijn te bieden voor de waargenomen meetdata. Deze lijn vertegenwoordigt de waarde 0.92, wat de Area Under the Curve-score (AUC-score) is die wordt behaald door het model dat is getraind op echte data en getest op echte data.

Tijdsgewijze vergelijking
Uiteraard is het van cruciaal belang om rekening te houden met de tijd die wordt geïnvesteerd in het genereren van deze resultaten. Onderstaande visualisatie illustreert precies dit.

Figuur 5 illustreert de tijd die nodig is om synthetische data te genereren in twee verschillende settings. De eerste (hier aangeduid als Zonder GPU), waren testruns die werden uitgevoerd op een systeem met een Intel Xeon CPU met 16 cores die op 2.20 GHz draaiden. De tests gemarkeerd als "run with a GPU" werden uitgevoerd op een systeem met een AMD Ryzen 9 7945HX CPU met 16 cores die op 2.5 GHz draaiden en een NVIDIA GeForce RTX 4070 Laptop GPU. Zoals te zien is in Figuur 2 en in Tabel 2 hieronder, is te zien dat Syntho aanzienlijk sneller is in het genereren van synthetische data (in beide scenario's), wat cruciaal is in een dynamische workflow.

Slotopmerkingen en toekomstige aanwijzingen
De bevindingen onderstrepen het belang van een grondige kwaliteitsevaluatie bij het kiezen van de juiste methode voor het genereren van synthetische data. Syntho's Engine laat met zijn AI-gestuurde aanpak opmerkelijke sterke punten zien in bepaalde statistieken, terwijl open-source tools zoals SDV uitblinken in hun veelzijdigheid en door de gemeenschap aangestuurde verbeteringen.
Terwijl het veld van synthetische data zich blijft ontwikkelen, moedigen we u aan deze statistieken in uw projecten toe te passen, de fijne kneepjes ervan te onderzoeken en uw ervaringen te delen. Houd ons in de gaten voor toekomstige berichten waarin we dieper ingaan op andere statistieken en praktijkvoorbeelden van hun toepassing belichten.
Uiteindelijk kan het gepresenteerde open-source alternatief voor degenen die synthetische data willen testen, een gerechtvaardigde keuze zijn gezien de toegankelijkheid. Voor professionals die deze moderne technologie in hun ontwikkelingsproces opnemen, moet echter elke kans op verbetering worden aangegrepen en moeten alle belemmeringen worden vermeden. Het is daarom belangrijk om de beste beschikbare optie te kiezen. Met de hierboven gegeven analyses wordt het vrij duidelijk dat Syntho en daarmee de Syntho Engine een zeer capabel hulpmiddel is voor beoefenaars.
Over Syntho
syntho biedt een slim platform voor het genereren van synthetische data, waarbij gebruik wordt gemaakt van meerdere synthetische datavormen en generatiemethoden, waardoor organisaties data op intelligente wijze kunnen transformeren in een concurrentievoordeel. Onze door AI gegenereerde synthetische data bootsen statistische patronen van originele data na, waardoor nauwkeurigheid, privacy en snelheid worden gegarandeerd, zoals beoordeeld door externe experts zoals SAS. Met slimme de-identificatiefuncties en consistente mapping wordt gevoelige informatie beschermd terwijl de referentiële integriteit behouden blijft. Ons platform maakt het creëren, beheren en controleren van testdata voor niet-productieomgevingen mogelijk, waarbij gebruik wordt gemaakt van op regels gebaseerde methoden voor het genereren van synthetische data voor gerichte scenario's. Bovendien kunnen gebruikers programmatisch synthetische data genereren en realistische testdata verkrijgen om eenvoudig uitgebreide test- en ontwikkelingsscenario's te ontwikkelen.
Wil je meer praktische toepassingen van synthetische data leren? Voel je vrij om plan een demo!
Gerelateerde artikelen
Red je synthetisch datagids nu
Wat is synthetische data?
Hoe werkt het?
Waarom gebruiken organisaties het?
Hoe te beginnen?
Schrijf je in op onze nieuwsbrief
Blijf op de hoogte van het laatste nieuws over synthetische data