Evaluering van nut en ooreenkoms in sintetiese data-opwekkers: 'n Tegniese diepduik en vergelykende analise

Published:
27 Februarie 2024

Inleiding

In vandag se digitale era het die bewustheid van dataprivaatheid aansienlik toegeneem. Gebruikers herken hul data toenemend as 'n unieke digitale vingerafdruk, wat 'n risiko vir hul privaatheid inhou in die geval van data-oortredings. Hierdie kommer word verder versterk deur regulasies soos GDPR, wat gebruikers bemagtig om die uitvee van hul data te versoek. Alhoewel dit baie nodig is, kan hierdie wetgewing baie duur wees vir maatskappye aangesien toegang tot data tot die minimum beperk word; beperkings wat dikwels tyd- en hulpbronrowend is om te oorkom. 

INHOUDSOPGAWE

Wat is sintetiese datagenerators?

Voer sintetiese data in, 'n oplossing vir hierdie raaisel. Sintetiese datagenerators skep datastelle wat werklike gebruikerdata naboots terwyl anonimiteit en vertroulikheid behoue ​​bly. Hierdie benadering is besig om aanslag te kry oor nywerhede, van gesondheidsorg tot finansies, waar privaatheid uiters belangrik is.  

Hierdie pos is aangepas vir data-professionals en -entoesiaste, met die fokus op die evaluering van sintetiese data-opwekkers. Ons sal in sleutelmaatstawwe delf en 'n vergelykende ontleding doen tussen Syntho's Engine en sy oopbron-alternatiewe, wat insigte bied oor hoe om die oplossingskwaliteit van sintetiese datagenerering effektief te assesseer. Verder sal ons ook die tydskoste van elk van hierdie modelle evalueer om verdere insig te gee in die werking van die modelle. 

Hoe om die regte metode om sintetiese data te genereer te kies?

In die diverse landskap van sintetiese datagenerering is daar 'n oorvloed metodes beskikbaar, wat elkeen met sy unieke vermoëns om aandag veg. Die keuse van die mees geskikte metode vir 'n spesifieke toepassing vereis 'n deeglike begrip van die prestasie-eienskappe van elke opsie. Dit noodsaak 'n omvattende evaluering van verskeie sintetiese datagenerators gebaseer op 'n stel goed gedefinieerde maatstawwe om 'n ingeligte besluit te neem. 

Wat volg is 'n streng vergelykende ontleding van die Syntho Engine saam met 'n bekende oopbronraamwerk, die Sintetiese Data Vault (SDV). In hierdie analise het ons baie algemeen gebruikte maatstawwe gebruik soos statistiese getrouheid, voorspellende akkuraatheid en interveranderlike verwantskap. 

Sintetiese data-evalueringsmetrieke

Voordat ons enige spesifieke maatstaf bekendstel, moet ons erken dat daar talle ideologieë is oor die evaluering van Sintetiese data, wat elkeen insig gee in 'n sekere aspek van data. Met dit in gedagte, staan ​​die volgende drie kategorieë uit as belangrik en omvattend. Hierdie maatstawwe verskaf insigte in verskeie aspekte van datakwaliteit. Hierdie kategorieë is: 

      1. Statistiese getrouheidsmaatstawwe: Ondersoek basiese statistiese kenmerke van die data, soos gemiddeldes en afwykings, om te verseker dat die sintetiese data in lyn is met die oorspronklike datastel se statistiese profiel. 

        1. Voorspellende akkuraatheid: Ondersoek sintetiese data generering model prestasie, opgelei met oorspronklike data, en geëvalueer op sintetiese data (Train Real – Toets Sinteties, TRTS) en omgekeerd (Trein Sinteties – Toets Real, TSTR) 

          1. Inter-veranderlike verhoudings: Hierdie gekombineerde kategorie sluit in: 

            • Kenmerkkorrelasie: Ons assesseer hoe goed die sintetiese data die verwantskappe tussen veranderlikes onderhou deur korrelasiekoëffisiënte te gebruik. 'n Bekende maatstaf soos die Propensity Mean Squared Error (PMSE) sou van hierdie tipe wees. 

            • Wedersydse inligting: Ons meet die wedersydse afhanklikheid tussen veranderlikes om die diepte van hierdie verwantskappe verder as net korrelasies te verstaan. 

          Vergelykende Analise: Syntho Engine vs Open-Source Alternatiewe

          Die vergelykende analise is uitgevoer met behulp van 'n gestandaardiseerde evalueringsraamwerk en identiese toetstegnieke oor alle modelle, insluitend Syntho Engine en SDV modelle. Deur datastelle uit identiese bronne te sintetiseer en dit aan dieselfde statistiese toetse en masjienleermodel-assesserings te onderwerp, verseker ons 'n regverdige en onbevooroordeelde vergelyking. Die afdeling wat volg gee besonderhede oor die werkverrigting van elke sintetiese datagenerator oor die reeks statistieke wat hierbo aangebied word.  

           

          Wat die datastel wat vir die evaluering gebruik word betref, het ons die UCI Volwasse se sensusdatastel wat 'n bekende datastel in die masjienleergemeenskap is. Ons het die data skoongemaak voor alle opleiding en dan die datastel in twee stelle verdeel ('n opleiding- en 'n uithou-stel vir toetsing). Ons het die opleidingstel gebruik om 1 miljoen nuwe datapunte met elk van die modelle te genereer en verskeie maatstawwe op hierdie gegenereerde datastelle geëvalueer. Vir verdere masjienleer-evaluasies het ons die uithou-stel gebruik om maatstawwe soos dié wat met TSTR en TRTS verband hou, te evalueer.  

           

          Elke kragopwekker is met verstekparameters uitgevoer. Aangesien sommige van die modelle, soos Syntho, buite die boks op enige tabeldata kan werk, is geen fyninstelling gedoen nie. Soek vir die regte hiperparameters vir elke model sal 'n aansienlike hoeveelheid tyd neem, en Tabel 2 toon reeds 'n groot tydsverskil tussen Syntho se model en dié waarteen getoets is. 

           

          Dit is opmerklik dat, in teenstelling met die res van die modelle in SDV, die Gaussian Copula Synthesizer gebaseer is op statistiese metodes. In teenstelling hiermee is die res gebaseer op neurale netwerke soos Generative Adversarial Networks (GAN) modelle en variasie outo-enkodeerders. Dit is hoekom Gaussian Copula gesien kan word as 'n basislyn vir al die modelle wat bespreek is. 

          Results

          Datakwaliteit

          Figuur 1. Visualisering van basiese kwaliteit resultate vir alle modelle

          Die voorheen bespreekte nakoming van tendense en voorstellings in die data kan gevind word in Figuur 1 en Tabel 1. Hier kan elkeen van die maatstawwe wat gebruik word soos volg geïnterpreteer word:

          • Algehele kwaliteittelling: Algehele assessering van sintetiese data se kwaliteit, wat verskeie aspekte soos statistiese ooreenkoms en data-eienskappe kombineer. 
          • Kolomvorms: Bepaal of die sintetiese data dieselfde verspreidingsvorm behou as die werklike data vir elke kolom. 
          • Kolompaarneigings: Evalueer verwantskap of korrelasies tussen pare kolomme in sintetiese data in vergelyking met werklike data. 
          •  

          Oor die algemeen kan opgemerk word dat Syntho oor die hele linie baie hoë tellings behaal. Om mee te begin, as daar na algehele datakwaliteit (geëvalueer met die SDV-metriekbiblioteek) gekyk word, kan Syntho 'n resultaat opwaarts van 99% behaal (met kolomvorm-nakoming van 99.92% en kolompaarvorm-nakoming van 99.31%). Dit is terwyl SDV 'n resultaat van maksimaal 90.84% ​​kry (met Gaussian Copula, met 'n kolomvormaanhegting van 93.82% en kolompaarvormaanhegting van 87.86%). 

          'n Tabelvoorstelling van die kwaliteittellings van elke gegenereerde datastel per model

          Tabel 1. 'n Tabelvoorstelling van die kwaliteittellings van elke gegenereerde datastel per model 

          Datadekking

          Die Diagnose Report module van SDV bring onder ons aandag dat SDV-gegenereerde data (in alle gevalle) meer as 10% van die numeriese reekse ontbreek; In die geval van Triplet-Based Variational Autoencoder (TVAE), ontbreek dieselfde hoeveelheid kategoriese data ook in vergelyking met die oorspronklike datastel. Geen sulke waarskuwings is gegenereer met die resultate wat bereik is deur Syntho te gebruik nie.  

          visualisering van gemiddelde kolom-gewys prestasie statistieke vir alle modelle
           
           

          Figuur 2. visualisering van gemiddelde kolom-gewys prestasie statistieke vir alle modelle 

          In die vergelykende analise illustreer die plot van Figuur 2 dat SDV marginaal beter resultate in kategoriedekking met sommige van hul modelle argiveer (naamlik met GaussianCopula, CopulaGAN en Conditional Tabular GAN – CTGAN). Dit is nietemin belangrik om te beklemtoon dat die betroubaarheid van Syntho se data dié van SDV-modelle oortref, aangesien die verskil in dekking oor kategorieë en reekse minimaal is en slegs 'n afwyking van 1.1% toon. Daarteenoor toon SDV-modelle 'n aansienlike variasie, wat wissel van 14.6% tot 29.2%. 

           

          Die voorgestelde maatstawwe hier, kan soos volg geïnterpreteer word: 

          • Kategorie Dekking: Meet die teenwoordigheid van alle kategorieë in sintetiese data in vergelyking met werklike data.
          • Omvangsdekking: Evalueer hoe goed die reeks waardes in sintetiese data ooreenstem met dié in werklike data. 
          'n Tabelvoorstelling van die gemiddelde dekking van 'n gegewe kenmerktipe per model

          Tabel 2. 'n Tabelvoorstelling van die gemiddelde dekking van 'n gegewe kenmerktipe per model 

          Utility

          Beweeg na die onderwerp van nut van sintetiese data, die kwessie van opleidingsmodelle op die data word relevant. Om 'n gebalanseerde en regverdige vergelyking tussen alle raamwerke te hê, het ons die verstek Gradient Boosting Classifier van die SciKit Learn-biblioteek gekies, aangesien dit redelik aanvaar word as 'n goed presterende model met out-of-the-box instellings.  

           

          Twee verskillende modelle word opgelei, een op die sintetiese data (vir TSTR) en een op die oorspronklike data (vir TRTS). Die model wat op die sintetiese data opgelei is, word geëvalueer deur 'n uithoutoetsstel te gebruik (wat nie tydens sintetiese datagenerering gebruik is nie) en die model wat op oorspronklike data opgelei is, word op die sintetiese datastel getoets.  

          visualisering van Area Under the Curve (AUC) tellings per metode per model

          Figuur 3. Visualisering van Area Under the Curve (AUC) tellings per metode per model 

           Die resultate wat hierbo gevisualiseer is, demonstreer die superioriteit van sintetiese data-generering deur die Syntho-enjin in vergelyking met ander metodes, aangesien daar geen verskil is tussen die resultate wat deur die verskillende metodes verkry word nie (wat dui op 'n hoë ooreenkoms tussen die sintetiese en werklike data). Die rooi stippellyn wat in die plot teenwoordig is, is ook die resultaat wat verkry word deur die basisprestasie van 'n Train Real, Test Real (TRTR)-toets te evalueer om 'n basislyn vir die waargenome maatstawwe te verskaf. Hierdie lyn verteenwoordig die waarde 0.92, wat die Area Under the Curve-telling (AUC-telling) is wat behaal word deur die model wat op werklike data opgelei is en op werklike data getoets is. 

          'n Tabelvoorstelling van die AUC-tellings wat onderskeidelik deur TRTS en TSTR per model behaal is.

          Tabel 3. 'n Tabelvoorstelling van die AUC-tellings wat onderskeidelik deur TRTS en TSTR per model behaal is. 

          Tydsgewyse vergelyking

          Natuurlik is dit van kardinale belang om die tyd wat belê word om hierdie resultate te genereer, in ag te neem. Die visualisering hieronder illustreer net dit.

          visualisering van die tyd wat dit neem om sintetiese datagenerering van een miljoen datapunte op te lei en uit te voer met 'n model met en sonder 'n GPU.

          Figuur 5. Visualisering van die tyd wat dit neem om op te lei en te presteer sintetiese data generering van een miljoen datapunte met 'n model met en sonder 'n GPU. 

          Figuur 5 illustreer die tyd wat dit neem om sintetiese data in twee verskillende instellings te genereer. Die eerste daarvan (hier na verwys as Sonder GPU), was toetslopies wat uitgevoer word op 'n stelsel met 'n Intel Xeon-SVE met 16 kerne wat teen 2.20 GHz loop. Die toetse wat as "gehardloop met 'n GPU" gemerk is, was op 'n stelsel met 'n AMD Ryzen 9 7945HX-verwerker met 16 kerne wat op 2.5GHz werk en 'n NVIDIA GeForce RTX 4070 skootrekenaar-GPU. Soos opvallend in Figuur 2 en in Tabel 2 hieronder, kan daar waargeneem word dat Syntho aansienlik vinniger is om sintetiese data te genereer (in beide scenario's) wat krities is in 'n dinamiese werkvloei. 

          'n tabel wat die tyd illustreer wat dit geneem het om sintetiese data te genereer van 1 miljoen datapunte met elke model met en sonder 'n GPU

          Tabel 5. 'n Tabelvoorstelling van die tyd geneem om sintetiese data generering van een miljoen datapunte met elke model met en sonder 'n GPU 

          Slotopmerkings en Toekomstige Aanwysings 

          Die bevindinge onderstreep die belangrikheid van deeglike kwaliteit-evaluering in die keuse van die regte sintetiese datagenereringsmetode. Syntho's Engine, met sy KI-gedrewe benadering, toon noemenswaardige sterkpunte in sekere maatstawwe, terwyl oopbronhulpmiddels soos SDV skyn in hul veelsydigheid en gemeenskapsgedrewe verbeterings. 

          Aangesien die veld van sintetiese data aanhou ontwikkel, moedig ons jou aan om hierdie maatstawwe in jou projekte toe te pas, hul verwikkeldheid te verken en jou ervarings te deel. Bly ingeskakel vir toekomstige plasings waar ons dieper in ander maatstawwe sal duik en werklike voorbeelde van hul toepassing sal uitlig. 

          Aan die einde van die dag, vir diegene wat die waters op sintetiese data wil toets, kan die aangebied oopbron-alternatief 'n regverdige keuse wees gegewe toeganklikheid; vir professionele persone wat hierdie moderne tegnologie in hul ontwikkelingsproses inkorporeer, moet enige kans op verbetering egter aangegryp word en alle hindernisse vermy word. Dit is dus belangrik om die beste opsie beskikbaar te kies. Met die ontledings hierbo word dit eerder duidelik dat Syntho en daarmee saam die Syntho Engine 'n baie bekwame hulpmiddel vir praktisyns is. 

          Oor Syntho

          Sinto bied 'n slim platform vir sintetiese datagenerering, wat gebruik maak van veelvuldige sintetiese datavorms en genereringsmetodes, wat organisasies bemagtig om data intelligent te omskep in 'n mededingende voordeel. Ons KI-gegenereerde sintetiese data boots statistiese patrone van oorspronklike data na, wat akkuraatheid, privaatheid en spoed verseker, soos beoordeel deur eksterne kundiges soos SAS. Met slim de-identifikasiekenmerke en konsekwente kartering word sensitiewe inligting beskerm terwyl verwysingsintegriteit bewaar word. Ons platform maak die skepping, bestuur en beheer van toetsdata vir nie-produksie-omgewings moontlik, deur gebruik te maak van reëlgebaseerde sintetiese datagenereringmetodes vir geteikende scenario's. Boonop kan gebruikers sintetiese data programmaties genereer en realistiese toetsdata verkry om omvattende toets- en ontwikkelingscenario's met gemak te ontwikkel.  

          Wil jy meer praktiese toepassings van sintetiese data leer? Gaan gerus voort skedule demo!

          Oor die skrywers

          Sagteware-ingenieurswese Intern

          Rohanam is 'n baccalaureusstudent aan die Delft Universiteit van Tegnologie en is 'n Sagteware-ingenieurswese Intern by Sinto 

          Masjienleeringenieur

          Mihai het sy PhD van die Universiteit van Bristol oor die onderwerp van hiërargiese versterkingsleer toegepas op robotika en is 'n Masjienleeringenieur at Sinto. 

          sintho gids omslag

          Stoor jou sintetiese datagids nou!