Evaluazione di l'utilità è a somiglianza in i generatori di dati sintetici: una immersione tecnica profonda è analisi comparativa

Publicatu:
Ferraghju 27, 2024

I MUVRINI

In l'era digitale d'oghje, a cuscenza di a privacy di e dati hè significativamente aumentata. L'utilizatori ricunnoscenu sempre più e so dati cum'è una impronta digitale unica, chì ponenu un risicu per a so privacy in casu di violazioni di dati. Questa preoccupazione hè ancu amplificata da regulazioni cum'è GDPR, chì permettenu à l'utilizatori di dumandà l'eliminazione di e so dati. Mentre hè assai necessariu, sta legislazione pò esse assai caru per l'imprese chì l'accessu à e dati hè minimizatu; restrizioni chì sò spessu cunsumanu tempu è risorse per superà. 

Table di cuntinutu

Chì sò i generatori di dati sintetici?

Inserite dati sintetici, una suluzione à stu enigma. I generatori di dati sintetici creanu inseme di dati chì imitanu i dati di l'utilizatori veri mentre priservendu l'anonimatu è a cunfidenziale. Stu approcciu guadagna trazione in tutti i settori, da l'assistenza sanitaria à a finanza, induve a privacy hè di primura.  

Questu post hè adattatu per i prufessiunali di dati è dilettanti, cuncintrati in a valutazione di i generatori di dati sintetici. Andemu in e metriche chjave è cunduceremu un'analisi comparativa trà Syntho's Engine è e so alternative open-source, offrendu insights nantu à cumu valutà in modu efficace a qualità di suluzione di generazione di dati sintetici. Inoltre, valuteremu ancu u costu di u tempu di ognuna di sti mudelli per furnisce più insight in u travagliu di i mudelli. 

Cumu sceglie u metudu di generazione di dati sintetici ghjustu?

In u diversu paisaghju di a generazione di dati sintetici, ci hè una bundanza di metudi dispunibuli, ognuna in lotta per l'attenzione cù e so capacità uniche. A scelta di u metudu più adattatu per una applicazione particulari richiede una cunniscenza approfondita di e caratteristiche di rendiment di ogni opzione. Questu hè necessariu una valutazione cumpleta di diversi generatori di dati sintetici basati nantu à un inseme di metriche ben definite per piglià una decisione informata. 

Ciò chì seguita hè una rigurosa analisi comparativa di u Syntho Engine à fiancu à un framework open-source ben cunnisciutu, u Synthetic Data Vault (SDV). In questa analisi, avemu usatu assai metrichi cumunimenti usati cum'è fideltà statistica, precisione predittiva è relazione inter-variable. 

Metriche di valutazione di dati sintetici

Prima di introduzione di ogni metrica specifica, avemu da ricunnosce chì ci sò numerosi ideologii nantu à a valutazione di e dati sintetici, ognuna di quali dà insight in un certu aspettu di dati. Cù questu in mente, e trè categurie seguenti si distinguenu cum'è impurtanti è cumpletu. Queste metriche furniscenu insights in diversi aspetti di a qualità di dati. Queste categurie sò: 

      1. Metri di Fidelity Statistiche: Esaminà e caratteristiche statistiche basiche di e dati, cum'è i mezi è varianze, per assicurà chì e dati sintetici sò allineati cù u prufilu statisticu di u dataset originale. 

        1. Precisione predittiva: Esaminà a prestazione di mudelli di generazione di dati sintetici, furmatu cù dati originali, è valutatu nantu à dati sintetici (Train Real - Test Synthetic, TRTS) è viceversa (Train Synthetic - Test Real, TSTR) 

          1. Relazioni inter-variabili: Questa categuria cumminata include: 

            • Correlazione di caratteristiche: Evaluemu quantu i dati sintetici mantenenu e relazioni trà e variàbili utilizendu coefficienti di correlazione. Una metrica ben cunnisciuta cum'è l'errore quadratu mediu di a propensione (PMSE) seria di stu tipu. 

            • infurmazione mutuale: Misuremu a dependenza mutuale trà e variàbili per capisce a prufundità di sti rilazioni oltre solu correlazioni. 

          Analisi comparativa: Syntho Engine versus Alternative Open-Source

          L'analisi comparativa hè stata realizata utilizendu un quadru di valutazione standardizatu è tecniche di teste identiche in tutti i mudelli, cumpresi i mudelli Syntho Engine è SDV. Sintetizendu datasets da fonti identiche è sottumettendu à e stesse teste statistiche è valutazioni di mudelli di machine learning, assicuremu un paragone ghjustu è imparziale. A sezione chì seguita detalla u rendiment di ogni generatore di dati sintetici in tutta a gamma di metriche presentate sopra.  

           

          In quantu à u set di dati utilizatu per a valutazione, avemu usatu u Jeu de données du recensement des adultes de l'UCI chì hè un inseme di dati ben cunnisciutu in a cumunità di apprendimentu machine. Avemu pulitu i dati prima di tutte e furmazione è dopu dividite u dataset in dui setti (una furmazione è un set di holdout per a prova). Avemu utilizatu u set di furmazione per generà 1 milione di punti di dati novi cù ognunu di i mudelli è evaluate diverse metriche nantu à questi datasets generati. Per ulteriori valutazioni di l'apprendimentu di macchina, avemu utilizatu u set di holdout per valutà metriche cum'è quelle relative à TSTR è TRTS.  

           

          Ogni generatore hè statu gestitu cù paràmetri predeterminati. Siccomu alcuni di i mudelli, cum'è Syntho, ponu travaglià fora di a scatula nantu à qualsiasi dati tabulari, ùn hè micca fattu un tuning fine. A ricerca di l'iperparametri adattati per ogni mudellu pigliarà una quantità significativa di tempu, è a Tabella 2 mostra digià una grande differenza di tempu trà u mudellu di Syntho è quelli testati. 

           

          Hè nutate chì in uppusizione à u restu di i mudelli in SDV, u Gaussian Copula Synthesizer hè basatu nantu à metudi statistichi. In cuntrastu, u restu sò basati nantu à e rete neurali cum'è mudelli Generative Adversarial Networks (GAN) è variational auto-encoders. Hè per quessa chì a Copula Gaussiana pò esse vistu cum'è una basa per tutti i mudelli discututi. 

          Risposte alla lingua

          Qualità di Datu

          Figura 1. Visualizazione di i risultati di qualità basica per tutti i mudelli

          L'aderenza discutitu prima à i tendenzi è e rapprisentanti in i dati ponu esse truvati in Figura 1 è Table 1. Quì, ogni metrica in usu pò esse interpretata cum'è seguita:

          • Puntu di qualità generale: Valutazione generale di a qualità di e dati sintetici, cumminendu diversi aspetti cum'è a similitudine statistica è e caratteristiche di dati. 
          • Forme di Colonna: Evaluate se i dati sintetici mantenenu a listessa forma di distribuzione cum'è i dati reali per ogni colonna. 
          • Tendenze di coppia di colonne: valuta a relazione o correlazioni trà coppie di colonne in dati sintetici cumparatu cù dati reali. 
          •  

          In generale, si pò nutà chì Syntho ottene punteggi assai alti in tuttu u pianu. Per principià, quandu si vede a qualità generale di e dati (evaluata cù a biblioteca di metrica SDV) Syntho pò ottene un risultatu più altu di 99% (cun ​​​​aderenza di forma di colonna di 99.92% è aderenza di forma di coppia di colonna di 99.31%). Questu hè mentre SDV ottene un risultatu massimu di 90.84% (cù a Copula Gaussiana, avè una aderenza di a forma di colonna di 93.82% è l'aderenza di forma di coppia di colonna di 87.86%). 

          Una rappresentazione tabulare di i punteggi di qualità di ogni dataset generatu per mudellu

          Table 1. Una rapprisintazioni tabulare di i punteggi di qualità di ogni dataset generatu per mudellu 

          Copertura di dati

          U modulu di Rapportu di Diagnosi di SDV porta à a nostra attenzione chì i dati generati da SDV (in tutti i casi) mancanu più di 10% di i numeri numerichi; In u casu di Triplet-Based Variational Autoencoder (TVAE), a stessa quantità di dati categurichi sò ancu mancanti quandu paragunate à u dataset originale. Ùn sò stati generati tali avvisi cù i risultati ottenuti cù l'usu di Syntho.  

          visualizazione di e metriche di rendiment mediu di colonna per tutti i mudelli
           
           

          Figura 2. visualizazione di e metriche di rendiment mediu di colonna per tutti i mudelli 

          In l'analisi comparativa, a trama di a Figura 2 illustra chì l'archivi SDV marginalmente risultati megliu in a cobertura di categuria cù alcuni di i so mudelli (vale à dì cù GaussianCopula, CopulaGAN, è GAN Tabular Conditional - CTGAN). Tuttavia, hè impurtante di mette in risaltu chì l'affidabilità di e dati di Syntho supera quella di i mudelli SDV, postu chì a discrepanza in a cobertura trà categurie è intervalli hè minima, esibendu una mera varianza di 1.1%. In cuntrastu, i mudelli SDV dimustranu una variazione considerableu, chì varieghja da 14.6% à 29.2%. 

           

          I metrici rapprisentati quì, ponu esse interpretati cusì: 

          • Copertura di categuria: Misura a prisenza di tutte e categurie in dati sintetici cumparatu cù e dati reali.
          • Range Coverage: Evaluate quantu bè a gamma di valori in dati sintetici currisponde à quella in dati reali. 
          Una rappresentazione tabulare di a cobertura media di un tipu d'attributu datu per mudellu

          Table 2. Una rapprisintazioni tabulare di a cobertura media di un tipu d'attributu datu per mudellu 

          Utility

          Trascendendu à u tema di utilità di dati sintetici, a materia di mudelli di furmazione nantu à e dati diventa pertinente. Per avè un paragone equilibratu è ghjusta trà tutti i frameworks avemu sceltu u Gradient Boosting Classifier predeterminatu da a libreria SciKit Learn, videndu chì hè abbastanza accettatu cum'è un mudellu di bonu rendimentu cù paràmetri out-of-the-box.  

           

          Dui mudelli diffirenti sò furmatu, unu nantu à i dati sintetici (per TSTR) è unu nantu à i dati originali (per TRTS). U mudellu addestratu nantu à e dati sintetici hè evaluatu utilizendu un set di teste di holdout (chì ùn hè micca usatu durante a generazione di dati sintetici) è u mudellu furmatu nantu à e dati originali hè pruvatu nantu à u dataset sinteticu.  

          visualizazione di i punteggi di l'Area Under the Curve (AUC) per metudu per mudellu

          Figura 3. Visualization of Area Under the Curve (AUC) puntuazioni per metudu per mudellu 

           I risultati visualizati sopra dimustranu a superiorità di a generazione di dati sintetici da u mutore Syntho in paragunà à l'altri metudi, videndu chì ùn ci hè micca differenza trà i risultati ottenuti da i diversi metudi (puntendu versu una alta similarità trà i dati sintetici è reali). Inoltre, a linea di punta rossa presente in a trama hè u risultatu ottenutu da a valutazione di u funziunamentu di basa di un test Train Real, Test Real (TRTR) per furnisce una basa per e metriche osservate. Questa linea rapprisenta u valore 0.92, chì hè u puntuatu di l'Area Under the Curve (puntu AUC) ottenutu da u mudellu furmatu nantu à dati veri è pruvati nantu à dati reali. 

          Una rappresentazione tabulare di i punteggi AUC ottenuti da TRTS è TSTR rispettivamente per mudellu.

          Table 3. Una rapprisintazioni tabulare di i punteggi AUC ottenuti da TRTS è TSTR rispettivamente per mudellu. 

          Comparazione di u tempu

          Naturalmente, hè cruciale per cunsiderà u tempu investitu à generà questi risultati. A visualizazione quì sottu illustra solu questu.

          visualizazione di u tempu pigliatu per furmà è eseguisce a generazione di dati sintetici di un milione di punti di dati cù un mudellu cù è senza GPU.

          Figura 5. Visualizazione di u tempu pigliatu per furmà è eseguisce generazione di dati sintetici di un milione di punti di dati cù un mudellu cù è senza GPU. 

          A Figura 5 illustra u tempu impiegatu per generà dati sintetici in dui paràmetri diffirenti. U primu di quali (qui chjamati senza GPU), sò stati test runs in u sistema cù un CPU Intel Xeon cù core 16 chì funzionanu à 2.20 GHz. I testi marcati cum'è "corsa cù una GPU" sò stati nantu à un sistema cù una CPU AMD Ryzen 9 7945HX cù 16 cores chì funzionanu à 2.5GHz è una GPU per laptop NVIDIA GeForce RTX 4070. Cum'è notu in a Figura 2 è in a Tabella 2 sottu, pò esse osservatu chì Syntho hè significativamente più veloce à generà dati sintetici (in i dui scenarii) chì hè criticu in un flussu di travagliu dinamicu. 

          una tavula chì illustra u tempu impiegatu per a generazione di dati sintetici di 1 milione di punti di dati cù ogni mudellu cù è senza GPU

          Table 5. Una rapprisintazioni tabulare di u tempu pigliatu generazione di dati sintetici di un milione di punti di dati cù ogni mudellu cù è senza GPU 

          Osservazioni cuncludenti è direzzione futura 

          I risultati sottolineanu l'impurtanza di una valutazione di qualità curretta in a scelta di u metudu di generazione di dati sintetici ghjustu. Syntho's Engine, cù u so approcciu guidatu da AI, dimostra punti di forza notevoli in certe metriche, mentre chì l'arnesi open-source cum'è SDV brillanu in a so versatilità è i migliuramenti guidati da a cumunità. 

          Siccomu u campu di e dati sintetici cuntinueghja à evoluzione, vi incuraghjemu à applicà queste metriche in i vostri prughjetti, scopre e so intricacies, è per sparte e vostre sperienze. Stà sintonizzati per i futuri posti induve immersioneremu più profondamente in altre metriche è mette in risaltu esempi reali di a so applicazione. 

          À a fine di u ghjornu, per quelli chì aspittàvanu di pruvà l'acqua nantu à e dati sintetici, l'alternativa open-source presentata pò esse una scelta ghjustificata datu l'accessibilità; in ogni modu, per i prufessiunali chì incorporanu sta tecnulugia muderna in u so prucessu di sviluppu, ogni chance di migliurà deve esse pigliatu è tutti i impedimenti evitati. Hè dunque impurtante di sceglie a megliu opzione dispunibule. Cù l'analisi furnite sopra, diventa piuttostu apparente chì Syntho è cun questu u Syntho Engine hè un strumentu assai capaci per i pratichi. 

          À propositu di Syntho

          Synthu furnisce una piattaforma di generazione di dati sintetici intelligenti, sfruttendu parechje forme di dati sintetici è metudi di generazione, facultendu l'urganisazioni per trasfurmà in modu intelligente e dati in un vantaghju competitivu. I nostri dati sintetici generati da AI imitanu mudelli statistici di dati originali, assicurendu precisione, privacy è rapidità, cum'è valutati da esperti esterni cum'è SAS. Cù funzioni di de-identificazione intelligenti è una mappatura coherente, l'infurmazione sensibile hè prutetta mentre cunservà l'integrità referenziale. A nostra piattaforma permette a creazione, a gestione è u cuntrollu di dati di prova per ambienti non-produzione, utilizendu metudi di generazione di dati sintetici basati in regule per scenarii mirati. Inoltre, l'utilizatori ponu generà dati sintetici in modu programmaticu è uttene dati di prova realistichi per sviluppà scenarii di prova è sviluppu cumpleti cun facilità.  

          Vulete amparà più applicazioni pratiche di dati sintetici? Sentite liberu di pianificà a demo!

          À propositu di l'autori

          Stagista in ingegneria di software

          roham hè un studiente di bachelor in l'Università di Tecnulugia di Delft è hè un Intern in Ingegneria di Software Synthu 

          Engineer Learning di Macchina

          Mihai hà ottenutu u so PhD da u Università di Bristol nantu à u tema di l'apprendimentu di rinforzu gerarchicu applicatu à a robotica è hè un Ingegnere d'Apprendimentu Machine at Synthu. 

          copertina di guida di syntho

          Salvà a vostra guida di dati sintetici avà!