Evaluazione di l'utilità è a somiglianza in i generatori di dati sintetici: una immersione tecnica profonda è analisi comparativa

Publicatu:

Ferraghju 27, 2024

I MUVRINI

In l'era digitale d'oghje, a cuscenza di a privacy di e dati hè significativamente aumentata. L'utilizatori ricunnoscenu sempre più e so dati cum'è una impronta digitale unica, chì ponenu un risicu per a so privacy in casu di violazioni di dati. Questa preoccupazione hè ancu amplificata da regulazioni cum'è GDPR, chì permettenu à l'utilizatori di dumandà l'eliminazione di e so dati. Mentre hè assai necessariu, sta legislazione pò esse assai caru per l'imprese chì l'accessu à e dati hè minimizatu; restrizioni chì sò spessu cunsumanu tempu è risorse per superà.

Chì sò i generatori di dati sintetici?

Inserite dati sintetici, una suluzione à stu enigma. I generatori di dati sintetici creanu inseme di dati chì imitanu i dati di l'utilizatori veri mentre priservendu l'anonimatu è a cunfidenziale. Stu approcciu guadagna trazione in tutti i settori, da l'assistenza sanitaria à a finanza, induve a privacy hè di primura.

Questu post hè adattatu per i prufessiunali di dati è dilettanti, cuncintrati in a valutazione di i generatori di dati sintetici. Andemu in e metriche chjave è cunduceremu un'analisi comparativa trà Syntho's Engine è e so alternative open-source, offrendu insights nantu à cumu valutà in modu efficace a qualità di suluzione di generazione di dati sintetici. Inoltre, valuteremu ancu u costu di u tempu di ognuna di sti mudelli per furnisce più insight in u travagliu di i mudelli.

Cumu sceglie u metudu di generazione di dati sintetici ghjustu?

In u diversu paisaghju di a generazione di dati sintetici, ci hè una bundanza di metudi dispunibuli, ognuna in lotta per l'attenzione cù e so capacità uniche. A scelta di u metudu più adattatu per una applicazione particulari richiede una cunniscenza approfondita di e caratteristiche di rendiment di ogni opzione. Questu hè necessariu una valutazione cumpleta di diversi generatori di dati sintetici basati nantu à un inseme di metriche ben definite per piglià una decisione informata.

Ciò chì seguita hè una rigurosa analisi comparativa di u Syntho Engine à fiancu à un framework open-source ben cunnisciutu, u Synthetic Data Vault (SDV). In questa analisi, avemu usatu assai metrichi cumunimenti usati cum'è fideltà statistica, precisione predittiva è relazione inter-variable.

Metriche di valutazione di dati sintetici

Prima di introduzione di ogni metrica specifica, avemu da ricunnosce chì ci sò numerosi ideologii nantu à a valutazione di e dati sintetici, ognuna di quali dà insight in un certu aspettu di dati. Cù questu in mente, e trè categurie seguenti si distinguenu cum'è impurtanti è cumpletu. Queste metriche furniscenu insights in diversi aspetti di a qualità di dati. Queste categurie sò:

1. Metri di Fidelity Statistiche: Esaminà e caratteristiche statistiche basiche di e dati, cum'è i mezi è varianze, per assicurà chì e dati sintetici sò allineati cù u prufilu statisticu di u dataset originale.

1. Precisione predittiva: Esaminà a prestazione di mudelli di generazione di dati sintetici, furmatu cù dati originali, è valutatu nantu à dati sintetici (Train Real - Test Synthetic, TRTS) è viceversa (Train Synthetic - Test Real, TSTR)

1. Relazioni inter-variabili: Questa categuria cumminata include:

- Correlazione di caratteristiche: Evaluemu quantu i dati sintetici mantenenu e relazioni trà e variàbili utilizendu coefficienti di correlazione. Una metrica ben cunnisciuta cum'è l'errore quadratu mediu di a propensione (PMSE) seria di stu tipu.

- infurmazione mutuale: Misuremu a dependenza mutuale trà e variàbili per capisce a prufundità di sti rilazioni oltre solu correlazioni.

Analisi comparativa: Syntho Engine versus Alternative Open-Source

L'analisi comparativa hè stata realizata utilizendu un quadru di valutazione standardizatu è tecniche di teste identiche in tutti i mudelli, cumpresi i mudelli Syntho Engine è SDV. Sintetizendu datasets da fonti identiche è sottumettendu à e stesse teste statistiche è valutazioni di mudelli di machine learning, assicuremu un paragone ghjustu è imparziale. A sezione chì seguita detalla u rendiment di ogni generatore di dati sintetici in tutta a gamma di metriche presentate sopra.

In quantu à u set di dati utilizatu per a valutazione, avemu usatu u Jeu de données du recensement des adultes de l'UCI chì hè un inseme di dati ben cunnisciutu in a cumunità di apprendimentu machine. Avemu pulitu i dati prima di tutte e furmazione è dopu dividite u dataset in dui setti (una furmazione è un set di holdout per a prova). Avemu utilizatu u set di furmazione per generà 1 milione di punti di dati novi cù ognunu di i mudelli è evaluate diverse metriche nantu à questi datasets generati. Per ulteriori valutazioni di l'apprendimentu di macchina, avemu utilizatu u set di holdout per valutà metriche cum'è quelle relative à TSTR è TRTS.

Ogni generatore hè statu gestitu cù paràmetri predeterminati. Siccomu alcuni di i mudelli, cum'è Syntho, ponu travaglià fora di a scatula nantu à qualsiasi dati tabulari, ùn hè micca fattu un tuning fine. A ricerca di l'iperparametri adattati per ogni mudellu pigliarà una quantità significativa di tempu, è a Tabella 2 mostra digià una grande differenza di tempu trà u mudellu di Syntho è quelli testati.

Hè nutate chì in uppusizione à u restu di i mudelli in SDV, u Gaussian Copula Synthesizer hè basatu nantu à metudi statistichi. In cuntrastu, u restu sò basati nantu à e rete neurali cum'è mudelli Generative Adversarial Networks (GAN) è variational auto-encoders. Hè per quessa chì a Copula Gaussiana pò esse vistu cum'è una basa per tutti i mudelli discututi.

Risposte alla lingua

Qualità di Datu

Figura 1. Visualizazione di i risultati di qualità basica per tutti i mudelli

L'aderenza discutitu prima à i tendenzi è e rapprisentanti in i dati ponu esse truvati in Figura 1 è Table 1. Quì, ogni metrica in usu pò esse interpretata cum'è seguita:

Puntu di qualità generale: Valutazione generale di a qualità di e dati sintetici, cumminendu diversi aspetti cum'è a similitudine statistica è e caratteristiche di dati.
Forme di Colonna: Evaluate se i dati sintetici mantenenu a listessa forma di distribuzione cum'è i dati reali per ogni colonna.
Tendenze di coppia di colonne: valuta a relazione o correlazioni trà coppie di colonne in dati sintetici cumparatu cù dati reali.

In generale, si pò nutà chì Syntho ottene punteggi assai alti in tuttu u pianu. Per principià, quandu si vede a qualità generale di e dati (evaluata cù a biblioteca di metrica SDV) Syntho pò ottene un risultatu più altu di 99% (cun aderenza di forma di colonna di 99.92% è aderenza di forma di coppia di colonna di 99.31%). Questu hè mentre SDV ottene un risultatu massimu di 90.84% (cù a Copula Gaussiana, avè una aderenza di a forma di colonna di 93.82% è l'aderenza di forma di coppia di colonna di 87.86%).

Table 1. Una rapprisintazioni tabulare di i punteggi di qualità di ogni dataset generatu per mudellu

Copertura di dati

U modulu di Rapportu di Diagnosi di SDV porta à a nostra attenzione chì i dati generati da SDV (in tutti i casi) mancanu più di 10% di i numeri numerichi; In u casu di Triplet-Based Variational Autoencoder (TVAE), a stessa quantità di dati categurichi sò ancu mancanti quandu paragunate à u dataset originale. Ùn sò stati generati tali avvisi cù i risultati ottenuti cù l'usu di Syntho.

Figura 2. visualizazione di e metriche di rendiment mediu di colonna per tutti i mudelli

In l'analisi comparativa, a trama di a Figura 2 illustra chì l'archivi SDV marginalmente risultati megliu in a cobertura di categuria cù alcuni di i so mudelli (vale à dì cù GaussianCopula, CopulaGAN, è GAN Tabular Conditional - CTGAN). Tuttavia, hè impurtante di mette in risaltu chì l'affidabilità di e dati di Syntho supera quella di i mudelli SDV, postu chì a discrepanza in a cobertura trà categurie è intervalli hè minima, esibendu una mera varianza di 1.1%. In cuntrastu, i mudelli SDV dimustranu una variazione considerableu, chì varieghja da 14.6% à 29.2%.

I metrici rapprisentati quì, ponu esse interpretati cusì:

Copertura di categuria: Misura a prisenza di tutte e categurie in dati sintetici cumparatu cù e dati reali.
Range Coverage: Evaluate quantu bè a gamma di valori in dati sintetici currisponde à quella in dati reali.

Table 2. Una rapprisintazioni tabulare di a cobertura media di un tipu d'attributu datu per mudellu

Utility

Trascendendu à u tema di utilità di dati sintetici, a materia di mudelli di furmazione nantu à e dati diventa pertinente. Per avè un paragone equilibratu è ghjusta trà tutti i frameworks avemu sceltu u Gradient Boosting Classifier predeterminatu da a libreria SciKit Learn, videndu chì hè abbastanza accettatu cum'è un mudellu di bonu rendimentu cù paràmetri out-of-the-box.

Dui mudelli diffirenti sò furmatu, unu nantu à i dati sintetici (per TSTR) è unu nantu à i dati originali (per TRTS). U mudellu addestratu nantu à e dati sintetici hè evaluatu utilizendu un set di teste di holdout (chì ùn hè micca usatu durante a generazione di dati sintetici) è u mudellu furmatu nantu à e dati originali hè pruvatu nantu à u dataset sinteticu.

Figura 3. Visualization of Area Under the Curve (AUC) puntuazioni per metudu per mudellu

I risultati visualizati sopra dimustranu a superiorità di a generazione di dati sintetici da u mutore Syntho in paragunà à l'altri metudi, videndu chì ùn ci hè micca differenza trà i risultati ottenuti da i diversi metudi (puntendu versu una alta similarità trà i dati sintetici è reali). Inoltre, a linea di punta rossa presente in a trama hè u risultatu ottenutu da a valutazione di u funziunamentu di basa di un test Train Real, Test Real (TRTR) per furnisce una basa per e metriche osservate. Questa linea rapprisenta u valore 0.92, chì hè u puntuatu di l'Area Under the Curve (puntu AUC) ottenutu da u mudellu furmatu nantu à dati veri è pruvati nantu à dati reali.

Table 3. Una rapprisintazioni tabulare di i punteggi AUC ottenuti da TRTS è TSTR rispettivamente per mudellu.

Comparazione di u tempu

Naturalmente, hè cruciale per cunsiderà u tempu investitu à generà questi risultati. A visualizazione quì sottu illustra solu questu.

Figura 5. Visualizazione di u tempu pigliatu per furmà è eseguisce generazione di dati sintetici di un milione di punti di dati cù un mudellu cù è senza GPU.

A Figura 5 illustra u tempu impiegatu per generà dati sintetici in dui paràmetri diffirenti. U primu di quali (qui chjamati senza GPU), sò stati test runs in u sistema cù un CPU Intel Xeon cù core 16 chì funzionanu à 2.20 GHz. I testi marcati cum'è "corsa cù una GPU" sò stati nantu à un sistema cù una CPU AMD Ryzen 9 7945HX cù 16 cores chì funzionanu à 2.5GHz è una GPU per laptop NVIDIA GeForce RTX 4070. Cum'è notu in a Figura 2 è in a Tabella 2 sottu, pò esse osservatu chì Syntho hè significativamente più veloce à generà dati sintetici (in i dui scenarii) chì hè criticu in un flussu di travagliu dinamicu.

Table 5. Una rapprisintazioni tabulare di u tempu pigliatu generazione di dati sintetici di un milione di punti di dati cù ogni mudellu cù è senza GPU

Osservazioni cuncludenti è direzzione futura

I risultati sottolineanu l'impurtanza di una valutazione di qualità curretta in a scelta di u metudu di generazione di dati sintetici ghjustu. Syntho's Engine, cù u so approcciu guidatu da AI, dimostra punti di forza notevoli in certe metriche, mentre chì l'arnesi open-source cum'è SDV brillanu in a so versatilità è i migliuramenti guidati da a cumunità.

Siccomu u campu di e dati sintetici cuntinueghja à evoluzione, vi incuraghjemu à applicà queste metriche in i vostri prughjetti, scopre e so intricacies, è per sparte e vostre sperienze. Stà sintonizzati per i futuri posti induve immersioneremu più profondamente in altre metriche è mette in risaltu esempi reali di a so applicazione.

À a fine di u ghjornu, per quelli chì aspittàvanu di pruvà l'acqua nantu à e dati sintetici, l'alternativa open-source presentata pò esse una scelta ghjustificata datu l'accessibilità; in ogni modu, per i prufessiunali chì incorporanu sta tecnulugia muderna in u so prucessu di sviluppu, ogni chance di migliurà deve esse pigliatu è tutti i impedimenti evitati. Hè dunque impurtante di sceglie a megliu opzione dispunibule. Cù l'analisi furnite sopra, diventa piuttostu apparente chì Syntho è cun questu u Syntho Engine hè un strumentu assai capaci per i pratichi.

À propositu di Syntho

Synthu furnisce una piattaforma di generazione di dati sintetici intelligenti, sfruttendu parechje forme di dati sintetici è metudi di generazione, facultendu l'urganisazioni per trasfurmà in modu intelligente e dati in un vantaghju competitivu. I nostri dati sintetici generati da AI imitanu mudelli statistici di dati originali, assicurendu precisione, privacy è rapidità, cum'è valutati da esperti esterni cum'è SAS. Cù funzioni di de-identificazione intelligenti è una mappatura coherente, l'infurmazione sensibile hè prutetta mentre cunservà l'integrità referenziale. A nostra piattaforma permette a creazione, a gestione è u cuntrollu di dati di prova per ambienti non-produzione, utilizendu metudi di generazione di dati sintetici basati in regule per scenarii mirati. Inoltre, l'utilizatori ponu generà dati sintetici in modu programmaticu è uttene dati di prova realistichi per sviluppà scenarii di prova è sviluppu cumpleti cun facilità.

Vulete amparà più applicazioni pratiche di dati sintetici? Sentite liberu di pianificà a demo!

À propositu di l'autori

Roham Koohestani

Stagista in ingegneria di software

roham hè un studiente di bachelor in l'Università di Tecnulugia di Delft è hè un Intern in Ingegneria di Software Synthu.

Mihai Anca, PhD

Engineer Learning di Macchina

Mihai hà ottenutu u so PhD da u Università di Bristol nantu à u tema di l'apprendimentu di rinforzu gerarchicu applicatu à a robotica è hè un Ingegnere d'Apprendimentu Machine at Synthu.

Chì sò i dati sintetici?

Rapportu d'assicuranza di qualità

Valutazione esterna da SAS

Dati sintetici di serie temporale

Scanner PII

Dati simulati sintetici

Cartografia coerente

De-identificazione è sintetizazione

Dati sintetici basati in regule

Subsetting

Impiegazione è integrazione

connettori

Funzioni estese

Dati supportati

Documentazione di l'utente

Pianificate una demo

Segretaria

Test data

Analytics

U sparte di dati

Demo di produttu

Monetazione di dati

Sanità

Finance

L'urganisazione publica

Documentazione di l'utente

Libri bianchi è guide

Blog

Webinars

Case Studies