Pag-evaluate sa Utility ug Resemblance sa Synthetic Data Generators: Usa ka Technical Deep Dive ug Comparative Analysis

Gipatik:

Pebrero 27, 2024

Pasiuna

Sa digital nga panahon karon, ang pagkahibalo sa pagkapribado sa datos labi nga nagtaas. Ang mga tiggamit labi nga nakaila sa ilang datos ingon usa ka talagsaon nga digital fingerprint, nga nagbutang usa ka peligro sa ilang pagkapribado kung adunay mga paglapas sa datos. Kini nga kabalaka gipadako pa sa mga regulasyon sama sa GDPR, nga naghatag gahum sa mga tiggamit sa paghangyo sa pagtangtang sa ilang datos. Samtang gikinahanglan kaayo, kini nga lehislasyon mahimong mahal kaayo alang sa mga kompanya tungod kay ang pag-access sa datos gipagamay; mga pagdili nga kasagarang makahurot ug panahon ug kahinguhaan aron mabuntog.

Unsa ang mga synthetic data generators?

Pagsulod sa sintetikong datos, usa ka solusyon niini nga conundrum. Ang mga sintetikong data generator nagmugna og mga dataset nga nagsundog sa tinuod nga datos sa user samtang gipreserbar ang pagka-anonymity ug confidentiality. Ang kini nga pamaagi nakakuha og traksyon sa mga industriya, gikan sa pag-atiman sa kahimsog hangtod sa pinansya, diin ang pagkapribado ang labing hinungdanon.

Kini nga post gipahaum alang sa mga propesyonal sa datos ug mga mahiligon, nga nagpunting sa pagtimbang-timbang sa mga sintetikong data generator. Atong susihon ang mga yawe nga sukatan ug magpahigayon usa ka pagtandi nga pag-analisa tali sa Syntho's Engine ug ang mga alternatibo nga bukas nga gigikanan niini, nga nagtanyag mga panan-aw kung giunsa ang epektibo nga pagsusi sa kalidad sa solusyon sa paghimo sa sintetikong datos. Dugang pa, susihon usab namon ang gasto sa oras sa matag usa niini nga mga modelo aron mahatagan dugang nga panabut sa pagtrabaho sa mga modelo.

Giunsa pagpili ang husto nga pamaagi sa paghimo sa datos nga sintetik?

Sa lainlain nga talan-awon sa paghimo sa sintetikong datos, adunay daghang mga pamaagi nga magamit, ang matag usa nag-indigay alang sa atensyon nga adunay talagsaon nga mga kapabilidad. Ang pagpili sa labing angay nga pamaagi alang sa usa ka partikular nga aplikasyon nanginahanglan usa ka bug-os nga pagsabut sa mga kinaiya sa pasundayag sa matag kapilian. Nagkinahanglan kini og usa ka komprehensibo nga pagtimbang-timbang sa lain-laing mga sintetikong data generators base sa usa ka set sa maayo nga gihubit metrics sa paghimo sa usa ka nahibal-an nga desisyon.

Ang nagsunod mao ang usa ka higpit nga pagtandi nga pagtuki sa Syntho Engine kauban ang usa ka ilado nga open-source framework, ang Synthetic Data Vault (SDV). Niini nga pagtuki, migamit kami ug daghang kasagarang gigamit nga metrics sama sa statistical fidelity, predictive accuracy ug inter-variable nga relasyon.

Synthetic Data Evaluation Sukatan

Sa dili pa ipaila ang bisan unsang piho nga sukatan, kinahanglan naton nga ilhon nga adunay daghang mga ideolohiya bahin sa pag-evaluate sa Synthetic nga datos, nga ang matag usa naghatag panan-aw sa usa ka piho nga aspeto sa datos. Uban niini sa hunahuna, ang mosunod nga tulo ka mga kategorya nagbarug ingon nga importante ug komprehensibo. Kini nga mga sukatan naghatag mga panabut sa lainlaing mga aspeto sa kalidad sa datos. Kini nga mga kategorya mao ang:

1. Statistical Fidelity Metrics: Pagsusi sa batakang estadistika nga mga bahin sa datos, sama sa paagi ug mga kalainan, aron masiguro nga ang sintetikong datos mohaom sa orihinal nga datos sa istatistikal nga profile.

1. Predictive Accuracy: Pagsusi sa synthetic data generation model performance, gibansay sa orihinal nga datos, ug gisusi sa synthetic data (Train Real - Test Synthetic, TRTS) ug vice versa (Train Synthetic - Test Real, TSTR)

1. Inter-Variable nga Relasyon: Kini nga hiniusa nga kategorya naglakip sa:

- Feature Correlation: Among gisusi kung unsa ka maayo ang sintetikong datos nga nagmintinar sa mga relasyon tali sa mga variable gamit ang correlation coefficients. Ang usa ka ilado nga sukatan sama sa Propensity Mean Squared Error (PMSE) mahimong kini nga klase.

- Mutual nga Impormasyon: Atong sukdon ang mutual dependence tali sa mga variable aron masabtan ang giladmon niini nga mga relasyon nga labaw pa sa mga correlations.

Pagtandi nga Pagtuki: Syntho Engine batok sa Open-Source nga mga Alternatibo

Ang pagtandi nga pagtuki gihimo gamit ang usa ka standardized evaluative framework ug parehas nga mga teknik sa pagsulay sa tanan nga mga modelo, lakip ang Syntho Engine ug mga modelo sa SDV. Pinaagi sa pag-synthesize sa mga dataset gikan sa managsama nga mga tinubdan ug pagpailalom niini sa parehas nga estadistika nga mga pagsulay ug mga pagtasa sa modelo sa pagkat-on sa makina, among gisiguro ang usa ka patas ug dili mapihigon nga pagtandi. Ang seksyon nga nagsunod nagdetalye sa pasundayag sa matag synthetic data generator sa lainlaing mga sukatan nga gipresentar sa ibabaw.

Sama sa alang sa dataset nga gigamit alang sa ebalwasyon, among gigamit ang Dataset sa Census sa UCI Adult nga usa ka iladong dataset sa machine learning community. Gilimpyohan namo ang datos sa wala pa ang tanan nga pagbansay ug dayon gibahin ang dataset ngadto sa duha ka set (usa ka pagbansay ug usa ka set sa holdout alang sa pagsulay). Gigamit namo ang set sa pagbansay aron makamugna og 1 ka milyon nga bag-ong mga datapoint sa matag usa sa mga modelo ug nag-evaluate sa nagkalain-laing metrics niining mga namugna nga dataset. Alang sa dugang nga mga ebalwasyon sa pagkat-on sa makina, among gigamit ang set sa holdout aron sa pagtimbang-timbang sa mga sukatan sama sa mga may kalabotan sa TSTR ug TRTS.

Ang matag generator gipadagan nga adunay default nga mga parameter. Ingon nga ang pipila sa mga modelo, sama sa Syntho, mahimo nga molihok sa gawas sa kahon sa bisan unsang tabular nga datos, wala’y maayong pag-tune nga nahimo. Ang pagpangita alang sa husto nga hyperparameter alang sa matag modelo magkinahanglan ug daghang oras, ug ang Talaan 2 nagpakita na sa usa ka dako nga kalainan sa oras tali sa modelo ni Syntho ug sa mga gisulayan batok.

Mamatikdan nga sukwahi sa ubang mga modelo sa SDV, ang Gaussian Copula Synthesizer gibase sa mga pamaagi sa istatistika. Sa kasukwahi, ang uban gibase sa mga neural network sama sa Generative Adversarial Networks (GAN) nga mga modelo ug variational auto-encoders. Mao kini ang hinungdan nga ang Gaussian Copula makita isip baseline sa tanang mga modelo nga gihisgutan.

Resulta

Kalidad sa Data

Figure 1. Pagtan-aw sa sukaranan nga kalidad nga mga resulta alang sa tanan nga mga modelo

Ang kaniadto nga gihisgutan nga pagsunod sa mga uso ug mga representasyon sa datos makita sa Figure 1 ug Table 1. Dinhi, ang matag usa sa mga metrics nga gigamit mahimong hubaron ingon sa mosunod:

Kinatibuk-ang Marka sa Kalidad: Kinatibuk-ang pagsusi sa kalidad sa sintetikong datos, nga naghiusa sa nagkalain-laing aspeto sama sa estadistika nga pagkaparehas ug mga kinaiya sa datos.
Mga Porma sa Kolum: Pagtimbang-timbang kung ang sintetikong datos nagmintinar sa parehas nga porma sa pag-apod-apod sa tinuod nga datos alang sa matag kolum.
Column Pair Trends: Nagtimbang-timbang sa relasyon o correlations tali sa mga parisan sa column sa sintetikong data kumpara sa tinuod nga datos.

Sa kinatibuk-an, mamatikdan nga ang Syntho nakab-ot ang taas kaayo nga mga marka sa tibuuk nga pisara. Sa pagsugod, kung nagtan-aw sa kinatibuk-ang kalidad sa datos (gi-evaluate sa SDV metrics library) ang Syntho mahimong makab-ot ang resulta pataas sa 99% (nga adunay pagsunod sa porma sa kolum nga 99.92% ug pagsunod sa porma sa pares sa kolum nga 99.31%). Kini samtang ang SDV nakakuha og resulta sa labing taas nga 90.84% (uban ang Gaussian Copula, nga adunay usa ka kolum nga porma nga pagsunod sa 93.82% ug ang pares sa kolum nga porma nga pagsunod sa 87.86%).

Talaan 1. Usa ka tabular nga representasyon sa kalidad nga mga marka sa matag namugna nga dataset kada modelo

Sakop sa Data

Ang Diagnosis Report module sa SDV nagdala sa among pagtagad nga ang SDV-generated data (sa tanan nga mga kaso) kulang sa labaw sa 10% sa mga numeric range; Sa kaso sa Triplet-Based Variational Autoencoder (TVAE), ang parehas nga kantidad sa kategorya nga datos nawala usab kung itandi sa orihinal nga dataset. Walay ingon nga mga pasidaan nga namugna uban sa mga resulta nga nakab-ot pinaagi sa paggamit sa Syntho.

Figure 2. visualization sa kasagaran nga column-wise performance metrics para sa tanang modelo

Sa pagtandi nga pag-analisa, ang laraw sa Figure 2 nag-ilustrar nga ang mga archive sa SDV labi ka maayo nga nagresulta sa pagsakup sa kategorya sa pipila sa ilang mga modelo (nga mao ang GaussianCopula, CopulaGAN, ug Conditional Tabular GAN - CTGAN). Bisan pa, hinungdanon nga ipasiugda nga ang kasaligan sa datos ni Syntho milabaw sa mga modelo sa SDV, tungod kay ang kalainan sa pagsakup sa mga kategorya ug mga sakup gamay ra, nga nagpakita sa usa lamang ka 1.1% nga kalainan. Sa kasukwahi, ang mga modelo sa SDV nagpakita sa usa ka dako nga kalainan, gikan sa 14.6% ngadto sa 29.2%.

Ang girepresentar nga metrics dinhi, mahimong hubaron sama sa mosunod:

Sakup sa Kategorya: Gisukod ang presensya sa tanan nga mga kategorya sa sintetikong datos kung itandi sa tinuud nga datos.
Range Coverage: Nag-evaluate kung unsa ka maayo ang range sa values sa sintetikong data nga mohaum sa tinuod nga data.

Talaan 2. Usa ka tabular nga representasyon sa kasagarang coverage sa usa ka gihatag nga matang sa hiyas kada modelo

Utility

Ang pagbalhin sa hilisgutan sa paggamit sa sintetikong datos, ang butang sa mga modelo sa pagbansay sa datos mahimong may kalabutan. Aron adunay balanse ug patas nga pagtandi tali sa tanan nga mga balangkas gipili namon ang default nga Gradient Boosting Classifier gikan sa librarya sa SciKit Learn, tungod kay kini patas nga gidawat ingon usa ka maayo nga pasundayag nga modelo nga adunay mga setting nga wala sa kahon.

Duha ka lainlaing mga modelo ang gibansay, usa sa sintetikong datos (para sa TSTR) ug usa sa orihinal nga datos (alang sa TRTS). Ang modelo nga gibansay sa sintetikong datos gitimbang-timbang pinaagi sa paggamit sa usa ka holdout test set (nga wala gigamit sa panahon sa synthetic data generation) ug ang modelo nga gibansay sa orihinal nga datos gisulayan sa sintetikong dataset.

Figure 3. Visualization sa Area Under the Curve (AUC) scores kada pamaagi kada modelo

Ang mga resulta nga makita sa ibabaw nagpakita sa pagkalabaw sa Synthetic data generation sa Syntho engine kumpara sa ubang mga pamaagi, kay walay kalainan tali sa mga resulta nga nakuha sa lain-laing mga pamaagi (nagtudlo ngadto sa taas nga pagkaparehas tali sa sintetiko ug tinuod nga datos). Usab, ang pula nga tuldok nga linya nga anaa sa laraw mao ang resulta nga nakuha pinaagi sa pagtimbang-timbang sa base nga performance sa usa ka Train Real, Test Real (TRTR) nga pagsulay aron makahatag og baseline alang sa naobserbahang metrics. Kini nga linya nagrepresentar sa kantidad nga 0.92, nga mao ang Area Under the Curve score (AUC score) nga nakab-ot sa modelo nga gibansay sa tinuod nga datos ug gisulayan sa tinuod nga datos.

Talaan 3. Usa ka tabular nga representasyon sa AUC scores nga nakab-ot sa TRTS ug TSTR matag modelo.

Maalamon sa panahon nga pagtandi

Natural, hinungdanon nga tagdon ang oras nga gipuhunan sa paghimo niini nga mga resulta. Ang visualization sa ubos naghulagway lamang niini.

Figure 5. Visualization sa oras nga gikuha sa pagbansay ug pagbuhat paghimo sa sintetikong datos sa usa ka milyon nga datapoints nga adunay modelo nga adunay ug walay GPU.

Ang Figure 5 nag-ilustrar sa oras nga gikuha aron makamugna og sintetikong datos sa duha ka lain-laing mga setting. Ang una niini (gitawag dinhi nga Kung Wala ang GPU), mao ang mga pagsulay nga gipadagan sa sistema nga adunay Intel Xeon CPU nga adunay 16 nga mga core nga nagdagan sa 2.20 GHz. Ang mga pagsulay nga gimarkahan nga "nagdagan nga adunay usa ka GPU" naa sa usa ka sistema nga adunay AMD Ryzen 9 7945HX CPU nga adunay 16 nga mga core nga nagdagan sa 2.5GHz ug usa ka NVIDIA GeForce RTX 4070 Laptop GPU. Ingon nga mamatikdan sa Figure 2 ug sa Table 2 sa ubos, maobserbahan nga ang Syntho labi ka paspas sa paghimo og sintetikong datos (sa duha nga mga senaryo) nga kritikal sa usa ka dinamikong daloy sa trabaho.

Talaan 5. Usa ka Tabular nga representasyon sa oras nga gikuha sa paghimo sa sintetikong datos sa usa ka milyon nga datapoint sa matag modelo nga adunay ug walay GPU

Panapos nga mga Pakigpulong ug Umaabot nga mga Direksyon

Ang mga kaplag nagpasiugda sa kamahinungdanon sa bug-os nga kalidad nga ebalwasyon sa pagpili sa husto nga sintetikong pamaagi sa paghimo sa datos. Ang Syntho's Engine, uban ang AI-driven approach niini, nagpakita sa talagsaong kalig-on sa pipila ka metrics, samtang ang open-source tools sama sa SDV nagdan-ag sa ilang versatility ug community-driven improvements.

Samtang ang natad sa sintetikong datos nagpadayon sa pag-uswag, kami nag-awhag kanimo sa paggamit niini nga mga sukdanan sa imong mga proyekto, pagsuhid sa ilang mga kakuti, ug sa pagpaambit sa imong mga kasinatian. Magpabilin nga tutok alang sa umaabot nga mga post kung diin kami mag-dive sa mas lawom sa ubang mga sukatan ug i-highlight ang tinuod nga kalibutan nga mga pananglitan sa ilang aplikasyon.

Sa katapusan sa adlaw, para sa mga nagtan-aw sa pagsulay sa mga tubig sa sintetikong datos, ang gipresentar nga open-source nga alternatibo mahimo nga usa ka makatarunganon nga pagpili nga gihatag sa pagka-access; bisan pa, alang sa mga propesyonal nga nag-apil niining modernong teknolohiya sa ilang proseso sa pag-uswag, kinahanglan nga kuhaon ang bisan unsang higayon sa pag-uswag ug likayan ang tanan nga mga babag. Busa importante nga pilion ang pinakamaayo nga opsyon nga anaa. Uban sa mga pag-analisar nga gihatag sa ibabaw kini mahimong dayag nga ang Syntho ug uban niana ang Syntho Engine usa ka maayo kaayo nga himan alang sa mga practitioner.

Bahin kang Syntho

Syntho naghatag og usa ka maalamon nga synthetic data generation platform, nga naggamit sa daghang sintetikong mga porma sa datos ug mga pamaagi sa henerasyon, nga naghatag gahum sa mga organisasyon sa maalamon nga pagbag-o sa datos ngadto sa usa ka kompetisyon. Ang among AI-generated nga sintetikong data nagsundog sa mga estadistika nga pattern sa orihinal nga datos, nga nagsiguro sa katukma, pagkapribado, ug katulin, ingon nga gisusi sa mga eksperto sa gawas sama sa SAS. Uban sa maalamon nga de-identification nga mga bahin ug makanunayon nga pagmapa, ang sensitibo nga impormasyon giprotektahan samtang gipreserbar ang referential nga integridad. Gitugotan sa among plataporma ang paghimo, pagdumala, ug pagkontrol sa datos sa pagsulay alang sa mga dili produksiyon nga palibot, nga gigamit ang mga pamaagi sa paghimo og sintetikong datos nga nakabase sa lagda alang sa mga gipunting nga mga senaryo. Dugang pa, ang mga tiggamit makahimo og sintetikong datos sa programa ug makakuha og realistiko nga datos sa pagsulay aron makahimo og komprehensibo nga pagsulay ug mga senaryo sa pag-uswag nga dali.

Gusto ka bang makakat-on ug mas praktikal nga mga aplikasyon sa sintetikong datos? Mobati nga gawasnon sa eskedyul sa demo!

Bahin sa mga tagsulat

Roham Koohestani

Intern sa Software Engineering

Si Roham usa ka bachelor nga estudyante sa Delft University of Technology ug usa ka Software Engineering Intern sa Syntho.

Mihai Anca, PhD

Machine Learning Engineer

Nakab-ot ni Mihai ang iyang PhD gikan sa Unibersidad sa Bristol sa hilisgutan sa Hierarchical Reinforcement Learning nga gipadapat sa Robotics ug usa ka Machine Learning Engineer at Syntho.

Unsa ang datos nga synthetic?

Report sa kasegurohan sa kalidad

External nga ebalwasyon sa SAS

Sintetikong datos sa serye sa panahon

PII Scanner

Sintetikong Mock Data

Ang makanunayon nga pagmapa

De-identification ug synthetization

Sintetikong Data nga gibase sa lagda

Pag-subset

Deployment ug integration

connectors

Gipadako nga mga dagway

Gisuportahan nga datos

Dokumentasyon sa tiggamit

Pag-iskedyul sa usa ka demo

pagbili

Data sa pagsulay

Analytics

Pagpakigbahin sa datos

Mga demo sa produkto

Pag-monetize sa datos

healthcare

Bayronon

Pampublikong Organisasyon

Dokumentasyon sa tiggamit

Mga Whitepaper ug Mga Giya

Blog

Mga Webinars

Case Studies