Ịtụle uru na myirịta n'ime ndị na-emepụta data sịntetik: Nkà na ụzụ miri emi na nyocha ntụnyere

E bipụtara:
February 27, 2024

Okwu Mmalite

N'oge dijitalụ nke taa, mmata nke nzuzo data abawanyela nke ukwuu. Ndị ọrụ na-amatawanye data ha dị ka akara mkpisiaka dijitalụ pụrụ iche, na-etinye ihe egwu na nzuzo ha ma ọ bụrụ na e mebiri data. Usoro dị ka GDPR na-eme ka nchegbu a dịkwuo elu, nke na-enye ndị ọrụ ike ịrịọ ka ihichapụ data ha. Ọ bụ ezie na ọ dị oke mkpa, iwu a nwere ike ịbara ụlọ ọrụ dị oke ọnụ n'ihi na a na-ebelata ohere ịnweta data; mmachi nke na-abụkarị oge na akụrụngwa na-ewe iji merie. 

Tebulu ọdịnaya

Kedu ihe ndị na-emepụta data synthetic?

Tinye data sịntetik, ihe ngwọta maka nsogbu a. Ndị na-emepụta data sịntetik na-emepụta dataset nke na-eṅomi ezigbo data onye ọrụ ma na-echekwa amaghị aha na nzuzo. Ụzọ a na-enweta mmasị n'ofe ụlọ ọrụ, site na nlekọta ahụike ruo na ego, ebe nzuzo dị mkpa.  

Edebere ọkwa a maka ndị ọkachamara data na ndị na-anụ ọkụ n'obi, na-elekwasị anya na nyocha nke ndị na-emepụta data synthetic. Anyị ga-enyocha n'ime metrics isi wee duzie nyocha ntule n'etiti Syntho's Engine na ụzọ ndị ọzọ mepere emepe, na-enye nghọta maka otu esi enyocha nke ọma nzizi ogo ọgbọ data sịntetik. Ọzọkwa, anyị ga-enyocha oge ọnụ ahịa nke ọ bụla n'ime ụdị ndị a iji nyekwuo nghọta na ọrụ nke ụdị. 

Kedu otu esi ahọrọ usoro mmepụta data synthetic ziri ezi?

N'ọgbọ ala dị iche iche nke ọgbọ data sịntetik, enwere ọtụtụ ụzọ dị, nke ọ bụla na-achọ nlebara anya yana ikike pụrụ iche ya. Ịhọrọ usoro kachasị adabara maka otu ngwa chọrọ nghọta nke ọma banyere njirimara arụmọrụ nke nhọrọ ọ bụla. Nke a na-achọ nyocha zuru oke nke ndị na-emepụta data synthetic dị iche iche dabere na usoro metrik akọwapụtara nke ọma iji mee mkpebi ziri ezi. 

Ihe na-esote bụ nyocha ntule siri ike nke Syntho Engine n'akụkụ usoro mepere emepe ama ama, Synthetic Data Vault (SDV). Na nyocha a, anyị na-eji ọtụtụ metrik ndị a na-ejikarị dị ka ikwesị ntụkwasị obi, amụma amụma na mmekọrịta dị n'etiti mgbanwe. 

Metrics Nlele Data sịntetik

Tupu iwebata metrik ọ bụla akọwapụtara, anyị ga-ekweta na enwere ọtụtụ echiche gbasara ịtụle data Synthetic, nke ọ bụla na-enye nghọta n'otu akụkụ nke data. N'iburu nke a n'uche, edemede atọ ndị a pụtara dị ka ihe dị mkpa na nke sara mbara. Metiriki ndị a na-enye nghọta n'akụkụ dị iche iche nke ogo data. Nkeji ndị a bụ: 

      1. Ndekọ nkwekọ ọnụ ọgụgụ: Na-enyocha njirimara ndekọ ndekọ data bụ isi, dị ka ụzọ na ndịiche, iji hụ na data sịntetik dabara na profaịlụ ọnụ ọgụgụ dataset mbụ. 

        1. Izi ezi amụma: Na-enyocha arụmọrụ ụdị data ọgbọ synthetic, zụrụ ya na data mbụ, wee nyochaa na data synthetic (Train Real - Test Synthetic, TRTS) na ntụgharị (Train Synthetic - Test Real, TSTR) 

          1. Mmekọrịta dị iche iche: Otu a jikọtara ọnụ gụnyere: 

            • Mmekọrịta atụmatụ: Anyị na-enyocha ka data sịntetik si na-edobe mmekọrịta dị n'etiti mgbanwe site na iji ọnụọgụ mmekọrịta. Otu metrik amara ama dị ka Propensity Mean Squared Error (PMSE) ga-abụ nke ụdị a. 

            • Ozi mmekọrịta: Anyị na-atụle ndakọ ọnụ n'etiti mgbanwe iji ghọta omimi nke mmekọrịta ndị a karịa naanị njikọ. 

          Nyocha atụnyere: Syntho Engine vs. Nhọrọ mepere emepe

          Emere nyocha ntule ahụ site na iji usoro nleba anya ahazi na usoro nnwale otu n'ofe niile, gụnyere Syntho Engine na ụdị SDV. Site n'ịchịkọta datasets sitere na isi mmalite na idobe ha n'otu ule ndekọ ọnụ ọgụgụ na nyocha ụdị mmụta igwe, anyị na-ahụ na ntụnyere ziri ezi na enweghị mmasị. Akụkụ na-esochi na-akọwapụta arụmọrụ nke onye na-emepụta data synthetic ọ bụla n'ofe metric dị n'elu.  

           

          Banyere dataset ejiri mee nyocha, anyị jiri ya Ihe ndekọ ọnụ ọgụgụ ndị okenye nke UCI nke bụ ihe ndekọ data ama ama na mpaghara mmụta igwe. Anyị hichara data ahụ tupu ọzụzụ niile wee kewaa dataset ahụ n'ime ụzọ abụọ (ọzụzụ na njide maka nnwale). Anyị na-eji usoro ọzụzụ ahụ wepụta 1 nde ọhụrụ datapoints na nke ọ bụla n'ime ụdị ma nyochaa dị iche iche metrics na ndị a emepụtara datasets. Maka ntule mmụta igwe n'ihu, anyị jiri setịpụ njide iji nyochaa metrik dịka nke metụtara TSTR na TRTS.  

           

          A na-eji paramita ndabara mee ihe ọkụ ọkụ ọ bụla. Dị ka ụfọdụ ụdị, dị ka Syntho, nwere ike na-arụ ọrụ nke ọma na data tabular ọ bụla, ọ dịghị mma n'iji ya gee ntị. Ịchọ hyperparameters ziri ezi maka ụdị ọ bụla ga-ewe oge dị ukwuu, na Tebụl 2 egosilarị nnukwu oge dị iche n'etiti ụdị Syntho na ndị a nwalere megide. 

           

          Ọ bụ ihe kwesịrị ịrịba ama na n'adịghị ka ụdị ndị ọzọ dị na SDV, Gaussian Copula Synthesizer dabeere na usoro ọnụ ọgụgụ. N'ụzọ dị iche, ndị ọzọ dabere na netwọkụ akwara ozi dị ka ụdị Generative Adversarial Networks (GAN) na ihe mkpuchi akpaaka dị iche iche. Nke a bụ ya mere enwere ike ịhụ Gaussian Copula dị ka ntọala maka ụdị niile a tụlere. 

          Results

          Ogo data

          Onyonyo 1. Nleba anya nke nsonaazụ kacha mma maka ụdị niile

          Ihe ndị a tụlere na mbụ na usoro na nnochite anya na data ahụ nwere ike ịchọta na eserese 1 na tebụl 1. N'ebe a, enwere ike ịkọwa nke ọ bụla n'ime metrics na-eji dị ka ndị a:

          • Ngụkọta ogo ogo: Ntụle mkpokọta ogo data sịntetik, na-ejikọta akụkụ dị iche iche dị ka myirịta ọnụ ọgụgụ na njirimara data. 
          • Ụdị kọlụm: Na-enyocha ma data sịntetik na-edobe otu ụdị nkesa dị ka ezigbo data maka kọlụm ọ bụla. 
          • Usoro Mmakọ kọlụm: Na-enyocha mmekọrịta ma ọ bụ njikọ dị n'etiti ụzọ abụọ nke kọlụm na data sịntetik tụnyere ezigbo data. 
          •  

          N'ozuzu, enwere ike ịchọpụta na Syntho na-enweta akara dị elu n'ofe osisi. Iji malite, mgbe ị na-elele ogo data n'ozuzu ya (nke a na-enyocha ya na ọbá akwụkwọ metrics SDV) Syntho nwere ike nweta nsonaazụ ka elu 99% (na nkwụsi ike n'ụdị kọlụm nke 99.92% na nkwụsi ike nke kọlụm ụzọ abụọ nke 99.31%). Nke a bụ ebe SDV na-enweta nsonaazụ kacha 90.84% ​​(ya na Gaussian Copula, na-enwe nguzobe n'ụdị kọlụm nke 93.82% na nkwụsi ike ụzọ abụọ kọlụm nke 87.86%). 

          Nnọchite anya tabular nke ogo ogo nke dataset ọ bụla ewepụtara n'otu ụdị

          Tebụl 1. Ngosipụta tabular nke ogo ogo nke dataset ọ bụla ewepụtara n'otu ụdị 

          Mkpuchi data

          Modul Report Diagnosis Report nke SDV na-eme ka anyị mara na data sitere na SDV (n'ọnọdụ niile) na-efu karịa 10% nke ọnụọgụ ọnụọgụ; N'ihe banyere Triplet-Based Variational Autoencoder (TVAE), otu ego nke categorical data na-efukwa ma e jiri ya tụnyere nke mbụ dataset. Enweghị ịdọ aka ná ntị dị otú ahụ ewepụtara site na nsonaazụ enwetara site na iji Syntho.  

          ịhụta nkezi metrik arụmọrụ kọlụm maka ụdị niile
           
           

          Onyonyo 2. nleba anya nke metrik arụmọrụ kọlụm maara nke ọma maka ụdị niile 

          N'ime ntụle atụnyere, nkata nke eserese 2 na-egosi na ebe nchekwa SDV na-enweta nsonaazụ kacha mma na mkpuchi ngalaba na ụfọdụ ụdị ha (ya bụ na GaussianCopula, CopulaGAN, na Conditional Tabular GAN – CTGAN). Ka o sina dị, ọ dị mkpa ime ka ọ pụta ìhè na ntụkwasị obi nke data Syntho karịrị nke ụdị SDV, n'ihi na ọdịiche dị na mkpuchi n'ofe edemede na oke dị ntakịrị, na-egosipụta naanị 1.1% ọdịiche. N'ụzọ dị iche, ụdị SDV gosipụtara mgbanwe dị ukwuu, sitere na 14.6% ruo 29.2%. 

           

          Enwere ike ịtụgharị metrics ndị a nọchiri anya ebe a: 

          • Udi mkpuchi: Na-atụ ọnụnọ nke edemede niile na data sịntetik ma e jiri ya tụnyere ezigbo data.
          • Mkpuchi oke: Na-enyocha ka oke ụkpụrụ dị na data sịntetik si kwekọọ na nke dị na ezigbo data. 
          Nnọchite anya tabular nke nkezi mkpuchi nke ụdị agwa enyere n'otu ụdị

          Tebụl 2. Nnọchite anya tabular nke nkezi mkpuchi nke ụdị agwa enyere n'otu ụdị 

          Utility

          N'ịga n'ihu na isiokwu nke ịba uru nke data synthetic, okwu nke ụdị ọzụzụ na data na-aghọ ihe dị mkpa. Iji nwee ntụnyere ziri ezi na nke ziri ezi n'etiti usoro niile anyị ahọrọla ndabara Gradient Boosting Classifier site na ọba akwụkwọ SciKit Mụta, ebe a na-anabata ya nke ọma dị ka ihe nlere na-eme nke ọma yana ntọala na-apụtaghị ìhè.  

           

          A zụrụ ụdị abụọ dị iche iche, otu na data synthetic (maka TSTR) na otu na data mbụ (maka TRTS). A na-enyocha ihe nlereanya a zụrụ na data sịntetik site na iji usoro nyocha njide (nke ejighị ya n'oge ọgbọ data synthetic) na a na-anwale ihe nlereanya a zụrụ na data mbụ na dataset sịntetik.  

          nleba anya nke akara mpaghara n'okpuru curve (AUC) kwa usoro kwa ụdị

          Ọgụgụ 3. Nleba anya nke Mpaghara N'okpuru Curve (AUC) akara n'otu usoro kwa ụdị 

           Nsonaazụ a na-ahụ anya n'elu na-egosi ịdị elu nke ọgbọ data synthetic site na Syntho engine ma e jiri ya tụnyere ụzọ ndị ọzọ, ebe ọ bụ na ọ dịghị ihe dị iche n'etiti nsonaazụ nke ụzọ dị iche iche nwetara (na-atụ aka na myirịta dị elu n'etiti synthetic na ezigbo data). Ọzọkwa, ahịrị ntụpọ uhie dị na nkata ahụ bụ nsonaazụ enwetara site n'ịtụle arụmọrụ ntọala nke nnwale Train Real, Test Real (TRTR) iji nye ntọala maka metrik ahụ hụrụ. Ahịrị a na-anọchi anya uru 0.92, nke bụ Mpaghara N'okpuru akara Curve (AUC score) nwetara site n'ụdị a zụrụ na ezigbo data wee nwalee na ezigbo data. 

          Nnọchite anya tabular nke akara AUC nke TRTS na TSTR nwetara n'otu n'otu n'otu ụdị.

          Tebụl 3. Ngosipụta tabular nke akara AUC nwetara site na TRTS na TSTR n'otu n'otu n'otu ụdị. 

          Ntụnyere amamihe oge

          Dị ka o kwesịrị ịdị, ọ dị mkpa ịtụle oge etinyere n'ịmepụta nsonaazụ ndị a. Ọhụụ dị n'okpuru na-egosi nke a.

          nleba anya nke oge ewepụtara iji zụọ ma rụọ ọgbọ data synthetic nke otu nde datapoint nwere ihe nlereanya nwere na enweghị GPU.

          Ọgụgụ 5. Nleta anya nke oge ewepụtara iji zụọ na ịrụ ọrụ mmepụta data synthetic nke otu nde datapoints nwere ihe nlereanya nwere na enweghị GPU. 

          Ọgụgụ 5 na-egosi oge ewepụtara iji mepụta data sịntetik na ntọala abụọ dị iche iche. Nke mbụ n'ime ya (ebe a na-akpọ enweghị GPU), bụ nnwale na-agba ọsọ na sistemụ nwere Intel Xeon CPU nwere cores 16 na-agba na 2.20 GHz. Nnwale ndị akara aka dị ka “ji GPU gbara ọsọ” dị na sistemụ nwere AMD Ryzen 9 7945HX CPU nwere cores 16 na-agba na 2.5GHz yana NVIDIA GeForce RTX 4070 Laptop GPU. Dị ka a na-ahụ anya na eserese 2 na na Tebụl 2 dị n'okpuru ebe a, enwere ike ịhụ na Syntho na-agba ọsọ ngwa ngwa n'ịmepụta data synthetic (n'ọnọdụ abụọ ahụ) nke dị oke egwu na-arụ ọrụ ike. 

          Tebụl na-egosi oge ewepụtara na ọgbọ data synthetic nke nde data 1 nwere ụdị ọ bụla nwere yana enweghị GPU.

          Tebụl 5. Ngosipụta tabular nke oge ewepụtara mmepụta data synthetic nke otu nde datapoints na ụdị ọ bụla nwere ma na-enweghị GPU 

          Okwu mmechi na ntụzịaka ga-eme n'ọdịnihu 

          Ihe nchoputa a gosiputara mkpa ọ dị nleba anya nke ọma n'ịhọrọ usoro mmepụta data synthetic ziri ezi. Injin Syntho, ya na ụzọ AI na-ebugharị, na-egosipụta ike dị ịrịba ama na ụfọdụ metrics, ebe ngwaọrụ mepere emepe dị ka SDV na-enwu n'ụdị ha dị iche iche na nkwalite ndị obodo na-akwalite. 

          Ka ngalaba nke data sịntetik na-aga n'ihu na-etolite, anyị na-agba gị ume ka itinye metrik ndị a n'ọrụ gị, nyochaa mgbagwoju anya ha, na ịkekọrịta ahụmịhe gị. Nọrọ na nche maka ọkwa ga-eme n'ọdịnihu ebe anyị ga-emikpu miri emi na metrik ndị ọzọ wee gosipụta ihe atụ n'ezie nke ngwa ha. 

          Na njedebe nke ụbọchị, maka ndị na-achọ ịnwale mmiri na data sịntetik, ihe ọzọ a na-emeghe emeghe nwere ike ịbụ nhọrọ ziri ezi nyere ohere; Otú ọ dị, maka ndị ọkachamara na-etinye nkà na ụzụ ọgbara ọhụrụ a n'ime usoro mmepe ha, a ghaghị iwere ohere ọ bụla na ọganihu ma zere ihe mgbochi niile. Ya mere ọ dị mkpa ịhọrọ nhọrọ kacha mma dị. Site na nyocha ndị enyere n'elu, ọ bịara pụta ìhè na Syntho yana nke ahụ Syntho Engine bụ ngwa ọrụ nwere ike maka ndị na-eme ya. 

          Banyere Syntho

          Syntho Ọ na-enye usoro ọgbọ data synthetic smart smart, na-eji ọtụtụ ụdị data synthetic na ụzọ ọgbọ, na-enye ndị otu aka ka ha jiri amamihe gbanwee data ka ọ bụrụ asọmpi asọmpi. Ihe data sịntetik nke AI mepụtara na-eṅomi ụkpụrụ ndekọ nke data mbụ, na-ahụ maka izi ezi, nzuzo na ọsọ, dị ka ndị ọkachamara si mpụga dị ka SAS tụlere. Site na njirimara de-identification smart yana maapụ na-agbanwe agbanwe, a na-echekwa ozi nwere mmetụta ma na-echekwa iguzosi ike n'ezi ihe. Ikpokoro anyị na-enyere ike ịmepụta, njikwa, na njikwa data ule maka gburugburu ebe anaghị emepụta ya, na-eji usoro mmepụta data synthetic dabere na iwu maka ọnọdụ ndị ezubere iche. Na mgbakwunye, ndị ọrụ nwere ike wepụta data sịntetik na mmemme wee nweta data nnwale ezi uche dị na ya iji mepụta nnwale zuru oke na ọnọdụ mmepe n'ụzọ dị mfe.  

          Ị chọrọ ịmụtakwu ngwa bara uru nke data sịntetik? nweere onwe gị oge ngosi ngosi!

          Banyere ndị edemede

          Ngwa Injinia Intern

          roham bụ nwa akwụkwọ nzere bachelọ na Delft University of Technology na ọ bụ Software Engineering Intern na Syntho 

          Igwe Injinia Ime Ihe

          Mihai nwetara PhD ya na ụlọ akwụkwọ ahụ Mahadum nke Bristol na isiokwu nke Hierarchical Reinforcement Learning etinyere na Robotics na a Injinia mmụta igwe at Syntho. 

          syntho ndu mkpuchi

          Chekwaa ntuziaka data sịntetik gị ugbu a!