Ka Loiloi ana i ka pono a me ke ano like i loko o ka Synthetic Data Generators: A Technical Dive Deep and Comparative Analysis

Kuhiʻia:
February 27, 2024

Introduction

I kēia au kikohoʻe, ua piʻi nui ka ʻike o ka pilikino ʻikepili. Hoʻomaopopo ka poʻe hoʻohana i kā lākou ʻikepili ma ke ʻano he manamana lima kikohoʻe kūʻokoʻa, e hoʻopilikia ana i ko lākou pilikino i ka wā e haki ai ka ʻikepili. Hoʻonui ʻia kēia hopohopo e nā lula e like me GDPR, e hāʻawi i nā mea hoʻohana e noi i ka holoi ʻana i kā lākou ʻikepili. ʻOiai e makemake nui ʻia, hiki i kēia kānāwai ke lilo i kumu kūʻai nui no nā ʻoihana no ka mea ua hōʻemi ʻia ke komo ʻana i ka ʻikepili; nā kapu i hoʻopau pinepine i ka manawa a me ka waiwai e lanakila ai. 

Table of Contents

He aha nā mea hana ʻikepili synthetic?

E hoʻokomo i ka ʻikepili synthetic, kahi hoʻonā i kēia conundrum. Hoʻokumu nā mea hana ʻikepili synthetic i nā ʻikepili e hoʻohālike i ka ʻikepili mea hoʻohana maoli ʻoiai e mālama ana i ka inoa ʻole a me ka hūnā. Ke loaʻa nei kēia ala i ka traction ma waena o nā ʻoihana, mai ka mālama olakino a hiki i ke kālā, kahi mea nui ka pilikino.  

Hoʻonohonoho ʻia kēia pou no ka poʻe loea a me ka poʻe hoihoi, e kālele ana i ka loiloi o nā mea hana ʻikepili synthetic. E noʻonoʻo mākou i nā metric koʻikoʻi a hana i kahi hoʻohālikelike hoʻohālikelike ma waena o Syntho's Engine a me kāna mau kumuwaiwai open-source, e hāʻawi ana i nā ʻike e pili ana i ka loiloi maikaʻi ʻana i ka maikaʻi o ka hoʻonā ʻana o ka hana ʻikepili synthetic. Eia kekahi, e loiloi pū mākou i ke kumukūʻai manawa o kēlā me kēia mau hiʻohiʻona e hāʻawi i ka ʻike hou aku i ka hana ʻana o nā kumu hoʻohālike. 

Pehea e koho ai i ke ʻano hana hana ʻikepili synthetic pono?

I loko o ka ʻāina like ʻole o ka hoʻokumu ʻana i ka ʻikepili synthetic, nui nā ʻano hana i loaʻa, ʻo kēlā me kēia mea e hakakā nei no ka nānā ʻana me kāna mau mana kūʻokoʻa. ʻO ke koho ʻana i ke ala kūpono loa no kahi noi pono e hoʻomaopopo pono i nā ʻano hana o kēlā me kēia koho. Pono kēia i ka loiloi holoʻokoʻa o nā mea hana ʻikepili synthetic e pili ana i kahi pūʻulu o nā metric i wehewehe maikaʻi ʻia e hana i kahi hoʻoholo ʻike. 

ʻO ka mea e pili ana i kahi loiloi hoʻohālikelike koʻikoʻi o ka Syntho Engine ma ka ʻaoʻao o kahi ʻōnaehana open-source kaulana, ʻo ka Synthetic Data Vault (SDV). I loko o kēia kālailai, ua hoʻohana mākou i nā ana hoʻohana maʻamau e like me ka pono helu helu, ka pololei wānana a me ka pilina ma waena. 

Nā Anana Loiloi ʻIkepili Synthetic

Ma mua o ka hoʻokomo ʻana i kekahi metric kikoʻī, pono mākou e hoʻomaopopo he nui nā manaʻo e pili ana i ka loiloi ʻana i ka ʻikepili Synthetic, ʻo kēlā me kēia mea e hāʻawi i ka ʻike i kekahi ʻano o ka ʻikepili. Me kēia noʻonoʻo, ʻo nā ʻāpana ʻekolu e kū nei i mea nui a ākea. Hāʻawi kēia mau ana i nā ʻike i nā ʻano like ʻole o ka maikaʻi o ka ʻikepili. ʻO kēia mau māhele: 

      1. Nā Anana Paʻa Paʻa ʻIkepili: Ke nānā ʻana i nā hiʻohiʻona helu kumu o ka ʻikepili, e like me nā ʻano a me nā ʻano like ʻole, e hōʻoia i ke kūlike o ka ʻikepili synthetic me ka ʻikepili helu helu kumu. 

        1. Ka pololei wānana: Ke nānā ʻana i ka hana hoʻohālike hoʻohālikelike ʻikepili synthetic, aʻo ʻia me ka ʻikepili kumu, a loiloi ʻia ma ka ʻikepili synthetic (Train Real - Test Synthetic, TRTS) a me ka hope (Train Synthetic - Test Real, TSTR) 

          1. Nā pilina ma waena o nā mea hoʻololi: ʻO kēia ʻāpana hui pū kekahi: 

            • Hoʻopili hiʻohiʻona: Nānā mākou i ka maikaʻi o ka mālama ʻana o ka ʻikepili synthetic i nā pilina ma waena o nā mea hoʻololi me ka hoʻohana ʻana i nā coefficient correlation. ʻO kahi metric kaulana e like me ka Propensity Mean Squared Error (PMSE) o kēia ʻano. 

            • ʻIke pili like: Ana mākou i ka hilinaʻi like ʻana ma waena o nā mea hoʻololi e hoʻomaopopo i ka hohonu o kēia mau pilina ma mua o nā correlations wale nō. 

          Nānā Hoʻohālikelike: Syntho Engine vs. Open-Source Alternatives

          Hoʻohana ʻia ka loiloi hoʻohālikelike me ka hoʻohana ʻana i kahi papa hana loiloi maʻamau a me nā ʻenehana hoʻāʻo like ma nā ʻano hoʻohālike āpau, me nā hiʻohiʻona Syntho Engine a me SDV. Ma ka hoʻohui ʻana i nā ʻikepili mai nā kumu like a me ka hoʻokau ʻana iā lākou i nā hoʻokolohua helu like a me nā loiloi hoʻohālike aʻo mīkini, hōʻoia mākou i ka hoʻohālikelike kūpono ʻole. ʻO ka ʻāpana e pili ana i nā kikoʻī i ka hana ʻana o kēlā me kēia mea hana ʻikepili synthetic ma waena o ka laulā o nā metric i hōʻike ʻia ma luna.  

           

          No ka ʻikepili i hoʻohana ʻia no ka loiloi, ua hoʻohana mākou i ka Ka Heluhelu Kanaka UCI ʻo ia kahi ʻikepili i ʻike ʻia i loko o ke kaiāulu aʻo mīkini. Hoʻomaʻemaʻe mākou i ka ʻikepili ma mua o ka hoʻomaʻamaʻa ʻana a laila hoʻokaʻawale i ka ʻikepili i ʻelua pūʻulu (kahi hoʻomaʻamaʻa a me kahi hoʻonohonoho paʻa no ka hoʻāʻo ʻana). Ua hoʻohana mākou i ka hoʻonohonoho hoʻomaʻamaʻa e hana i 1 miliona mau ʻikepili hou me kēlā me kēia o nā hiʻohiʻona a loiloi i nā ana like ʻole ma kēia mau ʻikepili i hana ʻia. No nā loiloi aʻo mīkini hou aku, ua hoʻohana mākou i ka hoʻonohonoho paʻa e loiloi i nā metric e like me nā mea pili i TSTR a me TRTS.  

           

          Hoʻohana ʻia kēlā me kēia mīkini hana me nā ʻāpana paʻamau. E like me kekahi o nā hiʻohiʻona, e like me Syntho, hiki ke hana ma waho o ka pahu ma nā ʻikepili tabular, ʻaʻole i hana maikaʻi ʻia. ʻO ka huli ʻana i nā hyperparameters kūpono no kēlā me kēia kumu hoʻohālike e lawe i kahi manawa nui, a ua hōʻike mua ka Papa 2 i kahi ʻokoʻa manawa nui ma waena o ke kumu hoʻohālike a Syntho a me nā mea i hoʻāʻo ʻia. 

           

          He mea koʻikoʻi ia e like me ke koena o nā hiʻohiʻona ma SDV, ua hoʻokumu ʻia ka Gaussian Copula Synthesizer ma nā ʻano helu helu. Ma ka hoʻohālikelike ʻana, hoʻokumu ʻia ke koena ma nā pūnaewele neural e like me Generative Adversarial Networks (GAN) models a variational auto-encoders. ʻO kēia ke kumu e ʻike ʻia ai ʻo Gaussian Copula ma ke ʻano he kumu no nā hiʻohiʻona āpau i kūkākūkā ʻia. 

          Results

          Ka ʻikepili ʻikepili

          Kiʻi 1. ʻIke ʻana i nā hopena maikaʻi kumu no nā kumu hoʻohālike āpau

          Hiki ke ʻike ʻia ka pili ʻana i nā ʻano a me nā hōʻike i ka ʻikepili ma ke Kiʻi 1 a me ka Papa 1. Maanei, hiki ke unuhi ʻia kēlā me kēia ana i hoʻohana ʻia penei:

          • Ka helu maikaʻi holoʻokoʻa: Ka loiloi holoʻokoʻa o ka maikaʻi o ka ʻikepili synthetic, e hui pū ana i nā ʻano like ʻole e like me ka like ʻana o ka helu helu a me nā hiʻohiʻona ʻikepili. 
          • Nā ʻano o ke kolamu: E loiloi i ka mālama ʻana o ka ʻikepili synthetic i ke ʻano mahele like me ka ʻikepili maoli no kēlā me kēia kolamu. 
          • Nā Kūlana Pair Column: Loiloi i ka pilina a i ʻole ka hoʻoponopono ʻana ma waena o nā kolamu i ka ʻikepili synthetic i hoʻohālikelike ʻia me ka ʻikepili maoli. 
          •  

          Ma ka holoʻokoʻa, hiki ke ʻike ʻia ua loaʻa ʻo Syntho i nā helu kiʻekiʻe loa ma ka papa. No ka hoʻomaka ʻana, i ka nānā ʻana i ka maikaʻi o ka ʻikepili holoʻokoʻa (i loiloi ʻia me ka waihona SDV metrics) hiki iā Syntho ke loaʻa i kahi hopena ma luna o 99% (me ka pili ʻana o ke kolamu o 99.92% a me ka pili ʻana o ke ʻano o ke kolamu o 99.31%). ʻO kēia ka manawa e loaʻa ai iā SDV ka hopena o ka nui loa o 90.84% ​​(me Gaussian Copula, he 93.82% ka pili ʻana o ke kolamu a me ka pili ʻana o ke ʻano o ke kolamu o 87.86%). 

          He hōʻike papa helu o nā helu maikaʻi o kēlā me kēia ʻikepili i hana ʻia no kēlā me kēia kumu hoʻohālike

          Papa 1. He hōʻike papa helu o nā helu maikaʻi o kēlā me kēia ʻikepili i hana ʻia no kēlā me kēia kumu hoʻohālike 

          ʻIkepili ʻikepili

          Ke hōʻike mai nei ka module Diagnosis Report o SDV iā mākou e nalowale ana nā ʻikepili i hana ʻia e SDV (i nā hihia āpau) ma mua o 10% o nā pae helu; Ma ka hihia o Triplet-Based Variational Autoencoder (TVAE), ʻaʻole nalo ka nui like o ka ʻikepili categorical ke hoʻohālikelike ʻia me ka ʻikepili kumu. ʻAʻole i hana ʻia nā ʻōlelo luhi me nā hopena i loaʻa ma ka hoʻohana ʻana iā Syntho.  

          ʻike ʻike ʻana i nā ana hoʻokō awelika kolamu no nā kumu hoʻohālike a pau
           
           

          Kiʻi 2. ka ʻike ʻana i nā anana hana awelika o ke kolamu no nā kumu hoʻohālike a pau 

          Ma ka hoʻohālikelike hoʻohālikelike, hōʻike ka manaʻo o ke Kiʻi 2 i nā waihona SDV i ʻoi aku ka maikaʻi o ka hopena i ka uhi ʻana o ka māhele me kekahi o kā lākou mau hiʻohiʻona (ʻo ia hoʻi me GaussianCopula, CopulaGAN, a me Conditional Tabular GAN - CTGAN). Eia nō naʻe, he mea nui e hōʻike i ka hilinaʻi o ka ʻikepili a Syntho ma mua o nā hiʻohiʻona SDV, no ka mea he liʻiliʻi ka ʻokoʻa o ka uhi ʻana ma nā ʻāpana a me nā pae, e hōʻike ana i kahi ʻokoʻa 1.1% wale nō. I ka hoʻohālikelike ʻana, hōʻike nā hiʻohiʻona SDV i kahi ʻano like ʻole, mai ka 14.6% a i ka 29.2%. 

           

          ʻO nā metric i hōʻike ʻia ma aneʻi, hiki ke unuhi ʻia penei: 

          • Ka uhi ʻana o ka Māhele: Ana i ka hiki ʻana mai o nā ʻano āpau i ka ʻikepili synthetic e like me ka ʻikepili maoli.
          • Ka uhi ʻana o ka laulā: E loiloi i ka maikaʻi o ka laulima o nā waiwai i loko o ka ʻikepili synthetic e kūlike me ka ʻikepili maoli. 
          He hōʻike hōʻikeʻike o ka uhi awelika o kahi ʻano hiʻohiʻona i hāʻawi ʻia i kēlā me kēia kumu hoʻohālike

          Papa 2. He hōʻike hōʻikeʻike o ka uhi awelika o kekahi ʻano hiʻohiʻona i hāʻawi ʻia i kēlā me kēia kumu hoʻohālike 

          pili i ka hoʻoponopono

          Ke neʻe nei i ke kumuhana o ka hoʻohana ʻana i ka ʻikepili synthetic, e pili ana ka mea o ka hoʻomaʻamaʻa ʻana i ka ʻikepili. No ka loaʻa ʻana o kahi hoʻohālikelike kaulike a kūpono hoʻi ma waena o nā frameworks a pau, ua koho mākou i ka Gradient Boosting Classifier mai ka hale waihona puke ʻo SciKit Learn, ʻoiai ua ʻae ʻia ʻo ia ma ke ʻano he kumu hoʻohālike maikaʻi me nā hoʻonohonoho waho o ka pahu.  

           

          Hoʻomaʻamaʻa ʻia ʻelua mau hiʻohiʻona, hoʻokahi ma ka ʻikepili synthetic (no TSTR) a hoʻokahi ma ka ʻikepili kumu (no TRTS). ʻIke ʻia ke kumu hoʻohālike i hoʻomaʻamaʻa ʻia ma ka ʻikepili synthetic ma o ka hoʻohana ʻana i kahi hoʻonohonoho hoʻāʻo holdout (ʻaʻole i hoʻohana ʻia i ka wā o ka hoʻokumu ʻana i ka ʻikepili synthetic) a ua hoʻāʻo ʻia ke kumu hoʻohālike i aʻo ʻia ma ka ʻikepili kumu ma ka dataset synthetic.  

          ka ʻike ʻana i nā helu ʻĀpana ma lalo o ka Curve (AUC) no kēlā me kēia ʻano hoʻohālike

          Kiʻi 3. ʻIke ʻana i nā helu wahi ma lalo o ka Curve (AUC) no kēlā me kēia ʻano hoʻohālike 

           Hōʻike nā hualoaʻa i ʻike ʻia ma luna aʻe i ka maikaʻi o ka hana ʻikepili Synthetic e ka mīkini Syntho i hoʻohālikelike ʻia me nā ʻano hana ʻē aʻe, ʻoiai ʻaʻohe ʻokoʻa ma waena o nā hopena i loaʻa i nā ʻano hana like ʻole (e kuhikuhi ana i kahi like kiʻekiʻe ma waena o ka synthetic a me ka ʻikepili maoli). Eia kekahi, ʻo ka laina kiko ʻulaʻula i loaʻa i ka pākuʻi ʻo ia ka hopena i loaʻa ma ka loiloi ʻana i ka hana kumu o kahi hōʻike Train Real, Test Real (TRTR) e hāʻawi i kahi pae kumu no nā ana i ʻike ʻia. Hōʻike kēia laina i ka waiwai 0.92, ʻo ia ka Area Under the Curve score (AUC score) i loaʻa e ke kumu hoʻohālike i aʻo ʻia ma ka ʻikepili maoli a hoʻāʻo ʻia ma ka ʻikepili maoli. 

          He hōʻike papa helu o nā helu AUC i loaʻa e TRTS a me TSTR i kēlā me kēia kumu hoʻohālike.

          Papa 3. He hōʻike papa helu o nā helu AUC i loaʻa e TRTS a me TSTR i kēlā me kēia kumu hoʻohālike. 

          Hoʻohālikelike manawa

          ʻO ka mea maʻamau, he mea koʻikoʻi e noʻonoʻo i ka manawa i hoʻolilo ʻia i ka hana ʻana i kēia mau hopena. ʻO ka hiʻohiʻona ma lalo nei e hōʻike wale i kēia.

          ka ʻike ʻana i ka manawa i hoʻomaʻamaʻa ʻia a hoʻokō i ka hoʻokumu ʻana i ka ʻikepili synthetic o hoʻokahi miliona datapoints me kahi kumu hoʻohālike me ka GPU ʻole.

          Kiʻi 5. ʻIke ʻia o ka manawa i hoʻomaʻamaʻa a hana hana ʻikepili synthetic o hoʻokahi miliona mau ʻikepili me kahi kumu hoʻohālike me ka GPU ʻole. 

          Hōʻike ka Figure 5 i ka manawa i lawe ʻia no ka hana ʻana i ka ʻikepili synthetic ma nā ʻano ʻokoʻa ʻelua. ʻO ka mea mua (ma ʻaneʻi i kapa ʻia ʻo Without GPU), he mau hoʻāʻo e holo ana ma ka ʻōnaehana me kahi Intel Xeon CPU me 16 cores e holo ana ma 2.20 GHz. ʻO nā hoʻokolohua i hōʻailona ʻia ʻo "holo me kahi GPU" aia ma kahi ʻōnaehana me ka AMD Ryzen 9 7945HX CPU me 16 cores e holo ana ma 2.5GHz a me kahi NVIDIA GeForce RTX 4070 Laptop GPU. E like me ka mea i ʻike ʻia ma ke Kiʻi 2 a ma ka Papa 2 ma lalo nei, hiki ke ʻike ʻia ʻoi aku ka wikiwiki o Syntho i ka hana ʻana i ka ʻikepili synthetic (ma nā hiʻohiʻona ʻelua) he mea koʻikoʻi i kahi kahe hana hoʻoikaika. 

          he papaʻaina e hōʻike ana i ka manawa i lawe ʻia i ka hana ʻikepili synthetic o 1 miliona datapoints me kēlā me kēia kumu hoʻohālike me ka GPU ʻole.

          Papa 5. He hoike papahelu o ka manawa i laweia i hana ʻikepili synthetic o hoʻokahi miliona mau helu ʻikepili me kēlā me kēia kumu hoʻohālike me ka GPU ʻole 

          Manaʻo Hoʻopau a me nā kuhikuhi e hiki mai ana 

          Hōʻike nā ʻike i ke koʻikoʻi o ka loiloi maikaʻi ʻana i ke koho ʻana i ke ʻano hana hana ʻikepili synthetic kūpono. ʻO Syntho's Engine, me kāna ala hoʻokele AI, hōʻike i nā ikaika koʻikoʻi i kekahi mau metric, ʻoiai nā mea hana open-source e like me SDV e hoʻomālamalama i kā lākou versatility a me ka hoʻomaikaʻi ʻana i ke kaiāulu. 

          Ke hoʻomau nei ka hoʻomohala ʻana o ka ʻikepili synthetic, paipai mākou iā ʻoe e hoʻopili i kēia mau ana i kāu mau papahana, e ʻimi i kā lākou paʻakikī, a e kaʻana like i kāu ʻike. E hoʻomau no nā pou e hiki mai ana kahi e luʻu hohonu ai mākou i nā metric ʻē aʻe a hōʻike i nā hiʻohiʻona honua maoli o kā lākou noi. 

          I ka hopena o ka lā, no ka poʻe e ʻimi nei e hoʻāʻo i ka wai ma ka ʻikepili synthetic, hiki ke koho ʻia ke koho open-source i koho kūpono i hāʻawi ʻia i ka hiki; akā naʻe, no ka poʻe loea e hoʻokomo i kēia ʻenehana hou i kā lākou kaʻina hana hoʻomohala, pono e lawe ʻia nā manawa kūpono e hoʻomaikaʻi ai a pale ʻia nā pilikia āpau. No laila he mea nui e koho i ka koho maikaʻi loa i loaʻa. Me nā loiloi i hāʻawi ʻia ma luna aʻe e ʻike ʻia ʻo Syntho a me ia ka Syntho Engine he mea hana pono loa no nā loea. 

          E pili ana iā Syntho

          ʻO Syntho hāʻawi i kahi kahua hoʻomohala ʻikepili synthetic akamai, e hoʻohana ana i nā ʻano ʻikepili synthetic he nui a me nā ʻano hana hana, e hoʻoikaika ana i nā hui e hoʻololi naʻauao i ka ʻikepili i mea hoʻokūkū. Hoʻohālikelike kā mākou ʻikepili synthetic i hana ʻia e AI i nā ʻano helu helu o ka ʻikepili kumu, e hōʻoiaʻiʻo ana i ka pololei, ka pilikino, a me ka wikiwiki, e like me ka loiloi ʻana e nā loea o waho e like me SAS. Me nā hiʻohiʻona de-identification akamai a me ka palapala ʻāina maʻamau, mālama ʻia ka ʻike koʻikoʻi me ka mālama ʻana i ka pono kuhikuhi. Hiki i kā mākou paepae ke hana, hoʻokele, a me ka mālama ʻana i ka ʻikepili hoʻāʻo no nā wahi hana ʻole, me ka hoʻohana ʻana i nā ʻano hana hoʻomohala ʻikepili synthetic e pili ana i ka lula no nā hiʻohiʻona i manaʻo ʻia. Hoʻohui, hiki i nā mea hoʻohana ke hoʻopuka i ka ʻikepili synthetic ma ka papahana a loaʻa i ka ʻikepili hōʻike maoli e hoʻomohala i nā hoʻokolohua piha a me nā hiʻohiʻona hoʻomohala me ka maʻalahi.  

          Makemake ʻoe e aʻo i nā noi kūpono o ka ʻikepili synthetic? E ʻoluʻolu e hoʻolālā hoʻolālā!

          E pili ana i nā mea kākau

          Luna Hana Hana Hana Hana

          ʻUhaneam he haumāna laepua ma ke Kulanui o ʻenehana ʻo Delft a he Luna Hana Hana Pūnaewele ma ʻO Syntho 

          Ka Papa Hana'Ile

          Ua loaʻa iā Mihai kāna PhD mai ka Ke Kulanui o Bristol ma ke kumuhana o ka Hierarchical Reinforcement Learning i hoʻohana ʻia i Robotics a he ʻEnekinia Aʻo Mīkini at ʻO Syntho. 

          uhi alakaʻi syntho

          E mālama i kāu alakaʻi ʻikepili synthetic i kēia manawa!