Ka Loiloi ana i ka pono a me ke ano like i loko o ka Synthetic Data Generators: A Technical Dive Deep and Comparative Analysis
Introduction
I kēia au kikohoʻe, ua piʻi nui ka ʻike o ka pilikino ʻikepili. Hoʻomaopopo ka poʻe hoʻohana i kā lākou ʻikepili ma ke ʻano he manamana lima kikohoʻe kūʻokoʻa, e hoʻopilikia ana i ko lākou pilikino i ka wā e haki ai ka ʻikepili. Hoʻonui ʻia kēia hopohopo e nā lula e like me GDPR, e hāʻawi i nā mea hoʻohana e noi i ka holoi ʻana i kā lākou ʻikepili. ʻOiai e makemake nui ʻia, hiki i kēia kānāwai ke lilo i kumu kūʻai nui no nā ʻoihana no ka mea ua hōʻemi ʻia ke komo ʻana i ka ʻikepili; nā kapu i hoʻopau pinepine i ka manawa a me ka waiwai e lanakila ai.
Table of Contents
He aha nā mea hana ʻikepili synthetic?
E hoʻokomo i ka ʻikepili synthetic, kahi hoʻonā i kēia conundrum. Hoʻokumu nā mea hana ʻikepili synthetic i nā ʻikepili e hoʻohālike i ka ʻikepili mea hoʻohana maoli ʻoiai e mālama ana i ka inoa ʻole a me ka hūnā. Ke loaʻa nei kēia ala i ka traction ma waena o nā ʻoihana, mai ka mālama olakino a hiki i ke kālā, kahi mea nui ka pilikino.
Pehea e koho ai i ke ʻano hana hana ʻikepili synthetic pono?
I loko o ka ʻāina like ʻole o ka hoʻokumu ʻana i ka ʻikepili synthetic, nui nā ʻano hana i loaʻa, ʻo kēlā me kēia mea e hakakā nei no ka nānā ʻana me kāna mau mana kūʻokoʻa. ʻO ke koho ʻana i ke ala kūpono loa no kahi noi pono e hoʻomaopopo pono i nā ʻano hana o kēlā me kēia koho. Pono kēia i ka loiloi holoʻokoʻa o nā mea hana ʻikepili synthetic e pili ana i kahi pūʻulu o nā metric i wehewehe maikaʻi ʻia e hana i kahi hoʻoholo ʻike.
ʻO ka mea e pili ana i kahi loiloi hoʻohālikelike koʻikoʻi o ka Syntho Engine ma ka ʻaoʻao o kahi ʻōnaehana open-source kaulana, ʻo ka Synthetic Data Vault (SDV). I loko o kēia kālailai, ua hoʻohana mākou i nā ana hoʻohana maʻamau e like me ka pono helu helu, ka pololei wānana a me ka pilina ma waena.
Nā Anana Loiloi ʻIkepili Synthetic
Ma mua o ka hoʻokomo ʻana i kekahi metric kikoʻī, pono mākou e hoʻomaopopo he nui nā manaʻo e pili ana i ka loiloi ʻana i ka ʻikepili Synthetic, ʻo kēlā me kēia mea e hāʻawi i ka ʻike i kekahi ʻano o ka ʻikepili. Me kēia noʻonoʻo, ʻo nā ʻāpana ʻekolu e kū nei i mea nui a ākea. Hāʻawi kēia mau ana i nā ʻike i nā ʻano like ʻole o ka maikaʻi o ka ʻikepili. ʻO kēia mau māhele:
- Nā Anana Paʻa Paʻa ʻIkepili: Ke nānā ʻana i nā hiʻohiʻona helu kumu o ka ʻikepili, e like me nā ʻano a me nā ʻano like ʻole, e hōʻoia i ke kūlike o ka ʻikepili synthetic me ka ʻikepili helu helu kumu.
- Ka pololei wānana: Ke nānā ʻana i ka hana hoʻohālike hoʻohālikelike ʻikepili synthetic, aʻo ʻia me ka ʻikepili kumu, a loiloi ʻia ma ka ʻikepili synthetic (Train Real - Test Synthetic, TRTS) a me ka hope (Train Synthetic - Test Real, TSTR)
- Nā pilina ma waena o nā mea hoʻololi: ʻO kēia ʻāpana hui pū kekahi:
- Hoʻopili hiʻohiʻona: Nānā mākou i ka maikaʻi o ka mālama ʻana o ka ʻikepili synthetic i nā pilina ma waena o nā mea hoʻololi me ka hoʻohana ʻana i nā coefficient correlation. ʻO kahi metric kaulana e like me ka Propensity Mean Squared Error (PMSE) o kēia ʻano.
- ʻIke pili like: Ana mākou i ka hilinaʻi like ʻana ma waena o nā mea hoʻololi e hoʻomaopopo i ka hohonu o kēia mau pilina ma mua o nā correlations wale nō.
Nānā Hoʻohālikelike: Syntho Engine vs. Open-Source Alternatives
Hoʻohana ʻia ka loiloi hoʻohālikelike me ka hoʻohana ʻana i kahi papa hana loiloi maʻamau a me nā ʻenehana hoʻāʻo like ma nā ʻano hoʻohālike āpau, me nā hiʻohiʻona Syntho Engine a me SDV. Ma ka hoʻohui ʻana i nā ʻikepili mai nā kumu like a me ka hoʻokau ʻana iā lākou i nā hoʻokolohua helu like a me nā loiloi hoʻohālike aʻo mīkini, hōʻoia mākou i ka hoʻohālikelike kūpono ʻole. ʻO ka ʻāpana e pili ana i nā kikoʻī i ka hana ʻana o kēlā me kēia mea hana ʻikepili synthetic ma waena o ka laulā o nā metric i hōʻike ʻia ma luna.
No ka ʻikepili i hoʻohana ʻia no ka loiloi, ua hoʻohana mākou i ka Ka Heluhelu Kanaka UCI ʻo ia kahi ʻikepili i ʻike ʻia i loko o ke kaiāulu aʻo mīkini. Hoʻomaʻemaʻe mākou i ka ʻikepili ma mua o ka hoʻomaʻamaʻa ʻana a laila hoʻokaʻawale i ka ʻikepili i ʻelua pūʻulu (kahi hoʻomaʻamaʻa a me kahi hoʻonohonoho paʻa no ka hoʻāʻo ʻana). Ua hoʻohana mākou i ka hoʻonohonoho hoʻomaʻamaʻa e hana i 1 miliona mau ʻikepili hou me kēlā me kēia o nā hiʻohiʻona a loiloi i nā ana like ʻole ma kēia mau ʻikepili i hana ʻia. No nā loiloi aʻo mīkini hou aku, ua hoʻohana mākou i ka hoʻonohonoho paʻa e loiloi i nā metric e like me nā mea pili i TSTR a me TRTS.
Hoʻohana ʻia kēlā me kēia mīkini hana me nā ʻāpana paʻamau. E like me kekahi o nā hiʻohiʻona, e like me Syntho, hiki ke hana ma waho o ka pahu ma nā ʻikepili tabular, ʻaʻole i hana maikaʻi ʻia. ʻO ka huli ʻana i nā hyperparameters kūpono no kēlā me kēia kumu hoʻohālike e lawe i kahi manawa nui, a ua hōʻike mua ka Papa 2 i kahi ʻokoʻa manawa nui ma waena o ke kumu hoʻohālike a Syntho a me nā mea i hoʻāʻo ʻia.
He mea koʻikoʻi ia e like me ke koena o nā hiʻohiʻona ma SDV, ua hoʻokumu ʻia ka Gaussian Copula Synthesizer ma nā ʻano helu helu. Ma ka hoʻohālikelike ʻana, hoʻokumu ʻia ke koena ma nā pūnaewele neural e like me Generative Adversarial Networks (GAN) models a variational auto-encoders. ʻO kēia ke kumu e ʻike ʻia ai ʻo Gaussian Copula ma ke ʻano he kumu no nā hiʻohiʻona āpau i kūkākūkā ʻia.
Results
Ka ʻikepili ʻikepili
Kiʻi 1. ʻIke ʻana i nā hopena maikaʻi kumu no nā kumu hoʻohālike āpau
Hiki ke ʻike ʻia ka pili ʻana i nā ʻano a me nā hōʻike i ka ʻikepili ma ke Kiʻi 1 a me ka Papa 1. Maanei, hiki ke unuhi ʻia kēlā me kēia ana i hoʻohana ʻia penei:
- Ka helu maikaʻi holoʻokoʻa: Ka loiloi holoʻokoʻa o ka maikaʻi o ka ʻikepili synthetic, e hui pū ana i nā ʻano like ʻole e like me ka like ʻana o ka helu helu a me nā hiʻohiʻona ʻikepili.
- Nā ʻano o ke kolamu: E loiloi i ka mālama ʻana o ka ʻikepili synthetic i ke ʻano mahele like me ka ʻikepili maoli no kēlā me kēia kolamu.
- Nā Kūlana Pair Column: Loiloi i ka pilina a i ʻole ka hoʻoponopono ʻana ma waena o nā kolamu i ka ʻikepili synthetic i hoʻohālikelike ʻia me ka ʻikepili maoli.
Ma ka holoʻokoʻa, hiki ke ʻike ʻia ua loaʻa ʻo Syntho i nā helu kiʻekiʻe loa ma ka papa. No ka hoʻomaka ʻana, i ka nānā ʻana i ka maikaʻi o ka ʻikepili holoʻokoʻa (i loiloi ʻia me ka waihona SDV metrics) hiki iā Syntho ke loaʻa i kahi hopena ma luna o 99% (me ka pili ʻana o ke kolamu o 99.92% a me ka pili ʻana o ke ʻano o ke kolamu o 99.31%). ʻO kēia ka manawa e loaʻa ai iā SDV ka hopena o ka nui loa o 90.84% (me Gaussian Copula, he 93.82% ka pili ʻana o ke kolamu a me ka pili ʻana o ke ʻano o ke kolamu o 87.86%).
Papa 1. He hōʻike papa helu o nā helu maikaʻi o kēlā me kēia ʻikepili i hana ʻia no kēlā me kēia kumu hoʻohālike
ʻIkepili ʻikepili
Ke hōʻike mai nei ka module Diagnosis Report o SDV iā mākou e nalowale ana nā ʻikepili i hana ʻia e SDV (i nā hihia āpau) ma mua o 10% o nā pae helu; Ma ka hihia o Triplet-Based Variational Autoencoder (TVAE), ʻaʻole nalo ka nui like o ka ʻikepili categorical ke hoʻohālikelike ʻia me ka ʻikepili kumu. ʻAʻole i hana ʻia nā ʻōlelo luhi me nā hopena i loaʻa ma ka hoʻohana ʻana iā Syntho.
Kiʻi 2. ka ʻike ʻana i nā anana hana awelika o ke kolamu no nā kumu hoʻohālike a pau
Ma ka hoʻohālikelike hoʻohālikelike, hōʻike ka manaʻo o ke Kiʻi 2 i nā waihona SDV i ʻoi aku ka maikaʻi o ka hopena i ka uhi ʻana o ka māhele me kekahi o kā lākou mau hiʻohiʻona (ʻo ia hoʻi me GaussianCopula, CopulaGAN, a me Conditional Tabular GAN - CTGAN). Eia nō naʻe, he mea nui e hōʻike i ka hilinaʻi o ka ʻikepili a Syntho ma mua o nā hiʻohiʻona SDV, no ka mea he liʻiliʻi ka ʻokoʻa o ka uhi ʻana ma nā ʻāpana a me nā pae, e hōʻike ana i kahi ʻokoʻa 1.1% wale nō. I ka hoʻohālikelike ʻana, hōʻike nā hiʻohiʻona SDV i kahi ʻano like ʻole, mai ka 14.6% a i ka 29.2%.
ʻO nā metric i hōʻike ʻia ma aneʻi, hiki ke unuhi ʻia penei:
- Ka uhi ʻana o ka Māhele: Ana i ka hiki ʻana mai o nā ʻano āpau i ka ʻikepili synthetic e like me ka ʻikepili maoli.
- Ka uhi ʻana o ka laulā: E loiloi i ka maikaʻi o ka laulima o nā waiwai i loko o ka ʻikepili synthetic e kūlike me ka ʻikepili maoli.
Papa 2. He hōʻike hōʻikeʻike o ka uhi awelika o kekahi ʻano hiʻohiʻona i hāʻawi ʻia i kēlā me kēia kumu hoʻohālike
pili i ka hoʻoponopono
Ke neʻe nei i ke kumuhana o ka hoʻohana ʻana i ka ʻikepili synthetic, e pili ana ka mea o ka hoʻomaʻamaʻa ʻana i ka ʻikepili. No ka loaʻa ʻana o kahi hoʻohālikelike kaulike a kūpono hoʻi ma waena o nā frameworks a pau, ua koho mākou i ka Gradient Boosting Classifier mai ka hale waihona puke ʻo SciKit Learn, ʻoiai ua ʻae ʻia ʻo ia ma ke ʻano he kumu hoʻohālike maikaʻi me nā hoʻonohonoho waho o ka pahu.
Hoʻomaʻamaʻa ʻia ʻelua mau hiʻohiʻona, hoʻokahi ma ka ʻikepili synthetic (no TSTR) a hoʻokahi ma ka ʻikepili kumu (no TRTS). ʻIke ʻia ke kumu hoʻohālike i hoʻomaʻamaʻa ʻia ma ka ʻikepili synthetic ma o ka hoʻohana ʻana i kahi hoʻonohonoho hoʻāʻo holdout (ʻaʻole i hoʻohana ʻia i ka wā o ka hoʻokumu ʻana i ka ʻikepili synthetic) a ua hoʻāʻo ʻia ke kumu hoʻohālike i aʻo ʻia ma ka ʻikepili kumu ma ka dataset synthetic.
Kiʻi 3. ʻIke ʻana i nā helu wahi ma lalo o ka Curve (AUC) no kēlā me kēia ʻano hoʻohālike
Hōʻike nā hualoaʻa i ʻike ʻia ma luna aʻe i ka maikaʻi o ka hana ʻikepili Synthetic e ka mīkini Syntho i hoʻohālikelike ʻia me nā ʻano hana ʻē aʻe, ʻoiai ʻaʻohe ʻokoʻa ma waena o nā hopena i loaʻa i nā ʻano hana like ʻole (e kuhikuhi ana i kahi like kiʻekiʻe ma waena o ka synthetic a me ka ʻikepili maoli). Eia kekahi, ʻo ka laina kiko ʻulaʻula i loaʻa i ka pākuʻi ʻo ia ka hopena i loaʻa ma ka loiloi ʻana i ka hana kumu o kahi hōʻike Train Real, Test Real (TRTR) e hāʻawi i kahi pae kumu no nā ana i ʻike ʻia. Hōʻike kēia laina i ka waiwai 0.92, ʻo ia ka Area Under the Curve score (AUC score) i loaʻa e ke kumu hoʻohālike i aʻo ʻia ma ka ʻikepili maoli a hoʻāʻo ʻia ma ka ʻikepili maoli.
Papa 3. He hōʻike papa helu o nā helu AUC i loaʻa e TRTS a me TSTR i kēlā me kēia kumu hoʻohālike.
Hoʻohālikelike manawa
ʻO ka mea maʻamau, he mea koʻikoʻi e noʻonoʻo i ka manawa i hoʻolilo ʻia i ka hana ʻana i kēia mau hopena. ʻO ka hiʻohiʻona ma lalo nei e hōʻike wale i kēia.
Kiʻi 5. ʻIke ʻia o ka manawa i hoʻomaʻamaʻa a hana hana ʻikepili synthetic o hoʻokahi miliona mau ʻikepili me kahi kumu hoʻohālike me ka GPU ʻole.
Hōʻike ka Figure 5 i ka manawa i lawe ʻia no ka hana ʻana i ka ʻikepili synthetic ma nā ʻano ʻokoʻa ʻelua. ʻO ka mea mua (ma ʻaneʻi i kapa ʻia ʻo Without GPU), he mau hoʻāʻo e holo ana ma ka ʻōnaehana me kahi Intel Xeon CPU me 16 cores e holo ana ma 2.20 GHz. ʻO nā hoʻokolohua i hōʻailona ʻia ʻo "holo me kahi GPU" aia ma kahi ʻōnaehana me ka AMD Ryzen 9 7945HX CPU me 16 cores e holo ana ma 2.5GHz a me kahi NVIDIA GeForce RTX 4070 Laptop GPU. E like me ka mea i ʻike ʻia ma ke Kiʻi 2 a ma ka Papa 2 ma lalo nei, hiki ke ʻike ʻia ʻoi aku ka wikiwiki o Syntho i ka hana ʻana i ka ʻikepili synthetic (ma nā hiʻohiʻona ʻelua) he mea koʻikoʻi i kahi kahe hana hoʻoikaika.
Papa 5. He hoike papahelu o ka manawa i laweia i hana ʻikepili synthetic o hoʻokahi miliona mau helu ʻikepili me kēlā me kēia kumu hoʻohālike me ka GPU ʻole
Hōʻike nā ʻike i ke koʻikoʻi o ka loiloi maikaʻi ʻana i ke koho ʻana i ke ʻano hana hana ʻikepili synthetic kūpono. ʻO Syntho's Engine, me kāna ala hoʻokele AI, hōʻike i nā ikaika koʻikoʻi i kekahi mau metric, ʻoiai nā mea hana open-source e like me SDV e hoʻomālamalama i kā lākou versatility a me ka hoʻomaikaʻi ʻana i ke kaiāulu.
Ke hoʻomau nei ka hoʻomohala ʻana o ka ʻikepili synthetic, paipai mākou iā ʻoe e hoʻopili i kēia mau ana i kāu mau papahana, e ʻimi i kā lākou paʻakikī, a e kaʻana like i kāu ʻike. E hoʻomau no nā pou e hiki mai ana kahi e luʻu hohonu ai mākou i nā metric ʻē aʻe a hōʻike i nā hiʻohiʻona honua maoli o kā lākou noi.
I ka hopena o ka lā, no ka poʻe e ʻimi nei e hoʻāʻo i ka wai ma ka ʻikepili synthetic, hiki ke koho ʻia ke koho open-source i koho kūpono i hāʻawi ʻia i ka hiki; akā naʻe, no ka poʻe loea e hoʻokomo i kēia ʻenehana hou i kā lākou kaʻina hana hoʻomohala, pono e lawe ʻia nā manawa kūpono e hoʻomaikaʻi ai a pale ʻia nā pilikia āpau. No laila he mea nui e koho i ka koho maikaʻi loa i loaʻa. Me nā loiloi i hāʻawi ʻia ma luna aʻe e ʻike ʻia ʻo Syntho a me ia ka Syntho Engine he mea hana pono loa no nā loea.
E pili ana iā Syntho
ʻO Syntho hāʻawi i kahi kahua hoʻomohala ʻikepili synthetic akamai, e hoʻohana ana i nā ʻano ʻikepili synthetic he nui a me nā ʻano hana hana, e hoʻoikaika ana i nā hui e hoʻololi naʻauao i ka ʻikepili i mea hoʻokūkū. Hoʻohālikelike kā mākou ʻikepili synthetic i hana ʻia e AI i nā ʻano helu helu o ka ʻikepili kumu, e hōʻoiaʻiʻo ana i ka pololei, ka pilikino, a me ka wikiwiki, e like me ka loiloi ʻana e nā loea o waho e like me SAS. Me nā hiʻohiʻona de-identification akamai a me ka palapala ʻāina maʻamau, mālama ʻia ka ʻike koʻikoʻi me ka mālama ʻana i ka pono kuhikuhi. Hiki i kā mākou paepae ke hana, hoʻokele, a me ka mālama ʻana i ka ʻikepili hoʻāʻo no nā wahi hana ʻole, me ka hoʻohana ʻana i nā ʻano hana hoʻomohala ʻikepili synthetic e pili ana i ka lula no nā hiʻohiʻona i manaʻo ʻia. Hoʻohui, hiki i nā mea hoʻohana ke hoʻopuka i ka ʻikepili synthetic ma ka papahana a loaʻa i ka ʻikepili hōʻike maoli e hoʻomohala i nā hoʻokolohua piha a me nā hiʻohiʻona hoʻomohala me ka maʻalahi.
Makemake ʻoe e aʻo i nā noi kūpono o ka ʻikepili synthetic? E ʻoluʻolu e hoʻolālā hoʻolālā!
E pili ana i nā mea kākau
Luna Hana Hana Hana Hana
ʻUhaneam he haumāna laepua ma ke Kulanui o ʻenehana ʻo Delft a he Luna Hana Hana Pūnaewele ma ʻO Syntho.
Ka Papa Hana'Ile
Ua loaʻa iā Mihai kāna PhD mai ka Ke Kulanui o Bristol ma ke kumuhana o ka Hierarchical Reinforcement Learning i hoʻohana ʻia i Robotics a he ʻEnekinia Aʻo Mīkini at ʻO Syntho.
E mālama i kāu alakaʻi ʻikepili synthetic i kēia manawa!
- He aha ka ʻikepili synthetic?
- No ke aha e hoʻohana ai nā hui?
- Hoʻohui waiwai hoʻohui i nā hihia mea kūʻai aku ʻikepili synthetic
- Pehea e hoʻomaka ai