Ho Lekola Tšebeliso le ho Kopana ho Lijenereithara tsa Lintlha tsa Synthetic: Tekanyetso e tebileng ea Theknoloji le Tlhahlobo ea Papiso.

E phatlalalitsoe:
February 27, 2024

Selelekela

Mehleng ea kajeno ea dijithale, tlhokomeliso ea boinotši ba data e eketsehile haholo. Basebelisi ba ntse ba tsoela pele ho lemoha data ea bona e le menoana e ikhethang ea dijithale, e behang kotsi ho boinotši ba bona ha ho ka ba le liphoso tsa data. Ho tšoenyeha hona ho matlafatsoa hape ke melaoana e kang GDPR, e matlafatsang basebelisi ho kopa ho hlakoloa ha data ea bona. Leha ho hlokahala haholo, molao ona o ka bitsa chelete e ngata haholo bakeng sa lik'hamphani kaha phihlello ea data e fokotsehile; lithibelo tseo hangata li jang nako le lisebelisoa ho hlola. 

Tafole ea likateng

Lijenereithara tsa data tsa maiketsetso ke eng?

Kenya data ea maiketsetso, tharollo ea moferefere ona. Lijenereithara tsa data tsa maiketsetso li etsa li-database tse etsisang data ea sebele ea mosebedisi ha li ntse li boloka ho se tsejoe le ho boloka lekunutu. Mokhoa ona o ntse o eketseha ho pholletsa le liindasteri, ho tloha ho tsa bophelo bo botle ho ea ho tsa lichelete, moo boinotši bo leng bohlokoa haholo.  

Poso ena e etselitsoe litsebi tsa data le ba chesehelang maikutlo, e shebane le tlhahlobo ea lijenereithara tsa data tsa maiketsetso. Re tla batlisisa metrics ea bohlokoa mme re etse tlhahlobo ea papiso lipakeng tsa Syntho's Engine le mefuta e meng ea eona e bulehileng, e fanang ka leseli mabapi le mokhoa oa ho lekola boleng ba tharollo ea tlhahiso ea data ea maiketsetso. Ho feta moo, re tla boela re lekola litšenyehelo tsa nako ea e 'ngoe le e' ngoe ea mefuta ena ho fana ka temohisiso e eketsehileng mabapi le ho sebetsa ha mehlala. 

Mokhoa oa ho khetha mokhoa o nepahetseng oa ho hlahisa data oa maiketsetso?

Libakeng tse fapaneng tsa tlhahiso ea data ea maiketsetso, ho na le mekhoa e mengata e fumanehang, e 'ngoe le e' ngoe e batla tlhokomelo ka bokhoni ba eona bo ikhethang. Ho khetha mokhoa o loketseng ka ho fetisisa bakeng sa kopo e itseng ho hloka kutloisiso e feletseng ea litšobotsi tsa ts'ebetso ea khetho ka 'ngoe. Sena se hloka tlhahlobo e felletseng ea lijenereithara tse fapaneng tsa data tsa maiketsetso tse thehiloeng ho sete ea metrics e hlalositsoeng hantle ho etsa qeto e nang le tsebo. 

Se latelang ke tlhahlobo e matla ea papiso ea Syntho Engine hammoho le moralo o tsebahalang oa mohloli o bulehileng, Synthetic Data Vault (SDV). Tlhahlobisong ena, re sebelisitse metrics e mengata e sebelisoang hangata joalo ka lipalo-palo, ho nepahala ha ponelopele le likamano tse fapaneng. 

Synthetic Data Evaluation Metrics

Pele re hlahisa metric efe kapa efe e ikhethileng, re tlameha ho lumela hore ho na le maikutlo a mangata mabapi le ho lekola data ea Synthetic, e 'ngoe le e' ngoe e fanang ka temohisiso ka karolo e itseng ea data. Ho nahanoa ka sena, likarolo tse tharo tse latelang li hlahella e le tsa bohlokoa le tse akaretsang. Metrics ena e fana ka leseli likarolong tse fapaneng tsa boleng ba data. Lihlopha tsena ke: 

      1. Statistical Fidelity Metrics: Ho hlahloba lintlha tsa motheo tsa lipalo-palo, joalo ka mekhoa le liphapang, ho netefatsa hore data ea maiketsetso e tsamaisana le profaele ea lipalo ea dataset ea mantlha. 

        1. Ho Nepaha Pele: Ho hlahloba ts'ebetso ea mofuta oa tlhahiso ea data ea maiketsetso, e koetlisitsoeng ka data ea mantlha, 'me e hlahlobiloe ho data ea maiketsetso (Terene ea 'Nete - Test Synthetic, TRTS) le ka tsela e fapaneng (Train Synthetic - Test Real, TSTR) 

          1. Likamano tse fapa-fapaneng: Sehlopha sena se kopantsoeng se kenyelletsa: 

            • Tšebelisano-'moho: Re lekola hore na data ea maiketsetso e boloka likamano lipakeng tsa mefuta e fapaneng e sebelisa li-coefficients tsa correlation hantle hakae. Metric e tsebahalang joalo ka Propensity Mean Squared Error (PMSE) e ka ba ea mofuta ona. 

            • Litaba tse Kopanetsoeng: Re lekanya ho its'etleha lipakeng tsa mefuta e fapaneng ho utloisisa botebo ba likamano tsena ntle le likamano feela. 

          Tlhahlobo e Bapisang: Syntho Engine vs. Open-Source Alternatives

          Tlhahlobo ea papiso e entsoe ho sebelisoa moralo o hlophisitsoeng oa tlhahlobo le mekhoa e ts'oanang ea tlhahlobo ho mefuta eohle, ho kenyeletsoa mefuta ea Syntho Engine le SDV. Ka ho kopanya li-database ho tsoa mehloling e ts'oanang le ho li beha litekong tse tšoanang tsa lipalo le tlhahlobo ea mohlala oa ho ithuta ka mochini, re netefatsa papiso e nepahetseng le e hlokang leeme. Karolo e latelang e fana ka lintlha tse mabapi le ts'ebetso ea jenereithara e 'ngoe le e 'ngoe ea maiketsetso ho pholletsa le metrics e hlahisitsoeng ka holimo.  

           

          Ha e le dataset e sebelisitsoeng bakeng sa tlhahlobo, re sebelisitse UCI's Adult's Census Dataset e leng pokello ea data e tsebahalang sechabeng sa thuto ea mochini. Re hloekisitse lintlha pele ho lithupelo tsohle, 'me ra arola dataset ka lihlopha tse peli (thupelo le sete ea ho ts'oara tlhahlobo). Re sebelisitse koetliso e behiloeng ho hlahisa li-datapoints tse ncha tse limilione tse 1 ka mofuta o mong le o mong mme ra hlahloba metrics e fapaneng ho li-dataset tse hlahisitsoeng. Bakeng sa litlhahlobo tse ling tsa ho ithuta ka mochini, re sebelisitse setout ho hlahloba metrics joalo ka tse amanang le TSTR le TRTS.  

           

          Jenereithara ka 'ngoe e ne e tsamaisoa ka li-parameter tsa kamehla. Joalo ka ha mefuta e meng, joalo ka Syntho, e ka sebetsa ka ntle ho lebokose ho data efe kapa efe ea tabular, ha ho tokiso e ntle e entsoeng. Ho batla li-hyperparameter tse nepahetseng bakeng sa mohlala o mong le o mong ho tla nka nako e ngata, 'me Letlapa la 2 le se le ntse le bontša phapang e kholo ea nako pakeng tsa mohlala oa Syntho le o lekiloeng khahlanong le oona. 

           

          Hoa hlokomeleha hore ho fapana le mefuta e meng ea SDV, Gaussian Copula Synthesizer e itšetlehile ka mekhoa ea lipalo-palo. Ka lehlakoreng le leng, tse ling kaofela li ipapisitse le marang-rang a neural joalo ka mefuta ea Generative Adversarial Networks (GAN) le li-encoder tse fapaneng. Ke ka lebaka leo Gaussian Copula e ka bonoang e le motheo oa mehlala eohle e tšohloang. 

          Results

          Boleng ba data

          Setšoantšo sa 1. Ponahalo ea liphetho tsa boleng ba motheo bakeng sa mehlala eohle

          Lits'oants'o tse neng li tšohloa nakong e fetileng ho litloaelo le boemeli ho data li ka fumanoa ho Setšoantšo sa 1 le Letlapa la 1. Mona, e 'ngoe le e' ngoe ea metrics e sebelisoang e ka hlalosoa ka tsela e latelang:

          • Kakaretso ea Lintlha tsa Boleng: Tekolo ka kakaretso ea boleng ba data ea maiketsetso, e kopanyang likarolo tse fapaneng joalo ka ho tšoana ha lipalo le litšobotsi tsa data. 
          • Libopeho tsa Kholomo: Lekola hore na data ea maiketsetso e boloka sebopeho se tšoanang sa kabo joalo ka data ea 'nete bakeng sa kholomo ka' ngoe. 
          • Column Pair Trends: E lekola kamano kapa likamano lipakeng tsa li-column tsa data tsa maiketsetso ha li bapisoa le data ea 'nete. 
          •  

          Ka kakaretso, ho ka hlokomeloa hore Syntho e fumana lintlha tse phahameng haholo ho pholletsa le boto. Ho qala, ha u sheba boleng ba data ka kakaretso (e hlahlobiloeng le laebrari ea metrics ea SDV) Syntho e ka fihlela sephetho ho ea holimo ho 99% (ka ho khomarela sebopeho sa kholomo ea 99.92% le ho khomarela sebopeho sa likholomo tsa 99.31%). Sena ke ha SDV e fumana sephetho sa boholo ba 90.84% ​​(ka Gaussian Copula, e nang le kholomo e khomarelang sebopeho sa 93.82% le ho khomarela sebopeho sa likholomo tsa 87.86%). 

          Pontšo ea tabular ea lintlha tsa boleng tsa dataset e 'ngoe le e 'ngoe e hlahisitsoeng moetsong ka mong

          Letlapa la 1. Kemelo ea tabular ea lintlha tsa boleng tsa dataset e 'ngoe le e' ngoe e hlahisoang ka mohlala 

          Kakaretso ea Boitsebiso

          Mojule wa Diagnosis Report oa SDV o re hlokomelisa hore data e hlahisoang ke SDV (maemong ohle) e haella ho feta 10% ea lipalo tsa lipalo; Tabeng ea Triplet-Based Variational Autoencoder (TVAE), palo e ts'oanang ea lintlha tsa likarolo le eona ha e eo ha e bapisoa le dataset ea mantlha. Ha ho litemoso tse joalo tse hlahisitsoeng ka liphetho tse fihletsoeng ka ho sebelisa Syntho.  

          ponahatso ea metrics ea ts'ebetso e bohlale ea kholomo bakeng sa mefuta eohle
           
           

          Setšoantšo sa 2. ponelopele ea metrics ea ts'ebetso e bohlale ea kholomo bakeng sa mefuta eohle 

          Tlhahlobong ea papiso, morero oa Setšoantšo sa 2 o bonts'a hore polokelo ea SDV e hlahisa litholoana tse ntle haholo molemong oa mefuta e meng ea tsona (e leng GaussianCopula, CopulaGAN, le Conditional Tabular GAN - CTGAN). Leha ho le joalo, ho bohlokoa ho totobatsa hore ts'epahalo ea data ea Syntho e feta ea mefuta ea SDV, kaha phapang lipakeng tsa likarolo le mefuta e nyane, e bonts'a phapang ea 1.1%. Ka lehlakoreng le leng, mefuta ea SDV e bonts'a phapang e kholo, ho tloha ho 14.6% ho isa ho 29.2%. 

           

          Metrics e emetsoeng mona, e ka hlalosoa ka tsela e latelang: 

          • Kakaretso ea Sehlopha: E lekanya boteng ba mekhahlelo eohle ho data ea maiketsetso ha e bapisoa le data ea 'nete.
          • Range Coverage: E lekola hore na lethathamo la boleng ho data ea maiketsetso le lumellana hantle hakae le data ea nnete. 
          Kemiso ea tabular ea kakaretso ea kakaretso ea mofuta o fanoeng oa mofuta ka mong

          Letlapa la 2. Kemelo ea tabular ea kakaretso ea kakaretso ea mofuta o fanoeng oa mofuta o mong le o mong 

          Utility

          Ha re fetela sehloohong sa tšebeliso ea data ea maiketsetso, taba ea mehlala ea koetliso ho data e ba ea bohlokoa. Ho ba le papiso e leka-lekaneng le e hlokang leeme lipakeng tsa meralo eohle re khethile Gradient Boosting Classifier ea kamehla ho laeborari ea SciKit Learn, kaha e amoheloa ka nepo e le mohlala o sebetsang hantle o nang le litlhophiso tse kantle ho lebokose.  

           

          Ho koetlisitsoe mefuta e 'meli e fapaneng, e' ngoe e le ho data ea maiketsetso (bakeng sa TSTR) le e 'ngoe ho data ea mantlha (bakeng sa TRTS). Moetso o koetlisitsoeng ka data ea maiketsetso o lekoa ka ho sebelisa sete ea tlhahlobo ea ho ts'oara (e sa kang ea sebelisoa nakong ea tlhahiso ea data ea maiketsetso) mme mohlala o koetlisitsoeng ka data ea mantlha o lekoa ho dataset ea maiketsetso.  

          pono ea lintlha tsa Area Under the Curve (AUC) ka mokhoa o mong le o mong

          Setšoantšo sa 3. Ponahalo ea lintlha tsa Sebaka se Tlas'a Curve (AUC) ka mokhoa o mong le o mong 

           Liphetho tse bonts'itsoeng kaholimo li bonts'a bophahamo ba tlhahiso ea data ea Synthetic ke enjene ea Syntho ha e bapisoa le mekhoa e meng, ho bona ha ho na phapang lipakeng tsa liphetho tse fumanoeng ka mekhoa e fapaneng (e supang ho tšoana ho phahameng pakeng tsa data ea maiketsetso le ea nnete). Hape, mola o nang le matheba a mafubelu o teng morerong ke sephetho se fumanoeng ka ho lekola tšebetso ea Terene ea 'Nete, Teko ea Sebele (TRTR) ho fana ka motheo oa metrics e hlokometsoeng. Mohala ona o emela boleng ba 0.92, e leng sebaka sa Area Under the Curve (sentlha sa AUC) se fihletsoeng ke mohlala o koetlisitsoeng ka data ea sebele le ho lekoa ho data ea sebele. 

          Kemelo ea tabular ea lintlha tsa AUC tse fihletsoeng ke TRTS le TSTR ka ho latellana moetsong ka mong.

          Letlapa la 3. Kemelo ea tabular ea lintlha tsa AUC tse fihletsoeng ke TRTS le TSTR ka ho latellana ho latela mohlala ka mong. 

          Ho ipapisa le nako

          Ka tlhaho, ho bohlokoa ho nahana ka nako e sebelisitsoeng ho hlahisa liphetho tsena. Pono e ka tlase e bontša sena.

          pono ea nako e nkuoeng ho koetlisa le ho etsa tlhahiso ea data ea maiketsetso ea li-datapoints tse milione ka mohlala o nang le GPU le ntle le eona.

          Setšoantšo sa 5. Ponahalo ea nako e nkiloeng ho koetlisa le ho etsa tlhahiso ea data ea maiketsetso ea lintlha tse milione tse nang le mohlala o nang le GPU le ntle le eona. 

          Setšoantšo sa 5 se bontša nako e nkiloeng ho hlahisa data ea maiketsetso maemong a mabeli a fapaneng. Ea pele ea eona (mona e bitsoa Ntle le GPU), e ne e le liteko tse tsamaisoang ka sistimi e nang le Intel Xeon CPU e nang le li-cores tse 16 tse sebetsang ho 2.20 GHz. Liteko tse tšoailoeng e le "li matha ka GPU" li ne li le tsamaisong e nang le AMD Ryzen 9 7945HX CPU e nang le li-cores tse 16 tse sebetsang ho 2.5GHz le NVIDIA GeForce RTX 4070 Laptop GPU. Joalo ka ha ho bonahala ho Setšoantšo sa 2 le ho Lethathamo la 2 ka tlase, ho ka hlokomeloa hore Syntho e potlakile haholo ho hlahiseng data ea maiketsetso (maemong a mabeli) e leng bohlokoa ts'ebetsong e matla ea mosebetsi. 

          tafole e bonts'ang nako e nkuoeng ho hlahisa data ea maiketsetso ea li-datapoints tse limilione tse 1 ka mofuta o mong le o mong o nang le GPU le ntle le eona.

          Lethathamo la 5. Kemelo ea Tabular ea nako e nkiloeng ho tlhahiso ea data ea maiketsetso ea li-datapoints tse milione ka mofuta o mong le o mong o nang le GPU le ntle le eona 

          Litlhaloso tse Qetelang le Litaelo tsa Kamoso 

          Liphuputso li totobatsa bohlokoa ba tlhahlobo ea boleng bo phethahetseng ho khetha mokhoa o nepahetseng oa ho hlahisa data. Syntho's Engine, ka mokhoa oa eona o tsamaisoang ke AI, e bonts'a matla a bohlokoa ho metriki e itseng, ha lisebelisoa tse bulehileng tse kang SDV li khanya ka ho feto-fetoha ha tsona le lintlafatso tse tsamaisoang ke sechaba. 

          Ha lefapha la data ea maiketsetso le ntse le tsoela pele ho fetoha, re u khothaletsa ho sebelisa metrics ena mererong ea hau, hlahloba mathata a bona, le ho arolelana liphihlelo tsa hau. Lula u mametse likhatiso tsa nako e tlang moo re tla kenella ka botebo ho li-metrics tse ling le ho totobatsa mehlala ea 'nete ea ts'ebeliso ea tsona. 

          Qetellong ea letsatsi, bakeng sa ba batlang ho leka metsi ka data ea maiketsetso, mokhoa o mong o hlahisitsoeng oa mohloli o bulehileng e ka ba khetho e utloahalang ho latela phihlello; leha ho le joalo, bakeng sa litsebi tse kenyelletsang theknoloji ena ea sejoale-joale tšebetsong ea tsona ea ntlafatso, monyetla ofe kapa ofe oa ntlafatso o tlameha ho nkuoa 'me ho qojoe litšitiso tsohle. Ka hona ke habohlokoa ho khetha khetho e ntle ka ho fetisisa e fumanehang. Ka litlhahlobo tse fanoeng ka holimo ho hlakile hore Syntho le hore Syntho Engine ke sesebelisoa se nang le bokhoni haholo bakeng sa litsebi. 

          Mabapi le Syntho

          Syntho e fana ka sethala se bohlale sa tlhahiso ea data ea maiketsetso, ho sebelisa mefuta e mengata ea data ea maiketsetso le mekhoa ea ho hlahisa, ho matlafatsa mekhatlo ho fetola lintlha ka bohlale molemong oa tlholisano. Lintlha tsa rona tsa maiketsetso tse entsoeng ke AI li etsisa mekhoa ea lipalo-palo ea data ea mantlha, e netefatsa bonnete, lekunutu, le lebelo, joalo ka ha li hlahlobiloe ke litsebi tsa kantle tse kang SAS. Ka likarolo tse bohlale tsa ho hlakisa lintlha le 'mapa o sa fetoheng, tlhaiso-leseling e hlokolosi e sirelelitsoe ha ho ntse ho bolokoa boits'oaro bo nepahetseng. Sethala sa rona se thusa ho theha, ho laola le ho laola lintlha tsa liteko bakeng sa libaka tseo e seng tsa tlhahiso, ho sebelisa mekhoa ea tlhahiso ea data e thehiloeng ho melao bakeng sa maemo a reriloeng. Ho feta moo, basebelisi ba ka hlahisa data ea maiketsetso ka mokhoa o hlophisehileng mme ba fumana lintlha tsa 'nete tsa tlhahlobo ho theha liteko tse felletseng le maemo a nts'etsopele habonolo.  

          Na u batla ho ithuta lisebelisoa tse ling tse sebetsang tsa data ea maiketsetso? Ikutloe u lokolohile ho kemiso ea kemiso!

          Mabapi le bangoli

          Software Engineering Intern

          roham ke moithuti oa bachelor Univesithing ea Theknoloji ea Delft mme ke Software Engineering Intern ho Syntho 

          Moenjiniere oa ho Ithuta oa Mochini

          Mihai o fihletse PhD ea hae ho tsoa ho Univesithi ea Bristol ka sehlooho sa Hierarchical Reinforcement Learning e sebelisoa ho Robotics mme ke Moenjiniere oa ho Ithuta ka Mechini at Syntho. 

          sekoaelo sa tataiso ea syntho

          Boloka tataiso ea hau ea data ea maiketsetso hona joale!