Datu-sorgailu sintetikoetan erabilgarritasuna eta antzekotasuna ebaluatzea: murgilketa teknikoa eta analisi konparatiboa

Argitaratutako:
Otsailaren 27, 2024

Sarrera

Gaur egungo aro digitalean, datuen pribatutasunari buruzko kontzientzia nabarmen areagotu da. Erabiltzaileek gero eta gehiago onartzen dituzte beren datuak hatz-marka digital bakar gisa, eta haien pribatutasunerako arriskua dakar datu-hausteen kasuan. Kezka hori areagotu egiten da GDPR bezalako araudiak, erabiltzaileei beren datuak ezabatzea eskatzeko ahalmena ematen diena. Oso beharrezkoa bada ere, legedi hau oso garestia izan daiteke enpresentzat, datuetarako sarbidea gutxitzen baita; gainditzeko denbora eta baliabideak behar izaten dituzten murrizketak. 

Edukien aurkibidea

Zer dira datu-sorgailu sintetikoak?

Sartu datu sintetikoak, arazo honen konponbidea. Datu-sorgailu sintetikoek erabiltzailearen benetako datuak imitatzen dituzten datu multzoak sortzen dituzte, anonimotasuna eta konfidentzialtasuna gordez. Ikuspegi hau indarra hartzen ari da sektore guztietan, osasungintzatik finantzara, pribatutasuna funtsezkoa den.  

Post hau datuen profesional eta zaleentzat egokituta dago, datu-sorgailu sintetikoen ebaluazioan zentratuta. Funtsezko metriketan sakonduko dugu eta Syntho-ren motorra eta bere kode irekiko alternatiben arteko konparazio-analisia egingo dugu, datu sintetikoen sorreraren irtenbide-kalitatea modu eraginkorrean ebaluatzeko moduari buruzko ikuspegiak eskainiz. Gainera, eredu horietako bakoitzaren denbora-kostua ere ebaluatuko dugu, ereduen funtzionamenduari buruzko informazio gehiago emateko. 

Nola aukeratu datu sintetikoak sortzeko metodo egokia?

Datu sintetikoak sortzeko paisaia anitzan, metodo ugari dago eskuragarri, bakoitzak bere gaitasun bereziekin arreta eskatzeko lehian. Aplikazio jakin baterako metodo egokiena aukeratzeak aukera bakoitzaren errendimendu-ezaugarriak ondo ulertzea eskatzen du. Honek hainbat datu-sorgailu sintetikoen ebaluazio integrala behar du ondo definitutako metrika multzo batean oinarrituta, erabaki informatua hartzeko. 

Jarraian, Syntho Engine-ren analisi konparatibo zorrotza da kode irekiko esparru ezagun batekin batera, Synthetic Data Vault (SDV). Analisi honetan, ohiko erabiltzen diren metrika asko erabili ditugu, hala nola, fideltasun estatistikoa, zehaztasun iragarlea eta aldagaien arteko erlazioa. 

Datu sintetikoak ebaluatzeko neurketak

Edozein metrika zehatz sartu aurretik, datu sintetikoak ebaluatzeko ideologia ugari daudela aitortu behar dugu, eta horietako bakoitzak datuen alderdi jakin bati buruzko ikuspegia ematen du. Hori kontuan hartuta, hurrengo hiru kategoria nabarmentzen dira garrantzitsu eta integral gisa. Neurri hauek datuen kalitatearen hainbat alderdiri buruzko informazioa ematen dute. Kategoria hauek hauek dira: 

      1. Leialtasun estatistikoaren neurketak: Datuen oinarrizko estatistika-ezaugarriak aztertzea, batezbestekoak eta bariantza bezalakoak, datu sintetikoak jatorrizko datu-multzoaren profil estatistikoarekin lerrokatzen direla ziurtatzeko. 

        1. Zehaztasun iragarlea: Datu sintetikoak sortzeko ereduaren errendimendua aztertzea, jatorrizko datuekin trebatua eta datu sintetikoekin ebaluatua (Train Real – Test Synthetic, TRTS) eta alderantziz (Train Synthetic – Test Real, TSTR) 

          1. Aldagaien arteko harremanak: Kategoria konbinatu honek barne hartzen ditu: 

            • Ezaugarrien korrelazioa: Datu sintetikoek aldagaien arteko erlazioak nola mantentzen dituzten ebaluatzen dugu korrelazio koefizienteak erabiliz. Propensity Mean Squared Error (PMSE) bezalako metrika ezagun bat mota honetakoa litzateke. 

            • Elkarrekiko informazioa: Aldagaien arteko elkarrekiko menpekotasunak neurtzen ditugu erlazio horien sakontasuna ulertzeko korrelazio soiletatik haratago. 

          Analisi Konparatiboa: Syntho Engine vs Open-Source Alternatibak

          Analisi konparatiboa ebaluazio-esparru estandarizatu bat eta proba-teknika berdinak erabiliz egin da eredu guztietan, Syntho Engine eta SDV modeloetan barne. Iturri bereko datu-multzoak sintetizatuz eta proba estatistiko eta ikaskuntza automatikoko ereduen ebaluazio berberak jasanez, konparazio zuzena eta alboragabea bermatzen dugu. Jarraian datorren atalak datu-sorgailu sintetiko bakoitzaren errendimendua zehazten du goian aurkeztutako metrika-sorta osoan.  

           

          Ebaluaziorako erabilitako datu multzoari dagokionez, erabili dugu UCI Helduen Errolda Datu multzoa ikaskuntza automatikoko komunitatean datu multzo ezaguna dena. Entrenamendu guztien aurretik datuak garbitu ditugu eta, ondoren, datu-multzoa bi multzotan banatu dugu (entrenamendu bat eta probak egiteko holdout multzo bat). Trebakuntza-multzoa eredu bakoitzarekin milioi bat datu-puntu berri sortzeko erabili dugu eta sortutako datu-multzo horien gaineko hainbat metrika ebaluatu ditugu. Ikaskuntza automatikoko ebaluazio gehiago egiteko, holdout multzoa erabili dugu TSTR eta TRTS-ekin lotutako neurketak ebaluatzeko.  

           

          Sorgailu bakoitza parametro lehenetsiekin exekutatu zen. Eredu batzuk, Syntho-k bezala, edozein datu tabularreko kaxetik kanpo lan egin dezaketenez, ez zen doikuntza finrik egin. Eredu bakoitzerako hiperparametro egokiak bilatzea denbora asko beharko litzateke, eta 2. Taulan dagoeneko denbora-alde handia ikusten da Synthoren ereduaren eta probatutakoen artean. 

           

          Aipagarria da SDVko gainerako ereduen aldean, Gauss Copula Synthesizer metodo estatistikoetan oinarritzen dela. Aitzitik, gainerakoak sare neuronaletan oinarritzen dira, hala nola Generative Adversarial Networks (GAN) ereduak eta auto-kodetzaile aldaerak. Horregatik, Kopula Gaussikoa oinarritzat har daiteke eztabaidatutako eredu guztientzat. 

          Emaitzak

          Datuen kalitatea

          1. Irudia. Eredu guztien oinarrizko kalitate-emaitzen bistaratzea

          Aurretik eztabaidatutako datuen joeren eta irudikapenekiko atxikimenduak 1. irudian eta 1. taulan aurki daitezke. Hemen, erabiltzen diren metrika bakoitza honela interpreta daiteke:

          • Kalitate-maila orokorra: datu sintetikoen kalitatearen ebaluazio orokorra, hainbat alderdi konbinatuz, hala nola antzekotasun estatistikoa eta datuen ezaugarriak. 
          • Zutabe-formak: datu sintetikoek zutabe bakoitzeko datu errealen banaketa-forma bera mantentzen duten ebaluatzen du. 
          • Zutabe-bikoteen joerak: datu sintetikoetako zutabe-pareen arteko erlazioak edo korrelazioak ebaluatzen ditu datu errealekin alderatuta. 
          •  

          Orokorrean, Synthok puntuazio oso altuak lortzen dituela nabari daiteke. Hasteko, datuen kalitate orokorrari erreparatzen zaionean (SDV metrics-liburutegiarekin ebaluatua) Synthok %99tik gorako emaitza lor dezake (%99.92ko zutabe formaren atxikimenduarekin eta %99.31ko zutabe formaren atxikimenduarekin). Hau da, SDV-k gehienez % 90.84ko emaitza lortzen duen bitartean (Kopula Gaussarekin, % 93.82ko zutabe-formaren atxikimendua eta % 87.86ko zutabe-bikote-formaren atxikimendua duena). 

          Sortutako datu-multzo bakoitzaren kalitate-puntuen taula-irudikapena eredu bakoitzeko

          1. taula. Sortutako datu-multzo bakoitzaren kalitate-puntuazioen taula-irudikapena eredu bakoitzeko 

          Datuen Estaldura

          SDVren Diagnostiko Txostenaren moduluak ohartarazi digu SDVk sortutako datuek (kasu guztietan) zenbaki-barrutien % 10 baino gehiago falta dutela; Hirukoteetan Oinarritutako Variational Autoencoder (TVAE) kasuan, datu kategoriko kopuru bera ere falta da jatorrizko datu multzoarekin alderatuta. Syntho erabiliz lortutako emaitzekin ez da halako abisurik sortu.  

          eredu guztien zutabeen batez besteko errendimendu-neurrien bistaratzea
           
           

          2. irudia. Zutabeen batez besteko errendimenduaren neurketen bistaratzea eredu guztientzat 

          Analisi konparatiboan, 2. irudiko grafikoak erakusten du SDV artxiboek kategoria-estalduran emaitza apur bat hobeak dituztela beren eredu batzuekin (hau da, GaussianCopula, CopulaGAN eta Baldintzadun Tabular GAN - CTGAN). Hala ere, garrantzitsua da azpimarratzea Synthoren datuen fidagarritasuna SDV ereduena gainditzen duela, kategorien eta barrutien arteko estaldura-desberdintasuna gutxienekoa baita, % 1.1eko bariantza besterik ez baita erakusten. Aitzitik, SDV ereduek aldakuntza nabarmena erakusten dute, %14.6tik %29.2ra bitartekoa. 

           

          Hemen irudikatzen diren neurketak honela interpreta daitezke: 

          • Kategorien Estaldura: Datu sintetikoetan kategoria guztien presentzia neurtzen du datu errealekin alderatuta.
          • Barrutiaren estaldura: datu sintetikoetako balioen barrutia datu errealetakoarekin zenbateraino egokitzen den ebaluatzen du. 
          Modelo bakoitzeko atributu mota jakin baten batez besteko estalduraren taula-irudikapena

          2. Taula. Atributu mota jakin baten batez besteko estalduraren irudikapen taula-eredu bakoitzeko 

          Utility

          Datu sintetikoen erabilgarritasunaren gaiari helduz, datuei buruzko prestakuntza-ereduen gaia garrantzitsua da. Esparru guztien arteko konparaketa orekatua eta bidezkoa izateko SciKit Learn liburutegiko Gradient Boosting Classifier lehenetsia aukeratu dugu, izan ere, nahiko onartuta dago prestazio oneko eredu gisa kanpoko ezarpenekin.  

           

          Bi eredu desberdin entrenatzen dira, bata datu sintetikoetan (TSTR-rako) eta jatorrizko datuetan (TRTS-rako). Datu sintetikoetan trebatutako eredua holdout test multzo bat erabiliz ebaluatzen da (datu sintetikoen sorreran erabili ez zena) eta jatorrizko datuekin trebatutako eredua datu sintetikoetan probatzen da.  

          Kurba azpiko Area (AUC) puntuazioen bistaratzea metodo bakoitzeko eredu bakoitzeko

          3. Irudia. Curve Under the Area (AUC) puntuazioen bistaratzea metodo bakoitzeko eredu bakoitzeko 

           Goian ikusitako emaitzek Syntho motorrak datu sintetikoak sortzearen nagusitasuna erakusten dute beste metodo batzuekin alderatuta, metodo ezberdinen bidez lortutako emaitzen artean ez dagoela alderik (datu sintetikoen eta errealen arteko antzekotasun handia adieraziz). Era berean, grafikoan dagoen puntu gorria, Train Real, Test Real (TRTR) proba baten oinarrizko errendimendua ebaluatuz lortutako emaitza da behatutako metriketarako oinarri-lerroa emateko. Lerro honek 0.92 balioa adierazten du, hau da, datu errealetan trebatu eta datu errealetan probatutako ereduak lortutako Curve Under the Area (AUC puntuazioa) puntuazioa. 

          TRTS eta TSTR-ek lortutako AUC puntuazioen taula-irudikapena eredu bakoitzeko.

          3. taula. TRTS eta TSTR-ek lortutako AUC puntuazioen taula-irudikapena eredu bakoitzeko. 

          Denboraren araberako konparazioa

          Jakina, funtsezkoa da emaitza horiek sortzeko inbertitutako denbora kontuan hartzea. Beheko bistaratzeak hori erakusten du.

          Milioi bat datu-punturen datu sintetikoak sortzeko eta prestatzeko behar den denboraren bistaratzea, GPUarekin eta GPUrik gabeko modelo batekin.

          5. Irudia. Entrenatzeko eta egiteko behar den denboraren bistaratzea datu sintetikoak sortzea milioi bat datu-puntu, GPUarekin eta GPUrik gabeko modelo batekin. 

          5. irudiak datu sintetikoak sortzeko behar den denbora erakusten du bi ezarpen desberdinetan. Horietako lehenengoa (hemen GPUrik gabe deitzen dena), 16 GHz-ko 2.20 nukleoen Intel Xeon CPU batekin exekutatzen diren probak izan ziren. "GPU batekin exekutatu" gisa markatutako probak AMD Ryzen 9 7945HX CPU batekin 16 nukleoekin 2.5GHz eta NVIDIA GeForce RTX 4070 ordenagailu eramangarri GPU batekin zeuden. 2. Irudian eta beheko 2. Taulan nabarmentzen den bezala, Syntho nabarmen azkarragoa dela datu sintetikoak sortzen (bi eszenatokietan) lan-fluxu dinamiko batean kritikoa dela ikus daiteke. 

          GPUarekin eta GPUrik gabeko modelo bakoitzarekin milioi bat datu-punturen datu sintetikoak sortzeko behar den denbora erakusten duen taula.

          5. taula. Hartutako denboraren irudikapen taularatua datu sintetikoak sortzea milioi bat datu-puntu modelo bakoitzarekin GPU batekin eta gabe 

          Amaierako oharrak eta etorkizuneko norabideak 

          Aurkikuntzak azpimarratzen dute kalitatearen ebaluazio sakonaren garrantzia datuak sortzeko metodo sintetiko egokia aukeratzeko. Syntho's Engine-k, AI-n oinarritutako ikuspegiarekin, indargune nabarmenak erakusten ditu zenbait metriketan, SDV bezalako kode irekiko tresnek beren aldakortasunean eta komunitateak bultzatutako hobekuntzetan distira egiten duten bitartean. 

          Datu sintetikoen eremuak eboluzionatzen jarraitzen duen heinean, metrika hauek zure proiektuetan aplikatzera animatzen zaitugu, haien konplexutasunak aztertzera eta zure esperientziak partekatzera. Egon adi etorkizuneko argitalpenei, non beste neurketa batzuetan sakonduko dugun eta haien aplikazioaren mundu errealeko adibideak nabarmenduko ditugun. 

          Azken finean, datu sintetikoekin urak probatu nahi dituztenentzat, aurkeztutako kode irekiko alternatiba aukera justifikagarria izan daiteke irisgarritasuna kontuan hartuta; hala ere, garapen-prozesuan teknologia moderno hau txertatzen duten profesionalentzat, hobekuntzarako edozein aukera hartu behar da eta oztopo guztiak saihestu. Beraz, garrantzitsua da eskuragarri dagoen aukerarik onena aukeratzea. Goian emandako analisiekin nahiko nabaria da Syntho eta horrekin batera Syntho Enginea oso tresna trebea dela praktikatzaileentzat. 

          Synthori buruz

          Sintetikoa Datu sintetikoak sortzeko plataforma adimendun bat eskaintzen du, datu-forma sintetiko eta sorkuntza-metodo anitz aprobetxatuz, erakundeei datuak modu adimentsuan lehiakor bihurtzeko ahalmena emanez. Gure AI bidez sortutako datu sintetikoek jatorrizko datuen eredu estatistikoak imitatzen dituzte, zehaztasuna, pribatutasuna eta abiadura bermatuz, SAS bezalako kanpoko adituek ebaluatu dutenez. Desidentifikazio-eginbide adimentsuekin eta mapa koherentearekin, informazio sentikorra babesten da erreferentziazko osotasuna mantenduz. Gure plataformak proba-datuak sortzea, kudeatzea eta kontrolatzea ahalbidetzen du produkzioa ez den inguruneetarako, arauetan oinarritutako datu sintetikoak sortzeko metodoak erabiliz zuzendutako eszenatokietarako. Gainera, erabiltzaileek datu sintetikoak programatikoki sor ditzakete eta proba datu errealistak lor ditzakete proba eta garapen agertoki integralak erraz garatzeko.  

          Datu sintetikoen aplikazio praktikoagoak ikasi nahi dituzu? Senti zaitez libre programatu demoa!

          Egileei buruz

          Software Ingeniaritza Bekaduna

          roham Delft Unibertsitate Teknologikoko lizentziatura ikaslea da eta Software Ingeniaritzako bekaduna da Sintetikoa 

          Makina ikasketen ingeniaria

          Mihaik doktoretza lortu zuen Bristoleko Unibertsitatea Robotikari aplikatutako Hierarkiko Errefortzuaren Ikaskuntzaren gaiari buruz eta hau da Machine Learning ingeniaria at Sintetikoa. 

          syntho gidaren estalkia

          Gorde zure datu sintetikoen gida orain!