Evalwazzjoni ta' Utilità u Xebh f'Ġeneraturi ta' Dejta Sintetika: Analiżi Profonda Teknika u Analiżi Komparattiva

Ippubblikat:
Frar 27, 2024

introduzzjoni

Fl-era diġitali tal-lum, l-għarfien tal-privatezza tad-dejta żdied b'mod sinifikanti. L-utenti jirrikonoxxu dejjem aktar id-dejta tagħhom bħala marki tas-swaba’ diġitali unika, li joħolqu riskju għall-privatezza tagħhom fil-każ ta’ ksur tad-dejta. Dan it-tħassib huwa amplifikat aktar minn regolamenti bħall-GDPR, li jagħtu s-setgħa lill-utenti biex jitolbu t-tħassir tad-dejta tagħhom. Filwaqt li hija meħtieġa ħafna, din il-leġiżlazzjoni tista' tkun għalja ħafna għall-kumpaniji peress li l-aċċess għad-dejta huwa minimizzat; restrizzjonijiet li ħafna drabi jieħdu ħafna ħin u riżorsi biex jingħelbu. 

Werrej

X'inhuma l-ġeneraturi tad-dejta sintetiċi?

Daħħal data sintetika, soluzzjoni għal dan il-problema. Ġeneraturi ta' dejta sintetiċi joħolqu settijiet ta' dejta li jimitaw id-dejta tal-utent reali filwaqt li jippreservaw l-anonimità u l-kunfidenzjalità. Dan l-approċċ qed jikseb trazzjoni madwar l-industriji, mill-kura tas-saħħa sal-finanzi, fejn il-privatezza hija importanti ħafna.  

Din il-kariga hija mfassla għal professjonisti u dilettanti tad-dejta, li tiffoka fuq l-evalwazzjoni tal-ġeneraturi tad-dejta sintetiċi. Se nidħlu f'metriċi ewlenin u nwettqu analiżi komparattiva bejn Syntho's Engine u l-alternattivi open-source tagħha, u noffru għarfien dwar kif tivvaluta b'mod effettiv il-kwalità tas-soluzzjoni tal-ġenerazzjoni tad-dejta sintetika. Barra minn hekk, aħna se nevalwaw ukoll l-ispiża tal-ħin ta 'kull wieħed minn dawn il-mudelli biex nipprovdu aktar għarfien dwar il-ħidma tal-mudelli. 

Kif tagħżel il-metodu tajjeb ta 'ġenerazzjoni ta' data sintetika?

Fil-pajsaġġ divers tal-ġenerazzjoni tad-dejta sintetika, hemm abbundanza ta 'metodi disponibbli, kull wieħed jikkompetu għall-attenzjoni bil-kapaċitajiet uniċi tiegħu. L-għażla tal-metodu l-aktar adattat għal applikazzjoni partikolari teħtieġ fehim bir-reqqa tal-karatteristiċi tal-prestazzjoni ta 'kull għażla. Dan jeħtieġ evalwazzjoni komprensiva ta 'diversi ġeneraturi ta' data sintetiċi bbażati fuq sett ta 'metriċi definiti sew biex tieħu deċiżjoni infurmata. 

Dak li ġej huwa analiżi komparattiva rigoruża tal-Magna Syntho flimkien ma 'qafas ta' sors miftuħ magħruf, il-Vault tad-Data Sintetika (SDV). F'din l-analiżi, użajna ħafna metriċi użati b'mod komuni bħall-fedeltà statistika, l-eżattezza tat-tbassir u r-relazzjoni inter-varjabbli. 

Metriċi ta' Evalwazzjoni ta' Dejta Sintetika

Qabel ma nintroduċu kwalunkwe metrika speċifika, irridu nirrikonoxxu li hemm bosta ideoloġiji dwar l-evalwazzjoni tad-dejta Sintetika, li kull waħda minnhom tagħti ħarsa lejn ċertu aspett tad-dejta. B'dan f'moħħu, it-tliet kategoriji li ġejjin jispikkaw bħala importanti u komprensivi. Dawn il-metriċi jipprovdu għarfien dwar diversi aspetti tal-kwalità tad-dejta. Dawn il-kategoriji huma: 

      1. Metriċi ta' Fedeltà Statistika: L-eżaminazzjoni tal-karatteristiċi statistiċi bażiċi tad-dejta, bħall-mezzi u l-varjazzjonijiet, biex jiġi żgurat li d-dejta sintetika tallinja mal-profil statistiku tas-sett tad-dejta oriġinali. 

        1. Preċiżjoni ta' Tbassir: Eżami tal-prestazzjoni tal-mudell tal-ġenerazzjoni tad-dejta sintetika, imħarrġa b'dejta oriġinali, u evalwata fuq dejta sintetika (Train Real – Test Synthetic, TRTS) u viċeversa (Train Synthetic – Test Real, TSTR) 

          1. Relazzjonijiet Inter-Varjabbli: Din il-kategorija magħquda tinkludi: 

            • Korrelazzjoni tal-Karatteristiċi: Aħna nevalwaw kemm id-dejta sintetika żżomm ir-relazzjonijiet bejn il-varjabbli bl-użu ta 'koeffiċjenti ta' korrelazzjoni. Metrika magħrufa bħall-Propensity Mean Squared Error (PMSE) tkun ta' dan it-tip. 

            • Informazzjoni Reċiproka: Aħna nkejlu d-dipendenzi reċiproċi bejn il-varjabbli biex nifhmu l-profondità ta 'dawn ir-relazzjonijiet lil hinn mill-korrelazzjonijiet biss. 

          Analiżi Komparattiva: Syntho Engine vs Alternattivi Open-Source

          L-analiżi komparattiva saret bl-użu ta' qafas ta' evalwazzjoni standardizzat u tekniki ta' ttestjar identiċi fil-mudelli kollha, inklużi l-mudelli Syntho Engine u SDV. Billi nisintetizzaw settijiet tad-dejta minn sorsi identiċi u nissuġġettawhom għall-istess testijiet statistiċi u valutazzjonijiet tal-mudell tat-tagħlim tal-magni, aħna niżguraw paragun ġust u imparzjali. It-taqsima li ġejja tagħti dettalji dwar il-prestazzjoni ta 'kull ġeneratur ta' data sintetika fil-firxa ta 'metriċi ppreżentati hawn fuq.  

           

          Fir-rigward tas-sett tad-dejta użat għall-evalwazzjoni, użajna l- Sett tad-Data taċ-Ċensiment tal-Adulti tal-UCI li huwa dataset magħruf sew fil-komunità tat-tagħlim tal-magni. Aħna naddafna d-dejta qabel it-taħriġ kollu u mbagħad qsamna s-sett tad-dejta f’żewġ settijiet (sett ta’ taħriġ u holdout għall-ittestjar). Aħna użajna s-sett ta 'taħriġ biex niġġeneraw miljun datapoint ġdid ma' kull wieħed mill-mudelli u evalwajna diversi metriċi fuq dawn is-settijiet ta 'data ġġenerati. Għal aktar evalwazzjonijiet tat-tagħlim tal-magni, użajna s-sett ta' holdout biex nevalwaw metriċi bħal dawk relatati ma' TSTR u TRTS.  

           

          Kull ġeneratur tħaddem b'parametri default. Peress li xi wħud mill-mudelli, bħal Syntho, jistgħu jaħdmu barra mill-kaxxa fuq kwalunkwe data tabulari, ma sar l-ebda rfinar. It-tiftix għall-iperparametri t-tajbin għal kull mudell jieħu ammont sinifikanti ta 'żmien, u t-Tabella 2 diġà turi differenza kbira fil-ħin bejn il-mudell ta' Syntho u dawk ittestjati kontra. 

           

          Ta 'min jinnota li għall-kuntrarju tal-bqija tal-mudelli fl-SDV, il-Gaussian Copula Synthesizer huwa bbażat fuq metodi statistiċi. B'kuntrast, il-bqija huma bbażati fuq netwerks newrali bħal mudelli ta 'Generative Adversarial Networks (GAN) u auto-encoders varjazzjonali. Huwa għalhekk li l-Copula Gaussjana tista' titqies bħala linja bażi għall-mudelli kollha diskussi. 

          Riżultati

          Kwalità tad-Dejta

          Figura 1. Viżwalizzazzjoni tar-riżultati bażiċi tal-kwalità għall-mudelli kollha

          L-aderenzi diskussi qabel ma 'tendenzi u rappreżentazzjonijiet fid-dejta jistgħu jinstabu fil-Figura 1 u fit-Tabella 1. Hawnhekk, kull waħda mill-metriċi li qed jintużaw tista' tiġi interpretata kif ġej:

          • Score ta' Kwalità Ġenerali: Valutazzjoni ġenerali tal-kwalità tad-dejta sintetika, li tgħaqqad diversi aspetti bħas-xebh statistiku u l-karatteristiċi tad-dejta. 
          • Forom tal-Kolonni: Jevalwa jekk id-dejta sintetika żżommx l-istess forma ta’ distribuzzjoni bħad-dejta reali għal kull kolonna. 
          • Xejriet tal-Par ta 'Kolonni: Jevalwa r-relazzjoni jew il-korrelazzjonijiet bejn pari ta' kolonni f'dejta sintetika meta mqabbla ma 'dejta reali. 
          •  

          B'mod ġenerali, jista 'jiġi nnotat li Syntho jikseb punteġġi għoljin ħafna madwar il-bord. Biex tibda, meta tħares lejn il-kwalità ġenerali tad-dejta (evalwata bil-librerija tal-metriċi SDV) Syntho jista 'jikseb riżultat 'il fuq minn 99% (b'aderenza tal-forma tal-kolonna ta' 99.92% u aderenza tal-forma ta 'par kolonna ta' 99.31%). Dan filwaqt li SDV jikseb riżultat ta 'massimu ta' 90.84% ​​(b'Gaussian Copula, li għandu aderenza tal-forma ta 'kolonna ta' 93.82% u aderenza tal-forma ta 'par kolonna ta' 87.86%). 

          Rappreżentazzjoni tabulari tal-punteġġi ta' kwalità ta' kull sett ta' dejta ġġenerat għal kull mudell

          Tabella 1. Rappreżentazzjoni tabulari tal-punteġġi ta 'kwalità ta' kull sett ta 'dejta ġġenerat għal kull mudell 

          Kopertura tad-Data

          Il-modulu tar-Rapport tad-Djanjosi tal-SDV iġib għall-attenzjoni tagħna li d-dejta ġġenerata mill-SDV (fil-każijiet kollha) hija nieqsa aktar minn 10% tal-firxiet numeriċi; Fil-każ ta 'Triplet-Based Variational Autoencoder (TVAE), l-istess ammont ta' dejta kategorika huma wkoll nieqsa meta mqabbla mas-sett tad-dejta oriġinali. L-ebda twissijiet bħal dawn ma ġew iġġenerati bir-riżultati miksuba bl-użu ta' Syntho.  

          viżwalizzazzjoni ta 'metriċi medja ta' prestazzjoni tal-kolonna għall-mudelli kollha
           
           

          Figura 2. viżwalizzazzjoni ta 'metriċi medja ta' prestazzjoni tal-kolonna għall-mudelli kollha 

          Fl-analiżi komparattiva, il-plott tal-Figura 2 turi li l-arkivji SDV marġinalment riżultati aħjar fil-kopertura tal-kategorija ma 'wħud mill-mudelli tagħhom (jiġifieri ma' GaussianCopula, CopulaGAN, u Kundizzjonali Tabular GAN - CTGAN). Madankollu, huwa importanti li jiġi enfasizzat li l-affidabbiltà tad-dejta ta' Syntho tisboq dik tal-mudelli SDV, peress li d-diskrepanza fil-kopertura bejn il-kategoriji u l-firxiet hija minima, u turi varjanza ta' 1.1 % biss. B'kuntrast, mudelli SDV juru varjazzjoni konsiderevoli, li tvarja minn 14.6% sa 29.2%. 

           

          Il-metriċi rappreżentati hawn, jistgħu jiġu interpretati kif ġej: 

          • Kopertura tal-Kategorija: Tkejjel il-preżenza tal-kategoriji kollha f'dejta sintetika meta mqabbla ma 'dejta reali.
          • Kopertura tal-Medda: Jevalwa kemm il-firxa ta' valuri f'dejta sintetika taqbel ma' dik fid-dejta reali. 
          Rappreżentazzjoni tabulari tal-kopertura medja ta' tip ta' attribut partikolari għal kull mudell

          Tabella 2. Rappreżentazzjoni tabulari tal-kopertura medja ta' tip ta' attribut partikolari għal kull mudell 

          Utilità

          Nimxu fuq is-suġġett ta 'utilità ta' data sintetika, il-kwistjoni ta 'mudelli ta' taħriġ fuq id-data ssir rilevanti. Biex ikollna paragun ibbilanċjat u ġust bejn l-oqfsa kollha għażilna l-Gradient Boosting Classifier default mill-librerija SciKit Learn, billi naraw li huwa aċċettat b'mod ġust bħala mudell ta 'prestazzjoni tajba b'settings out-of-the-box.  

           

          Żewġ mudelli differenti huma mħarrġa, wieħed fuq id-dejta sintetika (għal TSTR) u wieħed fuq id-dejta oriġinali (għal TRTS). Il-mudell imħarreġ fuq id-dejta sintetika huwa evalwat bl-użu ta’ sett ta’ test holdout (li ma kienx użat waqt il-ġenerazzjoni tad-dejta sintetika) u l-mudell imħarreġ fuq id-dejta oriġinali jiġi ttestjat fuq is-sett ta’ dejta sintetiku.  

          viżwalizzazzjoni tal-punteġġi taż-Żona taħt il-Kurva (AUC) għal kull metodu għal kull mudell

          Figura 3. Viżwalizzazzjoni tal-punteġġi taż-Żona taħt il-Kurva (AUC) għal kull metodu għal kull mudell 

           Ir-riżultati viżwalizzati hawn fuq juru s-superjorità tal-ġenerazzjoni tad-dejta Sintetika mill-magna Syntho meta mqabbla ma 'metodi oħra, billi jara li m'hemm l-ebda differenza bejn ir-riżultati miksuba bil-metodi differenti (li tipponta lejn xebh għoli bejn id-dejta sintetika u reali). Ukoll, il-linja ħamra bit-tikek preżenti fil-plott hija r-riżultat miksub billi tiġi evalwata l-prestazzjoni bażi ta 'test Train Real, Test Real (TRTR) biex tipprovdi linja bażi għall-metriċi osservati. Din il-linja tirrappreżenta l-valur 0.92, li huwa l-punteġġ taż-Żona taħt il-Kurva (punteġġ AUC) miksub mill-mudell imħarreġ fuq data reali u ttestjat fuq data reali. 

          Rappreżentazzjoni tabulari tal-punteġġi AUC miksuba minn TRTS u TSTR rispettivament għal kull mudell.

          Tabella 3. Rappreżentazzjoni tabulari tal-punteġġi AUC miksuba minn TRTS u TSTR rispettivament għal kull mudell. 

          Tqabbil bil-ħin

          Naturalment, huwa kruċjali li jiġi kkunsidrat iż-żmien investit biex jiġu ġġenerati dawn ir-riżultati. Il-viżwalizzazzjoni hawn taħt turi dan biss.

          viżwalizzazzjoni tal-ħin meħud biex titħarreġ u titwettaq ġenerazzjoni ta 'dejta sintetika ta' miljun datapoint b'mudell bi u mingħajr GPU.

          Figura 5. Viżwalizzazzjoni tal-ħin meħud għat-taħriġ u l-prestazzjoni ġenerazzjoni ta' data sintetika ta' miljun datapoint b'mudell bi u mingħajr GPU. 

          Il-Figura 5 turi ż-żmien meħud biex tiġi ġġenerata data sintetika f'żewġ settings differenti. L-ewwel minnhom (hawnhekk imsejħa Mingħajr GPU), kienu ġirjiet tat-test li jaħdmu fuq sistema b'CPU Intel Xeon b'16-il qlub li jaħdem f'2.20 GHz. It-testijiet immarkati bħala "ġim b'GPU" kienu fuq sistema b'CPU AMD Ryzen 9 7945HX b'16-il qlub li jaħdem f'2.5GHz u NVIDIA GeForce RTX 4070 Laptop GPU. Kif jidher fil-Figura 2 u fit-Tabella 2 hawn taħt, jista 'jiġi osservat li Syntho huwa sinifikament aktar mgħaġġel fil-ġenerazzjoni ta' data sintetika (fiż-żewġ xenarji) li hija kritika fi fluss tax-xogħol dinamiku. 

          tabella li turi ż-żmien meħud għall-ġenerazzjoni ta' dejta sintetika ta' miljun punt ta' dejta b'kull mudell bi u mingħajr GPU

          Tabella 5. Rappreżentazzjoni tabulari taż-żmien meħud biex ġenerazzjoni ta' data sintetika ta' miljun datapoint b'kull mudell bi u mingħajr GPU 

          Rimarki tal-Konklużjoni u Direzzjonijiet Futuri 

          Is-sejbiet jenfasizzaw l-importanza ta’ evalwazzjoni bir-reqqa tal-kwalità fl-għażla tal-metodu ta’ ġenerazzjoni ta’ data sintetika t-tajjeb. Il-Magna ta' Syntho, bl-approċċ tagħha mmexxi mill-AI, turi vantaġġi notevoli f'ċerti metriċi, filwaqt li għodod open-source bħall-SDV jiddi fil-versatilità tagħhom u t-titjib immexxi mill-komunità. 

          Hekk kif il-qasam tad-dejta sintetika qed ikompli jevolvi, inħeġġuk tapplika dawn il-metriċi fil-proġetti tiegħek, tesplora l-intricacies tagħhom, u taqsam l-esperjenzi tiegħek. Ibqa' sintonizzat għal postijiet futuri fejn se ngħaddu aktar fil-fond f'metriċi oħra u nenfasizzaw eżempji fid-dinja reali tal-applikazzjoni tagħhom. 

          Fl-aħħar mill-aħħar, għal dawk li qed ifittxu li jittestjaw l-ilmijiet fuq data sintetika, l-alternattiva ta' sors miftuħ ippreżentata tista' tkun għażla ġustifikabbli minħabba l-aċċessibbiltà; madankollu, għall-professjonisti li jinkorporaw din it-teknoloġija moderna fil-proċess ta 'żvilupp tagħhom, kull ċans ta' titjib għandu jittieħed u t-tfixkil kollu jiġi evitat. Għalhekk huwa importanti li tagħżel l-aħjar għażla disponibbli. Bl-analiżi pprovduti hawn fuq jidher pjuttost evidenti li Syntho u b'hekk is-Syntho Engine hija għodda kapaċi ħafna għall-prattikanti. 

          Dwar Syntho

          Syntho jipprovdi pjattaforma ta 'ġenerazzjoni ta' dejta sintetika intelliġenti, li tisfrutta forom multipli ta 'dejta sintetika u metodi ta' ġenerazzjoni, li tagħti s-setgħa lill-organizzazzjonijiet biex jittrasformaw id-dejta b'mod intelliġenti f'vantaġġ kompetittiv. Id-dejta sintetika tagħna ġġenerata mill-AI timita l-mudelli statistiċi tad-dejta oriġinali, u tiżgura l-eżattezza, il-privatezza u l-veloċità, kif evalwat minn esperti esterni bħal SAS. B'karatteristiċi ta 'de-identifikazzjoni intelliġenti u mapping konsistenti, informazzjoni sensittiva hija protetta filwaqt li tippreserva l-integrità referenzjali. Il-pjattaforma tagħna tippermetti l-ħolqien, il-ġestjoni u l-kontroll tad-dejta tat-test għal ambjenti mhux tal-produzzjoni, billi tuża metodi ta’ ġenerazzjoni ta’ dejta sintetika bbażati fuq ir-regoli għal xenarji mmirati. Barra minn hekk, l-utenti jistgħu jiġġeneraw data sintetika b'mod programmatiku u jiksbu data tat-test realistika biex jiżviluppaw xenarji komprensivi ta 'ttestjar u żvilupp b'faċilità.  

          Trid titgħallem aktar applikazzjonijiet prattiċi ta' data sintetika? Ħossok liberu li skeda demo!

          Dwar l-awturi

          Intern tal-Inġinerija tas-Softwer

          roham huwa student tal-baċellerat fl-Università tat-Teknoloġija ta’ Delft u huwa Intern tal-Inġinerija tas-Software fi Syntho 

          Inġinier tat-Tagħlim tal-Magni

          Mihai kiseb PhD tiegħu mill- Università ta' Bristol dwar is-suġġett tat-Tagħlim ta' Rinfurzar Ġerarkiku applikat għar-Robotika u huwa Inġinier Tagħlim Magni at Syntho. 

          Qoxra tal-gwida syntho

          Issejvja l-gwida tad-dejta sintetika tiegħek issa!