Vrednotenje uporabnosti in podobnosti v generatorjih sintetičnih podatkov: tehnični poglobljeni potop in primerjalna analiza

Objavljeno:
Februar 27, 2024

Predstavitev

V današnji digitalni dobi se je zavedanje o zasebnosti podatkov znatno povečalo. Uporabniki vse bolj prepoznavajo svoje podatke kot edinstven digitalni prstni odtis, kar predstavlja tveganje za njihovo zasebnost v primeru kršitev podatkov. To skrb še povečujejo predpisi, kot je GDPR, ki uporabnikom omogočajo, da zahtevajo izbris svojih podatkov. Čeprav je ta zakonodaja zelo potrebna, je lahko za podjetja zelo draga, saj je dostop do podatkov čim manjši; omejitve, za premagovanje katerih je pogosto potrebno veliko časa in sredstev. 

Kazalo

Kaj so generatorji sintetičnih podatkov?

Vnesite sintetične podatke, rešitev te uganke. Generatorji sintetičnih podatkov ustvarjajo nize podatkov, ki posnemajo resnične uporabniške podatke, hkrati pa ohranjajo anonimnost in zaupnost. Ta pristop se vse bolj uveljavlja v panogah, od zdravstva do financ, kjer je zasebnost najpomembnejša.  

Ta objava je prilagojena strokovnjakom za podatke in navdušencem ter se osredotoča na vrednotenje generatorjev sintetičnih podatkov. Poglobili se bomo v ključne meritve in izvedli primerjalno analizo med Syntho's Engine in njegovimi odprtokodnimi alternativami ter ponudili vpogled v to, kako učinkovito oceniti kakovost rešitve za ustvarjanje sintetičnih podatkov. Poleg tega bomo ocenili tudi časovne stroške vsakega od teh modelov, da bi zagotovili nadaljnji vpogled v delovanje modelov. 

Kako izbrati pravi sintetični način generiranja podatkov?

V raznoliki pokrajini ustvarjanja sintetičnih podatkov je na voljo ogromno metod, od katerih se vsaka poteguje za pozornost s svojimi edinstvenimi zmogljivostmi. Izbira najprimernejše metode za določeno aplikacijo zahteva temeljito razumevanje značilnosti delovanja vsake možnosti. To zahteva celovito oceno različnih generatorjev sintetičnih podatkov, ki temeljijo na naboru natančno opredeljenih meritev, da lahko sprejmemo premišljeno odločitev. 

Sledi stroga primerjalna analiza motorja Syntho skupaj z dobro znanim odprtokodnim okvirom Synthetic Data Vault (SDV). V tej analizi smo uporabili številne pogosto uporabljene meritve, kot so statistična natančnost, napovedna natančnost in razmerje med spremenljivkami. 

Metrike vrednotenja sintetičnih podatkov

Preden uvedemo katero koli specifično metriko, moramo priznati, da obstajajo številne ideologije o ocenjevanju sintetičnih podatkov, od katerih vsaka daje vpogled v določen vidik podatkov. Glede na to se naslednje tri kategorije izpostavljajo kot pomembne in celovite. Te meritve zagotavljajo vpogled v različne vidike kakovosti podatkov. Te kategorije so: 

      1. Statistične meritve zvestobe: Preučevanje osnovnih statističnih značilnosti podatkov, kot so povprečja in variance, da se zagotovi skladnost sintetičnih podatkov s statističnim profilom izvirnega nabora podatkov. 

        1. Napovedna natančnost: Preverjanje zmogljivosti modela za generiranje sintetičnih podatkov, urjenega z izvirnimi podatki in ovrednotenega na sintetičnih podatkih (Train Real – Test Synthetic, TRTS) in obratno (Train Synthetic – Test Real, TSTR) 

          1. Razmerja med spremenljivkami: Ta združena kategorija vključuje: 

            • Korelacija lastnosti: Z uporabo korelacijskih koeficientov ocenimo, kako dobro sintetični podatki ohranjajo razmerja med spremenljivkami. Dobro znana metrika, kot je povprečna kvadratna napaka nagnjenosti (PMSE), bi bila te vrste. 

            • Medsebojno obveščanje: Merimo medsebojne odvisnosti med spremenljivkami, da bi razumeli globino teh odnosov, ki presegajo zgolj korelacije. 

          Primerjalna analiza: Syntho Engine proti odprtokodnim alternativam

          Primerjalna analiza je bila izvedena z uporabo standardiziranega ocenjevalnega okvira in enakih tehnik testiranja v vseh modelih, vključno z modeli Syntho Engine in SDV. S sintetiziranjem naborov podatkov iz enakih virov in njihovo podvrženje istim statističnim testom ter ocenam modelov strojnega učenja zagotavljamo pošteno in nepristransko primerjavo. V razdelku, ki sledi, je podrobno opisana uspešnost vsakega generatorja sintetičnih podatkov v obsegu zgoraj predstavljenih meritev.  

           

          Kar zadeva nabor podatkov, uporabljen za vrednotenje, smo uporabili Nabor podatkov popisa odraslih UCI ki je dobro znan nabor podatkov v skupnosti strojnega učenja. Podatke smo očistili pred vsem usposabljanjem in nato nabor podatkov razdelili na dva niza (nabor za usposabljanje in niz zadrževanja za testiranje). Z učnim naborom smo ustvarili 1 milijon novih podatkovnih točk z vsakim od modelov in ovrednotili različne metrike na teh ustvarjenih naborih podatkov. Za nadaljnja ocenjevanja strojnega učenja smo uporabili niz zadržkov za ocenjevanje meritev, kot so tiste, povezane s TSTR in TRTS.  

           

          Vsak generator je bil zagnan s privzetimi parametri. Ker lahko nekateri modeli, kot je Syntho, delujejo takoj po namestitvi na katere koli tabelarične podatke, fina nastavitev ni bila izvedena. Iskanje pravih hiperparametrov za vsak model bi vzelo precej časa, tabela 2 pa že kaže veliko časovno razliko med modelom Syntho in tistimi, ki so bili testirani. 

           

          Omeniti velja, da v nasprotju z ostalimi modeli v SDV sintetizator Gaussove kopule temelji na statističnih metodah. V nasprotju s tem ostali temeljijo na nevronskih mrežah, kot so modeli generativnih kontradiktornih omrežij (GAN) in variacijski samodejni kodirniki. Zato lahko Gaussovo kopulo razumemo kot osnovo za vse obravnavane modele. 

          Rezultati

          Kakovost podatkov

          Slika 1. Vizualizacija osnovnih rezultatov kakovosti za vse modele

          Prej obravnavano upoštevanje trendov in predstavitev v podatkih je mogoče najti na sliki 1 in tabeli 1. Tu je mogoče vsako uporabljeno metriko razlagati na naslednji način:

          • Splošna ocena kakovosti: Splošna ocena kakovosti sintetičnih podatkov, ki združuje različne vidike, kot so statistična podobnost in značilnosti podatkov. 
          • Oblike stolpcev: oceni, ali sintetični podatki ohranjajo enako obliko porazdelitve kot dejanski podatki za vsak stolpec. 
          • Trendi parov stolpcev: oceni razmerje ali korelacije med pari stolpcev v sintetičnih podatkih v primerjavi z dejanskimi podatki. 
          •  

          Na splošno je mogoče opaziti, da Syntho dosega zelo visoke rezultate na vseh področjih. Za začetek, ko gledamo splošno kakovost podatkov (vrednoteno s knjižnico meritev SDV), lahko Syntho doseže rezultat do 99 % (z oprijemom oblike stolpca 99.92 % in oprijemom oblike para stolpcev 99.31 %). To je medtem, ko SDV dobi rezultat največ 90.84 % (z Gaussovo kopulo, ki ima oprijem oblike stolpca 93.82 % in oprijem oblike para stolpcev 87.86 %). 

          Tabelarični prikaz ocen kakovosti vsakega ustvarjenega niza podatkov na model

          Tabela 1. Tabelarični prikaz ocen kakovosti vsakega ustvarjenega nabora podatkov na model 

          Pokritost podatkov

          Modul poročila o diagnozi SDV nas opozarja, da podatkom, ustvarjenim s SDV (v vseh primerih), manjka več kot 10 % številskih obsegov; V primeru tripletnega variacijskega samodejnega kodiranja (TVAE) prav tako manjka enaka količina kategoričnih podatkov v primerjavi z izvirnim naborom podatkov. Pri rezultatih, doseženih z uporabo Syntha, takih opozoril ni bilo.  

          vizualizacija povprečnih meritev uspešnosti po stolpcih za vse modele
           
           

          Slika 2. Vizualizacija povprečnih meritev uspešnosti po stolpcih za vse modele 

          V primerjalni analizi graf na sliki 2 prikazuje, da imajo arhivi SDV nekoliko boljše rezultate pri pokritosti kategorij z nekaterimi njihovimi modeli (in sicer z GaussianCopula, CopulaGAN in Conditional Tabular GAN – CTGAN). Kljub temu je pomembno poudariti, da zanesljivost podatkov družbe Syntho presega zanesljivost modelov SDV, saj je razlika v pokritosti med kategorijami in razponi minimalna in kaže le 1.1-odstotno varianco. Nasprotno pa modeli SDV kažejo precejšnjo variacijo, ki sega od 14.6 % do 29.2 %. 

           

          Tukaj predstavljene meritve je mogoče razlagati na naslednji način: 

          • Pokritost kategorij: meri prisotnost vseh kategorij v sintetičnih podatkih v primerjavi z dejanskimi podatki.
          • Pokritost obsega: oceni, kako dobro se obseg vrednosti v sintetičnih podatkih ujema z obsegom v dejanskih podatkih. 
          Tabelarični prikaz povprečne pokritosti dane vrste atributa na model

          Tabela 2. Tabelarni prikaz povprečne pokritosti dane vrste atributa na model 

          Utility

          Če preidemo na temo uporabnosti sintetičnih podatkov, postane relevantno vprašanje modelov za usposabljanje na podatkih. Da bi imeli uravnoteženo in pošteno primerjavo med vsemi ogrodji, smo izbrali privzeti Gradient Boosting Classifier iz knjižnice SciKit Learn, saj je dokaj sprejet kot dobro delujoč model z vnaprej pripravljenimi nastavitvami.  

           

          Usposabljata se dva različna modela, eden na sintetičnih podatkih (za TSTR) in eden na izvirnih podatkih (za TRTS). Model, naučen na sintetičnih podatkih, je ovrednoten z uporabo preskusnega nabora zadrževanja (ki ni bil uporabljen med ustvarjanjem sintetičnih podatkov), model, naučen na izvirnih podatkih, pa je preizkušen na naboru sintetičnih podatkov.  

          vizualizacija rezultatov površine pod krivuljo (AUC) na metodo na model

          Slika 3. Vizualizacija rezultatov površine pod krivuljo (AUC) na metodo na model 

           Zgoraj prikazani rezultati kažejo superiornost generiranja sintetičnih podatkov z motorjem Syntho v primerjavi z drugimi metodami, saj ni razlike med rezultati, pridobljenimi z različnimi metodami (kar kaže na veliko podobnost med sintetičnimi in resničnimi podatki). Poleg tega je rdeča pikčasta črta, ki je prisotna na grafu, rezultat, dobljen z vrednotenjem osnovne zmogljivosti testa Train Real, Test Real (TRTR), da se zagotovi izhodišče za opazovane metrike. Ta vrstica predstavlja vrednost 0.92, ki je rezultat površine pod krivuljo (rezultat AUC), ki ga je dosegel model, učen na dejanskih podatkih in preizkušen na dejanskih podatkih. 

          Tabelarični prikaz rezultatov AUC, doseženih s TRTS oziroma TSTR na model.

          Tabela 3. Tabelarični prikaz rezultatov AUC, doseženih s TRTS oziroma TSTR na model. 

          Časovna primerjava

          Seveda je ključnega pomena upoštevati čas, vložen v ustvarjanje teh rezultatov. Spodnja vizualizacija ponazarja prav to.

          vizualizacija časa, potrebnega za usposabljanje in izvedbo sintetičnega generiranja podatkov enega milijona podatkovnih točk z modelom z in brez GPU.

          Slika 5. Vizualizacija časa, potrebnega za usposabljanje in izvedbo sintetično generiranje podatkov enega milijona podatkovnih točk z modelom z in brez GPE. 

          Slika 5 prikazuje čas, potreben za ustvarjanje sintetičnih podatkov v dveh različnih nastavitvah. Prvi med njimi (tukaj imenovan brez grafičnega procesorja) so bili testni zagoni, ki so bili izvedeni na sistemu s procesorjem Intel Xeon s 16 jedri, ki delujejo pri 2.20 GHz. Preizkusi, označeni kot »tečeni z grafično procesorsko enoto«, so bili na sistemu s procesorjem AMD Ryzen 9 7945HX s 16 jedri, ki delujejo pri 2.5 GHz, in grafično kartico NVIDIA GeForce RTX 4070 za prenosnike. Kot je razvidno iz slike 2 in v tabeli 2 spodaj, je mogoče opaziti, da je Syntho bistveno hitrejši pri ustvarjanju sintetičnih podatkov (v obeh scenarijih), kar je ključnega pomena v dinamičnem delovnem toku. 

          tabela, ki ponazarja čas, potreben za ustvarjanje sintetičnih podatkov 1 milijona podatkovnih točk z vsakim modelom z in brez GPE

          Tabela 5. Tabelarni prikaz časa, porabljenega za sintetično generiranje podatkov enega milijona podatkovnih točk z vsakim modelom z GPE in brez njega 

          Zaključne opombe in prihodnje usmeritve 

          Ugotovitve poudarjajo pomen temeljite ocene kakovosti pri izbiri prave sintetične metode generiranja podatkov. Syntho's Engine s svojim pristopom, ki temelji na umetni inteligenci, izkazuje omembe vredne prednosti pri določenih meritvah, medtem ko odprtokodna orodja, kot je SDV, blestijo v svoji vsestranskosti in izboljšavah, ki jih vodi skupnost. 

          Ker se področje sintetičnih podatkov še naprej razvija, vas spodbujamo, da te metrike uporabite v svojih projektih, raziščete njihove zapletenosti in delite svoje izkušnje. Ostanite z nami za prihodnje objave, kjer se bomo poglobili v druge meritve in poudarili primere njihove uporabe v resničnem svetu. 

          Konec koncev je za tiste, ki želijo preizkusiti vode na sintetičnih podatkih, lahko predstavljena odprtokodna alternativa glede na dostopnost upravičena izbira; vendar pa morajo strokovnjaki, ki to sodobno tehnologijo vključujejo v svoj razvojni proces, izkoristiti vsako priložnost za izboljšanje in se izogniti vsem oviram. Zato je pomembno izbrati najboljšo razpoložljivo možnost. Z zgornjimi analizami postane precej očitno, da sta Syntho in s tem Syntho Engine zelo zmogljivo orodje za praktike. 

          O podjetju Syntho

          Sinto zagotavlja pametno platformo za generiranje sintetičnih podatkov, ki izkorišča več oblik sintetičnih podatkov in metod generiranja, kar organizacijam omogoča inteligentno pretvorbo podatkov v konkurenčno prednost. Naši sintetični podatki, ustvarjeni z umetno inteligenco, posnemajo statistične vzorce izvirnih podatkov, kar zagotavlja natančnost, zasebnost in hitrost, kot so ocenili zunanji strokovnjaki, kot je SAS. S funkcijami pametne deidentifikacije in doslednim preslikavanjem so občutljive informacije zaščitene, hkrati pa ohranjajo referenčno celovitost. Naša platforma omogoča ustvarjanje, upravljanje in nadzor testnih podatkov za neprodukcijska okolja z uporabo metod generiranja sintetičnih podatkov, ki temeljijo na pravilih, za ciljne scenarije. Poleg tega lahko uporabniki programsko ustvarijo sintetične podatke in pridobijo realistične testne podatke za enostavno razvijanje celovitih scenarijev testiranja in razvoja.  

          Se želite naučiti več praktičnih aplikacij sintetičnih podatkov? Brez skrbi urnik demo!

          O avtorjih

          Programski inženiring intern

          surovaam je dodiplomski študent na Tehnološki univerzi Delft in je pripravnik programskega inženiringa na Sinto 

          Inženir strojnega učenja

          Mihai je doktoriral na Univerze v Bristolu na temo hierarhičnega okrepljenega učenja, ki se uporablja za robotiko in je a Inženir strojnega učenja at Sinto. 

          pokrov sinto vodnika

          Shranite svoj vodnik za sintetične podatke zdaj!