Kasulikkuse ja sarnasuse hindamine sünteetiliste andmegeneraatorite puhul: tehniline süvasukeldumine ja võrdlev analüüs

Avaldatud:
Veebruar 27, 2024

Sissejuhatus

Tänasel digiajastul on teadlikkus andmete privaatsusest oluliselt tõusnud. Kasutajad peavad oma andmeid üha enam ainulaadseks digitaalseks sõrmejäljeks, mis ohustab andmetega seotud rikkumiste korral nende privaatsust. Seda muret suurendavad veelgi eeskirjad, nagu GDPR, mis annavad kasutajatele õiguse taotleda oma andmete kustutamist. Kuigi see õigusakt on väga vajalik, võib see olla ettevõtetele väga kulukas, kuna juurdepääs andmetele on minimaalne; piirangud, mille ületamine nõuab sageli aega ja ressursse. 

Sisukord

Mis on sünteetilised andmegeneraatorid?

Sisestage sünteetilised andmed, mis on selle mõistatuse lahendus. Sünteetilised andmegeneraatorid loovad andmekogumeid, mis jäljendavad tegelikke kasutajaandmeid, säilitades samas anonüümsuse ja konfidentsiaalsuse. Selline lähenemine kogub üha enam haaret erinevates tööstusharudes, alates tervishoiust kuni rahanduseni, kus privaatsus on esmatähtis.  

See postitus on mõeldud andmeprofessionaalidele ja -huvilistele, keskendudes sünteetiliste andmegeneraatorite hindamisele. Süveneme põhinäitajatesse ja viime läbi Syntho mootori ja selle avatud lähtekoodiga alternatiivide võrdleva analüüsi, pakkudes teadmisi selle kohta, kuidas tõhusalt hinnata sünteetiliste andmete genereerimise lahenduste kvaliteeti. Lisaks hindame ka iga mudeli ajakulu, et anda täiendavat ülevaadet mudelite toimimisest. 

Kuidas valida õige sünteetiliste andmete genereerimise meetod?

Sünteetiliste andmete genereerimise mitmekesises maastikus on saadaval palju meetodeid, millest igaüks võistleb tähelepanu eest oma ainulaadsete võimalustega. Konkreetse rakenduse jaoks kõige sobivama meetodi valimine nõuab iga valiku toimivusomaduste põhjalikku mõistmist. See nõuab teadliku otsuse tegemiseks erinevate sünteetiliste andmegeneraatorite põhjalikku hindamist, mis põhineb hästi määratletud mõõdikutel. 

Järgneb Syntho Engine'i range võrdlev analüüs koos tuntud avatud lähtekoodiga raamistikuga Synthetic Data Vault (SDV). Selles analüüsis kasutasime paljusid sagedamini kasutatavaid mõõdikuid, nagu statistiline täpsus, ennustav täpsus ja muutujatevaheline seos. 

Sünteetiliste andmete hindamise mõõdikud

Enne konkreetse mõõdiku kasutuselevõttu peame tunnistama, et sünteetiliste andmete hindamisel on palju ideoloogiaid, millest igaüks annab ülevaate andmete teatud aspektist. Seda silmas pidades eristuvad järgmised kolm kategooriat kui olulised ja kõikehõlmavad. Need mõõdikud annavad ülevaate andmekvaliteedi erinevatest aspektidest. Need kategooriad on: 

      1. Statistilised täpsuse mõõdikud: Andmete põhiliste statistiliste tunnuste, nagu keskmised ja dispersioonid, uurimine, et tagada sünteetilised andmed vastavuses algse andmekogumi statistilise profiiliga. 

        1. Ennustav täpsus: Sünteetiliste andmete genereerimise mudeli jõudluse uurimine, algandmetega koolitatud ja sünteetiliste andmete põhjal hinnatud (Train Real – Test Synthetic, TRTS) ja vastupidi (Train Synthetic – Test Real, TSTR) 

          1. Muutujatevahelised suhted: See kombineeritud kategooria sisaldab: 

            • Funktsioonide korrelatsioon: Korrelatsioonikordajate abil hindame, kui hästi sünteetilised andmed säilitavad muutujate vahelisi seoseid. Seda tüüpi oleks tuntud mõõdik, nagu keskmine ruudu viga (PMSE). 

            • Vastastikune teave: Mõõdame muutujate vahelisi vastastikuseid sõltuvusi, et mõista nende seoste sügavust peale korrelatsioonide. 

          Võrdlev analüüs: Syntho Engine vs. avatud lähtekoodiga alternatiivid

          Võrdlev analüüs viidi läbi standardiseeritud hindamisraamistiku ja identsete testimismeetodite abil kõigi mudelite, sealhulgas Syntho Engine ja SDV mudelite puhul. Sünteesides identsetest allikatest pärit andmekogumeid ja allutades neile samad statistilised testid ja masinõppemudelite hinnangud, tagame õiglase ja erapooletu võrdluse. Järgmises jaotises kirjeldatakse üksikasjalikult iga sünteetiliste andmete generaatori toimivust ülaltoodud mõõdikute ulatuses.  

           

          Mis puutub hindamiseks kasutatud andmekogumisse, siis kasutasime UCI täiskasvanute loenduse andmestik mis on masinõppekogukonnas hästi tuntud andmestik. Puhastasime andmed enne kogu koolitust ja jagasime seejärel andmekogumi kaheks komplektiks (testimiseks mõeldud treening- ja hoidmiskomplekt). Kasutasime koolituskomplekti, et luua iga mudeliga miljon uut andmepunkti ja hinnata nende loodud andmekogumite erinevaid mõõdikuid. Täiendavate masinõppe hindamiste jaoks kasutasime selliste mõõdikute hindamiseks nagu need, mis on seotud TSTR-i ja TRTS-iga.  

           

          Iga generaator töötati vaikeparameetritega. Kuna mõned mudelid, nagu Syntho, saavad kastist välja töötada mis tahes tabeliandmetega, peenhäälestust ei tehtud. Iga mudeli jaoks õigete hüperparameetrite otsimine võtaks märkimisväärselt palju aega ja tabelis 2 on juba näha suur ajaline erinevus Syntho mudeli ja testitud mudeli vahel. 

           

          Tähelepanuväärne on see, et erinevalt ülejäänud SDV mudelitest põhineb Gaussi kopula süntesaator statistilistel meetoditel. Seevastu ülejäänud põhinevad närvivõrkudel, nagu Generative Adversarial Networks (GAN) mudelid ja variatsioonilised automaatkodeerijad. Seetõttu võib Gaussi kopulat pidada kõigi käsitletud mudelite lähtealuseks. 

          Tulemused

          Andmekvaliteet

          Joonis 1. Kõigi mudelite kvaliteedi põhitulemuste visualiseerimine

          Eelnevalt käsitletud suundumuste ja andmete esitusviiside järgimine on toodud joonisel 1 ja tabelis 1. Siin saab iga kasutatavat mõõdikut tõlgendada järgmiselt:

          • Üldine kvaliteediskoor: sünteetiliste andmete kvaliteedi üldine hinnang, mis ühendab erinevaid aspekte, nagu statistiline sarnasus ja andmete omadused. 
          • Veeru kujundid: hindab, kas sünteetilised andmed säilitavad iga veeru tegelike andmetega sama jaotuskuju. 
          • Veerupaaride suundumused: hindab sünteetiliste andmete veergude paaride vahelist seost või korrelatsiooni võrreldes tegelike andmetega. 
          •  

          Üldiselt võib märgata, et Syntho saavutab väga kõrgeid tulemusi. Alustuseks, kui vaadata üldist andmete kvaliteeti (hinnatud SDV mõõdikute teegiga), võib Syntho saavutada 99% kõrgema tulemuse (veeru kuju järgimine 99.92% ja veerupaari kuju järgimine 99.31%). Seda siis, kui SDV tulemuseks on maksimaalselt 90.84% (Gaussi kopulaga, mille veeru kuju haardumine on 93.82% ja sambapaari kuju haardumine 87.86%). 

          Iga genereeritud andmestiku kvaliteediskooride tabeliesitus mudeli kohta

          Tabel 1. Iga genereeritud andmestiku kvaliteediskooride tabel mudeli kohta 

          Andmekate

          SDV diagnoosiaruande moodul juhib meie tähelepanu sellele, et SDV-ga loodud andmetel (kõikidel juhtudel) puudub rohkem kui 10% numbrivahemikest; Triplet-Based Variational Autoencoder (TVAE) puhul puudub ka algse andmekogumiga võrreldes sama palju kategoorilisi andmeid. Syntho kasutamisega saavutatud tulemustega selliseid hoiatusi ei genereeritud.  

          kõigi mudelite keskmiste veergude kaupa jõudlusmõõdikute visualiseerimine
           
           

          Joonis 2. Kõigi mudelite keskmiste veergude kaupa jõudlusmõõdikute visualiseerimine 

          Võrdlevas analüüsis illustreerib joonise 2 graafik, et SDV arhiveerib mõne mudeli (nimelt GaussianCopula, CopulaGAN ja Conditional Tabular GAN – CTGAN) kategooriate katvuse osas veidi paremaid tulemusi. Sellegipoolest on oluline rõhutada, et Syntho andmete usaldusväärsus ületab SDV mudelite oma, kuna erinevused kategooriate ja vahemike lõikes on minimaalsed, varieerudes vaid 1.1%. Seevastu SDV mudelid näitavad märkimisväärset erinevust, mis jääb vahemikku 14.6% kuni 29.2%. 

           

          Siin esitatud mõõdikuid saab tõlgendada järgmiselt: 

          • Kategooria katvus: mõõdab kõigi kategooriate olemasolu sünteetilistes andmetes võrreldes tegelike andmetega.
          • Vahemiku katvus: hindab, kui hästi sünteetiliste andmete väärtusvahemik vastab tegelike andmete väärtuste vahemikule. 
          Antud atribuuditüübi keskmise katvuse tabelina mudeli kohta

          Tabel 2. Antud atribuuditüübi keskmise katvuse tabel mudeli kohta 

          Kasulikkus

          Sünteetiliste andmete kasulikkuse teema juurde liikudes muutub aktuaalseks andmetel mudelite treenimise küsimus. Kõigi raamistike tasakaalustatud ja õiglase võrdluse saavutamiseks valisime SciKit Learni teegist Gradient Boosting Classici vaikeklassifikaatori, kuna see on üsna aktsepteeritud kui hästitoimiv mudel, millel on karbist väljas olevad sätted.  

           

          Koolitatakse kahte erinevat mudelit, millest üks käsitleb sünteetilisi andmeid (TSTR jaoks) ja teine ​​algandmete (TRTS jaoks). Sünteetilistel andmetel treenitud mudelit hinnatakse hoidmise testikomplekti abil (mida sünteetiliste andmete genereerimisel ei kasutatud) ja algandmetel treenitud mudelit testitakse sünteetilise andmestikuga.  

          kõveraaluse pindala (AUC) skooride visualiseerimine meetodi ja mudeli kohta

          Joonis 3. Kõveraaluse ala (AUC) skooride visualiseerimine meetodi ja mudeli kohta 

           Ülaltoodud tulemused näitavad Syntho mootoriga sünteetiliste andmete genereerimise paremust võrreldes teiste meetoditega, kuna erinevate meetoditega saadud tulemuste vahel pole erinevusi (viidates sünteetiliste ja tegelike andmete suurele sarnasusele). Samuti on graafikul olev punane punktiirjoon tulemus, mis on saadud TRTR (Train Real, Test Real) testi baastulemuse hindamisel, et luua vaadeldud mõõdikute lähtejoon. See joon tähistab väärtust 0.92, mis on kõveraaluse pindala skoor (AUC skoor), mille saavutas tegelikel andmetel treenitud ja tegelikel andmetel testitud mudel. 

          TRTS-i ja TSTR-i poolt saavutatud AUC-skooride tabel esitus mudeli kohta.

          Tabel 3. TRTS-i ja TSTR-i poolt saavutatud AUC-skooride tabel mudeli kohta. 

          Ajaline võrdlus

          Loomulikult on ülioluline arvestada nende tulemuste saamiseks kulutatud aega. Allolev visualiseerimine illustreerib just seda.

          ühe miljoni andmepunkti sünteetilise andmegenereerimise treenimiseks ja teostamiseks kuluva aja visualiseerimine GPU-ga ja ilma mudeliga.

          Joonis 5. Treenimiseks ja esinemiseks kulunud aja visualiseerimine sünteetiliste andmete genereerimine miljon andmepunkti koos GPU-ga ja ilma mudeliga. 

          Joonis 5 illustreerib sünteetiliste andmete genereerimiseks kuluvat aega kahes erinevas seadistuses. Neist esimesed (siin viidatud kui ilma GPUta) olid testid, mis käitati süsteemis Intel Xeoni protsessoriga, millel on 16 südamikku sagedusel 2.20 GHz. Testid, mis märgiti "jooks GPU-ga", viidi läbi süsteemis, millel oli AMD Ryzen 9 7945HX protsessor 16 tuumaga, mis töötas sagedusel 2.5 GHz, ja NVIDIA GeForce RTX 4070 sülearvuti GPU. Nagu on näha alloleval joonisel 2 ja tabelis 2, võib täheldada, et Syntho on sünteetiliste andmete genereerimisel oluliselt kiirem (mõlema stsenaariumi korral), mis on dünaamilises töövoos kriitilise tähtsusega. 

          tabel, mis illustreerib aega, mis kulub 1 miljoni andmepunkti sünteetiliste andmete genereerimiseks iga GPU-ga ja ilma mudeliga

          Tabel 5. Tabelina kulunud aja esitus sünteetiliste andmete genereerimine miljon andmepunkti iga GPU-ga ja ilma mudeliga 

          Lõppmärkused ja tulevikujuhised 

          Tulemused rõhutavad põhjaliku kvaliteedihindamise tähtsust õige sünteetiliste andmete genereerimise meetodi valimisel. AI-põhise lähenemisviisiga Syntho's Engine näitab teatud mõõdikutes märkimisväärseid tugevusi, samas kui avatud lähtekoodiga tööriistad, nagu SDV, paistavad oma mitmekülgsuse ja kogukonna juhitud täiustuste poolest silma. 

          Kuna sünteetiliste andmete valdkond areneb jätkuvalt, soovitame teil neid mõõdikuid oma projektides rakendada, uurida nende keerukust ja jagada oma kogemusi. Olge kursis tulevaste postitustega, kus sukeldume põhjalikumalt teistesse mõõdikutesse ja toome esile nende rakenduse näiteid tegelikust maailmast. 

          Nende jaoks, kes soovivad testida vett sünteetiliste andmete põhjal, võib esitatud avatud lähtekoodiga alternatiiv olla juurdepääsetavuse tõttu õigustatud valik; Kuid spetsialistid, kes kasutavad seda kaasaegset tehnoloogiat oma arendusprotsessi, peavad kasutama kõiki võimalusi täiustamiseks ja vältima kõiki takistusi. Seetõttu on oluline valida parim võimalik valik. Ülaltoodud analüüsidest selgub, et Syntho ja sellega ka Syntho Engine on praktikutele väga võimekas tööriist. 

          Syntho kohta

          Syntho pakub nutikat sünteetiliste andmete genereerimise platvormi, mis kasutab mitmeid sünteetilisi andmevorme ja genereerimismeetodeid, andes organisatsioonidele võimaluse andmeid nutikalt konkurentsieeliseks muuta. Meie tehisintellektiga loodud sünteetilised andmed jäljendavad algandmete statistilisi mustreid, tagades täpsuse, privaatsuse ja kiiruse, mida hindavad väliseksperdid, nagu SAS. Nutikate identifitseerimisfunktsioonide ja järjepideva kaardistamise abil on tundlikku teavet kaitstud, säilitades samas viite terviklikkuse. Meie platvorm võimaldab luua, hallata ja kontrollida katseandmeid mittetootmiskeskkondades, kasutades sihitud stsenaariumide jaoks reeglipõhiseid sünteetilisi andmete genereerimise meetodeid. Lisaks saavad kasutajad genereerida sünteetilisi andmeid programmiliselt ja hankida realistlikke testiandmeid, et hõlpsasti välja töötada terviklikud testimis- ja arendusstsenaariumid.  

          Kas soovite õppida sünteetiliste andmete praktilisi rakendusi? Julgelt aja demo!

          Autoritest

          Tarkvaratehnika praktikant

          Rohanam on Delfti Tehnikaülikooli bakalaureuseõppe üliõpilane ja on tarkvaratehnika praktikant Syntho 

          Masinaõppe insener

          Mihai saavutas doktorikraadi aastal Bristoli ülikool robootikas rakendatava hierarhilise tugevdamise õppe teemal ja on a Masinõppe insener at Syntho. 

          süntojuhiku kate

          Salvestage oma sünteetiliste andmete juhend kohe!