Vlerësimi i dobisë dhe ngjashmërisë në gjeneruesit e të dhënave sintetike: Një zhytje e thellë teknike dhe analizë krahasuese

Publikuar:

Shkurt 27, 2024

Prezantimi

Në epokën e sotme dixhitale, ndërgjegjësimi për privatësinë e të dhënave është rritur ndjeshëm. Përdoruesit i njohin gjithnjë e më shumë të dhënat e tyre si një gjurmë gishti unike dixhitale, duke rrezikuar privatësinë e tyre në rast të shkeljeve të të dhënave. Ky shqetësim përforcohet më tej nga rregulloret si GDPR, të cilat fuqizojnë përdoruesit të kërkojnë fshirjen e të dhënave të tyre. Megjithëse është shumë i nevojshëm, ky legjislacion mund të jetë shumë i kushtueshëm për kompanitë pasi qasja në të dhëna është minimizuar; kufizime të cilat shpesh kërkojnë kohë dhe burime për t'u kapërcyer.

Çfarë janë gjeneruesit e të dhënave sintetike?

Futni të dhëna sintetike, një zgjidhje për këtë rebus. Gjeneruesit e të dhënave sintetike krijojnë grupe të dhënash që imitojnë të dhënat reale të përdoruesit duke ruajtur anonimitetin dhe konfidencialitetin. Kjo qasje po fiton tërheqje nëpër industri, nga kujdesi shëndetësor te financat, ku privatësia është parësore.

Ky postim është përshtatur për profesionistët dhe entuziastët e të dhënave, duke u fokusuar në vlerësimin e gjeneruesve të të dhënave sintetike. Ne do të gërmojmë në metrikat kryesore dhe do të bëjmë një analizë krahasuese midis Syntho's Engine dhe alternativave të tij me burim të hapur, duke ofruar njohuri se si të vlerësojmë në mënyrë efektive cilësinë e zgjidhjes së gjenerimit të të dhënave sintetike. Për më tepër, ne do të vlerësojmë gjithashtu koston kohore të secilit prej këtyre modeleve për të ofruar një pasqyrë të mëtejshme mbi funksionimin e modeleve.

Si të zgjidhni metodën e duhur të gjenerimit të të dhënave sintetike?

Në peizazhin e larmishëm të gjenerimit të të dhënave sintetike, ka një bollëk metodash të disponueshme, secila prej të cilave konkurron për vëmendje me aftësitë e saj unike. Zgjedhja e metodës më të përshtatshme për një aplikim të veçantë kërkon një kuptim të plotë të karakteristikave të performancës së secilit opsion. Kjo kërkon një vlerësim gjithëpërfshirës të gjeneruesve të ndryshëm të të dhënave sintetike bazuar në një grup metrikash të mirëpërcaktuara për të marrë një vendim të informuar.

Ajo që vijon është një analizë rigoroze krahasuese e Motorit Syntho së bashku me një kornizë të mirënjohur me burim të hapur, Sinthetic Data Vault (SDV). Në këtë analizë, ne kemi përdorur shumë metrika të përdorura zakonisht si besnikëria statistikore, saktësia parashikuese dhe marrëdhënia ndërvariablale.

Metrikat sintetike të vlerësimit të të dhënave

Para se të prezantojmë ndonjë metrikë specifike, duhet të pranojmë se ekzistojnë ideologji të shumta në lidhje me vlerësimin e të dhënave sintetike, secila prej të cilave jep një pasqyrë të një aspekti të caktuar të të dhënave. Duke pasur parasysh këtë, tre kategoritë e mëposhtme dallohen si të rëndësishme dhe gjithëpërfshirëse. Këto metrika ofrojnë njohuri për aspekte të ndryshme të cilësisë së të dhënave. Këto kategori janë:

1. Metrika statistikore e besnikërisë: Ekzaminimi i veçorive bazë statistikore të të dhënave, si mesataret dhe variancat, për të siguruar që të dhënat sintetike të përputhen me profilin statistikor të të dhënave origjinale.

1. Saktësia parashikuese: Ekzaminimi i performancës së modelit të gjenerimit të të dhënave sintetike, i trajnuar me të dhëna origjinale dhe i vlerësuar në të dhëna sintetike (Train Real – Test Synthetic, TRTS) dhe anasjelltas (Train Synthetic – Test Real, TSTR)

1. Marrëdhëniet ndërvariablash: Kjo kategori e kombinuar përfshin:

- Korrelacioni i veçorive: Ne vlerësojmë se sa mirë i ruajnë të dhënat sintetike marrëdhëniet midis variablave duke përdorur koeficientët e korrelacionit. Një metrikë e njohur si Gabimi në katror i prirjes mesatare (PMSE) do të ishte i këtij lloji.

- Informacion i ndërsjellë: Ne masim varësitë e ndërsjella midis variablave për të kuptuar thellësinë e këtyre marrëdhënieve përtej korrelacioneve të thjeshta.

Analiza krahasuese: Syntho Engine kundër Alternativave me Burim të Hapur

Analiza krahasuese u krye duke përdorur një kornizë të standardizuar vlerësuese dhe teknika identike testimi në të gjitha modelet, duke përfshirë modelet Syntho Engine dhe SDV. Duke sintetizuar grupet e të dhënave nga burime identike dhe duke i nënshtruar të njëjtave teste statistikore dhe vlerësime të modelit të mësimit të makinës, ne sigurojmë një krahasim të drejtë dhe të paanshëm. Seksioni që vijon detajon performancën e secilit gjenerues të të dhënave sintetike në gamën e matjeve të paraqitura më sipër.

Sa për grupin e të dhënave të përdorur për vlerësimin, ne kemi përdorur Të dhënat e regjistrimit të të rriturve të UCI-së i cili është një grup të dhënash i njohur në komunitetin e mësimit të makinerive. Ne i pastruam të dhënat përpara të gjithë trajnimit dhe më pas e ndamë grupin e të dhënave në dy grupe (një grup trajnimi dhe një grup rezervë për testim). Ne përdorëm grupin e trajnimit për të gjeneruar 1 milion pika të reja të dhënash me secilin prej modeleve dhe vlerësuam metrika të ndryshme në këto grupe të dhënash të krijuara. Për vlerësime të mëtejshme të mësimit të makinerive, ne përdorëm grupin mbajtës për të vlerësuar metrikat si ato që lidhen me TSTR dhe TRTS.

Çdo gjenerator u ekzekutua me parametrat e paracaktuar. Duke qenë se disa nga modelet, si Syntho, mund të punojnë jashtë kutisë në çdo të dhënë tabelare, nuk u bë asnjë akordim i mirë. Kërkimi për hiperparametrat e duhur për secilin model do të kërkonte një kohë të konsiderueshme, dhe Tabela 2 tregon tashmë një diferencë të madhe kohore midis modelit të Syntho dhe atyre të testuar.

Vlen të përmendet se në krahasim me modelet e tjera në SDV, Gaussian Copula Synthesizer bazohet në metoda statistikore. Në të kundërt, pjesa tjetër bazohet në rrjetet nervore si modelet e Rrjeteve Kundërshtare Gjenerative (GAN) dhe koduesit automatikë variacionalë. Kjo është arsyeja pse Gaussian Copula mund të shihet si një bazë për të gjitha modelet e diskutuara.

Rezultatet

Cilësia e të dhënave

Figura 1. Vizualizimi i rezultateve bazë të cilësisë për të gjitha modelet

Aderimet e diskutuara më parë ndaj tendencave dhe përfaqësimeve në të dhëna mund të gjenden në Figurën 1 dhe Tabelën 1. Këtu, secila prej matjeve në përdorim mund të interpretohet si më poshtë:

Rezultati i përgjithshëm i cilësisë: Vlerësimi i përgjithshëm i cilësisë së të dhënave sintetike, duke kombinuar aspekte të ndryshme si ngjashmëria statistikore dhe karakteristikat e të dhënave.
Format e kolonave: Vlerëson nëse të dhënat sintetike ruajnë të njëjtën formë shpërndarjeje si të dhënat reale për secilën kolonë.
Trendet e çifteve të kolonave: Vlerëson marrëdhëniet ose korrelacionet midis çifteve të kolonave në të dhënat sintetike në krahasim me të dhënat reale.

Në përgjithësi, mund të vërehet se Syntho arrin rezultate shumë të larta në të gjithë bordin. Si fillim, kur shikoni cilësinë e përgjithshme të të dhënave (vlerësuar me bibliotekën e matjeve SDV) Syntho mund të arrijë një rezultat mbi 99% (me respektim të formës së kolonës prej 99.92% dhe respektim të formës së çiftit të kolonave prej 99.31%). Kjo ndodh ndërkohë që SDV merr një rezultat maksimalisht 90.84% (me Gaussian Copula, që ka një aderencë në formë kolone prej 93.82% dhe respektim të formës së çiftit të kolonave prej 87.86%).

Tabela 1. Një paraqitje tabelare e rezultateve të cilësisë së secilit grup të dhënash të krijuar për model

Mbulimi i të dhënave

Moduli i Raportit të Diagnostifikimit të SDV sjell në vëmendjen tonë se të dhënave të gjeneruara nga SDV (në të gjitha rastet) mungojnë më shumë se 10% të diapazoneve numerike; Në rastin e kodifikuesit automatik variacional të bazuar në trefish (TVAE), e njëjta sasi të dhënash kategorike mungojnë gjithashtu kur krahasohen me grupin e të dhënave origjinale. Asnjë paralajmërim i tillë nuk u krijua me rezultatet e arritura duke përdorur Syntho.

Figura 2. vizualizimi i metrikës mesatare të performancës sipas kolonës për të gjitha modelet

Në analizën krahasuese, grafiku i Figurës 2 ilustron se arkivat SDV rezultate pak më të mira në mbulimin e kategorive me disa nga modelet e tyre (përkatësisht me GaussianCopula, CopulaGAN dhe GAN Tabular i kushtëzuar - CTGAN). Megjithatë, është e rëndësishme të theksohet se besueshmëria e të dhënave të Syntho tejkalon atë të modeleve SDV, pasi mospërputhja në mbulim midis kategorive dhe diapazoneve është minimale, duke shfaqur thjesht një variancë prej 1.1%. Në të kundërt, modelet SDV shfaqin një variacion të konsiderueshëm, që varion nga 14.6% në 29.2%.

Metrikat e paraqitura këtu mund të interpretohen si më poshtë:

Mbulimi i kategorive: Mat praninë e të gjitha kategorive në të dhënat sintetike në krahasim me të dhënat reale.
Mbulimi i diapazonit: Vlerëson se sa mirë përputhet diapazoni i vlerave në të dhënat sintetike me atë në të dhënat reale.

Tabela 2. Një paraqitje tabelare e mbulimit mesatar të një tipi të caktuar atributi për model

Dobi

Duke kaluar në temën e përdorimit të të dhënave sintetike, çështja e modeleve të trajnimit mbi të dhënat bëhet e rëndësishme. Për të patur një krahasim të ekuilibruar dhe të drejtë midis të gjitha kornizave, ne kemi zgjedhur klasifikuesin e parazgjedhur të rritjes së gradientit nga biblioteka SciKit Learn, duke parë që ai pranohet mjaft si një model me performancë të mirë me cilësime jashtë kutisë.

Janë trajnuar dy modele të ndryshme, një për të dhënat sintetike (për TSTR) dhe një për të dhënat origjinale (për TRTS). Modeli i trajnuar mbi të dhënat sintetike vlerësohet duke përdorur një grup testimi mbajtës (i cili nuk u përdor gjatë gjenerimit të të dhënave sintetike) dhe modeli i trajnuar mbi të dhënat origjinale testohet në grupin e të dhënave sintetike.

Figura 3. Vizualizimi i zonës nën rezultatet e kurbës (AUC) për metodë për model

Rezultatet e vizualizuara më sipër demonstrojnë epërsinë e gjenerimit të të dhënave sintetike nga motori Syntho në krahasim me metodat e tjera, duke parë se nuk ka dallim midis rezultateve të marra nga metodat e ndryshme (duke treguar për një ngjashmëri të lartë midis të dhënave sintetike dhe reale). Gjithashtu, vija me pika e kuqe e pranishme në grafik është rezultati i marrë duke vlerësuar performancën bazë të një testi Train Real, Test Real (TRTR) për të siguruar një bazë për metrikat e vëzhguara. Kjo linjë përfaqëson vlerën 0.92, që është rezultati i zonës nën kurbë (rezultati AUC) i arritur nga modeli i trajnuar mbi të dhëna reale dhe i testuar në të dhëna reale.

Tabela 3. Një paraqitje tabelare e rezultateve AUC të arritura nga TRTS dhe TSTR përkatësisht për model.

Krahasimi në kohë

Natyrisht, është thelbësore të merret parasysh koha e investuar për gjenerimin e këtyre rezultateve. Vizualizimi i mëposhtëm ilustron pikërisht këtë.

Figura 5. Vizualizimi i kohës së nevojshme për stërvitje dhe performancë gjenerimi i të dhënave sintetike prej një milion pika të dhënash me një model me dhe pa një GPU.

Figura 5 ilustron kohën e nevojshme për të gjeneruar të dhëna sintetike në dy cilësime të ndryshme. E para prej të cilave (këtu referuar si Pa GPU), ishin testet e ekzekutuara në sistem me një CPU Intel Xeon me 16 bërthama që funksionojnë në 2.20 GHz. Testet e shënuara si "kontrolluar me një GPU" ishin në një sistem me një CPU AMD Ryzen 9 7945HX me 16 bërthama që funksionojnë në 2.5 GHz dhe një GPU NVIDIA GeForce RTX 4070 Laptop. Siç vërehet në Figurën 2 dhe në Tabelën 2 më poshtë, mund të vërehet se Syntho është dukshëm më i shpejtë në gjenerimin e të dhënave sintetike (në të dy skenarët) që është kritike në një rrjedhë pune dinamike.

Tabela 5. Një paraqitje tabelare e kohës së marrë gjenerimi i të dhënave sintetike prej një milion pikave të të dhënave me secilin model me dhe pa një GPU

Vërejtje përmbyllëse dhe udhëzime për të ardhmen

Gjetjet nënvizojnë rëndësinë e vlerësimit të plotë të cilësisë në zgjedhjen e metodës së duhur të gjenerimit të të dhënave sintetike. Syntho's Engine, me qasjen e tij të drejtuar nga AI, demonstron pika të forta të dukshme në metrika të caktuara, ndërsa mjetet me burim të hapur si SDV shkëlqejnë në shkathtësinë e tyre dhe përmirësimet e drejtuara nga komuniteti.

Ndërsa fusha e të dhënave sintetike vazhdon të zhvillohet, ne ju inkurajojmë t'i zbatoni këto matje në projektet tuaja, të eksploroni ndërlikimet e tyre dhe të ndani përvojat tuaja. Qëndroni të sintonizuar për postimet e ardhshme ku ne do të zhytemi më thellë në metrika të tjera dhe do të nxjerrim në pah shembuj të botës reale të aplikimit të tyre.

Në fund të fundit, për ata që kërkojnë të testojnë ujërat në të dhëna sintetike, alternativa e paraqitur me burim të hapur mund të jetë një zgjedhje e justifikueshme duke pasur parasysh aksesin; megjithatë, për profesionistët që përfshijnë këtë teknologji moderne në procesin e tyre të zhvillimit, çdo mundësi për përmirësim duhet të shfrytëzohet dhe të shmangen të gjitha pengesat. Prandaj, është e rëndësishme të zgjidhni opsionin më të mirë në dispozicion. Me analizat e dhëna më sipër, bëhet mjaft e qartë se Syntho dhe me këtë Syntho Engine është një mjet shumë i aftë për praktikuesit.

Rreth Sintos

Sinto ofron një platformë inteligjente të gjenerimit të të dhënave sintetike, duke shfrytëzuar forma të shumta sintetike të dhënash dhe metoda gjenerimi, duke fuqizuar organizatat që të transformojnë në mënyrë inteligjente të dhënat në një avantazh konkurrues. Të dhënat tona sintetike të krijuara nga AI imitojnë modelet statistikore të të dhënave origjinale, duke siguruar saktësi, privatësi dhe shpejtësi, siç vlerësohet nga ekspertë të jashtëm si SAS. Me veçoritë inteligjente të çidentifikimit dhe hartimin e qëndrueshëm, informacioni i ndjeshëm mbrohet duke ruajtur integritetin e referencës. Platforma jonë mundëson krijimin, menaxhimin dhe kontrollin e të dhënave të testimit për mjedise jo-prodhuese, duke përdorur metoda të gjenerimit të të dhënave sintetike të bazuara në rregulla për skenarë të synuar. Për më tepër, përdoruesit mund të gjenerojnë të dhëna sintetike në mënyrë programore dhe të marrin të dhëna realiste të testit për të zhvilluar me lehtësi skenarë gjithëpërfshirës të testimit dhe zhvillimit.

Dëshironi të mësoni më shumë aplikime praktike të të dhënave sintetike? Mos ngurroni të program demo!

Rreth autorëve

RHAM KOOHESTANI

Praktikant i Inxhinierisë Softuerike

Rohanam është studente bachelor në Universitetin e Teknologjisë në Delft dhe është praktikant në Inxhinieri Softuerësh Sinto.

Mihai Anca, PhD

Inxhinier i Mësimit të Makinerisë

Mihai arriti doktoraturën nga Universiteti i Bristolit në temën e Mësimit të Përforcimit Hierarkik të aplikuar në Robotikë dhe është një Inxhinier i Mësimit të Makinerisë at Sinto.

Çfarë janë të dhënat sintetike?

Raporti i sigurimit të cilësisë

Vlerësimi i jashtëm nga SAS

Të dhëna sintetike të serive kohore

Skaneri PII

Të dhëna sintetike sintetike

Hartë konsistente

De-identifikimi dhe sintetizimi

Të dhëna sintetike të bazuara në rregulla

Nënvendosje

Vendosja dhe integrimi

Mbulim Gjuhësh

Karakteristika të zgjeruara

Të dhënat e mbështetura

Dokumentacioni i përdoruesit

Programoni një demonstrim

çmimi

Të dhënat e provës

analitikë

Ndarja e të dhënave

Demo të produktit

Monetizimi i të dhënave

Healthcare

Financa

Organizatat Publike

Dokumentacioni i përdoruesit

Letra të bardha dhe udhëzues

Blog

Webinars

Raste Studimore