Ацэнка карыснасці і падабенства ў генератары сінтэтычных даных: глыбокае тэхнічнае апусканне і параўнальны аналіз

Апублікавана:
Люты 27, 2024

Увядзенне

У сённяшнюю лічбавую эпоху ўсведамленне канфедэнцыйнасці даных значна павысілася. Карыстальнікі ўсё часцей распазнаюць свае дадзеныя як унікальны лічбавы адбітак пальца, што стварае небяспеку для іх прыватнасці ў выпадку ўцечкі даных. Гэтая занепакоенасць яшчэ больш узмацняецца такімі правіламі, як GDPR, якія дазваляюць карыстальнікам запытваць выдаленне сваіх даных. Нягледзячы на ​​тое, што гэтае заканадаўства вельмі неабходна, гэта заканадаўства можа быць вельмі дарагім для кампаній, паколькі доступ да дадзеных зведзены да мінімуму; абмежаванні, пераадоленне якіх часта патрабуе часу і рэсурсаў. 

Змест

Што такое генератары сінтэтычных даных?

Увядзіце сінтэтычныя даныя, рашэнне гэтай галаваломкі. Генератары сінтэтычных даных ствараюць наборы даных, якія імітуюць даныя рэальных карыстальнікаў, захоўваючы пры гэтым ананімнасць і канфідэнцыяльнасць. Гэты падыход набірае абароты ва ўсіх галінах прамысловасці, ад аховы здароўя да фінансаў, дзе прыватнасць мае першараднае значэнне.  

Гэты пост прызначаны для прафесіяналаў і энтузіястаў у галіне апрацоўкі дадзеных, у цэнтры ўвагі ацэнка генератараў сінтэтычных даных. Мы паглыбімся ў асноўныя паказчыкі і правядзем параўнальны аналіз паміж Syntho's Engine і яго альтэрнатывамі з адкрытым зыходным кодам, прапаноўваючы разуменне таго, як эфектыўна ацэньваць якасць рашэння генерацыі сінтэтычных даных. Акрамя таго, мы таксама ацэнім часавыя выдаткі кожнай з гэтых мадэляў, каб даць больш глыбокае ўяўленне аб працы мадэляў. 

Як выбраць правільны метад генерацыі сінтэтычных дадзеных?

У разнастайным ландшафце генерацыі сінтэтычных даных існуе мноства даступных метадаў, кожны з якіх змагаецца за ўвагу сваімі унікальнымі магчымасцямі. Выбар найбольш прыдатнага метаду для канкрэтнага прымянення патрабуе поўнага разумення характарыстык прадукцыйнасці кожнага варыянту. Гэта патрабуе комплекснай ацэнкі розных генератараў сінтэтычных даных на аснове набору дакладна вызначаных паказчыкаў для прыняцця абгрунтаванага рашэння. 

Далей ідзе строгі параўнальны аналіз Syntho Engine разам з добра вядомай структурай з адкрытым зыходным кодам, Synthetic Data Vault (SDV). У гэтым аналізе мы выкарыстоўвалі шмат часта выкарыстоўваюцца паказчыкаў, такіх як статыстычная дакладнасць, дакладнасць прагназавання і сувязь паміж зменнымі. 

Метрыкі ацэнкі сінтэтычных даных

Перш чым уводзіць якую-небудзь канкрэтную метрыку, мы павінны прызнаць, што існуе мноства ідэалогій аб ацэнцы сінтэтычных даных, кожная з якіх дае ўяўленне аб пэўным аспекте даных. Маючы гэта на ўвазе, наступныя тры катэгорыі вылучаюцца як важныя і ўсёабдымныя. Гэтыя паказчыкі даюць зразумець розныя аспекты якасці даных. Гэтыя катэгорыі: 

      1. Статыстычныя паказчыкі дакладнасці: Вывучэнне асноўных статыстычных характарыстык даных, такіх як сярэднія і дысперсіі, каб пераканацца, што сінтэтычныя даныя супадаюць са статыстычным профілем зыходнага набору даных. 

        1. Дакладнасць прагназавання: Вывучэнне прадукцыйнасці мадэлі генерацыі сінтэтычных даных, навучанне на аснове зыходных даных і ацэнка на аснове сінтэтычных даных (Train Real – Test Synthetic, TRTS) і наадварот (Train Synthetic – Test Real, TSTR) 

          1. Адносіны паміж зменнымі: Гэтая аб'яднаная катэгорыя ўключае: 

            • Карэляцыя функцый: Мы ацэньваем, наколькі добра сінтэтычныя даныя падтрымліваюць адносіны паміж зменнымі з дапамогай каэфіцыентаў карэляцыі. Такі вядомы паказчык, як сярэднеквадратычная памылка схільнасці (PMSE), адносіцца да гэтага тыпу. 

            • Узаемная інфармацыя: Мы вымяраем узаемную залежнасць паміж зменнымі, каб зразумець глыбіню гэтых адносін, акрамя карэляцыі. 

          Параўнальны аналіз: Syntho Engine супраць альтэрнатыў з адкрытым зыходным кодам

          Параўнальны аналіз быў праведзены з выкарыстаннем стандартызаванай ацэначнай базы і аднолькавых метадаў тэсціравання для ўсіх мадэляў, уключаючы мадэлі Syntho Engine і SDV. Сінтэзуючы наборы даных з аднолькавых крыніц і падвяргаючы іх аднолькавым статыстычным тэстам і ацэнцы мадэлі машыннага навучання, мы забяспечваем справядлівае і непрадузятае параўнанне. У наступным раздзеле падрабязна прадукцыйнасць кожнага генератара сінтэтычных даных па дыяпазоне паказчыкаў, прадстаўленых вышэй.  

           

          Што тычыцца набору дадзеных, які выкарыстоўваецца для ацэнкі, мы выкарыстоўвалі Набор даных перапісу насельніцтва UCI які з'яўляецца добра вядомым наборам дадзеных у супольнасці машыннага навучання. Мы ачысцілі даныя перад усім навучаннем, а затым падзялілі набор даных на два наборы (навучальны і кантрольны набор для тэставання). Мы выкарысталі навучальны набор для стварэння 1 мільёна новых кропак даных з кожнай з мадэляў і ацанілі розныя паказчыкі гэтых згенераваных набораў даных. Для далейшай ацэнкі машыннага навучання мы выкарысталі набор утрыманняў для ацэнкі такіх паказчыкаў, як TSTR і TRTS.  

           

          Кожны генератар запускаўся з параметрамі па змаўчанні. Паколькі некаторыя мадэлі, такія як Syntho, могуць працаваць нестандартна з любымі таблічнымі дадзенымі, тонкая налада не рабілася. Пошук правільных гіперпараметраў для кожнай мадэлі заняў бы значную колькасць часу, і табліца 2 ужо паказвае вялікую розніцу ў часе паміж мадэллю Syntho і мадэллю, на якой тэставаліся. 

           

          Варта адзначыць, што ў адрозненне ад астатніх мадэляў у SDV, сінтэзатар капулы Гаўса заснаваны на статыстычных метадах. Наадварот, астатнія заснаваныя на нейронавых сетках, такіх як мадэлі генератыўных спаборніцкіх сетак (GAN) і варыяцыйныя аўтакадавальнікі. Вось чаму капулу Гаўса можна разглядаць як базу для ўсіх мадэляў, якія абмяркоўваюцца. 

          Вынікі

          якасць дадзеных

          Малюнак 1. Візуалізацыя асноўных вынікаў якасці для ўсіх мадэляў

          Абмеркаваныя раней прыхільнасці да тэндэнцый і ўяўленні ў дадзеных можна знайсці на малюнку 1 і ў табліцы 1. Тут кожны з выкарыстоўваных паказчыкаў можна інтэрпрэтаваць наступным чынам:

          • Агульны паказчык якасці: Агульная ацэнка якасці сінтэтычных даных, якая спалучае розныя аспекты, такія як статыстычнае падабенства і характарыстыкі даных. 
          • Формы слупкоў: ацэньвае, ці захоўваюць сінтэтычныя даныя такую ​​ж форму размеркавання, што і рэальныя даныя для кожнага слупка. 
          • Тэндэнцыі пар слупкоў: ацэньвае адносіны або карэляцыі паміж парамі слупкоў у сінтэтычных даных у параўнанні з рэальнымі данымі. 
          •  

          У цэлым, можна заўважыць, што Syntho дасягае вельмі высокіх балаў па ўсіх напрамках. Пачнем з таго, што калі разглядаць агульную якасць даных (ацэненых з дапамогай бібліятэкі паказчыкаў SDV), Syntho можа дасягнуць выніку больш за 99% (з захаваннем формы слупка 99.92% і захаваннем формы пары слупкоў 99.31%). У той час як SDV атрымлівае вынік максімум 90.84% (з капулай Гаўса, якая мае захаванне формы слупка 93.82% і захаванне формы пары слупкоў 87.86%). 

          Таблічнае прадстаўленне паказчыкаў якасці кожнага згенераванага набору даных на мадэль

          Табліца 1. Таблічнае прадстаўленне паказчыкаў якасці кожнага згенераванага набору даных на мадэль 

          Пакрыццё дадзеных

          Модуль Diagnosis Report SDV звяртае нашу ўвагу на тое, што ў дадзеных SDV (ва ўсіх выпадках) адсутнічае больш за 10% лікавых дыяпазонаў; У выпадку трыплетнага варыяцыйнага аўтакадавальніка (TVAE) такая ж колькасць катэгарыяльных даных таксама адсутнічае ў параўнанні з зыходным наборам даных. З вынікамі, дасягнутымі пры выкарыстанні Syntho, такіх папярэджанняў не было.  

          візуалізацыя сярэдніх паказчыкаў прадукцыйнасці па слупках для ўсіх мадэляў
           
           

          Малюнак 2. Візуалізацыя сярэдніх паказчыкаў прадукцыйнасці па слупках для ўсіх мадэляў 

          У параўнальным аналізе графік на малюнку 2 паказвае, што архівы SDV нязначна лепш ахопліваюць катэгорыю з некаторымі з іх мадэляў (а менавіта з дапамогай GaussianCopula, CopulaGAN і Conditional Tabular GAN – CTGAN). Тым не менш, важна падкрэсліць, што надзейнасць дадзеных Syntho пераўзыходзіць надзейнасць мадэляў SDV, паколькі разыходжанне ў ахопе паміж катэгорыямі і дыяпазонамі мінімальна, дэманструючы дысперсію ўсяго ў 1.1%. Наадварот, мадэлі SDV дэманструюць значныя варыяцыі ў дыяпазоне ад 14.6% да 29.2%. 

           

          Прадстаўленыя тут паказчыкі можна інтэрпрэтаваць наступным чынам: 

          • Ахоп катэгорый: вымярае наяўнасць усіх катэгорый у сінтэтычных дадзеных у параўнанні з рэальнымі дадзенымі.
          • Ахоп дыяпазону: ацэньвае, наколькі дыяпазон значэнняў у сінтэтычных даных супадае з рэальнымі данымі. 
          Таблічнае прадстаўленне сярэдняга ахопу дадзенага тыпу атрыбута на мадэль

          Табліца 2. Таблічнае прадстаўленне сярэдняга ахопу дадзенага тыпу атрыбута на мадэль 

          Утыліта

          Пераходзячы да тэмы карыснасці сінтэтычных даных, становіцца актуальным пытанне навучання мадэляў на дадзеных. Каб мець збалансаванае і справядлівае параўнанне паміж усімі фрэймворкамі, мы абралі класіфікатар Gradient Boosting Classifier па змаўчанні з бібліятэкі SciKit Learn.  

           

          Дзве розныя мадэлі навучаюцца, адна на сінтэтычных дадзеных (для TSTR), а другая на зыходных дадзеных (для TRTS). Мадэль, навучаная на сінтэтычных даных, ацэньваецца з дапамогай набору тэстаў на захаванне (які не выкарыстоўваўся падчас генерацыі сінтэтычных даных), а мадэль, навучаная на зыходных даных, правяраецца на сінтэтычным наборы даных.  

          візуалізацыя паказчыкаў плошчы пад крывой (AUC) па метаду па мадэлі

          Малюнак 3. Візуалізацыя паказчыкаў плошчы пад крывой (AUC) па метаду на мадэль 

           Вынікі, адлюстраваныя вышэй, дэманструюць перавагу генерацыі сінтэтычных даных з дапамогай рухавіка Syntho у параўнанні з іншымі метадамі, паколькі няма розніцы паміж вынікамі, атрыманымі рознымі метадамі (паказваючы на ​​высокае падабенства паміж сінтэтычнымі і рэальнымі данымі). Акрамя таго, чырвоная пункцірная лінія, прысутная на графіку, з'яўляецца вынікам, атрыманым шляхам ацэнкі базавай прадукцыйнасці тэсту Train Real, Test Real (TRTR), каб забяспечыць базавую лінію для назіраных паказчыкаў. Гэты радок адлюстроўвае значэнне 0.92, якое з'яўляецца паказчыкам плошчы пад крывой (паказчык AUC), атрыманым мадэллю, навучанай на рэальных дадзеных і пратэставанай на рэальных дадзеных. 

          Таблічнае прадстаўленне балаў AUC, атрыманых TRTS і TSTR адпаведна для кожнай мадэлі.

          Табліца 3. Таблічнае прадстаўленне балаў AUC, атрыманых TRTS і TSTR адпаведна для кожнай мадэлі. 

          Часовае параўнанне

          Натуральна, вельмі важна ўлічваць час, укладзены ў стварэнне гэтых вынікаў. Візуалізацыя ніжэй ілюструе гэта.

          візуалізацыя часу, затрачанага на навучанне і выкананне генерацыі сінтэтычных даных аднаго мільёна кропак дадзеных з мадэллю з графічным працэсарам і без яго.

          Малюнак 5. Візуалізацыя часу, затрачанага на навучанне і выкананне генерацыя сінтэтычных даных аднаго мільёна кропак даных з мадэллю з графічным працэсарам і без яго. 

          Малюнак 5 ілюструе час, неабходны для стварэння сінтэтычных даных у двух розных наладах. Першы з якіх (тут называецца "Без графічнага працэсара") быў тэставым запускам у сістэме з працэсарам Intel Xeon з 16 ядрамі, якія працуюць на частаце 2.20 ГГц. Тэсты, пазначаныя як «выкананыя з графічным працэсарам», праводзіліся на сістэме з працэсарам AMD Ryzen 9 7945HX з 16 ядрамі, якія працуюць на частаце 2.5 Ггц, і графічным працэсарам для ноўтбука NVIDIA GeForce RTX 4070. Як відаць на малюнку 2 і ў табліцы 2 ніжэй, можна заўважыць, што Syntho значна хутчэй стварае сінтэтычныя даныя (у абодвух сцэнарах), што вельмі важна ў дынамічным працоўным працэсе. 

          табліца, якая паказвае час, неабходны для стварэння сінтэтычных даных 1 мільёна кропак даных з кожнай мадэллю з графічным працэсарам і без яго

          Табліца 5. Таблічнае прадстаўленне часу, затрачанага на генерацыя сінтэтычных даных аднаго мільёна кропак даных з кожнай мадэллю з графічным працэсарам і без яго 

          Заключныя заўвагі і далейшыя напрамкі 

          Атрыманыя дадзеныя падкрэсліваюць важнасць дбайнай ацэнкі якасці пры выбары правільнага метаду генерацыі сінтэтычных даных. Рухавік Syntho з яго падыходам, які кіруецца штучным інтэлектам, дэманструе вартыя ўвагі моцныя бакі ў пэўных паказчыках, у той час як інструменты з адкрытым зыходным кодам, такія як SDV, ззяюць сваёй універсальнасцю і паляпшэннямі, якія кіруюцца супольнасцю. 

          Паколькі поле сінтэтычных даных працягвае развівацца, мы рэкамендуем вам прымяняць гэтыя паказчыкі ў сваіх праектах, вывучаць іх тонкасці і дзяліцца сваім вопытам. Сачыце за будучымі публікацыямі, дзе мы глыбей разгледзім іншыя паказчыкі і асвятлім рэальныя прыклады іх прымянення. 

          У рэшце рэшт, для тых, хто хоча праверыць ваду на сінтэтычных дадзеных, прадстаўленая альтэрнатыва з адкрытым зыходным кодам можа быць апраўданым выбарам з улікам даступнасці; аднак для прафесіяналаў, якія ўкараняюць гэтую сучасную тэхналогію ў свой працэс распрацоўкі, трэба выкарыстоўваць любы шанец на паляпшэнне і пазбягаць усіх перашкод. Таму важна выбраць лепшы даступны варыянт. З прыведзеных вышэй аналізаў становіцца даволі відавочным, што Syntho і разам з гэтым Syntho Engine з'яўляюцца вельмі эфектыўным інструментам для практыкаў. 

          Пра Syntho

          Сінто забяспечвае разумную платформу для генерацыі сінтэтычных даных, выкарыстоўваючы мноства сінтэтычных формаў і метадаў генерацыі даных, даючы арганізацыям магчымасць разумна пераўтвараць даныя ў канкурэнтную перавагу. Нашы сінтэтычныя даныя, створаныя штучным інтэлектам, імітуюць статыстычныя шаблоны зыходных даных, забяспечваючы дакладнасць, прыватнасць і хуткасць, паводле ацэнак знешніх экспертаў, такіх як SAS. З функцыямі разумнай дэідэнтыфікацыі і паслядоўным супастаўленнем канфідэнцыяльная інфармацыя абаронена пры захаванні цэласнасці спасылак. Наша платформа дазваляе ствараць, кіраваць і кантраляваць тэставыя даныя для невытворчага асяроддзя, выкарыстоўваючы заснаваныя на правілах метады генерацыі сінтэтычных даных для мэтавых сцэнарыяў. Акрамя таго, карыстальнікі могуць ствараць сінтэтычныя даныя праграмным шляхам і атрымліваць рэалістычныя тэставыя даныя для распрацоўкі комплексных сцэнарыяў тэсціравання і распрацоўкі з лёгкасцю.  

          Вы хочаце даведацца пра больш практычныя прымяненні сінтэтычных даных? Не саромейцеся расклад дэма!

          Аб аўтарах

          Праграмная інжынерыя Intern

          Роханam з'яўляецца студэнтам бакалаўра ў Тэхналагічным універсітэце Дэлфта і стажорам праграмнай інжынерыі ў Сінто 

          Машыннае навучанне Інжынер

          Міхай атрымаў ступень доктара філасофіі ў Брыстольскі ўніверсітэт па тэме іерархічнага навучання з падмацаваннем, прымененага да робататэхнікі і з'яўляецца Інжынер машыннага навучання аt Сінто. 

          Вокладка кіраўніцтва па сінта

          Захавайце сваё кіраўніцтва па сінтэтычных дадзеных зараз!