Синтетикалық деректер генераторларындағы пайдалылық пен ұқсастықты бағалау: техникалық тереңірек үңілу және салыстырмалы талдау

Жарияланған:
Ақпан 27, 2024

кіріспе

Бүгінгі цифрлық дәуірде деректердің құпиялылығы туралы хабардар болу айтарлықтай өсті. Пайдаланушылар өздерінің деректерін бірегей цифрлық саусақ ізі ретінде таниды, бұл деректер бұзылған жағдайда олардың жеке өміріне қауіп төндіреді. Бұл алаңдаушылық пайдаланушыларға деректерін жоюды сұрауға мүмкіндік беретін GDPR сияқты ережелермен одан әрі күшейтілген. Өте қажет болғанымен, бұл заңнама компаниялар үшін өте қымбат болуы мүмкін, өйткені деректерге қолжетімділік барынша азайтылады; еңсеру үшін көп уақыт пен ресурстарды қажет ететін шектеулер. 

Мазмұны

Синтетикалық деректер генераторлары дегеніміз не?

Синтетикалық деректерді енгізіңіз, бұл жұмбақтың шешімі. Синтетикалық деректер генераторлары анонимділік пен құпиялылықты сақтай отырып, нақты пайдаланушы деректеріне ұқсайтын деректер жиынын жасайды. Бұл тәсіл денсаулық сақтаудан қаржыға дейін құпиялылық маңызды болып табылатын салаларда тартымды болуда.  

Бұл пост синтетикалық деректер генераторларын бағалауға бағытталған деректер мамандары мен энтузиастарға арналған. Біз негізгі көрсеткіштерді зерттеп, Syntho қозғалтқышы мен оның ашық бастапқы баламалары арасында салыстырмалы талдау жүргіземіз, синтетикалық деректерді генерациялау шешімдерінің сапасын қалай тиімді бағалау керектігі туралы түсінік береді. Сонымен қатар, біз модельдердің жұмысы туралы қосымша түсінік беру үшін осы үлгілердің әрқайсысының уақыт құнын бағалаймыз. 

Синтетикалық деректерді құрудың дұрыс әдісін қалай таңдауға болады?

Синтетикалық деректерді генерациялаудың әртүрлі ландшафтында әрқайсысы өзінің бірегей мүмкіндіктерімен назар аударуға тырысатын көптеген әдістер бар. Белгілі бір қолданба үшін ең қолайлы әдісті таңдау әрбір опцияның өнімділік сипаттамаларын мұқият түсінуді талап етеді. Бұл негізделген шешім қабылдау үшін жақсы анықталған көрсеткіштер жиынтығына негізделген әртүрлі синтетикалық деректер генераторларын жан-жақты бағалауды қажет етеді. 

Әрі қарай Syntho қозғалтқышының белгілі ашық бастапқы негізімен, Synthetic Data Vault (SDV) негізіндегі қатаң салыстырмалы талдауы берілген. Бұл талдауда біз статистикалық дәлдік, болжамдық дәлдік және айнымалылар аралық қатынас сияқты көптеген жиі қолданылатын көрсеткіштерді қолдандық. 

Синтетикалық деректерді бағалау көрсеткіштері

Кез келген нақты метриканы енгізбес бұрын, синтетикалық деректерді бағалауға қатысты көптеген идеологиялар бар екенін мойындауымыз керек, олардың әрқайсысы деректердің белгілі бір аспектілері туралы түсінік береді. Осыны ескере отырып, келесі үш санат маңызды және жан-жақты болып ерекшеленеді. Бұл көрсеткіштер деректер сапасының әртүрлі аспектілері туралы түсінік береді. Бұл санаттар: 

      1. Статистикалық дәлдік көрсеткіштері: Синтетикалық деректердің бастапқы деректер жиынының статистикалық профилімен сәйкес келуін қамтамасыз ету үшін деректердің негізгі статистикалық мүмкіндіктерін, мысалы, құралдар мен ауытқуларды тексеру. 

        1. Болжамдық дәлдік: Синтетикалық деректерді генерациялау үлгісінің өнімділігін тексеру, түпнұсқа деректермен үйретілген және синтетикалық деректер бойынша бағаланған (Train Real – Test Synthetic, TRTS) және керісінше (Train Synthetic – Test Real, TSTR) 

          1. Айнымалылар аралық қатынастар: Бұл біріктірілген санатқа мыналар кіреді: 

            • Ерекшелік корреляциясы: Біз синтетикалық деректердің айнымалылар арасындағы байланыстарды қаншалықты жақсы сақтайтынын корреляция коэффициенттерін пайдалана отырып бағалаймыз. Бейімділіктің орташа квадраттық қатесі (PMSE) сияқты белгілі метрика осы түрге жатады. 

            • Өзара ақпарат: Біз айнымалылар арасындағы өзара тәуелділіктерді тек корреляциядан тыс осы қатынастардың тереңдігін түсіну үшін өлшейміз. 

          Салыстырмалы талдау: Syntho Engine және ашық бастапқы балама

          Салыстырмалы талдау стандартталған бағалау жүйесін және Syntho Engine және SDV үлгілерін қоса алғанда, барлық үлгілерде бірдей сынақ әдістерін қолдану арқылы жүргізілді. Бірдей көздерден алынған деректер жиынын синтездеу және оларды бірдей статистикалық сынақтар мен машиналық оқыту үлгісін бағалау арқылы біз әділ және бейтарап салыстыруды қамтамасыз етеміз. Келесі бөлімде жоғарыда көрсетілген көрсеткіштер ауқымындағы әрбір синтетикалық деректер генераторының өнімділігі егжей-тегжейлі берілген.  

           

          Бағалау үшін пайдаланылған деректер жиынтығына келетін болсақ, біз пайдаландық UCI ересектер санағының деректер жинағы бұл машиналық оқыту қауымдастығында белгілі деректер жинағы. Біз барлық жаттығулардың алдында деректерді тазаладық, содан кейін деректер жинағын екі жинаққа бөлдік (жаттығу және тестілеуге арналған күту жинағы). Біз оқу жинағын үлгілердің әрқайсысымен 1 миллион жаңа деректер нүктелерін жасау үшін пайдаландық және осы жасалған деректер жиындарында әртүрлі көрсеткіштерді бағаладық. Машиналық оқытуды одан әрі бағалау үшін біз TSTR және TRTS сияқты көрсеткіштерді бағалау үшін күту жинағын пайдаландық.  

           

          Әрбір генератор әдепкі параметрлермен іске қосылды. Syntho сияқты кейбір үлгілер кез келген кестелік деректерде қораптан тыс жұмыс істей алатындықтан, дәл реттеу жасалмаған. Әрбір үлгі үшін дұрыс гиперпараметрлерді іздеу көп уақытты алады және 2-кестеде Syntho үлгісі мен сыналғандар арасындағы үлкен уақыт айырмашылығы көрсетілген. 

           

          Бір қызығы, SDV-дегі қалған үлгілерден айырмашылығы, Гаусс копула синтезаторы статистикалық әдістерге негізделген. Керісінше, қалғандары Generative Adversarial Networks (GAN) үлгілері және вариациялық автокодерлер сияқты нейрондық желілерге негізделген. Сондықтан Гаусс Копуласын барлық талқыланған модельдер үшін негіз ретінде қарастыруға болады. 

          нәтижелері

          Деректер сапасы

          Сурет 1. Барлық үлгілер үшін негізгі сапа нәтижелерін визуализациялау

          Деректердегі тенденциялар мен көріністерге бұрын талқыланған сәйкестікті 1-сурет пен 1-кестеден табуға болады. Мұнда пайдаланылатын метриканың әрқайсысын келесідей түсіндіруге болады:

          • Жалпы сапа баллы: статистикалық ұқсастық пен деректер сипаттамалары сияқты әртүрлі аспектілерді біріктіретін синтетикалық деректердің сапасын жалпы бағалау. 
          • Баған пішіндері: синтетикалық деректердің әрбір баған үшін нақты деректер сияқты бірдей тарату пішінін сақтайтынын бағалайды. 
          • Баған жұбының трендтері: нақты деректермен салыстырғанда синтетикалық деректердегі бағандар жұптары арасындағы қатынасты немесе корреляцияны бағалайды. 
          •  

          Тұтастай алғанда, Syntho тақтада өте жоғары ұпайларға қол жеткізетінін байқауға болады. Бастау үшін, жалпы деректер сапасын қарастырған кезде (SDV метрикасының кітапханасымен бағаланады) Syntho 99% жоғары нәтижеге қол жеткізе алады (баған пішінінің сәйкестігі 99.92% және бағандар жұбы пішінінің сәйкестігі 99.31%). Бұл SDV максималды 90.84% (баған пішінінің 93.82% және баған жұп пішінінің адгезиясы 87.86%) Гаусс копуласымен бірге нәтиже алады. 

          Үлгі бойынша әрбір жасалған деректер жиынының сапа көрсеткіштерінің кестелік көрінісі

          Кесте 1. Үлгі бойынша әрбір жасалған деректер жиынының сапа көрсеткіштерінің кестелік көрінісі 

          Деректерді қамту

          SDV диагностикасы туралы есеп модулі SDV арқылы жасалған деректерде (барлық жағдайларда) сандық ауқымдардың 10%-дан астамы жоқ екеніне назар аударады; Triplet-Based Variational Autoencoder (TVAE) жағдайында бастапқы деректер жинағымен салыстырғанда категориялық деректердің бірдей көлемі де жоқ. Syntho арқылы қол жеткізілген нәтижелермен мұндай ескертулер жасалмады.  

          барлық үлгілер үшін орташа баған бойынша өнімділік көрсеткіштерін визуализациялау
           
           

          2-сурет. Барлық үлгілер үшін орташа баған бойынша өнімділік көрсеткіштерінің визуализациясы 

          Салыстырмалы талдауда 2-суреттің сюжеті SDV мұрағаттары олардың кейбір үлгілерімен (атап айтқанда, GaussianCopula, CopulaGAN және Шартты кестелік GAN – CTGAN) санатты қамтуда біршама жақсы нәтиже беретінін көрсетеді. Дегенмен, Syntho деректерінің сенімділігі SDV үлгілерінен асып түсетінін атап өту маңызды, өйткені санаттар мен диапазондар бойынша қамтудағы сәйкессіздік ең аз және бар болғаны 1.1% ауытқуды көрсетеді. Керісінше, SDV үлгілері 14.6%-дан 29.2%-ға дейінгі аралықта айтарлықтай вариацияны көрсетеді. 

           

          Мұнда ұсынылған көрсеткіштерді келесідей түсіндіруге болады: 

          • Санаттарды қамту: нақты деректермен салыстырғанда синтетикалық деректердегі барлық санаттардың болуын өлшейді.
          • Ауқымды қамту: синтетикалық деректердегі мәндер ауқымының нақты деректердегімен қаншалықты сәйкес келетінін бағалайды. 
          Әр үлгіге берілген төлсипат түрінің орташа қамтуының кестелік көрінісі

          Кесте 2. Бір үлгідегі берілген төлсипат түрінің орташа қамтуының кестелік көрінісі 

          Utility

          Синтетикалық деректердің пайдалылығы тақырыбына көшсек, деректер бойынша модельдерді оқыту мәселесі өзекті болады. Барлық фреймворктер арасында теңдестірілген және әділ салыстыру үшін біз SciKit Learn кітапханасынан әдепкі градиентті күшейту классификаторын таңдадық, өйткені ол қораптан тыс параметрлері бар жақсы жұмыс істейтін үлгі ретінде қабылданған.  

           

          Екі түрлі үлгі оқытылады, біреуі синтетикалық деректерде (TSTR үшін) және екіншісі бастапқы деректерде (TRTS үшін). Синтетикалық деректерде оқытылған үлгі тоқтау сынақ жинағын (синтетикалық деректерді жасау кезінде пайдаланылмаған) пайдалану арқылы бағаланады және бастапқы деректерге үйретілген үлгі синтетикалық деректер жинағында сыналады.  

          қисық астындағы аймақ (AUC) ұпайларының әр үлгідегі әдіске визуализациясы

          Сурет 3. Қисық астындағы аумақтың (AUC) визуализациясы әр үлгідегі әдіс бойынша ұпайлар 

           Жоғарыда визуалды нәтижелер басқа әдістермен салыстырғанда Syntho қозғалтқышы арқылы синтетикалық деректерді генерациялаудың артықшылығын көрсетеді, әр түрлі әдістермен алынған нәтижелер арасында ешқандай айырмашылық жоқ (синтетикалық және нақты деректер арасындағы жоғары ұқсастықты көрсетеді). Сондай-ақ, сызбада бар қызыл нүктелі сызық бақыланатын көрсеткіштер үшін негізгі сызықты қамтамасыз ету үшін нақты пойыз, нақты сынақ (TRTR) сынағының негізгі өнімділігін бағалау арқылы алынған нәтиже болып табылады. Бұл сызық 0.92 мәнін білдіреді, ол нақты деректер бойынша оқытылған және нақты деректерде сыналған үлгі қол жеткізген қисық астындағы аймақ (AUC ұпайы) болып табылады. 

          Әр модельге сәйкес TRTS және TSTR қол жеткізген AUC ұпайларының кестелік көрінісі.

          Кесте 3. Әр модельге сәйкес TRTS және TSTR қол жеткізген AUC ұпайларының кестелік көрінісі. 

          Уақыт бойынша салыстыру

          Әрине, бұл нәтижелерді жасауға жұмсалған уақытты ескеру өте маңызды. Төмендегі визуализация дәл осыны көрсетеді.

          GPU бар және онсыз үлгімен миллион деректер нүктесінің синтетикалық деректер генерациясын үйретуге және орындауға кететін уақытты визуализациялау.

          Сурет 5. Жаттығуға және орындауға кеткен уақыттың визуализациясы синтетикалық деректерді құру GPU бар және жоқ үлгісі бар бір миллион деректер нүктесінің. 

          5-сурет екі түрлі параметрлерде синтетикалық деректерді құруға кететін уақытты көрсетеді. Олардың біріншісі (мұнда GPU жоқ деп аталады) 16 ГГц жиілікте жұмыс істейтін 2.20 ядросы бар Intel Xeon процессоры бар жүйеде іске қосылған сынақтар болды. «GPU арқылы орындалды» деп белгіленген сынақтар 9 ГГц жиілікте жұмыс істейтін 7945 ядросы бар AMD Ryzen 16 2.5HX процессоры және NVIDIA GeForce RTX 4070 ноутбук графикалық процессоры бар жүйеде болды. 2-суретте және төмендегі 2-кестеде байқалғандай, Syntho динамикалық жұмыс процесінде маңызды болып табылатын синтетикалық деректерді (екі сценарийде де) жасауда айтарлықтай жылдамырақ екенін байқауға болады. 

          графикалық процессоры бар және онсыз әр модельде 1 миллион деректер нүктесінің синтетикалық деректерін құруға кететін уақытты суреттейтін кесте

          Кесте 5. Уақыттың кестелік көрінісі синтетикалық деректерді құру GPU бар және онсыз әр модельде бір миллион деректер нүктесі 

          Қорытынды сөз және болашақ бағдарлар 

          Қорытындылар дұрыс синтетикалық деректерді құру әдісін таңдауда сапаны мұқият бағалаудың маңыздылығын көрсетеді. Syntho's Engine өзінің AI-ге негізделген тәсілімен белгілі бір көрсеткіштерде күшті жақтарын көрсетеді, ал SDV сияқты ашық бастапқы құралдар олардың әмбебаптығымен және қауымдастық басқаратын жақсартуларымен жарқырайды. 

          Синтетикалық деректер өрісі дамып келе жатқандықтан, біз сізге осы көрсеткіштерді жобаларыңызда қолдануға, олардың қыр-сырын зерттеуге және тәжірибеңізбен бөлісуге шақырамыз. Біз басқа көрсеткіштерге тереңірек енетін және оларды қолданудың нақты әлем мысалдарын бөлектейтін болашақ посттарды күтіңіз. 

          Күннің соңында, синтетикалық деректер бойынша суды сынағысы келетіндер үшін ұсынылған ашық бастапқы балама қолжетімділікті ескере отырып, негізделген таңдау болуы мүмкін; дегенмен, осы заманауи технологияны әзірлеу процесіне енгізетін мамандар үшін жақсартудың кез келген мүмкіндігін пайдалану керек және барлық кедергілерден аулақ болу керек. Сондықтан қол жетімді ең жақсы нұсқаны таңдау маңызды. Жоғарыда келтірілген талдаулар арқылы Syntho және онымен бірге Syntho қозғалтқышы тәжірибешілер үшін өте қабілетті құрал екені анық болады. 

          Syntho туралы

          Синто бірнеше синтетикалық деректер пішіндері мен генерациялау әдістерін қолдана отырып, ұйымдарға деректерді бәсекеге қабілеттілікке интеллектуалды түрлендіруге мүмкіндік беретін смарт синтетикалық деректерді генерациялау платформасын ұсынады. Біздің AI арқылы жасалған синтетикалық деректер SAS сияқты сыртқы сарапшылар бағалағандай, дәлдік, құпиялылық және жылдамдықты қамтамасыз ететін бастапқы деректердің статистикалық үлгілеріне еліктейді. Смарт идентификациялау мүмкіндіктері мен дәйекті картаның көмегімен құпия ақпарат анықтамалық тұтастықты сақтай отырып қорғалады. Біздің платформа мақсатты сценарийлер үшін ережеге негізделген синтетикалық деректерді генерациялау әдістерін пайдалана отырып, өндірістік емес орталар үшін сынақ деректерін жасауға, басқаруға және бақылауға мүмкіндік береді. Оған қоса, пайдаланушылар синтетикалық деректерді бағдарламалық түрде жасай алады және кешенді тестілеу мен әзірлеу сценарийлерін оңай әзірлеу үшін шынайы сынақ деректерін ала алады.  

          Синтетикалық деректердің практикалық қосымшаларын білгіңіз келе ме? Өзіңізді еркін сезініңіз демонстрацияны жоспарлаңыз!

          Авторлар туралы

          Бағдарламалық қамтамасыз ету инженері

          Рохam Делфт Технологиялық Университетінің бакалавр студенті және бағдарламалық жасақтама инженериясы бойынша тағылымдамадан өтуші Синто 

          Машина жасау инженері

          Михай PhD дәрежесін алды Бристоль университеті Робототехникаға қолданылған иерархиялық күшейтуді оқыту тақырыбында және а Машиналық оқыту инженері аt Синто. 

          syntho бағыттауыш қақпағы

          Синтетикалық деректер нұсқаулығын қазір сақтаңыз!