Սինթետիկ տվյալների գեներատորների օգտակարության և նմանության գնահատում. տեխնիկական խորը սուզում և համեմատական ​​վերլուծություն

Published:
Փետրվարի 27, 2024

ներածություն

Այսօրվա թվային դարաշրջանում տվյալների գաղտնիության մասին տեղեկացվածությունը զգալիորեն բարձրացել է: Օգտատերերը գնալով ավելի շատ են ճանաչում իրենց տվյալները որպես եզակի թվային մատնահետք՝ վտանգելով իրենց գաղտնիության համար տվյալների խախտումների դեպքում: Այս մտահոգությունն ավելի է ուժեղանում GDPR-ի նման կանոնակարգերով, որոնք օգտատերերին հնարավորություն են տալիս պահանջել ջնջել իրենց տվյալները: Թեև շատ անհրաժեշտ է, այս օրենսդրությունը կարող է շատ ծախսատար լինել ընկերությունների համար, քանի որ տվյալների հասանելիությունը նվազագույնի է հասցված. սահմանափակումներ, որոնք հաճախ ժամանակ և ռեսուրսներ են պահանջում հաղթահարելու համար: 

Բառը

Որոնք են սինթետիկ տվյալների գեներատորները:

Մուտքագրեք սինթետիկ տվյալներ, այս հանելուկի լուծում: Սինթետիկ տվյալների գեներատորները ստեղծում են տվյալների հավաքածուներ, որոնք ընդօրինակում են իրական օգտատիրոջ տվյալները՝ պահպանելով անանունությունն ու գաղտնիությունը: Այս մոտեցումը լայն տարածում է գտնում ոլորտներում՝ առողջապահությունից մինչև ֆինանսներ, որտեղ գաղտնիությունը առաջնային է:  

Այս գրառումը հարմարեցված է տվյալների մասնագետների և էնտուզիաստների համար՝ կենտրոնանալով սինթետիկ տվյալների գեներատորների գնահատման վրա: Մենք կխորանանք հիմնական չափումների մեջ և համեմատական ​​վերլուծություն կանցկացնենք Syntho's Engine-ի և նրա բաց կոդով այլընտրանքների միջև՝ առաջարկելով պատկերացումներ, թե ինչպես արդյունավետ գնահատել սինթետիկ տվյալների ստեղծման լուծման որակը: Ավելին, մենք կգնահատենք նաև այս մոդելներից յուրաքանչյուրի ժամանակի արժեքը՝ մոդելների աշխատանքի վերաբերյալ հետագա պատկերացում ապահովելու համար: 

Ինչպե՞ս ընտրել ճիշտ սինթետիկ տվյալների ստեղծման մեթոդը:

Սինթետիկ տվյալների ստեղծման բազմազան լանդշաֆտում առկա են բազմաթիվ մեթոդներ, որոնցից յուրաքանչյուրն իր յուրահատուկ հնարավորություններով պայքարում է ուշադրության համար: Որոշակի կիրառման համար առավել հարմար մեթոդ ընտրելը պահանջում է յուրաքանչյուր տարբերակի կատարողական բնութագրերի մանրակրկիտ ըմբռնում: Սա պահանջում է տարբեր սինթետիկ տվյալների գեներատորների համապարփակ գնահատում` հիմնված մի շարք լավ սահմանված չափումների վրա` տեղեկացված որոշում կայացնելու համար: 

Հետևյալը Syntho Engine-ի խիստ համեմատական ​​վերլուծությունն է հայտնի բաց կոդով շրջանակի՝ Synthetic Data Vault-ի (SDV) հետ մեկտեղ: Այս վերլուծության մեջ մենք օգտագործեցինք շատ հաճախ օգտագործվող չափումներ, ինչպիսիք են վիճակագրական հավատարմությունը, կանխատեսող ճշգրտությունը և միջփոփոխական հարաբերությունները: 

Սինթետիկ տվյալների գնահատման չափումներ

Նախքան որևէ կոնկրետ չափանիշ ներկայացնելը, մենք պետք է ընդունենք, որ կան բազմաթիվ գաղափարախոսություններ սինթետիկ տվյալների գնահատման վերաբերյալ, որոնցից յուրաքանչյուրը պատկերացում է տալիս տվյալների որոշակի ասպեկտի մասին: Սա նկատի ունենալով, հետևյալ երեք կատեգորիաները առանձնանում են որպես կարևոր և ընդգրկուն: Այս չափիչները պատկերացումներ են տալիս տվյալների որակի տարբեր ասպեկտների վերաբերյալ: Այս կատեգորիաներն են. 

      1. Վիճակագրական հավատարմության չափումներ. Ուսումնասիրելով տվյալների հիմնական վիճակագրական առանձնահատկությունները, ինչպիսիք են միջինները և շեղումները, ապահովելու համար, որ սինթետիկ տվյալները համընկնում են սկզբնական տվյալների բազայի վիճակագրական պրոֆիլին: 

        1. Կանխատեսման ճշգրտություն. Սինթետիկ տվյալների ստեղծման մոդելի կատարողականի ուսումնասիրություն, վերապատրաստված բնօրինակ տվյալների հետ և գնահատված սինթետիկ տվյալների վրա (Train Real – Test Synthetic, TRTS) և հակառակը (Train Synthetic – Test Real, TSTR) 

          1. Միջփոփոխական հարաբերություններ. Այս համակցված կատեգորիան ներառում է. 

            • Հատկանիշների հարաբերակցություն. Մենք գնահատում ենք, թե որքանով են սինթետիկ տվյալները պահպանում փոխհարաբերությունները փոփոխականների միջև՝ օգտագործելով հարաբերակցության գործակիցները: Նման հայտնի չափանիշը, ինչպիսին է հակվածության միջին քառակուսի սխալը (PMSE) է: 

            • Փոխադարձ տեղեկատվություն. Մենք չափում ենք փոփոխականների միջև փոխադարձ կախվածությունը՝ հասկանալու համար այս հարաբերությունների խորությունը պարզապես հարաբերակցություններից դուրս: 

          Համեմատական ​​վերլուծություն. Syntho Engine ընդդեմ բաց կոդով այլընտրանքների

          Համեմատական ​​վերլուծությունն իրականացվել է ստանդարտացված գնահատման շրջանակի և բոլոր մոդելների փորձարկման նույնական տեխնիկայի միջոցով, ներառյալ Syntho Engine և SDV մոդելները: Միևնույն աղբյուրներից տվյալների հավաքածուները սինթեզելով և դրանք ենթարկելով նույն վիճակագրական թեստերին և մեքենայական ուսուցման մոդելի գնահատմանը, մենք ապահովում ենք արդար և անաչառ համեմատություն: Հաջորդ բաժինը մանրամասնում է յուրաքանչյուր սինթետիկ տվյալների գեներատորի կատարողականը վերը ներկայացված չափումների շրջանակում:  

           

          Ինչ վերաբերում է գնահատման համար օգտագործված տվյալների հավաքածուին, մենք օգտագործել ենք UCI Մեծահասակների մարդահամարի տվյալների հավաքածու որը հայտնի տվյալների բազա է մեքենայական ուսուցման համայնքում: Մենք մաքրեցինք տվյալները նախքան բոլոր ուսուցումները, և այնուհետև տվյալների բազան բաժանեցինք երկու խմբի (ուսուցման և փորձարկման համար նախատեսված հավաքածու): Մենք օգտագործեցինք ուսուցման հավաքածուն, որպեսզի ստեղծենք 1 միլիոն նոր տվյալների կետեր մոդելներից յուրաքանչյուրի հետ և գնահատեցինք այս ստեղծվող տվյալների հավաքածուների տարբեր չափումներ: Մեքենայական ուսուցման հետագա գնահատումների համար մենք օգտագործեցինք պահման հավաքածուն՝ գնահատելու այնպիսի չափումներ, ինչպիսիք են TSTR-ի և TRTS-ի հետ կապված չափանիշները:  

           

          Յուրաքանչյուր գեներատոր գործարկվել է լռելյայն պարամետրերով: Քանի որ որոշ մոդելներ, ինչպիսին է Syntho-ն, կարող են ինքնուրույն աշխատել ցանկացած աղյուսակային տվյալների վրա, լավ թյունինգ չի արվել: Յուրաքանչյուր մոդելի համար ճիշտ հիպերպարամետրերի որոնումը զգալի ժամանակ կպահանջի, և Աղյուսակ 2-ն արդեն ցույց է տալիս ժամանակի մեծ տարբերություն Syntho-ի և փորձարկվածների միջև: 

           

          Հատկանշական է, որ ի տարբերություն SDV-ի մնացած մոդելների, Gaussian Copula Synthesizer-ը հիմնված է վիճակագրական մեթոդների վրա։ Ի հակադրություն, մնացածը հիմնված են նեյրոնային ցանցերի վրա, ինչպիսիք են Generative Adversarial Networks (GAN) մոդելները և փոփոխական ավտոմատ կոդավորիչները: Ահա թե ինչու Gaussian Copula-ն կարելի է դիտարկել որպես ելակետ բոլոր քննարկված մոդելների համար: 

          Արդյունքներ

          Տվյալների որակը

          Նկար 1. Հիմնական որակի արդյունքների պատկերացում բոլոր մոդելների համար

          Տվյալների մեջ միտումներին և ներկայացումներին նախկինում քննարկված համապատասխանությունները կարելի է գտնել Գծապատկեր 1-ում և Աղյուսակ 1-ում: Այստեղ օգտագործվող չափորոշիչներից յուրաքանչյուրը կարող է մեկնաբանվել հետևյալ կերպ.

          • Ընդհանուր որակի գնահատական. սինթետիկ տվյալների որակի ընդհանուր գնահատում` համատեղելով տարբեր ասպեկտներ, ինչպիսիք են վիճակագրական նմանությունը և տվյալների բնութագրերը: 
          • Սյունակների ձևեր. Գնահատում է, թե արդյոք սինթետիկ տվյալները պահպանում են բաշխման նույն ձևը, ինչ իրական տվյալները յուրաքանչյուր սյունակի համար: 
          • Սյունակների զույգի միտումները. 
          •  

          Ընդհանուր առմամբ, կարելի է նկատել, որ Syntho-ն շատ բարձր միավորներ է ստանում ամբողջ տախտակում: Սկսելու համար, երբ դիտարկվում է ընդհանուր տվյալների որակը (գնահատվում է SDV չափումների գրադարանով) Syntho-ն կարող է հասնել ավելի քան 99% արդյունքի (սյունակի ձևի համապատասխանությունը 99.92% և սյունակի զույգ ձևի համապատասխանությունը 99.31%): Սա այն դեպքում, երբ SDV-ն ստանում է առավելագույնը 90.84% արդյունք (Gaussian Copula-ի դեպքում, որն ունի սյունակի ձևի համապատասխանությունը 93.82% և սյունակ զույգ ձևի համապատասխանությունը 87.86%): 

          Յուրաքանչյուր ստեղծվող տվյալների բազայի որակի գնահատականների աղյուսակային ներկայացում յուրաքանչյուր մոդելի համար

          Աղյուսակ 1. Յուրաքանչյուր ստեղծվող տվյալների շտեմարանի որակի գնահատականների աղյուսակային ներկայացում յուրաքանչյուր մոդելի համար 

          Տվյալների ծածկույթ

          SDV-ի ախտորոշման հաշվետվության մոդուլը մեր ուշադրությանն է ներկայացնում, որ SDV-ի կողմից ստեղծված տվյալները (բոլոր դեպքերում) բացակայում են թվային միջակայքերի ավելի քան 10%-ը. Եռյակի վրա հիմնված փոփոխական ինքնակոդավորիչի (TVAE) դեպքում նույնքան դասակարգային տվյալներ նույնպես բացակայում են, երբ համեմատվում են սկզբնական տվյալների հետ: Syntho-ի օգտագործման արդյունքում ձեռք բերված արդյունքների հետ կապված նման նախազգուշացումներ չեն առաջացել:  

          բոլոր մոդելների համար միջին սյունակի կատարողականի չափումների վիզուալացում
           
           

          Գծապատկեր 2. բոլոր մոդելների համար միջին սյունակային ցուցանիշների պատկերացում 

          Համեմատական ​​վերլուծության մեջ Գծապատկեր 2-ի սյուժեն ցույց է տալիս, որ SDV արխիվները փոքր-ինչ ավելի լավ արդյունքներ են տալիս կատեգորիաների ծածկույթում իրենց որոշ մոդելներով (մասնավորապես՝ GaussianCopula, CopulaGAN և պայմանական աղյուսակային GAN – CTGAN): Այնուամենայնիվ, կարևոր է ընդգծել, որ Syntho-ի տվյալների հուսալիությունը գերազանցում է SDV մոդելներինը, քանի որ կատեգորիաների և տիրույթների միջև ծածկույթի անհամապատասխանությունը նվազագույն է՝ ցուցադրելով ընդամենը 1.1% շեղում: Ի հակադրություն, SDV մոդելները ցույց են տալիս զգալի տատանումներ՝ տատանվում է 14.6%-ից մինչև 29.2%: 

           

          Այստեղ ներկայացված չափումները կարող են մեկնաբանվել հետևյալ կերպ. 

          • Կատեգորիայի ծածկույթ. չափում է բոլոր կատեգորիաների առկայությունը սինթետիկ տվյալների մեջ իրական տվյալների համեմատ:
          • Շրջանակի ծածկույթ. գնահատում է, թե որքանով է սինթետիկ տվյալների արժեքների միջակայքը համապատասխանում իրական տվյալներին: 
          Յուրաքանչյուր մոդելի համար տվյալ հատկանիշի տեսակի միջին ծածկույթի աղյուսակային ներկայացում

          Աղյուսակ 2. Յուրաքանչյուր մոդելի համար տվյալ հատկանիշի տեսակի միջին ծածկույթի աղյուսակային ներկայացում 

          Սպասարկող ծրագիր

          Անցնելով սինթետիկ տվյալների օգտակարության թեմային, արդիական է դառնում տվյալների վրա ուսուցման մոդելների հարցը։ Բոլոր շրջանակների միջև հավասարակշռված և արդար համեմատություն ունենալու համար մենք ընտրել ենք լռելյայն Gradient Boosting Classifier SciKit Learn գրադարանից՝ տեսնելով, որ այն բավականին ընդունված է որպես լավ կատարողական մոդել՝ առանց ներդիրի պարամետրերով:  

           

          Երկու տարբեր մոդելներ են վերապատրաստվում՝ մեկը սինթետիկ տվյալների վրա (TSTR-ի համար) և մեկը սկզբնական տվյալների վրա (TRTS-ի համար): Սինթետիկ տվյալների վրա ուսուցանված մոդելը գնահատվում է՝ օգտագործելով պահվող թեստային հավաքածու (որը չի օգտագործվել սինթետիկ տվյալների ստեղծման ժամանակ), իսկ սկզբնական տվյալների վրա պատրաստված մոդելը փորձարկվում է սինթետիկ տվյալների բազայի վրա:  

          Կորի տակ գտնվող տարածքի (AUC) միավորների վիզուալիզացիա՝ յուրաքանչյուր մեթոդի յուրաքանչյուր մոդելի համար

          Նկար 3. Կորի տակ գտնվող տարածքի (AUC) գնահատականների պատկերացում՝ յուրաքանչյուր մեթոդի յուրաքանչյուր մոդելի համար 

           Վերևում պատկերված արդյունքները ցույց են տալիս Syntho շարժիչի կողմից սինթետիկ տվյալների ստեղծման առավելությունը այլ մեթոդների համեմատ, քանի որ տարբերություն չկա տարբեր մեթոդներով ստացված արդյունքների միջև (մատնանշում է սինթետիկ և իրական տվյալների մեծ նմանությունը): Նաև սյուժետում առկա կարմիր կետավոր գիծը արդյունքն է, որը ստացվել է՝ գնահատելով Rain Real, Test Real (TRTR) թեստի բազային կատարումը՝ դիտարկվող չափումների համար ելակետ տրամադրելու համար: Այս տողը ներկայացնում է 0.92 արժեքը, որը կորի մակերեսի միավորն է (AUC միավոր), որը ձեռք է բերվել իրական տվյալների վրա վերապատրաստված և իրական տվյալների վրա փորձարկված մոդելի կողմից: 

          TRTS-ի և TSTR-ի կողմից համապատասխանաբար յուրաքանչյուր մոդելի կողմից ձեռք բերված AUC միավորների աղյուսակային ներկայացում:

          Աղյուսակ 3. TRTS-ի և TSTR-ի կողմից համապատասխանաբար ձեռք բերված AUC միավորների աղյուսակային ներկայացում յուրաքանչյուր մոդելի համար: 

          Ժամանակային համեմատություն

          Բնականաբար, կարևոր է հաշվի առնել այս արդյունքների ստեղծման համար ներդրված ժամանակը: Ստորև բերված վիզուալիզացիան հենց դա է ցույց տալիս:

          մեկ միլիոն տվյալների կետերի սինթետիկ տվյալների մշակման և իրականացման համար պահանջվող ժամանակի վիզուալացում GPU-ով և առանց մոդելի:

          Նկար 5. Մարզվելու և ելույթ ունենալու ժամանակի պատկերացում սինթետիկ տվյալների ստեղծում մեկ միլիոն տվյալների կետերից՝ GPU-ով և առանց մոդելի: 

          Նկար 5-ը ցույց է տալիս երկու տարբեր պարամետրերում սինթետիկ տվյալներ ստեղծելու համար պահանջվող ժամանակը: Դրանցից առաջինը (այստեղ կոչվում է Առանց GPU-ի), փորձնական գործարկումներ էին, որոնք աշխատում էին 16 ԳՀց հաճախականությամբ 2.20 միջուկով Intel Xeon պրոցեսորով համակարգով: Փորձարկումները, որոնք նշվել են որպես «աշխատվել է GPU-ով» եղել են AMD Ryzen 9 7945HX պրոցեսորով, 16 միջուկով, որն աշխատում է 2.5 ԳՀց հաճախականությամբ և NVIDIA GeForce RTX 4070 Laptop GPU-ով: Ինչպես նկատելի է Նկար 2-ում և ստորև Աղյուսակ 2-ում, կարելի է նկատել, որ Syntho-ն զգալիորեն ավելի արագ է ստեղծում սինթետիկ տվյալներ (երկու սցենարներում), ինչը կարևոր է դինամիկ աշխատանքային հոսքի համար: 

          Աղյուսակ, որը ցույց է տալիս 1 միլիոն տվյալների սինթետիկ տվյալների ստեղծման ժամանակ պահանջվող ժամանակը GPU-ով և առանց յուրաքանչյուր մոդելի

          Աղյուսակ 5. Տրված ժամանակի աղյուսակային ներկայացում սինթետիկ տվյալների ստեղծում մեկ միլիոն տվյալների կետերից յուրաքանչյուր մոդելի հետ և առանց GPU 

          Եզրափակիչ դիտողություններ և ապագա ուղղություններ 

          Գտածոները ընդգծում են որակի մանրակրկիտ գնահատման կարևորությունը սինթետիկ տվյալների ստեղծման ճիշտ մեթոդի ընտրության հարցում: Syntho's Engine-ը, իր AI-ի վրա հիմնված մոտեցմամբ, ցույց է տալիս ուշագրավ առավելություններ որոշակի չափումների մեջ, մինչդեռ բաց կոդով գործիքները, ինչպիսին է SDV-ն, փայլում են իրենց բազմակողմանիությամբ և համայնքի վրա հիմնված բարելավումներով: 

          Քանի որ սինթետիկ տվյալների ոլորտը շարունակում է զարգանալ, մենք խրախուսում ենք ձեզ կիրառել այս չափումները ձեր նախագծերում, ուսումնասիրել դրանց բարդությունները և կիսվել ձեր փորձով: Հետևեք հետագա գրառումներին, որտեղ մենք ավելի խորը կքանդվենք այլ չափումների մեջ և կընդգծենք դրանց կիրառման իրական օրինակները: 

          Ի վերջո, նրանց համար, ովքեր ցանկանում են ստուգել ջրերը սինթետիկ տվյալների վրա, ներկայացված բաց կոդով այլընտրանքը կարող է արդարացված ընտրություն լինել՝ հաշվի առնելով մատչելիությունը. Այնուամենայնիվ, մասնագետների համար, ովքեր ներառում են այս ժամանակակից տեխնոլոգիան իրենց զարգացման գործընթացում, պետք է օգտագործել բարելավման ցանկացած հնարավորություն և խուսափել բոլոր խոչընդոտներից: Ուստի կարևոր է ընտրել լավագույն տարբերակը: Վերևում ներկայացված վերլուծությունների շնորհիվ պարզ է դառնում, որ Syntho-ն և դրա հետ մեկտեղ Syntho Engine-ը շատ ընդունակ գործիք է պրակտիկանտների համար: 

          Սինթոյի մասին

          Սինթո ապահովում է խելացի սինթետիկ տվյալների ստեղծման հարթակ՝ օգտագործելով բազմաթիվ սինթետիկ տվյալների ձևեր և ստեղծման մեթոդներ՝ հնարավորություն տալով կազմակերպություններին խելամտորեն փոխակերպել տվյալները մրցակցային առավելությունների: AI-ի կողմից ստեղծված մեր սինթետիկ տվյալները ընդօրինակում են բնօրինակ տվյալների վիճակագրական օրինաչափությունները՝ ապահովելով ճշգրտություն, գաղտնիություն և արագություն, ինչպես գնահատվել է արտաքին փորձագետների կողմից, ինչպիսին է SAS-ը: Խելացի ապանույնականացման առանձնահատկությունների և հետևողական քարտեզագրման շնորհիվ զգայուն տեղեկատվությունը պաշտպանված է` պահպանելով հղումների ամբողջականությունը: Մեր հարթակը հնարավորություն է տալիս ստեղծել, կառավարել և վերահսկել թեստային տվյալներ ոչ արտադրական միջավայրերի համար՝ օգտագործելով կանոնների վրա հիմնված սինթետիկ տվյալների ստեղծման մեթոդները նպատակային սցենարների համար: Բացի այդ, օգտվողները կարող են ստեղծել սինթետիկ տվյալներ ծրագրային եղանակով և ստանալ իրատեսական թեստային տվյալներ՝ հեշտությամբ մշակելու համապարփակ թեստավորման և զարգացման սցենարներ:  

          Ցանկանու՞մ եք սովորել սինթետիկ տվյալների ավելի գործնական կիրառություններ: Ազատ զգալ ժամանակացույցի ցուցադրություն:

          Հեղինակների մասին

          Ծրագրային ճարտարագիտության պրակտիկանտ

          Rohanam Դելֆթի տեխնոլոգիական համալսարանի բակալավրիատի ուսանող է և ծրագրային ճարտարագիտության պրակտիկանտ է Սինթո 

          Machine Learning ինժեներ

          Միհայը ստացել է իր թեկնածուական աստիճանը Բրիստոլի համալսարանը «Հիերարխիկ ամրապնդման ուսուցում» թեմայով, որը կիրառվում է ռոբոտաշինության մեջ և ա Մեքենայի ուսուցման ինժեներ աt Սինթո. 

          սինտո ուղեցույցի ծածկ

          Պահպանեք ձեր սինթետիկ տվյալների ուղեցույցը հիմա: