Sintetik ma'lumotlar generatorlarida foydalilik va o'xshashlikni baholash: texnik chuqur sho'ng'in va qiyosiy tahlil

Chop etilgan:
Fevral 27, 2024

Kirish

Bugungi raqamli davrda ma'lumotlar maxfiyligi haqida xabardorlik sezilarli darajada oshdi. Foydalanuvchilar o'z ma'lumotlarini tobora ko'proq noyob raqamli barmoq izi sifatida tan olishmoqda, bu esa ma'lumotlar buzilgan taqdirda shaxsiy hayotiga xavf tug'diradi. Bu tashvish foydalanuvchilarga o'z ma'lumotlarini o'chirishni talab qilish huquqini beradigan GDPR kabi qoidalar bilan yanada kuchaytiriladi. Juda zarur bo'lsa-da, bu qonunchilik kompaniyalar uchun juda qimmatga tushishi mumkin, chunki ma'lumotlarga kirish minimallashtiriladi; cheklashlar, ularni yengish ko'pincha vaqt va resurslarni talab qiladi. 

Mundarija

Sintetik ma'lumotlar generatorlari nima?

Sintetik ma'lumotlarni kiriting, bu jumboqning yechimi. Sintetik ma'lumotlar generatorlari anonimlik va maxfiylikni saqlagan holda haqiqiy foydalanuvchi ma'lumotlariga taqlid qiluvchi ma'lumotlar to'plamini yaratadi. Ushbu yondashuv sog'liqni saqlashdan tortib moliyagacha bo'lgan sohalar bo'ylab ommalashib bormoqda, bu erda maxfiylik birinchi o'rinda turadi.  

Ushbu post sintetik ma'lumotlar generatorlarini baholashga qaratilgan ma'lumotlar mutaxassislari va ishqibozlari uchun mo'ljallangan. Biz asosiy ko'rsatkichlarni ko'rib chiqamiz va Syntho's Engine va uning ochiq manbali muqobillari o'rtasida qiyosiy tahlil o'tkazamiz, sintetik ma'lumotlarni yaratishda yechim sifatini samarali baholash bo'yicha tushunchalarni taklif qilamiz. Bundan tashqari, biz modellarning ishlashi haqida qo'shimcha ma'lumot olish uchun ushbu modellarning har birining vaqt xarajatlarini ham baholaymiz. 

To'g'ri sintetik ma'lumotlarni yaratish usulini qanday tanlash mumkin?

Sintetik ma'lumotlarni yaratishning xilma-xil landshaftida juda ko'p usullar mavjud bo'lib, ularning har biri o'zining noyob imkoniyatlari bilan e'tibor uchun kurashadi. Muayyan dastur uchun eng mos usulni tanlash har bir variantning ishlash xususiyatlarini to'liq tushunishni talab qiladi. Bu asosli qaror qabul qilish uchun aniq belgilangan ko'rsatkichlar to'plamiga asoslangan turli xil sintetik ma'lumotlar generatorlarini har tomonlama baholashni talab qiladi. 

Quyida Syntetic Data Vault (SDV) bo'lgan taniqli ochiq kodli asos bilan bir qatorda Syntho Dvigatelining qat'iy qiyosiy tahlili keltirilgan. Ushbu tahlilda biz statistik aniqlik, bashorat qilish aniqligi va o'zgaruvchan o'zaro bog'liqlik kabi ko'p ishlatiladigan ko'rsatkichlardan foydalandik. 

Sintetik ma'lumotlarni baholash ko'rsatkichlari

Har qanday aniq ko'rsatkichni kiritishdan oldin, sintetik ma'lumotlarni baholash bo'yicha ko'plab mafkuralar mavjudligini tan olishimiz kerak, ularning har biri ma'lumotlarning ma'lum bir tomoni haqida tushuncha beradi. Shuni hisobga olgan holda, quyidagi uchta toifa muhim va keng qamrovli bo'lib ajralib turadi. Ushbu ko'rsatkichlar ma'lumotlar sifatining turli jihatlari haqida tushuncha beradi. Bu toifalar: 

      1. Statistik sodiqlik ko'rsatkichlari: Sintetik ma'lumotlarning asl ma'lumotlar to'plamining statistik profiliga mos kelishiga ishonch hosil qilish uchun ma'lumotlarning asosiy statistik xususiyatlarini, masalan, vositalar va farqlarni o'rganish. 

        1. Bashoratli aniqlik: Sintetik ma'lumotlarni ishlab chiqarish modelining ishlashini tekshirish, original ma'lumotlar bilan o'rgatilgan va sintetik ma'lumotlar bo'yicha baholangan (Train Real - Test Sintetik, TRTS) va aksincha (Train Synthetic - Test Real, TSTR) 

          1. O'zgaruvchilar o'rtasidagi munosabatlar: Ushbu birlashtirilgan toifaga quyidagilar kiradi: 

            • Xususiyat korrelyatsiyasi: Biz sintetik ma'lumotlarning korrelyatsiya koeffitsientlari yordamida o'zgaruvchilar o'rtasidagi munosabatlarni qanchalik yaxshi saqlab turishini baholaymiz. Moyillik o'rtacha kvadrat xatosi (PMSE) kabi taniqli ko'rsatkich bu turdagi bo'ladi. 

            • O'zaro ma'lumot: Biz o'zgaruvchilar orasidagi o'zaro bog'liqlikni o'lchaymiz, bu munosabatlarning chuqurligini faqat korrelyatsiyadan tashqari tushunish uchun. 

          Qiyosiy tahlil: Syntho Engine va Open Source Alternatives

          Qiyosiy tahlil standartlashtirilgan baholash tizimi va barcha modellar, jumladan Syntho Engine va SDV modellari bo‘yicha bir xil sinov usullaridan foydalangan holda o‘tkazildi. Bir xil manbalardan olingan ma'lumotlar to'plamini sintez qilish va ularni bir xil statistik testlar va mashinani o'rganish modelini baholash orqali biz adolatli va xolis taqqoslashni ta'minlaymiz. Quyidagi bo'limda yuqorida keltirilgan ko'rsatkichlar oralig'ida har bir sintetik ma'lumot generatorining ishlashi batafsil tavsiflanadi.  

           

          Baholash uchun foydalanilgan ma'lumotlar to'plamiga kelsak, biz foydalandik UCI Kattalar Aholini ro'yxatga olish ma'lumotlar to'plami bu mashinani o'rganish hamjamiyatida taniqli ma'lumotlar to'plamidir. Biz barcha mashg'ulotlardan oldin ma'lumotlarni tozaladik va keyin ma'lumotlar to'plamini ikkita to'plamga ajratdik (trening va sinov uchun to'plam). Biz har bir model bilan 1 million yangi ma'lumot nuqtalarini yaratish uchun o'quv to'plamidan foydalandik va ushbu yaratilgan ma'lumotlar to'plamlari bo'yicha turli ko'rsatkichlarni baholadik. Mashina o'rganishni keyingi baholash uchun biz TSTR va TRTS bilan bog'liq ko'rsatkichlarni baholash uchun ushlab turuvchi to'plamdan foydalandik.  

           

          Har bir generator standart parametrlar bilan ishga tushirildi. Syntho kabi ba'zi modellar har qanday jadval ma'lumotlarida ishlay olishi mumkinligi sababli, hech qanday nozik sozlash amalga oshirilmagan. Har bir model uchun to'g'ri giperparametrlarni izlash ancha vaqtni oladi va 2-jadvalda allaqachon Syntho modeli va sinovdan o'tganlar o'rtasidagi katta vaqt farqi ko'rsatilgan. 

           

          Shunisi e'tiborga loyiqki, SDV-dagi qolgan modellardan farqli o'laroq, Gauss Copula Sintezatori statistik usullarga asoslangan. Aksincha, qolganlari Generative Adversarial Networks (GAN) modellari va variatsion avtomatik kodlovchilar kabi neyron tarmoqlarga asoslangan. Shuning uchun Gauss Copula muhokama qilingan barcha modellar uchun asos sifatida qaralishi mumkin. 

          natijalar

          Ma'lumot sifati

          Shakl 1. Barcha modellar uchun asosiy sifat natijalarini vizualizatsiya qilish

          Ma'lumotlardagi tendentsiyalar va ko'rinishlarga ilgari muhokama qilingan amallarni 1-rasm va 1-jadvalda topish mumkin. Bu erda foydalanilayotgan ko'rsatkichlarning har biri quyidagicha talqin qilinishi mumkin:

          • Umumiy sifat balli: statistik o'xshashlik va ma'lumotlar xususiyatlari kabi turli jihatlarni birlashtirgan sintetik ma'lumotlar sifatini umumiy baholash. 
          • Ustun shakllari: sintetik ma'lumotlar har bir ustun uchun haqiqiy ma'lumotlar bilan bir xil tarqatish shaklini saqlab turishini baholaydi. 
          • Ustunlar juftligi tendentsiyalari: Sintetik ma'lumotlardagi ustunlar juftlari o'rtasidagi munosabatlar yoki korrelyatsiyalarni haqiqiy ma'lumotlarga nisbatan baholaydi. 
          •  

          Umuman olganda, shuni ta'kidlash mumkinki, Syntho kengash bo'ylab juda yuqori ko'rsatkichlarga erishadi. Boshlash uchun, umumiy ma'lumotlar sifatini ko'rib chiqayotganda (SDV ko'rsatkichlari kutubxonasi bilan baholanadi) Syntho 99% dan yuqori natijaga erishishi mumkin (ustun shakliga rioya qilish 99.92% va ustunlar juftligi shakliga rioya qilish 99.31%). Bu SDV maksimal 90.84% natijaga erishadi (Gauss kopulasi bilan, ustun shakliga yopishish 93.82% va ustunlar juftligi shakliga yopishish 87.86%). 

          Har bir model uchun yaratilgan har bir maʼlumotlar toʻplamining sifat koʻrsatkichlarining jadval koʻrinishi

          Jadval 1. Har bir model uchun yaratilgan har bir ma'lumotlar to'plamining sifat ko'rsatkichlarining jadval ko'rinishi 

          Ma'lumotlar qamrovi

          SDV diagnostikasi hisoboti moduli SDV tomonidan yaratilgan ma'lumotlarda (barcha hollarda) raqamli diapazonlarning 10% dan ortig'i etishmayotganligini e'tiborga oladi; Triplet-asosidagi o'zgaruvchan avtomatik kodlovchi (TVAE) holatida, dastlabki ma'lumotlar to'plami bilan solishtirganda bir xil miqdordagi kategorik ma'lumotlar ham etishmayapti. Syntho yordamida erishilgan natijalar bilan bunday ogohlantirishlar yaratilmagan.  

          barcha modellar uchun ustunlar bo'yicha o'rtacha ishlash ko'rsatkichlarini vizualizatsiya qilish
           
           

          Shakl 2. Barcha modellar uchun ustunlar bo'yicha o'rtacha ishlash ko'rsatkichlarining vizualizatsiyasi 

          Qiyosiy tahlilda 2-rasmdagi syujet SDV arxivlari ularning ba'zi modellari (masalan, GaussianCopula, CopulaGAN va shartli jadval GAN ​​- CTGAN) bilan kategoriyalarni qamrab olishda marjinal yaxshi natijalarga olib kelishini ko'rsatadi. Shunga qaramay, shuni ta'kidlash kerakki, Syntho ma'lumotlarining ishonchliligi SDV modellaridan ustundir, chunki toifalar va diapazonlar bo'yicha qamrab olishdagi tafovutlar minimal bo'lib, atigi 1.1% farqni ko'rsatadi. Bundan farqli o'laroq, SDV modellari 14.6% dan 29.2% gacha bo'lgan sezilarli o'zgarishlarni namoyish etadi. 

           

          Bu erda taqdim etilgan ko'rsatkichlarni quyidagicha talqin qilish mumkin: 

          • Kategoriya qamrovi: Haqiqiy ma'lumotlarga nisbatan sintetik ma'lumotlardagi barcha toifalarning mavjudligini o'lchaydi.
          • Rangni qamrab olish: Sintetik ma'lumotlardagi qiymatlar diapazoni haqiqiy ma'lumotlarga qanchalik mos kelishini baholaydi. 
          Har bir model uchun berilgan atribut turining o'rtacha qamrovining jadval ko'rinishi

          Jadval 2. Har bir model uchun berilgan atribut turining o'rtacha qamrovining jadval ko'rinishi 

          Qulaylik

          Sintetik ma'lumotlarning foydaliligi mavzusiga o'tsak, ma'lumotlarga modellarni o'rgatish masalasi dolzarb bo'lib qoladi. Barcha ramkalar o'rtasida muvozanatli va adolatli taqqoslash uchun biz SciKit Learn kutubxonasidan standart Gradient Boosting klassifikatorini tanladik, chunki u tayyor sozlamalar bilan yaxshi ishlaydigan model sifatida qabul qilinadi.  

           

          Ikki xil model o'qitiladi, biri sintetik ma'lumotlarga (TSTR uchun) va biri asl ma'lumotlarga (TRTS uchun). Sintetik ma'lumotlar bo'yicha o'qitilgan model ushlab turuvchi test to'plami (sintetik ma'lumotlarni yaratishda foydalanilmagan) yordamida baholanadi va original ma'lumotlarga o'rgatilgan model sintetik ma'lumotlar to'plamida sinovdan o'tkaziladi.  

          Egri chiziq ostidagi maydon (AUC) balllarini har bir model uchun har bir usul uchun vizualizatsiya qilish

          Shakl 3. Egri chiziq ostidagi maydonning (AUC) ko'rsatkichlari har bir model uchun har bir usul uchun 

           Yuqorida ko'rsatilgan natijalar Syntho dvigateli tomonidan sintetik ma'lumotlarni ishlab chiqarishning boshqa usullarga nisbatan ustunligini ko'rsatadi, chunki turli usullar bilan olingan natijalar o'rtasida hech qanday farq yo'q (sintetik va haqiqiy ma'lumotlar o'rtasidagi yuqori o'xshashlikni ko'rsatadi). Shuningdek, syujetda mavjud bo'lgan qizil nuqta chiziq kuzatilgan o'lchovlar uchun asosiy chiziqni ta'minlash uchun Train Real, Test Real (TRTR) testining asosiy ishlashini baholash natijasida olingan natijadir. Bu chiziq 0.92 qiymatini ifodalaydi, ya'ni haqiqiy ma'lumotlarda o'qitilgan va haqiqiy ma'lumotlarda sinovdan o'tgan model tomonidan erishilgan Egri chiziq ostidagi maydon (AUC ball). 

          Har bir model uchun mos ravishda TRTS va TSTR tomonidan erishilgan AUC ballarining jadval ko'rinishi.

          Jadval 3. Har bir model uchun mos ravishda TRTS va TSTR tomonidan erishilgan AUC ballarining jadval ko'rinishi. 

          Vaqt bo'yicha taqqoslash

          Tabiiyki, ushbu natijalarni yaratish uchun sarflangan vaqtni hisobga olish juda muhimdir. Quyidagi vizualizatsiya buni ko'rsatadi.

          GPUli va GPUsiz model bilan bir million ma'lumot nuqtasining sintetik ma'lumotlarini ishlab chiqarishni o'rgatish va bajarish uchun zarur bo'lgan vaqtni vizualizatsiya qilish.

          Shakl 5. Mashq qilish va bajarish uchun vaqtni vizualizatsiya qilish sintetik ma'lumotlarni yaratish GPUli va GPUsiz model bilan bir million ma'lumot nuqtasi. 

          5-rasmda ikkita turli xil sozlamalarda sintetik ma'lumotlarni yaratish uchun sarflangan vaqt ko'rsatilgan. Ulardan birinchisi (bu yerda GPUsiz deb yuritiladi) 16 gigagertsli chastotada ishlaydigan 2.20 yadroli Intel Xeon protsessorli tizimda test sinovlari bo‘ldi. “GPU bilan ishlagan” deb belgilangan testlar 9 gigagertsli chastotada ishlaydigan 7945 yadroli AMD Ryzen 16 2.5HX protsessorli va NVIDIA GeForce RTX 4070 Laptop GPU’li tizimda o‘tkazildi. 2-rasmda va quyidagi 2-jadvalda ko'rinib turibdiki, Syntho dinamik ish oqimida muhim bo'lgan sintetik ma'lumotlarni (har ikkala stsenariyda) yaratishda sezilarli darajada tezroq ekanligini kuzatish mumkin. 

          grafik protsessorli va GPUsiz har bir modelda 1 million ma'lumot nuqtasi sintetik ma'lumotlarini yaratish uchun sarflangan vaqtni ko'rsatadigan jadval

          Jadval 5. Qabul qilingan vaqtning jadval ko'rinishi sintetik ma'lumotlarni yaratish GPUli va GPUsiz har bir model bilan bir million ma'lumot nuqtasi 

          Yakuniy mulohazalar va kelajakdagi yo'nalishlar 

          Topilmalar to'g'ri sintetik ma'lumotlarni yaratish usulini tanlashda sifatni sinchkovlik bilan baholash muhimligini ta'kidlaydi. Syntho's Engine o'zining sun'iy intellektga asoslangan yondashuvi bilan ma'lum ko'rsatkichlarda e'tiborga loyiq kuchli tomonlarini namoyish etadi, shu bilan birga SDV kabi ochiq manbali vositalar o'zlarining ko'p qirraliligi va jamiyat tomonidan yaxshilanishi bilan porlaydi. 

          Sintetik ma'lumotlar sohasi rivojlanishda davom etar ekan, biz sizni loyihalaringizda ushbu ko'rsatkichlarni qo'llashni, ularning nozik tomonlarini o'rganishni va tajribangiz bilan o'rtoqlashishni tavsiya qilamiz. Kelajakdagi postlarni kuzatib boring, u erda biz boshqa ko'rsatkichlarga chuqurroq kirib boramiz va ularni qo'llashning haqiqiy misollarini ta'kidlaymiz. 

          Oxir oqibat, sintetik ma'lumotlar bo'yicha suvlarni sinab ko'rmoqchi bo'lganlar uchun taqdim etilgan ochiq manba alternativi foydalanish imkoniyatini hisobga olgan holda oqlangan tanlov bo'lishi mumkin; Biroq, ushbu zamonaviy texnologiyani o'z rivojlanish jarayoniga kiritadigan mutaxassislar uchun takomillashtirish uchun har qanday imkoniyatdan foydalanish va barcha to'siqlardan qochish kerak. Shuning uchun mavjud bo'lgan eng yaxshi variantni tanlash muhimdir. Yuqorida keltirilgan tahlillar Syntho va shu bilan birga Syntho Engine amaliyotchilar uchun juda qobiliyatli vosita ekanligi ayon bo'ladi. 

          Syntho haqida

          Sinto bir nechta sintetik ma'lumotlar shakllari va ishlab chiqarish usullaridan foydalangan holda aqlli sintetik ma'lumotlarni ishlab chiqarish platformasini taqdim etadi, tashkilotlarga ma'lumotlarni raqobatbardosh ustunlikka oqilona aylantirish imkonini beradi. Sun’iy intellekt yordamida yaratilgan sintetik ma’lumotlarimiz SAS kabi tashqi ekspertlar tomonidan baholanganidek, aniqlik, maxfiylik va tezlikni ta’minlab, asl ma’lumotlarning statistik namunalarini taqlid qiladi. Aqlli de-identifikatsiya funksiyalari va izchil xaritalash yordamida maxfiy ma'lumotlar ma'lumotnoma yaxlitligini saqlagan holda himoyalanadi. Bizning platformamiz maqsadli stsenariylar uchun qoidalarga asoslangan sintetik ma'lumotlarni yaratish usullaridan foydalangan holda ishlab chiqarishdan tashqari muhitlar uchun sinov ma'lumotlarini yaratish, boshqarish va nazorat qilish imkonini beradi. Bundan tashqari, foydalanuvchilar sintetik ma'lumotlarni dasturiy ravishda yaratishi va keng qamrovli sinov va ishlab chiqish stsenariylarini osonlik bilan ishlab chiqish uchun real test ma'lumotlarini olishlari mumkin.  

          Sintetik ma'lumotlarning ko'proq amaliy qo'llanilishini o'rganishni xohlaysizmi? Bemalol demoni rejalashtiring!

          Mualliflar haqida

          Dasturiy ta'minot muhandisligi bo'yicha stajyor

          Rohanam Delft Texnologiya Universitetida bakalavr talabasi va dasturiy ta'minot muhandisligi bo'yicha stajyor Sinto 

          Mashina muhandisi

          Mihai doktorlik dissertatsiyasini 1999 yilda tugatgan Bristol universiteti Robototexnika uchun qo'llaniladigan ierarxik mustahkamlashni o'rganish mavzusida va a Mashina o'rganish muhandisi at Sinto. 

          syntho qo'llanma qopqog'i

          Sintetik ma'lumotlar qo'llanmasini hozir saqlang!