Арзёбии фоиданокӣ ва шабоҳат дар тавлидкунандагони додаҳои синтетикӣ: ғарқи амиқи техникӣ ва таҳлили муқоисавӣ

Нашр шудааст:
Феврали соли 27, 2024

Муқаддима

Дар давраи рақамии имрӯза, огоҳӣ дар бораи махфияти маълумот ба таври назаррас афзоиш ёфтааст. Истифодабарандагон маълумоти худро ҳамчун изи ангуштони рақамии беназир эътироф мекунанд, ки дар сурати вайрон кардани маълумот ба махфияти онҳо хатар эҷод мекунад. Ин нигаронӣ бо муқаррарот ба монанди GDPR, ки ба корбарон имкон медиҳад, ки ҳазфи маълумоти худро дархост кунанд, боз ҳам тақвият дода мешавад. Гарчанде ки хеле зарур аст, ин қонунгузорӣ метавонад барои ширкатҳо хеле гарон бошад, зеро дастрасӣ ба маълумот кам карда мешавад; маҳдудиятҳое, ки барои бартараф кардани онҳо аксар вақт вақт ва захираҳо сарф мешаванд. 

Мундариҷа

Генераторҳои синтетикии маълумот чист?

Маълумоти синтетикиро ворид кунед, ҳалли ин муаммо. Генераторҳои синтетикии додаҳо маҷмӯаҳои додаҳоро эҷод мекунанд, ки ба маълумоти воқеии корбар тақлид мекунанд ва ҳангоми нигоҳ доштани беном ва махфият. Ин равиш дар саросари соҳаҳо, аз соҳаи тандурустӣ то молия, ки дар он ҷо махфият аз ҳама муҳим аст, ҷалб карда мешавад.  

Ин паём барои мутахассисони маълумот ва ҳаваскорон таҳия шудааст, ки ба арзёбии генераторҳои синтетикии додаҳо тамаркуз мекунад. Мо ченакҳои калидиро омӯхта, таҳлили муқоисавиро байни Engine Syntho ва алтернативаҳои кушодаи он мегузаронем ва дар бораи баҳодиҳии самараноки сифати ҳалли тавлиди додаҳои синтетикӣ фаҳмиш медиҳем. Ғайр аз он, мо инчунин арзиши вақти ҳар яке аз ин моделҳоро арзёбӣ хоҳем кард, то дар бораи кори моделҳо фаҳмиши минбаъда фароҳам орем. 

Усули дурусти тавлиди маълумотҳои синтетикиро чӣ гуна бояд интихоб кард?

Дар манзараи гуногуни тавлиди додаҳои синтетикӣ, усулҳои фаровон мавҷуданд, ки ҳар кадоме барои таваҷҷӯҳ бо қобилиятҳои беназири худ мубориза мебаранд. Интихоби усули мувофиқтарин барои як барномаи мушаххас фаҳмиши ҳамаҷонибаи хусусиятҳои иҷрои ҳар як вариантро талаб мекунад. Ин баҳодиҳии ҳамаҷонибаи генераторҳои гуногуни додаҳои синтетикиро дар асоси маҷмӯи ченакҳои дақиқ муайяншуда барои қабули қарори огоҳона талаб мекунад. 

Дар зер таҳлили дақиқи муқоисавии муҳаррики Syntho дар баробари чаҳорчӯбаи маъруфи кушодаасос, Synthetic Data Vault (SDV) мебошад. Дар ин таҳлил, мо бисёр ченакҳои маъмулан истифодашавандаро истифода кардем, аз қабили дурустии оморӣ, дақиқии пешгӯӣ ва муносибати байни тағирёбанда. 

Метрикҳои арзёбии маълумотҳои синтетикӣ

Пеш аз ҷорӣ кардани ягон метрикаи мушаххас, мо бояд эътироф кунем, ки дар бораи арзёбии маълумоти синтетикӣ идеологияҳои сершумор мавҷуданд, ки ҳар кадоми онҳо ба як ҷанбаи муайяни додаҳо фаҳмиш медиҳанд. Бо назардошти ин, се категорияи зерин ҳамчун муҳим ва ҳамаҷониба фарқ мекунанд. Ин нишондиҳандаҳо дар бораи ҷанбаҳои гуногуни сифати маълумот маълумот медиҳанд. Ин категорияҳо инҳоянд: 

      1. Метрикҳои дурустии оморӣ: Баррасии хусусиятҳои асосии омории додаҳо, ба монанди воситаҳо ва фарқиятҳо, то боварӣ ҳосил кунед, ки маълумоти синтетикӣ бо профили омории маҷмӯи аслии додаҳо мувофиқат мекунад. 

        1. Дурустии пешгӯӣ: Баррасии иҷрои модели тавлиди додаҳои синтетикӣ, ки бо маълумоти аслӣ омӯхта шудааст ва аз рӯи маълумоти синтетикӣ арзёбӣ мешавад (Train Real – Test Synthetic, TRTS) ва баръакс (Train Synthetic – Test Real, TSTR) 

          1. Муносибатҳои байни тағирёбанда: Ин категорияи омехта дар бар мегирад: 

            • Муносибати хусусият: Мо баҳо медиҳем, ки маълумоти синтетикӣ то чӣ андоза муносибатҳои байни тағирёбандаҳоро бо истифода аз коэффисиентҳои коррелятсия нигоҳ медорад. Як метрикаи маъруф ба монанди хатогии квадратии майл (PMSE) аз ин намуд хоҳад буд. 

            • Маълумоти мутақобила: Мо вобастагии мутақобилан байни тағирёбандаҳоро барои фаҳмидани умқи ин муносибатҳо берун аз таносуби таносуб чен мекунем. 

          Таҳлили муқоисавӣ: Engine Syntho ва алтернативаҳои кушодаасос

          Таҳлили муқоисавӣ бо истифода аз чаҳорчӯбаи стандартии арзёбӣ ва усулҳои шабеҳи санҷиш дар ҳама моделҳо, аз ҷумла моделҳои Syntho Engine ва SDV гузаронида шуд. Бо синтез кардани маҷмӯаҳои додаҳо аз манбаъҳои якхела ва тобеъ кардани онҳо ба ҳамон санҷишҳои оморӣ ва баҳодиҳии модели омӯзиши мошин, мо муқоисаи одилона ва беғаразро таъмин мекунем. Бахше, ки дар поён оварда шудааст, кори ҳар як генератори додаҳои синтетикиро дар доираи ченакҳои дар боло овардашуда тафсилот медиҳад.  

           

          Дар мавриди маҷмӯи маълумоте, ки барои арзёбӣ истифода шудааст, мо онро истифода бурдем Маҷмӯи маълумоти барӯйхатгирии калонсолони UCI ки дар ҷомеаи омӯзиши мошинсозӣ як маҷмӯаи маъруфи маълумот аст. Мо маълумотро пеш аз ҳама омӯзиш тоза кардем ва сипас маҷмӯи додаҳоро ба ду маҷмӯа тақсим кардем (тренинг ва маҷмӯи нигоҳдорӣ барои санҷиш). Мо маҷмӯи омӯзишро барои тавлиди 1 миллион нуқтаи нави маълумот бо ҳар як модел истифода бурдем ва ченакҳои гуногунро дар ин маҷмӯаҳои додашуда арзёбӣ кардем. Барои арзёбии минбаъдаи омӯзиши мошин, мо маҷмӯи нигоҳдоштро барои арзёбии ченакҳо, ба монанди TSTR ва TRTS, истифода кардем.  

           

          Ҳар як генератор бо параметрҳои пешфарз кор мекард. Азбаски баъзе аз моделҳо, ба монанди Syntho, метавонанд дар ҳама гуна маълумоти ҷадвалӣ кор кунанд, ҳеҷ гуна танзими дақиқ анҷом дода нашудааст. Ҷустуҷӯи гиперпараметрҳои дуруст барои ҳар як модел миқдори зиёди вақтро талаб мекунад ва Ҷадвали 2 аллакай фарқияти зиёди вақтро байни модели Syntho ва моделҳои озмоишшуда нишон медиҳад. 

           

          Қобили қайд аст, ки бар хилофи боқимондаи моделҳои SDV, синтезатори Гауссиан Копула ба усулҳои оморӣ асос ёфтааст. Баръакси ин, боқимондаҳо ба шабакаҳои нейронӣ, ба монанди моделҳои Generative Adversarial Networks (GAN) ва рамзгузорҳои автоматии вариантӣ асос ёфтаанд. Ин аст, ки чаро Gaussian Copula-ро метавон ҳамчун асос барои ҳамаи моделҳои мавриди баррасӣ қарор дод. 

          Натиҷаи

          Сифати маълумот

          Расми 1. Намоиши натиҷаҳои асосии сифат барои ҳамаи моделҳо

          Пайвандҳои қаблан баррасӣшуда ба тамоюлҳо ва намояндагӣ дар маълумотро дар расми 1 ва Ҷадвали 1 пайдо кардан мумкин аст. Дар ин ҷо ҳар як нишондиҳандаи истифодашавандаро ба таври зерин шарҳ додан мумкин аст:

          • Баҳои умумии сифат: Арзёбии умумии сифати маълумоти синтетикӣ, ки ҷанбаҳои гуногунро ба монанди шабоҳати оморӣ ва хусусиятҳои додаҳоро муттаҳид мекунад. 
          • Шаклҳои сутунҳо: Арзёбӣ мекунад, ки оё маълумоти синтетикӣ як шакли тақсимотро ҳамчун маълумоти воқеии ҳар як сутун нигоҳ медорад. 
          • Тамоюлҳои ҷуфти сутунҳо: Муносибат ё таносуби байни ҷуфтҳои сутунҳо дар маълумоти синтетикиро дар муқоиса бо маълумоти воқеӣ арзёбӣ мекунад. 
          •  

          Дар маҷмӯъ, метавон қайд кард, ки Syntho дар саросари тахта баҳои хеле баланд ба даст меорад. Барои оғоз кардан, ҳангоми баррасии сифати умумии маълумот (бо китобхонаи ченакҳои SDV арзёбӣ мешавад) Syntho метавонад то 99% натиҷа ба даст орад (бо риояи шакли сутун 99.92% ва риояи шакли ҷуфти сутунҳо 99.31%). Ин дар ҳолест, ки SDV натиҷаи ҳадди аксар 90.84% ба даст меорад (бо Gaussian Copula, дорои риояи шакли сутун 93.82% ва риояи шакли ҷуфти сутун 87.86%). 

          Намоиши ҷадвалии холҳои сифати ҳар як маҷмӯи додаҳои тавлидшуда дар як модел

          Љадвали 1. Намоиши љадвалии холњои сифати њар як маљмўи додањои тавлидшуда барои як модел 

          Фарогирии маълумот

          Модули Ҳисоботи ташхиси SDV ба диққати мо мерасонад, ки маълумоти аз ҷониби SDV тавлидшуда (дар ҳама ҳолатҳо) зиёда аз 10% диапазони рақамӣ мавҷуд нест; Дар мавриди Автокодерҳои Вариатсионӣ дар асоси Triplet (TVAE), дар муқоиса бо маҷмӯи додаҳои аслӣ ҳамон миқдор маълумоти категориявӣ низ мавҷуд нестанд. Бо натиҷаҳое, ки бо истифода аз Syntho ба даст оварда шудаанд, чунин огоҳиҳо тавлид нашудаанд.  

          визуализатсияи ченакҳои иҷрои миёнаи сутун барои ҳама моделҳо
           
           

          Тасвири 2. визуализатсияи нишондиҳандаҳои нишондиҳандаҳои миёнаи сутун барои ҳамаи моделҳо 

          Дар таҳлили муқоисавӣ, нақшаи расми 2 нишон медиҳад, ки бойгониҳои SDV дар фарогирии категорияҳо бо баъзе моделҳои онҳо (яъне бо GaussianCopula, CopulaGAN ва Шартӣ Ҷадвали GAN – CTGAN) натиҷаҳои хубтар медиҳанд. Бо вуҷуди ин, қайд кардан муҳим аст, ки эътимоднокии маълумоти Syntho аз моделҳои SDV зиёдтар аст, зеро ихтилоф дар фарогирӣ дар байни категорияҳо ва диапазонҳо ҳадди ақалл буда, ҳамагӣ 1.1% фарқиятро нишон медиҳад. Баръакси ин, моделҳои SDV фарқияти назаррасро нишон медиҳанд, ки аз 14.6% то 29.2% мебошанд. 

           

          Метрикҳои дар ин ҷо нишондодашуда метавонанд ба таври зерин шарҳ дода шаванд: 

          • Фарогирии категория: Мавҷудияти ҳамаи категорияҳоро дар маълумоти синтетикӣ дар муқоиса бо маълумоти воқеӣ чен мекунад.
          • Фарогирии диапазон: Баҳо медиҳад, ки то чӣ андоза диапазони арзишҳо дар маълумоти синтетикӣ ба маълумоти воқеӣ мувофиқат мекунанд. 
          Намоиши ҷадвали фарогирии миёнаи як намуди атрибутӣ барои як модел

          Љадвали 2. Намоиши љадвалии фарогирии миёнаи як навъи атрибутњо барои як модел 

          коммуналӣ

          Гузаштан ба мавзӯи фоиданокии додаҳои синтетикӣ, масъалаи омӯзиши моделҳо оид ба додаҳо муҳим мешавад. Барои муқоисаи мутавозин ва одилона байни ҳамаи чаҳорчӯбаҳо, мо классификатори пешфарзии Gradient Boosting-ро аз китобхонаи SciKit Learn интихоб кардем, зеро дидем, ки он ҳамчун модели хуб иҷрошаванда бо танзимоти берун аз қуттӣ ба таври одилона қабул карда мешавад.  

           

          Ду модели гуногун омӯзонида мешаванд, яке аз рӯи маълумоти синтетикӣ (барои TSTR) ва дигаре дар бораи маълумоти аслӣ (барои TRTS). Моделе, ки аз рӯи маълумоти синтетикӣ омӯзонида шудааст, бо истифода аз маҷмӯи санҷиши нигоҳдорӣ (ки ҳангоми тавлиди додаҳои синтетикӣ истифода нашудааст) арзёбӣ мешавад ва модели дар асоси маълумоти аслӣ омӯзонидашуда дар маҷмӯи додаҳои синтетикӣ санҷида мешавад.  

          визуализатсияи холҳои Минтақаи зери каҷ (AUC) барои як усул барои як модел

          Расми 3. Намоиши холҳои Майдони зери каҷ (AUC) барои як усул барои як модел 

           Натиҷаҳои дар боло нишон додашуда бартарии тавлиди маълумотҳои синтетикиро аз ҷониби муҳаррики Syntho дар муқоиса бо усулҳои дигар нишон медиҳанд, зеро мебинанд, ки байни натиҷаҳое, ки бо усулҳои гуногун ба даст оварда шудаанд, фарқият вуҷуд надорад (ба монандии баланди байни маълумоти синтетикӣ ва воқеӣ ишора мекунад). Инчунин, хати нуқтаи сурхе, ки дар қитъа мавҷуд аст, натиҷаест, ки тавассути арзёбии иҷрои асосии санҷиши Train Real, Test Real (TRTR) ба даст оварда шудааст, то барои ченакҳои мушоҳидашуда маълумот диҳад. Ин сатр арзиши 0.92-ро ифода мекунад, ки холҳои Минтақаи зери каҷ (холҳои AUC) мебошад, ки аз ҷониби моделе, ки аз рӯи маълумоти воқеӣ омӯхта шудааст ва аз рӯи маълумоти воқеӣ санҷида шудааст. 

          Намоиши ҷадвали холҳои AUC, ки мутаносибан TRTS ва TSTR барои як модел ба даст овардаанд.

          Љадвали 3. Намоиши љадвалии холњои AUC, ки мутаносибан TRTS ва TSTR барои як модел ба даст овардаанд. 

          Муқоисаи замонавӣ

          Табиист, ки ба назар гирифтани вақти барои тавлиди ин натиҷаҳо сарфшуда муҳим аст. Визуализатсияи дар поён овардашуда танҳо инро нишон медиҳад.

          визуализатсияи вақт барои омӯзиш ва иҷрои тавлиди маълумоти синтетикии як миллион нуқтаи додаҳо бо модели дорои ва бе GPU.

          Расми 5. Намоиши вақти барои омӯзиш ва иҷро сарфшуда тавлиди маълумоти синтетикӣ аз як миллион нуқтаи додаҳо бо модели дорои ва бе GPU. 

          Тасвири 5 вақти барои тавлиди маълумоти синтетикӣ дар ду танзимоти гуногунро нишон медиҳад. Яке аз онҳо (дар ин ҷо Бе GPU номида мешавад) озмоишҳои санҷишӣ дар система бо CPU Intel Xeon бо 16 ядрои дар 2.20 ГГц кор мекунанд. Санҷишҳое, ки ҳамчун "бо GPU иҷро шудаанд" нишон дода шудаанд, дар система бо CPU AMD Ryzen 9 7945HX бо 16 ядрои дар 2.5 ГГц кор мекунанд ва GPU ноутбуки NVIDIA GeForce RTX 4070 буданд. Тавре ки дар расми 2 ва ҷадвали 2 дар поён мушоҳида мешавад, мушоҳида кардан мумкин аст, ки Syntho дар тавлиди маълумоти синтетикӣ (дар ҳарду сенария), ки дар ҷараёни кории динамикӣ муҳим аст, ба таври назаррас тезтар аст. 

          ҷадвале, ки вақти тавлиди маълумоти синтетикии 1 миллион нуқтаи додаҳоро бо ҳар як модел бо ва бе GPU нишон медиҳад

          Ҷадвали 5. Намоиши ҷадвали вақти гирифташуда тавлиди маълумоти синтетикӣ як миллион нуқтаи додаҳо бо ҳар як модел бо ва бе GPU 

          Мулохизахои чамъбастй ва роххои оянда 

          Бозёфтҳо аҳамияти арзёбии ҳамаҷонибаи сифатро дар интихоби усули дурусти тавлиди маълумотҳои синтетикӣ таъкид мекунанд. Муҳаррики Syntho бо равиши ба AI асосёфтаи худ дар ченакҳои муайян ҷиҳатҳои қобили таваҷҷӯҳро нишон медиҳад, дар ҳоле ки абзорҳои кушодаасос ба монанди SDV дар бисёрҷониба ва такмили аз ҷониби ҷомеа асосёфта дурахшон мешаванд. 

          Вақте ки соҳаи маълумоти синтетикӣ инкишоф меёбад, мо шуморо ташвиқ мекунем, ки ин нишондиҳандаҳоро дар лоиҳаҳои худ татбиқ кунед, нозукиҳои онҳоро омӯзед ва таҷрибаҳои худро мубодила кунед. Барои паёмҳои оянда, ки дар он мо ба дигар ченакҳо амиқтар ғарқ мешавем ва мисолҳои воқеии татбиқи онҳоро таъкид хоҳем кард. 

          Дар охири рӯз, барои онҳое, ки мехоҳанд обро аз рӯи маълумоти синтетикӣ санҷанд, алтернативаи кушодаи манбаи пешниҳодшуда метавонад интихоби асоснок бо назардошти дастрасӣ бошад; Аммо, барои мутахассисоне, ки ин технологияи муосирро ба раванди рушди худ ворид мекунанд, бояд ҳама гуна шанси беҳтаршавӣ истифода шавад ва аз ҳама монеаҳо пешгирӣ карда шавад. Аз ин рӯ, муҳим аст, ки беҳтарин вариантро интихоб кунед. Бо таҳлилҳои дар боло овардашуда маълум мешавад, ки Syntho ва бо ин муҳаррики Syntho як воситаи хеле қобилиятнок барои таҷрибаомӯзон аст. 

          Дар бораи Syntho

          Синто платформаи тавлиди маълумотҳои синтетикии интеллектуалиро таъмин мекунад, ки шаклҳои сершумор ва усулҳои тавлиди додаҳои синтетикиро истифода мебарад ва ба созмонҳо имкон медиҳад, ки маълумотро ба бартариҳои рақобатпазир табдил диҳанд. Маълумоти синтетикии аз ҷониби AI тавлидшуда мо намунаҳои омории маълумоти аслиро тақлид карда, дақиқ, махфият ва суръатро таъмин мекунад, ки аз ҷониби коршиносони беруна ба мисли SAS арзёбӣ мешавад. Бо хусусиятҳои интеллектуалии де-идентификатсия ва харитасозии пайваста, маълумоти ҳассос ҳангоми нигоҳ доштани тамомияти истинод муҳофизат карда мешавад. Платформаи мо имкон медиҳад, ки маълумотҳои санҷиширо барои муҳити ғайриистеҳсолӣ бо истифода аз усулҳои тавлиди додаҳои синтетикӣ дар асоси қоидаҳо барои сенарияҳои мақсаднок эҷод, идора ва назорат кунад. Илова бар ин, корбарон метавонанд ба таври барномавӣ маълумоти синтетикиро тавлид кунанд ва маълумоти воқеии санҷишро барои таҳияи сенарияҳои ҳамаҷонибаи санҷиш ва рушд ба осонӣ ба даст оранд.  

          Оё шумо мехоҳед татбиқи бештари амалии додаҳои синтетикиро омӯзед? Озод ҳис кунед нақшаи намоишӣ!

          Дар бораи муаллифон

          Таҷрибаомӯзии муҳандисии нармафзор

          Рохam донишҷӯи бакалавр дар Донишгоҳи Технологияи Делфт ва таҷрибаомӯзи муҳандисии нармафзор мебошад Синто 

          Engineer Learning Engine

          Михай доктори илмии худро аз он ба даст овард Донишгоҳи Бристол дар мавзӯи Омӯзиши мустаҳкамкунии иерархӣ ба робототехника татбиқ карда мешавад ва а Инженери омузиши мошинхо Аt Синто. 

          Сарпӯши дастури syntho

          Дастури маълумоти синтетикии худро ҳоло захира кунед!