Синтетик өгөгдөл үүсгэгчийн ашиг тус, ижил төстэй байдлыг үнэлэх: Техникийн гүн гүнзгий шумбалт ба харьцуулсан шинжилгээ

Нийтэлсэн:
Хоёрдугаар сарын 27, 2024

Оршил

Өнөөгийн дижитал эрин үед мэдээллийн нууцлалын талаарх ойлголт эрс нэмэгдсэн. Хэрэглэгчид өөрсдийн өгөгдлийг өвөрмөц дижитал хурууны хээ гэж хүлээн зөвшөөрч, мэдээлэл алдагдсан тохиолдолд тэдний хувийн нууцад эрсдэл учруулдаг. Энэхүү санаа зовоосон асуудал нь GDPR гэх мэт зохицуулалтаар улам бүр нэмэгддэг бөгөөд энэ нь хэрэглэгчдэд мэдээллээ устгах хүсэлт гаргах боломжийг олгодог. Хэдийгээр маш их хэрэгцээтэй байгаа ч энэ хууль тогтоомж нь мэдээлэлд хандах хандалтыг багасгадаг тул компаниудад маш их зардал гарах болно; даван туулахад ихэвчлэн цаг хугацаа, нөөц их шаарддаг хязгаарлалтууд. 

Гарчиг

Синтетик өгөгдөл үүсгэгч гэж юу вэ?

Синтетик өгөгдлийг оруулна уу, энэ тааварт шийдэл. Синтетик өгөгдөл үүсгэгч нь нэрээ нууцлах, нууцлалыг хадгалахын зэрэгцээ бодит хэрэглэгчийн өгөгдлийг дуурайдаг өгөгдлийн багц үүсгэдэг. Энэхүү арга нь хувийн нууцыг чухалчилдаг эрүүл мэндийн тусламж үйлчилгээнээс эхлээд санхүү хүртэлх бүх салбарт хүчээ авч байна.  

Энэхүү нийтлэл нь өгөгдлийн мэргэжилтнүүд болон сонирхогчдод зориулагдсан бөгөөд синтетик өгөгдөл үүсгэгчийн үнэлгээнд анхаарлаа хандуулдаг. Бид үндсэн хэмжүүрүүдийг судалж, Syntho's Engine болон түүний нээлттэй эхийн хувилбаруудын хооронд харьцуулсан дүн шинжилгээ хийж, синтетик өгөгдөл үүсгэх шийдлийн чанарыг хэрхэн үр дүнтэй үнэлэх талаар ойлголт өгөх болно. Цаашилбал, бид загвар бүрийн ажлын талаархи нэмэлт ойлголтыг өгөхийн тулд эдгээр загвар бүрийн цаг хугацааны зардлыг үнэлэх болно. 

Синтетик өгөгдөл үүсгэх зөв аргыг хэрхэн сонгох вэ?

Синтетик өгөгдөл үүсгэх олон янзын ландшафтад олон арга байдаг бөгөөд тус бүр нь өөрийн өвөрмөц чадвараараа анхаарал татахаар өрсөлддөг. Тодорхой хэрэглээнд хамгийн тохиромжтой аргыг сонгох нь сонголт бүрийн гүйцэтгэлийн шинж чанарыг сайтар ойлгохыг шаарддаг. Энэ нь үндэслэлтэй шийдвэр гаргахын тулд сайн тодорхойлсон хэмжүүр дээр үндэслэн төрөл бүрийн синтетик өгөгдөл үүсгэгчийг цогцоор нь үнэлэх шаардлагатай болдог. 

Дараахь зүйл бол Synthetic Data Vault (SDV) нэртэй нээлттэй эхийн хүрээний зэрэгцээ Syntho Engine-ийн нарийн харьцуулсан дүн шинжилгээ юм. Энэхүү шинжилгээнд бид статистикийн үнэнч байдал, урьдчилан таамаглах үнэн зөв байдал, хувьсагч хоорондын хамаарал зэрэг түгээмэл хэрэглэгддэг олон хэмжүүрүүдийг ашигласан. 

Синтетик өгөгдлийн үнэлгээний хэмжүүр

Тодорхой хэмжигдэхүүнийг танилцуулахаас өмнө синтетик өгөгдлийг үнэлэх олон үзэл баримтлал байдгийг бид хүлээн зөвшөөрөх ёстой бөгөөд тэдгээр нь тус бүр нь өгөгдлийн тодорхой талыг ойлгох боломжийг олгодог. Үүнийг харгалзан үзэхэд дараах гурван ангилал нь чухал бөгөөд өргөн хүрээтэй гэдгээрээ онцлог юм. Эдгээр хэмжүүрүүд нь өгөгдлийн чанарын янз бүрийн талуудын талаархи ойлголтыг өгдөг. Эдгээр ангилал нь: 

      1. Статистикийн үнэнч байдлын хэмжүүр: Синтетик өгөгдөл нь анхны өгөгдлийн багцын статистик профайлтай нийцэж байгаа эсэхийг шалгахын тулд өгөгдлийн үндсэн статистик шинж чанаруудыг, тухайлбал дундаж болон хэлбэлзлийг судалж байна. 

        1. Урьдчилан таамаглах нарийвчлал: Синтетик өгөгдөл үүсгэх загварын гүйцэтгэлийг шалгаж, анхны мэдээллээр сургаж, синтетик өгөгдөл дээр үнэлдэг (Train Real – Test Synthetic, TRTS) болон эсрэгээр (Train Synthetic – Test Real, TSTR) 

          1. Хувьсагч хоорондын харилцаа: Энэхүү хосолсон ангилалд дараахь зүйлс орно. 

            • Онцлогийн хамаарал: Корреляцийн коэффициентийг ашиглан синтетик өгөгдөл нь хувьсагчдын хоорондын хамаарлыг хэр сайн хадгалж байгааг бид үнэлдэг. Пропенсийн дундаж квадрат алдаа (PMSE) гэх мэт сайн мэддэг хэмжигдэхүүн нь ийм төрлийн байх болно. 

            • Харилцан мэдээлэл: Бид эдгээр хамаарлын гүнийг ойлгохын тулд хувьсагчдын хоорондын харилцан хамаарлыг хэмждэг. 

          Харьцуулсан шинжилгээ: Syntho Engine ба Нээлттэй эхийн хувилбарууд

          Харьцуулсан шинжилгээг стандартчилагдсан үнэлгээний тогтолцоо, Syntho Engine болон SDV загвар зэрэг бүх загварт ижил туршилтын техник ашиглан хийсэн. Ижил эх сурвалжаас өгөгдлийн багцыг нэгтгэж, тэдгээрийг ижил статистикийн туршилт, машин сургалтын загварын үнэлгээнд хамруулснаар бид шударга, шударга бус харьцуулалтыг баталгаажуулдаг. Дараах хэсэг нь дээр дурдсан хэмжүүрийн хүрээнд синтетик өгөгдөл үүсгэгч бүрийн гүйцэтгэлийг дэлгэрэнгүй харуулав.  

           

          Үнэлгээнд ашигласан өгөгдлийн багцын хувьд бид ашигласан UCI Насанд хүрэгчдийн тооллогын мэдээллийн багц Энэ нь машин сургалтын нийгэмлэгт алдартай мэдээллийн багц юм. Бид бүх сургалтын өмнө өгөгдлийг цэвэрлэж, дараа нь өгөгдлийн багцыг хоёр багцад (сургалт ба туршилтын багц) хуваалаа. Бид сургалтын багцыг загвар тус бүрээр 1 сая шинэ мэдээллийн цэг үүсгэхэд ашиглаж, эдгээр үүсгэсэн өгөгдлийн багц дээр янз бүрийн хэмжүүрүүдийг үнэлэв. Цаашдын машин сургалтын үнэлгээний хувьд бид TSTR болон TRTS-тэй холбоотой хэмжигдэхүүнүүдийг үнэлэхийн тулд хүлээлтийн багцыг ашигласан.  

           

          Генератор бүрийг үндсэн параметрүүдээр ажиллуулсан. Syntho гэх мэт зарим загварууд нь ямар ч хүснэгтэн өгөгдөл дээр ажиллах боломжтой тул нарийн тохируулга хийгээгүй. Загвар тус бүрт тохирох гиперпараметрийг хайхад ихээхэн цаг хугацаа шаардагдах бөгөөд 2-р хүснэгтэд Syntho-ийн загвар болон туршилтын загваруудын хооронд цагийн зөрүү их байгааг харуулав. 

           

          SDV-ийн бусад загваруудаас ялгаатай нь Гауссын Копула синтезатор нь статистикийн аргууд дээр суурилдаг нь анхаарал татаж байна. Үүний эсрэгээр, бусад нь Generative Adversarial Networks (GAN) загварууд болон вариацын автомат кодлогч зэрэг мэдрэлийн сүлжээн дээр суурилдаг. Тийм ч учраас Гауссын Копула нь хэлэлцсэн бүх загваруудын үндэс суурь гэж үзэж болно. 

          үр дүн

          Өгөгдлийн чанар

          Зураг 1. Бүх загварын чанарын үндсэн үр дүнгийн дүрслэл

          Өгөгдөл дэх чиг хандлага, дүрслэлийг өмнө нь хэлэлцсэн баримтуудыг Зураг 1 болон Хүснэгт 1-ээс харж болно. Энд ашиглагдаж буй хэмжүүр бүрийг дараах байдлаар тайлбарлаж болно.

          • Чанарын ерөнхий оноо: Статистикийн ижил төстэй байдал, өгөгдлийн шинж чанар зэрэг янз бүрийн талуудыг нэгтгэсэн синтетик өгөгдлийн чанарын ерөнхий үнэлгээ. 
          • Баганын хэлбэрүүд: Синтетик өгөгдөл нь багана бүрийн бодит өгөгдөлтэй ижил тархалтын хэлбэрийг хадгалж байгаа эсэхийг үнэлдэг. 
          • Баганын хосын чиг хандлага: Синтетик өгөгдлийн хос баганын хоорондын хамаарлыг бодит өгөгдөлтэй харьцуулан үнэлдэг. 
          •  

          Ерөнхийдөө Syntho нь самбар дээр маш өндөр оноо авч байгааг анзаарч болно. Эхлээд өгөгдлийн ерөнхий чанарыг (SDV хэмжигдэхүүний номын сангаар үнэлдэг) авч үзэхэд Syntho нь 99% -иас дээш үр дүнд хүрч чадна (багана хэлбэрийн наалдац 99.92%, баганын хос хэлбэрийн наалдац 99.31%). Энэ нь SDV нь хамгийн ихдээ 90.84%-ийн үр дүнг авдаг (Гауссын Копулатай бол баганын хэлбэрийн наалдац 93.82%, баганын хос хэлбэрийн наалдац 87.86%). 

          Загвар тус бүрийн үүсгэсэн өгөгдлийн багц бүрийн чанарын онооны хүснэгтийн дүрслэл

          Хүснэгт 1. Загвар тус бүрийн үүсгэсэн өгөгдлийн багц бүрийн чанарын онооны хүснэгтэн дүрслэл 

          Өгөгдлийн хамрах хүрээ

          SDV-ийн Оношлогооны тайлангийн модуль нь SDV-ээр үүсгэгдсэн өгөгдөлд (бүх тохиолдолд) тоон мужуудын 10% -иас илүү дутуу байгааг анхаарна уу; Гурвалсан хувилбарт автомат кодлогч (TVAE)-ийн хувьд анхны өгөгдлийн багцтай харьцуулахад ижил хэмжээний категорийн өгөгдөл байхгүй байна. Syntho-г ашигласнаар ийм анхааруулга гараагүй.  

          бүх загварт зориулсан баганын гүйцэтгэлийн дундаж үзүүлэлтүүдийн дүрслэл
           
           

          Зураг 2. бүх загваруудын баганын гүйцэтгэлийн дундаж үзүүлэлтүүдийн дүрслэл 

          Харьцуулсан дүн шинжилгээ хийхдээ SDV архивын зарим загвар (жишээлбэл, GaussianCopula, CopulaGAN, Нөхцөлт хүснэгт GAN – CTGAN) зэрэглэлийг хамрахад арай илүү үр дүнд хүрч байгааг Зураг 2-ын график харуулж байна. Гэсэн хэдий ч Syntho-ийн өгөгдлийн найдвартай байдал нь SDV загваруудаас давж байгааг онцлон тэмдэглэх нь зүйтэй, учир нь ангилал болон мужуудын хамрах хүрээний зөрүү хамгийн бага бөгөөд ердөө 1.1% зөрүүтэй байдаг. Үүний эсрэгээр, SDV загварууд нь 14.6% -аас 29.2% хооронд хэлбэлздэг ихээхэн өөрчлөлтийг харуулж байна. 

           

          Энд үзүүлсэн хэмжигдэхүүнийг дараах байдлаар тайлбарлаж болно. 

          • Ангилал хамрах хүрээ: Бодит өгөгдөлтэй харьцуулахад синтетик өгөгдөлд бүх категори байгаа эсэхийг хэмждэг.
          • Хамрах хүрээ: Синтетик өгөгдлийн утгуудын хүрээ нь бодит өгөгдөлтэй хэр зэрэг нийцэж байгааг үнэлдэг. 
          Загвар бүрт өгөгдсөн шинж чанарын төрлүүдийн дундаж хамрах хүрээний хүснэгтийн дүрслэл

          Хүснэгт 2. Нэг загварт өгөгдсөн шинж чанарын төрлүүдийн дундаж хамрах хүрээг хүснэгтээр дүрсэлсэн 

          Хэрэгсэл

          Синтетик өгөгдлийн хэрэглээний сэдэв рүү шилжихэд өгөгдлийн загваруудыг сургах асуудал хамааралтай болно. Бүх хүрээнүүдийн хооронд тэнцвэртэй, шударга харьцуулалт хийхийн тулд бид SciKit Learn номын сангаас өгөгдмөл Gradient Boosting Classifier-ийг сонгосон бөгөөд энэ нь бэлэн тохиргоотой, сайн гүйцэтгэлтэй загвар гэж хүлээн зөвшөөрөгдсөн.  

           

          Хоёр өөр загварыг сургадаг бөгөөд нэг нь синтетик өгөгдөл дээр (TSTR-ийн хувьд), нөгөө нь анхны өгөгдөл дээр (TRTS-ийн хувьд). Синтетик өгөгдөл дээр бэлтгэгдсэн загварыг саатуулах тестийн багц (синтетик өгөгдөл үүсгэх үед ашиглагдаагүй) ашиглан үнэлж, анхны өгөгдөл дээр бэлтгэгдсэн загварыг синтетик өгөгдлийн багц дээр туршина.  

          Загвар тус бүрийн арга тус бүрийн муруй доорх талбайн (AUC) онооны дүрслэл

          Зураг 3. Загвар тус бүрийн арга тус бүрийн муруй доорх талбайн (AUC) онооны дүрслэл 

           Дээр үзүүлсэн үр дүн нь Syntho хөдөлгүүрээр синтетик өгөгдөл үүсгэх нь бусад аргуудтай харьцуулахад давуу байдгийг харуулж байгаа бөгөөд янз бүрийн аргаар олж авсан үр дүнгийн хооронд ямар ч ялгаа байхгүй (синтетик болон бодит өгөгдлийн хооронд ижил төстэй байдал) байгааг харуулж байна. Мөн зурагт байгаа улаан тасархай шугам нь ажиглагдсан хэмжигдэхүүнүүдийн суурь үзүүлэлтийг өгөхийн тулд бодит галт тэрэг, бодит туршилт (TRTR) тестийн үндсэн гүйцэтгэлийг үнэлсний үр дүн юм. Энэ мөр нь 0.92 утгыг илэрхийлдэг бөгөөд энэ нь бодит өгөгдөл дээр бэлтгэгдсэн, бодит өгөгдөл дээр туршиж үзсэн загварт хүрсэн муруйн доорх талбайн оноо (AUC оноо) юм. 

          Загвар тус бүрээр TRTS болон TSTR-ийн авсан AUC онооны хүснэгтийн дүрслэл.

          Хүснэгт 3. Загвар тус бүрээр TRTS болон TSTR-ийн авсан AUC онооны хүснэгтийн дүрслэл. 

          Цаг хугацааны хувьд харьцуулалт

          Мэдээжийн хэрэг, эдгээр үр дүнг бий болгоход зарцуулсан цаг хугацааг харгалзан үзэх нь маш чухал юм. Доорх дүрслэл нь үүнийг л харуулж байна.

          GPU-тай болон GPU-гүй загвараар нэг сая өгөгдлийн цэгийн синтетик өгөгдөл үүсгэхийг сургаж, гүйцэтгэхэд зарцуулсан цаг хугацааны дүрслэл.

          Зураг 5. Бэлтгэл хийх, гүйцэтгэхэд зарцуулсан цаг хугацааны дүрслэл синтетик өгөгдөл үүсгэх GPU-тэй болон GPU-гүй загвартай нэг сая өгөгдлийн цэг. 

          Зураг 5-д хоёр өөр тохиргоонд нийлэг өгөгдөл үүсгэхэд зарцуулсан хугацааг харуулав. Эхнийх нь (энд GPU-гүй гэж нэрлэдэг) нь 16 GHz давтамжтай 2.20 цөмтэй Intel Xeon CPU бүхий систем дээр туршилтын туршилтууд байсан. "GPU-тай ажилласан" гэж тэмдэглэсэн туршилтууд нь 9GHz давтамжтай 7945 цөмтэй AMD Ryzen 16 2.5HX CPU болон NVIDIA GeForce RTX 4070 зөөврийн компьютерын график төхөөрөмж дээр хийгдсэн. Зураг 2 болон доорхи Хүснэгт 2-оос харахад Syntho нь динамик ажлын урсгалд чухал ач холбогдолтой синтетик өгөгдлийг (хоёр хувилбарт) үүсгэхдээ хамаагүй хурдан болохыг харж болно. 

          GPU-тэй болон GPU-гүй загвар тус бүрээр 1 сая өгөгдлийн цэгийн синтетик өгөгдөл үүсгэхэд зарцуулсан хугацааг харуулсан хүснэгт.

          Хүснэгт 5. Хүснэгтэнд зарцуулсан цаг хугацааны дүрслэл синтетик өгөгдөл үүсгэх GPU-тэй болон GPU-гүй загвар бүртэй нэг сая өгөгдлийн цэг 

          Төгсгөлийн үг ба цаашдын чиг хандлага 

          Судалгааны үр дүн нь синтетик өгөгдөл үүсгэх зөв аргыг сонгоход чанарын нарийн үнэлгээний ач холбогдлыг онцолж байна. Syntho's Engine нь хиймэл оюун ухаанд тулгуурласан арга барилаараа тодорхой хэмжүүрүүдээр гайхалтай давуу талыг харуулдаг бол SDV зэрэг нээлттэй эхийн хэрэгслүүд нь олон талт байдал, олон нийтэд тулгуурласан сайжруулалтаараа гялалздаг. 

          Синтетик өгөгдлийн салбар үргэлжлэн хөгжиж байгаа тул бид эдгээр хэмжүүрүүдийг төсөлдөө ашиглах, тэдгээрийн нарийн ширийнийг судалж, туршлагаа хуваалцахыг бид танд зөвлөж байна. Бид бусад хэмжигдэхүүнүүдэд илүү гүнзгий нэвтэрч, тэдгээрийн хэрэглээний бодит жишээнүүдийг онцлон харуулах ирээдүйн нийтлэлүүдийг хүлээж байгаарай. 

          Эцсийн эцэст, усыг синтетик өгөгдөл дээр туршиж үзэхийг хүсч буй хүмүүсийн хувьд нээлттэй эх сурвалжийн хувилбар нь хүртээмжтэй нөхцөлд үндэслэлтэй сонголт байж болно; Гэсэн хэдий ч энэхүү орчин үеийн технологийг өөрсдийн хөгжлийн үйл явцад нэвтрүүлж буй мэргэжилтнүүдийн хувьд сайжруулах боломжуудыг ашиглах, бүх саад бэрхшээлээс зайлсхийх хэрэгтэй. Тиймээс хамгийн сайн сонголтыг сонгох нь чухал юм. Дээр өгөгдсөн шинжилгээнүүдээс харахад Syntho нь Syntho хөдөлгүүр нь дадлагажигчдад зориулсан маш чадварлаг хэрэгсэл болох нь илт харагдаж байна. 

          Syntho -ийн тухай

          Синто нь ухаалаг синтетик өгөгдөл үүсгэх платформыг бий болгож, олон тооны синтетик мэдээллийн хэлбэр, үүсгэх аргуудыг ашиглаж, байгууллагуудад өгөгдлийг ухаалаг байдлаар өрсөлдөх чадвартай болгох боломжийг олгодог. Манай хиймэл оюунаар үүсгэсэн синтетик өгөгдөл нь SAS зэрэг гадны мэргэжилтнүүдийн үнэлснээр үнэн зөв, нууцлал, хурдыг баталгаажуулж, анхны өгөгдлийн статистик хэв маягийг дуурайдаг. Тодорхойлолтыг арилгах ухаалаг функцууд болон тууштай зураглалын тусламжтайгаар нууц мэдээллийг хамгаалахын зэрэгцээ лавлагааны бүрэн бүтэн байдлыг хадгална. Манай платформ нь зорилтот хувилбаруудад дүрэмд суурилсан синтетик өгөгдөл үүсгэх аргуудыг ашиглан үйлдвэрлэлийн бус орчинд туршилтын өгөгдлийг үүсгэх, удирдах, хянах боломжийг олгодог. Нэмж дурдахад, хэрэглэгчид иж бүрэн туршилт, хөгжүүлэлтийн хувилбаруудыг хялбархан боловсруулахын тулд нийлэг өгөгдлийг програмын аргаар үүсгэж, бодит туршилтын өгөгдлийг олж авах боломжтой.  

          Та синтетик өгөгдлийн илүү практик хэрэглээг сурахыг хүсч байна уу? Та чөлөөтэй байгаарай демо хуваарь!

          Зохиогчдын тухай

          Програм хангамжийн инженерийн дадлагажигч

          Рохam Делфтийн Технологийн Их Сургуулийн бакалаврын оюутан бөгөөд Програм хангамжийн инженерийн дадлагажигч юм Синто 

          Машин сурах инженер

          Михай докторын зэрэг хамгаалсан Бристолын Их Сургууль Робот техникт хэрэглэгдэх шаталсан бэхжүүлэх сургалтын сэдвээр ба а Машин сургалтын инженер at Синто. 

          syntho гарын авлагын хавтас

          Синтетик мэдээллийн гарын авлагыг яг одоо хадгалаарай!