სარგებლობისა და მსგავსების შეფასება სინთეზურ მონაცემთა გენერატორებში: ტექნიკური ღრმა ჩაძირვა და შედარებითი ანალიზი

გამოქვეყნდა:
თებერვალი 27, 2024

შესავალი

დღევანდელ ციფრულ ეპოქაში მნიშვნელოვნად გაიზარდა ცნობიერება მონაცემთა კონფიდენციალურობის შესახებ. მომხმარებლები სულ უფრო მეტად ცნობენ თავიანთ მონაცემებს, როგორც უნიკალურ ციფრულ თითის ანაბეჭდს, რაც საფრთხეს უქმნის მათ კონფიდენციალურობას მონაცემთა დარღვევის შემთხვევაში. ეს შეშფოთება კიდევ უფრო გაძლიერებულია რეგულაციებით, როგორიცაა GDPR, რომელიც აძლევს მომხმარებლებს უფლებას მოითხოვონ მათი მონაცემების წაშლა. მიუხედავად იმისა, რომ ეს ძალიან საჭიროა, ეს კანონმდებლობა შეიძლება იყოს ძალიან ძვირი კომპანიებისთვის, რადგან მონაცემთა ხელმისაწვდომობა მინიმუმამდეა დაყვანილი; შეზღუდვები, რომელთა გადალახვაც ხშირად დროსა და რესურსებს მოითხოვს. 

სარჩევი

რა არის სინთეზური მონაცემთა გენერატორები?

შეიყვანეთ სინთეზური მონაცემები, ამ ამოცანის გადაწყვეტა. სინთეზური მონაცემების გენერატორები ქმნიან მონაცემთა ნაკრებებს, რომლებიც მიბაძავს მომხმარებლის რეალურ მონაცემებს ანონიმურობისა და კონფიდენციალურობის შენარჩუნებით. ეს მიდგომა პოპულარობას იძენს ინდუსტრიებში, ჯანდაცვის დაწყებიდან ფინანსებამდე, სადაც კონფიდენციალურობა უმთავრესია.  

ეს პოსტი მორგებულია მონაცემთა პროფესიონალებისა და ენთუზიასტებისთვის, ფოკუსირებულია სინთეზური მონაცემთა გენერატორების შეფასებაზე. ჩვენ ჩავუღრმავდებით ძირითად მეტრიკას და ჩავატარებთ შედარებით ანალიზს Syntho's Engine-სა და მის ღია კოდის ალტერნატივებს შორის, შემოგთავაზებთ ინფორმაციას იმის შესახებ, თუ როგორ ეფექტურად შევაფასოთ სინთეზური მონაცემების გენერირების გადაწყვეტის ხარისხი. გარდა ამისა, ჩვენ ასევე შევაფასებთ თითოეული ამ მოდელის დროის ღირებულებას, რათა მივცეთ დამატებითი ინფორმაცია მოდელების მუშაობის შესახებ. 

როგორ ავირჩიოთ სწორი სინთეზური მონაცემების გენერირების მეთოდი?

სინთეზური მონაცემთა გენერირების მრავალფეროვან ლანდშაფტში, არსებობს უამრავი მეთოდი, რომელთაგან თითოეული იბრძვის ყურადღებისთვის თავისი უნიკალური შესაძლებლობებით. კონკრეტული აპლიკაციისთვის ყველაზე შესაფერისი მეთოდის არჩევა მოითხოვს თითოეული ვარიანტის შესრულების მახასიათებლების საფუძვლიან გააზრებას. ეს მოითხოვს სხვადასხვა სინთეზური მონაცემთა გენერატორების ყოვლისმომცველ შეფასებას, რომელიც დაფუძნებულია კარგად განსაზღვრულ მეტრიკებზე, ინფორმირებული გადაწყვეტილების მისაღებად. 

შემდეგი არის Syntho Engine-ის მკაცრი შედარებითი ანალიზი, კარგად ცნობილ ღია კოდის ჩარჩოსთან, Synthetic Data Vault (SDV). ამ ანალიზში, ჩვენ გამოვიყენეთ მრავალი ხშირად გამოყენებული მეტრიკა, როგორიცაა სტატისტიკური ერთგულება, პროგნოზირების სიზუსტე და ცვლადებს შორის ურთიერთობა. 

სინთეტიკური მონაცემთა შეფასების მეტრიკა

რაიმე კონკრეტული მეტრიკის შემოღებამდე, უნდა ვაღიაროთ, რომ არსებობს მრავალი იდეოლოგია სინთეტიკური მონაცემების შეფასების შესახებ, რომელთაგან თითოეული იძლევა ინფორმაციის გარკვეულ ასპექტს. ამის გათვალისწინებით, შემდეგი სამი კატეგორია გამოირჩევა, როგორც მნიშვნელოვანი და ყოვლისმომცველი. ეს მეტრიკა იძლევა ინფორმაციის ხარისხის სხვადასხვა ასპექტს. ეს კატეგორიებია: 

      1. სტატისტიკური ერთგულების მეტრიკა: მონაცემთა ძირითადი სტატისტიკური მახასიათებლების შესწავლა, როგორიცაა საშუალებები და დისპერსიები, რათა დარწმუნდეს, რომ სინთეზური მონაცემები შეესაბამება თავდაპირველ მონაცემთა სტატისტიკურ პროფილს. 

        1. პროგნოზირების სიზუსტე: სინთეტიკური მონაცემების გენერირების მოდელის მუშაობის შესწავლა, გაწვრთნილი ორიგინალური მონაცემებით და შეფასებული სინთეტიკური მონაცემებით (Train Real – Test Synthetic, TRTS) და პირიქით (Train Synthetic – Test Real, TSTR) 

          1. ცვლადთაშორისი ურთიერთობები: ეს კომბინირებული კატეგორია მოიცავს: 

            • მახასიათებლების კორელაცია: ჩვენ ვაფასებთ რამდენად კარგად ინარჩუნებს სინთეზური მონაცემები ცვლადებს შორის კავშირებს კორელაციის კოეფიციენტების გამოყენებით. ცნობილი მეტრიკა, როგორიცაა მიდრეკილების საშუალო კვადრატული შეცდომა (PMSE) იქნება ამ ტიპის. 

            • ურთიერთინფორმაცია: ჩვენ ვზომავთ ურთიერთდამოკიდებულებებს ცვლადებს შორის, რათა გავიგოთ ამ ურთიერთობების სიღრმე მხოლოდ კორელაციების მიღმა. 

          შედარებითი ანალიზი: Syntho Engine წინააღმდეგ ღია წყაროს ალტერნატივები

          შედარებითი ანალიზი ჩატარდა სტანდარტიზებული შეფასების ჩარჩოს და იდენტური ტესტირების ტექნიკის გამოყენებით ყველა მოდელში, მათ შორის Syntho Engine და SDV მოდელები. მონაცემთა ნაკრების იდენტური წყაროებიდან სინთეზირებით და მათი იგივე სტატისტიკური ტესტებისა და მანქანათმცოდნეობის მოდელის შეფასების ქვეშ, ჩვენ უზრუნველვყოფთ სამართლიან და მიუკერძოებელ შედარებას. სექცია, რომელიც მოჰყვება, დეტალურადაა აღწერილი თითოეული სინთეზური მონაცემთა გენერატორის მუშაობაზე ზემოთ წარმოდგენილი მეტრიკის დიაპაზონში.  

           

          რაც შეეხება შეფასებისთვის გამოყენებულ მონაცემთა ბაზას, ჩვენ გამოვიყენეთ UCI ზრდასრულთა აღწერის მონაცემთა ნაკრები რომელიც არის ცნობილი მონაცემთა ნაკრები მანქანათმცოდნეობის საზოგადოებაში. ჩვენ გავასუფთავეთ მონაცემები ყველა ტრენინგის დაწყებამდე და შემდეგ გავყავით მონაცემთა ნაკრები ორ ნაწილად (სავარჯიშო და შესანახი ნაკრები ტესტირებისთვის). ჩვენ გამოვიყენეთ ტრენინგის ნაკრები თითოეული მოდელისთვის 1 მილიონი ახალი მონაცემთა წერტილის შესაქმნელად და შევაფასეთ სხვადასხვა მეტრიკა ამ გენერირებულ მონაცემთა ნაკრებებზე. მანქანათმცოდნეობის შემდგომი შეფასებისთვის, ჩვენ გამოვიყენეთ საყრდენი კომპლექტი ისეთი მეტრიკის შესაფასებლად, როგორიცაა TSTR და TRTS-თან დაკავშირებული.  

           

          თითოეული გენერატორი მუშაობდა ნაგულისხმევი პარამეტრებით. იმის გამო, რომ ზოგიერთ მოდელს, მაგალითად Syntho-ს, შეუძლია შეუფერხებლად იმუშაოს ნებისმიერ ცხრილურ მონაცემზე, არ გაკეთებულა წვდომა. თითოეული მოდელისთვის სწორი ჰიპერპარამეტრების ძიებას მნიშვნელოვანი დრო დასჭირდება და ცხრილი 2 უკვე აჩვენებს დიდ დროს განსხვავებას Syntho-ს მოდელსა და ტესტირებას შორის. 

           

          აღსანიშნავია, რომ SDV-ის დანარჩენი მოდელებისგან განსხვავებით, Gaussian Copula Synthesizer დაფუძნებულია სტატისტიკურ მეთოდებზე. ამის საპირისპიროდ, დანარჩენი ეფუძნება ნერვულ ქსელებს, როგორიცაა Generative Adversarial Networks (GAN) მოდელები და ვარიაციული ავტომატური შიფრები. სწორედ ამიტომ, გაუსიან კოპულა შეიძლება ჩაითვალოს საბაზისო ხაზად ყველა განხილული მოდელისთვის. 

          შედეგები

          მონაცემთა ხარისხი

          სურათი 1. ძირითადი ხარისხის შედეგების ვიზუალიზაცია ყველა მოდელისთვის

          ადრე განხილული ერთგულება ტენდენციებთან და მონაცემებში წარმოდგენილია ნახაზში 1 და ცხრილში 1. აქ, გამოყენებული თითოეული მეტრიკა შეიძლება შემდეგნაირად იქნას განმარტებული:

          • საერთო ხარისხის ქულა: სინთეზური მონაცემების ხარისხის საერთო შეფასება, რომელიც აერთიანებს სხვადასხვა ასპექტებს, როგორიცაა სტატისტიკური მსგავსება და მონაცემთა მახასიათებლები. 
          • სვეტის ფორმები: აფასებს, ინარჩუნებს თუ არა სინთეზური მონაცემები იგივე განაწილების ფორმას, როგორც რეალური მონაცემები თითოეული სვეტისთვის. 
          • სვეტების წყვილის ტენდენციები: აფასებს ურთიერთობას ან კორელაციას სვეტების წყვილებს შორის სინთეზურ მონაცემებში რეალურ მონაცემებთან შედარებით. 
          •  

          საერთო ჯამში, შეიძლება აღინიშნოს, რომ Syntho აღწევს ძალიან მაღალ ქულებს მთელს დაფაზე. დასაწყისისთვის, მონაცემთა საერთო ხარისხის დათვალიერებისას (შეფასებული SDV მეტრიკის ბიბლიოთეკით) Syntho-ს შეუძლია მიაღწიოს 99%-ზე მეტ შედეგს (სვეტის ფორმის დაცვით 99.92% და სვეტის წყვილის ფორმის დაცვით 99.31%). ეს მაშინ, როცა SDV იღებს მაქსიმუმ 90.84% ​​შედეგს (გაუსიან კოპულასთან, რომელსაც აქვს სვეტის ფორმის მიმაგრება 93.82% და სვეტის წყვილის ფორმის შესაბამისობა 87.86%). 

          თითოეული გენერირებული მონაცემთა ნაკრების ხარისხის ქულების ტაბულური წარმოდგენა თითო მოდელზე

          ცხრილი 1. თითოეული გენერირებული მონაცემთა ნაკრების ხარისხის ქულების ტაბულური წარმოდგენა მოდელზე 

          მონაცემთა დაფარვა

          SDV-ის დიაგნოსტიკის ანგარიშის მოდული გვახსენებს, რომ SDV-ს მიერ გენერირებული მონაცემები (ყველა შემთხვევაში) აკლია რიცხვითი დიაპაზონების 10%-ზე მეტს; სამმაგზე დაფუძნებული ვარიაციული ავტოენკოდერის (TVAE) შემთხვევაში, კატეგორიული მონაცემების იგივე რაოდენობა ასევე აკლია თავდაპირველ მონაცემთა ბაზასთან შედარებით. სინთოს გამოყენებით მიღწეული შედეგებით ასეთი გაფრთხილებები არ იყო გენერირებული.  

          ყველა მოდელისთვის საშუალო სვეტის მიხედვით შესრულების მეტრიკის ვიზუალიზაცია
           
           

          სურათი 2. ყველა მოდელისთვის საშუალო სვეტის მიხედვით შესრულების მეტრიკის ვიზუალიზაცია 

          შედარებით ანალიზში, სურათი 2-ის ნაკვეთი გვიჩვენებს, რომ SDV არქივები ზღვრულად უკეთეს შედეგებს იძლევა კატეგორიის დაფარვისას მათი ზოგიერთი მოდელით (კერძოდ GaussianCopula, CopulaGAN და პირობითი ტაბულური GAN - CTGAN). მიუხედავად ამისა, მნიშვნელოვანია ხაზგასმით აღვნიშნოთ, რომ Syntho-ს მონაცემების სანდოობა აღემატება SDV მოდელებს, რადგან კატეგორიებსა და დიაპაზონებს შორის გაშუქების შეუსაბამობა მინიმალურია და ავლენს მხოლოდ 1.1% განსხვავებას. ამის საპირისპიროდ, SDV მოდელები აჩვენებენ მნიშვნელოვან ცვალებადობას, 14.6%-დან 29.2%-მდე. 

           

          აქ წარმოდგენილი მეტრიკა შეიძლება განიმარტოს შემდეგნაირად: 

          • კატეგორიის დაფარვა: ზომავს ყველა კატეგორიის არსებობას სინთეზურ მონაცემებში რეალურ მონაცემებთან შედარებით.
          • დიაპაზონის დაფარვა: აფასებს რამდენად ემთხვევა მნიშვნელობების დიაპაზონი სინთეზურ მონაცემებში რეალურ მონაცემებში. 
          მოცემული ატრიბუტის ტიპის საშუალო დაფარვის ტაბულური წარმოდგენა თითო მოდელზე

          ცხრილი 2. მოცემული ატრიბუტის ტიპის საშუალო დაფარვის ტაბულური წარმოდგენა თითო მოდელზე 

          კომუნალური

          სინთეზური მონაცემების სარგებლიანობის თემაზე გადასვლისას აქტუალური ხდება მონაცემების მომზადების მოდელების საკითხი. ყველა ჩარჩოს შორის დაბალანსებული და სამართლიანი შედარება რომ გვქონდეს, ჩვენ ავირჩიეთ ნაგულისხმევი გრადიენტის გამაძლიერებელი კლასიფიკატორი SciKit Learn ბიბლიოთეკიდან, რადგან ის საკმაოდ მიღებულია, როგორც კარგად მოქმედი მოდელი გარე პარამეტრებით.  

           

          გაწვრთნილია ორი განსხვავებული მოდელი, ერთი სინთეზურ მონაცემებზე (TSTR) და ერთი ორიგინალურ მონაცემებზე (TRTS-ისთვის). სინთეზურ მონაცემებზე გაწვრთნილი მოდელი შეფასებულია შემანარჩუნებელი ტესტის ნაკრების გამოყენებით (რომელიც არ იყო გამოყენებული სინთეზური მონაცემების გენერირების დროს) და ორიგინალურ მონაცემებზე მომზადებული მოდელი ტესტირება ხდება სინთეტიკურ მონაცემთა ბაზაზე.  

          მრუდის ქვეშ მდებარე ფართობის (AUC) ქულების ვიზუალიზაცია მეთოდზე თითო მოდელზე

          სურათი 3. მრუდის ქვეშ მდებარე ფართობის (AUC) ქულების ვიზუალიზაცია მეთოდზე თითო მოდელზე 

           ზემოთ მოყვანილი შედეგები აჩვენებს Synthetic მონაცემთა გენერირების უპირატესობას Syntho ძრავის მიერ სხვა მეთოდებთან შედარებით, რადგან არ არსებობს განსხვავება სხვადასხვა მეთოდით მიღებულ შედეგებს შორის (მიუთითებს სინთეზურ და რეალურ მონაცემებს შორის მაღალ მსგავსებაზე). ასევე, ნახაზზე არსებული წითელი წერტილოვანი ხაზი არის შედეგი, რომელიც მიღებულია Train Real, Test Real (TRTR) ტესტის საბაზისო შესრულების შეფასებით, რათა უზრუნველყოს საბაზისო ხაზი დაკვირვებული მეტრიკებისთვის. ეს ხაზი წარმოადგენს მნიშვნელობას 0.92, რომელიც არის მრუდის ქვეშ არსებული ფართობის ქულა (AUC), რომელიც მიღწეულია რეალურ მონაცემებზე მომზადებული მოდელის მიერ და გამოცდილი რეალურ მონაცემებზე. 

          AUC ქულების ტაბულური წარმოდგენა, რომლებიც მიღწეულია TRTS და TSTR შესაბამისად თითო მოდელზე.

          ცხრილი 3. AUC ქულების ტაბულური წარმოდგენა TRTS-ით და TSTR-ით, შესაბამისად, თითო მოდელზე. 

          დროის გონივრული შედარება

          ბუნებრივია, გადამწყვეტი მნიშვნელობა აქვს ამ შედეგების გამომუშავებაში დახარჯული დროის გათვალისწინებას. ქვემოთ მოყვანილი ვიზუალიზაცია სწორედ ამას ასახავს.

          დროის ვიზუალიზაცია ერთი მილიონი მონაცემთა წერტილის სინთეზური მონაცემების მომზადებისა და შესასრულებლად GPU მოდელით და მის გარეშე.

          სურათი 5. ვარჯიშისა და შესრულებისთვის საჭირო დროის ვიზუალიზაცია სინთეზური მონაცემების გენერირება ერთი მილიონი მონაცემთა წერტილიდან მოდელთან ერთად და მის გარეშე GPU. 

          სურათი 5 ასახავს სინთეზური მონაცემების გენერირებისთვის საჭირო დროს ორ სხვადასხვა პარამეტრში. მათგან პირველი (აქ მოიხსენიება როგორც GPU-ს გარეშე), იყო სატესტო გაშვებები, რომლებიც მუშაობდნენ სისტემაზე Intel Xeon CPU-ით 16 ბირთვით, რომელიც მუშაობს 2.20 გჰც სიხშირეზე. ტესტები მონიშნული, როგორც „გაშვებული GPU-ით“ იყო სისტემაზე AMD Ryzen 9 7945HX CPU-ით 16 ბირთვით, რომელიც მუშაობს 2.5GHz-ზე და NVIDIA GeForce RTX 4070 ლეპტოპის GPU. როგორც შესამჩნევია სურათზე 2 და ცხრილში 2 ქვემოთ, შეიძლება შეინიშნოს, რომ Syntho მნიშვნელოვნად უფრო სწრაფია სინთეზური მონაცემების გენერირებაში (ორივე სცენარში), რაც კრიტიკულია დინამიურ სამუშაო პროცესზე. 

          ცხრილი, რომელიც ასახავს 1 მილიონი მონაცემთა წერტილის სინთეზური მონაცემთა წარმოქმნის დროს თითოეულ მოდელს GPU-ით და გარეშე

          ცხრილი 5. ტაბულური წარმოდგენა იმ დროის შესახებ სინთეზური მონაცემების გენერირება ერთი მილიონი მონაცემთა წერტილი თითოეულ მოდელზე GPU-ით და მის გარეშე 

          დასკვნითი შენიშვნები და მომავალი მიმართულებები 

          დასკვნები ხაზს უსვამს ხარისხის საფუძვლიანი შეფასების მნიშვნელობას სინთეზური მონაცემების გენერირების სწორი მეთოდის არჩევისას. Syntho's Engine, თავისი AI-ზე ორიენტირებული მიდგომით, ავლენს საყურადღებო ძლიერ მხარეებს გარკვეულ მეტრიკაში, ხოლო ღია კოდის ინსტრუმენტები, როგორიცაა SDV, ანათებს მრავალფეროვნებითა და საზოგადოებაზე ორიენტირებული გაუმჯობესებით. 

          რადგან სინთეზური მონაცემების სფერო აგრძელებს განვითარებას, ჩვენ მოგიწოდებთ გამოიყენოთ ეს მეტრიკა თქვენს პროექტებში, შეისწავლოთ მათი სირთულეები და გააზიაროთ თქვენი გამოცდილება. თვალყური ადევნეთ მომავალ პოსტებს, სადაც უფრო ღრმად ჩავუღრმავდებით სხვა მეტრიკას და გამოვყოფთ მათი გამოყენების რეალურ მაგალითებს. 

          დღის ბოლოს, მათთვის, ვინც ეძებს წყლის ტესტირებას სინთეზურ მონაცემებზე, წარმოდგენილი ღია კოდის ალტერნატივა შეიძლება იყოს გამართლებული არჩევანი ხელმისაწვდომობის გათვალისწინებით; თუმცა, პროფესიონალებისთვის, რომლებიც აერთიანებენ ამ თანამედროვე ტექნოლოგიას თავიანთი განვითარების პროცესში, უნდა გამოიყენონ გაუმჯობესების ნებისმიერი შანსი და თავიდან აიცილონ ყველანაირი დაბრკოლება. აქედან გამომდინარე, მნიშვნელოვანია აირჩიოთ საუკეთესო ვარიანტი. ზემოთ მოწოდებული ანალიზებით საკმაოდ აშკარა ხდება, რომ Syntho და ამასთან Syntho Engine არის ძალიან ეფექტური ინსტრუმენტი პრაქტიკოსებისთვის. 

          სინთოს შესახებ

          სინტო უზრუნველყოფს ჭკვიანი სინთეზური მონაცემთა გენერირების პლატფორმას, იყენებს მრავალი სინთეზური მონაცემთა ფორმებს და გენერირების მეთოდებს, აძლევს ორგანიზაციებს უფლებას, ჭკვიანურად გარდაქმნან მონაცემები კონკურენტულ უპირატესობად. ჩვენი ხელოვნური ინტელექტის მიერ გენერირებული სინთეზური მონაცემები მიბაძავს ორიგინალური მონაცემების სტატისტიკურ ნიმუშებს, რაც უზრუნველყოფს სიზუსტეს, კონფიდენციალურობას და სიჩქარეს, როგორც ეს აფასებს გარე ექსპერტებს, როგორიცაა SAS. ჭკვიანი დეიდენტიფიკაციის ფუნქციებით და თანმიმდევრული რუკებით, სენსიტიური ინფორმაცია დაცულია რეფერენტული მთლიანობის შენარჩუნებით. ჩვენი პლატფორმა საშუალებას იძლევა შექმნას, მართვას და კონტროლს სატესტო მონაცემების არასაწარმოო გარემოსთვის, მიზნობრივი სცენარებისთვის წესებზე დაფუძნებული სინთეზური მონაცემთა გენერირების მეთოდების გამოყენებით. გარდა ამისა, მომხმარებლებს შეუძლიათ შექმნან სინთეზური მონაცემები პროგრამულად და მიიღონ რეალისტური ტესტის მონაცემები, რათა მარტივად შეიმუშაონ ყოვლისმომცველი ტესტირება და განვითარების სცენარები.  

          გსურთ გაიგოთ სინთეზური მონაცემების მეტი პრაქტიკული გამოყენება? მოგერიდებათ განრიგის დემო!

          ავტორთა შესახებ

          პროგრამული ინჟინერიის სტაჟიორი

          Rohanam არის დელფტის ტექნოლოგიური უნივერსიტეტის ბაკალავრის სტუდენტი და არის პროგრამული უზრუნველყოფის ინჟინერიის სტაჟიორი სინტო 

          მანქანათმშენებლობის ინჟინერი

          მიჰაიმ დოქტორის ხარისხი მიიღო ბრისტოლის უნივერსიტეტი თემაზე იერარქიული განმტკიცების სწავლება მიმართა რობოტიკას და არის ა მანქანათმცოდნე ინჟინერი აt სინტო. 

          სინთო გიდის საფარი

          შეინახეთ თქვენი სინთეტიკური მონაცემების სახელმძღვანელო ახლავე!