ანონიმური მონაცემები სინთეტიკური მონაცემების წინააღმდეგ

თუ მონაცემთა ანალიტიკის მონაცემთა ტესტირების ჩატარებამდე თქვენს მონაცემებს ანონიმურად ახდენთ, რამდენიმე ფაქტორი მოქმედებს:

  1. თითქმის ყველა შემთხვევაში, ანონიმური მონაცემების მიკვლევა მაინც შესაძლებელია ცალკეული და უნიკალური რიგების გამო (მაგ. სამედიცინო ჩანაწერები)
  2. რაც უფრო მეტს ანონიმიზაციას ან განზოგადებას აკეთებთ, მით მეტ მონაცემს ანადგურებთ. ეს ამცირებს თქვენი მონაცემების ხარისხს და, შესაბამისად, თქვენს შეხედულებებს
  3. ანონიმიზაცია განსხვავებულად მუშაობს მონაცემთა სხვადასხვა ფორმატში. ეს ნიშნავს, რომ ის არ არის მასშტაბირებადი და შეიძლება იყოს ძალიან შრომატევადი

სინთეზური მონაცემები ხსნის ყველა ამ ხარვეზს და სხვა. უყურეთ ქვემოთ მოცემულ ვიდეოს, რათა ნახოთ ანალიტიკის ექსპერტი SAS-ისგან (გლობალური ბაზრის ლიდერი ანალიტიკაში) ახსნის მის შეფასებას ორიგინალურ მონაცემებს, ანონიმიზებულ მონაცემებსა და Syntho-ს მიერ გენერირებულ სინთეტიკურ მონაცემებს შორის ხარისხის განსხვავებაზე.

ეს ვიდეო გადაღებულია Syntho x SAS D[N]A კაფედან ხელოვნური ინტელექტის გენერირებული სინთეტიკური მონაცემების შესახებ. იპოვეთ სრული ვიდეო აქ.

ედვინ ვან უნენმა გაუგზავნა ორიგინალური მონაცემთა ნაკრები Syntho-ს და ჩვენ მოვახდინეთ მონაცემთა ნაკრების სინთეზირება. მაგრამ კითხვა ასევე იყო: "რა მოხდება, თუ შევადარებთ სინთეზურ მონაცემებს ანონიმურ მონაცემებს?" იმის გამო, რომ თქვენ კარგავთ უამრავ ინფორმაციას ანონიმურ მონაცემებში, ეს ასევე მოხდება მონაცემთა ნაკრების სინთეზის დროს? ჩვენ დავიწყეთ მონაცემთა ნაკრები სატელეკომუნიკაციო ინდუსტრიიდან 56.000 მწკრივი და 128 სვეტი კომპანიის გადახურვის ინფორმაციის. ეს მონაცემთა ნაკრები იყო სინთეზირებულიც და ანონიმურიც, ასე რომ ედვინს შეეძლო სინთეზირება ანონიმიზაციასთან შედარება. შემდეგ ედვინმა დაიწყო მოდელირება SAS Viya-ს გამოყენებით. მან ააშენა რამდენიმე მოდელის გადახურება ორიგინალურ მონაცემთა ბაზაზე, კლასიკური რეგრესიის ტექნიკისა და გადაწყვეტილების ხეების გამოყენებით, მაგრამ ასევე უფრო დახვეწილი ტექნიკის გამოყენებით, როგორიცაა ნერვული ქსელები, გრადიენტის გაძლიერება, შემთხვევითი ტყე - ამ ტიპის ტექნიკა. მოდელების აგებისას სტანდარტული SAS Viya ოფციების გამოყენება.

შემდეგ დადგა დრო, რომ გადავხედოთ შედეგებს. შედეგები ძალიან პერსპექტიული იყო სინთეზური მონაცემებისთვის და არა ანონიმიზაციისთვის. აუდიტორიაში მანქანით არ სწავლის ექსპერტებისთვის, ჩვენ ვუყურებთ ROC-მრუდის ქვეშ არსებულ ფართობს, რომელიც რაღაცას მეტყველებს მოდელის სიზუსტეზე. თუ შევადარებთ თავდაპირველ მონაცემებს ანონიმიზებულ მონაცემებს, ჩვენ ვხედავთ, რომ მონაცემთა თავდაპირველ მოდელს აქვს ფართობი ROC-მრუდის ქვეშ .8, რაც საკმაოდ კარგია, თუმცა, ანონიმურ მონაცემებს აქვს ROC-მრუდის ქვეშ .6 ფართობი. ეს ნიშნავს, რომ ჩვენ ვკარგავთ უამრავ ინფორმაციას ანონიმური მოდელით, ასე რომ თქვენ დაკარგავთ ბევრ პროგნოზირების ძალას.

მაგრამ შემდეგ, საკითხავია, რაც შეეხება სინთეტიკის მონაცემებს? აქ ჩვენ ზუსტად იგივე გავაკეთეთ, მაგრამ მონაცემების ანონიმიზაციის ნაცვლად, Syntho-მ მოახდინა მონაცემების სინთეზი. ახლა ჩვენ ვხედავთ, რომ ორიგინალურ და სინთეზურ მონაცემებს აქვთ ფართობი ROC-მრუდის ქვეშ .8, რაც ძალიან ჰგავს. არ არის ზუსტად იგივე ცვალებადობის გამო, მაგრამ ძალიან ჰგავს. ეს ნიშნავს, რომ სინთეზური მონაცემების პოტენციალი ძალიან პერსპექტიულია - ედვინი ამით ძალიან ბედნიერია.

ხალხის ჯგუფი იღიმება

მონაცემები სინთეტიკურია, მაგრამ ჩვენი გუნდი რეალურია!

დაუკავშირდით სინტოს და ჩვენი ერთ -ერთი ექსპერტი დაგიკავშირდებათ სინათლის სიჩქარით სინთეტიკური მონაცემების ღირებულების შესასწავლად!