რა არის სინთეზური მონაცემები?

ავარიის კურსის სინთეტიკური მონაცემები

 

 

შესავალი

რა არის სინთეზური მონაცემები?

პასუხი შედარებით მარტივია. ვინაიდან ორიგინალური მონაცემები გროვდება რეალურ ადამიანებთან (მაგ. კლიენტებთან, პაციენტებთან, თანამშრომლებთან და ა.შ.) ყველა თქვენი ურთიერთობისას და თქვენი შიდა პროცესის მეშვეობით, სინთეზური მონაცემები გენერირდება კომპიუტერული ალგორითმით. ეს კომპიუტერული ალგორითმი ქმნის სრულიად ახალ და ხელოვნურ მონაცემთა წერტილებს.

გადაჭრით მონაცემთა კონფიდენციალურობის გამოწვევებს

სინთეზურად გენერირებული მონაცემები შედგება სრულიად ახალი და ხელოვნური მონაცემთა წერტილებისგან, ორიგინალურ მონაცემებთან ერთი-ერთზე ურთიერთობის გარეშე. მაშასადამე, არცერთი სინთეზური მონაცემთა წერტილის უკან დახევა ან ორიგინალურ მონაცემებზე გადაკეთება შეუძლებელია. შედეგად, სინთეზური მონაცემები გათავისუფლებულია კონფიდენციალურობის რეგულაციებისგან, როგორიცაა GDPR და ემსახურება როგორც გადაწყვეტას მონაცემთა კონფიდენციალურობის გამოწვევების გადასაჭრელად და დასაძლევად.

გაძლიერება და სიმულაცია

სინთეზური მონაცემების გენერაციული ასპექტი საშუალებას გაძლევთ გაზარდოთ და მოახდინოთ სრულიად ახალი მონაცემების სიმულაცია. ეს ფუნქციონირებს, როგორც გადაწყვეტა, როდესაც არ გაქვთ საკმარისი მონაცემები (მონაცემთა დეფიციტი), გსურთ განაახლოთ სქემები ან როდესაც ჯერ არ გაქვთ მონაცემები.

აქ Syntho– ს ყურადღება გამახვილებულია სტრუქტურირებულ მონაცემებზე (მონაცემები დაფორმატებულია ცხრილებში, რომლებიც შეიცავს სტრიქონებს და სვეტებს, როგორც ხედავთ Excel– ის ფურცლებში), მაგრამ ჩვენ ყოველთვის გვსურს სინთეზური მონაცემების კონცეფციის ილუსტრირება სურათების საშუალებით, რადგან ის უფრო მიმზიდველია.

სინთეტიკური მონაცემების სახეები

სინთეზური მონაცემების სამი ტიპი არსებობს სინთეტიკური მონაცემების ქოლგაში. სინთეზური მონაცემების ეს სამი ტიპია: მოჩვენებითი მონაცემები, წესების საფუძველზე გენერირებული სინთეზური მონაცემები და ხელოვნური ინტელექტის (AI) მიერ გენერირებული სინთეზური მონაცემები. ჩვენ მოკლედ განვმარტავთ, რა არის 3 სხვადასხვა ტიპის სინთეზური მონაცემები.

მოტყუებული მონაცემები / იმიტირებული მონაცემები

მოტყუებული მონაცემები არის შემთხვევით გენერირებული მონაცემები (მაგ. მონაცემთა იმიტირებული გენერატორის მიერ).

შესაბამისად, მახასიათებლები, ურთიერთობები და სტატისტიკური შაბლონები, რომლებიც თავდაპირველ მონაცემებშია, არ არის შენახული, აღბეჭდილი და რეპროდუცირებული წარმოქმნილ მოტყუებულ მონაცემებში. აქედან გამომდინარე, მოჩვენებითი მონაცემების / იმიტირებული მონაცემების წარმომადგენლობა მინიმალურია თავდაპირველ მონაცემებთან შედარებით.

  • როდის გამოვიყენოთ იგი: შეცვალოთ პირდაპირი იდენტიფიკატორები (PII) ან როდესაც არ გაქვთ მონაცემები (ჯერ) და არ გსურთ დროისა და ენერგიის დახარჯვა წესების განსაზღვრაზე.

წესებზე დაფუძნებული სინთეზური მონაცემები

წესებზე დაფუძნებული გენერირებული სინთეზური მონაცემები არის სინთეზური მონაცემები, რომლებიც გენერირებულია წინასწარ განსაზღვრული წესების ნაკრებით. ამ წინასწარ განსაზღვრული წესების მაგალითები შეიძლება იყოს ის, რომ გსურთ გქონდეთ სინთეზური მონაცემები გარკვეული მინიმალური მნიშვნელობით, მაქსიმალური მნიშვნელობით ან საშუალო მნიშვნელობით. ნებისმიერი მახასიათებელი, ურთიერთკავშირი და სტატისტიკური ნიმუში, რომელთა რეპროდუცირება გსურთ წესებზე დაფუძნებულ სინთეზურ მონაცემებში, წინასწარ უნდა იყოს განსაზღვრული.

შესაბამისად, მონაცემთა ხარისხი ისეთივე კარგი იქნება, როგორც წესების წინასწარ განსაზღვრული ნაკრები. ეს იწვევს გამოწვევებს, როდესაც მონაცემთა მაღალი ხარისხი არსებითია. პირველ რიგში, შეიძლება განისაზღვროს მხოლოდ წესების შეზღუდული ნაკრები, რომელიც უნდა იყოს აღბეჭდილი სინთეზურ მონაცემებში. გარდა ამისა, მრავალი წესის დაწესება, როგორც წესი, გამოიწვევს წესების გადახურვასა და კონფლიქტს. უფრო მეტიც, თქვენ არასოდეს დაფარავთ სრულად ყველა შესაბამის წესს. გარდა ამისა, შეიძლება არსებობდეს შესაბამისი წესები, რომლებიც არც კი იცით. და ბოლოს (და არ დაგავიწყდეთ), ეს დიდ დროსა და ენერგიას წაგართმევთ, რაც გამოიწვევს არაეფექტურ გადაწყვეტას.

  • როდის გამოვიყენოთ: როცა მონაცემები არ გაქვთ (ჯერ)

ხელოვნური ინტელექტის (AI) მიერ გენერირებული სინთეზური მონაცემები

როგორც სახელიდან მოველით, ხელოვნური ინტელექტის (AI) მიერ გენერირებული სინთეზური მონაცემები არის ხელოვნური ინტელექტის (AI) ალგორითმის მიერ გენერირებული სინთეზური მონაცემები. ხელოვნური ინტელექტის მოდელი მომზადებულია ორიგინალურ მონაცემებზე, რათა შეისწავლოს ყველა მახასიათებელი, ურთიერთობა და სტატისტიკური ნიმუში. ამის შემდეგ, ამ AI ალგორითმს შეუძლია შექმნას სრულიად ახალი მონაცემთა წერტილები და მოახდინოს ამ ახალი მონაცემთა წერტილების მოდელირება ისე, რომ იგი ასახავს მახასიათებლებს, ურთიერთობებს და სტატისტიკურ ნიმუშებს ორიგინალური მონაცემთა ნაკრებიდან. ეს არის ის, რასაც ჩვენ ვუწოდებთ სინთეზურ მონაცემთა ტყუპს.

ხელოვნური ინტელექტის მოდელი მიბაძავს ორიგინალურ მონაცემებს სინთეტიკური მონაცემების ტყუპების შესაქმნელად, რომლებიც შეიძლება გამოყენებულ იქნას, თითქოს ეს ორიგინალური მონაცემებია. ეს განბლოკავს სხვადასხვა გამოყენების შემთხვევებს, როდესაც ხელოვნური ინტელექტის გენერირებული სინთეზური მონაცემები შეიძლება გამოყენებულ იქნას, როგორც ალტერნატივა ორიგინალური (სენსიტიური) მონაცემების გამოსაყენებლად, როგორიცაა ხელოვნური ინტელექტის გენერირებული სინთეტიკური მონაცემების გამოყენება, როგორც ტესტის მონაცემები, დემო მონაცემები ან ანალიტიკისთვის.

ვიზუალიზაცია, თუ როგორ იქმნება სინთეზური მონაცემები

წესებზე დაფუძნებულ სინთეზურ მონაცემებთან შედარებით: იმის ნაცვლად, რომ თქვენ ისწავლოთ და განსაზღვროთ შესაბამისი წესები, AI ალგორითმი ამას ავტომატურად აკეთებს თქვენთვის. აქ გაშუქდება არა მხოლოდ მახასიათებლები, ურთიერთობები და სტატისტიკური შაბლონები, რომელთა შესახებაც თქვენ იცით, ასევე გაშუქდება მახასიათებლები, ურთიერთობები და სტატისტიკური შაბლონები, რომლებიც თქვენ არც კი იცით.

  • როდის გამოვიყენოთ: როდესაც გაქვთ (ზოგიერთი) მონაცემი, როგორც შესატანი მიმიკისთვის ან გამოსაყენებლად, როგორც ამოსავალი წერტილი გონიერი მონაცემების გენერირებისა და გამაძლიერებელი ფუნქციებისთვის

რა ტიპის სინთეზური მონაცემები გამოვიყენოთ?

თქვენი გამოყენების შემთხვევიდან გამომდინარე, რეკომენდირებულია მოტყუებული მონაცემების / იმიტირებული მონაცემების, წესებზე დაფუძნებული გენერირებული სინთეზური მონაცემების ან ხელოვნური ინტელექტის (AI) მიერ გენერირებული სინთეზური მონაცემების კომბინაცია. ეს მიმოხილვა გთავაზობთ პირველ მითითებას, თუ რომელი ტიპის სინთეზური მონაცემები უნდა გამოიყენოთ. იმის გამო, რომ Syntho მხარს უჭერს ყველა მათგანს, მოგერიდებათ დაუკავშირდეთ ჩვენს ექსპერტებს, რათა ღრმად ჩაწეროთ თქვენი გამოყენების საქმე ჩვენთან.

ამ დიაგრამაში წარმოდგენილია სხვადასხვა ტიპის სინთეზური მონაცემები

სინთო გიდის საფარი

შეინახეთ თქვენი სინთეტიკური მონაცემების სახელმძღვანელო ახლავე!