კლასიკური ანონიმიზაციით, ჩვენ ვგულისხმობთ ყველა მეთოდოლოგიას, როდესაც ერთი მანიპულირებს ან ამახინჯებს მონაცემთა ნაკრების ორიგინალს, რათა ხელი შეუშალოს ინდივიდების კვალს.
კლასიკური ანონიმიზაციის ტიპიური მაგალითები, რასაც ჩვენ პრაქტიკაში ვხედავთ არის განზოგადება, ჩახშობა / წაშლა, ფსევდონიმიზაცია და მწკრივებისა და სვეტების შეცვლა.
აქ მოცემულია ის ტექნიკა შესაბამისი მაგალითებით.
ტექნიკა | ორიგინალი მონაცემები | მანიპულირებული მონაცემები |
განზოგადების | 27 წლის | 25-დან 30 წლამდე |
ჩახშობა / წაშლა | info@syntho.ai | xxxx@xxxxxx.xx |
ფსევდონიმიზაცია | Amsterdam | hVFD6td3jdHHj78ghdgrewui 6 |
რიგისა და სვეტის შერევა | გასწორებული | შერეული |
კლასიკური ანონიმიზაციის ტექნიკით მონაცემთა ნაკრების მანიპულირება იწვევს 2 ძირითად ნაკლოვანებას:
ჩვენ ვაჩვენებთ იმ 2 ძირითად ნაკლოვანებას, მონაცემთა სარგებლიანობას და კონფიდენციალურობის დაცვას. ჩვენ ამას ვაკეთებთ შემდეგი ილუსტრაციით, გამოყენებითი ჩახშობით და განზოგადებით.
შენიშვნა: ჩვენ ვიყენებთ სურათებს საილუსტრაციო მიზნებისთვის. იგივე პრინციპი მოქმედებს სტრუქტურირებული მონაცემთა ნაკრებებისთვის.
ეს ასახავს კომპრომისს მონაცემთა სარგებლიანობასა და კონფიდენციალურობის დაცვას შორის, სადაც კლასიკური ანონიმიზაციის ტექნიკა ყოველთვის გვთავაზობს ორივეს სუბოპტიმალურ კომბინაციას.
არა. ეს არის დიდი მცდარი წარმოდგენა და არ იწვევს ანონიმურ მონაცემებს. კვლავ იყენებთ ამას, როგორც თქვენი მონაცემთა ნაკრების ანონიმურობის საშუალებას? მაშინ ეს ბლოგი უნდა წაიკითხოთ თქვენთვის.
Syntho შეიმუშავებს პროგრამულ უზრუნველყოფას ახალი მონაცემთა ჩანაწერების სრულიად ახალი მონაცემთა ნაკრების შესაქმნელად. ინფორმაცია ნამდვილი პირების იდენტიფიცირებისათვის უბრალოდ არ არის სინთეზურ მონაცემთა ნაკრებში. ვინაიდან სინთეზური მონაცემები შეიცავს პროგრამული უზრუნველყოფის მიერ შექმნილ ხელოვნურ მონაცემთა ჩანაწერებს, პერსონალური მონაცემები უბრალოდ არ არის წარმოდგენილი, რამაც გამოიწვია სიტუაცია კონფიდენციალურობის რისკების გარეშე.
მთავარი განსხვავება სინტოში: ჩვენ ვიყენებთ მანქანათმცოდნეობას. შესაბამისად, ჩვენი გადაწყვეტა აწარმოებს სინთეზურ მონაცემთა ნაკრებში არსებული მონაცემთა ნაკრების სტრუქტურასა და თვისებებს, რაც იწვევს მონაცემთა მაქსიმალურად სარგებლიანობას. შესაბამისად, თქვენ შეძლებთ სინთეტიკური მონაცემების ანალიზისას იგივე შედეგების მიღებას, ვიდრე ორიგინალური მონაცემების გამოყენებას.
ეს საქმის შესწავლა გვიჩვენებს ჩვენი ხარისხის ანგარიშის მაჩვენებლებს, რომლებიც შეიცავს სხვადასხვა სტატისტიკას სინთეზური მონაცემებიდან ჩვენი სინთე ძრავის მეშვეობით გენერირებული ორიგინალ მონაცემებთან შედარებით.
დასასრულს, სინთეზური მონაცემები არის სასურველი გადაწყვეტა მონაცემების სარგებელსა და კონფიდენციალურობის დაცვის ტიპური ქვე-ოპტიმალური კომპრომისის დასაძლევად, რასაც ყველა კლასიკური ანონიმიზაციის ტექნიკა გთავაზობთ.
დასასრულს, მონაცემთა სარგებლობისა და კონფიდენციალურობის დაცვის თვალსაზრისით, ყოველთვის უნდა აირჩიოთ სინთეზური მონაცემები, როდესაც თქვენი გამოყენების შემთხვევაში ასეა შესაძლებელი.
ღირებულება ანალიზისთვის | კონფიდენციალურობის რისკი | |
სინთეზური მონაცემები | მაღალი | არა |
რეალური (პირადი) მონაცემები | მაღალი | მაღალი |
მანიპულირებული მონაცემები (კლასიკური "ანონიმიზაციის" საშუალებით) | დაბალი საშუალო | საშუალო მაღალი |
სინთოს სინთეზური მონაცემები ავსებს ხარვეზებს, სადაც კლასიკური ანონიმიზაციის ტექნიკა ვერ ხერხდება ორივეს მაქსიმალურად გაზრდით მონაცემთა კომუნალური მდე კონფიდენციალურობის დაცვა.