რატომ არ იწვევს კლასიკურ ანონიმიზაციას (და ფსევდონიმიზაციას) ანონიმურ მონაცემებს

რა არის კლასიკური ანონიმიზაცია?

კლასიკური ანონიმიზაციით, ჩვენ ვგულისხმობთ ყველა მეთოდოლოგიას, როდესაც ერთი მანიპულირებს ან ამახინჯებს მონაცემთა ნაკრების ორიგინალს, რათა ხელი შეუშალოს ინდივიდების კვალს.

კლასიკური ანონიმიზაციის ტიპიური მაგალითები, რასაც ჩვენ პრაქტიკაში ვხედავთ არის განზოგადება, ჩახშობა / წაშლა, ფსევდონიმიზაცია და მწკრივებისა და სვეტების შეცვლა.

აქ მოცემულია ის ტექნიკა შესაბამისი მაგალითებით.

ტექნიკა ორიგინალი მონაცემები მანიპულირებული მონაცემები
განზოგადების 27 წლის 25-დან 30 წლამდე
ჩახშობა / წაშლა info@syntho.ai xxxx@xxxxxx.xx
ფსევდონიმიზაცია Amsterdam hVFD6td3jdHHj78ghdgrewui 6
რიგისა და სვეტის შერევა გასწორებული შერეული

რა უარყოფითი მხარეები აქვს კლასიკურ ანონიმიზაციას?

კლასიკური ანონიმიზაციის ტექნიკით მონაცემთა ნაკრების მანიპულირება იწვევს 2 ძირითად ნაკლოვანებას:

  1. მონაცემთა ნაკრების დამახინჯება იწვევს მონაცემთა ხარისხის შემცირებას (ანუ მონაცემთა სარგებლიანობა). ეს წარმოგიდგენთ ნაგვის გაყვანის კლასიკურ პრინციპს.
  2. კონფიდენციალურობის რისკი შემცირდება, მაგრამ ყოველთვის იქნება წარმოდგენილირა ის რჩება და მანიპულირებულია ორიგინალური მონაცემთა ნაკრების ვერსიით 1-1 ურთიერთობით.

ჩვენ ვაჩვენებთ იმ 2 ძირითად ნაკლოვანებას, მონაცემთა სარგებლიანობას და კონფიდენციალურობის დაცვას. ჩვენ ამას ვაკეთებთ შემდეგი ილუსტრაციით, გამოყენებითი ჩახშობით და განზოგადებით.

შენიშვნა: ჩვენ ვიყენებთ სურათებს საილუსტრაციო მიზნებისთვის. იგივე პრინციპი მოქმედებს სტრუქტურირებული მონაცემთა ნაკრებებისთვის.

კლასიკური ანონიმიზაცია ვერ ხერხდება
  • მარცხენა: კლასიკური ანონიმიზაციის მცირე გამოყენებამ გამოიწვია წარმომადგენლობითი ილუსტრაცია. თუმცა, ინდივიდის ადვილად ამოცნობა შესაძლებელია და კონფიდენციალურობის რისკი მნიშვნელოვანია.

 

  • მარჯვენა: კლასიკური ანონიმიზაციის მკაცრი გამოყენება იწვევს კონფიდენციალურობის ძლიერ დაცვას. თუმცა, ილუსტრაცია უსარგებლო ხდება.

კლასიკური ანონიმიზაციის ტექნიკა გვთავაზობს სუბოპტიმალურ კომბინაციას მონაცემთა სასარგებლო და კონფიდენციალურობის დაცვას შორის.

ეს ასახავს კომპრომისს მონაცემთა სარგებლიანობასა და კონფიდენციალურობის დაცვას შორის, სადაც კლასიკური ანონიმიზაციის ტექნიკა ყოველთვის გვთავაზობს ორივეს სუბოპტიმალურ კომბინაციას. 

კლასიკური ანონიმიზაციის სასარგებლო მრუდი

არის გამოსავალი მონაცემთა ნაკრებიდან ყველა პირდაპირი იდენტიფიკატორის (მაგალითად, სახელების) ამოღება?

არა. ეს არის დიდი მცდარი წარმოდგენა და არ იწვევს ანონიმურ მონაცემებს. კვლავ იყენებთ ამას, როგორც თქვენი მონაცემთა ნაკრების ანონიმურობის საშუალებას? მაშინ ეს ბლოგი უნდა წაიკითხოთ თქვენთვის.

რით განსხვავდება სინთეტიკური მონაცემები?

Syntho შეიმუშავებს პროგრამულ უზრუნველყოფას ახალი მონაცემთა ჩანაწერების სრულიად ახალი მონაცემთა ნაკრების შესაქმნელად. ინფორმაცია ნამდვილი პირების იდენტიფიცირებისათვის უბრალოდ არ არის სინთეზურ მონაცემთა ნაკრებში. ვინაიდან სინთეზური მონაცემები შეიცავს პროგრამული უზრუნველყოფის მიერ შექმნილ ხელოვნურ მონაცემთა ჩანაწერებს, პერსონალური მონაცემები უბრალოდ არ არის წარმოდგენილი, რამაც გამოიწვია სიტუაცია კონფიდენციალურობის რისკების გარეშე.

მთავარი განსხვავება სინტოში: ჩვენ ვიყენებთ მანქანათმცოდნეობას. შესაბამისად, ჩვენი გადაწყვეტა აწარმოებს სინთეზურ მონაცემთა ნაკრებში არსებული მონაცემთა ნაკრების სტრუქტურასა და თვისებებს, რაც იწვევს მონაცემთა მაქსიმალურად სარგებლიანობას. შესაბამისად, თქვენ შეძლებთ სინთეტიკური მონაცემების ანალიზისას იგივე შედეგების მიღებას, ვიდრე ორიგინალური მონაცემების გამოყენებას.

ეს საქმის შესწავლა გვიჩვენებს ჩვენი ხარისხის ანგარიშის მაჩვენებლებს, რომლებიც შეიცავს სხვადასხვა სტატისტიკას სინთეზური მონაცემებიდან ჩვენი სინთე ძრავის მეშვეობით გენერირებული ორიგინალ მონაცემებთან შედარებით.

დასასრულს, სინთეზური მონაცემები არის სასურველი გადაწყვეტა მონაცემების სარგებელსა და კონფიდენციალურობის დაცვის ტიპური ქვე-ოპტიმალური კომპრომისის დასაძლევად, რასაც ყველა კლასიკური ანონიმიზაციის ტექნიკა გთავაზობთ.

კლასიკური ანონიმიზაციის სასარგებლო მრუდი

მაშ, რატომ გამოიყენოთ რეალური (მგრძნობიარე) მონაცემები, როდესაც სინთეზური მონაცემების გამოყენება შეგიძლიათ?

დასასრულს, მონაცემთა სარგებლობისა და კონფიდენციალურობის დაცვის თვალსაზრისით, ყოველთვის უნდა აირჩიოთ სინთეზური მონაცემები, როდესაც თქვენი გამოყენების შემთხვევაში ასეა შესაძლებელი.

 ღირებულება ანალიზისთვისკონფიდენციალურობის რისკი
სინთეზური მონაცემებიმაღალიარა
რეალური (პირადი) მონაცემებიმაღალიმაღალი
მანიპულირებული მონაცემები (კლასიკური "ანონიმიზაციის" საშუალებით)დაბალი საშუალოსაშუალო მაღალი
იდეა

სინთოს სინთეზური მონაცემები ავსებს ხარვეზებს, სადაც კლასიკური ანონიმიზაციის ტექნიკა ვერ ხერხდება ორივეს მაქსიმალურად გაზრდით მონაცემთა კომუნალური მდე კონფიდენციალურობის დაცვა.

დაინტერესებული?

გამოიკვლიეთ სინთეტიკური მონაცემების დამატებითი ღირებულება ჩვენთან ერთად