რატომ არ იწვევს კლასიკურ ანონიმიზაციას (და ფსევდონიმიზაციას) ანონიმურ მონაცემებს

ეს ბლოგი მოიცავს შემდეგ თემებს:

რა არის კლასიკური ანონიმიზაცია?
რა უარყოფითი მხარეები აქვს კლასიკურ ანონიმიზაციას?
რატომ კლასიკური ანონიმიზაციის ტექნიკა გვთავაზობს არაოპტიმალურ კომბინაციას მონაცემთა სარგებლიანობასა და კონფიდენციალურობის დაცვას შორის ?.
რით განსხვავდება სინთეტიკური მონაცემები?
რატომ მაინც იყენებთ პერსონალურ მონაცემებს, თუ სინთეზური მონაცემების გამოყენება შეგიძლიათ?

რა არის კლასიკური ანონიმიზაცია?

კლასიკური ანონიმიზაციით, ჩვენ ვგულისხმობთ ყველა მეთოდოლოგიას, როდესაც ერთი მანიპულირებს ან ამახინჯებს მონაცემთა ნაკრების ორიგინალს, რათა ხელი შეუშალოს ინდივიდების კვალს.

კლასიკური ანონიმიზაციის ტიპიური მაგალითები, რასაც ჩვენ პრაქტიკაში ვხედავთ არის განზოგადება, ჩახშობა / წაშლა, ფსევდონიმიზაცია და მწკრივებისა და სვეტების შეცვლა.

აქ მოცემულია ის ტექნიკა შესაბამისი მაგალითებით.

ტექნიკა	ორიგინალი მონაცემები	მანიპულირებული მონაცემები
განზოგადების	27 წლის	25-დან 30 წლამდე
ჩახშობა / წაშლა	info@syntho.ai	xxxx@xxxxxx.xx
ფსევდონიმიზაცია	Amsterdam	hVFD6td3jdHHj78ghdgrewui 6
რიგისა და სვეტის შერევა	გასწორებული	შერეული

რა უარყოფითი მხარეები აქვს კლასიკურ ანონიმიზაციას?

კლასიკური ანონიმიზაციის ტექნიკით მონაცემთა ნაკრების მანიპულირება იწვევს 2 ძირითად ნაკლოვანებას:

მონაცემთა ნაკრების დამახინჯება იწვევს მონაცემთა ხარისხის შემცირებას (ანუ მონაცემთა სარგებლიანობა). ეს წარმოგიდგენთ ნაგვის გაყვანის კლასიკურ პრინციპს.
კონფიდენციალურობის რისკი შემცირდება, მაგრამ ყოველთვის იქნება წარმოდგენილირა ის რჩება და მანიპულირებულია ორიგინალური მონაცემთა ნაკრების ვერსიით 1-1 ურთიერთობით.

ჩვენ ვაჩვენებთ იმ 2 ძირითად ნაკლოვანებას, მონაცემთა სარგებლიანობას და კონფიდენციალურობის დაცვას. ჩვენ ამას ვაკეთებთ შემდეგი ილუსტრაციით, გამოყენებითი ჩახშობით და განზოგადებით.

შენიშვნა: ჩვენ ვიყენებთ სურათებს საილუსტრაციო მიზნებისთვის. იგივე პრინციპი მოქმედებს სტრუქტურირებული მონაცემთა ნაკრებებისთვის.

მარცხენა: კლასიკური ანონიმიზაციის მცირე გამოყენებამ გამოიწვია წარმომადგენლობითი ილუსტრაცია. თუმცა, ინდივიდის ადვილად ამოცნობა შესაძლებელია და კონფიდენციალურობის რისკი მნიშვნელოვანია.

მარჯვენა: კლასიკური ანონიმიზაციის მკაცრი გამოყენება იწვევს კონფიდენციალურობის ძლიერ დაცვას. თუმცა, ილუსტრაცია უსარგებლო ხდება.

კლასიკური ანონიმიზაციის ტექნიკა გვთავაზობს სუბოპტიმალურ კომბინაციას მონაცემთა სასარგებლო და კონფიდენციალურობის დაცვას შორის.

ეს ასახავს კომპრომისს მონაცემთა სარგებლიანობასა და კონფიდენციალურობის დაცვას შორის, სადაც კლასიკური ანონიმიზაციის ტექნიკა ყოველთვის გვთავაზობს ორივეს სუბოპტიმალურ კომბინაციას.

არის გამოსავალი მონაცემთა ნაკრებიდან ყველა პირდაპირი იდენტიფიკატორის (მაგალითად, სახელების) ამოღება?

არა. ეს არის დიდი მცდარი წარმოდგენა და არ იწვევს ანონიმურ მონაცემებს. კვლავ იყენებთ ამას, როგორც თქვენი მონაცემთა ნაკრების ანონიმურობის საშუალებას? მაშინ ეს ბლოგი უნდა წაიკითხოთ თქვენთვის.

რით განსხვავდება სინთეტიკური მონაცემები?

Syntho შეიმუშავებს პროგრამულ უზრუნველყოფას ახალი მონაცემთა ჩანაწერების სრულიად ახალი მონაცემთა ნაკრების შესაქმნელად. ინფორმაცია ნამდვილი პირების იდენტიფიცირებისათვის უბრალოდ არ არის სინთეზურ მონაცემთა ნაკრებში. ვინაიდან სინთეზური მონაცემები შეიცავს პროგრამული უზრუნველყოფის მიერ შექმნილ ხელოვნურ მონაცემთა ჩანაწერებს, პერსონალური მონაცემები უბრალოდ არ არის წარმოდგენილი, რამაც გამოიწვია სიტუაცია კონფიდენციალურობის რისკების გარეშე.

მთავარი განსხვავება სინტოში: ჩვენ ვიყენებთ მანქანათმცოდნეობას. შესაბამისად, ჩვენი გადაწყვეტა აწარმოებს სინთეზურ მონაცემთა ნაკრებში არსებული მონაცემთა ნაკრების სტრუქტურასა და თვისებებს, რაც იწვევს მონაცემთა მაქსიმალურად სარგებლიანობას. შესაბამისად, თქვენ შეძლებთ სინთეტიკური მონაცემების ანალიზისას იგივე შედეგების მიღებას, ვიდრე ორიგინალური მონაცემების გამოყენებას.

ეს საქმის შესწავლა გვიჩვენებს ჩვენი ხარისხის ანგარიშის მაჩვენებლებს, რომლებიც შეიცავს სხვადასხვა სტატისტიკას სინთეზური მონაცემებიდან ჩვენი სინთე ძრავის მეშვეობით გენერირებული ორიგინალ მონაცემებთან შედარებით.

დასასრულს, სინთეზური მონაცემები არის სასურველი გადაწყვეტა მონაცემების სარგებელსა და კონფიდენციალურობის დაცვის ტიპური ქვე-ოპტიმალური კომპრომისის დასაძლევად, რასაც ყველა კლასიკური ანონიმიზაციის ტექნიკა გთავაზობთ.

მაშ, რატომ გამოიყენოთ რეალური (მგრძნობიარე) მონაცემები, როდესაც სინთეზური მონაცემების გამოყენება შეგიძლიათ?

დასასრულს, მონაცემთა სარგებლობისა და კონფიდენციალურობის დაცვის თვალსაზრისით, ყოველთვის უნდა აირჩიოთ სინთეზური მონაცემები, როდესაც თქვენი გამოყენების შემთხვევაში ასეა შესაძლებელი.

	ღირებულება ანალიზისთვის	კონფიდენციალურობის რისკი
სინთეზური მონაცემები	მაღალი	არა
რეალური (პირადი) მონაცემები	მაღალი	მაღალი
მანიპულირებული მონაცემები (კლასიკური "ანონიმიზაციის" საშუალებით)	დაბალი საშუალო	საშუალო მაღალი

სინთოს სინთეზური მონაცემები ავსებს ხარვეზებს, სადაც კლასიკური ანონიმიზაციის ტექნიკა ვერ ხერხდება ორივეს მაქსიმალურად გაზრდით მონაცემთა კომუნალური მდე კონფიდენციალურობის დაცვა.

დაინტერესებული?

გამოიკვლიეთ სინთეტიკური მონაცემების დამატებითი ღირებულება ჩვენთან ერთად

დაჯავშნა დემო

რა არის სინთეზური მონაცემები?

ხარისხის უზრუნველყოფის ანგარიში

გარე შეფასება SAS-ის მიერ

დროის სერიების სინთეტიკური მონაცემები

PII სკანერი

სინთეტიკური იმიტირებული მონაცემები

თანმიმდევრული რუკა

დეიდენტიფიკაცია და სინთეზირება

წესებზე დაფუძნებული სინთეზური მონაცემები

ქვეპარამეტრები

განლაგება და ინტეგრაცია

კავშირი

გაფართოებული ფუნქციები

მხარდაჭერილი მონაცემები

მომხმარებლის დოკუმენტაცია

დაგეგმეთ დემო ვერსია

ფასები

სინთეზური მონაცემები, როგორც ტესტის მონაცემები

სინთეტიკური მონაცემები ანალიტიკისთვის

სინთეტიკური მონაცემები მონაცემთა გაზიარებისთვის

სინთეზური მონაცემები პროდუქტის დემოსთვის

ჯანდაცვის

ფინანსთა

საზოგადოებრივი ორგანიზაციები

მომხმარებლის დოკუმენტაცია

თეთრი ქაღალდები და სახელმძღვანელოები

ბლოგი

Webinars

საქმე კვლევების

ფასები

ჩვენს შესახებ

კარიერა