De ce anonimizarea clasică (și pseudonimizarea) nu are ca rezultat date anonime

Ce este anonimizarea clasică?

Cu anonimizarea clasică, implicăm toate metodologiile în care se manipulează sau distorsionează un set de date original pentru a împiedica urmărirea persoanelor.

Exemple tipice de anonimizare clasică pe care le vedem în practică sunt generalizarea, suprimarea / ștergerea, pseudonimizarea și amestecarea rândurilor și a coloanelor.

Prin prezenta, aceste tehnici cu exemple corespunzătoare.

Metoda de măsurare Date originale Date manipulate
Generalizare Ani 27 vechi Între 25 și 30 de ani
Suprimare / Ștergere info@syntho.ai xxxx@xxxxxx.xx
Pseudonimizare Amsterdam hVFD6td3jdHHj78ghdgrewui6
Rânduri și coloane amestecate Aliniat Amestecat

Care sunt dezavantajele anonimizării clasice?

Manipularea unui set de date cu tehnici clasice de anonimizare are ca rezultat 2 dezavantaje cheie:

  1. Distorsionarea unui set de date duce la scăderea calității datelor (adică utilitatea datelor). Aceasta introduce principiul clasic de gunoi-în-gunoi.
  2. Riscul de confidențialitate va fi redus, dar va fi mereu prezent. Rămâne și manipulează versiunea setului de date original cu relații 1-1.

Demonstrăm aceste 2 dezavantaje cheie, utilitatea datelor și protecția confidențialității. Facem asta cu următoarea ilustrație cu suprimarea aplicată și generalizarea.

Notă: folosim imagini în scop ilustrativ. Același principiu este valabil și pentru seturile de date structurate.

Anonimizarea clasică eșuează
  • Stânga: aplicarea redusă a anonimizării clasice are ca rezultat o ilustrare reprezentativă. Cu toate acestea, individul poate fi ușor identificat, iar riscul de confidențialitate este semnificativ.

 

  • Dreapta: aplicarea severă a anonimizării clasice are ca rezultat o protecție puternică a confidențialității. Cu toate acestea, ilustrația devine inutilă.

Tehnicile clasice de anonimizare oferă o combinație suboptimă între utilitatea datelor și protecția confidențialității.

Aceasta introduce compromisul între utilitatea datelor și protecția confidențialității, unde tehnicile clasice de anonimizare oferă întotdeauna o combinație suboptimală a ambelor. 

curba clasică de utilitate a anonimizării

Eliminarea tuturor identificatorilor direcți (cum ar fi numele) din setul de date este o soluție?

Nu. Aceasta este o mare concepție greșită și nu duce la date anonime. Încă mai aplicați acest lucru ca modalitate de anonimizare a setului de date? Apoi, acest blog este obligatoriu pentru dvs.

Cum diferă datele sintetice?

Syntho dezvoltă software pentru a genera un set de date complet nou de noi înregistrări de date. Informațiile pentru identificarea indivizilor reali pur și simplu nu sunt prezente într-un set de date sintetic. Deoarece datele sintetice conțin înregistrări de date artificiale generate de software, datele cu caracter personal pur și simplu nu sunt prezente, rezultând o situație fără riscuri de confidențialitate.

Diferența cheie la Syntho: aplicăm învățarea automată. În consecință, soluția noastră reproduce structura și proprietățile setului de date original în setul de date sintetic rezultând o utilitate maximizată a datelor. În consecință, veți putea obține aceleași rezultate atunci când analizați datele sintetice în comparație cu utilizarea datelor originale.

Acest studiu de caz prezintă elemente esențiale din raportul nostru de calitate care conține diferite statistici din date sintetice generate prin Syntho Engine în comparație cu datele originale.

În concluzie, datele sintetice sunt soluția preferată pentru a depăși compromisul tipic sub-optim dintre utilitatea datelor și protecția confidențialității, pe care vi le oferă toate tehnicile clasice de anonimizare.

curba clasică de utilitate a anonimizării

Deci, de ce să folosiți date reale (sensibile) atunci când puteți utiliza date sintetice?

În concluzie, din perspectiva utilității datelor și a protecției confidențialității, ar trebui să optați întotdeauna pentru date sintetice atunci când cazul dvs. de utilizare o permite.

 Valoare pentru analizăRiscul de confidențialitate
Date sinteticeÎnaltNici unul
Date reale (personale)ÎnaltÎnalt
Date manipulate (prin „anonimizare” clasică)Mic-mediuMediu-Înalt
idee

Datele sintetice de la Syntho umple golurile în care tehnicile clasice de anonimizare sunt scurte maximizând ambele utilitate de date și protecție a vieții private.

Interesat?

Explorați cu noi valoarea adăugată a datelor sintetice