Per què l’anonimització clàssica (i la pseudonimització) no resulta en dades anònimes

Què és l'anonimització clàssica?

Amb l’anonimització clàssica, impliquem totes les metodologies en què es manipula o es distorsiona un conjunt de dades original per impedir el rastreig d’individus.

Exemples típics d’anonimització clàssica que veiem a la pràctica són la generalització, supressió / neteja, pseudonimització i barreja de files i columnes.

A continuació, es detallen aquestes tècniques amb els exemples corresponents.

Tècnica Dades originals Dades manipulades
Generalització Anys d'edat 27 Entre 25 i 30 anys
Supressió / Neteja info@syntho.ai xxxx@xxxxxx.xx
Pseudonimització Amsterdam hVFD6td3jdHHj78ghdgrewui6
Barreja de files i columnes Alineat Barregat

Quins inconvenients té l’anonimització clàssica?

La manipulació d’un conjunt de dades amb tècniques clàssiques d’anonimització comporta dos desavantatges clau:

  1. Si es distorsiona un conjunt de dades es produeix una disminució de la qualitat de les dades (és a dir, la utilitat de les dades). Això introdueix el clàssic principi de recollida d’escombraries.
  2. Risc de privadesa es reduirà, però sempre estarà present. Es manté i manipula la versió del conjunt de dades original amb relacions 1-1.

Demostrem aquests dos desavantatges claus, la utilitat de les dades i la protecció de la privadesa. Ho fem amb la següent il·lustració amb supressió aplicada i generalització.

Nota: fem servir imatges amb finalitats il·lustratives. El mateix principi s'aplica als conjunts de dades estructurats.

L'anonimització clàssica falla
  • A l'esquerra: poca aplicació de l'anonimització clàssica resulta en una il·lustració representativa. No obstant això, es pot identificar fàcilment la persona i el risc de privadesa és important.

 

  • A la dreta: l’aplicació severa de l’anonimització clàssica dóna com a resultat una forta protecció de la privadesa. Tot i això, la il·lustració es fa inútil.

Les tècniques clàssiques d’anonimització ofereixen una combinació subòptima entre la protecció de la utilitat de dades i la privadesa.

Això introdueix la compensació entre la utilitat de dades i la protecció de la privadesa, on les tècniques clàssiques d’anonimització sempre ofereixen una combinació subòptima d’ambdues. 

corba d'utilitat d'anonimització clàssica

Eliminar tots els identificadors directes (com ara noms) del conjunt de dades és una solució?

No, és una idea errònia i no resulta en dades anònimes. Encara ho apliqueu com a forma d'anonimitzar el vostre conjunt de dades? Llavors, aquest bloc és obligatori per a vosaltres.

En què es diferencien les dades sintètiques?

Syntho desenvolupa programari per generar un conjunt de dades completament nou de nous registres de dades. La informació per identificar individus reals simplement no està present en un conjunt de dades sintètics. Atès que les dades sintètiques contenen registres de dades artificials generats pel programari, les dades personals simplement no estan presents, cosa que provoca una situació sense riscos de privadesa.

La diferència clau a Syntho: apliquem l’aprenentatge automàtic. En conseqüència, la nostra solució reprodueix l'estructura i les propietats del conjunt de dades original en el conjunt de dades sintètics, donant com a resultat una utilitat de dades maximitzada. En conseqüència, podreu obtenir els mateixos resultats en analitzar les dades sintètiques en comparació amb les dades originals.

Aquest cas pràctic mostra aspectes destacats del nostre informe de qualitat que conté diverses estadístiques de dades sintètiques generades a través del nostre Syntho Engine en comparació amb les dades originals.

En conclusió, les dades sintètiques són la solució preferida per superar el típic compromís subòptim típic entre la utilitat de dades i la protecció de privadesa que totes les tècniques clàssiques d’anonimització us ofereixen.

corba d'utilitat d'anonimització clàssica

Llavors, per què utilitzar dades reals (sensibles) quan es poden utilitzar dades sintètiques?

En conclusió, des del punt de vista de la protecció de la privadesa i la utilitat de les dades, sempre s’ha d’optar per dades sintètiques quan el cas d’ús ho permeti.

 Valor per a l'anàlisiRisc de privadesa
Dades sintètiquesaltcap
Dades reals (personals)altalt
Dades manipulades (mitjançant l'anonimització clàssica)Baix-MitjàMig-alt
idea

Les dades sintètiques de Syntho omplen els buits on les tècniques clàssiques d’anonimització es queden curtes maximitzant totes dues utilitat de dades i protecció de la privadesa.

Interessat?

Exploreu el valor afegit de les dades sintètiques amb nosaltres