Por qué la anonimización clásica (y la seudonimización) no da como resultado datos anónimos

¿Qué es el anonimato clásico?

Con el anonimato clásico, implicamos todas las metodologías en las que se manipula o distorsiona un conjunto de datos original para dificultar el rastreo de las personas.

Los ejemplos típicos de anonimización clásica que vemos en la práctica son la generalización, la supresión / borrado, la seudonimización y la mezcla de filas y columnas.

Por la presente, esas técnicas con los ejemplos correspondientes.

Tecnologia Los datos originales Datos manipulados
Generalización 27 años de edad Entre 25 y 30 años de edad
Supresión / Limpieza info@syntho.ai xxxx@xxxxxx.xx
Seudonimización Amsterdam hVFD6td3jdHHj78ghdgrewui6
Mezcla de filas y columnas Alineado Barajado

¿Cuáles son las desventajas del anonimato clásico?

La manipulación de un conjunto de datos con técnicas clásicas de anonimización da como resultado 2 desventajas clave:

  1. La distorsión de un conjunto de datos da como resultado una disminución de la calidad de los datos (es decir, la utilidad de los datos). Esto introduce el principio clásico de entrada de basura y salida de basura.
  2. Riesgo de privacidad se reducirá, pero siempre estara presente. Se mantiene una versión manipulada del conjunto de datos original con relaciones 1-1.

Demostramos esas 2 desventajas clave, la utilidad de los datos y la protección de la privacidad. Lo hacemos con la siguiente ilustración con supresión y generalización aplicadas.

Nota: utilizamos imágenes con fines ilustrativos. El mismo principio se aplica a los conjuntos de datos estructurados.

La anonimización clásica falla
  • A la izquierda: La poca aplicación de la anonimización clásica da como resultado una ilustración representativa. Sin embargo, el individuo puede identificarse fácilmente y el riesgo de privacidad es significativo.

 

  • A la derecha: La aplicación severa de la anonimización clásica da como resultado una fuerte protección de la privacidad. Sin embargo, la ilustración se vuelve inútil.

Las técnicas clásicas de anonimización ofrecen una combinación subóptima entre la utilidad de datos y la protección de la privacidad.

Esto introduce el compromiso entre la utilidad de datos y la protección de la privacidad, donde las técnicas clásicas de anonimización siempre ofrecen una combinación subóptima de ambos. 

curva de utilidad de anonimización clásica

¿Eliminar todos los identificadores directos (como nombres) del conjunto de datos es una solución?

No. Este es un gran error y no da como resultado datos anónimos. ¿Aún aplica esto como una forma de anonimizar su conjunto de datos? Entonces este blog es una lectura obligada para ti.

¿En qué se diferencian los datos sintéticos?

Syntho desarrolla software para generar un conjunto de datos completamente nuevo de registros de datos nuevos. La información para identificar a individuos reales simplemente no está presente en un conjunto de datos sintéticos. Dado que los datos sintéticos contienen registros de datos artificiales generados por software, los datos personales simplemente no están presentes, lo que genera una situación sin riesgos de privacidad.

La diferencia clave en Syntho: aplicamos el aprendizaje automático. En consecuencia, nuestra solución reproduce la estructura y las propiedades del conjunto de datos original en el conjunto de datos sintéticos, lo que da como resultado una utilidad de datos maximizada. En consecuencia, podrá obtener los mismos resultados al analizar los datos sintéticos en comparación con el uso de los datos originales.

Este caso de estudio muestra los aspectos más destacados de nuestro informe de calidad que contiene varias estadísticas de datos sintéticos generados a través de nuestro motor Syntho en comparación con los datos originales.

En conclusión, los datos sintéticos son la solución preferida para superar el típico equilibrio subóptimo entre la utilidad de datos y la protección de la privacidad, que le ofrecen todas las técnicas clásicas de anonimización.

curva de utilidad de anonimización clásica

Entonces, ¿por qué usar datos reales (sensibles) cuando puede usar datos sintéticos?

En conclusión, desde la perspectiva de la protección de la privacidad y la utilidad de los datos, siempre se debe optar por datos sintéticos cuando su caso de uso lo permita.

 Valor para el análisisRiesgo de privacidad
Datos sintéticosAltaNinguna
Datos reales (personales)AltaAlta
Datos manipulados (a través de la clásica 'anonimización')Medio bajoMedio-alto
idea

Los datos sintéticos de Syntho llenan los vacíos donde las técnicas clásicas de anonimización se quedan cortas al maximizar ambos utilidad de datos y protección de la privacidad.

¿Te interesa?

Explore el valor agregado de los datos sintéticos con nosotros