Por qué la anonimización clásica (y la seudonimización) no da como resultado datos anónimos

Este blog cubre los siguientes temas:

¿Qué es el anonimato clásico?
¿Cuáles son las desventajas del anonimato clásico?
¿Por qué las técnicas clásicas de anonimización ofrecen una combinación subóptima entre la utilidad de los datos y la protección de la privacidad?
¿En qué se diferencian los datos sintéticos?
¿Por qué seguir utilizando datos personales si puede utilizar datos sintéticos?

¿Qué es el anonimato clásico?

Con el anonimato clásico, implicamos todas las metodologías en las que se manipula o distorsiona un conjunto de datos original para dificultar el rastreo de las personas.

Los ejemplos típicos de anonimización clásica que vemos en la práctica son la generalización, la supresión / borrado, la seudonimización y la mezcla de filas y columnas.

Por la presente, esas técnicas con los ejemplos correspondientes.

Tecnologia	Los datos originales	Datos manipulados
Generalización	27 años de edad	Entre 25 y 30 años de edad
Supresión / Limpieza	info@syntho.ai	xxxx@xxxxxx.xx
Seudonimización	Amsterdam	hVFD6td3jdHHj78ghdgrewui6
Mezcla de filas y columnas	Alineado	Barajado

¿Cuáles son las desventajas del anonimato clásico?

La manipulación de un conjunto de datos con técnicas clásicas de anonimización da como resultado 2 desventajas clave:

La distorsión de un conjunto de datos da como resultado una disminución de la calidad de los datos (es decir, la utilidad de los datos). Esto introduce el principio clásico de entrada de basura y salida de basura.
Riesgo de privacidad se reducirá, pero siempre estara presente. Se mantiene una versión manipulada del conjunto de datos original con relaciones 1-1.

Demostramos esas 2 desventajas clave, la utilidad de los datos y la protección de la privacidad. Lo hacemos con la siguiente ilustración con supresión y generalización aplicadas.

Nota: utilizamos imágenes con fines ilustrativos. El mismo principio se aplica a los conjuntos de datos estructurados.

A la izquierda: La poca aplicación de la anonimización clásica da como resultado una ilustración representativa. Sin embargo, el individuo puede identificarse fácilmente y el riesgo de privacidad es significativo.

A la derecha: La aplicación severa de la anonimización clásica da como resultado una fuerte protección de la privacidad. Sin embargo, la ilustración se vuelve inútil.

Las técnicas clásicas de anonimización ofrecen una combinación subóptima entre la utilidad de datos y la protección de la privacidad.

Esto introduce el compromiso entre la utilidad de datos y la protección de la privacidad, donde las técnicas clásicas de anonimización siempre ofrecen una combinación subóptima de ambos.

¿Eliminar todos los identificadores directos (como nombres) del conjunto de datos es una solución?

No. Este es un gran error y no da como resultado datos anónimos. ¿Aún aplica esto como una forma de anonimizar su conjunto de datos? Entonces este blog es una lectura obligada para ti.

¿En qué se diferencian los datos sintéticos?

Syntho desarrolla software para generar un conjunto de datos completamente nuevo de registros de datos nuevos. La información para identificar a individuos reales simplemente no está presente en un conjunto de datos sintéticos. Dado que los datos sintéticos contienen registros de datos artificiales generados por software, los datos personales simplemente no están presentes, lo que genera una situación sin riesgos de privacidad.

La diferencia clave en Syntho: aplicamos el aprendizaje automático. En consecuencia, nuestra solución reproduce la estructura y las propiedades del conjunto de datos original en el conjunto de datos sintéticos, lo que da como resultado una utilidad de datos maximizada. En consecuencia, podrá obtener los mismos resultados al analizar los datos sintéticos en comparación con el uso de los datos originales.

Este caso de estudio muestra los aspectos más destacados de nuestro informe de calidad que contiene varias estadísticas de datos sintéticos generados a través de nuestro motor Syntho en comparación con los datos originales.

En conclusión, los datos sintéticos son la solución preferida para superar el típico equilibrio subóptimo entre la utilidad de datos y la protección de la privacidad, que le ofrecen todas las técnicas clásicas de anonimización.

Entonces, ¿por qué usar datos reales (sensibles) cuando puede usar datos sintéticos?

En conclusión, desde la perspectiva de la protección de la privacidad y la utilidad de los datos, siempre se debe optar por datos sintéticos cuando su caso de uso lo permita.

	Valor para el análisis	Riesgo de privacidad
Datos sintéticos	Alta	Ninguna
Datos reales (personales)	Alta	Alta
Datos manipulados (a través de la clásica 'anonimización')	Medio bajo	Medio-alto

Los datos sintéticos de Syntho llenan los vacíos donde las técnicas clásicas de anonimización se quedan cortas al maximizar ambos utilidad de datos y protección de la privacidad.

¿Te interesa?

Explore el valor agregado de los datos sintéticos con nosotros

RESERVAR DEMO

¿Qué son los datos sintéticos?

Informe de garantía de calidad

Evaluación externa por SAS

Datos sintéticos de series temporales.

Escáner de información personal identificable

Datos simulados sintéticos

Mapeo consistente

Desidentificación y síntesis

Datos sintéticos basados ​​en reglas

Subconjunto

Despliegue e integración

Conectores

Características ampliadas

Datos admitidos

Documentación del usuario

Programar una demostración

Precios

Datos sintéticos como datos de prueba

Datos sintéticos para análisis

Datos sintéticos para compartir datos

Datos sintéticos para demostraciones de productos

Healthcare

Finanzas

Organizaciones públicas

Documentación del usuario

Documentos técnicos y guías

Blog

Webinars

Casos de Estudio

Precios

Quiénes somos

Oportunidades