Con el anonimato clásico, implicamos todas las metodologías en las que se manipula o distorsiona un conjunto de datos original para dificultar el rastreo de las personas.
Los ejemplos típicos de anonimización clásica que vemos en la práctica son la generalización, la supresión / borrado, la seudonimización y la mezcla de filas y columnas.
Por la presente, esas técnicas con los ejemplos correspondientes.
Tecnologia | Los datos originales | Datos manipulados |
Generalización | 27 años de edad | Entre 25 y 30 años de edad |
Supresión / Limpieza | info@syntho.ai | xxxx@xxxxxx.xx |
Seudonimización | Amsterdam | hVFD6td3jdHHj78ghdgrewui6 |
Mezcla de filas y columnas | Alineado | Barajado |
La manipulación de un conjunto de datos con técnicas clásicas de anonimización da como resultado 2 desventajas clave:
Demostramos esas 2 desventajas clave, la utilidad de los datos y la protección de la privacidad. Lo hacemos con la siguiente ilustración con supresión y generalización aplicadas.
Nota: utilizamos imágenes con fines ilustrativos. El mismo principio se aplica a los conjuntos de datos estructurados.
Esto introduce el compromiso entre la utilidad de datos y la protección de la privacidad, donde las técnicas clásicas de anonimización siempre ofrecen una combinación subóptima de ambos.
No. Este es un gran error y no da como resultado datos anónimos. ¿Aún aplica esto como una forma de anonimizar su conjunto de datos? Entonces este blog es una lectura obligada para ti.
Syntho desarrolla software para generar un conjunto de datos completamente nuevo de registros de datos nuevos. La información para identificar a individuos reales simplemente no está presente en un conjunto de datos sintéticos. Dado que los datos sintéticos contienen registros de datos artificiales generados por software, los datos personales simplemente no están presentes, lo que genera una situación sin riesgos de privacidad.
La diferencia clave en Syntho: aplicamos el aprendizaje automático. En consecuencia, nuestra solución reproduce la estructura y las propiedades del conjunto de datos original en el conjunto de datos sintéticos, lo que da como resultado una utilidad de datos maximizada. En consecuencia, podrá obtener los mismos resultados al analizar los datos sintéticos en comparación con el uso de los datos originales.
Este caso de estudio muestra los aspectos más destacados de nuestro informe de calidad que contiene varias estadísticas de datos sintéticos generados a través de nuestro motor Syntho en comparación con los datos originales.
En conclusión, los datos sintéticos son la solución preferida para superar el típico equilibrio subóptimo entre la utilidad de datos y la protección de la privacidad, que le ofrecen todas las técnicas clásicas de anonimización.
En conclusión, desde la perspectiva de la protección de la privacidad y la utilidad de los datos, siempre se debe optar por datos sintéticos cuando su caso de uso lo permita.
Valor para el análisis | Riesgo de privacidad | |
Datos sintéticos | Alta | Ninguna |
Datos reales (personales) | Alta | Alta |
Datos manipulados (a través de la clásica 'anonimización') | Medio bajo | Medio-alto |
Los datos sintéticos de Syntho llenan los vacíos donde las técnicas clásicas de anonimización se quedan cortas al maximizar ambos utilidad de datos y protección de la privacidad.