Por que a anonimización (e pseudonimización) clásica non resulta en datos anónimos

Que é a anonimización clásica?

Coa anonimización clásica, implicamos todas as metodoloxías nas que se manipula ou distorsiona un conxunto de datos orixinal para dificultar o rastrexo de individuos.

Exemplos típicos de anonimización clásica que vemos na práctica son a xeneralización, supresión / limpeza, pseudonimización e mestura de filas e columnas.

Velaquí estas técnicas cos exemplos correspondentes.

Técnica Datos orixinais Datos manipulados
Xeneralización Anos de idade 27 Entre 25 e 30 anos
Supresión / Limpeza info@syntho.ai xxxx@xxxxxx.xx
Pseudonimización Amsterdam hVFD6td3jdHHj78ghdgrewui6
Barreira de filas e columnas Aliñado Barallado

Cales son as desvantaxes da anonimización clásica?

A manipulación dun conxunto de datos con técnicas clásicas de anonimización produce dúas desvantaxes clave:

  1. A distorsión dun conxunto de datos resulta nunha diminución da calidade dos datos (é dicir, utilidade de datos). Isto introduce o clásico principio de recollida de lixo.
  2. Risco de privacidade reducirase, pero sempre estará presente. Mantense e manipulou a versión do conxunto de datos orixinal con relacións 1-1.

Demostramos esas dúas desvantaxes clave, a utilidade de datos e a protección da privacidade. Facémolo coa seguinte ilustración con supresión aplicada e xeneralización.

Nota: usamos imaxes con fins ilustrativos. O mesmo principio vale para os conxuntos de datos estruturados.

A anonimización clásica falla
  • Esquerda: pouca aplicación da clásica anonimización resulta nunha ilustración representativa. Non obstante, o individuo pode identificarse facilmente e o risco de privacidade é significativo.

 

  • Dereita: a aplicación severa da clásica anonimización resulta nunha forte protección da privacidade. Non obstante, a ilustración faise inútil.

As técnicas de anonimización clásicas ofrecen unha combinación subóptima entre a utilidade de datos e a protección da privacidade.

Isto introduce a compensación entre a utilidade de datos e a protección da privacidade, onde as técnicas de anonimización clásicas sempre ofrecen unha combinación subóptima de ambas. 

curva de utilidade clásica de anonimización

Eliminar todos os identificadores directos (como os nomes) do conxunto de datos é unha solución?

Non. Este é un gran equívoco e non produce datos anónimos. ¿Segues aplicándoo como forma de anonimizar o teu conxunto de datos? Entón este blog é imprescindible para ti.

En que se diferencian os datos sintéticos?

Syntho desenvolve software para xerar un conxunto de datos completamente novo de novos rexistros de datos. A información para identificar individuos reais simplemente non está presente nun conxunto de datos sintético. Dado que os datos sintéticos conteñen rexistros de datos artificiais xerados por software, os datos persoais simplemente non están presentes, o que resulta nunha situación sen riscos de privacidade.

A diferenza clave en Syntho: aplicamos a aprendizaxe automática. En consecuencia, a nosa solución reproduce a estrutura e as propiedades do conxunto de datos orixinal no conxunto de datos sintético obtendo unha utilidade de datos maximizada. En consecuencia, poderá obter os mesmos resultados ao analizar os datos sintéticos en comparación co uso dos datos orixinais.

Este estudo de caso mostra o máis destacado do noso informe de calidade que contén varias estatísticas de datos sintéticos xerados a través do noso Syntho Engine en comparación cos datos orixinais.

En conclusión, os datos sintéticos son a solución preferida para superar a típica compensación sub-óptima entre a utilidade de datos e a protección de privacidade que todas as técnicas clásicas de anonimización ofrecen.

curva de utilidade clásica de anonimización

Entón, por que usar datos reais (sensibles) cando se poden usar datos sintéticos?

En conclusión, desde unha perspectiva de protección de privacidade e utilidade de datos, sempre se debe optar por datos sintéticos cando o caso de uso o permita.

 Valor para a análiseRisco de privacidade
Datos sintéticosAltoningún
Datos reais (persoais)AltoAlto
Datos manipulados (a través da clásica "anonimización")Baixo-MedioMedio-alto
idea

Os datos sintéticos de Syntho enchen as lagoas nas que as técnicas clásicas de anonimización quedan curtas ao maximizar ambas utilidade de datos   protección de privacidade.

Interesado?

Explore connosco o valor engadido dos datos sintéticos