Por que a anonimización (e pseudonimización) clásica non resulta en datos anónimos

Este blogue abrangue os seguintes temas:

Que é a anonimización clásica?
Cales son as desvantaxes da anonimización clásica?
Por que as técnicas de anonimización clásicas ofrecen unha combinación subóptima entre a utilidade de datos e a protección da privacidade ?.
En que se diferencian os datos sintéticos?
Por que aínda usa datos persoais se pode usar datos sintéticos?

Que é a anonimización clásica?

Coa anonimización clásica, implicamos todas as metodoloxías nas que se manipula ou distorsiona un conxunto de datos orixinal para dificultar o rastrexo de individuos.

Exemplos típicos de anonimización clásica que vemos na práctica son a xeneralización, supresión / limpeza, pseudonimización e mestura de filas e columnas.

Velaquí estas técnicas cos exemplos correspondentes.

Técnica	Datos orixinais	Datos manipulados
Xeneralización	Anos de idade 27	Entre 25 e 30 anos
Supresión / Limpeza	info@syntho.ai	xxxx@xxxxxx.xx
Pseudonimización	Amsterdam	hVFD6td3jdHHj78ghdgrewui6
Barreira de filas e columnas	Aliñado	Barallado

Cales son as desvantaxes da anonimización clásica?

A manipulación dun conxunto de datos con técnicas clásicas de anonimización produce dúas desvantaxes clave:

A distorsión dun conxunto de datos resulta nunha diminución da calidade dos datos (é dicir, utilidade de datos). Isto introduce o clásico principio de recollida de lixo.
Risco de privacidade reducirase, pero sempre estará presente. Mantense e manipulou a versión do conxunto de datos orixinal con relacións 1-1.

Demostramos esas dúas desvantaxes clave, a utilidade de datos e a protección da privacidade. Facémolo coa seguinte ilustración con supresión aplicada e xeneralización.

Nota: usamos imaxes con fins ilustrativos. O mesmo principio vale para os conxuntos de datos estruturados.

Esquerda: pouca aplicación da clásica anonimización resulta nunha ilustración representativa. Non obstante, o individuo pode identificarse facilmente e o risco de privacidade é significativo.

Dereita: a aplicación severa da clásica anonimización resulta nunha forte protección da privacidade. Non obstante, a ilustración faise inútil.

As técnicas de anonimización clásicas ofrecen unha combinación subóptima entre a utilidade de datos e a protección da privacidade.

Isto introduce a compensación entre a utilidade de datos e a protección da privacidade, onde as técnicas de anonimización clásicas sempre ofrecen unha combinación subóptima de ambas.

Eliminar todos os identificadores directos (como os nomes) do conxunto de datos é unha solución?

Non. Este é un gran equívoco e non produce datos anónimos. ¿Segues aplicándoo como forma de anonimizar o teu conxunto de datos? Entón este blog é imprescindible para ti.

En que se diferencian os datos sintéticos?

Syntho desenvolve software para xerar un conxunto de datos completamente novo de novos rexistros de datos. A información para identificar individuos reais simplemente non está presente nun conxunto de datos sintético. Dado que os datos sintéticos conteñen rexistros de datos artificiais xerados por software, os datos persoais simplemente non están presentes, o que resulta nunha situación sen riscos de privacidade.

A diferenza clave en Syntho: aplicamos a aprendizaxe automática. En consecuencia, a nosa solución reproduce a estrutura e as propiedades do conxunto de datos orixinal no conxunto de datos sintético obtendo unha utilidade de datos maximizada. En consecuencia, poderá obter os mesmos resultados ao analizar os datos sintéticos en comparación co uso dos datos orixinais.

Este estudo de caso mostra o máis destacado do noso informe de calidade que contén varias estatísticas de datos sintéticos xerados a través do noso Syntho Engine en comparación cos datos orixinais.

En conclusión, os datos sintéticos son a solución preferida para superar a típica compensación sub-óptima entre a utilidade de datos e a protección de privacidade que todas as técnicas clásicas de anonimización ofrecen.

Entón, por que usar datos reais (sensibles) cando se poden usar datos sintéticos?

En conclusión, desde unha perspectiva de protección de privacidade e utilidade de datos, sempre se debe optar por datos sintéticos cando o caso de uso o permita.

	Valor para a análise	Risco de privacidade
Datos sintéticos	Alto	ningún
Datos reais (persoais)	Alto	Alto
Datos manipulados (a través da clásica "anonimización")	Baixo-Medio	Medio-alto

Os datos sintéticos de Syntho enchen as lagoas nas que as técnicas clásicas de anonimización quedan curtas ao maximizar ambas utilidade de datos protección de privacidade.

Interesado?

Explore connosco o valor engadido dos datos sintéticos

RESERVAR DEMO

Que son os datos sintéticos?

Informe de garantía de calidade

Avaliación externa por SAS

Datos sintéticos de series temporais

Escáner PII

Datos simulados sintéticos

Mapeo consistente

Desidentificación e sintetización

Datos sintéticos baseados en regras

Subconxunto

Implantación e integración

conectores

Funcións ampliadas

Datos soportados

Documentación do usuario

Programa unha demostración

prezos

Datos sintéticos como datos de proba

Datos sintéticos para análise

Datos sintéticos para compartir datos

Datos sintéticos para demostracións de produtos

Saúde

Financiar

Organizacións Públicas

Documentación do usuario

Libros brancos e guías

Blog

Webinars

Estudos de caso