Por que o anonimato clássico (e pseudonimização) não resulta em dados anônimos

O que é anonimização clássica?

Com o anonimato clássico, implicamos em todas as metodologias em que se manipula ou distorce um conjunto de dados original para impedir o rastreamento de indivíduos.

Exemplos típicos de anonimato clássico que vemos na prática são generalização, supressão / limpeza, pseudonimização e embaralhamento de linhas e colunas.

Por meio deste, essas técnicas com exemplos correspondentes.

Técnica Dados originais Dados manipulados
Generalização 27 Anos de Idade Entre 25 e 30 anos
Supressão / Limpeza info@syntho.ai xxxx@xxxxxx.xx
Pseudonimização Amsterdam hVFD6td3jdHHj78ghdgrewui6
Ordem e coluna embaralhada Alinhado Embaralhado

Quais são as desvantagens do anonimato clássico?

Manipular um conjunto de dados com técnicas clássicas de anonimato resulta em duas desvantagens principais:

  1. Distorcer um conjunto de dados resulta na diminuição da qualidade dos dados (isto é, utilidade de dados). Isso introduz o princípio clássico do lixo dentro do lixo.
  2. Risco de privacidade será reduzido, mas sempre estará presente. Ele permanece e a versão manipulada do conjunto de dados original com relações 1-1.

Demonstramos essas 2 desvantagens principais, utilidade de dados e proteção de privacidade. Fazemos isso com a ilustração a seguir com supressão e generalização aplicadas.

Nota: usamos imagens para fins ilustrativos. O mesmo princípio é válido para conjuntos de dados estruturados.

O anonimato clássico falha
  • Esquerda: pouca aplicação do anonimato clássico resulta em uma ilustração representativa. No entanto, o indivíduo pode ser facilmente identificado e o risco à privacidade é significativo.

 

  • Direita: A aplicação severa do anonimato clássico resulta em forte proteção à privacidade. No entanto, a ilustração se torna inútil.

As técnicas clássicas de anonimato oferecem uma combinação abaixo do ideal entre a utilidade dos dados e a proteção da privacidade.

Isso introduz a compensação entre a utilidade dos dados e a proteção da privacidade, em que as técnicas clássicas de anonimato sempre oferecem uma combinação subótima de ambas. 

curva de utilidade clássica de anonimato

Remover todos os identificadores diretos (como nomes) do conjunto de dados é uma solução?

Não. Este é um grande equívoco e não resulta em dados anônimos. Você ainda aplica isso como forma de tornar seu conjunto de dados anônimo? Então este blog é uma leitura obrigatória para você.

Como os dados sintéticos são diferentes?

Syntho desenvolve software para gerar um conjunto de dados inteiramente novo de registros de dados recentes. As informações para identificar indivíduos reais simplesmente não estão presentes em um conjunto de dados sintético. Uma vez que os dados sintéticos contêm registros de dados artificiais gerados por software, os dados pessoais simplesmente não estão presentes, resultando em uma situação sem riscos de privacidade.

A principal diferença na Syntho: aplicamos o aprendizado de máquina. Consequentemente, nossa solução reproduz a estrutura e as propriedades do conjunto de dados original no conjunto de dados sintético, resultando em uma utilidade de dados maximizada. Conseqüentemente, você poderá obter os mesmos resultados ao analisar os dados sintéticos em comparação com o uso dos dados originais.

Este estudo de caso demonstra destaques de nosso relatório de qualidade contendo várias estatísticas de dados sintéticos gerados por meio de nosso Syntho Engine em comparação com os dados originais.

Em conclusão, os dados sintéticos são a solução preferida para superar o compromisso subótimo típico entre a utilidade dos dados e a proteção da privacidade, que todas as técnicas clássicas de anonimato oferecem.

curva de utilidade clássica de anonimato

Então, por que usar dados reais (confidenciais) quando você pode usar dados sintéticos?

Em conclusão, de uma perspectiva de utilidade de dados e proteção de privacidade, deve-se sempre optar por dados sintéticos quando seu caso de uso permitir.

 Valor para análiseRisco de privacidade
Dados sintéticosAltanenhum
Dados reais (pessoais)AltaAlta
Dados manipulados (por meio da clássica 'anonimização')Baixo-MédioMédio-Alto
idéia

Os dados sintéticos da Syntho preenchem as lacunas onde as técnicas clássicas de anonimato ficam aquém, maximizando ambos utilitário de dados e proteção de privacidade.

Interessado?

Explore o valor agregado dos dados sintéticos conosco