Por que o anonimato clássico (e pseudonimização) não resulta em dados anônimos

Este blog cobre os seguintes tópicos:

O que é anonimização clássica?
Quais são as desvantagens do anonimato clássico?
Por que as técnicas clássicas de anonimização oferecem uma combinação abaixo do ideal entre a utilização de dados e a proteção da privacidade ?.
Como os dados sintéticos são diferentes?
Por que ainda usar dados pessoais se você pode usar dados sintéticos?

O que é anonimização clássica?

Com o anonimato clássico, implicamos em todas as metodologias em que se manipula ou distorce um conjunto de dados original para impedir o rastreamento de indivíduos.

Exemplos típicos de anonimato clássico que vemos na prática são generalização, supressão / limpeza, pseudonimização e embaralhamento de linhas e colunas.

Por meio deste, essas técnicas com exemplos correspondentes.

Técnica	Dados originais	Dados manipulados
Generalização	27 Anos de Idade	Entre 25 e 30 anos
Supressão / Limpeza	info@syntho.ai	xxxx@xxxxxx.xx
Pseudonimização	Amsterdam	hVFD6td3jdHHj78ghdgrewui6
Ordem e coluna embaralhada	Alinhado	Embaralhado

Quais são as desvantagens do anonimato clássico?

Manipular um conjunto de dados com técnicas clássicas de anonimato resulta em duas desvantagens principais:

Distorcer um conjunto de dados resulta na diminuição da qualidade dos dados (isto é, utilidade de dados). Isso introduz o princípio clássico do lixo dentro do lixo.
Risco de privacidade será reduzido, mas sempre estará presente. Ele permanece e a versão manipulada do conjunto de dados original com relações 1-1.

Demonstramos essas 2 desvantagens principais, utilidade de dados e proteção de privacidade. Fazemos isso com a ilustração a seguir com supressão e generalização aplicadas.

Nota: usamos imagens para fins ilustrativos. O mesmo princípio é válido para conjuntos de dados estruturados.

Esquerda: pouca aplicação do anonimato clássico resulta em uma ilustração representativa. No entanto, o indivíduo pode ser facilmente identificado e o risco à privacidade é significativo.

Direita: A aplicação severa do anonimato clássico resulta em forte proteção à privacidade. No entanto, a ilustração se torna inútil.

As técnicas clássicas de anonimato oferecem uma combinação abaixo do ideal entre a utilidade dos dados e a proteção da privacidade.

Isso introduz a compensação entre a utilidade dos dados e a proteção da privacidade, em que as técnicas clássicas de anonimato sempre oferecem uma combinação subótima de ambas.

Remover todos os identificadores diretos (como nomes) do conjunto de dados é uma solução?

Não. Este é um grande equívoco e não resulta em dados anônimos. Você ainda aplica isso como forma de tornar seu conjunto de dados anônimo? Então este blog é uma leitura obrigatória para você.

Como os dados sintéticos são diferentes?

Syntho desenvolve software para gerar um conjunto de dados inteiramente novo de registros de dados recentes. As informações para identificar indivíduos reais simplesmente não estão presentes em um conjunto de dados sintético. Uma vez que os dados sintéticos contêm registros de dados artificiais gerados por software, os dados pessoais simplesmente não estão presentes, resultando em uma situação sem riscos de privacidade.

A principal diferença na Syntho: aplicamos o aprendizado de máquina. Consequentemente, nossa solução reproduz a estrutura e as propriedades do conjunto de dados original no conjunto de dados sintético, resultando em uma utilidade de dados maximizada. Conseqüentemente, você poderá obter os mesmos resultados ao analisar os dados sintéticos em comparação com o uso dos dados originais.

Este estudo de caso demonstra destaques de nosso relatório de qualidade contendo várias estatísticas de dados sintéticos gerados por meio de nosso Syntho Engine em comparação com os dados originais.

Em conclusão, os dados sintéticos são a solução preferida para superar o compromisso subótimo típico entre a utilidade dos dados e a proteção da privacidade, que todas as técnicas clássicas de anonimato oferecem.

Então, por que usar dados reais (confidenciais) quando você pode usar dados sintéticos?

Em conclusão, de uma perspectiva de utilidade de dados e proteção de privacidade, deve-se sempre optar por dados sintéticos quando seu caso de uso permitir.

	Valor para análise	Risco de privacidade
Dados sintéticos	Alta	nenhum
Dados reais (pessoais)	Alta	Alta
Dados manipulados (por meio da clássica 'anonimização')	Baixo-Médio	Médio-Alto

Os dados sintéticos da Syntho preenchem as lacunas onde as técnicas clássicas de anonimato ficam aquém, maximizando ambos utilitário de dados e proteção de privacidade.

Interessado?

Explore o valor agregado dos dados sintéticos conosco

LIVRO DE DEMONSTRAÇÃO

O que são dados sintética?

Relatório de garantia de qualidade

Avaliação externa pelo SAS

Dados sintéticos de série temporal

Leitor de PII

Dados simulados sintéticos

Mapeamento consistente

Desidentificação e sintetização

Dados sintéticos baseados em regras

Subconjunto

Implantação e integração

conectores

Recursos estendidos

Dados compatíveis

Documentação do usuário

Agende uma demonstração

Preços

Dados sintéticos como dados de teste

Dados sintéticos para análise

Dados sintéticos para compartilhamento de dados

Dados sintéticos para demonstração de produtos

Assistência médica

Financeira

Organizações Públicas

Documentação do usuário

Artigos e guias

Blog

Webinars

Estudos de Caso