Com o anonimato clássico, implicamos em todas as metodologias em que se manipula ou distorce um conjunto de dados original para impedir o rastreamento de indivíduos.
Exemplos típicos de anonimato clássico que vemos na prática são generalização, supressão / limpeza, pseudonimização e embaralhamento de linhas e colunas.
Por meio deste, essas técnicas com exemplos correspondentes.
Técnica | Dados originais | Dados manipulados |
Generalização | 27 Anos de Idade | Entre 25 e 30 anos |
Supressão / Limpeza | info@syntho.ai | xxxx@xxxxxx.xx |
Pseudonimização | Amsterdam | hVFD6td3jdHHj78ghdgrewui6 |
Ordem e coluna embaralhada | Alinhado | Embaralhado |
Manipular um conjunto de dados com técnicas clássicas de anonimato resulta em duas desvantagens principais:
Demonstramos essas 2 desvantagens principais, utilidade de dados e proteção de privacidade. Fazemos isso com a ilustração a seguir com supressão e generalização aplicadas.
Nota: usamos imagens para fins ilustrativos. O mesmo princípio é válido para conjuntos de dados estruturados.
Isso introduz a compensação entre a utilidade dos dados e a proteção da privacidade, em que as técnicas clássicas de anonimato sempre oferecem uma combinação subótima de ambas.
Não. Este é um grande equívoco e não resulta em dados anônimos. Você ainda aplica isso como forma de tornar seu conjunto de dados anônimo? Então este blog é uma leitura obrigatória para você.
Syntho desenvolve software para gerar um conjunto de dados inteiramente novo de registros de dados recentes. As informações para identificar indivíduos reais simplesmente não estão presentes em um conjunto de dados sintético. Uma vez que os dados sintéticos contêm registros de dados artificiais gerados por software, os dados pessoais simplesmente não estão presentes, resultando em uma situação sem riscos de privacidade.
A principal diferença na Syntho: aplicamos o aprendizado de máquina. Consequentemente, nossa solução reproduz a estrutura e as propriedades do conjunto de dados original no conjunto de dados sintético, resultando em uma utilidade de dados maximizada. Conseqüentemente, você poderá obter os mesmos resultados ao analisar os dados sintéticos em comparação com o uso dos dados originais.
Este estudo de caso demonstra destaques de nosso relatório de qualidade contendo várias estatísticas de dados sintéticos gerados por meio de nosso Syntho Engine em comparação com os dados originais.
Em conclusão, os dados sintéticos são a solução preferida para superar o compromisso subótimo típico entre a utilidade dos dados e a proteção da privacidade, que todas as técnicas clássicas de anonimato oferecem.
Em conclusão, de uma perspectiva de utilidade de dados e proteção de privacidade, deve-se sempre optar por dados sintéticos quando seu caso de uso permitir.
Valor para análise | Risco de privacidade | |
Dados sintéticos | Alta | nenhum |
Dados reais (pessoais) | Alta | Alta |
Dados manipulados (por meio da clássica 'anonimização') | Baixo-Médio | Médio-Alto |
Os dados sintéticos da Syntho preenchem as lacunas onde as técnicas clássicas de anonimato ficam aquém, maximizando ambos utilitário de dados e proteção de privacidade.