Dados anônimos x dados sintéticos

Se você tornar seus dados anônimos antes de realizar o teste de análise de dados, há vários fatores em jogo:

  1. Em quase todos os casos, os dados anônimos ainda podem ser rastreados até os indivíduos devido a linhas específicas e exclusivas (por exemplo, registros médicos)
  2. Quanto mais você torna anônimo ou generaliza, mais dados você destrói. Isso diminui a qualidade de seus dados e, portanto, seus insights
  3. O anonimato funciona de maneira diferente para diferentes formatos de dados. Isso significa que não é escalonável e pode consumir muito tempo

Os dados sintéticos resolvem todas essas deficiências e muito mais. Assista ao vídeo abaixo para ver um especialista em análise da SAS (líder de mercado global em análises) explicar sobre sua avaliação sobre a diferença de qualidade entre os dados originais, os dados anônimos e os dados sintéticos gerados pela Syntho.

Este vídeo foi capturado do Syntho x SAS D [N] A Café sobre dados sintéticos gerados por IA. Encontre o vídeo completo aqui.

Edwin van Unen enviou um conjunto de dados original para Syntho e nós sintetizamos o conjunto de dados. Mas a pergunta também era: “O que acontecerá se compararmos dados sintéticos com dados anônimos?” Como você perde muitas informações em um dado anônimo, isso também acontecerá ao sintetizar um conjunto de dados? Começamos com um conjunto de dados do setor de telecomunicações com 56.000 linhas e 128 colunas de informações de rotatividade da empresa. Esse conjunto de dados foi sintetizado e anonimizado para que Edwin pudesse comparar a síntese com a anonimização. Então, Edwin começou a modelar usando o SAS Viya. Ele construiu alguns modelos de churn no conjunto de dados original, usando técnicas clássicas de regressão e árvores de decisão, mas também técnicas mais sofisticadas, como redes neurais, aumento de gradiente, floresta aleatória – esses tipos de técnicas. Usando as opções padrão do SAS Viya ao construir os modelos.

Então, chegou a hora de ver os resultados. Os resultados foram muito promissores para dados sintéticos e não para anonimização. Para os especialistas em aprendizado sem máquina na plateia, examinamos a área sob a curva ROC que informa algo sobre a precisão do modelo. Comparando os dados originais com os dados anônimos, vemos que o modelo de dados original tem uma área sob a curva ROC de 8, o que é muito bom. No entanto, os dados anônimos têm uma área sob a curva ROC de 6. Isso significa que perdemos muitas informações com o modelo anônimo, então você perde muito poder preditivo.

Mas então, a questão é: e os dados sintéticos? Aqui, fizemos exatamente o mesmo, mas em vez de anonimizar os dados, Syntho sintetizou os dados. Agora, vemos que os dados originais e os dados sintéticos têm uma área sob a curva ROC de 8, que é muito semelhante. Não exatamente o mesmo devido à variabilidade, mas muito semelhante. Isso significa que o potencial dos dados sintéticos é muito promissor – Edwin está muito feliz com isso.

grupo de pessoas sorrindo

Os dados são sintéticos, mas nossa equipe é real!

Contactar a Syntho e um de nossos especialistas entrará em contato com você na velocidade da luz para explorar o valor dos dados sintéticos!