Avaliação externa dos nossos dados sintéticos pelos especialistas em dados do SAS

Nossos dados sintéticos são avaliado e aprovou pelos especialistas em dados de SAS

Introdução à avaliação externa dos nossos dados sintéticos pelos especialistas em dados do SAS

O que nós fizemos?

Os dados sintéticos gerados pelo Syntho são avaliados, validados e aprovados de um ponto de vista externo e objetivo pelos especialistas em dados do SAS.

Por que os nossos dados sintéticos são avaliados externamente pelos especialistas em dados do SAS?

Embora a Syntho tenha orgulho de oferecer aos seus usuários um relatório avançado de garantia de qualidade, também entendemos a importância de ter uma avaliação externa e objetiva de nossos dados sintéticos feita por líderes do setor. É por isso que colaboramos com o SAS, líder em análise, para avaliar os nossos dados sintéticos.

O SAS conduz várias avaliações completas sobre a precisão dos dados, proteção da privacidade e usabilidade dos dados sintéticos gerados por IA da Syntho em comparação com os dados originais. Como conclusão, o SAS avaliou e aprovou os dados sintéticos da Syntho como sendo precisos, seguros e utilizáveis ​​em comparação com os dados originais.

O que o SAS fez durante esta avaliação?

Usamos dados de telecomunicações usados ​​para previsão de “rotatividade” como dados de destino. O objetivo da avaliação foi usar dados sintéticos para treinar vários modelos de previsão de rotatividade e avaliar o desempenho de cada modelo. Como a previsão de rotatividade é uma tarefa de classificação, o SAS selecionou modelos de classificação populares para fazer as previsões, incluindo:

  1. Floresta aleatória
  2. Aumento de gradiente
  3. Regressão logística
  4. Rede neural

Antes de gerar os dados sintéticos, o SAS divide aleatoriamente o conjunto de dados de telecomunicações em um conjunto de trens (para treinar os modelos) e um conjunto de validação (para pontuar os modelos). Ter um conjunto de validação separado para pontuação permite uma avaliação imparcial de quão bem o modelo de classificação pode ser quando aplicado a novos dados.

Usando o conjunto de trens como entrada, o Syntho usou seu Syntho Engine para gerar um conjunto de dados sintético. Para benchmarking, o SAS também criou uma versão anônima do conjunto de trens após aplicar várias técnicas de anonimato para atingir um certo limite (de k-anonimato). As etapas anteriores resultaram em quatro conjuntos de dados:

  1. Um conjunto de dados de trem (ou seja, o conjunto de dados original menos o conjunto de dados de retenção)
  2. Um conjunto de dados de validação (ou seja, um subconjunto do conjunto de dados original)
  3. Um conjunto de dados anonimizado (dados anonimizados do conjunto de dados do trem, conjunto de dados original menos o conjunto de dados de validação)
  4. Um conjunto de dados sintético (dados sintetizados do conjunto de dados do trem, conjunto de dados original menos o conjunto de dados de validação)

Os conjuntos de dados 1, 3 e 4 foram utilizados para treinar cada modelo de classificação, resultando em 12 (3 x 4) modelos treinados. Posteriormente, o SAS usou o conjunto de dados de validação para medir a precisão de cada modelo na previsão da rotatividade de clientes.

O SAS conduz várias avaliações completas sobre a precisão dos dados, proteção da privacidade e usabilidade dos dados sintéticos gerados por IA da Syntho em comparação com os dados originais. Como conclusão, o SAS avaliou e aprovou os dados sintéticos da Syntho como sendo precisos, seguros e utilizáveis ​​em comparação com os dados originais.

Você tem alguma pergunta?

Fale com um de nossos especialistas

Resultados iniciais da avaliação de dados pelo SAS

Modelos treinados em dados sintéticos têm pontuação altamente semelhante em comparação com modelos treinados em dados originais

Os dados sintéticos do Syntho são válidos não apenas para padrões básicos, mas também capturam padrões estatísticos “ocultos” profundos, necessários para tarefas analíticas avançadas. Este último é demonstrado no gráfico de barras, indicando que a precisão dos modelos treinados em dados sintéticos versus modelos treinados em dados originais são semelhantes. Conseqüentemente, dados sintéticos podem ser usados ​​para treinamento real dos modelos. As entradas e a importância das variáveis ​​selecionadas pelos algoritmos nos dados sintéticos em comparação com os dados originais foram muito semelhantes. Assim, conclui-se que o processo de modelagem pode ser feito em dados sintéticos, como alternativa à utilização de dados reais sensíveis.

Por que os modelos treinados em dados anônimos têm pior pontuação?

As técnicas clássicas de anonimato têm em comum o fato de manipularem dados originais para impedir o rastreamento de indivíduos. Eles manipulam dados e, assim, destroem dados no processo. Quanto mais você anonimizar, melhor seus dados serão protegidos, mas também mais seus dados serão destruídos. Isto é especialmente devastador para tarefas de IA e modelagem onde o “poder preditivo” é essencial, porque dados de má qualidade resultarão em insights ruins do modelo de IA. O SAS demonstrou isso, com uma área sob a curva (AUC*) próxima de 0.5, demonstrando que os modelos treinados em dados anonimizados têm desempenho de longe o pior.

Resultados adicionais de avaliações de dados sintéticos pelo SAS

Resultados adicionais de avaliações de dados sintéticos pelo SAS

As correlações e relações entre as variáveis ​​foram preservadas com precisão nos dados sintéticos.

A área sob a curva (AUC), uma métrica para medir o desempenho do modelo, permaneceu consistente.

Além disso, a importância da variável, que indica o poder preditivo das variáveis ​​em um modelo, permaneceu intacta ao comparar dados sintéticos com o conjunto de dados original.

Com base nessas observações do SAS e usando o SAS Viya, podemos concluir com segurança que os dados sintéticos gerados pelo Syntho Engine estão de fato no mesmo nível dos dados reais em termos de qualidade. Isto valida o uso de dados sintéticos para o desenvolvimento de modelos, abrindo caminho para análises avançadas com dados sintéticos.

Conclusões dos especialistas em dados do SAS

Logotipo da Sas

Nossos dados sintéticos são aprovou pelos especialistas em dados do SAS

Artigos de referência

capa do guia syntho

Salve seu guia de dados sintéticos agora!