Os dados sintéticos gerados pelo Syntho são avaliados, validados e aprovados de um ponto de vista externo e objetivo pelos especialistas em dados do SAS.
Embora a Syntho tenha orgulho de oferecer aos seus usuários um relatório avançado de garantia de qualidade, também entendemos a importância de ter uma avaliação externa e objetiva de nossos dados sintéticos feita por líderes do setor. É por isso que colaboramos com o SAS, líder em análise, para avaliar os nossos dados sintéticos.
O SAS conduz várias avaliações completas sobre a precisão dos dados, proteção da privacidade e usabilidade dos dados sintéticos gerados por IA da Syntho em comparação com os dados originais. Como conclusão, o SAS avaliou e aprovou os dados sintéticos da Syntho como sendo precisos, seguros e utilizáveis em comparação com os dados originais.
Usamos dados de telecomunicações usados para previsão de “rotatividade” como dados de destino. O objetivo da avaliação foi usar dados sintéticos para treinar vários modelos de previsão de rotatividade e avaliar o desempenho de cada modelo. Como a previsão de rotatividade é uma tarefa de classificação, o SAS selecionou modelos de classificação populares para fazer as previsões, incluindo:
Antes de gerar os dados sintéticos, o SAS divide aleatoriamente o conjunto de dados de telecomunicações em um conjunto de trens (para treinar os modelos) e um conjunto de validação (para pontuar os modelos). Ter um conjunto de validação separado para pontuação permite uma avaliação imparcial de quão bem o modelo de classificação pode ser quando aplicado a novos dados.
Usando o conjunto de trens como entrada, o Syntho usou seu Syntho Engine para gerar um conjunto de dados sintético. Para benchmarking, o SAS também criou uma versão anônima do conjunto de trens após aplicar várias técnicas de anonimato para atingir um certo limite (de k-anonimato). As etapas anteriores resultaram em quatro conjuntos de dados:
Os conjuntos de dados 1, 3 e 4 foram utilizados para treinar cada modelo de classificação, resultando em 12 (3 x 4) modelos treinados. Posteriormente, o SAS usou o conjunto de dados de validação para medir a precisão de cada modelo na previsão da rotatividade de clientes.
O SAS conduz várias avaliações completas sobre a precisão dos dados, proteção da privacidade e usabilidade dos dados sintéticos gerados por IA da Syntho em comparação com os dados originais. Como conclusão, o SAS avaliou e aprovou os dados sintéticos da Syntho como sendo precisos, seguros e utilizáveis em comparação com os dados originais.
Os dados sintéticos do Syntho são válidos não apenas para padrões básicos, mas também capturam padrões estatísticos “ocultos” profundos, necessários para tarefas analíticas avançadas. Este último é demonstrado no gráfico de barras, indicando que a precisão dos modelos treinados em dados sintéticos versus modelos treinados em dados originais são semelhantes. Conseqüentemente, dados sintéticos podem ser usados para treinamento real dos modelos. As entradas e a importância das variáveis selecionadas pelos algoritmos nos dados sintéticos em comparação com os dados originais foram muito semelhantes. Assim, conclui-se que o processo de modelagem pode ser feito em dados sintéticos, como alternativa à utilização de dados reais sensíveis.
As técnicas clássicas de anonimato têm em comum o fato de manipularem dados originais para impedir o rastreamento de indivíduos. Eles manipulam dados e, assim, destroem dados no processo. Quanto mais você anonimizar, melhor seus dados serão protegidos, mas também mais seus dados serão destruídos. Isto é especialmente devastador para tarefas de IA e modelagem onde o “poder preditivo” é essencial, porque dados de má qualidade resultarão em insights ruins do modelo de IA. O SAS demonstrou isso, com uma área sob a curva (AUC*) próxima de 0.5, demonstrando que os modelos treinados em dados anonimizados têm desempenho de longe o pior.
As correlações e relações entre as variáveis foram preservadas com precisão nos dados sintéticos.
A área sob a curva (AUC), uma métrica para medir o desempenho do modelo, permaneceu consistente.
Além disso, a importância da variável, que indica o poder preditivo das variáveis em um modelo, permaneceu intacta ao comparar dados sintéticos com o conjunto de dados original.
Com base nessas observações do SAS e usando o SAS Viya, podemos concluir com segurança que os dados sintéticos gerados pelo Syntho Engine estão de fato no mesmo nível dos dados reais em termos de qualidade. Isto valida o uso de dados sintéticos para o desenvolvimento de modelos, abrindo caminho para análises avançadas com dados sintéticos.