Dados sintéticos gerados por IA, acesso fácil e rápido a dados de alta qualidade?

Dados sintéticos gerados por IA na prática

Syntho, especialista em dados sintéticos gerados por IA, pretende transformar privacy by design em uma vantagem competitiva com dados sintéticos gerados por IA. Eles ajudam as organizações a construir uma base sólida de dados com acesso fácil e rápido a dados de alta qualidade e recentemente ganharam o Philips Innovation Award.

No entanto, a geração de dados sintéticos com IA é uma solução relativamente nova que normalmente apresenta perguntas frequentes. Para responder a isso, a Syntho iniciou um estudo de caso junto com a SAS, líder de mercado em software de análise avançada e IA.

Em colaboração com a Dutch AI Coalition (NL AIC), eles investigaram o valor dos dados sintéticos comparando dados sintéticos gerados por IA gerados pelo Syntho Engine com dados originais por meio de várias avaliações sobre qualidade de dados, validade legal e usabilidade.

A anonimização de dados não é uma solução?

As técnicas clássicas de anonimização têm em comum o fato de manipularem os dados originais para impedir o rastreamento de indivíduos. Exemplos são generalização, supressão, limpeza, pseudonimização, mascaramento de dados e embaralhamento de linhas e colunas. Você pode encontrar exemplos na tabela abaixo.

anonimização de dados

Essas técnicas apresentam 3 desafios principais:

  1. Eles funcionam de forma diferente por tipo de dados e por conjunto de dados, tornando-os difíceis de dimensionar. Além disso, como funcionam de forma diferente, sempre haverá debate sobre quais métodos aplicar e qual combinação de técnicas é necessária.
  2. Há sempre uma relação de um para um com os dados originais. Isso significa que sempre haverá um risco de privacidade, especialmente devido a todos os conjuntos de dados abertos e técnicas disponíveis para vincular esses conjuntos de dados.
  3. Eles manipulam dados e, assim, destroem os dados no processo. Isso é especialmente devastador para tarefas de IA onde o “poder preditivo” é essencial, porque dados de má qualidade resultarão em insights ruins do modelo de IA (garbage-in resultará em garbage-out).

Esses pontos também são avaliados por meio deste estudo de caso.

Uma introdução ao estudo de caso

Para o estudo de caso, o conjunto de dados de destino foi um conjunto de dados de telecomunicações fornecido pelo SAS contendo os dados de 56.600 clientes. O conjunto de dados contém 128 colunas, incluindo uma coluna que indica se um cliente deixou a empresa (ou seja, 'desligado') ou não. O objetivo do estudo de caso foi usar os dados sintéticos para treinar alguns modelos para prever a perda de clientes e avaliar o desempenho desses modelos treinados. Como a previsão de churn é uma tarefa de classificação, o SAS selecionou quatro modelos de classificação populares para fazer as previsões, incluindo:

  1. Floresta aleatória
  2. Aumento de gradiente
  3. Regressão logística
  4. Rede neural

Antes de gerar os dados sintéticos, o SAS divide aleatoriamente o conjunto de dados de telecomunicações em um conjunto de treinamento (para treinar os modelos) e um conjunto de validação (para pontuar os modelos). Ter um conjunto de validação separado para pontuação permite uma avaliação imparcial do desempenho do modelo de classificação quando aplicado a novos dados.

Usando o conjunto de trens como entrada, o Syntho usou seu Syntho Engine para gerar um conjunto de dados sintético. Para benchmarking, o SAS também criou uma versão manipulada do conjunto de trens após aplicar várias técnicas de anonimização para atingir um certo limite (de k-anonimidade). As etapas anteriores resultaram em quatro conjuntos de dados:

  1. Um conjunto de dados de trem (ou seja, o conjunto de dados original menos o conjunto de dados de retenção)
  2. Um conjunto de dados de validação (ou seja, um subconjunto do conjunto de dados original)
  3. Um conjunto de dados anônimo (com base no conjunto de dados de trem)
  4. Um conjunto de dados sintético (com base no conjunto de dados de trem)

Os conjuntos de dados 1, 3 e 4 foram usados ​​para treinar cada modelo de classificação, resultando em 12 (3 x 4) modelos treinados. O SAS posteriormente usou o conjunto de dados de validação para medir a precisão com que cada modelo prevê a perda de clientes. Os resultados são apresentados a seguir, começando com algumas estatísticas básicas.

Pipeline de aprendizado de máquina gerado no SAS

Figura: pipeline de Machine Learning gerado no SAS Visual Data Mining e Machine Learning

Estatísticas básicas ao comparar dados anônimos com dados originais

As técnicas de anonimização destroem até mesmo padrões básicos, lógica de negócios, relacionamentos e estatísticas (como no exemplo abaixo). O uso de dados anônimos para análises básicas produz resultados não confiáveis. Na verdade, a baixa qualidade dos dados anônimos tornou quase impossível usá-los para tarefas de análise avançada (por exemplo, modelagem e painéis de IA/ML).

comparando dados anônimos com dados originais

Estatísticas básicas ao comparar dados sintéticos com dados originais

A geração de dados sintéticos com IA preserva padrões básicos, lógica de negócios, relacionamentos e estatísticas (como no exemplo abaixo). O uso de dados sintéticos para análises básicas produz resultados confiáveis. Pergunta-chave: os dados sintéticos são válidos para tarefas de análise avançada (por exemplo, modelagem e painel de IA/ML)?

comparando dados sintéticos com dados originais

Dados sintéticos gerados por IA e análises avançadas

Os dados sintéticos são válidos não apenas para padrões básicos (como mostrado nos gráficos anteriores), mas também capturam padrões estatísticos profundos 'ocultos' necessários para tarefas de análise avançada. Este último é demonstrado no gráfico de barras abaixo, indicando que a precisão dos modelos treinados em dados sintéticos versus modelos treinados em dados originais são semelhantes. Além disso, com uma área sob a curva (AUC*) próxima de 0.5, os modelos treinados em dados anônimos têm desempenho muito pior. O relatório completo com todas as avaliações analíticas avançadas sobre dados sintéticos em comparação com os dados originais está disponível mediante solicitação.

*AUC: a área sob a curva é uma medida da precisão dos modelos de análise avançada, levando em consideração os verdadeiros positivos, falsos positivos, falsos negativos e verdadeiros negativos. 0,5 significa que um modelo prevê aleatoriamente e não tem poder preditivo e 1 significa que o modelo está sempre correto e tem poder preditivo total.

Além disso, esses dados sintéticos podem ser usados ​​para entender as características dos dados e as principais variáveis ​​necessárias para o treinamento real dos modelos. As entradas selecionadas pelos algoritmos em dados sintéticos em comparação com dados originais foram muito semelhantes. Assim, o processo de modelagem pode ser feito nesta versão sintética, o que reduz o risco de violação de dados. No entanto, ao inferir registros individuais (por exemplo, cliente de telecomunicações), é recomendado o retreinamento em dados originais para explicabilidade, maior aceitação ou apenas por causa da regulamentação.                              

AUC por Algoritmo agrupado por Método

AUC

Conclusões:

  • Modelos treinados em dados sintéticos em comparação com os modelos treinados em dados originais mostram desempenho altamente semelhante
  • Modelos treinados em dados anonimizados com 'técnicas clássicas de anonimização' apresentam desempenho inferior em comparação com modelos treinados em dados originais ou dados sintéticos
  • A geração de dados sintéticos é fácil e rápida porque a técnica funciona exatamente da mesma forma por conjunto de dados e por tipo de dados.

Casos de uso de dados sintéticos de valor agregado

Caso de uso 1: dados sintéticos para desenvolvimento de modelos e análises avançadas

Ter uma base de dados sólida com acesso fácil e rápido a dados utilizáveis ​​e de alta qualidade é essencial para desenvolver modelos (por exemplo, painéis [BI] e análises avançadas [AI & ML]). No entanto, muitas organizações sofrem com uma base de dados abaixo do ideal, resultando em 3 desafios principais:

  • O acesso aos dados leva muito tempo devido a regulamentos (de privacidade), processos internos ou silos de dados
  • As técnicas clássicas de anonimização destroem os dados, tornando os dados não mais adequados para análise e análises avançadas (entrada de lixo = saída de lixo)
  • As soluções existentes não são escaláveis ​​porque funcionam de forma diferente por conjunto de dados e por tipo de dados e não podem lidar com grandes bancos de dados de várias tabelas

Abordagem de dados sintéticos: desenvolva modelos com dados sintéticos tão bons quanto reais para:

  • Minimize o uso de dados originais, sem atrapalhar seus desenvolvedores
  • Desbloqueie dados pessoais e tenha acesso a mais dados que eram anteriormente restritos (por exemplo, devido à privacidade)
  • Acesso fácil e rápido aos dados relevantes
  • Solução escalável que funciona da mesma forma para cada conjunto de dados, tipo de dados e para bancos de dados massivos

Isso permite que a organização construa uma base de dados sólida com acesso fácil e rápido a dados utilizáveis ​​e de alta qualidade para desbloquear dados e aproveitar oportunidades de dados.

 

Caso de uso 2: dados de teste sintéticos inteligentes para teste, desenvolvimento e entrega de software

O teste e o desenvolvimento com dados de teste de alta qualidade são essenciais para fornecer soluções de software de última geração. Usar dados de produção originais parece óbvio, mas não é permitido devido a regulamentos (de privacidade). Alternativo Test Data Management As ferramentas (TDM) introduzem “legacy-by-design” para obter os dados de teste corretos:

  • Não refletem os dados de produção e a lógica de negócios e a integridade referencial não são preservadas
  • Trabalho lento e demorado
  • Trabalho manual é necessário

Abordagem de dados sintéticos: teste e desenvolva com dados de teste sintéticos gerados por IA para fornecer soluções de software de última geração inteligentes com:

  • Dados semelhantes à produção com lógica de negócios preservada e integridade referencial
  • Geração de dados fácil e rápida com IA de última geração
  • Privacidade por design
  • Fácil, rápido e agile

Isso permite que a organização teste e desenvolva com dados de teste de próximo nível para fornecer soluções de software de última geração!

Mais informação

Interessado? Para obter mais informações sobre dados sintéticos, visite o site da Syntho ou entre em contato com Wim Kees Janssen. Para obter mais informações sobre o SAS, visite www.sas.com ou entre em contato com kees@syntho.ai.

Neste caso de uso, Syntho, SAS e NL AIC trabalham juntos para alcançar os resultados pretendidos. A Syntho é especialista em dados sintéticos gerados por IA e a SAS é líder de mercado em análise e oferece software para explorar, analisar e visualizar dados.

* Prevê 2021 – Estratégias de dados e análises para governar, dimensionar e transformar negócios digitais, Gartner, 2020.

capa do guia syntho

Salve seu guia de dados sintéticos agora!