Um curso intensivo de dados sintéticos


Saiba Mais


Contacte-nos

Introdução

O que são dados sintética?

A resposta é relativamente simples. Enquanto os dados originais são coletados em todas as suas interações com pessoas reais (por exemplo, clientes, pacientes, funcionários etc.) e através de todos os seus processos internos, os dados sintéticos são gerados por um algoritmo de computador. Este algoritmo de computador gera pontos de dados completamente novos e artificiais.

Resolver desafios de privacidade de dados

Os dados gerados sinteticamente consistem em pontos de dados completamente novos e artificiais, sem relações diretas com os dados originais. Portanto, nenhum dos pontos de dados sintéticos pode ser rastreado ou submetido a engenharia reversa aos dados originais. Como resultado, os dados sintéticos estão isentos de regulamentações de privacidade, como o GDPR, e servem como solução para resolver e superar os desafios de privacidade de dados.

Aumente e simule

O aspecto generativo da geração de dados sintéticos permite aumentar e simular dados completamente novos. Isso funciona como solução quando você não tem dados suficientes (escassez de dados), gostaria de fazer up-sample de casos extremos ou quando ainda não tem dados.

Aqui, o foco do Syntho são os dados estruturados (dados formatados em tabelas contendo linhas e colunas, como você vê em planilhas do Excel), mas sempre gostamos de ilustrar o conceito de dados sintéticos via imagens, porque é mais atraente.

Tipos de dados sintéticos

Existem três tipos de dados sintéticos dentro do guarda-chuva de dados sintéticos. Esses 3 tipos de dados sintéticos são: dados fictícios, dados sintéticos gerados com base em regras e dados sintéticos gerados por inteligência artificial (IA). Explicamos brevemente quais são os 3 tipos diferentes de dados sintéticos.

Dados fictícios/dados simulados

Dados fictícios são dados gerados aleatoriamente (por exemplo, por um gerador de dados simulado).

Consequentemente, características, relacionamentos e padrões estatísticos que estão nos dados originais não são preservados, capturados e reproduzidos nos dados fictícios gerados. Assim, a representatividade dos dados fictícios/dados simulados é mínima em comparação com os dados originais.

  • Quando usar: para substituir identificadores diretos (PII) ou quando você não tem dados (ainda) e não quer gastar tempo e energia na definição de regras.

Dados sintéticos gerados com base em regras

Dados sintéticos gerados com base em regras são dados sintéticos gerados por um conjunto predefinido de regras. Exemplos dessas regras predefinidas podem ser que você gostaria de ter dados sintéticos com um determinado valor mínimo, valor máximo ou valor médio. Qualquer uma das características, relacionamentos e padrões estatísticos que você gostaria de ter reproduzido nos dados sintéticos gerados com base em regras precisam ser pré-definidos.

Consequentemente, a qualidade dos dados será tão boa quanto o conjunto de regras pré-definidas. Isso resulta em desafios quando a alta qualidade dos dados é essencial. Primeiro, pode-se definir apenas um conjunto limitado de regras a serem capturadas nos dados sintéticos. Além disso, configurar várias regras normalmente resultará em regras sobrepostas e conflitantes. Além disso, você nunca cobrirá totalmente todas as regras relevantes. Além disso, pode haver regras relevantes que você nem conhece. E, finalmente (e não esquecer), isso levará muito tempo e energia, resultando em uma solução não eficiente.

  • Quando usar: quando você não tem dados (ainda)

Dados sintéticos gerados por inteligência artificial (IA)

Como você espera do nome, dados sintéticos gerados por inteligência artificial (IA) são dados sintéticos gerados por um algoritmo de inteligência artificial (IA). O modelo de IA é treinado nos dados originais para aprender todas as características, relacionamentos e padrões estatísticos. A partir daí, esse algoritmo de IA é capaz de gerar pontos de dados completamente novos e modelar esses novos pontos de dados de forma a reproduzir as características, relacionamentos e padrões estatísticos do conjunto de dados original. Isso é o que chamamos de gêmeo de dados sintéticos.

O modelo de IA imita os dados originais para gerar gêmeos de dados sintéticos que podem ser usados ​​como se fossem dados originais. Isso desbloqueia vários casos de uso em que os dados sintéticos gerados pela IA podem ser usados ​​como alternativa para o uso de dados originais (sensíveis), como o uso de dados sintéticos gerados pela IA como dados de teste, dados de demonstração ou para análise.

Uma visualização de como os dados sintéticos são criados

Em comparação com dados sintéticos gerados com base em regras: em vez de você estudar e definir regras relevantes, o algoritmo de IA faz isso automaticamente para você. Aqui, não apenas características, relacionamentos e padrões estatísticos que você conhece serão abordados, mas também características, relacionamentos e padrões estatísticos que você nem mesmo conhece serão abordados.

  • Quando usar: quando você tem (alguns) dados como entrada para imitar ou usar como ponto de partida para geração de dados inteligentes e recursos de aumento

Que tipo de dados sintéticos usar?

Dependendo do seu caso de uso, é aconselhável uma combinação de dados fictícios/dados simulados, dados sintéticos gerados com base em regras ou dados sintéticos gerados por inteligência artificial (IA). Esta visão geral fornece uma primeira indicação de qual tipo de dados sintéticos usar. Como o Syntho oferece suporte a todos eles, sinta-se à vontade para entrar em contato com nossos especialistas para aprofundar seu caso de uso conosco.

Este gráfico apresenta diferentes tipos de dados sintéticos

capa do guia syntho

Salve seu guia de dados sintéticos agora!