Perguntas frequentes

Perguntas frequentes sobre dados sintéticos

Compreensível! Felizmente, temos as respostas e estamos aqui para ajudar. Verifique nossas perguntas frequentes.

Abra uma pergunta abaixo e clique nos links para obter mais informações. Tem uma pergunta mais complicada que não está declarada aqui? Pergunte diretamente aos nossos especialistas!

As perguntas mais feitas

Dados sintéticos referem-se a dados gerados artificialmente, em vez de coletados de fontes do mundo real. Em geral, enquanto os dados originais são coletados em todas as suas interações com pessoas (clientes, pacientes, etc.) e por meio de todos os seus processos internos, os dados sintéticos são gerados por um algoritmo de computador.

Os dados sintéticos também podem ser usados ​​para testar e avaliar modelos em um ambiente controlado ou para proteger informações confidenciais gerando dados semelhantes aos dados do mundo real, mas que não contêm informações confidenciais. Os dados sintéticos são frequentemente usados ​​como alternativa para dados confidenciais de privacidade e podem ser usados ​​como dados de teste, para análises ou para treinar aprendizado de máquina.

Saiba mais

Garantir que os dados sintéticos tenham a mesma qualidade de dados que os dados originais pode ser desafiador e geralmente depende do caso de uso específico e dos métodos usados ​​para gerar os dados sintéticos. Alguns métodos para gerar dados sintéticos, como modelos generativos, podem produzir dados muito semelhantes aos dados originais. Questão-chave: como demonstrar isso?

Existem algumas maneiras de garantir a qualidade dos dados sintéticos:

  • Métricas de qualidade de dados por meio de nosso relatório de qualidade de dados: uma forma de garantir que os dados sintéticos tenham a mesma qualidade de dados que os dados originais é usar métricas de qualidade de dados para comparar os dados sintéticos com os dados originais. Essas métricas podem ser usadas para medir coisas como similaridade, precisão e integridade dos dados. O software Syntho incluiu um relatório de qualidade de dados com várias métricas de qualidade de dados.
  • Avaliação externa: como a qualidade dos dados sintéticos em comparação com os dados originais é fundamental, recentemente fizemos uma avaliação com os especialistas em dados da SAS (líder de mercado em análise) para demonstrar a qualidade dos dados sintéticos da Syntho em comparação com os dados reais. Edwin van Unen, especialista em análise do SAS, avaliou os conjuntos de dados sintéticos gerados pelo Syntho por meio de várias avaliações analíticas (IA) e compartilhou os resultados. Assista a uma breve recapitulação desse vídeo aqui.
  • Teste e avaliação por si mesmo: dados sintéticos podem ser testados e avaliados comparando-os com dados do mundo real ou usando-os para treinar modelos de aprendizado de máquina e comparar seu desempenho com modelos treinados em dados do mundo real. Por que não testar você mesmo a qualidade dos dados sintéticos? Pergunte aos nossos especialistas sobre as possibilidades disso aqui

É importante observar que os dados sintéticos nunca podem ser 100% semelhantes aos dados originais, mas podem ser próximos o suficiente para serem úteis para um caso de uso específico. Esse caso de uso específico pode até ser análise avançada ou modelos de aprendizado de máquina de treinamento.

A 'anonimização' clássica nem sempre é a melhor solução, porque:

  1. Risco de privacidade - você sempre terá
    um risco de privacidade. Aplicando aqueles
    técnicas clássicas de anonimização
    torna apenas mais difícil, mas não
    impossível identificar indivíduos.
  2. Destruindo dados - quanto mais você
    anonimize, melhor você protege
    sua privacidade, mas quanto mais você
    destruir seus dados. Isso não é o que
    você quer para análise, porque
    dados destruídos resultarão em problemas
    intuições.
  3. Demorada – é uma solução
    isso leva muito tempo, porque
    essas técnicas funcionam de forma diferente
    por conjunto de dados e por tipo de dados.

Dados sintéticos visam resolver todas essas deficiências. A diferença é tão marcante que fizemos um vídeo sobre isso. Assista aqui.

Perguntas Frequentes

Dados Sintéticos

Geralmente, a maioria de nossos clientes usa dados sintéticos para:

  • Teste e desenvolvimento de software
  • Dados sintéticos para análises, desenvolvimento de modelos e análises avançadas (AI e ML)
  • Demonstrações de produtos

Leia mais e explore casos de uso.

Um gêmeo de dados sintético é uma réplica gerada por algoritmo de um conjunto de dados e/ou banco de dados do mundo real. Com um Synthetic Data Twin, o Syntho visa imitar um conjunto de dados ou banco de dados original o mais próximo possível dos dados originais para criar uma representação realista do original. Com um gêmeo de dados sintéticos, buscamos uma qualidade de dados sintéticos superior em comparação com os dados originais. Fazemos isso com nosso software de dados sintéticos que usa modelos de IA de última geração. Esses modelos de IA geram pontos de dados completamente novos e os modelam de forma que preservamos as características, relacionamentos e padrões estatísticos dos dados originais a tal ponto que você pode usá-los como se fossem dados originais.

Isso pode ser usado para diversas finalidades, como testar e treinar modelos de aprendizado de máquina, simular cenários para pesquisa e desenvolvimento e criar ambientes virtuais para treinamento e educação. Gêmeos de dados sintéticos podem ser usados ​​para criar dados realistas e representativos que podem ser usados ​​no lugar de dados do mundo real quando não estiverem disponíveis ou quando o uso de dados do mundo real for impraticável ou antiético devido a regulamentos rígidos de privacidade de dados.

Leia mais.

Sim nós fazemos. Oferecemos vários recursos de otimização e aumento de dados sintéticos de valor agregado, incluindo mockers, para levar seus dados para o próximo nível.

Leia mais.

Dados fictícios e dados sintéticos gerados por IA são tipos de dados sintéticos, mas são gerados de maneiras diferentes e servem a propósitos diferentes.

Dados fictícios são um tipo de dados sintéticos criados manualmente e frequentemente usados ​​para fins de teste e desenvolvimento. É normalmente usado para simular o comportamento de dados do mundo real em um ambiente controlado e é frequentemente usado para testar a funcionalidade de um sistema ou aplicativo. Geralmente é simples, fácil de gerar e não requer modelos ou algoritmos complexos. Frequentemente, também se refere a dados fictícios como “dados fictícios” ou “dados falsos”.

Os dados sintéticos gerados por IA, por outro lado, são gerados usando técnicas de inteligência artificial, como aprendizado de máquina ou modelos generativos. Ele é usado para criar dados realistas e representativos que podem ser usados ​​no lugar de dados do mundo real quando usar os dados do mundo real seria impraticável ou antiético devido a regulamentos rígidos de privacidade. Geralmente é mais complexo e requer mais recursos computacionais do que os dados simulados manuais. Como resultado, é muito mais realista e imita os dados originais o mais próximo possível.

Em resumo, dados fictícios são criados manualmente e normalmente usados ​​para teste e desenvolvimento, enquanto dados sintéticos gerados por IA são criados usando técnicas de inteligência artificial e são usados ​​para criar dados representativos e realistas.

Mais perguntas? Pergunte aos nossos especialistas

Qualidade de dados

Garantir que os dados sintéticos tenham a mesma qualidade de dados que os dados originais pode ser desafiador e geralmente depende do caso de uso específico e dos métodos usados ​​para gerar os dados sintéticos. Alguns métodos para gerar dados sintéticos, como modelos generativos, podem produzir dados muito semelhantes aos dados originais. Questão-chave: como demonstrar isso?

Existem algumas maneiras de garantir a qualidade dos dados sintéticos:

  • Métricas de qualidade de dados por meio de nosso relatório de qualidade de dados: uma forma de garantir que os dados sintéticos tenham a mesma qualidade de dados que os dados originais é usar métricas de qualidade de dados para comparar os dados sintéticos com os dados originais. Essas métricas podem ser usadas para medir coisas como similaridade, precisão e integridade dos dados. O software Syntho incluiu um relatório de qualidade de dados com várias métricas de qualidade de dados.
  • Avaliação externa: como a qualidade dos dados sintéticos em comparação com os dados originais é fundamental, recentemente fizemos uma avaliação com os especialistas em dados da SAS (líder de mercado em análise) para demonstrar a qualidade dos dados sintéticos da Syntho em comparação com os dados reais. Edwin van Unen, especialista em análise do SAS, avaliou os conjuntos de dados sintéticos gerados pelo Syntho por meio de várias avaliações analíticas (IA) e compartilhou os resultados. Assista a uma breve recapitulação desse vídeo aqui.
  • Teste e avaliação por si mesmo: dados sintéticos podem ser testados e avaliados comparando-os com dados do mundo real ou usando-os para treinar modelos de aprendizado de máquina e comparar seu desempenho com modelos treinados em dados do mundo real. Por que não testar você mesmo a qualidade dos dados sintéticos? Pergunte aos nossos especialistas sobre as possibilidades disso aqui

É importante observar que os dados sintéticos nunca podem ser 100% semelhantes aos dados originais, mas podem ser próximos o suficiente para serem úteis para um caso de uso específico. Esse caso de uso específico pode até ser análise avançada ou modelos de aprendizado de máquina de treinamento.

Sim, ele é. Os dados sintéticos ainda contêm padrões dos quais você não sabia que estavam presentes nos dados originais.

Mas não acredite apenas na nossa palavra. Os especialistas em análise do SAS (líder de mercado global em análise) fizeram uma avaliação (IA) de nossos dados sintéticos e os compararam com os dados originais. Curioso? Veja o todo o evento aqui ou assista a versão curta sobre qualidade de dados aqui.

Sim nós fazemos. Nossa plataforma é otimizada para bancos de dados e, consequentemente, a preservação da integridade referencial entre conjuntos de dados no banco de dados.

Curioso para saber mais sobre isso?

Pergunte diretamente aos nossos especialistas.

Privacidade

Não, nós não. Podemos implantar facilmente o Syntho Engine no local ou em sua nuvem privada via docker.

Não. Otimizamos nossa plataforma de forma que ela possa ser facilmente implantada no ambiente confiável do cliente. Isso garante que os dados nunca saiam do ambiente confiável do cliente. As opções de implantação para o ambiente confiável do cliente são “no local” e no “ambiente de nuvem do cliente (nuvem privada)”.

Opcional: Syntho suporta uma versão hospedada na “nuvem Syntho”.

Não. O Syntho Engine é uma plataforma de autoatendimento. Como resultado, é possível gerar dados sintéticos com o Syntho Engine de forma que no end-to-end processo, Syntho nunca é capaz de ver e nunca é obrigado a processar dados.

Sim, fazemos isso por meio do nosso relatório de controle de qualidade.

 

Ao sintetizar um conjunto de dados, é essencial demonstrar que não é possível reidentificar indivíduos. No este vídeo, Marijn apresenta medidas de privacidade que estão em nosso relatório de qualidade para demonstrar isso.

O relatório QA do Syntho contém três padrão industrial métricas para avaliar a privacidade dos dados. A ideia por trás de cada uma dessas métricas é a seguinte:

  • dados sintéticos (S) deve ser “o mais próximo possível”, mas “não muito próximo” dos dados do padrão (T).
  • Dados de controle selecionados aleatoriamente (H) determina a referência para “muito perto”.
  • A solução perfeita gera novos dados sintéticos que se comportam exatamente como os dados originais, mas não foram vistos antes (= H).

Um dos casos de uso especificamente destacados pela Autoridade Holandesa de Proteção de Dados é o uso de dados sintéticos como dados de teste.

Mais pode ser encontrado neste artigo.

Motor Syntho

O Syntho Engine é enviado em um contêiner Docker e pode ser facilmente implantado e conectado ao ambiente de sua escolha.

As opções de implantação possíveis incluem:

  • Na premissa
  • Qualquer nuvem (privada)
  • Qualquer outro ambiente

Saiba mais.

Syntho permite que você se conecte facilmente com seus bancos de dados, aplicativos, pipelines de dados ou sistemas de arquivos. 

Oferecemos suporte a vários conectores integrados para que você possa se conectar ao ambiente de origem (onde os dados originais são armazenados) e ao ambiente de destino (onde deseja gravar seus dados sintéticos) para uma end-to-end abordagem integrada.

Recursos de conexão para os quais oferecemos suporte:

  • Plug-and-play com Docker
  • Mais de 20 conectores de banco de dados
  • Mais de 20 conectores de sistema de arquivos

Saiba mais.

Naturalmente, o tempo de geração depende do tamanho do banco de dados. Em média, uma tabela com menos de 1 milhão de registros é sintetizada em menos de 5 minutos.

Os algoritmos de aprendizado de máquina da Syntho podem generalizar melhor os recursos com mais registros de entidade disponíveis, o que diminui o risco de privacidade. Recomenda-se uma proporção mínima de coluna para linha de 1:500. Por exemplo, se sua tabela de origem tiver 6 colunas, ela deverá conter no mínimo 3000 linhas.

De jeito nenhum. Embora possa exigir algum esforço para compreender totalmente as vantagens, o funcionamento e os casos de uso dos dados sintéticos, o processo de sintetização é muito simples e qualquer pessoa com conhecimentos básicos de informática pode fazê-lo. Para obter mais informações sobre o processo de síntese, consulte esta página or solicite uma demonstração.

O Syntho Engine funciona melhor em dados tabulares estruturados (qualquer coisa que contenha linhas e colunas). Dentro dessas estruturas, oferecemos suporte aos seguintes tipos de dados:

  • Estruturas de dados formatados em tabelas (categóricas, numéricas, etc.)
  • Identificadores diretos e PII
  • Grandes conjuntos de dados e bancos de dados
  • Dados de localização geográfica (como GPS)
  • Dados de série temporal
  • Bancos de dados multi-tabelas (com integridade referencial)
  • Dados de texto aberto

 

suporte de dados complexos
Ao lado de todos os tipos regulares de dados tabulares, o Syntho Engine suporta tipos de dados complexos e estruturas de dados complexas.

  • Séries temporais
  • Bancos de dados multi-mesa
  • Abrir texto

Saiba mais.

Não, otimizamos nossa plataforma para minimizar os requisitos computacionais (por exemplo, sem necessidade de GPU), sem comprometer a precisão dos dados. Além disso, oferecemos suporte ao dimensionamento automático, para que seja possível sintetizar bancos de dados enormes.

Sim. O software Syntho é otimizado para bancos de dados contendo várias tabelas.

Quanto a isso, o Syntho detecta automaticamente os tipos de dados, esquemas e formatos para maximizar a precisão dos dados. Para banco de dados de várias tabelas, oferecemos suporte à inferência e síntese automática de relacionamento de tabela para preservar a integridade referencial.

grupo de pessoas sorrindo

Os dados são sintéticos, mas nossa equipe é real!

Contactar a Syntho e um de nossos especialistas entrará em contato com você na velocidade da luz para explorar o valor dos dados sintéticos!