FAQ

Preguntas frecuentes sobre datos sintéticos

Comprensible! Afortunadamente, temos as respostas e estamos aquí para axudar. Consulta as nosas preguntas máis frecuentes.

Abre unha pregunta a continuación e fai clic nas ligazóns para atopar máis información. Tes algunha pregunta máis complicada que non está aquí? Pregunta directamente aos nosos expertos!

As preguntas máis feitas

Os datos sintéticos refírese a datos que se xeran artificialmente en lugar de recollerse de fontes do mundo real. En xeral, mentres que os datos orixinais recóllense en todas as súas interaccións coas persoas (clientes, pacientes, etc.) e a través de todos os seus procesos internos, os datos sintéticos son xerados por un algoritmo informático.

Os datos sintéticos tamén se poden usar para probar e avaliar modelos nun ambiente controlado ou para protexer información confidencial xerando datos similares aos datos do mundo real pero que non conteñen información confidencial. Os datos sintéticos úsanse a miúdo como alternativa para os datos sensibles á privacidade e pódense usar como datos de proba, para análises ou para adestrar a aprendizaxe automática.

Le máis

Garantir que os datos sintéticos teñan a mesma calidade de datos que os datos orixinais pode ser un reto, e moitas veces depende do caso de uso específico e dos métodos utilizados para xerar os datos sintéticos. Algúns métodos para xerar datos sintéticos, como os modelos xerativos, poden producir datos moi similares aos datos orixinais. Pregunta clave: como demostralo?

Hai algunhas formas de garantir a calidade dos datos sintéticos:

  • Métricas de calidade dos datos a través do noso informe de calidade dos datos: unha forma de garantir que os datos sintéticos teñan a mesma calidade de datos que os datos orixinais é utilizar métricas de calidade de datos para comparar os datos sintéticos cos datos orixinais. Estas métricas pódense usar para medir cousas como a semellanza, a precisión e a integridade dos datos. O software Synth incluía un informe de calidade de datos con varias métricas de calidade de datos.
  • Avaliación externa: dado que a calidade dos datos sintéticos en comparación cos datos orixinais é fundamental, recentemente fixemos unha avaliación cos expertos en datos de SAS (líder de mercado en analítica) para demostrar a calidade dos datos sintéticos de Syntho en comparación cos datos reais. Edwin van Unen, experto en análise de SAS, avaliou os conxuntos de datos sintéticos xerados por Syntho mediante varias avaliacións de análises (AI) e compartiu os resultados. Mira un pequeno resumo dese vídeo aquí.
  • Proba e avaliación por ti mesmo: os datos sintéticos pódense probar e avaliar comparándoos con datos do mundo real ou usándoos para adestrar modelos de aprendizaxe automática e comparar o seu rendemento con modelos adestrados en datos do mundo real. Por que non probar vostede mesmo a calidade dos datos sintéticos? Pregunta aquí aos nosos expertos as posibilidades disto

É importante ter en conta que os datos sintéticos nunca poden garantir que sexan 100 % similares aos datos orixinais, pero poden estar o suficientemente próximos como para ser útiles para un caso de uso específico. Este caso de uso específico pode incluso ser análise avanzada ou modelos de aprendizaxe automática de adestramento.

A "anonimización" clásica non sempre é a mellor solución, porque:

  1. Risco de privacidade - sempre terás
    un risco de privacidade. Aplicando esas
    técnicas clásicas de anonimización
    só fai que sexa máis difícil, pero non
    imposible identificar individuos.
  2. Destrución de datos - canto máis ti
    anónimo, mellor protexes
    a túa privacidade, pero canto máis ti
    destruír os teus datos. Isto non é o que
    queres para analíticas, porque
    datos destruídos resultarán malos
    insights.
  3. Tamaño de tempo - é unha solución
    iso leva moito tempo, porque
    esas técnicas funcionan de forma diferente
    por conxunto de datos e por tipo de datos.

Os datos sintéticos pretenden resolver todas estas deficiencias. A diferenza é tan rechamante que fixemos un vídeo sobre ela. Mira aquí.

Preguntas máis frecuentes

Datos sintéticos

Xeralmente, a maioría dos nosos clientes usan datos sintéticos para:

  • Proba e desenvolvemento de software
  • Datos sintéticos para análise, desenvolvemento de modelos e análise avanzada (AI e ML)
  • Demostracións de produtos

Ler máis e explorar casos de uso.

Un xemelgo de datos sintético é unha réplica xerada por algoritmo dun conxunto de datos e/ou base de datos do mundo real. Cun Synthetic Data Twin, Syntho pretende imitar un conxunto de datos ou base de datos orixinais o máis próximo posible aos datos orixinais para crear unha representación realista do orixinal. Cun xemelgo de datos sintéticos, pretendemos obter unha calidade de datos sintética superior en comparación cos datos orixinais. Facemos isto co noso software de datos sintéticos que utiliza modelos de IA de última xeración. Eses modelos de IA xeran puntos de datos completamente novos e os modelan de forma que preservamos as características, relacións e patróns estatísticos dos datos orixinais ata tal punto que podes utilizalos coma se fosen datos orixinais.

Pódese usar para diversos propósitos, como probar e adestrar modelos de aprendizaxe automática, simular escenarios para investigación e desenvolvemento e crear ambientes virtuais para a formación e a educación. Os xemelgos de datos sintéticos pódense usar para crear datos realistas e representativos que se poden usar en lugar dos datos do mundo real cando non están dispoñibles ou cando o uso dos datos do mundo real non sería práctico ou non ético debido ás estritas normas de privacidade de datos.

Ler máis.

Sí, facémolo. Ofrecemos varias funcións de optimización e aumento de datos sintéticos de valor engadido, incluídos os burladores, para levar os teus datos ao seguinte nivel.

Ler máis.

Os datos simulados e os datos sintéticos xerados pola intelixencia artificial son ambos tipos de datos sintéticos, pero xéranse de diferentes xeitos e teñen diferentes propósitos.

Os datos simulados son un tipo de datos sintéticos que se crean manualmente e que adoitan usarse con fins de proba e desenvolvemento. Normalmente úsase para simular o comportamento dos datos do mundo real nun ambiente controlado e úsase a miúdo para probar a funcionalidade dun sistema ou aplicación. A miúdo é sinxelo, fácil de xerar e non require modelos nin algoritmos complexos. Moitas veces, tamén se refire a datos simulados como "datos ficticios" ou "datos falsos".

Os datos sintéticos xerados pola IA, pola súa banda, xéranse mediante técnicas de intelixencia artificial, como a aprendizaxe automática ou os modelos xerativos. Utilízase para crear datos realistas e representativos que se poden utilizar en lugar dos datos do mundo real cando o uso de datos do mundo real non sería práctico ou non ético debido ás estritas normas de privacidade. Moitas veces é máis complexo e require máis recursos computacionais que os datos simulados manuais. Como resultado, é moito máis realista e imita os datos orixinais o máis próximo posible.

En resumo, os datos simulados créanse manualmente e úsanse normalmente para probas e desenvolvemento, mentres que os datos sintéticos xerados pola IA créanse mediante técnicas de intelixencia artificial e úsanse para crear datos representativos e realistas.

Máis preguntas? Pregunta aos nosos expertos

Calidade dos datos

Garantir que os datos sintéticos teñan a mesma calidade de datos que os datos orixinais pode ser un reto, e moitas veces depende do caso de uso específico e dos métodos utilizados para xerar os datos sintéticos. Algúns métodos para xerar datos sintéticos, como os modelos xerativos, poden producir datos moi similares aos datos orixinais. Pregunta clave: como demostralo?

Hai algunhas formas de garantir a calidade dos datos sintéticos:

  • Métricas de calidade dos datos a través do noso informe de calidade dos datos: unha forma de garantir que os datos sintéticos teñan a mesma calidade de datos que os datos orixinais é utilizar métricas de calidade de datos para comparar os datos sintéticos cos datos orixinais. Estas métricas pódense usar para medir cousas como a semellanza, a precisión e a integridade dos datos. O software Synth incluía un informe de calidade de datos con varias métricas de calidade de datos.
  • Avaliación externa: dado que a calidade dos datos sintéticos en comparación cos datos orixinais é fundamental, recentemente fixemos unha avaliación cos expertos en datos de SAS (líder de mercado en analítica) para demostrar a calidade dos datos sintéticos de Syntho en comparación cos datos reais. Edwin van Unen, experto en análise de SAS, avaliou os conxuntos de datos sintéticos xerados por Syntho mediante varias avaliacións de análises (AI) e compartiu os resultados. Mira un pequeno resumo dese vídeo aquí.
  • Proba e avaliación por ti mesmo: os datos sintéticos pódense probar e avaliar comparándoos con datos do mundo real ou usándoos para adestrar modelos de aprendizaxe automática e comparar o seu rendemento con modelos adestrados en datos do mundo real. Por que non probar vostede mesmo a calidade dos datos sintéticos? Pregunta aquí aos nosos expertos as posibilidades disto

É importante ter en conta que os datos sintéticos nunca poden garantir que sexan 100 % similares aos datos orixinais, pero poden estar o suficientemente próximos como para ser útiles para un caso de uso específico. Este caso de uso específico pode incluso ser análise avanzada ou modelos de aprendizaxe automática de adestramento.

Si o é. Os datos sintéticos incluso contén patróns dos que non sabías que estaban presentes nos datos orixinais.

Pero non só creas a nosa palabra. Os expertos en análise de SAS (líder do mercado global en análise) fixeron unha avaliación (AI) dos nosos datos sintéticos e comparáronos cos datos orixinais. Curioso? Mira o todo o evento aquí ou mira a versión curta sobre calidade dos datos aquí.

Sí, facémolo. A nosa plataforma está optimizada para bases de datos e, en consecuencia, para a preservación da integridade referencial entre os conxuntos de datos da base de datos.

Tes curiosidade por saber máis sobre isto?

Pregunta directamente aos nosos expertos.

privacidade

Non, non. Podemos implementar facilmente o Syntho Engine on-premise ou na túa nube privada mediante docker.

Non. Optimizamos a nosa plataforma de forma que se poida implementar facilmente no entorno de confianza do cliente. Isto garante que os datos nunca sairán do entorno de confianza do cliente. As opcións de implantación para o ambiente de confianza do cliente son "on-premise" e no "contorno de nube do cliente (nube privada)".

Opcional: Syntho admite unha versión aloxada na "nube Syntho".

Non. O Syntho Engine é unha plataforma de autoservizo. Como resultado, a xeración de datos sintéticos co motor Syntho é posible dun xeito que no end-to-end proceso, Syntho nunca é capaz de ver e nunca obriga a procesar datos.

Si, facémolo a través do noso informe de control de calidade.

 

Ao sintetizar un conxunto de datos, é esencial demostrar que non se é capaz de reidentificar os individuos. En Este vídeo, Marijn introduce medidas de privacidade que están no noso informe de calidade para demostralo.

O informe de control de calidade de Syntho contén tres estándar da industria métricas para avaliar a privacidade dos datos. A idea detrás de cada unha destas métricas é a seguinte:

  • Datos sintéticos (S) debe estar "o máis preto posible", pero "non demasiado preto" dos datos de destino (T).
  • Datos de retención seleccionados aleatoriamente (H) determina o punto de referencia para "demasiado preto".
  • A solución perfecta xera novos datos sintéticos que se comportan exactamente como os datos orixinais, pero que non foron vistos antes (= H).

Un dos casos de uso que destaca especificamente pola Autoridade de Protección de Datos Holandesa é o uso de datos sintéticos como datos de proba.

Pódese atopar máis neste artigo.

Motor sintético

O Syntho Engine envíase nun contedor Docker e pódese implementar e conectar facilmente ao ambiente que elixa.

As posibles opcións de implantación inclúen:

  • Premisa
  • Calquera nube (privada).
  • Calquera outro ambiente

Le máis.

Syntho permítelle conectarse facilmente coas súas bases de datos, aplicacións, canalizacións de datos ou sistemas de ficheiros. 

Admitimos varios conectores integrados para que poida conectarse co entorno de orixe (onde se almacenan os datos orixinais) e co contorno de destino (onde quere escribir os seus datos sintéticos) end-to-end enfoque integrado.

Funcións de conexión que admitimos:

  • Conecta e xoga con Docker
  • Máis de 20 conectores de base de datos
  • Máis de 20 conectores de sistema de ficheiros

Le máis.

Por suposto, o tempo de xeración depende do tamaño da base de datos. De media, unha táboa con menos de 1 millón de rexistros sintetízase en menos de 5 minutos.

Os algoritmos de aprendizaxe automática de Syntho poden xeneralizar mellor as funcións con máis rexistros de entidades dispoñibles, o que diminúe o risco de privacidade. Recoméndase unha relación columna-fila mínima de 1:500. Por exemplo, se a táboa de orixe ten 6 columnas, debería conter un mínimo de 3000 filas.

De ningunha maneira. Aínda que pode ser necesario un esforzo para comprender completamente as vantaxes, o funcionamento e os casos de uso dos datos sintéticos, o proceso de síntese é moi sinxelo e calquera que teña coñecementos básicos de informática pode facelo. Para obter máis información sobre o proceso de síntese, consulte nesta páxina or solicitar unha demostración.

O Syntho Engine funciona mellor en datos estruturados e tabulares (todo o que conteña filas e columnas). Dentro destas estruturas, admitimos os seguintes tipos de datos:

  • Estrutura datos formateados en táboas (categóricos, numéricos, etc.)
  • Identificadores directos e PII
  • Grandes conxuntos de datos e bases de datos
  • Datos de localización xeográfica (como GPS)
  • Datos de series temporais
  • Bases de datos de varias táboas (con integridade referencial)
  • Datos de texto abertos

 

Compatibilidade de datos
Ademais de todos os tipos habituais de datos tabulares, Syntho Engine admite tipos de datos complexos e estruturas de datos complexas.

  • Serie temporal
  • Bases de datos de varias táboas
  • Texto aberto

Le máis.

Non, optimizamos a nosa plataforma para minimizar os requisitos computacionais (por exemplo, non se precisa GPU), sen comprometer a precisión dos datos. Ademais, admitimos o escalado automático, para que se poida sintetizar enormes bases de datos.

Si. O software Syntho está optimizado para bases de datos que conteñan varias táboas.

En canto a isto, Syntho detecta automaticamente os tipos de datos, esquemas e formatos para maximizar a precisión dos datos. Para a base de datos de varias táboas, admitimos a inferencia e a síntese automática de relacións de táboas para preservar a integridade referencial.

grupo de persoas sorrindo

Os datos son sintéticos, pero o noso equipo é real!

Póñase en contacto con Syntho e un dos nosos expertos porase en contacto contigo á velocidade da luz para explorar o valor dos datos sintéticos.