Preguntas Frecuentes

Preguntas frecuentes sobre datos sintéticos

¡Comprensible! Afortunadamente, tenemos las respuestas y estamos aquí para ayudar. Consulta nuestras preguntas frecuentes.

Abra una pregunta a continuación y haga clic en los enlaces para encontrar más información. ¿Tiene una pregunta más complicada que no se menciona aquí? ¡Pregunte directamente a nuestros expertos!

Las preguntas más frecuentes

Los datos sintéticos se refieren a datos generados artificialmente en lugar de recopilados de fuentes del mundo real. En general, mientras que los datos originales se recopilan en todas sus interacciones con personas (clientes, pacientes, etc.) y a través de todos sus procesos internos, los datos sintéticos se generan mediante un algoritmo informático.

Los datos sintéticos también se pueden usar para probar y evaluar modelos en un entorno controlado, o para proteger información confidencial generando datos que son similares a los datos del mundo real pero que no contienen información confidencial. Los datos sintéticos se utilizan a menudo como alternativa para los datos sensibles a la privacidad y podrían usarse como datos de prueba, para análisis o para entrenar el aprendizaje automático.

Leer más

Garantizar que los datos sintéticos tengan la misma calidad de datos que los datos originales puede ser un desafío y, a menudo, depende del caso de uso específico y los métodos utilizados para generar los datos sintéticos. Algunos métodos para generar datos sintéticos, como los modelos generativos, pueden producir datos que son muy similares a los datos originales. Pregunta clave: ¿cómo demostrar esto?

Hay algunas formas de garantizar la calidad de los datos sintéticos:

  • Métricas de calidad de datos a través de nuestro informe de calidad de datos: Una forma de garantizar que los datos sintéticos tengan la misma calidad de datos que los datos originales es usar métricas de calidad de datos para comparar los datos sintéticos con los datos originales. Estas métricas se pueden usar para medir cosas como la similitud, la precisión y la integridad de los datos. El software Syntho incluía un informe de calidad de datos con varias métricas de calidad de datos.
  • Evaluación externa: dado que la calidad de los datos sintéticos en comparación con los datos originales es clave, recientemente hicimos una evaluación con los expertos en datos de SAS (líder del mercado en análisis) para demostrar la calidad de los datos sintéticos de Syntho en comparación con los datos reales. Edwin van Unen, experto en análisis de SAS, evaluó los conjuntos de datos sintéticos generados por Syntho a través de varias evaluaciones de análisis (IA) y compartió los resultados. Vea un breve resumen de ese video aquí..
  • Prueba y evaluación por ti mismo: los datos sintéticos se pueden probar y evaluar comparándolos con datos del mundo real o usándolos para entrenar modelos de aprendizaje automático y comparando su rendimiento con modelos entrenados con datos del mundo real. ¿Por qué no probar usted mismo la calidad de los datos sintéticos? Pregunta a nuestros expertos por las posibilidades de esto aquí

Es importante tener en cuenta que los datos sintéticos nunca pueden garantizar que sean 100 % similares a los datos originales, pero pueden estar lo suficientemente cerca como para ser útiles para un caso de uso específico. Este caso de uso específico puede incluso ser análisis avanzado o entrenar modelos de aprendizaje automático.

La 'anonimización' clásica no siempre es la mejor solución, porque:

  1. Riesgo de privacidad - siempre tendrás
    un riesgo de privacidad. aplicando esos
    técnicas clásicas de anonimización
    solo lo hace más difícil, pero no
    imposible identificar a los individuos.
  2. Destruyendo datos - cuanto más
    anonimizar, mejor se protege
    tu privacidad, pero cuanto más
    destruir sus datos. esto no es lo que
    quieres para el análisis, porque
    los datos destruidos resultarán en malas
    percepciones
  3. Pérdida de tiempo - es una solucion
    eso lleva mucho tiempo, porque
    esas tecnicas funcionan diferente
    por conjunto de datos y por tipo de datos.

Los datos sintéticos tienen como objetivo resolver todas estas deficiencias. La diferencia es tan llamativa que hicimos un video al respecto. Míralo aquí.

Preguntas frecuentes

Datos sintéticos

Generalmente, la mayoría de nuestros clientes utilizan datos sintéticos para:

  • Pruebas y desarrollo de software
  • Datos sintéticos para análisis, desarrollo de modelos y análisis avanzado (IA y ML)
  • Demostraciones de productos

Leer más y explorar casos de uso.

Un gemelo de datos sintético es una réplica generada por algoritmo de un conjunto de datos y/o base de datos del mundo real. Con un Synthetic Data Twin, Syntho tiene como objetivo imitar un conjunto de datos o una base de datos original lo más cerca posible de los datos originales para crear una representación realista del original. Con un gemelo de datos sintéticos, buscamos una calidad de datos sintéticos superior en comparación con los datos originales. Hacemos esto con nuestro software de datos sintéticos que utiliza modelos de IA de última generación. Esos modelos de IA generan puntos de datos completamente nuevos y los modelan de tal manera que conservamos las características, las relaciones y los patrones estadísticos de los datos originales hasta el punto de que puede usarlos como si fueran datos originales.

Esto se puede usar para una variedad de propósitos, como probar y entrenar modelos de aprendizaje automático, simular escenarios para investigación y desarrollo y crear entornos virtuales para capacitación y educación. Los gemelos de datos sintéticos se pueden usar para crear datos realistas y representativos que se pueden usar en lugar de datos del mundo real cuando no están disponibles o cuando el uso de datos del mundo real no sería práctico o ético debido a las estrictas normas de privacidad de datos.

Leer mas.

Sí. Ofrecemos varias funciones de aumento y optimización de datos sintéticos que agregan valor, incluidos simuladores, para llevar sus datos al siguiente nivel.

Leer mas.

Los datos simulados y los datos sintéticos generados por IA son tipos de datos sintéticos, pero se generan de diferentes maneras y tienen diferentes propósitos.

Los datos simulados son un tipo de datos sintéticos que se crean manualmente y, a menudo, se utilizan con fines de prueba y desarrollo. Por lo general, se usa para simular el comportamiento de los datos del mundo real en un entorno controlado y, a menudo, se usa para probar la funcionalidad de un sistema o aplicación. A menudo es simple, fácil de generar y no requiere modelos o algoritmos complejos. A menudo, también se hace referencia a los datos simulados como "datos ficticios" o "datos falsos".

Los datos sintéticos generados por IA, por otro lado, se generan utilizando técnicas de inteligencia artificial, como el aprendizaje automático o los modelos generativos. Se utiliza para crear datos realistas y representativos que se pueden usar en lugar de datos del mundo real cuando el uso de datos del mundo real sería poco práctico o poco ético debido a las estrictas normas de privacidad. A menudo es más complejo y requiere más recursos computacionales que los datos simulados manuales. Como resultado, es mucho más realista e imita los datos originales lo más fielmente posible.

En resumen, los datos simulados se crean manualmente y normalmente se usan para pruebas y desarrollo, mientras que los datos sintéticos generados por IA se crean usando técnicas de inteligencia artificial y se usan para crear datos representativos y realistas.

¿Más preguntas? Pregunta a nuestros expertos

Calidad de los Datos

Garantizar que los datos sintéticos tengan la misma calidad de datos que los datos originales puede ser un desafío y, a menudo, depende del caso de uso específico y los métodos utilizados para generar los datos sintéticos. Algunos métodos para generar datos sintéticos, como los modelos generativos, pueden producir datos que son muy similares a los datos originales. Pregunta clave: ¿cómo demostrar esto?

Hay algunas formas de garantizar la calidad de los datos sintéticos:

  • Métricas de calidad de datos a través de nuestro informe de calidad de datos: Una forma de garantizar que los datos sintéticos tengan la misma calidad de datos que los datos originales es usar métricas de calidad de datos para comparar los datos sintéticos con los datos originales. Estas métricas se pueden usar para medir cosas como la similitud, la precisión y la integridad de los datos. El software Syntho incluía un informe de calidad de datos con varias métricas de calidad de datos.
  • Evaluación externa: dado que la calidad de los datos sintéticos en comparación con los datos originales es clave, recientemente hicimos una evaluación con los expertos en datos de SAS (líder del mercado en análisis) para demostrar la calidad de los datos sintéticos de Syntho en comparación con los datos reales. Edwin van Unen, experto en análisis de SAS, evaluó los conjuntos de datos sintéticos generados por Syntho a través de varias evaluaciones de análisis (IA) y compartió los resultados. Vea un breve resumen de ese video aquí..
  • Prueba y evaluación por ti mismo: los datos sintéticos se pueden probar y evaluar comparándolos con datos del mundo real o usándolos para entrenar modelos de aprendizaje automático y comparando su rendimiento con modelos entrenados con datos del mundo real. ¿Por qué no probar usted mismo la calidad de los datos sintéticos? Pregunta a nuestros expertos por las posibilidades de esto aquí

Es importante tener en cuenta que los datos sintéticos nunca pueden garantizar que sean 100 % similares a los datos originales, pero pueden estar lo suficientemente cerca como para ser útiles para un caso de uso específico. Este caso de uso específico puede incluso ser análisis avanzado o entrenar modelos de aprendizaje automático.

Sí lo es. Los datos sintéticos incluso contienen patrones de los que no sabía que estaban presentes en los datos originales.

Pero no solo confíe en nuestra palabra. Los expertos en análisis de SAS (líder del mercado global en análisis) hicieron una evaluación (AI) de nuestros datos sintéticos y los compararon con los datos originales. ¿Curioso? Mira el todo el evento aquí o mira la versión corta sobre calidad de los datos aquí.

Sí. Nuestra plataforma está optimizada para bases de datos y, en consecuencia, la preservación de la integridad referencial entre conjuntos de datos en la base de datos.

¿Tienes curiosidad por saber más sobre esto?

Pregunte directamente a nuestros expertos.

Privacidad

No, no lo hacemos. Podemos implementar fácilmente Syntho Engine en las instalaciones o en su nube privada a través de Docker.

No. Optimizamos nuestra plataforma de tal manera que se pueda implementar fácilmente en el entorno de confianza del cliente. Esto asegura que los datos nunca saldrán del entorno de confianza del cliente. Las opciones de implementación para el entorno de confianza del cliente son "en las instalaciones" y en el "entorno de nube del cliente (nube privada)".

Opcional: Syntho admite una versión alojada en la "nube de Syntho".

No. Syntho Engine es una plataforma de autoservicio. Como resultado, es posible generar datos sintéticos con Syntho Engine de una manera que en el end-to-end proceso, Syntho nunca es capaz de ver y nunca necesita procesar datos.

Sí, lo hacemos a través de nuestro informe de control de calidad.

 

Al sintetizar un conjunto de datos, es esencial demostrar que uno no puede volver a identificar a las personas. En este video, Marijn introduce medidas de privacidad que se encuentran en nuestro informe de calidad para demostrarlo.

El informe de control de calidad de Syntho contiene tres estándar en la industria métricas para evaluar la privacidad de los datos. La idea detrás de cada una de estas métricas es la siguiente:

  • Datos sintéticos (S) deberá estar "lo más cerca posible", pero "no demasiado cerca" de los datos objetivo (T).
  • Datos reservados seleccionados al azar (H) determina el punto de referencia para "demasiado cerca".
  • A Solución perfecta genera nuevos datos sintéticos que se comportan exactamente como los datos originales, pero no se han visto antes (= H).

Uno de los casos de uso que destaca específicamente la Autoridad holandesa de protección de datos es el uso de datos sintéticos como datos de prueba.

Se puede encontrar más en este artículo.

Motor Syntho

Syntho Engine se envía en un contenedor Docker y se puede implementar y conectar fácilmente al entorno de su elección.

Las posibles opciones de implementación incluyen:

  • En la premisa
  • Cualquier nube (privada)
  • Cualquier otro entorno

Leer más.

Syntho le permite conectarse fácilmente con sus bases de datos, aplicaciones, canalizaciones de datos o sistemas de archivos. 

Admitimos varios conectores integrados para que pueda conectarse con el entorno de origen (donde se almacenan los datos originales) y el entorno de destino (donde desea escribir sus datos sintéticos) para una end-to-end enfoque integrado.

Funciones de conexión que admitimos:

  • Plug-and-play con Docker
  • Más de 20 conectores de base de datos
  • Más de 20 conectores de sistema de archivos

Leer más.

Naturalmente, el tiempo de generación depende del tamaño de la base de datos. En promedio, una tabla con menos de 1 millón de registros se sintetiza en menos de 5 minutos.

Los algoritmos de aprendizaje automático de Syntho pueden generalizar mejor las características con más registros de entidad disponibles, lo que reduce el riesgo de privacidad. Se recomienda una proporción mínima de columna a fila de 1:500. Por ejemplo, si su tabla de origen tiene 6 columnas, debe contener un mínimo de 3000 filas.

Para nada. Aunque puede ser necesario un poco de esfuerzo para comprender completamente las ventajas, el funcionamiento y los casos de uso de los datos sintéticos, el proceso de síntesis es muy simple y cualquier persona con conocimientos básicos de informática puede hacerlo. Para obtener más información sobre el proceso de síntesis, consulte esta página or solicite una demo.

Syntho Engine funciona mejor en datos tabulares estructurados (cualquier cosa que contenga filas y columnas). Dentro de estas estructuras, admitimos los siguientes tipos de datos:

  • Estructura de datos formateados en tablas (categóricas, numéricas, etc.)
  • Identificadores directos y PII
  • Grandes conjuntos de datos y bases de datos
  • Datos de ubicación geográfica (como GPS)
  • Datos de series de tiempo
  • Bases de datos de varias tablas (con integridad referencial)
  • Abrir datos de texto

 

Soporte de datos complejos
Junto a todos los tipos regulares de datos tabulares, Syntho Engine admite tipos de datos complejos y estructuras de datos complejas.

  • Series de tiempo
  • Bases de datos de varias tablas
  • Texto abierto

Leer más.

No, optimizamos nuestra plataforma para minimizar los requisitos computacionales (por ejemplo, no se requiere GPU), sin comprometer la precisión de los datos. Además, admitimos el escalado automático, de modo que se puedan sintetizar enormes bases de datos.

Sí. El software Syntho está optimizado para bases de datos que contienen varias tablas.

En cuanto a esto, Syntho detecta automáticamente los tipos de datos, esquemas y formatos para maximizar la precisión de los datos. Para bases de datos de tablas múltiples, admitimos la inferencia y síntesis automáticas de relaciones de tablas para preservar la integridad referencial.

grupo de personas sonriendo

Los datos son sintéticos, ¡pero nuestro equipo es real!

Póngase en contacto con Syntho ¡y uno de nuestros expertos se pondrá en contacto contigo a la velocidad de la luz para explorar el valor de los datos sintéticos!