Preguntas frecuentes | Software de datos sintéticos

FAQ

Preguntas frecuentes sobre datos sintéticos

Comprensible! Afortunadamente, temos as respostas e estamos aquí para axudar. Consulta as nosas preguntas máis frecuentes.

Abre unha pregunta a continuación e fai clic nas ligazóns para atopar máis información. Tes algunha pregunta máis complicada que non está aquí? Pregunta directamente aos nosos expertos!

As preguntas máis feitas

Que son os datos sintéticos?

Os datos sintéticos refírese a datos que se xeran artificialmente en lugar de recollerse de fontes do mundo real. En xeral, mentres que os datos orixinais recóllense en todas as súas interaccións coas persoas (clientes, pacientes, etc.) e a través de todos os seus procesos internos, os datos sintéticos son xerados por un algoritmo informático.

Os datos sintéticos tamén se poden usar para probar e avaliar modelos nun ambiente controlado ou para protexer información confidencial xerando datos similares aos datos do mundo real pero que non conteñen información confidencial. Os datos sintéticos úsanse a miúdo como alternativa para os datos sensibles á privacidade e pódense usar como datos de proba, para análises ou para adestrar a aprendizaxe automática.

Le máis

Como garante Syntho que os datos sintéticos teñan a mesma calidade que os datos orixinais?

Garantir que os datos sintéticos teñan a mesma calidade de datos que os datos orixinais pode ser un reto, e moitas veces depende do caso de uso específico e dos métodos utilizados para xerar os datos sintéticos. Algúns métodos para xerar datos sintéticos, como os modelos xerativos, poden producir datos moi similares aos datos orixinais. Pregunta clave: como demostralo?

Hai algunhas formas de garantir a calidade dos datos sintéticos:

Métricas de calidade dos datos a través do noso informe de calidade dos datos: unha forma de garantir que os datos sintéticos teñan a mesma calidade de datos que os datos orixinais é utilizar métricas de calidade de datos para comparar os datos sintéticos cos datos orixinais. Estas métricas pódense usar para medir cousas como a semellanza, a precisión e a integridade dos datos. O software Synth incluía un informe de calidade de datos con varias métricas de calidade de datos.
Avaliación externa: dado que a calidade dos datos sintéticos en comparación cos datos orixinais é fundamental, recentemente fixemos unha avaliación cos expertos en datos de SAS (líder de mercado en analítica) para demostrar a calidade dos datos sintéticos de Syntho en comparación cos datos reais. Edwin van Unen, experto en análise de SAS, avaliou os conxuntos de datos sintéticos xerados por Syntho mediante varias avaliacións de análises (AI) e compartiu os resultados. Mira un pequeno resumo dese vídeo aquí.
Proba e avaliación por ti mesmo: os datos sintéticos pódense probar e avaliar comparándoos con datos do mundo real ou usándoos para adestrar modelos de aprendizaxe automática e comparar o seu rendemento con modelos adestrados en datos do mundo real. Por que non probar vostede mesmo a calidade dos datos sintéticos? Pregunta aquí aos nosos expertos as posibilidades disto.

É importante ter en conta que os datos sintéticos nunca poden garantir que sexan 100 % similares aos datos orixinais, pero poden estar o suficientemente próximos como para ser útiles para un caso de uso específico. Este caso de uso específico pode incluso ser análise avanzada ou modelos de aprendizaxe automática de adestramento.

Actualmente, anonimizamos os nosos datos, por que debemos usar datos sintéticos?

A "anonimización" clásica non sempre é a mellor solución, porque:

Risco de privacidade - sempre terás
un risco de privacidade. Aplicando esas
técnicas clásicas de anonimización
só fai que sexa máis difícil, pero non
imposible identificar individuos.
Destrución de datos - canto máis ti
anónimo, mellor protexes
a túa privacidade, pero canto máis ti
destruír os teus datos. Isto non é o que
queres para analíticas, porque
datos destruídos resultarán malos
insights.
Tamaño de tempo - é unha solución
iso leva moito tempo, porque
esas técnicas funcionan de forma diferente
por conxunto de datos e por tipo de datos.

Os datos sintéticos pretenden resolver todas estas deficiencias. A diferenza é tan rechamante que fixemos un vídeo sobre ela. Mira aquí.

Preguntas máis frecuentes

Datos sintéticos

Cales son os casos de uso típicos de datos sintéticos?

Xeralmente, a maioría dos nosos clientes usan datos sintéticos para:

Proba e desenvolvemento de software
Datos sintéticos para análise, desenvolvemento de modelos e análise avanzada (AI e ML)
Demostracións de produtos

Ler máis e explorar casos de uso.

Que quere dicir con xerar un 'xemelgo de datos sintético'?

Un xemelgo de datos sintético é unha réplica xerada por algoritmo dun conxunto de datos e/ou base de datos do mundo real. Cun Synthetic Data Twin, Syntho pretende imitar un conxunto de datos ou base de datos orixinais o máis próximo posible aos datos orixinais para crear unha representación realista do orixinal. Cun xemelgo de datos sintéticos, pretendemos obter unha calidade de datos sintética superior en comparación cos datos orixinais. Facemos isto co noso software de datos sintéticos que utiliza modelos de IA de última xeración. Eses modelos de IA xeran puntos de datos completamente novos e os modelan de forma que preservamos as características, relacións e patróns estatísticos dos datos orixinais ata tal punto que podes utilizalos coma se fosen datos orixinais.

Pódese usar para diversos propósitos, como probar e adestrar modelos de aprendizaxe automática, simular escenarios para investigación e desenvolvemento e crear ambientes virtuais para a formación e a educación. Os xemelgos de datos sintéticos pódense usar para crear datos realistas e representativos que se poden usar en lugar dos datos do mundo real cando non están dispoñibles ou cando o uso dos datos do mundo real non sería práctico ou non ético debido ás estritas normas de privacidade de datos.

Ler máis.

Admites burladores e datos simulados?

Sí, facémolo. Ofrecemos varias funcións de optimización e aumento de datos sintéticos de valor engadido, incluídos os burladores, para levar os teus datos ao seguinte nivel.

Ler máis.

Cal é a diferenza entre datos sintéticos (un xemelgo de datos sintéticos) e datos simulados?

Os datos simulados e os datos sintéticos xerados pola intelixencia artificial son ambos tipos de datos sintéticos, pero xéranse de diferentes xeitos e teñen diferentes propósitos.

Os datos simulados son un tipo de datos sintéticos que se crean manualmente e que adoitan usarse con fins de proba e desenvolvemento. Normalmente úsase para simular o comportamento dos datos do mundo real nun ambiente controlado e úsase a miúdo para probar a funcionalidade dun sistema ou aplicación. A miúdo é sinxelo, fácil de xerar e non require modelos nin algoritmos complexos. Moitas veces, tamén se refire a datos simulados como "datos ficticios" ou "datos falsos".

Os datos sintéticos xerados pola IA, pola súa banda, xéranse mediante técnicas de intelixencia artificial, como a aprendizaxe automática ou os modelos xerativos. Utilízase para crear datos realistas e representativos que se poden utilizar en lugar dos datos do mundo real cando o uso de datos do mundo real non sería práctico ou non ético debido ás estritas normas de privacidade. Moitas veces é máis complexo e require máis recursos computacionais que os datos simulados manuais. Como resultado, é moito máis realista e imita os datos orixinais o máis próximo posible.

En resumo, os datos simulados créanse manualmente e úsanse normalmente para probas e desenvolvemento, mentres que os datos sintéticos xerados pola IA créanse mediante técnicas de intelixencia artificial e úsanse para crear datos representativos e realistas.

Máis preguntas? Pregunta aos nosos expertos

Calidade dos datos

Como demostra Syntho a calidade dos datos sintéticos xerados?

Hai algunhas formas de garantir a calidade dos datos sintéticos:

Métricas de calidade dos datos a través do noso informe de calidade dos datos: unha forma de garantir que os datos sintéticos teñan a mesma calidade de datos que os datos orixinais é utilizar métricas de calidade de datos para comparar os datos sintéticos cos datos orixinais. Estas métricas pódense usar para medir cousas como a semellanza, a precisión e a integridade dos datos. O software Synth incluía un informe de calidade de datos con varias métricas de calidade de datos.
Avaliación externa: dado que a calidade dos datos sintéticos en comparación cos datos orixinais é fundamental, recentemente fixemos unha avaliación cos expertos en datos de SAS (líder de mercado en analítica) para demostrar a calidade dos datos sintéticos de Syntho en comparación cos datos reais. Edwin van Unen, experto en análise de SAS, avaliou os conxuntos de datos sintéticos xerados por Syntho mediante varias avaliacións de análises (AI) e compartiu os resultados. Mira un pequeno resumo dese vídeo aquí.
Proba e avaliación por ti mesmo: os datos sintéticos pódense probar e avaliar comparándoos con datos do mundo real ou usándoos para adestrar modelos de aprendizaxe automática e comparar o seu rendemento con modelos adestrados en datos do mundo real. Por que non probar vostede mesmo a calidade dos datos sintéticos? Pregunta aquí aos nosos expertos as posibilidades disto.

A calidade dos datos sintéticos xerados pola IA é suficientemente boa para realizar análises avanzadas (por exemplo, AI, ML, BI)?

Si o é. Os datos sintéticos incluso contén patróns dos que non sabías que estaban presentes nos datos orixinais.

Pero non só creas a nosa palabra. Os expertos en análise de SAS (líder do mercado global en análise) fixeron unha avaliación (AI) dos nosos datos sintéticos e comparáronos cos datos orixinais. Curioso? Mira o todo o evento aquí ou mira a versión curta sobre calidade dos datos aquí.

Preservas a integridade referencial sobre bases de datos de varias táboas?

Sí, facémolo. A nosa plataforma está optimizada para bases de datos e, en consecuencia, para a preservación da integridade referencial entre os conxuntos de datos da base de datos.

Tes curiosidade por saber máis sobre isto?

Pregunta directamente aos nosos expertos.

privacidade

¿Necesita Syntho acceder aos meus datos para crear datos sintéticos?

Non, non. Podemos implementar facilmente o Syntho Engine on-premise ou na túa nube privada mediante docker.

Necesito compartir os meus datos con Syntho para xerar datos sintéticos?

Non. Optimizamos a nosa plataforma de forma que se poida implementar facilmente no entorno de confianza do cliente. Isto garante que os datos nunca sairán do entorno de confianza do cliente. As opcións de implantación para o ambiente de confianza do cliente son "on-premise" e no "contorno de nube do cliente (nube privada)".

Opcional: Syntho admite unha versión aloxada na "nube Syntho".

Syntho ve e/ou procesa os meus datos?

Non. O Syntho Engine é unha plataforma de autoservizo. Como resultado, a xeración de datos sintéticos co motor Syntho é posible dun xeito que no end-to-end proceso, Syntho nunca é capaz de ver e nunca obriga a procesar datos.

Como demostras a privacidade?

Si, facémolo a través do noso informe de control de calidade.

Ao sintetizar un conxunto de datos, é esencial demostrar que non se é capaz de reidentificar os individuos. En Este vídeo, Marijn introduce medidas de privacidade que están no noso informe de calidade para demostralo.

Que métricas de privacidade hai no informe de control de calidade de Syntho?

O informe de control de calidade de Syntho contén tres estándar da industria métricas para avaliar a privacidade dos datos. A idea detrás de cada unha destas métricas é a seguinte:

Datos sintéticos (S) debe estar "o máis preto posible", pero "non demasiado preto" dos datos de destino (T).
Datos de retención seleccionados aleatoriamente (H) determina o punto de referencia para "demasiado preto".
A solución perfecta xera novos datos sintéticos que se comportan exactamente como os datos orixinais, pero que non foron vistos antes (= H).

Que di a Autoridade Holandesa de Protección de Datos sobre o uso de datos sintéticos?

Un dos casos de uso que destaca especificamente pola Autoridade de Protección de Datos Holandesa é o uso de datos sintéticos como datos de proba.

Pódese atopar máis neste artigo.

Motor sintético

Que opcións de implementación admites?

O Syntho Engine envíase nun contedor Docker e pódese implementar e conectar facilmente ao ambiente que elixa.

As posibles opcións de implantación inclúen:

Premisa
Calquera nube (privada).
Calquera outro ambiente

Le máis.

Como conectas o Syntho Engine cos teus datos?

Syntho permítelle conectarse facilmente coas súas bases de datos, aplicacións, canalizacións de datos ou sistemas de ficheiros.

Admitimos varios conectores integrados para que poida conectarse co entorno de orixe (onde se almacenan os datos orixinais) e co contorno de destino (onde quere escribir os seus datos sintéticos) end-to-end enfoque integrado.

Funcións de conexión que admitimos:

Conecta e xoga con Docker
Máis de 20 conectores de base de datos
Máis de 20 conectores de sistema de ficheiros

Le máis.

Canto tempo leva xerar datos sintéticos?

Por suposto, o tempo de xeración depende do tamaño da base de datos. De media, unha táboa con menos de 1 millón de rexistros sintetízase en menos de 5 minutos.

Cantos rexistros de adestramento necesito para sintetizar os meus datos?

Os algoritmos de aprendizaxe automática de Syntho poden xeneralizar mellor as funcións con máis rexistros de entidades dispoñibles, o que diminúe o risco de privacidade. Recoméndase unha relación columna-fila mínima de 1:500. Por exemplo, se a táboa de orixe ten 6 columnas, debería conter un mínimo de 3000 filas.

Requírense habilidades específicas para usar o Syntho Engine?

De ningunha maneira. Aínda que pode ser necesario un esforzo para comprender completamente as vantaxes, o funcionamento e os casos de uso dos datos sintéticos, o proceso de síntese é moi sinxelo e calquera que teña coñecementos básicos de informática pode facelo. Para obter máis información sobre o proceso de síntese, consulte nesta páxina or solicitar unha demostración.

Que tipos de datos admites?

O Syntho Engine funciona mellor en datos estruturados e tabulares (todo o que conteña filas e columnas). Dentro destas estruturas, admitimos os seguintes tipos de datos:

Estrutura datos formateados en táboas (categóricos, numéricos, etc.)
Identificadores directos e PII
Grandes conxuntos de datos e bases de datos
Datos de localización xeográfica (como GPS)
Datos de series temporais
Bases de datos de varias táboas (con integridade referencial)
Datos de texto abertos

Compatibilidade de datos
Ademais de todos os tipos habituais de datos tabulares, Syntho Engine admite tipos de datos complexos e estruturas de datos complexas.

Serie temporal
Bases de datos de varias táboas
Texto aberto

Le máis.

Necesito unha GPU para usar Syntho?

Non, optimizamos a nosa plataforma para minimizar os requisitos computacionais (por exemplo, non se precisa GPU), sen comprometer a precisión dos datos. Ademais, admitimos o escalado automático, para que se poida sintetizar enormes bases de datos.

Preservarase a integridade referencial cando teña unha base de datos?

Si. O software Syntho está optimizado para bases de datos que conteñan varias táboas.

En canto a isto, Syntho detecta automaticamente os tipos de datos, esquemas e formatos para maximizar a precisión dos datos. Para a base de datos de varias táboas, admitimos a inferencia e a síntese automática de relacións de táboas para preservar a integridade referencial.

Os datos son sintéticos, pero o noso equipo é real!

Póñase en contacto con Syntho e un dos nosos expertos porase en contacto contigo á velocidade da luz para explorar o valor dos datos sintéticos.

Que son os datos sintéticos?

Informe de garantía de calidade

Avaliación externa por SAS

Datos sintéticos de series temporais

Escáner PII

Datos simulados sintéticos

Mapeo consistente

Desidentificación e sintetización

Datos sintéticos baseados en regras

Subconxunto

Implantación e integración

conectores

Funcións ampliadas

Datos soportados

Documentación do usuario

Programa unha demostración

prezos

Datos sintéticos como datos de proba

Datos sintéticos para análise

Datos sintéticos para compartir datos

Datos sintéticos para demostracións de produtos

Saúde

Financiar

Organizacións Públicas

Documentación do usuario

Libros brancos e guías

Blog

Webinars

Estudos de caso

prezos

Sobre nós

carreira

FAQ

Preguntas frecuentes sobre datos sintéticos

As preguntas máis feitas

Preguntas máis frecuentes

Datos sintéticos

Calidade dos datos

privacidade

Motor sintético

Os datos son sintéticos, pero o noso equipo é real!

menú principal