Datos sintéticos dun curso intensivo


Aprender máis


Contacta connosco

introdución

Que son os datos sintéticos?

A resposta é relativamente sinxela. Mentres que os datos orixinais recóllense en todas as súas interaccións con persoas reais (por exemplo, clientes, pacientes, empregados, etc.) e a través de todos os seus procesos internos, os datos sintéticos son xerados por un algoritmo informático. Este algoritmo informático xera puntos de datos completamente novos e artificiais.

Resolve problemas de privacidade de datos

Os datos xerados sintéticamente consisten en puntos de datos completamente novos e artificiais sen relacións un a un cos datos orixinais. Polo tanto, ningún dos puntos de datos sintéticos se pode rastrexar ou realizar enxeñaría inversa aos datos orixinais. Como resultado, os datos sintéticos están exentos das normas de privacidade, como o GDPR e serven como solución para resolver e superar os desafíos de privacidade dos datos.

Aumentar e simular

O aspecto xerativo da xeración de datos sintéticos permite aumentar e simular datos completamente novos. Isto funciona como solución cando non tes datos suficientes (escasez de datos), desexas facer unha mostra de casos extremos ou cando aínda non tes datos.

Aquí, o foco de Syntho son os datos estruturados (datos formatados en táboas que conteñen filas e columnas, como se ve nas follas de Excel), pero sempre nos gusta ilustrar o concepto de datos sintéticos a través de imaxes, porque é máis atractivo.

Tipos de datos sintéticos

Existen tres tipos de datos sintéticos dentro do paraugas de datos sintéticos. Eses 3 tipos de datos sintéticos son: datos ficticios, datos sintéticos xerados baseados en regras e datos sintéticos xerados pola intelixencia artificial (IA). En breve explicamos cales son os 3 tipos diferentes de datos sintéticos.

Datos simulados / datos simulados

Os datos ficticios son datos xerados aleatoriamente (por exemplo, mediante un xerador de datos simulados).

En consecuencia, as características, relacións e patróns estatísticos que están nos datos orixinais non se conservan, capturan e reproducen nos datos ficticios xerados. Polo tanto, a representatividade dos datos ficticios/datos simulados é mínima en comparación cos datos orixinais.

  • Cando usalo: para substituír os identificadores directos (PII) ou cando non tes datos (aínda) e non queres gastar tempo e enerxía en definir regras.

Datos sintéticos xerados baseados en regras

Os datos sintéticos xerados baseados en regras son datos sintéticos xerados por un conxunto predefinido de regras. Exemplos desas regras predefinidas poden ser que lle gustaría ter datos sintéticos cun determinado valor mínimo, máximo ou medio. Calquera das características, relacións e patróns estatísticos que lle gustaría reproducir nos datos sintéticos xerados baseados en regras, deben estar predefinidos.

En consecuencia, a calidade dos datos será tan boa como o conxunto de regras predefinidas. Isto resulta en desafíos cando a alta calidade dos datos é esencial. En primeiro lugar, pódese definir só un conxunto limitado de regras que se recollerán nos datos sintéticos. Ademais, a configuración de varias regras adoita producir regras superpostas e conflitivas. Ademais, nunca cubrirás completamente todas as regras relevantes. Ademais, pode haber regras relevantes das que nin sequera coñeces. E, finalmente (e non esquecelo), isto levarache moito tempo e enerxía resultando nunha solución pouco eficiente.

  • Cando usalo: cando non tes datos (aínda)

Datos sintéticos xerados pola intelixencia artificial (IA)

Como esperas do nome, os datos sintéticos xerados pola intelixencia artificial (IA) son datos sintéticos xerados por un algoritmo de intelixencia artificial (IA). O modelo de IA adestrase cos datos orixinais para coñecer todas as características, relacións e patróns estatísticos. A partir de entón, este algoritmo de IA é capaz de xerar puntos de datos completamente novos e modelar eses novos puntos de datos de tal forma que reproduce as características, relacións e patróns estatísticos do conxunto de datos orixinal. Isto é o que chamamos un xemelgo de datos sintéticos.

O modelo de IA imita os datos orixinais para xerar datos xemelgos sintéticos que se poden usar coma se fosen datos orixinais. Isto desbloquea varios casos de uso nos que os datos sintéticos xerados pola IA poden usarse como alternativa para usar datos orixinais (sensibles), como o uso de datos sintéticos xerados pola IA como datos de proba, datos de demostración ou para análises.

Unha visualización de como se crean os datos sintéticos

En comparación cos datos sintéticos xerados baseados en regras: en lugar de estudar e definir regras relevantes, o algoritmo de IA fai isto automaticamente por ti. Aquí, non só se tratarán as características, relacións e patróns estatísticos que coñeces, tamén se tratarán características, relacións e patróns estatísticos dos que nin sequera coñeces.

  • Cando usalo: cando tes (algúns) datos como entrada para imitar ou para utilizalos como punto de partida para as funcións intelixentes de xeración e aumento de datos

Que tipo de datos sintéticos usar?

Segundo o teu caso de uso, recoméndase unha combinación de datos ficticios/datos simulados, datos sintéticos xerados baseados en regras ou datos sintéticos xerados por intelixencia artificial (IA). Esta visión xeral ofrécelle unha primeira indicación de que tipo de datos sintéticos usar. Como Syntho admite todos eles, póñase en contacto cos nosos expertos para explorar o seu caso de uso connosco.

Este gráfico presenta diferentes tipos de datos sintéticos

tapa de guía de sintetizador

Garda a túa guía de datos sintéticos agora!