Guía para a xeración de datos sintéticos: definición, tipos e aplicacións

Non é ningún segredo que as empresas afrontan retos para adquirir e compartir datos de alta calidade. Xeración de datos sintéticos é unha solución práctica que axuda a producir grandes conxuntos de datos artificiais e datos de proba de alta calidade sen riscos de privacidade nin burocracia.

Os conxuntos de datos sintéticos pódense crear mediante unha variedade de métodos, que ofrecen diversas aplicacións. Cando se avalían correctamente, os conxuntos de datos sintéticos xerados mediante algoritmos avanzados axudan ás organizacións a acelerar as súas análises, investigacións e probas. Entón, imos ver máis de cerca.

Este artigo preséntache datos sintéticos, incluíndo os principais tipos, diferenzas con conxuntos de datos anónimos e matices regulamentarios. Aprenderás como os datos xerados artificialmente resolven problemas críticos de datos e minimizan certos riscos. Tamén comentaremos as súas aplicacións en distintos sectores, acompañados de exemplos dos nosos casos prácticos.

Índice analítico

Datos sintéticos: definición e estatísticas de mercado

Datos sintéticos é información xerada artificialmente sen contido confidencial e serve como alternativa aos conxuntos de datos reais. Os científicos de datos adoitan chamar Datos sintéticos xerados por IA un xemelgo de datos sintéticos pola súa alta precisión estatística para imitar datos reais.

Os conxuntos de datos artificiais créanse mediante algoritmos e simulacións de intelixencia artificial (IA) que manteñen os patróns e as correlacións dos datos orixinais. Estes datos poden incluír texto, táboas e imaxes. Os algoritmos substitúen a información de identificación persoal (PII) por datos simulados.

Plataforma de datos sintéticos Syntho con todas as solucións gráficas

Previsións de investigación de Grand View que o mercado para xeración de datos sintéticos con IA xerativa crecerá de 1.63 millóns de dólares en 2022 a uns 13.5 millóns de dólares en 2030 cun CAGR do 35%. Segundo Gartner, O 60% dos datos utilizados para a IA en 2024 serán sintéticos - é 60 veces máis que en 2021.

As plataformas de datos sintéticos tamén están en aumento. Mercado Statesville espera o mercado global de plataformas de datos sintéticos pasará de 218 millóns de dólares en 2022 a 3.7 millóns de dólares en 2033.

Por que aumentan os datos artificiais? Un factor impulsor é a ausencia de supervisión regulamentaria.

As leis de privacidade regulan os datos sintéticos xerados pola IA?

Moitos EUA e UE seguridade e privacidade dos datos a normativa aplicable aos datos persoais identificables. 

Pero esas normas non se aplican datos sintéticos — Os datos sintéticos son tratados de xeito similar datos anónimos. Forman o chamado "núcleo" doutras normas legais.

Por exemplo, a considerando 26 do GDPR di que as regras de protección da privacidade só se aplican aos datos que se refiren a unha persoa identificable. Se os teus datos sintéticos se xeran de forma que non se poden rastrexar ata persoas identificables, están exentos da supervisión regulamentaria. Ademais da supervisión normativa, hai outros obstáculos para usar datos reais que impulsan as empresas a xerar datos sintéticos.

Principais desafíos do uso de datos reais

Moitas empresas teñen dificultades para atopar e utilizar datos relevantes de alta calidade, especialmente en cantidades suficientes para o adestramento do algoritmo de IA. Mesmo cando o atopan, compartir ou utilizar os conxuntos de datos pode ser un reto debido aos riscos de privacidade e problemas de compatibilidade. Esta sección describe a clave cuestiona datos sintéticos pode resolver.

Os riscos de privacidade dificultan o uso e o uso compartido de datos

As regulacións de seguridade e privacidade dos datos, como o GDPR e a HIPAA, introducen obstáculos burocráticos para compartir e utilizar os datos. En industrias como a saúde, incluso compartir información personalizada entre departamentos da mesma organización pode levar moito tempo debido ás comprobacións de goberno. Compartir datos con entidades externas é aínda máis difícil e conleva máis riscos de seguridade.

Investigación desde Fortune Business Insights identifica o aumento dos riscos de privacidade como un catalizador principal para adoptar prácticas de datos sintéticos. Cantos máis datos almacene, máis corre o risco de comprometer a privacidade. Dacordo con o Informe do custo de seguridade de IBM de 2023 dunha violación de datos, o custo medio da violación de datos nos Estados Unidos foi de 9.48 millóns de dólares. En todo o mundo, o custo medio foi de 4.45 millóns de dólares; as empresas con menos de 500 traballadores perden 3.31 millóns de dólares por violación. E iso non explica o dano á reputación.

Dificultades para atopar datos de alta calidade

Unha enquisa de 2022 de 500 profesionais de datos revelaron que o 77% dos enxeñeiros, analistas e científicos de datos enfrontáronse a problemas de calidade dos datos. Segundo o informe, a calidade dos datos dificulta o rendemento financeiro e a produtividade dunha empresa e fai que a consecución dunha visión holística dos seus servizos sexa difícil de alcanzar.

É posible que as empresas carezan de datos suficientes de datos demográficos específicos para adestrar correctamente os seus modelos de aprendizaxe automática (ML). E os conxuntos de datos a miúdo conteñen incoherencias, imprecisións e valores que faltan. Se adestras as túas plataformas de IA con modelos de aprendizaxe automática sobre datos de baixa calidade que carecen de diversidade demográfica, fará predicións inexactas e sesgadas. Do mesmo xeito, como a xeración de datos anónimos, os algoritmos non refinados poden producir conxuntos de datos artificiais pouco fiables que afectan o resultado da análise de datos.

A sobremostra con datos sintéticos pode mellorar a calidade dos datos abordando os desequilibrios nos conxuntos de datos. Isto garante que as clases infrarrepresentadas reciban unha representación máis proporcional e reduce o sesgo. Un conxunto de datos máis robusto e representativo produce resultados de análise e adestramento de modelos mellorados.

Incompatibilidades de conxunto de datos

Os conxuntos de datos procedentes de diversas orixes ou dentro de bases de datos de varias táboas poden introducir incompatibilidades, creando complexidades no procesamento e análise de datos e dificultando a innovación.

Por exemplo, a agregación de datos na asistencia sanitaria implica rexistros de saúde electrónicos (EHR), wearables, software propietario e ferramentas de terceiros. Cada fonte pode utilizar distintos formatos de datos e sistemas de información, o que provoca disparidades nos formatos, estruturas ou unidades de datos durante a integración. O uso de datos sintéticos pode abordar este desafío, garantindo a compatibilidade e permitindo xerar datos no formato desexado.

A anonimización é insuficiente

As técnicas de anonimización non son suficientes para superar os riscos de privacidade ou os problemas de calidade dos datos. Ademais, enmascarar ou eliminar os identificadores pode eliminar os detalles necesarios para unha análise en profundidade en grandes conxuntos de datos.

Ademais, os datos anónimos pódense identificar de novo e rastrexar a persoas. Os actores malintencionados poden usar análises avanzadas para descubrir patróns baseados no tempo que comprometen o anonimato dos datos aparentemente desidentificados. Os datos sintéticos son superiores aos datos anónimos a ese respecto.

Ao contrario anonimización, datos sintéticos non cambia os conxuntos de datos existentes senón que xera novos datos que se asemellan ás características e estrutura do datos en bruto, preservando a súa utilidade. É un conxunto de datos totalmente novo que non contén información de identificación persoal.

Pero é máis matizado que iso. Hai varios tipos de métodos de xeración de datos sintéticos.

Tipos de xeración de datos sintéticos

Creación de datos sintéticos os procesos varían segundo o tipo de datos necesarios. Os tipos de datos sintéticos inclúen datos totalmente xerados por IA, baseados en regras e simulados, cada un deles responde a unha necesidade diferente.

Datos sintéticos xerados por intelixencia artificial

Este tipo de datos sintéticos constrúese desde cero usando algoritmos ML. O modelo de aprendizaxe automática trens en marcha datos reais para coñecer a estrutura, os patróns e as relacións dos datos. A IA xerativa usa entón este coñecemento para xerar novos datos que se asemellan moito ás propiedades estatísticas do orixinal (de novo, ao tempo que o fai non identificable).

Este tipo de datos totalmente sintéticos é útil para o adestramento de modelos de IA e é o suficientemente bo para usarse como se fosen datos reais. É especialmente beneficioso cando non podes compartir os teus conxuntos de datos debido a acordos contractuais de privacidade. Non obstante, para xerar datos sintéticos, necesitas unha cantidade significativa de datos orixinais como punto de partida modelo de aprendizaxe automática formación.

Datos simulados sintéticos

esta datos sintéticos tipo refírese a datos creados artificialmente que imitan a estrutura e o formato dos datos reais pero non necesariamente reflicten información real. Axúdalles aos desenvolvedores a garantir que as súas aplicacións poidan xestionar varias entradas e escenarios sen utilizar auténticos, privados ou datos sensibles e, o máis importante, sen depender de datos do mundo real. Esta práctica é esencial para probar a funcionalidade e mellorar as aplicacións de software dun xeito controlado e seguro.

Cando usalo: para substituír os identificadores directos (PII) ou cando actualmente carece de datos e prefire non investir tempo e enerxía na definición de regras. Os desenvolvedores adoitan empregar datos simulados para avaliar a funcionalidade e o aspecto das aplicacións durante as primeiras fases de desenvolvemento, o que lles permite identificar problemas potenciais ou fallos de deseño. 

Aínda que os datos simulados carecen da autenticidade da información do mundo real, seguen sendo unha ferramenta valiosa para garantir o bo funcionamento e a representación visual dos sistemas antes da integración real dos datos. 

Nota: os datos sintéticos burlados adoitan denominarse "datos falsos,' aínda que non recomendamos usar estes termos indistintamente xa que poden diferir en connotacións. 

Datos simulados sintéticos

Datos sintéticos baseados en regras

Datos sintéticos baseados en regras é unha ferramenta útil para xerar conxuntos de datos personalizados baseados en regras, restricións e lóxicas predefinidas. Este método proporciona flexibilidade ao permitir aos usuarios configurar a saída de datos segundo as necesidades empresariais específicas, axustando parámetros como valores mínimos, máximos e medios. A diferenza dos datos xerados por intelixencia artificial, que carecen de personalización, os datos sintéticos baseados en regras ofrecen unha solución a medida para satisfacer distintos requisitos operativos. Isto proceso de xeración de datos sintéticos resulta especialmente útil en probas, desenvolvemento e análise, onde a xeración de datos precisa e controlada é esencial.

Cada método de xeración de datos sintéticos ten diferentes aplicacións. A plataforma de Syntho destaca pola creación de xemelgos de datos sintéticos con pouco ou ningún esforzo pola túa parte. Vostede é estatisticamente preciso, datos sintéticos de alta calidade para as súas necesidades sen sobrecargas de cumprimento.

Datos sintéticos tabulares

O termo datos sintéticos tabulares refírese a creando datos artificiais subconxuntos que imitan a estrutura e as propiedades estatísticas do mundo real datos tabulares, como os datos almacenados en táboas ou follas de cálculo. Isto datos sintéticos créase usando algoritmos de xeración de datos sintéticos e técnicas deseñadas para replicar as características do datos de orixe ao tempo que se garante que confidencial ou datos sensibles non se divulga.

Técnicas para xerar tabular datos sintéticos normalmente implican modelos estatísticos, modelos de aprendizaxe automática, ou modelos xenerativos como as redes adversarias xerativas (GAN) e os autocodificadores variacionais (VAE). Estes ferramentas de xeración de datos sintéticos analizar os patróns, distribucións e correlacións presentes no conxunto de datos reais e despois xerar novos puntos de datos Que parécense moito a datos reais pero non conteñen ningunha información real.

Típico tabular casos de uso de datos sintéticos inclúen abordar os problemas de privacidade, aumentar a dispoñibilidade de datos e facilitar a investigación e a innovación en aplicacións baseadas en datos. Non obstante, é esencial garantir que o datos sintéticos captura con precisión os patróns e distribucións subxacentes dos datos orixinais para manter utilidade de datos e validez para tarefas posteriores.

gráfico de datos sintéticos baseado en regras

Aplicacións de datos sintéticos máis populares

Os datos xerados artificialmente abren posibilidades de innovación para a asistencia sanitaria, o comercio polo miúdo, a fabricación, as finanzas e outras industrias. A primaria casos de uso inclúen a mostraxe adicional de datos, análises, probas e compartición.

Submostraxe para mellorar os conxuntos de datos

A mostraxe superior significa xerar conxuntos de datos máis grandes a partir de outros máis pequenos para a ampliación e a diversificación. Este método aplícase cando os datos reais son escasos, desequilibrados ou incompletos.

Considere algúns exemplos. Para as entidades financeiras, os desenvolvedores poden mellorar a precisión dos modelos de detección de fraude mediante a mostraxe de observacións raras e patróns de actividade no datos financeiros. Do mesmo xeito, unha axencia de mercadotecnia pode facer unha sobremostra para aumentar os datos relacionados con grupos infrarrepresentados, mellorando a precisión da segmentación.

Analítica avanzada con datos xerados por IA

As empresas poden aproveitar os datos sintéticos de alta calidade xerados pola intelixencia artificial para o modelado de datos, a análise empresarial e a investigación clínica. Sintetizando datos demostra ser unha alternativa viable cando a adquisición de conxuntos de datos reais é demasiado cara ou leva moito tempo.

Datos sintéticos permite aos investigadores realizar análises en profundidade sen comprometer a confidencialidade do paciente. Científicos de datos e os investigadores acceden aos datos dos pacientes, a información sobre as condicións clínicas e os detalles do tratamento, obtendo información que levaría moito máis tempo con datos reais. Ademais, os fabricantes poden compartir libremente datos cos provedores, incorporando GPS manipulados e datos de localización para crear algoritmos para probas de rendemento ou mellorar o mantemento preditivo.

Con todo, avaliación de datos sintéticos é crítico. A saída do motor Syntho é validada por un equipo interno de garantía de calidade e expertos externos do Instituto SAS. Nun estudo de modelos preditivos, adestramos catro modelos de aprendizaxe automática sobre datos reais, anónimos e sintéticos. Os resultados mostraron que os modelos adestrados nos nosos conxuntos de datos sintéticos tiñan o mesmo nivel de precisión que os adestrados en conxuntos de datos reais, mentres que os datos anónimos reduciron a utilidade dos modelos.

Compartir datos externos e internos

Os datos sintéticos simplifican o intercambio de datos dentro e entre organizacións. Podes utilizar datos sintéticos a intercambiar información sen arriscarse a violacións da privacidade ou o incumprimento da normativa. Os beneficios dos datos sintéticos inclúen resultados de investigación acelerados e colaboración máis efectiva.

As empresas de venda polo miúdo poden compartir información con provedores ou distribuidores mediante datos sintéticos que reflicten o comportamento dos clientes, os niveis de inventario ou outras métricas clave. Non obstante, para garantir o máis alto nivel de privacidade de datos, os datos confidenciais dos clientes e os segredos corporativos mantéñense confidenciais.

Syntho gañou o 2023 Global SAS Hackathon pola nosa capacidade de xerar e compartir adatos sintéticos precisos eficaz e sen riscos. Sintetizamos datos de pacientes para varios hospitais con diferentes poboacións de pacientes para demostrar a eficacia dos modelos preditivos. O uso dos conxuntos de datos sintéticos combinados demostrou ser tan preciso como o uso de datos reais.

Datos da proba sintética

Os datos de proba sintética son datos xerados artificialmente deseñados para simular proba de datos ambientes para o desenvolvemento de software. Ademais de reducir os riscos de privacidade, os datos de probas sintéticas permiten aos desenvolvedores avaliar rigorosamente o rendemento, a seguridade e a funcionalidade das aplicacións nunha serie de escenarios potenciais sen afectar ao sistema real.

A nosa colaboración cun dos maiores bancos holandeses showcases beneficios de datos sintéticos para probas de software. Xeración de datos de proba co Syntho Engine resultou en conxuntos de datos similares á produción que axudaron ao banco a acelerar o desenvolvemento de software e a detección de erros, o que leva a versións de software máis rápidas e seguras.

Técnicas para xerar tabular datos sintéticos normalmente implican modelos estatísticos, modelos de aprendizaxe automática, ou modelos xenerativos como as redes adversarias xerativas (GAN) e os autocodificadores variacionais (VAE). Estes ferramentas de xeración de datos sintéticos analizar os patróns, distribucións e correlacións presentes no conxunto de datos reais e despois xerar novos puntos de datos Que parécense moito a datos reais pero non conteñen ningunha información real.

Típico tabular casos de uso de datos sintéticos inclúen abordar os problemas de privacidade, aumentar a dispoñibilidade de datos e facilitar a investigación e a innovación en aplicacións baseadas en datos. Non obstante, é esencial garantir que o datos sintéticos captura con precisión os patróns e distribucións subxacentes dos datos orixinais para manter utilidade de datos e validez para tarefas posteriores.

Plataforma de xeración de datos sintéticos de Syntho

Syntho ofrece unha plataforma intelixente de xeración de datos sintéticos, que permite ás organizacións transformar de forma intelixente os datos nunha vantaxe competitiva. Ao proporcionar todos os métodos de xeración de datos sintéticos nunha soa plataforma, Syntho ofrece unha solución completa para as organizacións que pretenden utilizar datos que abranguen:

As nosas plataformas intégranse en calquera ambiente de nube ou local. Ademais, encargámonos da planificación e implantación. O noso equipo adestrará aos seus empregados para que o usen Motor sintético de forma eficaz e proporcionaremos asistencia continua despois da implantación.

Podes ler máis sobre as capacidades de Syntho datos sintéticos plataforma de xeración no Sección de solucións da nosa web.

Que hai no futuro para os datos sintéticos?

Xeración de datos sintéticos con IA xerativa axuda a crear e compartir grandes volumes de datos relevantes, evitando os problemas de compatibilidade de formato, as restricións regulamentarias e o risco de violacións de datos.

A diferenza da anonimización, xerando datos sintéticos permite preservar as relacións estruturais nos datos. Isto fai que os datos sintéticos sexan axeitados para análises avanzadas, investigación e desenvolvemento, diversificación e probas.

O uso de conxuntos de datos sintéticos só se expandirá entre as industrias. As empresas están preparadas crear datos sintéticos, estendendo o seu alcance a imaxes complexas, audio e contido de vídeo. As empresas ampliarán o uso de modelos de aprendizaxe automática a simulacións máis avanzadas e aplicacións.

Queres aprender máis aplicacións prácticas de datos sintéticos? Non dubides en programa unha demostración nosa web.

Acerca de Syntho

Sinto proporciona un intelixente xeración de datos sintéticos plataforma, aproveitando múltiples formularios de datos sintéticos e métodos de xeración, que permiten ás organizacións transformar de forma intelixente os datos nunha vantaxe competitiva. Os nosos datos sintéticos xerados pola intelixencia artificial imitan os patróns estatísticos dos datos orixinais, o que garante a precisión, a privacidade e a velocidade, segundo a avaliación de expertos externos como SAS. Con funcións intelixentes de desidentificación e cartografía consistente, a información sensible está protexida ao tempo que se preserva a integridade referencial. A nosa plataforma permite a creación, xestión e control de datos de proba para ambientes que non sexan de produción, utilizando regras métodos de xeración de datos sintéticos para escenarios específicos. Ademais, os usuarios poden xerar datos sintéticos mediante programación e obter datos de proba realistas para desenvolver con facilidade escenarios de proba e desenvolvemento completos.

Sobre o autor

Foto da cabeza do CEO e cofundador de Syntho, Wim Kees Jannsen

Wim Kees Janssen

CEO e fundador

Syntho, a ampliación que está a perturbar a industria de datos con datos sintéticos xerados pola IA. Wim Kees demostrou con Syntho que pode desbloquear datos sensibles á privacidade para que os datos sexan máis intelixentes e máis rápidos para que as organizacións poidan realizar innovacións baseadas en datos. Como resultado, Wim Kees e Syntho gañaron o prestixioso Philips Innovation Award, gañaron o hackathon global de SAS en ciencias da saúde e da vida e son seleccionados como líderes en escalada da IA ​​xerativa por NVIDIA.

publicado
Febreiro 19, 2024