Avaliación da utilidade e a semellanza nos xeradores de datos sintéticos: unha investigación profunda técnica e análise comparativa

Publicado en:
Febreiro 27, 2024

introdución

Na era dixital actual, a conciencia sobre a privacidade dos datos aumentou significativamente. Os usuarios recoñecen cada vez máis os seus datos como unha pegada dixital única, que supón un risco para a súa privacidade en caso de violación de datos. Esta preocupación vese aínda máis amplificada por normativas como o GDPR, que facultan aos usuarios para solicitar a eliminación dos seus datos. Aínda que é moi necesaria, esta lexislación pode resultar moi custosa para as empresas xa que se minimiza o acceso aos datos; restricións que moitas veces son lentos e lentos de recursos para superar. 

Índice analítico

Que son os xeradores de datos sintéticos?

Introduza datos sintéticos, unha solución a este enigma. Os xeradores de datos sintéticos crean conxuntos de datos que imitan os datos reais dos usuarios preservando o anonimato e a confidencialidade. Este enfoque está gañando forza en todas as industrias, desde a sanidade ata as finanzas, onde a privacidade é primordial.  

Esta publicación está pensada para profesionais e entusiastas dos datos, centrándose na avaliación dos xeradores de datos sintéticos. Afondaremos nas métricas clave e realizaremos unha análise comparativa entre o motor de Syntho e as súas alternativas de código aberto, ofrecendo información sobre como avaliar eficazmente a calidade da solución de xeración de datos sintéticos. Ademais, tamén avaliaremos o custo de tempo de cada un destes modelos para proporcionar máis información sobre o funcionamento dos modelos. 

Como elixir o método correcto de xeración de datos sintéticos?

No panorama diverso da xeración de datos sintéticos, hai unha abundancia de métodos dispoñibles, cada un deles que loita pola atención coas súas capacidades únicas. Elixir o método máis axeitado para unha aplicación particular require unha comprensión completa das características de rendemento de cada opción. Isto require unha avaliación completa de varios xeradores de datos sintéticos baseados nun conxunto de métricas ben definidas para tomar unha decisión informada. 

O que segue é unha análise comparativa rigorosa do motor Syntho xunto a un marco de código aberto coñecido, o Synthetic Data Vault (SDV). Nesta análise, utilizamos moitas métricas de uso común, como a fidelidade estatística, a precisión preditiva e a relación entre variables. 

Métricas de avaliación de datos sintéticos

Antes de introducir calquera métrica específica, debemos recoñecer que existen numerosas ideoloxías sobre a avaliación dos datos sintéticos, cada unha das cales dá unha visión dun determinado aspecto dos datos. Tendo isto en conta, as seguintes tres categorías destacan como importantes e completas. Estas métricas proporcionan información sobre varios aspectos da calidade dos datos. Estas categorías son: 

      1. Métricas de fidelidade estatística: Examinar as características estatísticas básicas dos datos, como medias e varianzas, para garantir que os datos sintéticos se aliñan co perfil estatístico do conxunto de datos orixinal. 

        1. Precisión preditiva: Examinando o rendemento do modelo de xeración de datos sintéticos, adestrado con datos orixinais e avaliado en datos sintéticos (Train Real – Test Synthetic, TRTS) e viceversa (Train Synthetic – Test Real, TSTR) 

          1. Relacións entre variables: Esta categoría combinada inclúe: 

            • Correlación de características: Valoramos o ben que os datos sintéticos manteñen as relacións entre as variables utilizando coeficientes de correlación. Unha métrica coñecida como a Propensity Mean Squared Error (PMSE) sería deste tipo. 

            • Información mutua: Medimos as dependencias mutuas entre variables para comprender a profundidade destas relacións máis aló das só correlacións. 

          Análise comparativa: Syntho Engine vs Alternativas de código aberto

          A análise comparativa realizouse mediante un marco de avaliación estandarizado e técnicas de proba idénticas en todos os modelos, incluídos os modelos Syntho Engine e SDV. Ao sintetizar conxuntos de datos de fontes idénticas e sometelos ás mesmas probas estatísticas e avaliacións de modelos de aprendizaxe automática, garantimos unha comparación xusta e imparcial. A sección que segue detalla o rendemento de cada xerador de datos sintéticos na gama de métricas presentadas anteriormente.  

           

          En canto ao conxunto de datos utilizado para a avaliación, utilizamos o Conjunto de datos do censo de adultos da UCI que é un conxunto de datos coñecido na comunidade de aprendizaxe automática. Limpamos os datos antes de todos os adestramentos e despois dividimos o conxunto de datos en dous conxuntos (un conxunto de adestramento e un conxunto de retención para probas). Usamos o conxunto de adestramento para xerar 1 millón de novos puntos de datos con cada un dos modelos e avaliamos varias métricas sobre estes conxuntos de datos xerados. Para máis avaliacións de aprendizaxe automática, usamos o conxunto de retencións para avaliar métricas como as relacionadas con TSTR e TRTS.  

           

          Cada xerador foi executado con parámetros predeterminados. Como algúns dos modelos, como Syntho, poden funcionar de forma predeterminada en calquera dato tabular, non se fixo ningún axuste fino. A procura dos hiperparámetros axeitados para cada modelo levaría unha cantidade significativa de tempo, e a Táboa 2 xa mostra unha gran diferenza de tempo entre o modelo de Syntho e os que se probaron. 

           

          Cabe destacar que a diferenza do resto dos modelos en SDV, o sintetizador de cópula gaussiana baséase en métodos estatísticos. Pola contra, o resto baséase en redes neuronais como os modelos de Redes Adversariais Xerais (GAN) e os codificadores automáticos variacionais. É por iso que a cópula gaussiana pode verse como unha liña de base para todos os modelos discutidos. 

          Resultados

          Calidade dos datos

          Figura 1. Visualización dos resultados básicos de calidade para todos os modelos

          As adhesións ás tendencias e representacións dos datos comentadas anteriormente pódense atopar na Figura 1 e na Táboa 1. Aquí, cada unha das métricas en uso pódese interpretar do seguinte xeito:

          • Puntuación de calidade global: avaliación global da calidade dos datos sintéticos, combinando varios aspectos como a semellanza estatística e as características dos datos. 
          • Formas de columna: avalía se os datos sintéticos manteñen a mesma forma de distribución que os datos reais para cada columna. 
          • Tendencias de pares de columnas: avalía a relación ou correlacións entre pares de columnas en datos sintéticos en comparación cos datos reais. 
          •  

          En xeral, pódese notar que Syntho logra puntuacións moi altas en todos os ámbitos. Para comezar, ao analizar a calidade global dos datos (avaliada coa biblioteca de métricas SDV), Syntho pode acadar un resultado superior ao 99 % (cunha adherencia á forma de columna do 99.92 % e unha adhesión á forma do par de columnas do 99.31 %). Isto é mentres o SDV obtén un resultado máximo do 90.84% (con cópula gaussiana, cunha adherencia á forma de columna do 93.82% e unha adherencia á forma do par de columnas do 87.86%). 

          Unha representación tabular das puntuacións de calidade de cada conxunto de datos xerado por modelo

          Táboa 1. Unha representación tabular das puntuacións de calidade de cada conxunto de datos xerado por modelo 

          Cobertura de datos

          O módulo Informe de diagnóstico de SDV chama a nosa atención sobre que os datos xerados por SDV (en todos os casos) faltan máis do 10% dos intervalos numéricos; No caso do autocodificador variacional baseado en tripletas (TVAE), tamén falta a mesma cantidade de datos categóricos en comparación co conxunto de datos orixinal. Non se xeraron tales avisos cos resultados acadados co uso de Syntho.  

          visualización das métricas de rendemento medio por columnas para todos os modelos
           
           

          Figura 2. visualización das métricas de rendemento medio por columnas para todos os modelos 

          Na análise comparativa, o gráfico da Figura 2 ilustra que os arquivos SDV obtén resultados marxinalmente mellores na cobertura de categorías con algúns dos seus modelos (nomeadamente con GaussianCopula, CopulaGAN e GAN tabular condicional - CTGAN). Non obstante, é importante destacar que a fiabilidade dos datos de Syntho supera a dos modelos SDV, xa que a discrepancia na cobertura entre categorías e rangos é mínima, mostrando unha variación de apenas 1.1%. Pola contra, os modelos SDV presentan unha variación considerable, que vai do 14.6% ao 29.2%. 

           

          As métricas representadas aquí pódense interpretar do seguinte xeito: 

          • Cobertura de categorías: mide a presenza de todas as categorías en datos sintéticos en comparación cos datos reais.
          • Cobertura do intervalo: avalía o ben que o intervalo de valores dos datos sintéticos coincide co dos datos reais. 
          Unha representación tabular da cobertura media dun determinado tipo de atributo por modelo

          Táboa 2. Unha representación tabular da cobertura media dun determinado tipo de atributo por modelo 

          Utilidade

          Pasando ao tema da utilidade dos datos sintéticos, cobra relevancia a cuestión dos modelos de adestramento sobre os datos. Para ter unha comparación equilibrada e xusta entre todos os frameworks escollimos o Gradient Boosting Classifier predeterminado da biblioteca SciKit Learn, xa que está bastante aceptado como un modelo de bo rendemento con configuracións listas para usar.  

           

          Adestraranse dous modelos diferentes, un sobre os datos sintéticos (para TSTR) e outro sobre os datos orixinais (para TRTS). O modelo adestrado cos datos sintéticos avalíase mediante un conxunto de probas de retención (que non se utilizou durante a xeración de datos sintéticos) e o modelo adestrado con datos orixinais probáse no conxunto de datos sintéticos.  

          visualización das puntuacións da área baixo a curva (AUC) por método por modelo

          Figura 3. Visualización das puntuacións da área baixo a curva (AUC) por método e modelo 

           Os resultados visualizados anteriormente demostran a superioridade da xeración de datos sintéticos polo motor Syntho en comparación con outros métodos, xa que non hai diferenzas entre os resultados obtidos polos diferentes métodos (apuntando a unha gran semellanza entre os datos sintéticos e reais). Ademais, a liña de puntos vermellas presente no gráfico é o resultado obtido ao avaliar o rendemento base dunha proba Train Real, Test Real (TRTR) para proporcionar unha liña base para as métricas observadas. Esta liña representa o valor 0.92, que é a puntuación da área baixo a curva (puntuación AUC) acadada polo modelo adestrado en datos reais e probado en datos reais. 

          Unha representación tabular das puntuacións AUC acadadas por TRTS e TSTR respectivamente por modelo.

          Táboa 3. Unha representación tabular das puntuacións AUC acadadas por TRTS e TSTR respectivamente por modelo. 

          Comparación no tempo

          Por suposto, é fundamental ter en conta o tempo investido na xeración destes resultados. A seguinte visualización ilustra só isto.

          visualización do tempo necesario para adestrar e realizar a xeración de datos sintéticos dun millón de puntos de datos cun modelo con e sen GPU.

          Figura 5. Visualización do tempo necesario para adestrar e realizar xeración de datos sintéticos dun millón de puntos de datos cun modelo con e sen GPU. 

          A figura 5 ilustra o tempo necesario para xerar datos sintéticos en dúas configuracións diferentes. O primeiro dos cales (aquí denominado sen GPU), foron probas executadas nun sistema cunha CPU Intel Xeon con 16 núcleos a 2.20 GHz. As probas marcadas como "correu cunha GPU" foron nun sistema cunha CPU AMD Ryzen 9 7945HX con 16 núcleos a 2.5 GHz e unha GPU para portátil NVIDIA GeForce RTX 4070. Como se observa na Figura 2 e na Táboa 2 a continuación, pódese observar que Syntho é significativamente máis rápido á hora de xerar datos sintéticos (en ambos os escenarios), o que é fundamental nun fluxo de traballo dinámico. 

          unha táboa que ilustra o tempo necesario para a xeración de datos sintéticos de 1 millón de puntos de datos con cada modelo con e sen GPU

          Táboa 5. Unha representación tabular do tempo necesario xeración de datos sintéticos dun millón de puntos de datos con cada modelo con e sen GPU 

          Observacións finais e orientacións futuras 

          Os resultados subliñan a importancia dunha avaliación exhaustiva da calidade na elección do método correcto de xeración de datos sintéticos. O motor de Syntho, co seu enfoque impulsado pola intelixencia artificial, demostra fortalezas notables en certas métricas, mentres que as ferramentas de código aberto como SDV brillan pola súa versatilidade e melloras impulsadas pola comunidade. 

          A medida que o campo dos datos sintéticos segue evolucionando, animámosche a aplicar estas métricas nos teus proxectos, explorar as súas complexidades e compartir as túas experiencias. Estade atentos ás futuras publicacións nas que afondaremos noutras métricas e destacaremos exemplos reais da súa aplicación. 

          Ao final, para aqueles que buscan probar as augas con datos sintéticos, a alternativa de código aberto presentada pode ser unha opción xustificada dada a accesibilidade; non obstante, para os profesionais que incorporan esta tecnoloxía moderna ao seu proceso de desenvolvemento, hai que aproveitar calquera oportunidade de mellora e evitar todos os obstáculos. Polo tanto, é importante escoller a mellor opción dispoñible. Coas análises proporcionadas anteriormente, faise bastante evidente que Syntho e con iso o Syntho Engine é unha ferramenta moi capaz para os profesionais. 

          Acerca de Syntho

          Sinto ofrece unha plataforma intelixente de xeración de datos sintéticos, que aproveita múltiples formas de datos sintéticos e métodos de xeración, e permite ás organizacións transformar de forma intelixente os datos nunha vantaxe competitiva. Os nosos datos sintéticos xerados pola intelixencia artificial imitan os patróns estatísticos dos datos orixinais, o que garante a precisión, a privacidade e a velocidade, segundo a avaliación de expertos externos como SAS. Con funcións intelixentes de desidentificación e cartografía consistente, a información sensible está protexida ao tempo que se preserva a integridade referencial. A nosa plataforma permite a creación, xestión e control de datos de proba para ambientes que non sexan de produción, utilizando métodos de xeración de datos sintéticos baseados en regras para escenarios específicos. Ademais, os usuarios poden xerar datos sintéticos mediante programación e obter datos de proba realistas para desenvolver escenarios completos de probas e desenvolvemento con facilidade.  

          Queres aprender máis aplicacións prácticas dos datos sintéticos? Non dubides en programa demo!

          Sobre os autores

          Practicante de Enxeñaría de Software

          Roam é estudante de licenciatura na Universidade Tecnolóxica de Delft e está en prácticas en Enxeñaría de Software Sinto 

          Enxeñeiro de aprendizaxe automática

          Mihai logrou o seu doutoramento na Universidade de Bristol sobre o tema da aprendizaxe por reforzo xerárquico aplicado á robótica e é un Enxeñeiro de Machine Learning at Sinto. 

          tapa de guía de sintetizador

          Garda a túa guía de datos sintéticos agora!