Avaluació de la utilitat i la semblança en els generadors de dades sintètiques: una immersió tècnica i anàlisi comparativa

Publicat:
Febrer 27, 2024

introducció

En l'era digital actual, la consciència de la privadesa de les dades ha augmentat significativament. Els usuaris reconeixen cada cop més les seves dades com una empremta digital única, cosa que suposa un risc per a la seva privadesa en cas de violacions de dades. Aquesta preocupació s'amplifica encara més per regulacions com el GDPR, que permeten als usuaris sol·licitar l'eliminació de les seves dades. Tot i que és molt necessària, aquesta legislació pot ser molt costosa per a les empreses ja que l'accés a les dades es minimitza; restriccions que sovint requereixen temps i recursos per superar. 

Taula de continguts

Què són els generadors de dades sintètiques?

Introduïu dades sintètiques, una solució a aquest enigma. Els generadors de dades sintètiques creen conjunts de dades que imiten les dades reals dels usuaris, alhora que es conserven l'anonimat i la confidencialitat. Aquest enfocament està guanyant força a totes les indústries, des de la sanitat fins a les finances, on la privadesa és primordial.  

Aquesta publicació està dissenyada per a professionals i entusiastes de les dades, centrada en l'avaluació dels generadors de dades sintètiques. Aprofundirem en mètriques clau i realitzarem una anàlisi comparativa entre el motor de Syntho i les seves alternatives de codi obert, oferint informació sobre com avaluar eficaçment la qualitat de la solució de generació de dades sintètiques. A més, també avaluarem el cost de temps de cadascun d'aquests models per proporcionar una visió més detallada del funcionament dels models. 

Com triar el mètode adequat de generació de dades sintètiques?

En el panorama divers de la generació de dades sintètiques, hi ha una gran quantitat de mètodes disponibles, cadascun competint per l'atenció amb les seves capacitats úniques. L'elecció del mètode més adequat per a una aplicació concreta requereix un coneixement exhaustiu de les característiques de rendiment de cada opció. Això requereix una avaluació exhaustiva de diversos generadors de dades sintètiques basant-se en un conjunt de mètriques ben definides per prendre una decisió informada. 

El que segueix és una anàlisi comparativa rigorosa del motor Syntho juntament amb un marc de codi obert conegut, el Synthetic Data Vault (SDV). En aquesta anàlisi, hem utilitzat moltes mètriques d'ús habitual, com ara la fidelitat estadística, la precisió predictiva i la relació entre variables. 

Mètriques d'avaluació de dades sintètiques

Abans d'introduir qualsevol mètrica específica, hem de reconèixer que hi ha nombroses ideologies sobre l'avaluació de dades sintètiques, cadascuna de les quals dóna una visió d'un aspecte determinat de les dades. Tenint en compte això, les tres categories següents destaquen com a importants i completes. Aquestes mètriques proporcionen informació sobre diversos aspectes de la qualitat de les dades. Aquestes categories són: 

      1. Mètriques de fidelitat estadística: Examinar les característiques estadístiques bàsiques de les dades, com les mitjanes i les variàncies, per garantir que les dades sintètiques s'alineen amb el perfil estadístic del conjunt de dades original. 

        1. Precisió predictiva: Examinant el rendiment del model de generació de dades sintètiques, entrenat amb dades originals i avaluat amb dades sintètiques (Train Real – Test Synthetic, TRTS) i viceversa (Train Synthetic – Test Real, TSTR) 

          1. Relacions entre variables: Aquesta categoria combinada inclou: 

            • Correlació de característiques: Avaluem com de bé les dades sintètiques mantenen les relacions entre variables mitjançant coeficients de correlació. Una mètrica coneguda com la Propensity Mean Squared Error (PMSE) seria d'aquest tipus. 

            • Informació mútua: Mesurem les dependències mútues entre variables per entendre la profunditat d'aquestes relacions més enllà de les correlacions. 

          Anàlisi comparativa: motor de síntesi vs alternatives de codi obert

          L'anàlisi comparativa es va dur a terme mitjançant un marc d'avaluació estandarditzat i tècniques de prova idèntiques a tots els models, inclosos els models Syntho Engine i SDV. Sintetitzem conjunts de dades de fonts idèntiques i els sotmetem a les mateixes proves estadístiques i avaluacions de models d'aprenentatge automàtic, garantim una comparació justa i imparcial. La secció que segueix detalla el rendiment de cada generador de dades sintètiques a través de la gamma de mètriques presentades anteriorment.  

           

          Pel que fa al conjunt de dades utilitzat per a l'avaluació, hem utilitzat el Conjunt de dades del cens d'adults de la UCI que és un conjunt de dades conegut a la comunitat d'aprenentatge automàtic. Vam netejar les dades abans de tota la formació i després vam dividir el conjunt de dades en dos conjunts (un conjunt d'entrenament i un conjunt de retenció per a la prova). Vam utilitzar el conjunt d'entrenament per generar 1 milió de punts de dades nous amb cadascun dels models i vam avaluar diverses mètriques d'aquests conjunts de dades generats. Per a més avaluacions d'aprenentatge automàtic, hem utilitzat el conjunt de retenció per avaluar mètriques com les relacionades amb TSTR i TRTS.  

           

          Cada generador es va executar amb paràmetres predeterminats. Com que alguns dels models, com Syntho, poden funcionar de manera immediata amb qualsevol dada tabular, no s'ha fet cap ajust. Cercar els hiperparàmetres adequats per a cada model trigaria una quantitat de temps significativa, i la taula 2 ja mostra una gran diferència de temps entre el model de Syntho i els que s'han provat. 

           

          Cal destacar que, a diferència de la resta de models de SDV, el sintetitzador de còpula gaussià es basa en mètodes estadístics. En canvi, la resta es basen en xarxes neuronals com ara models de xarxes generatives adversàries (GAN) i codificadors automàtics variacionals. És per això que la còpula gaussiana es pot veure com una línia de base per a tots els models comentats. 

          Resultats

          Qualitat de les dades

          Figura 1. Visualització dels resultats bàsics de qualitat per a tots els models

          Les adherències discutides anteriorment a les tendències i representacions de les dades es poden trobar a la Figura 1 i la Taula 1. Aquí, cadascuna de les mètriques en ús es pot interpretar de la següent manera:

          • Nivell de qualitat general: avaluació global de la qualitat de les dades sintètiques, combinant diversos aspectes com ara la similitud estadística i les característiques de les dades. 
          • Formes de columna: avalua si les dades sintètiques mantenen la mateixa forma de distribució que les dades reals per a cada columna. 
          • Tendències de parells de columnes: avalua les relacions o correlacions entre parells de columnes en dades sintètiques en comparació amb dades reals. 
          •  

          En general, es pot notar que Syntho aconsegueix puntuacions molt altes a tot el tauler. Per començar, quan es mira la qualitat general de les dades (avaluada amb la biblioteca de mètriques SDV), Syntho pot aconseguir un resultat superior al 99% (amb una adherència a la forma de columna del 99.92% i una adherència a la forma del parell de columnes del 99.31%). Això és mentre que SDV obté un resultat màxim del 90.84% (amb la còpula gaussiana, amb una adherència a la forma de columna del 93.82% i una adherència a la forma del parell de columnes del 87.86%). 

          Una representació tabular de les puntuacions de qualitat de cada conjunt de dades generat per model

          Taula 1. Una representació tabular de les puntuacions de qualitat de cada conjunt de dades generat per model 

          Cobertura de dades

          El mòdul d'Informe de Diagnòstic de SDV ens posa en coneixement que les dades generades per SDV (en tots els casos) falten més del 10% dels rangs numèrics; En el cas de l'autocodificador variacional basat en triplets (TVAE), també falta la mateixa quantitat de dades categòriques en comparació amb el conjunt de dades original. No es van generar aquests avisos amb els resultats obtinguts amb Syntho.  

          visualització de les mètriques de rendiment mitjanes per columnes per a tots els models
           
           

          Figura 2. visualització de les mètriques de rendiment mitjanes per columnes per a tots els models 

          En l'anàlisi comparativa, la trama de la figura 2 il·lustra que els arxius SDV tenen resultats marginalment millors en la cobertura de categories amb alguns dels seus models (és a dir, amb GaussianCopula, CopulaGAN i Conditional Tabular GAN - CTGAN). No obstant això, és important destacar que la fiabilitat de les dades de Syntho supera la dels models SDV, ja que la discrepància en la cobertura entre categories i rangs és mínima, mostrant només una variància de l'1.1%. En canvi, els models SDV mostren una variació considerable, que oscil·la entre el 14.6% i el 29.2%. 

           

          Les mètriques representades aquí es poden interpretar de la següent manera: 

          • Cobertura de categories: mesura la presència de totes les categories a les dades sintètiques en comparació amb les dades reals.
          • Cobertura de l'interval: avalua fins a quin punt l'interval de valors de les dades sintètiques coincideix amb el de les dades reals. 
          Una representació tabular de la cobertura mitjana d'un tipus d'atribut determinat per model

          Taula 2. Una representació tabular de la cobertura mitjana d'un determinat tipus d'atribut per model 

          Utilitat

          Passant al tema de la utilitat de les dades sintètiques, la qüestió dels models d'entrenament sobre les dades esdevé rellevant. Per tenir una comparació equilibrada i justa entre tots els marcs, hem escollit el classificador d'augment de gradient predeterminat de la biblioteca SciKit Learn, ja que està bastant acceptat com un model de bon rendiment amb una configuració fora de la caixa.  

           

          S'entrenen dos models diferents, un sobre les dades sintètiques (per a TSTR) i un altre sobre les dades originals (per TRTS). El model entrenat amb les dades sintètiques s'avalua mitjançant un conjunt de proves de retenció (que no es va utilitzar durant la generació de dades sintètiques) i el model entrenat amb dades originals es prova al conjunt de dades sintètiques.  

          visualització de les puntuacions de l'àrea sota la corba (AUC) per mètode per model

          Figura 3. Visualització de les puntuacions de l'àrea sota la corba (AUC) per mètode per model 

           Els resultats visualitzats anteriorment demostren la superioritat de la generació de dades sintètiques pel motor Syntho en comparació amb altres mètodes, ja que no hi ha cap diferència entre els resultats obtinguts pels diferents mètodes (apuntant a una gran similitud entre les dades sintètiques i reals). A més, la línia de punts vermella present a la trama és el resultat obtingut avaluant el rendiment base d'una prova Train Real, Test Real (TRTR) per proporcionar una línia de base per a les mètriques observades. Aquesta línia representa el valor 0.92, que és la puntuació de l'àrea sota la corba (puntuació AUC) aconseguida pel model entrenat amb dades reals i provat amb dades reals. 

          Una representació tabular de les puntuacions AUC aconseguides per TRTS i TSTR respectivament per model.

          Taula 3. Una representació tabular de les puntuacions AUC aconseguides per TRTS i TSTR respectivament per model. 

          Comparació en el temps

          Naturalment, és crucial tenir en compte el temps invertit en la generació d'aquests resultats. La visualització següent il·lustra només això.

          visualització del temps necessari per entrenar i realitzar la generació de dades sintètiques d'un milió de punts de dades amb un model amb i sense GPU.

          Figura 5. Visualització del temps necessari per entrenar i realitzar generació de dades sintètiques d'un milió de punts de dades amb un model amb i sense GPU. 

          La figura 5 il·lustra el temps necessari per generar dades sintètiques en dos entorns diferents. El primer dels quals (aquí anomenat Sense GPU), van ser proves executades en un sistema amb una CPU Intel Xeon amb 16 nuclis que funcionaven a 2.20 GHz. Les proves marcades com a "execució amb una GPU" van ser en un sistema amb una CPU AMD Ryzen 9 7945HX amb 16 nuclis que funcionaven a 2.5 GHz i una GPU per portàtil NVIDIA GeForce RTX 4070. Com es nota a la figura 2 i a la taula 2 a continuació, es pot observar que Syntho és significativament més ràpid a l'hora de generar dades sintètiques (en ambdós escenaris) que és fonamental en un flux de treball dinàmic. 

          una taula que il·lustra el temps necessari per a la generació de dades sintètiques d'1 milió de punts de dades amb cada model amb i sense GPU

          Taula 5. A Representació tabular del temps necessari generació de dades sintètiques d'un milió de punts de dades amb cada model amb i sense GPU 

          Observacions finals i orientacions futures 

          Les troballes subratllen la importància d'una avaluació exhaustiva de la qualitat a l'hora de triar el mètode adequat de generació de dades sintètiques. El motor de Syntho, amb el seu enfocament basat en IA, demostra punts forts notables en determinades mètriques, mentre que les eines de codi obert com SDV brillen per la seva versatilitat i millores impulsades per la comunitat. 

          A mesura que el camp de les dades sintètiques continua evolucionant, us animem a aplicar aquestes mètriques als vostres projectes, explorar-ne les complexitats i compartir les vostres experiències. Estigueu atents a futures publicacions on aprofundirem en altres mètriques i destacarem exemples reals de la seva aplicació. 

          Al cap i a la fi, per a aquells que busquen provar les aigües amb dades sintètiques, l'alternativa de codi obert presentada pot ser una opció justificable donada l'accessibilitat; tanmateix, per als professionals que incorporen aquesta tecnologia moderna al seu procés de desenvolupament, cal aprofitar qualsevol possibilitat de millora i evitar tots els obstacles. Per tant, és important triar la millor opció disponible. Amb les anàlisis proporcionades anteriorment es fa més aviat evident que Syntho i amb això el Syntho Engine és una eina molt capaç per als professionals. 

          Quant a Syntho

          Syntho proporciona una plataforma intel·ligent de generació de dades sintètiques, aprofitant múltiples formes de dades sintètiques i mètodes de generació, donant poder a les organitzacions per transformar les dades de manera intel·ligent en un avantatge competitiu. Les nostres dades sintètiques generades per IA imiten els patrons estadístics de les dades originals, garantint la precisió, la privadesa i la velocitat, tal com avaluen experts externs com SAS. Amb funcions de desidentificació intel·ligents i mapes coherents, la informació sensible es protegeix alhora que es preserva la integritat referencial. La nostra plataforma permet la creació, gestió i control de dades de prova per a entorns que no són de producció, utilitzant mètodes de generació de dades sintètiques basats en regles per a escenaris específics. A més, els usuaris poden generar dades sintètiques amb programació i obtenir dades de prova realistes per desenvolupar proves i escenaris de desenvolupament complets amb facilitat.  

          Vols aprendre més aplicacions pràctiques de dades sintètiques? Ets lliure de programa demo!

          Quant als autors

          Enginyeria de programari en pràctiques

          Rohanam és un estudiant de grau a la Universitat Tecnològica de Delft i és becari d'enginyeria de programari a Syntho 

          Enginyer d'aprenentatge automàtic

          Mihai va obtenir el seu doctorat a la Universitat de Bristol sobre el tema de l'aprenentatge de reforç jeràrquic aplicat a la robòtica i és un Enginyer d'aprenentatge automàtic at Syntho. 

          coberta de guia sintètica

          Desa la teva guia de dades sintètiques ara!