Dades anònimes versus dades sintètiques

Si anonimitzeu les vostres dades abans de realitzar proves de dades de l'anàlisi de dades, hi ha diversos factors en joc:

  1. En gairebé tots els casos, les dades anònimes encara es poden rastrejar fins a persones a causa de files específiques i úniques (per exemple, registres mèdics)
  2. Com més anonimitzeu o generalitzeu, més dades es destrueixen. Això redueix la qualitat de les vostres dades i, per tant, la vostra informació
  3. L'anonimització funciona de manera diferent per a diferents formats de dades. Això vol dir que no és escalable i que pot consumir molt de temps

Les dades sintètiques solucionen totes aquestes mancances i més. Mireu el vídeo següent per veure un expert en anàlisi de SAS (líder global del mercat en anàlisi) que explica la seva avaluació sobre la diferència de qualitat entre les dades originals, les dades anònimes i les dades sintètiques generades per Syntho.

Aquest vídeo s'ha capturat del Syntho x SAS D[N]A Café sobre les dades sintètiques generades per IA. Trobeu el vídeo complet aquí.

Edwin van Unen va enviar un conjunt de dades original a Syntho i vam sintetitzar el conjunt de dades. Però la pregunta també era: "Què passarà si comparem dades sintètiques amb dades anònimes?" Com que perds molta informació en dades anònimes, això també passarà en sintetitzar un conjunt de dades? Vam començar amb un conjunt de dades de la indústria de les telecomunicacions amb 56.000 files i 128 columnes d'informació de l'empresa. Aquest conjunt de dades es va sintetitzar i es va anonimitzar perquè Edwin pogués comparar la sintetització amb l'anonimització. Aleshores, Edwin va començar a modelar amb SAS Viya. Va construir un parell de models de rotació sobre el conjunt de dades original, utilitzant tècniques clàssiques de regressió i arbres de decisió, però també tècniques més sofisticades com ara xarxes neuronals, augmentar el gradient, boscos aleatoris, aquest tipus de tècniques. Ús de les opcions estàndard de SAS Viya quan es construeixen els models.

Aleshores, va ser el moment de mirar els resultats. Els resultats van ser molt prometedors per a dades sintètiques i no per a l'anonimització. Per als experts que no tenen aprenentatge automàtic de l'audiència, mirem l'àrea sota la corba ROC que indica alguna cosa sobre la precisió del model. Comparant les dades originals amb les dades anònimes, veiem que el model de dades original té una àrea sota la corba ROC de .8, que és força bona, però, les dades anònimes tenen una àrea sota la corba ROC de .6. Això vol dir que perdem molta informació amb el model anònim, de manera que perds molt poder predictiu.

Però aleshores, la pregunta és què passa amb les dades sintètiques? Aquí, vam fer exactament el mateix, però en lloc de anonimitzar les dades, Syntho va sintetitzar les dades. Ara, veiem que tant les dades originals com les dades sintètiques tenen una àrea sota la corba ROC de 8, que és molt similar. No és exactament igual a causa de la variabilitat, però molt semblant. Això vol dir que el potencial de les dades sintètiques és molt prometedor; Edwin n'està molt content.

grup de gent somrient

Les dades són sintètiques, però el nostre equip és real!

Poseu-vos en contacte amb Syntho i un dels nostres experts es posarà en contacte amb vostè a la velocitat de la llum per explorar el valor de les dades sintètiques.