Avaluació externa de les nostres dades sintètiques per part dels experts en dades de SAS

Les nostres dades sintètiques són avaluada i aprovat pels experts en dades de SAS

Introducció a l'avaluació externa de les nostres dades sintètiques per part dels experts en dades de SAS

Què hem fet?

Les dades sintètiques generades per Syntho són avaluades, validades i aprovades des d'un punt de vista extern i objectiu pels experts en dades de SAS.

Per què les nostres dades sintètiques són avaluades externament pels experts en dades de SAS?

Tot i que Syntho s'enorgulleix d'oferir als seus usuaris un informe avançat de garantia de qualitat, també entenem la importància de tenir una avaluació externa i objectiva de les nostres dades sintètiques per part dels líders del sector. És per això que col·laborem amb SAS, líder en analítica, per avaluar les nostres dades sintètiques.

SAS realitza diverses avaluacions exhaustives sobre la precisió de les dades, la protecció de la privadesa i la usabilitat de les dades sintètiques generades per IA de Syntho en comparació amb les dades originals. Com a conclusió, SAS va avaluar i aprovar les dades sintètiques de Syntho com a precises, segures i utilitzables en comparació amb les dades originals.

Què va fer SAS durant aquesta avaluació?

Hem utilitzat dades de telecomunicacions que s'utilitzen per a la predicció de la "revolució" com a dades d'objectiu. L'objectiu de l'avaluació era utilitzar dades sintètiques per entrenar diversos models de predicció de la rotació i per avaluar el rendiment de cada model. Com que la predicció de la rotació és una tasca de classificació, SAS va seleccionar models de classificació populars per fer les prediccions, que inclouen:

  1. Bosc aleatori
  2. Augment del gradient
  3. Regressió logística
  4. Xarxa neuronal

Abans de generar les dades sintètiques, SAS va dividir aleatòriament el conjunt de dades de telecomunicacions en un conjunt de trens (per entrenar els models) i un conjunt de retenció (per puntuar els models). El fet de tenir un conjunt de restriccions separades per a la puntuació permet una avaluació imparcial del rendiment del model de classificació quan s'aplica a dades noves.

Utilitzant el conjunt de trens com a entrada, Syntho va utilitzar el seu motor Syntho per generar un conjunt de dades sintètic. Per al benchmarking, SAS també va crear una versió anònima del conjunt de trens després d'aplicar diverses tècniques d'anonimització per assolir un determinat llindar (d'anonimat k). Els passos anteriors van donar lloc a quatre conjunts de dades:

  1. Un conjunt de dades de tren (és a dir, el conjunt de dades original menys el conjunt de dades de retenció)
  2. Un conjunt de dades de retenció (és a dir, un subconjunt del conjunt de dades original)
  3. Un conjunt de dades anònim (dades anònimes del conjunt de dades del tren, el conjunt de dades original menys el conjunt de dades de retenció)
  4. Un conjunt de dades sintètic (dades sintetitzades del conjunt de dades del tren, el conjunt de dades original menys el conjunt de dades de retenció)

Els conjunts de dades 1, 3 i 4 es van utilitzar per entrenar cada model de classificació, donant lloc a 12 (3 x 4) models entrenats. Posteriorment, SAS va utilitzar el conjunt de dades de retenció per mesurar la precisió de cada model en la predicció de la pèrdua de clients.

SAS realitza diverses avaluacions exhaustives sobre la precisió de les dades, la protecció de la privadesa i la usabilitat de les dades sintètiques generades per IA de Syntho en comparació amb les dades originals. Com a conclusió, SAS va avaluar i aprovar les dades sintètiques de Syntho com a precises, segures i utilitzables en comparació amb les dades originals.

Té vostè alguna pregunta?

Parleu amb un dels nostres experts

Resultats inicials de l'avaluació de dades per part de SAS

Els models entrenats amb dades sintètiques tenen un resultat molt similar en comparació amb els models entrenats amb dades originals

Les dades sintètiques de Syntho no només s'apliquen als patrons bàsics, sinó que també capturen patrons estadístics "ocults" profunds necessaris per a tasques d'anàlisi avançades. Això últim es demostra al gràfic de barres, que indica que la precisió dels models entrenats amb dades sintètiques enfront dels models entrenats amb dades originals és similar. Per tant, les dades sintètiques es poden utilitzar per a l'entrenament real dels models. Les entrades i la importància variable seleccionades pels algorismes sobre dades sintètiques en comparació amb les dades originals eren molt similars. Per tant, es conclou que el procés de modelització es pot fer sobre dades sintètiques, com a alternativa per utilitzar dades reals sensibles.

Per què els models entrenats amb dades anònimes puntuen pitjor?

Les tècniques clàssiques d'anonimització tenen en comú que manipulen les dades originals per dificultar el rastreig de persones. Manipulen les dades i, per tant, les destrueixen en el procés. Com més anònim, millor es protegeixen les vostres dades, però també més es destrueixen les vostres dades. Això és especialment devastador per a tasques d'IA i modelatge on el "poder predictiu" és essencial, perquè les dades de mala qualitat donaran lloc a una mala informació del model d'IA. SAS ho va demostrar, amb una àrea sota la corba (AUC*) propera a 0.5, demostrant que els models entrenats amb dades anònimes funcionen amb molt el pitjor.

Resultats addicionals de les avaluacions de dades sintètiques per part de SAS

Resultats addicionals de les avaluacions de dades sintètiques per part de SAS

Les correlacions i les relacions entre variables es van preservar amb precisió en dades sintètiques.

L'àrea sota la corba (AUC), una mètrica per mesurar el rendiment del model, es va mantenir coherent.

A més, la importància de la variable, que indicava el poder predictiu de les variables en un model, es va mantenir intacta en comparar dades sintètiques amb el conjunt de dades original.

A partir d'aquestes observacions de SAS i mitjançant l'ús de SAS Viya, podem concloure amb confiança que les dades sintètiques generades pel Syntho Engine són efectivament a l'alçada de les dades reals en termes de qualitat. Això valida l'ús de dades sintètiques per al desenvolupament de models, obrint el camí per a l'anàlisi avançada amb dades sintètiques.

Conclusions dels experts en dades de SAS

Logotip de Sas

Les nostres dades sintètiques són aprovat pels experts en dades de SAS

Articles de referència

coberta de guia sintètica

Desa la teva guia de dades sintètiques ara!