Date anonimizate vs date sintetice

Dacă anonimizați datele înainte de a efectua testarea datelor pentru analiza datelor, există mai mulți factori în joc:

  1. În aproape toate cazurile, datele anonimizate pot fi încă urmărite până la indivizi datorită rândurilor specifice și unice (de exemplu, fișe medicale)
  2. Cu cât anonimizezi sau generalizezi mai mult, cu atât distrugi mai multe date. Acest lucru scade calitatea datelor și, prin urmare, a cunoștințelor
  3. Anonimizarea funcționează diferit pentru diferite formate de date. Aceasta înseamnă că nu este scalabil și poate consuma foarte mult timp

Datele sintetice rezolvă toate aceste deficiențe și multe altele. Urmărește videoclipul de mai jos pentru a vedea un expert în analiză de la SAS (lider global de piață în analiză) explicând despre evaluarea sa cu privire la diferența de calitate dintre datele originale, datele anonimizate și datele sintetice generate de Syntho.

Acest videoclip este capturat din Syntho x SAS D[N]A Café despre datele sintetice generate de AI. Găsiți videoclipul complet aici.

Edwin van Unen a trimis un set de date original la Syntho și noi am sintetizat setul de date. Dar întrebarea a fost și: „Ce se va întâmpla dacă comparăm datele sintetice cu datele anonimizate?” Deoarece pierdeți o mulțime de informații într-o dată anonimizată, se va întâmpla acest lucru și atunci când sintetizați un set de date? Am început cu un set de date din industria telecomunicațiilor cu 56.000 de rânduri și 128 de coloane de informații despre abandonul companiei. Acest set de date a fost atât sintetizat, cât și anonimizat, astfel încât Edwin să poată compara sintetizarea cu anonimizarea. Apoi, Edwin a început să modeleze folosind SAS Viya. El a construit câteva modele de retragere pe setul de date original, folosind tehnici clasice de regresie și arbori de decizie, dar și tehnici mai sofisticate, cum ar fi rețele neuronale, creșterea gradientului, pădure aleatoare - aceste tipuri de tehnici. Utilizarea opțiunilor standard SAS Viya la construirea modelelor.

Apoi, era timpul să ne uităm la rezultate. Rezultatele au fost foarte promițătoare pentru datele sintetice și nu pentru anonimizare. Pentru experții din audiență care nu învață automat, ne uităm la zona de sub curba ROC, care spune ceva despre acuratețea modelului. Comparând datele originale cu datele anonimizate, vedem că modelul de date inițial are o zonă sub curba ROC de .8, ceea ce este destul de bun. Cu toate acestea, datele anonimizate au o zonă sub curba ROC de .6. Aceasta înseamnă că pierdem o mulțime de informații cu modelul anonimizat, astfel încât pierzi multă putere de predicție.

Dar atunci, întrebarea este: cum rămâne cu datele sintetice? Aici, am făcut exact același lucru, dar în loc să anonimizeze datele, Syntho a sintetizat datele. Acum, vedem atât datele originale, cât și datele sintetice au o zonă sub curba ROC de .8, care este foarte asemănătoare. Nu exact la fel din cauza variabilității, dar foarte asemănătoare. Aceasta înseamnă că potențialul datelor sintetice este foarte promițător – Edwin este foarte fericit de acest lucru.

grup de oameni zâmbind

Datele sunt sintetice, dar echipa noastră este reală!

Contactați Syntho iar unul dintre experții noștri vă va contacta cu viteza luminii pentru a explora valoarea datelor sintetice!