Anonimizēti dati salīdzinājumā ar sintētiskajiem datiem

Ja anonimizējat savus datus pirms datu analīzes datu pārbaudes, ir vairāki faktori.

  1. Gandrīz visos gadījumos anonimizētus datus joprojām var izsekot līdz personām īpašu un unikālu rindu dēļ (piemēram, medicīniskie dokumenti).
  2. Jo vairāk jūs anonimizējat vai vispārināt, jo vairāk datu iznīcināsit. Tas pasliktina jūsu datu un līdz ar to arī ieskatu kvalitāti
  3. Anonimizācija dažādiem datu formātiem darbojas atšķirīgi. Tas nozīmē, ka tas nav mērogojams un var būt ļoti laikietilpīgs

Sintētiskie dati atrisina visus šos trūkumus un daudz ko citu. Noskatieties tālāk esošo videoklipu, lai redzētu, kā analītikas eksperts no SAS (globālā tirgus līderis analītikas jomā) paskaidro savu novērtējumu par kvalitātes atšķirību starp sākotnējiem datiem, anonimizētiem datiem un Syntho ģenerētajiem sintētiskajiem datiem.

Šis videoklips ir uzņemts no Syntho x SAS D[N]A kafejnīcas par AI ģenerētiem sintētiskajiem datiem. Atrodiet pilnu video šeit.

Edvīns van Unens nosūtīja oriģinālo datu kopu Syntho, un mēs sintezējām datu kopu. Bet jautājums bija arī: "Kas notiks, ja salīdzināsim sintētiskos datus ar anonimizētiem datiem?" Tā kā jūs zaudējat daudz informācijas anonimizētos datos, vai tas notiks arī datu kopas sintezēšanas laikā? Mēs sākām ar telekomunikāciju nozares datu kopu ar 56.000 128 rindu un XNUMX kolonnām ar informāciju par uzņēmumu pārtraukšanu. Šī datu kopa tika gan sintezēta, gan anonimizēta, lai Edvīns varētu salīdzināt sintezēšanu ar anonimizāciju. Pēc tam Edvīns sāka modelēt, izmantojot SAS Viya. Viņš izveidoja dažus churn modeļus uz sākotnējās datu kopas, izmantojot klasiskās regresijas metodes un lēmumu kokus, kā arī sarežģītākas metodes, piemēram, neironu tīklus, gradientu pastiprināšanu, nejaušu mežu — šāda veida metodes. Veidojot modeļus, izmantojiet standarta SAS Viya opcijas.

Tad bija pienācis laiks aplūkot rezultātus. Rezultāti bija ļoti daudzsološi sintētiskiem datiem, nevis anonimizācijai. Auditorijā esošie eksperti, kas nemācās, aplūko laukumu zem ROC līknes, kas kaut ko stāsta par modeļa precizitāti. Salīdzinot sākotnējos datus ar anonimizētajiem datiem, redzam, ka sākotnējā datu modeļa laukums zem ROC līknes ir 8, kas ir diezgan labi, tomēr anonimizēto datu laukums zem ROC līknes ir 6. Tas nozīmē, ka, izmantojot anonimizēto modeli, mēs zaudējam daudz informācijas, tāpēc jūs zaudējat daudz prognozēšanas spējas.

Bet tad jautājums ir par to, kā ir ar sintētikas datiem? Šeit mēs rīkojāmies tieši tāpat, bet tā vietā, lai anonimizētu datus, Syntho datus sintezēja. Tagad mēs redzam, ka gan sākotnējiem datiem, gan sintētiskajiem datiem ir laukums zem ROC līknes 8, kas ir ļoti līdzīgs. Ne gluži vienādi mainīguma dēļ, bet ļoti līdzīgi. Tas nozīmē, ka sintētisko datu potenciāls ir ļoti daudzsološs – Edvīns par to ļoti priecājas.

smaidošu cilvēku grupa

Dati ir sintētiski, bet mūsu komanda ir reāla!

Sazinieties ar Syntho un kāds no mūsu ekspertiem sazināsies ar jums gaismas ātrumā, lai izpētītu sintētisko datu vērtību!