Anoniminiai duomenys prieš sintetinius duomenis

Jei anonimizuojate savo duomenis prieš atlikdami duomenų analizės duomenų testavimą, įtakos turi keli veiksniai:

  1. Beveik visais atvejais anoniminius duomenis vis tiek galima atsekti iki asmenų dėl specifinių ir unikalių eilučių (pvz., medicininių įrašų).
  2. Kuo daugiau anonimizuojate ar apibendrinate, tuo daugiau duomenų sunaikinate. Tai pablogina jūsų duomenų kokybę, taigi ir jūsų įžvalgas
  3. Skirtingų duomenų formatų anonimiškumas veikia skirtingai. Tai reiškia, kad jis nėra keičiamas ir gali užtrukti daug laiko

Sintetiniai duomenys išsprendžia visus šiuos trūkumus ir dar daugiau. Žiūrėkite toliau pateiktą vaizdo įrašą, kad pamatytumėte, kaip analitikos ekspertas iš SAS (pasaulinės analizės rinkos lyderis) paaiškina savo vertinimą dėl originalių duomenų, anoniminių duomenų ir „Syntho“ sugeneruotų sintetinių duomenų kokybės skirtumo.

Šis vaizdo įrašas užfiksuotas iš „Syntho x SAS D[N]A Café“ apie dirbtinio intelekto sugeneruotus sintetinius duomenis. Visą vaizdo įrašą rasite čia.

Edwinas van Unenas išsiuntė originalų duomenų rinkinį „Syntho“, o mes susintetinome duomenų rinkinį. Tačiau klausimas taip pat buvo toks: „Kas atsitiks, jei palyginsime sintetinius duomenis su anoniminiais? Kadangi anoniminiuose duomenyse prarandate daug informacijos, ar taip atsitiks ir sintezuojant duomenų rinkinį? Pradėjome nuo telekomunikacijų pramonės duomenų rinkinio, kuriame buvo 56.000 128 eilučių ir XNUMX stulpeliai apie įmonės dingimo informaciją. Šis duomenų rinkinys buvo susintetintas ir anonimizuotas, kad Edvinas galėtų palyginti sintezavimą su anonimiškumu. Tada Edvinas pradėjo modeliuoti naudodamas SAS Viya. Jis sukūrė keletą churn modelių pradiniame duomenų rinkinyje, naudodamas klasikinius regresijos metodus ir sprendimų medžius, taip pat sudėtingesnius metodus, tokius kaip neuroniniai tinklai, gradiento didinimas, atsitiktinis miškas – tokias technikas. Kuriant modelius naudokite standartines SAS Viya parinktis.

Tada atėjo laikas pažvelgti į rezultatus. Rezultatai buvo daug žadantys sintetiniams duomenims, o ne anoniminiams duomenims. Auditorijoje besimokantys nemokantys ekspertai žiūri į sritį po ROC kreive, kuri kažką pasako apie modelio tikslumą. Palyginus pradinius duomenis su anoniminiais duomenimis, matome, kad pradinio duomenų modelio plotas po ROC kreive yra 8, o tai yra gana gerai, tačiau anoniminių duomenų plotas po ROC kreive yra 6. Tai reiškia, kad naudojant anoniminį modelį prarandame daug informacijos, todėl prarandate daug nuspėjimo galios.

Bet tada kyla klausimas, kaip su sintetiniais duomenimis? Čia mes padarėme lygiai tą patį, bet užuot anoniminę duomenis, „Syntho“ susintetino duomenis. Dabar matome, kad tiek pirminiai, tiek sintetiniai duomenys turi 8 dydžio ROC kreivę, kuri yra labai panaši. Ne visai tas pats dėl kintamumo, bet labai panašus. Tai reiškia, kad sintetinių duomenų potencialas yra daug žadantis – Edvinas tuo labai džiaugiasi.

besišypsančių žmonių grupė

Duomenys yra sintetiniai, bet mūsų komanda tikra!

Susisiekite su Syntho ir vienas iš mūsų ekspertų susisieks su jumis šviesos greičiu, kad ištirtų sintetinių duomenų vertę!