Kodėl klasikinis anonimizavimas (ir pseudonimizavimas) nesukuria anoniminių duomenų

Kas yra klasikinis anonimizavimas?

Klasikinis anonimizavimas reiškia visas metodikas, kai manipuliuojama arba iškraipomas originalus duomenų rinkinys, kad būtų trukdoma atsekti asmenis.

Tipiški klasikinio anonimizavimo pavyzdžiai, kuriuos matome praktikoje, yra apibendrinimas, slopinimas / trynimas, pseudonimizavimas ir eilučių bei stulpelių maišymas.

Štai tie metodai su atitinkamais pavyzdžiais.

Technika Originalūs duomenys Manipuliuoti duomenys
Apibendrinimas 27 metų amžiaus Nuo 25 iki 30 metų
Slopinimas / valymas info@syntho.ai xxxx@xxxxxx.xx
Pseudonimizavimas Amsterdamas hVFD6td3jdHHj78ghdgrewui6
Eilučių ir stulpelių maišymas Sulygiuota Sumaišė

Kokie yra klasikinio anonimiškumo trūkumai?

Manipuliavimas duomenų rinkiniu naudojant klasikinius anonimizavimo metodus sukelia du pagrindinius trūkumus:

  1. Iškreipus duomenų rinkinį, sumažėja duomenų kokybė (ty duomenų naudingumas). Taip pristatomas klasikinis šiukšlių išvežimo į šiukšles principas.
  2. Privatumo rizika bus sumažintas, bet visada bus šalia. Jis lieka ir manipuliuoja pradinio duomenų rinkinio versija su 1-1 ryšiais.

Mes parodome tuos 2 pagrindinius trūkumus, duomenų naudingumą ir privatumo apsaugą. Mes tai darome naudodami šią iliustraciją su taikomu slopinimu ir apibendrinimu.

Pastaba: vaizdus naudojame iliustraciniais tikslais. Tas pats principas galioja ir struktūrizuotiems duomenų rinkiniams.

Klasikinis anonimizavimas nepavyksta
  • Kairėje: mažai taikant klasikinį anonimizavimą, gaunama reprezentatyvi iliustracija. Tačiau asmenį galima lengvai atpažinti, o privatumo rizika yra didelė.

 

  • Teisė: griežtai taikant klasikinį anonimizavimą, užtikrinama stipri privatumo apsauga. Tačiau iliustracija tampa nenaudinga.

Klasikiniai anonimizavimo metodai siūlo neoptimalų duomenų naudingumo ir privatumo apsaugos derinį.

Taip įvedamas kompromisas tarp duomenų naudingumo ir privatumo apsaugos, kai klasikiniai anonimizavimo būdai visada siūlo neoptimalų abiejų derinį. 

klasikinė anonimizacijos naudingumo kreivė

Ar visų tiesioginių identifikatorių (pvz., Vardų) pašalinimas iš duomenų rinkinio yra sprendimas?

Ne. Tai yra didelis klaidingas supratimas ir nesukelia anoniminių duomenų. Ar vis dar taikote tai, kad anonimizuotumėte savo duomenų rinkinį? Tuomet šį tinklaraštį privalote perskaityti jums.

Kuo skiriasi sintetiniai duomenys?

„Syntho“ kuria programinę įrangą, skirtą sukurti visiškai naują duomenų rinkinį. Informacijos, leidžiančios identifikuoti tikrus asmenis, tiesiog nėra sintetiniame duomenų rinkinyje. Kadangi sintetiniuose duomenyse yra dirbtinių duomenų įrašų, sukurtų programinės įrangos, asmens duomenų tiesiog nėra, todėl situacija nekyla.

Pagrindinis „Syntho“ skirtumas: mes taikome mašininį mokymąsi. Todėl mūsų sprendimas atkuria pradinio duomenų rinkinio struktūrą ir savybes sintetiniame duomenų rinkinyje, todėl gaunamas maksimalus duomenų naudingumas. Atitinkamai, analizuodami sintetinius duomenis galėsite gauti tuos pačius rezultatus, palyginti su pirminių duomenų naudojimu.

Šis atvejo tyrimas rodo svarbiausius mūsų kokybės ataskaitos duomenis, kuriuose pateikiama įvairi statistika iš sintetinių duomenų, sugeneruotų naudojant mūsų „Syntho Engine“, palyginti su pirminiais duomenimis.

Apibendrinant galima pasakyti, kad sintetiniai duomenys yra tinkamiausias sprendimas norint įveikti tipišką neoptimalų kompromisą tarp duomenų naudingumo ir privatumo apsaugos, kurį jums siūlo visi klasikiniai anonimizavimo metodai.

klasikinė anonimizacijos naudingumo kreivė

Taigi kodėl naudoti tikrus (neskelbtinus) duomenis, kai galite naudoti sintetinius duomenis?

Apibendrinant galima pasakyti, kad duomenų naudingumo ir privatumo apsaugos požiūriu visada turėtumėte pasirinkti sintetinius duomenis, kai tai leidžia jūsų naudojimo atvejis.

 Vertė analizeiPrivatumo rizika
Sintetiniai duomenysaukštasNė vienas
Tikri (asmeniniai) duomenysaukštasaukštas
Manipuliuoti duomenys (naudojant klasikinį „anonimizavimą“)Mažas VidutinisVidutinis-aukštas
idėja

Sintetiniai „Syntho“ duomenys užpildo spragas, kuriose trūksta klasikinių anonimizavimo metodų, maksimaliai padidindami abu duomenų naudingumas ir privatumo apsauga.

Suinteresuotas?

Su jumis tyrinėkite sintetinių duomenų pridėtinę vertę