Zakaj klasična anonimizacija (in psevdonimizacija) ne povzroči anonimnih podatkov

Kaj je klasična anonimizacija?

S klasično anonimizacijo mislimo na vse metodologije, pri katerih se manipulira ali popači izvirni nabor podatkov, da se ovira sledenje posameznikom.

Tipični primeri klasične anonimizacije, ki jih vidimo v praksi, so posploševanje, zatiranje / brisanje, psevdonimizacija in premešanje vrstic in stolpcev.

S temi tehnikami z ustreznimi primeri.

Tehnika Izvirni podatki Upravljani podatki
Posplošitev 27 let Med 25 in 30 leti
Zatiranje / brisanje info@syntho.ai xxxx@xxxxxx.xx
Psevdonimizacija Amsterdam hVFD6td3jdHHj78ghdgrewui6
Mešanje vrstic in stolpcev Poravnano Naključno

Kakšne so pomanjkljivosti klasične anonimizacije?

Upravljanje nabora podatkov s klasičnimi tehnikami anonimizacije ima dve pomanjkljivosti:

  1. Izkrivljanje nabora podatkov povzroči zmanjšanje kakovosti podatkov (tj. Pripomoček za podatke). To uvaja klasično načelo odstranjevanja smeti.
  2. Tveganje zasebnosti se bo zmanjšalo, vendar bo vedno prisoten. Ostane in manipulira različica prvotnega nabora podatkov z relacijami 1-1.

Prikazujemo ti dve ključni pomanjkljivosti, uporabnost podatkov in zaščito zasebnosti. To naredimo z naslednjo ilustracijo z uporabljenim zatiranjem in posploševanjem.

Opomba: slike uporabljamo za ilustracijo. Enako načelo velja za strukturirane nabore podatkov.

Klasična anonimizacija ne uspe
  • Levo: majhna uporaba klasične anonimizacije je rezultat reprezentativne ilustracije. Posameznika pa je mogoče zlahka prepoznati in tveganje zasebnosti je veliko.

 

  • Desno: huda uporaba klasične anonimizacije povzroči močno zaščito zasebnosti. Vendar ilustracija postane neuporabna.

Klasične tehnike anonimizacije ponujajo neoptimalno kombinacijo med uporabnostjo podatkov in zaščito zasebnosti.

To uvaja kompromis med podatkovnim pripomočkom in zaščito zasebnosti, kjer klasične tehnike anonimizacije vedno ponujajo neoptimalno kombinacijo obojega. 

krivulja uporabnosti klasične anonimizacije

Ali je odstranitev vseh neposrednih identifikatorjev (na primer imen) iz nabora podatkov rešitev?

Ne. To je velika zmota in ne povzroči anonimnih podatkov. Ali to še vedno uporabljate kot način za anonimizacijo nabora podatkov? Potem je ta blog za vas obvezno branje.

Kako se sintetični podatki razlikujejo?

Syntho razvija programsko opremo za ustvarjanje popolnoma novega nabora svežih podatkovnih zapisov. Podatkov za identifikacijo resničnih posameznikov preprosto ni v sintetičnem naboru podatkov. Ker sintetični podatki vsebujejo umetne zapise podatkov, ki jih ustvari programska oprema, osebni podatki preprosto niso prisotni, kar povzroči situacijo brez tveganja za zasebnost.

Ključna razlika pri Synthu: uporabljamo strojno učenje. Posledično naša rešitev reproducira strukturo in lastnosti prvotnega nabora podatkov v sintetičnem naboru podatkov, kar ima za posledico največjo uporabnost podatkov. V skladu s tem boste lahko pri analizi sintetičnih podatkov dobili enake rezultate kot v primerjavi z uporabo izvirnih podatkov.

Ta študija primera prikazuje vrhunce iz našega poročila o kakovosti, ki vsebuje različne statistične podatke iz sintetičnih podatkov, pridobljenih s pomočjo našega Syntho Engine v primerjavi s prvotnimi podatki.

Skratka, sintetični podatki so najprimernejša rešitev za premagovanje tipičnih podoptimalnih kompromisov med uporabnostjo podatkov in zaščito zasebnosti, ki vam jih ponujajo vse klasične tehnike anonimizacije.

krivulja uporabnosti klasične anonimizacije

Zakaj bi torej uporabljali resnične (občutljive) podatke, ko lahko uporabite sintetične podatke?

Skratka, z vidika uporabnosti podatkov in varstva zasebnosti bi se morali vedno odločiti za sintetične podatke, kadar to dovoljuje vaš primer uporabe.

 Vrednost za analizoTveganje zasebnosti
Sintetični podatkivisokaNoben
Resnični (osebni) podatkivisokavisoka
Upravljani podatki (s klasično "anonimizacijo")Nizko-srednjeSrednje visoka
Ideja

Sintetični podatki podjetja Syntho zapolnijo vrzeli, pri katerih klasične tehnike anonimizacije ne uspejo z maksimiziranjem obojega podatkovni pripomoček in varovanje zasebnosti.

Zainteresirani?

Raziščite dodano vrednost sintetičnih podatkov z nami