Zakaj klasična anonimizacija (in psevdonimizacija) ne povzroči anonimnih podatkov

Ta blog pokriva naslednje teme:

Kaj je klasična anonimizacija?
Kakšne so pomanjkljivosti klasične anonimizacije?
Zakaj klasične tehnike anonimizacije ponujajo neoptimalno kombinacijo med popolnostjo podatkov in zaščito zasebnosti ?.
Kako se sintetični podatki razlikujejo?
Zakaj bi še vedno uporabljali osebne podatke, če lahko uporabljate sintetične podatke?

Kaj je klasična anonimizacija?

S klasično anonimizacijo mislimo na vse metodologije, pri katerih se manipulira ali popači izvirni nabor podatkov, da se ovira sledenje posameznikom.

Tipični primeri klasične anonimizacije, ki jih vidimo v praksi, so posploševanje, zatiranje / brisanje, psevdonimizacija in premešanje vrstic in stolpcev.

S temi tehnikami z ustreznimi primeri.

Tehnika	Izvirni podatki	Upravljani podatki
Posplošitev	27 let	Med 25 in 30 leti
Zatiranje / brisanje	info@syntho.ai	xxxx@xxxxxx.xx
Psevdonimizacija	Amsterdam	hVFD6td3jdHHj78ghdgrewui6
Mešanje vrstic in stolpcev	Poravnano	Naključno

Kakšne so pomanjkljivosti klasične anonimizacije?

Upravljanje nabora podatkov s klasičnimi tehnikami anonimizacije ima dve pomanjkljivosti:

Izkrivljanje nabora podatkov povzroči zmanjšanje kakovosti podatkov (tj. Pripomoček za podatke). To uvaja klasično načelo odstranjevanja smeti.
Tveganje zasebnosti se bo zmanjšalo, vendar bo vedno prisoten. Ostane in manipulira različica prvotnega nabora podatkov z relacijami 1-1.

Prikazujemo ti dve ključni pomanjkljivosti, uporabnost podatkov in zaščito zasebnosti. To naredimo z naslednjo ilustracijo z uporabljenim zatiranjem in posploševanjem.

Opomba: slike uporabljamo za ilustracijo. Enako načelo velja za strukturirane nabore podatkov.

Levo: majhna uporaba klasične anonimizacije je rezultat reprezentativne ilustracije. Posameznika pa je mogoče zlahka prepoznati in tveganje zasebnosti je veliko.

Desno: huda uporaba klasične anonimizacije povzroči močno zaščito zasebnosti. Vendar ilustracija postane neuporabna.

Klasične tehnike anonimizacije ponujajo neoptimalno kombinacijo med uporabnostjo podatkov in zaščito zasebnosti.

To uvaja kompromis med podatkovnim pripomočkom in zaščito zasebnosti, kjer klasične tehnike anonimizacije vedno ponujajo neoptimalno kombinacijo obojega.

Ali je odstranitev vseh neposrednih identifikatorjev (na primer imen) iz nabora podatkov rešitev?

Ne. To je velika zmota in ne povzroči anonimnih podatkov. Ali to še vedno uporabljate kot način za anonimizacijo nabora podatkov? Potem je ta blog za vas obvezno branje.

Kako se sintetični podatki razlikujejo?

Syntho razvija programsko opremo za ustvarjanje popolnoma novega nabora svežih podatkovnih zapisov. Podatkov za identifikacijo resničnih posameznikov preprosto ni v sintetičnem naboru podatkov. Ker sintetični podatki vsebujejo umetne zapise podatkov, ki jih ustvari programska oprema, osebni podatki preprosto niso prisotni, kar povzroči situacijo brez tveganja za zasebnost.

Ključna razlika pri Synthu: uporabljamo strojno učenje. Posledično naša rešitev reproducira strukturo in lastnosti prvotnega nabora podatkov v sintetičnem naboru podatkov, kar ima za posledico največjo uporabnost podatkov. V skladu s tem boste lahko pri analizi sintetičnih podatkov dobili enake rezultate kot v primerjavi z uporabo izvirnih podatkov.

Ta študija primera prikazuje vrhunce iz našega poročila o kakovosti, ki vsebuje različne statistične podatke iz sintetičnih podatkov, pridobljenih s pomočjo našega Syntho Engine v primerjavi s prvotnimi podatki.

Skratka, sintetični podatki so najprimernejša rešitev za premagovanje tipičnih podoptimalnih kompromisov med uporabnostjo podatkov in zaščito zasebnosti, ki vam jih ponujajo vse klasične tehnike anonimizacije.

Zakaj bi torej uporabljali resnične (občutljive) podatke, ko lahko uporabite sintetične podatke?

Skratka, z vidika uporabnosti podatkov in varstva zasebnosti bi se morali vedno odločiti za sintetične podatke, kadar to dovoljuje vaš primer uporabe.

	Vrednost za analizo	Tveganje zasebnosti
Sintetični podatki	visoka	Noben
Resnični (osebni) podatki	visoka	visoka
Upravljani podatki (s klasično "anonimizacijo")	Nizko-srednje	Srednje visoka

Sintetični podatki podjetja Syntho zapolnijo vrzeli, pri katerih klasične tehnike anonimizacije ne uspejo z maksimiziranjem obojega podatkovni pripomoček in varovanje zasebnosti.

Zainteresirani?

Raziščite dodano vrednost sintetičnih podatkov z nami

KNJIGA DEMO

Kaj so sintetični podatki?

Poročilo o zagotavljanju kakovosti

Zunanja evalvacija SAS

Sintetični podatki časovnih vrst

Skener PII

Sintetični lažni podatki

Dosledno preslikavo

Deidentifikacija in sintetizacija

Sintetični podatki na podlagi pravil

Podmnožica

Uvajanje in integracija

Priključki

Razširjene funkcije

Podprti podatki

Uporabniška dokumentacija

Načrtujte predstavitev

Cenitev

Sintetični podatki kot preskusni podatki

Sintetični podatki za analitiko

Sintetični podatki za izmenjavo podatkov

Sintetični podatki za predstavitve izdelkov

Zdravstveno varstvo

finance

Javne organizacije

Uporabniška dokumentacija

Bele knjige in vodniki

Blog

Webinars

Primeri dobre prakse