S klasično anonimizacijo mislimo na vse metodologije, pri katerih se manipulira ali popači izvirni nabor podatkov, da se ovira sledenje posameznikom.
Tipični primeri klasične anonimizacije, ki jih vidimo v praksi, so posploševanje, zatiranje / brisanje, psevdonimizacija in premešanje vrstic in stolpcev.
S temi tehnikami z ustreznimi primeri.
Tehnika | Izvirni podatki | Upravljani podatki |
Posplošitev | 27 let | Med 25 in 30 leti |
Zatiranje / brisanje | info@syntho.ai | xxxx@xxxxxx.xx |
Psevdonimizacija | Amsterdam | hVFD6td3jdHHj78ghdgrewui6 |
Mešanje vrstic in stolpcev | Poravnano | Naključno |
Upravljanje nabora podatkov s klasičnimi tehnikami anonimizacije ima dve pomanjkljivosti:
Prikazujemo ti dve ključni pomanjkljivosti, uporabnost podatkov in zaščito zasebnosti. To naredimo z naslednjo ilustracijo z uporabljenim zatiranjem in posploševanjem.
Opomba: slike uporabljamo za ilustracijo. Enako načelo velja za strukturirane nabore podatkov.
To uvaja kompromis med podatkovnim pripomočkom in zaščito zasebnosti, kjer klasične tehnike anonimizacije vedno ponujajo neoptimalno kombinacijo obojega.
Ne. To je velika zmota in ne povzroči anonimnih podatkov. Ali to še vedno uporabljate kot način za anonimizacijo nabora podatkov? Potem je ta blog za vas obvezno branje.
Syntho razvija programsko opremo za ustvarjanje popolnoma novega nabora svežih podatkovnih zapisov. Podatkov za identifikacijo resničnih posameznikov preprosto ni v sintetičnem naboru podatkov. Ker sintetični podatki vsebujejo umetne zapise podatkov, ki jih ustvari programska oprema, osebni podatki preprosto niso prisotni, kar povzroči situacijo brez tveganja za zasebnost.
Ključna razlika pri Synthu: uporabljamo strojno učenje. Posledično naša rešitev reproducira strukturo in lastnosti prvotnega nabora podatkov v sintetičnem naboru podatkov, kar ima za posledico največjo uporabnost podatkov. V skladu s tem boste lahko pri analizi sintetičnih podatkov dobili enake rezultate kot v primerjavi z uporabo izvirnih podatkov.
Ta študija primera prikazuje vrhunce iz našega poročila o kakovosti, ki vsebuje različne statistične podatke iz sintetičnih podatkov, pridobljenih s pomočjo našega Syntho Engine v primerjavi s prvotnimi podatki.
Skratka, sintetični podatki so najprimernejša rešitev za premagovanje tipičnih podoptimalnih kompromisov med uporabnostjo podatkov in zaščito zasebnosti, ki vam jih ponujajo vse klasične tehnike anonimizacije.
Skratka, z vidika uporabnosti podatkov in varstva zasebnosti bi se morali vedno odločiti za sintetične podatke, kadar to dovoljuje vaš primer uporabe.
Vrednost za analizo | Tveganje zasebnosti | |
Sintetični podatki | visoka | Noben |
Resnični (osebni) podatki | visoka | visoka |
Upravljani podatki (s klasično "anonimizacijo") | Nizko-srednje | Srednje visoka |
Sintetični podatki podjetja Syntho zapolnijo vrzeli, pri katerih klasične tehnike anonimizacije ne uspejo z maksimiziranjem obojega podatkovni pripomoček in varovanje zasebnosti.