A klasszikus anonimizálás (és álnevesítés) miért nem eredményez anonim adatokat

Mi a klasszikus anonimizálás?

A klasszikus anonimizálásnál minden olyan módszert alkalmazunk, ahol az eredeti adatkészletet manipulálja vagy torzítja, hogy megakadályozza az egyének visszavezetését.

A klasszikus anonimizáció tipikus példái, amelyeket a gyakorlatban látunk, az általánosítás, az elnyomás / törlés, az álnevesítés és a sorok és oszlopok keverése.

Ezennel ezek a technikák a megfelelő példákkal.

Technika Eredeti adatok Manipulált adatok
Általánosítás 27 éves 25 és 30 év között
Elnyomás / törlés info@syntho.ai xxxx@xxxxxx.xx
Álnevesítés Amszterdam hVFD6td3jdHHj78ghdgrewui6
Sorok és oszlopok keverése Igazítva Keverve

Milyen hátrányai vannak a klasszikus anonimizálásnak?

Az adathalmaz klasszikus anonimizálási technikákkal történő manipulálása két fő hátrányt eredményez:

  1. Az adathalmaz torzítása az adatminőség romlását eredményezi (azaz az adathasználatot). Ez bevezeti a klasszikus szemetet-be-szemetet-elvet.
  2. Adatvédelmi kockázat csökkenni fog, de mindig jelen lesz. Marad és az eredeti adathalmaz 1-1 relációval módosított változata.

Bemutatjuk ezt a két kulcsfontosságú hátrányt, az adathasználatot és a magánélet védelmét. Ezt a következő illusztrációval tesszük, alkalmazott elnyomással és általánosítással.

Megjegyzés: a képeket illusztrációs célokra használjuk. Ugyanez az elv érvényes a strukturált adatkészletekre is.

A klasszikus névtelenítés sikertelen
  • Balra: A klasszikus anonimizálás kevés alkalmazása reprezentatív illusztrációt eredményez. Az egyén azonban könnyen azonosítható, és a magánélet kockázata jelentős.

 

  • Jobbra: a klasszikus anonimizálás szigorú alkalmazása erős adatvédelemhez vezet. Az illusztráció azonban használhatatlanná válik.

A klasszikus anonimizálási technikák szuboptimális kombinációt kínálnak az adat-hasznosság és a magánélet védelme között.

Ez bevezeti a kompromisszumot az adatszolgáltatás és a magánélet védelme között, ahol a klasszikus anonimizálási technikák mindig mindkettő optimális kombinációját kínálják. 

klasszikus anonimizálási hasznossági görbe

Megoldás az összes közvetlen azonosító (például a nevek) eltávolítása az adatkészletből?

Nem. Ez egy nagy tévhit, és nem eredményez névtelen adatokat. Még mindig alkalmazza ezt az adathalmaz névtelenítésére? Akkor ezt a blogot kötelező olvasnod kell neked.

Miben különbözik a szintetikus adatok?

A Syntho szoftvert fejleszt, hogy teljesen új adatállományt hozzon létre friss adatrekordokból. A valós személyek azonosítására szolgáló információ egyszerűen nincs jelen egy szintetikus adathalmazban. Mivel a szintetikus adatok szoftverek által előállított mesterséges adatrekordokat tartalmaznak, a személyes adatok egyszerűen nincsenek jelen, ami magánéleti kockázatokat nem okozó helyzetet eredményez.

A legfontosabb különbség a Syntho -nál: gépi tanulást alkalmazunk. Következésképpen megoldásunk reprodukálja az eredeti adatkészlet szerkezetét és tulajdonságait a szintetikus adatkészletben, ami maximális adathasznosítást eredményez. Ennek megfelelően ugyanazokat az eredményeket érheti el a szintetikus adatok elemzésekor, mint az eredeti adatok felhasználásával.

Ez az esettanulmány bemutatja a Syntho Engine által generált szintetikus adatok különböző statisztikáit tartalmazó minőségi jelentésünk kiemelkedő értékeit az eredeti adatokhoz képest.

Összefoglalva, a szintetikus adatok az előnyben részesített megoldás az adat-hasznosság és a magánélet védelme közötti tipikus, nem optimális kompromisszum leküzdésére, amelyet minden klasszikus anonimizálási technika kínál.

klasszikus anonimizálási hasznossági görbe

Tehát miért használjon valódi (érzékeny) adatokat, ha szintetikus adatokat is használhat?

Összefoglalva, az adatszolgáltatás és a magánélet védelme szempontjából mindig a szintetikus adatok mellett kell dönteni, ha a használati eset ezt lehetővé teszi.

 Érték az elemzéshezAdatvédelmi kockázat
Szintetikus adatokMagasEgyik sem
Valós (személyes) adatokMagasMagas
Manipulált adatok (klasszikus „névtelenítés”)Alacsony-közepesKözepesen magas
ötlet

A Syntho szintetikus adatai mindkettő maximalizálásával pótolják azokat a hiányosságokat, ahol a klasszikus anonimizálási technikák elmaradnak adat-segédprogram és a magánszféra védelem.

Szeretne többet tudni?

Fedezze fel velünk a szintetikus adatok hozzáadott értékét