Pse anonimizimi klasik (dhe pseudonimizimi) nuk rezulton në të dhëna anonime

Çfarë është anonimizimi klasik?

Me anonimizimin klasik, ne nënkuptojmë të gjitha metodologjitë ku dikush manipulon ose shtrembëron një bazë të dhënash origjinale për të penguar gjurmimin e individëve.

Shembuj tipikë të anonimizimit klasik që shohim në praktikë janë përgjithësimi, shtypja / fshirja, pseudonimi dhe përzierja e rreshtave dhe kolonave.

Në këtë mënyrë ato teknika me shembujt përkatës.

Teknikë Të dhënat origjinale Të dhënat e manipuluara
Përgjithësim Vjet 27 vjetër Midis 25 dhe 30 vjeç
Shtypja / Fshirja info@syntho.ai xxxx@xxxxxx.xx
Pseudonimizimi Amsterdam hVFD6td3jdHHj78ghdgrewui6
Përzierja e rreshtit dhe kolonës Të rreshtuar I përzier

Cilat janë disavantazhet e anonimizimit klasik?

Manipulimi i një grupi të dhënash me teknika klasike të anonimizimit rezulton në 2 disavantazhe kryesore:

  1. Shtrembërimi i një grupi të dhënash rezulton në rënie të cilësisë së të dhënave (dmth. Shërbimeve të të dhënave). Kjo prezanton parimin klasik të hedhjes së mbeturinave në mbeturina.
  2. Rreziku i privatësisë do të zvogëlohet, por do të jetë gjithmonë i pranishëmMe Mbetet dhe manipulohet me versionin e të dhënave origjinale me 1-1 relacione.

Ne demonstrojmë ato 2 disavantazhe kryesore, shërbimin e të dhënave dhe mbrojtjen e privatësisë. Ne e bëjmë atë me ilustrimin e mëposhtëm me shtypjen dhe përgjithësimin e aplikuar.

Shënim: ne përdorim imazhe për qëllime ilustruese. I njëjti parim vlen edhe për grupet e strukturuara të të dhënave.

Anonimizimi klasik dështon
  • Majtas: aplikimi i pakët i anonimizimit klasik rezulton në një ilustrim përfaqësues. Sidoqoftë, individi lehtë mund të identifikohet dhe rreziku i privatësisë është i rëndësishëm.

 

  • Djathtas: zbatimi i ashpër i anonimizimit klasik rezulton në mbrojtje të fortë të privatësisë. Sidoqoftë, ilustrimi bëhet i padobishëm.

Teknikat klasike të anonimizimit ofrojnë një kombinim nënoptimal midis shërbimeve të të dhënave dhe mbrojtjes së privatësisë.

Kjo prezanton kompromisin midis përdorimit të të dhënave dhe mbrojtjes së privatësisë, ku teknikat klasike të anonimizimit ofrojnë gjithmonë një kombinim nënoptimal të të dyjave. 

kurba klasike e përdorimit të anonimizimit

A është heqja e të gjithë identifikuesve të drejtpërdrejtë (të tillë si emrat) nga grupi i të dhënave?

Jo. Ky është një keqkuptim i madh dhe nuk rezulton në të dhëna anonime. A e zbatoni akoma këtë si mënyrë për të anonimizuar grupin tuaj të të dhënave? Atëherë ky blog duhet lexuar për ju.

Si ndryshojnë të dhënat sintetike?

Syntho zhvillon softuer për të gjeneruar një grup të dhënash krejtësisht të re të regjistrimeve të reja të të dhënave. Informacioni për të identifikuar individët e vërtetë thjesht nuk është i pranishëm në një grup të dhënash sintetik. Meqenëse të dhënat sintetike përmbajnë regjistrime të të dhënave artificiale të krijuara nga softueri, të dhënat personale thjesht nuk janë të pranishme duke rezultuar në një situatë pa rreziqe për privatësinë.

Dallimi kryesor në Syntho: ne aplikojmë mësimin e makinerisë. Si pasojë, zgjidhja jonë riprodhon strukturën dhe vetitë e bazës së të dhënave origjinale në bazën e të dhënave sintetike duke rezultuar në maksimum të shërbimit të të dhënave. Prandaj, do të jeni në gjendje të merrni të njëjtat rezultate kur analizoni të dhënat sintetike në krahasim me përdorimin e të dhënave origjinale.

Ky studim rasti demonstron pikat kryesore nga raporti ynë i cilësisë që përmban statistika të ndryshme nga të dhënat sintetike të krijuara përmes Motorit tonë Syntho në krahasim me të dhënat origjinale.

Si përfundim, të dhënat sintetike janë zgjidhja e preferuar për të kapërcyer kompromisin tipik nën-optimale midis shërbimit të të dhënave dhe mbrojtjes së privatësisë, që ju ofrojnë të gjitha teknikat klasike të anonimizimit.

kurba klasike e përdorimit të anonimizimit

Pra, pse të përdorni të dhëna reale (të ndjeshme) kur mund të përdorni të dhëna sintetike?

Si përfundim, nga pikëpamja e shërbimeve të të dhënave dhe mbrojtjes së privatësisë, gjithmonë duhet të zgjidhni të dhëna sintetike kur rasti juaj i përdorimit e lejon këtë.

 Vlera për analizëRreziku i privatësisë
Të dhëna sintetikei lartëAsnje
Të dhëna reale (personale)i lartëi lartë
Të dhënat e manipuluara (përmes 'anonimizimit' klasik)Low-MediumMedium-High
ide

Të dhënat sintetike nga Syntho mbushin boshllëqet ku teknikat klasike të anonimizimit nuk arrijnë duke maksimizuar të dyja të dhëna-dobi   privatësia-mbrojtja.

Interesuar?

Eksploroni vlerën e shtuar të të dhënave sintetike me ne