Wêrom klassike anonymisaasje (en pseudonymisaasje) net resulteart yn anonime gegevens

Wat is klassike anonymisaasje?

Mei klassike anonimisaasje ymplisearje wy alle metodyken wêr't men in orizjinele dataset manipuleart of ferfoarme om it weromlûken fan persoanen te hinderjen.

Typyske foarbylden fan klassike anonymisaasje dy't wy yn 'e praktyk sjogge, binne generalisaasje, ûnderdrukking / wiskjen, pseudonymisaasje en shuffling fan rigen en kolommen.

Hjirby dy techniken mei oerienkommende foarbylden.

Technyk Oarspronklike gegevens Manipulearre gegevens
Generalisearring 27 jier âld Tusken 25 en 30 jier âld
Underdrukking / wiskjen info@syntho.ai xxxx@xxxxxx.xx
Pseudonymisaasje Amsterdam hVFD6td3jdHHj78ghdgrewui6
Rige en kolom skommelje Alined Skommele

Wat binne de neidielen fan klassike anonymisaasje?

It manipulearjen fan in dataset mei klassike anonymisaasjetechniken resultearret yn 2 kaaien neidielen:

  1. Ferwiderje fan in dataset resultearret yn fermindere datakwaliteit (ie data -hulpprogramma). Dit yntrodusearret it klassike garbage-in garbage-out prinsipe.
  2. Privacyrisiko sil wurde fermindere, mar sil altyd oanwêzich wêze. It bliuwt en manipulearret ferzje fan 'e orizjinele dataset mei 1-1 relaasjes.

Wy demonstrearje dy 2 wichtige neidielen, gegevenshulpprogramma en privacybeskerming. Wy dogge dat mei de folgjende yllustraasje mei tapaste ûnderdrukking en generalisaasje.

Opmerking: wy brûke ôfbyldings foar yllustrative doelen. Itselde prinsipe jildt foar struktureare datasets.

Klassike anonymisaasje mislearret
  • Links: lytse tapassing fan klassike anonymisaasje resulteart yn in represintative yllustraasje. It yndividu kin lykwols maklik wurde identifisearre en privacy risiko is signifikant.

 

  • Rjochts: swiere tapassing fan klassike anonymisaasje resulteart yn sterke privacybeskerming. De yllustraasje wurdt lykwols nutteloos.

Klassike anonymisaasjetechniken biede in suboptimale kombinaasje tusken gegevenshulpprogramma en privacybeskerming.

Dit yntrodusearret de trade-off tusken gegevenshulpprogramma en privacybeskerming, wêr't klassike anonymisaasjetechniken altyd in suboptimale kombinaasje fan beide biede. 

klassike kromme foar anonymisaasje

Is it ferwiderjen fan alle direkte identifisators (lykas nammen) út de dataset in oplossing?

Nee. Dit is in grutte misferstân en resultearret net yn anonime gegevens. Tapasse jo dit noch altyd as manier om jo dataset anonymisearje? Dan is dit blog in must -read foar jo.

Hoe is syntetyske gegevens oars?

Syntho ûntwikkelt software om in folslein nije dataset fan farske gegevensrekords te generearjen. Ynformaasje om echte persoanen te identifisearjen is gewoan net oanwêzich yn in syntetyske dataset. Om't syntetyske gegevens artysten gegevensrecords befetsje genereare troch software, binne persoanlike gegevens gewoan net oanwêzich, wat resulteart yn in situaasje sûnder privacy risiko's.

It wichtichste ferskil by Syntho: wy tapasse machine learning. Dêrom reprodusearret ús oplossing de struktuer en eigenskippen fan 'e orizjinele dataset yn' e syntetyske dataset dy't resulteart yn maksimalisearre data-nut. Dêrom sille jo deselde resultaten kinne krije by it analysearjen fan de syntetyske gegevens yn ferliking mei it brûken fan 'e orizjinele gegevens.

Dizze saakstúdzje toant hichtepunten út ús kwaliteitsrapport mei ferskate statistiken mei syntetyske gegevens genereare fia ús Syntho Engine yn ferliking mei de orizjinele gegevens.

Ta beslút, syntetyske gegevens is de foarkommende oplossing om de typyske sub-optimale ôfwikseling te oerwinnen tusken data-hulpprogramma en privacy-beskerming, dy't alle klassike anonymisaasjetechniken jo oanbiede.

klassike kromme foar anonymisaasje

Dat, wêrom echte (gefoelige) gegevens brûke as jo syntetyske gegevens kinne brûke?

Ta beslút, út in perspektyf op gegevenshulpprogramma en privacybeskerming, moat men altyd kieze foar syntetyske gegevens as jo gebrûkssaak dat tastiet.

 Wearde foar analysePrivacyrisiko
Syntetyske gegevensheechGjin
Echte (persoanlike) gegevensheechheech
Manipulearre gegevens (fia klassike 'anonymisaasje')Leech-MediumMedium-Heech
idee

Syntetyske gegevens fan Syntho folje de gatten wêr't klassike anonymisaasjetechniken te koart falle troch beide te maksimalisearjen data-hulpprogramma en privacy-beskerming.

Ynteressearre?

Ferken de mearwearde fan Syntetyske gegevens mei ús