Waarom klassieke anonimisering (en pseudonimisering) niet leidt tot anonieme data

Wat is klassieke anonimisering?

Met klassieke anonimisering impliceren we alle methodologieën waarbij men een originele dataset manipuleert of vervormt om het traceren van individuen te belemmeren.

Typische voorbeelden van klassieke anonimisering die we in de praktijk zien zijn generalisatie, onderdrukking/wissen, pseudonimisering en rij- en kolomshuffling.

Hierbij die technieken met bijbehorende voorbeelden.

Techniek Originele data Gemanipuleerde data
Generalisatie 27 jaar oud Tussen 25 en 30 jaar oud
Onderdrukking / Afvegen info@syntho.ai xxxx@xxxxxx.xx
Pseudonimisering Amsterdam hVFD6td3jdHHj78ghdgrewui6
Wisselen van rijen en kolommen Aligned Geschud

Wat zijn de nadelen van klassieke anonimisering?

Het manipuleren van een dataset met klassieke anonimiseringstechnieken resulteert in 2 belangrijke nadelen:

  1. Het vervormen van een dataset resulteert in verminderde datakwaliteit (dwz data utility). Dit introduceert het klassieke garbage-in-garbage-out-principe.
  2. Privacyrisico wordt verminderd, maar zal altijd aanwezig zijn. Het blijft een gemanipuleerde versie van de originele dataset met 1-1 relaties.

We demonstreren die 2 belangrijkste nadelen, datahulpprogramma en privacybescherming. Dat doen we met de volgende illustratie met toegepaste onderdrukking en generalisatie.

Let op: we gebruiken afbeeldingen voor illustratieve doeleinden. Hetzelfde principe geldt voor gestructureerde datasets.

Klassieke anonimisering mislukt
  • Links: weinig toepassing van klassieke anonimisering resulteert in een representatieve afbeelding. Het individu kan echter gemakkelijk worden geïdentificeerd en het privacyrisico is aanzienlijk.

 

  • Rechts: strenge toepassing van klassieke anonimisering resulteert in sterke privacybescherming. De illustratie wordt echter onbruikbaar.

Klassieke anonimiseringstechnieken bieden een suboptimale combinatie tussen data-utiliteit en privacybescherming.

Dit introduceert de afweging tussen datahulpprogramma en privacybescherming, waarbij klassieke anonimiseringstechnieken altijd een suboptimale combinatie van beide bieden. 

klassieke anonimiseringscurve

Is het verwijderen van alle directe identifiers (zoals namen) uit de dataset een oplossing?

Nee. Dit is een grote misvatting en leidt niet tot anonieme data. Pas je dit nog steeds toe om je dataset te anonimiseren? Dan is deze blog een must read voor jou.

Hoe is synthetische data anders?

Syntho ontwikkelt software om een ​​geheel nieuwe dataset van verse datarecords te genereren. Informatie om echte individuen te identificeren is simpelweg niet aanwezig in een synthetische dataset. Aangezien synthetische data kunstmatige databestanden bevatten die door software zijn gegenereerd, zijn persoonlijke data eenvoudigweg niet aanwezig, wat resulteert in een situatie zonder privacyrisico's.

Het belangrijkste verschil bij Syntho: we passen machine learning toe. Bijgevolg reproduceert onze oplossing de structuur en eigenschappen van de originele dataset in de synthetische dataset, wat resulteert in een maximale data-utiliteit. Dienovereenkomstig kunt u dezelfde resultaten verkrijgen bij het analyseren van de synthetische data in vergelijking met het gebruik van de originele data.

Deze casestudy toont hoogtepunten uit ons kwaliteitsrapport met verschillende statistieken van synthetische data die zijn gegenereerd via onze Syntho Engine in vergelijking met de originele data.

Kortom, synthetische data is de voorkeursoplossing om de typische suboptimale afweging tussen data-utiliteit en privacybescherming te overwinnen, die alle klassieke anonimiseringstechnieken u bieden.

klassieke anonimiseringscurve

Dus waarom zou u echte (gevoelige) data gebruiken als u synthetische data kunt gebruiken?

Kortom, vanuit het perspectief van data-utility en privacybescherming moet je altijd kiezen voor synthetische data als je use-case dit toelaat.

 Waarde voor analysePrivacyrisico
Synthetische dataHogeGeen
Echte (persoons)dataHogeHoge
Gemanipuleerde data (via klassieke 'anonimisering')Low-MediumGemiddeld hoog
idee

Synthetische data van Syntho vullen de gaten waar klassieke anonimiseringstechnieken tekortschieten door beide te maximaliseren data-utiliteit en privacy bescherming.

Geïnteresseerd?

Ontdek samen met ons de toegevoegde waarde van Synthetic Data