Met klassieke anonimisering impliceren we alle methodologieën waarbij men een originele dataset manipuleert of vervormt om het traceren van individuen te belemmeren.
Typische voorbeelden van klassieke anonimisering die we in de praktijk zien zijn generalisatie, onderdrukking/wissen, pseudonimisering en rij- en kolomshuffling.
Hierbij die technieken met bijbehorende voorbeelden.
Techniek | Originele data | Gemanipuleerde data |
Generalisatie | 27 jaar oud | Tussen 25 en 30 jaar oud |
Onderdrukking / Afvegen | info@syntho.ai | xxxx@xxxxxx.xx |
Pseudonimisering | Amsterdam | hVFD6td3jdHHj78ghdgrewui6 |
Wisselen van rijen en kolommen | Aligned | Geschud |
Het manipuleren van een dataset met klassieke anonimiseringstechnieken resulteert in 2 belangrijke nadelen:
We demonstreren die 2 belangrijkste nadelen, datahulpprogramma en privacybescherming. Dat doen we met de volgende illustratie met toegepaste onderdrukking en generalisatie.
Let op: we gebruiken afbeeldingen voor illustratieve doeleinden. Hetzelfde principe geldt voor gestructureerde datasets.
Dit introduceert de afweging tussen datahulpprogramma en privacybescherming, waarbij klassieke anonimiseringstechnieken altijd een suboptimale combinatie van beide bieden.
Nee. Dit is een grote misvatting en leidt niet tot anonieme data. Pas je dit nog steeds toe om je dataset te anonimiseren? Dan is deze blog een must read voor jou.
Syntho ontwikkelt software om een geheel nieuwe dataset van verse datarecords te genereren. Informatie om echte individuen te identificeren is simpelweg niet aanwezig in een synthetische dataset. Aangezien synthetische data kunstmatige databestanden bevatten die door software zijn gegenereerd, zijn persoonlijke data eenvoudigweg niet aanwezig, wat resulteert in een situatie zonder privacyrisico's.
Het belangrijkste verschil bij Syntho: we passen machine learning toe. Bijgevolg reproduceert onze oplossing de structuur en eigenschappen van de originele dataset in de synthetische dataset, wat resulteert in een maximale data-utiliteit. Dienovereenkomstig kunt u dezelfde resultaten verkrijgen bij het analyseren van de synthetische data in vergelijking met het gebruik van de originele data.
Deze casestudy toont hoogtepunten uit ons kwaliteitsrapport met verschillende statistieken van synthetische data die zijn gegenereerd via onze Syntho Engine in vergelijking met de originele data.
Kortom, synthetische data is de voorkeursoplossing om de typische suboptimale afweging tussen data-utiliteit en privacybescherming te overwinnen, die alle klassieke anonimiseringstechnieken u bieden.
Kortom, vanuit het perspectief van data-utility en privacybescherming moet je altijd kiezen voor synthetische data als je use-case dit toelaat.
Waarde voor analyse | Privacyrisico | |
Synthetische data | Hoge | Geen |
Echte (persoons)data | Hoge | Hoge |
Gemanipuleerde data (via klassieke 'anonimisering') | Low-Medium | Gemiddeld hoog |
Synthetische data van Syntho vullen de gaten waar klassieke anonimiseringstechnieken tekortschieten door beide te maximaliseren data-utiliteit en privacy bescherming.