Varför klassisk anonymisering (och pseudonymisering) inte leder till anonym data

Vad är klassisk anonymisering?

Med klassisk anonymisering innebär vi alla metoder där man manipulerar eller snedvrider en originaldataset för att hindra spårning av individer.

Typiska exempel på klassisk anonymisering som vi ser i praktiken är generalisering, undertryckning / torkning, pseudonymisering och rad- och kolumnblandning.

Härmed dessa tekniker med motsvarande exempel.

Teknik Originaldata Manipulerade data
Generalisering 27 år gammal Mellan 25 och 30 år
Undertryckning / torkning info@syntho.ai xxxx@xxxxxx.xx
Pseudonymisering amsterdam hVFD6td3jdHHj78ghdgrewui6
Rad och kolumn blandning Justerat Blandat

Vilka är nackdelarna med klassisk anonymisering?

Att manipulera en datauppsättning med klassiska anonymiseringstekniker resulterar i två viktiga nackdelar:

  1. Förvrängning av en datamängd resulterar i minskad datakvalitet (dvs. dataverktyg). Detta introducerar den klassiska skräp-in skräp-ut-principen.
  2. Sekretessrisk kommer att minska, men kommer alltid att vara närvarande. Den stannar och manipulerar versionen av den ursprungliga datamängden med 1-1-relationer.

Vi visar dessa två viktiga nackdelar, dataverktyg och integritetsskydd. Vi gör det med följande illustration med tillämpad undertryckning och generalisering.

Obs: vi använder bilder för illustrativa ändamål. Samma princip gäller för strukturerade datamängder.

Klassisk anonymisering misslyckas
  • Vänster: liten tillämpning av klassisk anonymisering resulterar i en representativ illustration. Individen kan dock lätt identifieras och integritetsrisken är betydande.

 

  • Höger: allvarlig tillämpning av klassisk anonymisering resulterar i starkt integritetsskydd. Men illustrationen blir värdelös.

Klassiska anonymiseringstekniker erbjuder en suboptimal kombination mellan dataverktyg och integritetsskydd.

Detta introducerar avvägningen mellan dataverktyg och integritetsskydd, där klassiska anonymiseringstekniker alltid erbjuder en suboptimal kombination av båda. 

klassisk anonymiseringsverktygskurva

Är det en lösning att ta bort alla direktidentifierare (t.ex. namn) från datamängden?

Nej. Detta är en stor missuppfattning och leder inte till anonym data. Tillämpar du fortfarande detta som ett sätt att anonymisera din datamängd? Då är den här bloggen ett måste för dig.

Hur skiljer sig syntetiska data åt?

Syntho utvecklar programvara för att generera en helt ny dataset med färska dataposter. Information för att identifiera verkliga individer finns helt enkelt inte i en syntetisk datamängd. Eftersom syntetiska data innehåller artificiella dataregister som genereras av programvara finns personuppgifter helt enkelt inte, vilket resulterar i en situation utan några integritetsrisker.

Den viktigaste skillnaden på Syntho: vi tillämpar maskininlärning. Följaktligen reproducerar vår lösning strukturen och egenskaperna hos den ursprungliga datamängden i den syntetiska datamängden vilket resulterar i maximerad dataverktyg. Följaktligen kommer du att kunna få samma resultat när du analyserar de syntetiska uppgifterna jämfört med att använda originaldata.

Denna fallstudie visar höjdpunkter från vår kvalitetsrapport som innehåller olika statistik från syntetiska data som genereras genom vår Syntho Engine i jämförelse med originaldata.

Sammanfattningsvis är syntetiska data den föredragna lösningen för att övervinna den typiska suboptimala avvägningen mellan dataverktyg och integritetsskydd, som alla klassiska anonymiseringstekniker erbjuder dig.

klassisk anonymiseringsverktygskurva

Så varför använda riktiga (känsliga) data när du kan använda syntetisk data?

Sammanfattningsvis bör man alltid välja syntetiska data när det gäller användnings- och integritetsskyddsperspektiv när ditt användningsfall tillåter det.

 Värde för analysSekretessrisk
Syntetiska dataHögIngen
Verkliga (personliga) uppgifterHögHög
Manipulerad data (genom klassisk 'anonymisering')Låg-MediumMedelhög
Tanken

Syntetiska data från Syntho fyller luckorna där klassiska anonymiseringstekniker blir korta genom att maximera båda dataverktyg och Privat skydd.

Intresserad?

Utforska mervärdet av syntetiska data med oss