Varför klassisk anonymisering (och pseudonymisering) inte leder till anonym data

Denna blogg täcker följande ämnen:

Vad är klassisk anonymisering?
Vilka är nackdelarna med klassisk anonymisering?
Varför erbjuder klassiska anonymiseringstekniker en suboptimal kombination mellan datatillgänglighet och integritetsskydd ?.
Hur skiljer sig syntetiska data åt?
Varför fortfarande använda personuppgifter om du kan använda syntetisk data?

Vad är klassisk anonymisering?

Med klassisk anonymisering innebär vi alla metoder där man manipulerar eller snedvrider en originaldataset för att hindra spårning av individer.

Typiska exempel på klassisk anonymisering som vi ser i praktiken är generalisering, undertryckning / torkning, pseudonymisering och rad- och kolumnblandning.

Härmed dessa tekniker med motsvarande exempel.

Teknik	Originaldata	Manipulerade data
Generalisering	27 år gammal	Mellan 25 och 30 år
Undertryckning / torkning	info@syntho.ai	xxxx@xxxxxx.xx
Pseudonymisering	amsterdam	hVFD6td3jdHHj78ghdgrewui6
Rad och kolumn blandning	Justerat	Blandat

Vilka är nackdelarna med klassisk anonymisering?

Att manipulera en datauppsättning med klassiska anonymiseringstekniker resulterar i två viktiga nackdelar:

Förvrängning av en datamängd resulterar i minskad datakvalitet (dvs. dataverktyg). Detta introducerar den klassiska skräp-in skräp-ut-principen.
Sekretessrisk kommer att minska, men kommer alltid att vara närvarande. Den stannar och manipulerar versionen av den ursprungliga datamängden med 1-1-relationer.

Vi visar dessa två viktiga nackdelar, dataverktyg och integritetsskydd. Vi gör det med följande illustration med tillämpad undertryckning och generalisering.

Obs: vi använder bilder för illustrativa ändamål. Samma princip gäller för strukturerade datamängder.

Vänster: liten tillämpning av klassisk anonymisering resulterar i en representativ illustration. Individen kan dock lätt identifieras och integritetsrisken är betydande.

Höger: allvarlig tillämpning av klassisk anonymisering resulterar i starkt integritetsskydd. Men illustrationen blir värdelös.

Klassiska anonymiseringstekniker erbjuder en suboptimal kombination mellan dataverktyg och integritetsskydd.

Detta introducerar avvägningen mellan dataverktyg och integritetsskydd, där klassiska anonymiseringstekniker alltid erbjuder en suboptimal kombination av båda.

Är det en lösning att ta bort alla direktidentifierare (t.ex. namn) från datamängden?

Nej. Detta är en stor missuppfattning och leder inte till anonym data. Tillämpar du fortfarande detta som ett sätt att anonymisera din datamängd? Då är den här bloggen ett måste för dig.

Hur skiljer sig syntetiska data åt?

Syntho utvecklar programvara för att generera en helt ny dataset med färska dataposter. Information för att identifiera verkliga individer finns helt enkelt inte i en syntetisk datamängd. Eftersom syntetiska data innehåller artificiella dataregister som genereras av programvara finns personuppgifter helt enkelt inte, vilket resulterar i en situation utan några integritetsrisker.

Den viktigaste skillnaden på Syntho: vi tillämpar maskininlärning. Följaktligen reproducerar vår lösning strukturen och egenskaperna hos den ursprungliga datamängden i den syntetiska datamängden vilket resulterar i maximerad dataverktyg. Följaktligen kommer du att kunna få samma resultat när du analyserar de syntetiska uppgifterna jämfört med att använda originaldata.

Denna fallstudie visar höjdpunkter från vår kvalitetsrapport som innehåller olika statistik från syntetiska data som genereras genom vår Syntho Engine i jämförelse med originaldata.

Sammanfattningsvis är syntetiska data den föredragna lösningen för att övervinna den typiska suboptimala avvägningen mellan dataverktyg och integritetsskydd, som alla klassiska anonymiseringstekniker erbjuder dig.

Så varför använda riktiga (känsliga) data när du kan använda syntetisk data?

Sammanfattningsvis bör man alltid välja syntetiska data när det gäller användnings- och integritetsskyddsperspektiv när ditt användningsfall tillåter det.

	Värde för analys	Sekretessrisk
Syntetiska data	Hög	Ingen
Verkliga (personliga) uppgifter	Hög	Hög
Manipulerad data (genom klassisk 'anonymisering')	Låg-Medium	Medelhög

Syntetiska data från Syntho fyller luckorna där klassiska anonymiseringstekniker blir korta genom att maximera båda dataverktyg och Privat skydd.

Intresserad?

Utforska mervärdet av syntetiska data med oss

BOK DEMO

Vad är syntetiska data?

Kvalitetssäkringsrapport

Extern utvärdering av SAS

Syntetisk data i tidsserier

PII-skanner

Syntetisk mock-data

Konsekvent kartläggning

Avidentifiering och syntetisering

Regelbaserad syntetisk data

Underinställning

Implementering och integration

kontakter

Utökade funktioner

Stöddata

Användardokumentation

Planera en demo

Priser

Syntetiska data som testdata

Syntetisk data för analys

Syntetisk data för datadelning

Syntetisk data för produktdemo

Sjukvård

Finans

Offentliga organisationer

Användardokumentation

Whitepapers och guider

Blogg

Webbseminarier

Fallstudier