Raai wie? 5 voorbeelde waarom die verwydering van name nie 'n opsie is nie

'N Inleiding tot Guess Who

Raai wie? Alhoewel ek seker is dat die meeste van u hierdie speletjie al vantevore ken, hier 'n kort opsomming. Die doel van die spel: ontdek die naam van die tekenprentkarakter wat u teenstander gekies het deur 'ja' en 'nee' vrae te stel, soos 'dra die persoon 'n hoed?' of 'dra die persoon 'n bril'? Spelers skakel kandidate uit op grond van die reaksie van die teenstander en leer kenmerke wat verband hou met die geheimsinnige karakter van hul teenstander. Die eerste speler wat die raaiselkarakter van die ander speler uitvind, wen die wedstryd.

Jy het dit. 'N Mens moet die individu uit 'n datastel identifiseer deur slegs toegang te hê tot die ooreenstemmende eienskappe. Trouens, ons sien gereeld hierdie konsep van Raai wie in die praktyk toegepas word, maar dan gebruik word op datastelle geformateer met rye en kolomme wat kenmerke van regte mense bevat. Die belangrikste verskil by die werk met data is dat mense die gemak waarmee werklike individue ontmasker kan word, onderskat deur toegang tot slegs 'n paar eienskappe te hê.

Soos die Guess Who -spel illustreer, kan iemand individue identifiseer deur toegang te hê tot slegs 'n paar eienskappe. Dit dien as 'n eenvoudige voorbeeld waarom die verwydering van slegs 'name' (of ander direkte identifiseerders) uit u datastel as 'n anonimiseringstegniek misluk. In hierdie blog bied ons vier praktiese gevalle om u in te lig oor die privaatheidsrisiko's wat verband hou met die verwydering van kolomme as 'n manier om data -anonimisering te voorkom.

2) Koppelingsaanvalle: u datastel is gekoppel aan ander (openbare) databronne

Die risiko van koppelingsaanvalle is die belangrikste rede waarom die verwydering van name nie (meer) as 'n metode vir anonimisering werk nie. Met 'n koppelingsaanval kombineer die aanvaller die oorspronklike data met ander toeganklike databronne om 'n individu uniek te identifiseer en (dikwels sensitiewe) inligting oor hierdie persoon te leer.

Die sleutel hier is die beskikbaarheid van ander databronne wat tans teenwoordig is, of wat in die toekoms moontlik kan word. Dink aan jouself. Hoeveel van u eie persoonlike data kan op Facebook, Instagram of LinkedIn gevind word wat moontlik misbruik kan word vir 'n koppelingsaanval?

Vroeër dae was die beskikbaarheid van data baie meer beperk, wat deels verklaar waarom die verwydering van name voldoende was om die privaatheid van individue te behou. Minder beskikbare data beteken minder geleenthede om data te koppel. Ons is egter nou (aktiewe) deelnemers aan 'n data-gedrewe ekonomie, waar die hoeveelheid data teen 'n eksponensiële tempo groei. Meer data en die verbetering van tegnologie vir die insameling van data, sal lei tot 'n groter potensiaal vir koppelingsaanvalle. Wat sou 'n mens oor 10 jaar skryf oor die risiko van 'n koppelingsaanval?

Illustrasie 1

Eksponensieel groeiende data is 'n feit

Gevallestudie

Sweeney (2002) het in 'n akademiese referaat gedemonstreer hoe sy sensitiewe mediese data van individue kon identifiseer en opspoor op grond van die koppeling van 'n openbare beskikbare datastel 'hospitaalbesoeke' aan die publiek beskikbare stemregistrateur in die Verenigde State. Beide datastelle word aangeneem dat hulle behoorlik geanonimiseer word deur die verwydering van name en ander direkte identifiseerders.

Illustrasie 2

Koppelingsaanval in die praktyk

Op grond van slegs die drie parameters (1) poskode, (2) geslag en (3) geboortedatum, het sy getoon dat 87% van die hele Amerikaanse bevolking weer geïdentifiseer kan word deur die bogenoemde eienskappe van beide datastelle te pas. Sweeney herhaal toe haar werk met 'country' as 'n alternatief vir 'zip code'. Boonop het sy getoon dat slegs 18% van die hele Amerikaanse bevolking geïdentifiseer kan word deur toegang te hê tot 'n datastel met inligting oor die (1) vaderland, (2) geslag en (3) geboortedatum. Dink aan die bogenoemde openbare bronne, soos Facebook, LinkedIn of Instagram. Is u land, geslag en geboortedatum sigbaar, of kan ander gebruikers dit aftrek?

Illustrasie 3

Sweeney se resultate

Kwasi-identifiseerders	% uniek geïdentifiseer van die Amerikaanse bevolking (248 miljoen)
5-syfer zip, geslag, geboortedatum	87%
plek, geslag, geboortedatum	53%
land, geslag, geboortedatum	18%

Hierdie voorbeeld demonstreer dat dit opmerklik maklik kan wees om individue in skynbaar anonieme data te ontanonimiseer. Eerstens dui hierdie studie op 'n groot risiko, aangesien 87% van die Amerikaanse bevolking kan maklik geïdentifiseer word met behulp van min eienskappe. Tweedens, die blootgestelde mediese data in hierdie studie was hoogs sensitief. Voorbeelde van blootgestelde individue se data uit die hospitaalbesoekdata bevat etnisiteit, diagnose en medikasie. Eienskappe wat 'n mens liewer geheim kan hou, byvoorbeeld van versekeringsmaatskappye.

3) Ingeligte individue

'N Ander risiko om slegs direkte identifiseerders, soos name, te verwyder, ontstaan wanneer ingeligte individue beter kennis of inligting het oor eienskappe of gedrag van spesifieke individue in die datastel. Op grond van hul kennis, kan die aanvaller dan spesifieke datarekords aan werklike mense koppel.

Gevallestudie

'N Voorbeeld van 'n aanval op 'n datastel met behulp van uitstekende kennis is die taxi -saak in New York, waar Atockar (2014) spesifieke individue kon ontmasker. Die gebruikte datastel bevat alle taxiritte in New York, verryk met basiese kenmerke soos beginkoördinate, eindkoördinate, prys en punt van die rit.

'N Ingeligte persoon wat weet dat New York taxi -reise na die volwasse klub' Hustler 'kon aflê. Deur die 'eindlokasie' te filter, het hy die presiese beginadresse afgelei en daardeur verskeie gereelde besoekers geïdentifiseer. Net so kan 'n mens taxi -ritte aflei toe die huisadres van die individu bekend was. Die tyd en plek van verskeie bekende sterre in rolprente is op skinderwebwerwe ontdek. Nadat hierdie inligting aan die NYC -taxidata gekoppel is, was dit maklik om hul taxiritte af te lei, die bedrag wat hulle betaal het en of hulle 'n fooi gegee het.

Illustrasie 4

'N Ingeligte individu

aflaai-koördinate Hustler

Bradley Cooper

Jessica Alba

4) Data as 'n vingerafdruk

'N Algemene argumentasie is' hierdie data is waardeloos 'of' niemand kan iets met hierdie data doen nie '. Dit is dikwels 'n wanopvatting. Selfs die mees onskuldige gegewens kan 'n unieke 'vingerafdruk' vorm en gebruik word om individue weer te identifiseer. Dit is die risiko wat voortspruit uit die oortuiging dat die data self waardeloos is, terwyl dit nie die geval is nie.

Die risiko van identifikasie neem toe met die toename van data, AI en ander gereedskap en algoritmes wat dit moontlik maak om komplekse verhoudings in data te ontbloot. Selfs al kan u datastel nie nou ontbloot word nie en dit is vermoedelik nutteloos vir ongemagtigde persone vandag, is dit moontlik nie môre nie.

Gevallestudie

'N Goeie voorbeeld is die geval waar Netflix van plan was om sy R & D -afdeling in 'n groot hoeveelheid te verkry deur 'n oop Netflix -kompetisie in te stel om hul filmaanbevelingstelsel te verbeter. 'Die een wat die samewerkende filteralgoritme verbeter om gebruikersgraderings vir films te voorspel, wen 'n prys van US $ 1,000,000'. Om die skare te ondersteun, het Netflix 'n datastel gepubliseer wat slegs die volgende basiese eienskappe bevat: userID, film, datum van graad en graad (dus geen verdere inligting oor die gebruiker of film self nie).

Illustrasie 5

Datastelstruktuur Netflix -prys

Gebruikers-ID	Fliek	Datum van graad	Graad
123456789	Missie onmoontlik	10-12-2008	4

In isolasie het die data nutteloos gelyk. Op die vraag 'Is daar inligting oor kliënte in die datastel wat privaat gehou moet word?', Was die antwoord:

'Nee, alle inligting wat deur kliënte geïdentifiseer is, is verwyder; al wat oorbly, is graderings en datums. Dit volg op ons privaatheidsbeleid ... '

Narayanan (2008) van die Universiteit van Texas in Austin het egter anders bewys. Die kombinasie van grade, datum van graad en film van 'n individu vorm 'n unieke filmvingerafdruk. Dink aan u eie Netflix -gedrag. Hoeveel mense dink jy het dieselfde stel flieks gekyk? Hoeveel het dieselfde stel films gelyktydig gekyk?

Hoofvraag, hoe pas hierdie vingerafdruk by? Dit was nogal eenvoudig. Gebaseer op inligting van die bekende film-webwerf IMDb (Internet Movie Database), kan 'n soortgelyke vingerafdruk gevorm word. Gevolglik kan individue heridentifiseer word.

Alhoewel filmkykgedrag moontlik nie as sensitiewe inligting beskou word nie, dink aan u eie gedrag-sou u dit as dit in die openbaar sou kom, dink? Voorbeelde wat Narayanan in sy referaat gegee het, is politieke voorkeure (graderings oor 'Jesus van Nasaret' en 'Die evangelie van Johannes') en seksuele voorkeure (graderings oor 'Bent' en 'Queer as folk') wat maklik gedistilleer kan word.

5) Algemene verordening op databeskerming (AVG)

GDPR is miskien nie super-opwindend nie, en ook nie die silwer koeël onder blogonderwerpe nie. Tog is dit nuttig om die definisies reg te kry tydens die verwerking van persoonlike data. Aangesien hierdie blog handel oor die algemene wanopvatting van die verwydering van kolomme as 'n manier om data te anonimiseer en u as dataverwerker op te voed, laat ons begin met die ondersoek van die definisie van anonimisering volgens GDPR.

Volgens oorweging 26 van die AVG word anonimiseerde inligting gedefinieer as:

'inligting wat nie betrekking het op 'n geïdentifiseerde of identifiseerbare natuurlike persoon nie, of persoonlike data wat anoniem gemaak is op 'n manier dat die betrokke persoon nie meer identifiseerbaar is nie.'

Aangesien 'n mens persoonlike data verwerk wat betrekking het op 'n natuurlike persoon, is slegs deel 2 van die definisie relevant. Om aan die definisie te voldoen, moet u verseker dat die betrokke persoon (individueel) nie meer identifiseerbaar is nie. Soos in hierdie blog aangedui, is dit opvallend eenvoudig om individue te identifiseer op grond van 'n paar eienskappe. Om name uit 'n datastel te verwyder, voldoen dus nie aan die GDPR -definisie van anonimisering nie.

Ter afsluiting:

Ons het 'n algemene benadering en ongelukkig nog steeds toegepaste benadering van data -anonimisering uitgedaag: verwydering van name. In die Guess Who -spel en vier ander voorbeelde oor:

Koppelingsaanvalle
Ingeligte individue
Data as 'n vingerafdruk
Algemene databeskermingsregulasie (GDPR)

Daar is aangetoon dat die verwydering van name nie as anonimisering misluk nie. Alhoewel die voorbeelde opvallende gevalle is, toon elkeen die eenvoud van heridentifisering aan en die moontlike negatiewe impak op die privaatheid van individue.

Ten slotte lei die verwydering van name uit u datastel nie tot anonieme data nie. Daarom moet ons beter vermy om beide terme uitruilbaar te gebruik. Ek hoop van harte dat u hierdie benadering vir anonimisering nie sal toepas nie. En as u dit nog steeds doen, moet u verseker dat u en u span die privaatheidsrisiko's ten volle begryp en toegelaat word om die risiko's namens die betrokke persone te aanvaar.

Data is sinteties, maar ons span is werklik!

Kontak Syntho en een van ons kundiges sal met u in verbinding tree met die spoed van lig om die waarde van sintetiese data te ondersoek!

D. Reinsel, J. Gantz, John Rydning. Die digitalisering van die wêreld van rand tot kern, data -ouderdom 2025, 2018
L. Sweeney. k-anonimiteit: 'n model vir die beskerming van privaatheid. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 10 (5), 2002: 557-570
L. Sweeney. Eenvoudige demografie identifiseer mense dikwels uniek. Carnegie Mellon University, Working Privacy Data Paper 3. Pittsburgh 2000
P. Samarati. Beskerming van respondente se identiteit in die vrystelling van mikrodata. IEEE Transactions on Knowledge and Data Engineering, 13 (6), 2001: 1010-1027
Atockar. Riding with the Stars: Passenger Privacy in die NYC Taxicab Dataset, 2014
Narayanan, A., en Shmatikov, V. (2008). Robuuste de-anonimisering van groot yl datastelle. In Proceedings-2008 IEEE Symposium on Security and Privacy, SP (pp. 111-125)
General Data Protection Regulation (GDPR), oorweging 26, nie van toepassing op anonieme data nie

Wat is sintetiese data?

Gehalteversekeringsverslag

Eksterne evaluering deur SAS

Tydreeks sintetiese data

PII-skandeerder

Sintetiese skyndata

Konsekwente kartering

De-identifikasie en sintetisering

Reël-gebaseerde sintetiese data

Subset

Ontplooiing en integrasie

Connectors

Uitgebreide kenmerke

Ondersteunde data

Gebruikersdokumentasie

Beplan 'n demo

pryse

Sintetiese data as toetsdata

Sintetiese data vir ontleding

Sintetiese data vir die deel van data

Sintetiese data vir produkdemo's

Healthcare

Finansies

Openbare organisasies

Gebruikersdokumentasie

Witskrifte en Gidse

Nuus

Webinars

Gevallestudies

pryse

Oor ons

Loopbane

Raai wie? 5 voorbeelde waarom die verwydering van name nie 'n opsie is nie

'N Inleiding tot Guess Who

2) Koppelingsaanvalle: u datastel is gekoppel aan ander (openbare) databronne

Eksponensieel groeiende data is 'n feit

Gevallestudie

Koppelingsaanval in die praktyk

Sweeney se resultate

3) Ingeligte individue

Gevallestudie

'N Ingeligte individu

4) Data as 'n vingerafdruk

Gevallestudie

Datastelstruktuur Netflix -prys

5) Algemene verordening op databeskerming (AVG)

Ter afsluiting:

Data is sinteties, maar ons span is werklik!

Hoof spyskaart