Devine kiyès? 5 egzanp poukisa retire non se pa yon opsyon

devine ki jwèt

Yon entwodiksyon nan Guess Who

Devine kiyès? Malgre ke mwen si ke pi fò nan ou konnen jwèt sa a soti nan tounen nan jou yo, isit la yon rapèl kout. Objektif la nan jwèt la: dekouvri non an nan pèsonaj la desen ki pi ba chwazi pa opozan ou pa mande 'wi' ak 'non' kesyon, tankou 'moun nan mete yon chapo?' oswa 'moun nan mete linèt'? Jwè elimine kandida ki baze sou repons opozan an epi aprann atribi ki gen rapò ak karaktè mistè opozan yo. Premye jwè ki konnen karaktè mistè lòt jwè a genyen jwèt la.

Ou te resevwa li. Youn dwe idantifye moun nan soti nan yon dataset pa gen sèlman aksè a atribi ki koresponn lan. An reyalite, nou regilyèman wè konsèp sa a nan Devine ki moun ki aplike nan pratik, men Lè sa a, anplwaye sou ansanbl fòma ak ranje ak kolòn ki gen atribi moun reyèl. Diferans prensipal la lè w ap travay ak done se ke gen moun ki gen tandans underestimate fasilite la pa ki moun ki reyèl ka demaske pa gen aksè a sèlman yon atribi kèk.

Kòm jwèt la Devine Ki moun ki montre, yon moun ka idantifye moun ki gen aksè a sèlman yon atribi kèk. Li sèvi kòm yon egzanp senp sou rezon ki fè retire sèlman 'non' (oswa lòt idantifyan dirèk) nan dataset ou echwe kòm yon teknik anonimizasyon. Nan blog sa a, nou bay kat ka pratik enfòme ou sou risk ki genyen nan vi prive ki asosye avèk retire nan kolòn kòm yon mwayen pou anonimizasyon done yo.

2) atak Linkage: dataset ou lye nan lòt sous done (piblik)

Risk pou yon atak koneksyon se rezon ki pi enpòtan an poukisa sèlman retire non pa travay (ankò) kòm yon metòd pou anonimizasyon. Avèk yon atak koneksyon, atakè a konbine done orijinal yo ak lòt sous done aksesib yo nan lòd yo inikman idantifye yon moun epi aprann (souvan sansib) enfòmasyon sou moun sa a.

Kle isit la se disponiblite a nan lòt resous done ki prezan kounye a, oswa ki ka vin prezan nan tan kap vini an. Reflechi sou tèt ou. Ki kantite nan pwòp done pèsonèl ou ka jwenn sou Facebook, Instagram oswa LinkedIn ki ta ka potansyèlman dwe abize pou yon atak koneksyon?

Nan jou pi bonè, disponiblite done yo te pi plis limite, ki an pati eksplike poukisa yo te retire non yo ase pou prezève vi prive moun yo. Mwens done ki disponib vle di mwens opòtinite pou ki lye ak done. Sepandan, nou se kounye a (aktif) patisipan yo nan yon done ki kondwi ekonomi, kote kantite lajan an nan done ap grandi nan yon pousantaj eksponansyèl. Plis done, ak amelyore teknoloji pou ranmase done ap mennen nan ogmante potansyèl pou atak koneksyon. Ki sa ki ta yon sèl ekri nan 10 ane sou risk pou yo yon atak koneksyon?

Ilistrasyon Nòt

Eksponansyèlman done k ap grandi se yon reyalite

Kantite done

etid Ka a

Sweeney (2002) demontre nan yon papye akademik ki jan li te kapab idantifye ak rekipere done medikal sansib nan men moun ki baze sou ki lye ak yon seri done piblik ki disponib nan 'vizit lopital' nan rejistrè vòt piblikman disponib nan Etazini yo. Tou de ansanb kote yo sipoze byen anonimize nan sipresyon non ak lòt idantifyan dirèk.

Ilistrasyon Nòt

Atak Linkage nan pratik

Atak Linkage

Ki baze sèlman sou twa paramèt yo (1) Kòd Postal, (2) Sèks ak (3) Dat nesans, li te montre ke 87% nan tout popilasyon ameriken an ta ka re-idantifye pa matche atribi susmansyone soti nan tou de ansanbl. Sweeney Lè sa a, repete travay li ak gen 'peyi' kòm yon altènativ a 'Kòd postal'. Anplis de sa, li te demontre ke 18% nan tout popilasyon ameriken an ta ka idantifye sèlman pa gen aksè a yon seri de done ki gen enfòmasyon sou (1) peyi lakay, (2) sèks ak (3) dat nesans lan. Reflechi sou sous piblik yo susmansyone, tankou Facebook, LinkedIn oswa Instagram. Èske peyi ou, sèks ak dat nesans ou vizib, oswa èske lòt itilizatè yo kapab dedwi li?

Ilistrasyon Nòt

Rezilta Sweeney a

Quasi-idantifyan

inikman idantifye nan popilasyon ameriken (248 milyon)

5-chif postal, sèks, dat nesans

87%

kote, sèks, dat nesans

53%

peyi, sèks, dat nesans

18%

Egzanp sa a demontre ke li ka konsiderableman fasil de-anonimize moun ki nan done w pèdi anonim. Premyèman, etid sa a endike yon grandè gwo risk, menm jan 87% nan popilasyon an US ka fasilman idantifye lè l sèvi avèk kèk karakteristik. Dezyèmman, ekspoze done medikal yo nan etid sa a te trè sansib. Men kèk egzanp sou done moun ki ekspoze yo soti nan seri a vizit lopital gen ladan etnisite, dyagnostik ak medikaman. Atribi ke yon moun ka pito kenbe sekrè, pou egzanp, nan konpayi asirans.

3) Moun ki enfòme

Yon lòt risk pou retire sèlman idantifyan dirèk, tankou non, rive lè moun ki enfòme yo gen konesans siperyè oswa enfòmasyon sou karakteristik oswa konpòtman moun espesifik nan seri a. Baze sou konesans yo, atakè a ka Lè sa a, kapab konekte dosye done espesifik ak moun aktyèl.

etid Ka a

Yon egzanp yon atak sou yon seri de done lè l sèvi avèk konesans siperyè se ka a taksi New York, kote Atockar (2014) te kapab demaske moun espesifik. Ansanm lan te gen tout vwayaj taksi nan New York, anrichi ak atribi debaz tankou kowòdone kòmanse, kowòdone fen, pri ak pwent woulib la.

Yon moun ki enfòme ki konnen New York te kapab sòti vwayaj taksi nan klib granmoun 'Hustler'. Pa filtraj 'kote a fini', li dedwi adrès yo kòmanse egzak ak ensi idantifye divès kalite vizitè souvan. Menm jan an tou, yon sèl te kapab dedwi parcours taksi lè yo te adrès kay la nan moun nan li te ye. Tan ak kote plizyè zetwal fim selèb yo te dekouvri sou sit tripotaj. Aprè koneksyon enfòmasyon sa yo ak done taksi NYC yo, li te fasil pou jwenn parcours taksi yo, kantite lajan yo te peye, epi si yo te pwent.

Ilistrasyon Nòt

Yon moun ki enfòme

depoze kowòdone Hustler

Bradley Cooper

taksi ak kat jeyografik

Jessica Alba

Suivi kat

4) Done kòm yon anprent

Yon liy komen nan agiman se 'done sa a pa vo anyen' oswa 'pesonn pa ka fè anyen ak done sa yo'. Sa a se souvan yon miskonsepsyon. Menm done ki pi inosan yo ka fòme yon 'anprent' inik epi yo dwe itilize yo re-idantifye moun. Li se risk ki sòti nan kwè ke done yo li menm pa vo anyen, pandan ke li pa.

Risk idantifikasyon ap ogmante ak ogmantasyon done, AI, ak lòt zouti ak algoritm ki pèmèt dekouvèt relasyon konplèks nan done yo. Kontinwe, menm si ou pa ka dekouvwi done ou an kounye a, epi li prezimableman initil pou moun ki pa otorize jodi a, li ka pa demen.

etid Ka a

Yon gwo egzanp se ka a kote Netflix gen entansyon crowdsource R & D depatman li yo pa entwodwi yon konpetisyon Netflix louvri amelyore sistèm rekòmandasyon fim yo. 'Yon sèl la ki amelyore algorithm nan filtraj kolaborasyon predi evalyasyon itilizatè pou fim ranport yon pri nan US $ 1,000,000'. Yo nan lòd yo sipòte foul moun yo, Netflix pibliye yon dataset ki gen sèlman atribi debaz sa yo: userID, fim, dat klas ak klas (kidonk pa gen plis enfòmasyon sou itilizatè a oswa fim tèt li).

Ilistrasyon Nòt

Dataset estrikti pri Netflix

ID itilizatè fim Dat klas la Klas
123456789 Misyon enposib 10-12-2008 4

Nan izolasyon, done yo parèt initil. Lè w poze kesyon an 'Èske gen nenpòt enfòmasyon kliyan nan seri a ki ta dwe kenbe prive?', Repons lan te:

 'Non, tout enfòmasyon ki idantifye kliyan yo te retire; tout sa ki rete yo se evalyasyon ak dat. Sa a swiv politik vi prive nou an ... '

Sepandan, Narayanan (2008) nan Inivèsite Texas nan Austin te pwouve otreman. Konbinezon klas, dat klas ak fim yon moun fòme yon inik fim-anprent. Reflechi sou pwòp konpòtman Netflix ou. Konbyen moun ou panse gade menm seri sinema yo? Konbyen gade menm seri sinema an menm tan?

Kesyon prensipal, ki jan yo matche ak anprent sa a? Li te pito senp. Baze sou enfòmasyon ki soti nan sit entènèt fim ki byen koni IMDb (Entènèt fim baz done), yon anprent menm jan an ta ka fòme. Kontinwe, moun yo ta ka re-idantifye.

Pandan ke konpòtman gade fim pa ta ka sipoze kòm enfòmasyon sansib, panse sou pwòp konpòtman ou - ou ta lide si li te vin piblik? Egzanp Narayanan bay nan papye li a se preferans politik (evalyasyon sou 'Jezi, moun Nazarèt' ak 'Levanjil Jan an') ak preferans seksyèl (evalyasyon sou 'Bent' ak 'Queer kòm popilè') ki ta ka fasilman distile.

5) Règleman Jeneral Pwoteksyon Done (GDPR)

GDPR pa ta ka super-enteresan, ni bal an ajan nan mitan sijè blog. Men, li itil yo ka resevwa definisyon yo dwat lè w ap trete done pèsonèl. Depi blog sa a se sou miskonsepsyon an komen nan retire kolòn kòm yon fason anonim done ak edike ou kòm done processeur, se pou nou kòmanse ak eksplore definisyon anonimizasyon dapre GDPR. 

Selon resital 26 nan GDPR, enfòmasyon anonim defini kòm:

'enfòmasyon ki pa gen rapò ak yon idantifye oswa idantifye moun natirèl oswa done pèsonèl rann anonim nan yon fason ke sijè a done se pa oswa ki pa idantifye ankò.'

Depi yon sèl trete done pèsonèl ki gen rapò ak yon moun natirèl, se sèlman pati 2 nan definisyon an ki enpòtan. Yo nan lòd yo konfòme yo ak definisyon an, yon sèl gen asire ke sijè a done (endividyèl) se pa oswa ki pa idantifye ankò. Jan sa endike nan blog sa a, sepandan, li se konsiderableman senp yo idantifye moun ki baze sou yon atribi kèk. Se konsa, retire non nan yon dataset pa konfòme li avèk definisyon GDPR anonimizasyon an.

an konklizyon

Nou defye yon sèl souvan konsidere ak, malerezman, toujou souvan aplike apwòch nan anonimizasyon done: retire non. Nan jwèt la Devine Ki moun ki ak kat lòt egzanp sou:

  • Atak Linkage
  • Moun ki enfòme
  • Done kòm yon anprent
  • Jeneral Done Pwoteksyon Règleman (GDPR)

li te montre ke retire non echwe kòm anonimizasyon. Malgre ke egzanp yo se ka frape, chak montre senplisite la nan re-idantifikasyon ak potansyèl enpak negatif sou vi prive moun yo.

An konklizyon, retire non yo nan ansanm ou an pa lakòz done anonim. Pakonsekan, nou pi byen evite itilize tou de tèm interchangeable. Mwen sensèman espere ou pa pral aplike apwòch sa a pou anonimizasyon. Epi, si ou toujou fè sa, asire ke ou menm ak ekip ou a konplètman konprann risk ki genyen nan vi prive, epi yo gen dwa aksepte risk sa yo sou non moun ki afekte yo.

gwoup moun kap souri

Done yo se sentetik, men ekip nou an reyèl!

Kontakte Syntho epi youn nan ekspè nou yo ap pran kontak avèk ou nan vitès limyè a pou eksplore valè done sentetik!

  • D. Reinsel, J. Gantz, John Rydning. Digitizasyon nan mond lan soti nan Edge Nwayo, Laj Done 2025, 2018
  • L. Sweeney. k-anonimite: yon modèl pou pwoteje vi prive. Creole Journal sou ensèten, flou ak Konesans ki baze sou sistèm, 10 (5), 2002: 557-570
  • L. Sweeney. Demografi senp yo souvan idantifye moun inikman. Carnegie Mellon Inivèsite, Done sou enfòmasyon prive Travay Papye 3. Pittsburgh 2000
  • P. Samarati. Pwoteje Idantite moun ki repond yo nan lage mikrodata. Tranzaksyon IEEE sou Konesans ak Jeni Done, 13 (6), 2001: 1010-1027
  • Atockar. Monte ak zetwal yo: konfidansyalite pasaje yo nan baz done NYC, 2014
  • Narayanan, A., & Shmatikov, V. (2008). Gaya de-anonimizasyon nan gwo ansanbl sparse. Nan Pwosedi - 2008 IEEE Senpozyòm sou Sekirite Sosyal ak Privacy, SP (pp. 111-125)
  • Jeneral Pwoteksyon Done Règleman (GDPR), Recital 26, pa aplikab a Done Anonim