Tebak Saha? 5 conto kunaon ngahapus ngaran sanés pilihan

nebak saha kaulinan

Perkenalan kanggo Tebak Saha

Kira Saha? Sanaos kuring yakin yén seuseueurna anjeun terang kaulinan ieu ti jaman baheula, di dieu aya resép anu singget. Tujuan tina gim: mendakan nami tokoh kartun anu dipilih ku lawan anjeun ku naroskeun patarosan 'enya' sareng 'henteu', sapertos 'naha jalma éta nganggo topi?' atanapi 'naha jalma éta nganggo kacamata'? Pamaén ngaleungitkeun calon dumasar kana réspon lawan sareng diajar atribut anu aya hubunganana sareng karakter misteri lawanna. Pamaén pangpayunna anu mikiran karakter misteri pamaén séjén anu meunang pertandingan.

Anjeun ngagaduhan. Jalma kedah ngaidéntifikasi individu dina susunan data ku ngan ukur aksés kana atribut anu saluyu. Nyatana, urang sacara rutin ningali konsép Tebak Saha ieu anu dilarapkeun dina prakték, tapi teras dianggo dina set data anu diformat kalayan barisan sareng kolom anu ngandung atribut jalma asli. Beda utama nalika damel sareng data nyaéta jalma-jalma condong nganggap enteng betah ku jalma-jalma saleresna tiasa dijentrekeun ku ngan ukur aksés kana sababaraha atribut.

Sakumaha midangkeun kaulinan Guess Who, batur bisa ngaidéntifikasi individu ku aksés ngan ukur sababaraha atribut. Éta mangrupikeun conto saderhana naha ngan ukur nyabut 'nami' (atanapi pengenal langsung sanésna) tina susunan data anjeun gagal salaku téknik anonimisasi. Dina blog ieu, kami nyayogikeun opat kasus praktis pikeun ngawartosan anjeun ngeunaan résiko privasi anu aya hubunganana sareng ngaleungitkeun kolom salaku cara anonimisasi data.

2) Serangan tautan: susunan data anjeun numbu ka sumber data (umum) sanés

Résiko serangan tautan mangrupikeun alesan anu paling penting naha ngan ukur ngaleungitkeun nami henteu tiasa dianggo (deui) salaku padika pikeun anonimisasi. Kalayan serangan tautan, panyerang ngagabungkeun data aslina sareng sumber data anu tiasa diaksés séjén pikeun unik ngaidentipikasi hiji individu sareng diajar (sering sénsitip) inpormasi ngeunaan jalma ieu.

Konci didieu nyaéta kasadiaan sumber data sanés anu aya ayeuna, atanapi tiasa janten kapayunna. Pikirkeun diri anjeun. Sakumaha seueur data pribadi anjeun nyalira anu tiasa dipendakan dina Facebook, Instagram atanapi LinkedIn anu berpotensi disalahgunakeun pikeun serangan tautan?

Dina dinten-dinten sateuacanna, kasadiaan data langkung terbatas, anu sabagian ngajelaskeun naha panyabutan nami cekap pikeun ngajaga karusiahan individu. Data anu kirang aya hartosna langkung seueur kasempetan pikeun ngahubungkeun data. Nanging, kami ayeuna (aktip) ngiringan ékonomi anu didorong data, dimana jumlah data naék dina tingkat éksponénsial. Langkung seueur data, sareng ningkatkeun téknologi pikeun ngumpulkeun data bakal ngakibatkeun kanaékan poténsi serangan tautan. Naon anu bakal ditulis dina 10 taun ngeunaan résiko serangan tautan?

Ilustrasi 1

Data anu sacara éksponénsial tumuh mangrupikeun kanyataan

Jumlah data

studi kasus

Sweeney (2002) nunjukkeun dina makalah akademik kumaha anjeunna sanggup ngaidentipikasi sareng nampi data médis sénsitip ti jalma dumasar kana ngaitkeun set data anu aya di masarakat ngeunaan 'kunjungan rumah sakit' ka pendaptaran sora anu sayogi masarakat di Amérika Serikat. Duanana susunan data dimana dianggap leres anonim ngalangkungan nami-nami sareng pengenal langsung sanés.

Ilustrasi 2

Serangan tautan dina prakték

Serangan Patalina

Dumasar kana ukur tilu parameter (1) Kode Pos, (2) Jenis Kelamin sareng (3) Tanggal Lahir, anjeunna nunjukkeun yén 87% tina sakumna penduduk AS tiasa diidentifikasi deui ku cocog sareng atribut-atribut anu tos kasebat ti duanana datasét. Sweeney teras ngulang damelna kalayan ngagaduhan 'nagara' salaku alternatip pikeun 'Zip Code'. Salaku tambahan, anjeunna nunjukkeun yén 18% tina sakumna penduduk AS tiasa dikenalkeun ngan ukur ku aksés kana set data anu ngandung inpormasi ngeunaan (1) nagara bumi, (2) jenis kelamin sareng (3) tanggal lahir. Pikirkeun sumber umum anu disebut di luhur, sapertos Facebook, LinkedIn atanapi Instagram. Naha nagara anjeun, jenis kelamin sareng tanggal lahir katingali, atanapi naha pangguna sanés tiasa ngirangan éta?

Ilustrasi 3

Hasil Sweeney

Identipikasi kuasi

% unik diidentifikasi tina populasi AS (248 juta)

5-angka ZIP, gender, tanggal lahir

87%

tempat, gender, tanggal lahir

53%

nagara, gender, tanggal lahir

18%

Conto ieu nunjukkeun yén tiasa janten gampang pisan pikeun de-anonim individu dina data anu sigana anonim. Mimiti, ulikan ieu nunjukkeun gedena résiko ageung, siga 87% penduduk Amérika Serikat tiasa gampang diidentipikasi nganggo sababaraha ciri. Kadua, data médis anu kakeunaan dina pangajaran ieu kacida peka. Conto data jalma anu kakeunaan tina susunan kunjungan rumah sakit kalebet étnis, diagnosis sareng pangobatan. Atribut anu saurang ogé bakal cicingeun, contona, ti perusahaan asuransi.

3) Individu anu diinpormasi

Résiko anu sanés ngaleungitkeun ukur pengenal langsung, sapertos nami, timbul nalika individu anu ngagaduhan inpormasi ngagaduhan kautamaan atanapi inpormasi ngeunaan sipat atanapi tingkah laku jalma khusus dina susunan data. Dumasar kana élmuna, panyerang tiasa teras ngaitkeun catetan data khusus ka jalma anu saleresna.

studi kasus

Conto serangan dina susunan data anu nganggo élmu anu unggul nyaéta kasus taksi New York, dimana Atockar (2014) sanggup ngabedakeun jalma anu khusus. Kumpulan data padamelan ngandung sadaya perjalanan taksi di New York, diperkaya ku atribut dasar sapertos koordinat ngamimitian, koordinat akhir, harga sareng ujung perjalanan.

Individu anu terang yén terang New York tiasa nampi perjalanan taksi ka klub dewasa 'Hustler'. Ku nyaring 'tungtung lokasi', anjeunna nyimpulkeun alamat awal anu pasti sareng kukituna ngaidentifikasi sababaraha sering datang. Nya kitu, urang tiasa nyingkirkeun taksi nalika alamat bumi pikeun tiap jalma dipikaterang. Waktos sareng lokasi sababaraha bintang pilem selebriti dipanggihan dina situs gosip. Saatos ngaitkeun inpormasi ieu kana data taksi NYC, éta gampang pikeun numpak taksi, jumlah anu aranjeunna mayar, sareng naha aranjeunna parantos tip.

Ilustrasi 4

Hiji jalma anu terang

drop-off koordinat Hustler

Bradley Cooper

taksi jeung peta

Jessica Alba

nyukcruk peta

4) Data salaku sidik jari

Garis arguméntasi umum nyaéta 'data ieu teu aya nilainya' atanapi 'teu saurang ogé tiasa ngalakukeun nanaon ku data ieu'. Ieu sering salah paham. Komo data anu paling polos tiasa ngabentuk 'sidik jari' unik sareng dianggo pikeun ngaidéntifikasi deui individu. Éta résiko anu diturunkeun tina kapercayaan yén data éta sorangan henteu berharga, padahal henteu.

Résiko idéntifikasi bakal ningkat kalayan ningkatna data, AI, sareng alat-alat sanés sareng algoritma anu ngamungkinkeun mendakan hubungan anu rumit dina data. Hasilna, sanaos susunan data anjeun teu tiasa diungkab ayeuna, sareng panginten henteu kapaké pikeun jalma anu teu sah ayeuna, éta panginten henteu énjing.

studi kasus

Conto anu saé nyaéta kasus dimana Netflix ngahajakeun pikeun ramé sumber departemén R&D na ku ngenalkeun kompetisi Netflix kabuka pikeun ningkatkeun sistem rekomendasi pilem na. 'Anu ningkatkeun algoritma nyaring kolaborasi pikeun ngaduga rating pangguna pikeun pilem meunang hadiah $ 1,000,000'. Dina raraga ngadukung ramé, Netflix nyebarkeun set data anu ngan ukur ngandung atribut dasar ieu: userID, pilem, tanggal kelas sareng kelas (janten henteu aya inpormasi langkung lengkep ngeunaan pangguna atanapi pilem éta sorangan).

Ilustrasi 5

Struktur datétét harga Netflix

ID Pangguna pilem Tanggal kelas kelas
123456789 Misi anu mustahil 10-12-2008 4

Dina kapencilna, data na katingalina sia-sia. Nalika naroskeun patarosan 'Naha aya inpormasi palanggan dina susunan data anu kedah dijaga pribadi?', Jawaban na:

 'Henteu, sadaya inpormasi idéntifikasi palanggan parantos dipiceun; sadayana anu tetep nyaéta rating sareng tanggal. Ieu nuturkeun kabijakan privasi kami… '

Nanging, Narayanan (2008) ti Universitas Texas di Austin ngabuktikeun sanésna. Kombinasi sasmita, tanggal kelas sareng pilem pikeun hiji individu ngawangun sidik pilem anu unik. Pikirkeun paripolah Netflix anjeun nyalira. Sabaraha jalma saur anjeun nonton pilem anu sami? Sabaraha anu nonton sét pilem anu sami dina waktos anu sami?

Patarosan utama, kumaha nyocogkeun sidik ieu? Éta rada saderhana. Dumasar kana inpormasi ti halaman wéb pilem-rating kondang IMDb (Internet Movie Database), sidik jari anu sami tiasa dibentuk. Akibatna, individu tiasa dikenalkeun deui.

Sedengkeun paripolah nonton pilem panginten moal dianggap salaku inpormasi sénsitip, pikirkeun ngeunaan paripolah anjeun nyalira - naha anjeun kapikiran upami éta janten umum? Conto anu disayogikeun ku Narayanan dina makalah na nyaéta preferensi politik (peringkat ngeunaan 'Jesus of Nazareth' sareng 'The Gospel of John') sareng preferensi séks (peringkat dina 'Bent' sareng 'Queer as folk') anu tiasa gampang disuling.

5) Peraturan Perlindungan Data Umum (GDPR)

GDPR panginten henteu saé pisan, atanapi pelor pérak diantara topik blog. Nanging, éta langkung saé pikeun ngajantenkeun definisi lempeng nalika ngolah data pribadi. Kusabab blog ieu ngeunaan salah paham umum tina ngaleungitkeun kolom salaku cara pikeun anonim data sareng ngadidik anjeun salaku prosesor data, hayu urang mimitian ku ngajajah definisi anonimisasi numutkeun GDPR. 

Numutkeun ka recital 26 ti GDPR, inpormasi anu henteu di anonim dihartikeun salaku:

'Inpormasi anu henteu aya hubunganana sareng jalma alami anu dicirikeun atanapi tiasa diidentipikasi atanapi data pribadi anu didamel anonim sedemikian rupa sehingga subjek data henteu atanapi henteu tiasa diidentifikasi deui.'

Kusabab hiji ngolah data pribadi anu aya hubunganana sareng jalma alami, ngan bagian 2 tina definisi anu aya hubunganana. Dina raraga matuh kana definisi, urang kedah mastikeun yén subyek data (individu) henteu atanapi henteu tiasa diidentifikasi deui. Sakumaha dituduhkeun dina blog ieu, kumaha ogé, éta gampang pisan pikeun ngaidentipikasi individu dumasar kana sababaraha atribut. Janten, ngaleungitkeun nami tina susunan data henteu saluyu sareng watesan GDPR ngeunaan anonimisasi.

Kasimpulanana

Kami nangtang salah sahiji anu biasana dianggap sareng, hanjakalna, masih sering diterapkeun pendekatan anonim data: ngaleungitkeun nami. Dina kaulinan Guess Who sareng opat conto sanésna ngeunaan:

  • Serangan tautan
  • Individu anu diinpormasi
  • Data salaku sidik jari
  • Peraturan Protection Data umum (GDPR)

éta nunjukkeun yén nyoplokkeun nami gagal salaku anonimisasi. Sanaon conto na mangrupikeun kasus anu matak, masing-masing nunjukkeun kesederhanaan pikeun idéntifikasi ulang sareng pangaruh négatip poténsial dina karusiahan individu.

Kasimpulanana, panyabutan nami tina susunan data anjeun henteu ngahasilkeun data anonim. Maka, urang langkung saé nyingkahan ngagunakeun duanana istilah anu tiasa ditukeurkeun. Abdi ngarep pisan anjeun henteu nerapkeun pendekatan ieu pikeun anonimisasi. Sareng, upami anjeun masih ngalakukeun, pastikeun yén anjeun sareng tim anjeun ngartos pisan résiko privasi, sareng diidinan nampi résiko éta atas nami jalma-jalma anu kapangaruhan.

rombongan jalma mesem

Data sintétik, tapi tim kami nyata!

Kontak Syntho sareng salah sahiji ahli kami bakal ngahubungi anjeun dina laju cahaya pikeun ngajalajah nilai data sintétis!

  • D. Reinsel, J. Gantz, John Rydning. Digitisasi Dunya Ti Tepi dugi ka Inti, Data Age 2025, 2018
  • L. Sweeney. k-anonimitas: modél ngajaga privasi. Jurnal Internasional ngeunaan ketidakpastian, Kabakaran sareng Sistem Berbasis Pangetahuan, 10 (5), 2002: 557-570
  • L. Sweeney. Démografi Sederhana Sering Ngidentipikasi Jalma Unik. Universitas Carnegie Mellon, Kertas Kerja Privasi Data 3. Pittsburgh 2000
  • P. Samarati. Ngajagi Idéntitas réspondén dina Kaluaran Microdata. Transaksi IEEE ngeunaan Pangetahuan sareng Téknik Data, 13 (6), 2001: 1010-1027
  • Atockar. Nunggang sareng Bentang: Privasi Panumpang di NYC Taxicab Dataset, 2014
  • Narayanan, A., & Shmatikov, V. (2008). De-anonimisasi datasét jarang anu ageung. Dina Prosiding - 2008 IEEE Simposium ngeunaan Kaamanan sareng Privasi, SP (hal. 111-125)
  • Peraturan Perlindungan Data Umum (GDPR), Recital 26, Henteu Lumaku pikeun Data Anonim