Tebak Sapa? 5 conto kenapa mbusak jeneng ora dadi pilihan

tebak game sapa

Pengantar Guess Who

Kira Sapa? Sanajan aku yakin manawa umume sampeyan ngerti game iki wiwit mbiyen, ing kene rekap ringkes. Tujuan game: nemokake jeneng karakter kartun sing dipilih lawan sampeyan kanthi takon 'ya' lan 'ora', kaya 'apa wong kasebut nganggo topi?' utawa 'apa wong nganggo kacamata'? Pemain ngilangi calon adhedhasar respon mungsuh lan sinau atribut sing ana hubungane karo karakter misteri mungsuh. Pemain pertama sing ngerti karakter misteri pemain liyane menang game kasebut.

Sampeyan entuk. Seseorang kudu ngenali individu ing set data kanthi mung ngakses atribut sing cocog. Kasunyatane, kita kerep ndeleng konsep Guess Who sing diterapake kanthi praktik, nanging banjur digunakake ing set data sing diformat nganggo baris lan kolom sing ngemot atribut wong asli. Bentenane utama nalika nggarap data yaiku wong cenderung nganggep entheng rasa gampang supaya individu sejatine ora bisa ditutupi kanthi entuk akses menyang sawetara atribut.

Minangka ilustrasi game Guess Who, ana sing bisa ngenali individu kanthi bisa ngakses sawetara atribut. Iki minangka conto sederhana kenapa mung mbusak 'jeneng' (utawa pengenal langsung liyane) saka set data sing gagal minangka teknik anonimisasi. Ing blog iki, kita nyedhiyakake papat kasus praktis kanggo menehi informasi babagan risiko privasi sing ana gandhengane karo ngilangi kolom minangka cara anonimisasi data.

2) Serangan tautan: set data sampeyan disambung menyang sumber data liyane (umum)

Risiko serangan tautan minangka sebab sing paling penting yen mbusak jeneng ora bisa digunakake (maneh) minangka metode anonimisasi. Kanthi serangan tautan, panyerang nggabungake data asli karo sumber data liyane sing bisa diakses kanthi unik kanggo ngenali individu lan sinau informasi (asring sensitif) babagan wong iki.

Kunci ing kene yaiku kasedhiya sumber data liyane sing saiki, utawa bisa uga ana mbesuk. Mikir dhewe. Pira wae data pribadi sampeyan sing bisa ditemokake ing Facebook, Instagram utawa LinkedIn sing bisa dilecehke amarga ana serangan tautan?

Ing jaman mbiyen, kasedhiyan data luwih diwatesi, sing sebagian nerangake kenapa ngilangi jeneng cukup kanggo njaga privasi wong. Data sing kurang kasedhiya tegese luwih sithik kesempatan kanggo ngubungake data. Nanging, kita saiki dadi peserta (aktif) ing ekonomi sing didhukung data, ing endi jumlah data mundhak kanthi tingkat eksponensial. Data sing luwih akeh, lan ngapikake teknologi kanggo nglumpukake data bakal nyebabake tambah akeh serangan serangan. Apa sing bakal ditulis ing 10 taun babagan risiko serangan linkage?

Ilustrasi 1

Data sing tuwuh kanthi eksponensial minangka kasunyatan

Jumlah data

Studi kasus

Sweeney (2002) nduduhake ing makalah akademik babagan carane dheweke bisa ngenali lan njupuk data medis sensitif saka individu adhedhasar ngubungake kumpulan data sing ana 'kunjungan rumah sakit' menyang registrar pamilih umum sing kasedhiya ing Amerika Serikat. Kaloro set data kasebut dianggep anonim kanthi bener liwat pambusakan jeneng lan pengenal langsung liyane.

Ilustrasi 2

Nyerang linkage ing laku

Serangan Linkage

Mung adhedhasar telung paramèter (1) Kode Pos, (2) Jenis Kelamin lan (3) Tanggal Lair, dheweke nuduhake manawa 87% saka kabeh populasi AS bisa diidentifikasi maneh kanthi cocog karo atribut kasebut saka kaloro data kasebut. Sweeney banjur mbaleni kerjane kanthi duwe 'negara' minangka alternatif kanggo 'Zip Code'. Kajaba iku, dheweke nuduhake manawa 18% saka kabeh populasi AS mung bisa diidentifikasi kanthi duwe akses menyang set data sing ngemot informasi babagan (1) negara asal, (2) jenis kelamin lan (3) tanggal lahir. Pikirake sumber umum sing kasebut ing ndhuwur, kayata Facebook, LinkedIn utawa Instagram. Apa negara, jenis kelamin lan tanggal lahir sampeyan katon, utawa pangguna liya sing bisa nyuda?

Ilustrasi 3

Asile Sweeney

Pengenal kuasi

% unik diidentifikasi saka populasi AS (248 yuta)

ZIP 5 digit, jinis kelamin, tanggal lahir

87%

Panggonan, jenis kelamin, tanggal lahir

53%

negara, jenis kelamin, tanggal lahir

18%

Contone iki nuduhake manawa gampang banget ngilangi anonim individu ing data sing kayane anonim. Kaping pisanan, panliten iki nuduhake risiko gedhene kaya, 87% populasi AS bisa gampang diidentifikasi nggunakake sawetara ciri. Kapindho, data medis sing ora ana paparan ing panliten iki sensitif banget. Tuladha data wong sing mbukak saka kumpulan data kunjungan ing rumah sakit kalebu kesukuan, diagnosis lan obat. Atribut sing bisa didhelikake, kayata, saka perusahaan asuransi.

3) Individu sing duwe informasi

Risiko liyane kanggo mbusak mung pengenal langsung, kayata jeneng, nalika ana wong sing duwe informasi duwe ilmu utawa informasi sing unggul babagan sipat utawa prilaku individu tartamtu ing kumpulan data. Adhik pangertene, panyerang bisa uga bisa nyambung data tartamtu karo wong sing nyata.

Studi kasus

Contone serangan ing set data sing nggunakake ilmu unggul yaiku kasus taksi New York, ing ngendi Atockar (2014) bisa mbedakake individu tartamtu. Set data sing digunakake kalebu kabeh lelungan taksi ing New York, diperkaya karo atribut dhasar kaya koordinat wiwitan, koordinat pungkasan, rega lan ujung perjalanan.

Individu sing ngerti manawa ing New York bisa entuk lelungan taksi menyang klub diwasa 'Hustler'. Kanthi nyaring 'lokasi pungkasan', dheweke nyimpulake alamat wiwitan sing pas lan saengga bisa ngidentifikasi macem-macem pengunjung sing sering. Kajaba iku, wong bisa nyuda nitih taksi nalika alamat omah saka individu kasebut dingerteni. Wektu lan dununge pirang-pirang bintang film selebriti ditemokake ing situs gosip. Sawise ngubungake informasi iki karo data taksi NYC, gampang nunggang perjalanan taksi, jumlah sing dibayar, lan apa wis entuk tip.

Ilustrasi 4

Individu sing duwe informasi

drop-off koordinat Hustler

Bradley Cooper

taksi lan peta

Jessica Alba

nelusuri peta

4) Data minangka bekas driji

Baris argumentasi umum yaiku 'data iki ora ana regane' utawa 'ora ana sing bisa nindakake apa wae karo data iki'. Iki asring salah paham. Malah data sing paling polos bisa nggawe 'bekas driji' sing unik lan digunakake kanggo ngenali maneh individu. Risiko kasebut asale saka percaya manawa data kasebut dhewe ora ana regane, nanging ora.

Risiko identifikasi bakal nambah kanthi nambah data, AI, lan alat lan algoritma liyane sing bisa nemokake hubungan rumit ing data. Akibate, sanajan set data sampeyan saiki ora bisa ditemokake, lan bisa uga ora ana gunane kanggo wong sing ora sah dina iki, bisa uga sesuk.

Studi kasus

Conto sing apik yaiku kasus sing dimaksudake Netflix kanggo nyedhiyakake akeh departemen R&D kanthi ngenalake kompetisi Netflix sing mbukak kanggo nambah sistem rekomendasi film. 'Sing nambah algoritma nyaring kolaboratif kanggo prédhiksi rating pangguna kanggo film menang hadiah US $ 1,000,000'. Kanggo ndhukung wong akeh, Netflix nerbitake set data sing ngemot mung atribut dhasar ing ngisor iki: userID, film, tanggal kelas lan kelas (dadi ora ana informasi luwih lengkap babagan pangguna utawa film kasebut dhewe).

Ilustrasi 5

Struktur Dataset rega Netflix

UserID movie Tanggal biji grade
123456789 Mission mokal 10-12-2008 4

Dhewe, data katon ora ana gunane. Nalika takon pitakon 'Apa ana informasi pelanggan ing set data sing kudu dijaga pribadi?', Jawabane yaiku:

 'Ora, kabeh informasi identifikasi pelanggan wis dicopot; kabeh sing isih ana rating lan tanggal. Iki ngetutake kabijakan privasi kita… '

Nanging, Narayanan (2008) saka Universitas Texas ing Austin kabukten liya. Kombinasi nilai, tanggal bahan lan film saka individu nggawe sidik jari film sing unik. Pikirake prilaku Netflix sampeyan dhewe. Miturut sampeyan pinten wong sing nonton film sing padha? Pira nonton film sing padha ing wektu sing padha?

Pitakon utama, kepiye carane cocog karo bekas driji iki? Rasane luwih gampang. Adhedhasar informasi saka situs web rating film terkenal IMDb (Internet Movie Database), sidik jari sing padha bisa digawe. Akibate, individu bisa dingerteni maneh.

Nalika prilaku nonton film bisa uga ora dianggep minangka informasi sing sensitif, pikirake prilaku sampeyan dhewe - apa sampeyan ora gelem yen mbukak publik? Conto sing diwenehake Narayanan ing makalahe yaiku preferensi politik (peringkat 'Jesus of Nazareth' lan 'The Gospel of John') lan preferensi seksual (peringkat 'Bent' lan 'Queer as folk') sing bisa distilasi kanthi gampang.

5) Peraturan Perlindungan Data Umum (GDPR)

GDPR bisa uga ora nyenengake, utawa pluru perak ing antarane topik blog. Nanging, luwih becik mbenerake definisi nalika ngolah data pribadi. Amarga blog iki babagan kesalahpahaman umum babagan mbusak kolom minangka cara kanggo anonim data lan mulang sampeyan minangka prosesor data, ayo miwiti karo njlentrehake definisi anonimisasi miturut GDPR. 

Miturut recital 26 saka GDPR, informasi anonim diterangake minangka:

'informasi sing ora ana gandhengane karo wong alam utawa data pribadi sing diidentifikasi utawa diidentifikasi kanthi anonim kanthi subyek sing subyek data ora bisa dingerteni maneh.'

Amarga siji ngolah data pribadi sing ana gandhengane karo wong sing alami, mung bagean 2 saka definisi sing relevan. Kanggo tundhuk karo definisi, kudu ana subyek data (individu) sing wis ora dingerteni maneh. Kaya sing dituduhake ing blog iki, pancen gampang banget ngenali individu adhedhasar sawetara atribut. Dadi, mbusak jeneng saka set data ora sesuai karo definisi anonimisasi GDPR.

Kesimpulane

Kita nantang pendekatan sing umum dianggep lan, sayangé, isih asring ngetrapake cara anonimisasi data: mbusak jeneng. Ing game Guess Who lan patang conto liyane babagan:

  • Serangan linkage
  • Individu sing duwe informasi
  • Data minangka bekas driji
  • Peraturan Perlindungan Data Umum (GDPR)

dituduhake manawa mbusak jeneng gagal minangka anonimisasi. Sanajan conto kasebut minangka kasus sing apik, masing-masing nuduhake kesederhanaan identifikasi maneh lan pengaruh negatif potensial ing privasi individu.

Kesimpulane, ngilangi jeneng saka kumpulan data sampeyan ora nyebabake data anonim. Mula, luwih becik kita aja nggunakake tembung loro kasebut. Muga-muga ora bisa ngetrapake cara anonimisasi iki. Lan, yen sampeyan isih ngerti, priksa manawa sampeyan lan tim ngerti babagan risiko privasi, lan diidini nampa risiko kasebut kanggo pihak sing kena pengaruh.

kumpulan wong mesem

Data iku sintetis, nanging tim kita nyata!

Hubungi Syntho lan salah sawijining pakar kita bakal sesambungan karo sampeyan kanthi cepet kanggo njelajah nilai data sintetik!

  • D. Reinsel, J. Gantz, John Rydning. Digitisasi Jagad Saka Edge nganti Inti, Data Umur 2025, 2018
  • L. Sweeney. k-anonimitas: model kanggo nglindhungi privasi. Jurnal Internasional babagan kahanan sing durung mesthi, Fuzziness lan Sistem adhedhasar Ilmu, 10 (5), 2002: 557-570
  • L. Sweeney. Demografi Sederhana asring Ngenali Wong Kanthi Unik. Universitas Carnegie Mellon, Kertas Kerja Privasi Data 3. Pittsburgh 2000
  • P. Samarati. Nglindhungi Identitas Responden ing Rilis Microdata. Transaksi IEEE babagan Teknik Pengetahuan lan Data, 13 (6), 2001: 1010-1027
  • Atockar Nunggang karo Bintang: Privasi Penumpang ing NYC Taxicab Dataset, 2014
  • Narayanan, A., & Shmatikov, V. (2008). De-anonimisasi data langka sing akeh. Ing Tindakan - Simposium IEEE 2008 babagan Keamanan lan Privasi, SP (hal. 111-125)
  • Peraturan Perlindungan Data Umum (GDPR), Recital 26, Ora Ditrapake kanggo Data anonim