Guess Who? Adları silməyin bir seçim olmadığına dair 5 nümunə

təxmin edin kimin oyunu

Guess Who -a giriş

Guess Kim? Əminəm ki, bir çoxlarınız bu oyunu keçmişdən tanıyırsınız, burada qısa bir xülasə. Oyunun məqsədi: 'Şapka taxan var?' yoxsa 'adam eynək taxır'? Oyunçular rəqibin cavabına əsaslanaraq namizədləri aradan qaldırır və rəqibinin sirli xarakterinə aid olan xüsusiyyətləri öyrənirlər. Digər oyunçunun sirrini anlayan ilk oyunçu oyunu qazanır.

Anladın Yalnız müvafiq atributlara çıxış əldə edərək, bir şəxsi məlumat bazasından çıxarmaq lazımdır. Əslində, Guess Who anlayışını mütəmadi olaraq praktikada tətbiq edirik, lakin sonra real insanların xüsusiyyətlərini özündə cəmləşdirən satır və sütunlarla işlənmiş məlumat dəstlərində istifadə edirik. Məlumatla işləyərkən əsas fərq, insanların yalnız bir neçə atributdan istifadə edərək həqiqi fərdlərin maskalanmasını asanlaşdırmamaqdır.

Guess Who oyununun göstərdiyi kimi, kimsə yalnız bir neçə atributu əldə edərək fərdləri tanıya bilər. Veri toplusunuzdan yalnız 'adların' (və ya digər birbaşa identifikatorların) çıxarılmasının anonimləşdirmə texnikası olaraq uğursuzluğunun sadə bir nümunəsi olaraq xidmət edir. Bu bloqda, məlumatların anonimləşdirilməsi vasitəsi olaraq sütunların silinməsi ilə bağlı məxfilik riskləri barədə sizə məlumat vermək üçün dörd praktiki iş təqdim edirik.

2) Bağlantı hücumları: məlumatlarınız digər (ictimai) məlumat mənbələrinə bağlıdır

Bağlantı hücumları riski, anonimləşdirmə üsulu olaraq yalnız adların silinməməsinin (artıq) işləməməsinin ən vacib səbəbidir. Bağlantı hücumu ilə, təcavüzkar, bir şəxsi bənzərsiz şəkildə tanımaq və bu şəxs haqqında (çox vaxt həssas) məlumat əldə etmək üçün orijinal məlumatları digər əlçatan məlumat mənbələri ilə birləşdirir.

Burada əsas olan, hazırda mövcud olan və ya gələcəkdə mövcud ola biləcək digər məlumat mənbələrinin mövcudluğudur. Özünüz haqqında düşünün. Facebook, Instagram və ya LinkedIn -də bağlantı hücumu üçün sui -istifadə oluna biləcək şəxsi məlumatlarınızın nə qədəri tapıla bilər?

Əvvəlki günlərdə məlumatların mövcudluğu daha məhdud idi, bu da adların silinməsinin fərdlərin məxfiliyini qorumaq üçün niyə kifayət etdiyini izah edir. Daha az məlumat, məlumatları əlaqələndirmək üçün daha az imkan deməkdir. Bununla birlikdə, biz indi məlumatların miqdarının eksponent olaraq artdığı bir iqtisadiyyatın (aktiv) iştirakçılarıyıq. Daha çox məlumat və məlumat toplama texnologiyasının təkmilləşdirilməsi əlaqələndirmə hücumları potensialının artmasına səbəb olacaq. 10 il ərzində əlaqəli hücum riski haqqında nə yazmaq olar?

Illustration 1

Eksponent olaraq artan məlumatlar bir həqiqətdir

Məlumat miqdarı

Case study

Sweeney (2002), "xəstəxana ziyarətləri" haqqında ümumi məlumat toplusunu ABŞ -da hər kəsə açıq olan səsvermə qeydiyyatçısı ilə əlaqələndirmək əsasında fərdlərdən həssas tibbi məlumatları necə müəyyən edə bildiyini və əldə edə bildiyini bir akademik məqalədə nümayiş etdirdi. Adların və digər birbaşa identifikatorların silinməsi ilə düzgün şəkildə anonimləşdirildiyi güman edilən hər iki məlumat dəsti.

Illustration 2

Bağlantı hücumu praktikada

Bağlantı hücumu

Yalnız üç parametrə əsaslanaraq (1) Poçt Kodu, (2) Cins və (3) Doğum Tarixi, bütün ABŞ əhalisinin 87% -nin hər iki məlumat dəstindən yuxarıda göstərilən atributları uyğunlaşdıraraq yenidən tanına biləcəyini göstərdi. Sweeney, "Poçt Kodu" na alternativ olaraq "ölkə" ilə işini təkrarladı. Əlavə olaraq, bütün ABŞ əhalisinin 18% -nin yalnız (1) doğma ölkə, (2) cins və (3) doğum tarixi haqqında məlumatları ehtiva edən məlumat toplusuna daxil olaraq tanına biləcəyini nümayiş etdirdi. Facebook, LinkedIn və ya İnstagram kimi yuxarıda göstərilən ictimai mənbələri düşünün. Ölkəniz, cinsiniz və doğum tarixiniz görünür, yoxsa digər istifadəçilər onu çıxara bilirlər?

Illustration 3

Sweeney nəticələri

Yarım identifikatorlar

ABŞ əhalisinin unikal olaraq təyin olunan faizi (248 milyon)

5 rəqəmli ZIP, cins, doğum tarixi

87%

yer, cinsi, doğum tarixi

53%

ölkə, cinsi, doğum tarixi

18%

Bu nümunə, anonim görünən məlumatlarda şəxslərin anonimləşdirilməsinin olduqca asan ola biləcəyini göstərir. Birincisi, bu iş böyük bir risk böyüklüyünü göstərir ABŞ əhalisinin 87% -i istifadə edərək asanlıqla müəyyən edilə bilər bir neçə xüsusiyyət. İkincisi, bu araşdırmada ortaya çıxan tibbi məlumatlar çox həssas idi. Xəstəxana ziyarətləri məlumat toplusundan məruz qalmış şəxslərin məlumatlarına etnik mənsubiyyət, diaqnoz və dərmanlar daxildir. Gizli saxlaya biləcəyiniz xüsusiyyətlər, məsələn, sığorta şirkətlərindən.

3) Məlumatlı şəxslər

Adlar kimi yalnız birbaşa identifikatorların silinməsinin başqa bir riski, məlumatlı şəxslərin məlumat bazasında xüsusi fərdlərin xüsusiyyətləri və ya davranışları haqqında üstün biliklərə və ya məlumatlara malik olduqda yaranır.. Məlumatlarına əsasən, təcavüzkar xüsusi məlumat qeydlərini həqiqi insanlarla əlaqələndirə bilər.

Case study

Üstün biliklərdən istifadə edərək bir verilənlər bazasına edilən hücum nümunəsi, Atockar (2014) xüsusi şəxslərin üzünü aça bildiyi New York taksi çantasıdır. İstifadə olunan məlumat dəsti, başlanğıc koordinatları, son koordinatlar, qiymət və səfərin ucu kimi əsas xüsusiyyətlərlə zənginləşdirilmiş Nyu Yorkdakı bütün taksi səyahətlərini ehtiva edir.

Nyu Yorku bilən, məlumatlı bir şəxs, böyüklər klubu 'Hustler' ə taksi səfərləri edə bildi. 'Bitmə yerini' süzərək, dəqiq başlanğıc ünvanlarını çıxardı və bununla da tez -tez gələnləri təyin etdi. Eynilə, şəxsin ev ünvanı məlum olanda taksi gəzintilərini çıxarmaq olar. Bir neçə məşhur film ulduzunun vaxtı və yeri qeybət saytlarında aşkar edildi. Bu məlumatları NYC taksi məlumatları ilə əlaqələndirdikdən sonra, taksi gəzintilərini, ödədikləri məbləği və təhvil verib -verməmələrini əldə etmək asan oldu.

Illustration 4

Məlumatlı şəxs

buraxma koordinatları Hustler

Bradley Cooper

taksi və xəritə

Jessica Alba

xəritələrin izlənməsi

4) Məlumat barmaq izi kimi

Ümumi bir mübahisə xətti 'bu məlumatlar dəyərsizdir' və ya 'heç kim bu məlumatlarla heç nə edə bilməz'. Bu tez -tez səhv fikirdir. Hətta ən günahsız məlumatlar da özünəməxsus bir "barmaq izi" yarada bilər və fərdləri yenidən tanımaq üçün istifadə edilə bilər. Məlumatın dəyərsiz olduğuna inanmaqdan yaranan riskdir.

Məlumat, süni intellekt və digər vasitələrin və alqoritmlərin artması ilə eyniləşdirmə riski artacaq, bu da məlumatlarda kompleks əlaqələrin ortaya çıxmasına imkan verəcəkdir. Nəticə etibarı ilə, məlumat toplusunuz indi açıla bilməsə də və ehtimal ki, bu gün icazəsiz şəxslər üçün yararsız olsa da, sabah olmayacaq.

Case study

Netflix -in film tövsiyə sistemini təkmilləşdirmək üçün açıq bir Netflix müsabiqəsi təqdim edərək Ar -Ge departamentini izdihamla təmin etmək niyyətində olduğu böyük bir nümunədir. 'Filmlər üçün istifadəçi reytinqlərini proqnozlaşdırmaq üçün birgə filtrasiya alqoritmini təkmilləşdirən, 1,000,000 ABŞ dolları məbləğində mükafat qazanır'. İzdihamı dəstəkləmək üçün Netflix, yalnız aşağıdakı əsas atributları ehtiva edən bir verilənlər bazası dərc etdi: userID, film, sinif tarixi və sinif (buna görə istifadəçi və ya filmin özü haqqında əlavə məlumat yoxdur).

Illustration 5

Dataset quruluşu Netflix qiyməti

İstifadəçi adı Film Sinif tarixi Dərəcəli
123456789 Mümkün Mission 10-12-2008 4

Ayrı -ayrılıqda məlumatlar boşa çıxdı. 'Məlumat bazasında məxfi saxlanılmalı olan hər hansı bir müştəri məlumatı varmı?' Sualını verərkən cavab belə oldu:

 'Xeyr, bütün müştəri təyin edən məlumatlar silindi; geridə qalanların hamısı reytinqlər və tarixlərdir. Bu, məxfilik siyasətimizi izləyir ... '

Ancaq Austin Texas Universitetindən Narayanan (2008) bunun əksini sübut etdi. Siniflərin, sinif tarixinin və fərdin filminin birləşməsi unikal bir film-barmaq izi meydana gətirir. Öz Netflix davranışınızı düşünün. Sizcə eyni filmləri neçə nəfər izlədi? Eyni filmləri eyni vaxtda neçə nəfər izlədi?

Əsas sual, bu barmaq izi ilə necə uyğunlaşmaq olar? Bu olduqca sadə idi. Tanınmış IMDb (Internet Movie Database) film reytinqli veb saytının məlumatları əsasında oxşar bir barmaq izi meydana gələ bilər. Nəticədə, şəxslərin kimliyi yenidən müəyyən edilə bilər.

Film izləmə davranışı həssas bir məlumat kimi qəbul edilməsə də, öz davranışınızı düşünün-ictimaiyyətə açıq olsaydı, fikir verərdinizmi? Narayananın məqaləsində təqdim etdiyi nümunələr, asanlıqla distillə edilə bilən siyasi üstünlüklər ('Nazaret İsa' və 'Yəhya İncili' üzrə reytinqlər) və cinsi üstünlüklərdir ('Bent' və 'Queer of people' kimi).

5) Ümumi Məlumat Qoruma Qaydası (GDPR)

GDPR, blog mövzuları arasında nə çox maraqlı, nə də gümüş güllə ola bilər. Bununla birlikdə, fərdi məlumatları işləyərkən tərifləri düzəltmək faydalıdır. Bu blog, məlumatların anonimləşdirilməsi və məlumat emalçısı kimi sizi maarifləndirmək üçün sütunların silinməsi ilə bağlı ümumi yanlış təsəvvürdən bəhs etdiyindən, GDPR -ə uyğun olaraq anonimləşdirmə tərifini araşdırmağa başlayaq. 

GDPR -dən 26 -cı resitala görə, anonim məlumatlar aşağıdakı kimi təyin olunur:

'müəyyən edilmiş və ya eyniləşdirilə bilən fiziki şəxsə aid olmayan məlumatlar və ya məlumat subyektinin tanına bilməyəcəyi və ya artıq anonim şəkildə göstərilməsi.'

Fərdi şəxslə əlaqəli şəxsi məlumatları işlədiyindən, tərifin yalnız 2 -ci hissəsi aiddir. Tərifə uyğun gəlmək üçün məlumat subyektinin (fərdin) tanınmamasını və ya artıq tanınmamasını təmin etmək lazımdır. Bu bloqda göstərildiyi kimi, bir neçə xüsusiyyətə görə fərdləri müəyyən etmək olduqca sadədir. Beləliklə, bir verilənlər bazasından adların silinməsi GDPR anonimləşdirmə tərifinə uyğun gəlmir.

axırı

Məlumatların anonimləşdirilməsi üçün adətən düşünülən və təəssüf ki, hələ də tez -tez tətbiq olunan bir üsula etiraz etdik: adların silinməsi. Guess Who oyununda və digər dörd nümunədə:

  • Bağlantı hücumları
  • Məlumatlı şəxslər
  • Məlumat barmaq izi kimi
  • Ümumi Məlumatların Mühafizəsi Qaydası (GDPR)

adların silinməsinin anonimləşdirmə kimi uğursuz olduğu göstərildi. Nümunələr təəccüblü hallar olsa da, hər biri yenidən eyniləşdirmənin sadəliyini göstərir və fərdlərin şəxsi həyatına mənfi təsir göstərə bilər.

Nəticə olaraq, məlumatlarınızdan adların silinməsi anonim məlumatlarla nəticələnmir. Buna görə də hər iki terminləri bir -birini əvəz etməkdən çəkinməyimiz daha yaxşıdır. Anonim olmaq üçün bu yanaşmanı tətbiq etməyəcəyinizə ümid edirəm. Və hələ də başa düşsəniz, sizin və komandanızın məxfilik risklərini tam başa düşdüyünüzdən və bu riskləri təsirlənmiş şəxslər adından qəbul etməyinizə əmin olun.

gülümsəyən bir qrup insan

Məlumat sintetikdir, lakin komandamız realdır!

Syntho ilə əlaqə saxlayın və mütəxəssislərimizdən biri sintetik məlumatların dəyərini öyrənmək üçün işıq sürətində sizinlə əlaqə saxlayacaq!

  • D. Reinsel, J. Gantz, John Rydning. Kənardan Nüvəyə qədər Dünyanın Rəqəmləndirilməsi, Məlumat Çağı 2025, 2018
  • L. Sweeney. k-anonimlik: məxfiliyin qorunması üçün bir model. Beynəlxalq Qeyri-müəyyənlik, Bulanıklıq və Biliyə əsaslanan sistemlər jurnalı, 10 (5), 2002: 557-570
  • L. Sweeney. Sadə Demoqrafiya Çox vaxt İnsanları Özünəməxsus Tanımlayır. Carnegie Mellon Universiteti, Məlumat Məxfiliyi İş Sənədi 3. Pittsburgh 2000
  • P. Samarati. Microdata Release'da Respondentlərin Şəxsiyyətlərinin Qorunması. Bilik və Məlumat Mühəndisliyi üzrə IEEE Əməliyyatlar, 13 (6), 2001: 1010-1027
  • Atokar. Ulduzlarla gəzinti: NYC Taxicab Dataset -də Sərnişin Məxfiliyi, 2014
  • Narayanan, A., və Şmatikov, V. (2008). Böyük seyrək məlumat toplusunun möhkəm anonimləşdirilməsi. Bildirişlərdə-2008 IEEE Təhlükəsizlik və Məxfilik Simpoziumu, SP (s. 111-125)
  • Ümumi Məlumat Qoruma Qaydası (GDPR), Recital 26, Anonim Məlumatlara Tətbiq Edilmir