Погоди ко? 5 примера зашто уклањање имена није опција

погоди ко игра

Увод у Погоди ко

Погоди ко? Иако сам сигуран да већина вас познаје ову игру од давнина, ево кратког резимеа. Циљ игре: откријте име лика из цртаног филма који је одабрао ваш противник постављањем питања „да“ и „не“, попут „носи ли особа шешир?“ или „да ли особа носи наочаре“? Играчи елиминишу кандидате на основу одговора противника и уче атрибуте који се односе на мистериозни карактер противника. Први играч који открије мистериозни карактер другог играча побеђује у игри.

Договорено. Морате идентификовати појединца из скупа података тако што ћете имати приступ само одговарајућим атрибутима. У ствари, редовно виђамо овај концепт „Погоди ко“ који се применио у пракси, али се затим користио на скуповима података форматираним редовима и колонама које садрже атрибуте стварних људи. Главна разлика у раду са подацима је та што људи имају тенденцију да потцењују лакоћу којом се прави појединци могу разоткрити тако што имају приступ само неколико атрибута.

Као што игра Погоди ко приказује, неко може идентификовати појединце тако што има приступ само неколико атрибута. Служи као једноставан пример зашто уклањање само „имена“ (или других директних идентификатора) из вашег скупа података не успева као техника анонимизације. На овом блогу пружамо четири практична случаја како бисмо вас информисали о ризицима приватности повезаним са уклањањем колона као средством за анонимизацију података.

2) Напади на повезивање: ваш скуп података повезан са другим (јавним) изворима података

Ризик од напада повезивањем је најважнији разлог зашто само уклањање имена не функционише (више) као метод за анонимизацију. Нападом повезивања нападач комбинује изворне податке са другим доступним изворима података како би јединствено идентификовао појединца и научио (често осетљиве) податке о тој особи.

Кључно овде је доступност других извора података који су сада присутни или би могли постати присутни у будућности. Мислите на себе. Колико се ваших личних података може пронаћи на Фацебооку, Инстаграму или ЛинкедИну који би потенцијално могли бити злоупотребљени за напад повезивањем?

Ранијих дана доступност података била је много ограниченија, што делимично објашњава зашто је уклањање имена било довољно за очување приватности појединаца. Мање доступних података значи мање могућности за повезивање података. Међутим, ми смо сада (активни) учесници у економији заснованој на подацима, где количина података расте експоненцијалном брзином. Више података и побољшана технологија за прикупљање података довест ће до повећаног потенцијала за нападе на повезивање. Шта би се писало за 10 година о опасности од напада везе?

Илустрација КСНУМКС

Експоненцијално растући подаци су чињеница

Количина података

Студија случаја

Свеенеи (2002) је у једном академском раду показала како је успела да идентификује и преузме осетљиве медицинске податке од појединаца на основу повезивања јавно доступног скупа података о „болничким посетама“ са јавно доступним матичним записима у Сједињеним Државама. За оба скупа података се претпоставља да су правилно анонимизирани брисањем имена и других директних идентификатора.

Илустрација КСНУМКС

Напад везе у пракси

Аттацк Линкаге

На основу само три параметра (1) поштански број, (2) пол и (3) датум рођења, показала је да се 87% укупне популације САД-а може поново идентификовати подударањем горе наведених атрибута из оба скупа података. Свеенеи је затим поновила свој рад са „државом“ као алтернативом „поштанском броју“. Осим тога, показала је да се 18% укупног становништва САД -а може идентификовати само ако има приступ скупу података који садржи податке о (1) матичној земљи, (2) полу и (3) датуму рођења. Размислите о горе поменутим јавним изворима, попут Фацебоока, ЛинкедИна или Инстаграма. Да ли су ваша земља, пол и датум рођења видљиви или други корисници то могу одбити?

Илустрација КСНУМКС

Свеенеи -јеви резултати

Квази-идентификатори

% јединствено идентификованих америчких становника (248 милиона)

ЗИП са 5 цифара, пол, датум рођења

100%

место, пол, датум рођења

100%

земља, пол, датум рођења

100%

Овај пример показује да може бити изузетно лако уклонити анонимност појединаца у наизглед анонимним подацима. Прво, ова студија указује на огромну величину ризика, као што је 87% америчког становништва може се лако идентификовати помоћу неколико карактеристика. Друго, изложени медицински подаци у овој студији били су високо осетљиви. Примери изложених података појединаца из скупа података о болничким посетама укључују етничку припадност, дијагнозу и лекове. Атрибуте које би неко могао радије држати у тајности, на пример, од осигуравајућих компанија.

3) Обавештени појединци

Други ризик уклањања само директних идентификатора, попут имена, настаје када информисани појединци имају супериорно знање или информације о особинама или понашању одређених појединаца у скупу података. На основу њиховог знања, нападач би тада могао да повеже одређене податке са стварним људима.

Студија случаја

Пример напада на скуп података користећи врхунско знање је случај таксија у Њујорку, где је Атоцкар (2014) успео да разоткрије одређене појединце. Запослени скуп података садржавао је сва такси путовања у Њујорку, обогаћен основним атрибутима попут координата почетка, крајњих координата, цене и врха вожње.

Упућени појединац који познаје Њујорк успео је да изведе такси путовања до клуба за одрасле 'Хустлер'. Филтрирајући „крајњу локацију“, он је извео тачне почетне адресе и тако идентификовао различите честе посетиоце. Слично, може се закључити вожња таксијем када је позната кућна адреса појединца. Време и локација неколико славних филмских звезда откривени су на веб страницама оговарања. Након повезивања ових информација са подацима таксија у Њујорку, било је лако извести њихове вожње таксијем, износ који су платили и да ли су дали напојницу.

Илустрација КСНУМКС

Обавештен појединац

падајуће координате Хустлер

Брадлеи Цоопер

такси и мапа

Џесика Алба

праћење мапа

4) Подаци као отисак прста

Уобичајена аргументација је „ови подаци су безвредни“ или „нико не може ништа учинити са овим подацима“. Ово је често погрешно схватање. Чак и најбезазленији подаци могу формирати јединствени „отисак прста“ и користити се за поновну идентификацију појединаца. То је ризик који произилази из веровања да су сами подаци безвредни, док није.

Ризик идентификације ће се повећати са повећањем података, АИ и других алата и алгоритама који омогућавају откривање сложених односа у подацима. Сходно томе, чак и ако се ваш скуп података не може открити сада, а вероватно је бескористан за неовлашћена лица данас, можда неће бити сутра.

Студија случаја

Одличан пример је случај када је Нетфлик намеравао да привуче своје Одељење за истраживање и развој тако што ће увести отворено Нетфлик такмичење како би побољшао свој систем препорука филмова. „Онај који побољша алгоритам колаборативног филтрирања за предвиђање оцена корисника за филмове добија награду од 1,000,000 УСД“. Како би подржао публику, Нетфлик је објавио скуп података који садржи само следеће основне атрибуте: усерИД, филм, датум оцене и оцену (тако да нема додатних информација о кориснику или самом филму).

Илустрација КСНУМКС

Структура скупа података Нетфлик цена

ИД корисник филм Датум оцењивања Разред
123456789 Мисија немогућа 10-12-2008 4

Изоловано, подаци су изгледали узалудни. На питање „Има ли података о кориснику у скупу података које треба држати приватним?“, Одговор је био:

 „Не, сви подаци за идентификацију корисника су уклоњени; преостају само оцене и датуми. Ово следи нашу политику приватности ... '

Међутим, Нараианан (2008) са Универзитета у Тексасу у Аустину је доказао супротно. Комбинација оцена, датума оцене и филма појединца чини јединствени отисак прста филма. Размислите о свом понашању на Нетфлику. Шта мислите, колико је људи гледало исту серију филмова? Колико је гледало исти сет филмова у исто време?

Главно питање, како упоредити овај отисак прста? Било је прилично једноставно. На основу информација са познате веб странице за оцену филмова ИМДб (Интернет Мовие Датабасе), могао би се формирати сличан отисак прста. Због тога се појединци могу поново идентификовати.

Иако се понашање при гледању филмова не може сматрати осјетљивом информацијом, размислите о свом понашању-да ли би вам сметало да то постане јавно? Примјери које је Нараианан навео у свом раду су политичке преференције (оцјене о 'Исусу из Назарета' и 'Еванђељу по Јовану') и сексуалне преференције (оцјене о 'Бент' и 'Куеер ас фолк') које се лако могу дестилирати.

5) Општа уредба о заштити података (ГДПР)

ГДПР можда није супер узбудљив, нити сребро међу темама на блогу. Ипак, корисно је разјаснити дефиниције приликом обраде личних података. Будући да се овај блог бави уобичајеним заблудама о уклањању колона као начину анонимизације података и образовању вас као обрађивача података, почнимо са истраживањем дефиниције анонимизације према ГДПР -у. 

Према уводној изјави 26. ГДПР -а, анонимне информације се дефинишу као:

„информације које се не односе на идентификовано или идентификовано физичко лице или лични подаци анонимни на такав начин да се субјект података не може или више не може идентификовати.“

Пошто се обрађују лични подаци који се односе на физичко лице, релевантан је само други део дефиниције. Да би се испоштовала дефиниција, мора се осигурати да субјект података (појединац) није или више не може бити идентификован. Како је наведено на овом блогу, међутим, изузетно је једноставно идентификовати појединце на основу неколико атрибута. Дакле, уклањање имена из скупа података није у складу са ГДПР дефиницијом анонимизације.

У закључку

Оспорили смо један често разматрани и, нажалост, још увек често примењиван приступ анонимизације података: уклањање имена. У игри Погоди ко и још четири примера о:

  • Напади веза
  • Обавештени појединци
  • Подаци као отисак прста
  • Општа регулатива о заштити података (ГДПР)

показало се да уклањање имена не успева као анонимизација. Иако су примјери упечатљиви случајеви, сваки показује једноставност поновне идентификације и потенцијални негативан утицај на приватност појединаца.

Закључно, уклањање имена из вашег скупа података не резултира анонимним подацима. Због тога је боље да избегавамо употребу оба термина наизменично. Искрено се надам да нећете применити овај приступ за анонимизацију. И, ако то и даље чините, уверите се да ви и ваш тим у потпуности разумете ризике приватности и да вам је дозвољено да прихвате те ризике у име погођених појединаца.

група људи који се смеју

Подаци су синтетички, али наш тим је стваран!

Контактирајте Синтхо i jedan od naših stručnjaka će stupiti u kontakt sa vama brzinom svetlosti da istraži vrednost sintetičkih podataka!

  • Д. Реинсел, Ј. Гантз, Јохн Риднинг. Дигитализација света од ивице до језгра, Дата Аге 2025, 2018
  • Л. Свеенеи. к-анонимност: модел за заштиту приватности. Међународни часопис о неизвесности, замагљености и системима заснованим на знању, 10 (5), 2002: 557-570
  • Л. Свеенеи. Једноставна демографија често идентификује људе јединствено. Универзитет Царнегие Меллон, Радни документ о приватности података 3. Питтсбургх 2000
  • П. Самарати. Заштита идентитета испитаника при објављивању микроподатака. ИЕЕЕ Трансацтионс он Кновледге анд Дата Енгинееринг, 13 (6), 2001: 1010-1027
  • Атоцкар. Јахање са звездама: приватност путника у скупу података такси службе НИЦ, 2014
  • Нараианан, А., & Схматиков, В. (2008). Робусна де-анонимизација великих оскудних скупова података. У зборнику радова-ИЕЕЕ симпозијум о безбедности и приватности 2008, СП (стр. 111-125)
  • Општа уредба о заштити података (ГДПР), уводна изјава 26, не примјењује се на анонимне податке