Погоди кој? 5 примери зошто отстранувањето имиња не е опција

погоди кој игра

Вовед во Погоди кој

Погоди кој? Иако сум сигурен дека повеќето од вас ја знаат оваа игра одамна, еве кратка резиме. Целта на играта: откријте го името на цртаниот лик избран од вашиот противник со поставување прашања „да“ и „не“, како „дали лицето носи капа?“ или „дали лицето носи очила“? Играчите ги елиминираат кандидатите врз основа на одговорот на противникот и учат атрибути кои се однесуваат на мистериозниот карактер на нивниот противник. Првиот играч кој ќе го открие мистериозниот карактер на другиот играч ја добива играта.

Го сфативте. Мора да се идентификува поединецот надвор од базата на податоци со тоа што има само пристап до соодветните атрибути. Всушност, ние редовно го гледаме овој концепт на Погоди кој се применуваше во пракса, но потоа се користеше на сетови на податоци форматирани со редови и колони што содржат атрибути на вистински луѓе. Главната разлика при работа со податоци е дека луѓето имаат тенденција да ја потценат леснотијата со која вистинските поединци можат да бидат демаскирани со пристап до само неколку атрибути.

Како што илустрира играта „Погоди кој“, некој може да идентификува поединци со пристап до само неколку атрибути. Служи како едноставен пример зошто отстранувањето само на „имиња“ (или други директни идентификатори) од вашата база на податоци не успева како техника за анонимизација. На овој блог, ви нудиме четири практични случаи за да ве информираме за ризиците за приватност поврзани со отстранување на колоните како средство за анонимизација на податоците.

2) Напади за поврзување: вашата база на податоци поврзана со други (јавни) извори на податоци

Ризикот од напади на поврзување е најважната причина зошто само отстранувањето имиња не функционира (повеќе) како метод за анонимизација. Со напад за поврзување, напаѓачот ги комбинира оригиналните податоци со други достапни извори на податоци со цел уникатно да идентификува поединец и да научи (често чувствителни) информации за оваа личност.

Клучно овде е достапноста на други ресурси за податоци што се присутни сега или може да станат присутни во иднина. Размислете за себе. Колку ваши лични податоци може да се најдат на Фејсбук, Инстаграм или Линкдин, кои потенцијално би можеле да бидат злоупотребени за напад на поврзаност?

Во претходните денови, достапноста на податоците беше многу поограничена, што делумно објаснува зошто отстранувањето на имињата беше доволно за да се зачува приватноста на поединците. Помалку достапни податоци значат помалку можности за поврзување податоци. Меѓутоа, сега сме (активни) учесници во економија управувана од податоци, каде што количината на податоци расте со експоненцијална стапка. Повеќе податоци и подобрување на технологијата за собирање податоци ќе доведе до зголемен потенцијал за напади на поврзување. Што би напишал за 10 години за ризикот од напад на поврзаност?

Илустрација 1

Експоненцијално растечките податоци се факт

Количина на податоци

студија на случај

Свини (2002) демонстрираше во академски труд како успеала да ги идентификува и да ги преземе чувствителните медицински податоци од поединци врз основа на поврзување на јавниот достапен сет на податоци од „посети на болница“ со јавно достапниот регистратор на гласање во Соединетите држави. Двете групи на податоци се претпоставува дека се правилно анонимизирани преку бришење на имиња и други директни идентификатори.

Илустрација 2

Поврзување напад во пракса

Поврзување напад

Врз основа на само трите параметри (1) Поштенски код, (2) Пол и (3) Датум на раѓање, таа покажа дека 87% од целата популација во САД може да се препознае со спојување на гореспоменатите атрибути од двете групи на податоци. Свини потоа ја повтори својата работа со тоа што има „земја“ како алтернатива на „Поштенски код“. Дополнително, таа покажа дека 18% од целото американско население може да се идентификува само со пристап до базата на податоци што содржи информации за (1) матичната земја, (2) полот и (3) датум на раѓање. Размислете за гореспоменатите јавни извори, како Фејсбук, Линкдин или Инстаграм. Дали е видлива вашата земја, пол и датум на раѓање или дали другите корисници можат да го одземат?

Илустрација 3

Резултатите на Свини

Квази-идентификатори

% уникатно идентификувано американско население (248 милиони)

5-цифрен ZIP, пол, датум на раѓање

87%

место, пол, датум на раѓање

53%

земјата, пол, датум на раѓање

18%

Овој пример покажува дека е неверојатно лесно да се анонимизираат поединци во навидум анонимни податоци. Прво, оваа студија укажува на огромна големина на ризик, како што е 87% од американското население може лесно да се идентификува со употреба неколку карактеристикиНа Второ, изложените медицински податоци во оваа студија беа многу чувствителни. Примерите за податоците на експонираните лица од базата на податоци за посети во болница вклучуваат етничка припадност, дијагноза и лекови. Атрибути што некој повеќе може да ги чува во тајност, на пример, од осигурителните компании.

3) Информирани лица

Друг ризик да се отстранат само директните идентификатори, како што се имињата, настанува кога информираните лица имаат супериорно знаење или информации за особините или однесувањето на одредени лица во базата на податоциНа Врз основа на нивното знаење, тогаш напаѓачот може да поврзе специфични записи со податоци со вистински луѓе.

студија на случај

Пример за напад врз база на податоци користејќи супериорно знаење е случајот со такси во Yorkујорк, каде Атокар (2014) можеше да разоткрие одредени лица. Употребената база на податоци ги содржеше сите патувања со такси во Newујорк, збогатени со основни атрибути како што се координатите за почеток, крајните координати, цената и врвот на возењето.

Информиран поединец кој знае дека Newујорк успеа да направи такси патувања до клубот за возрасни „Хастлер“. Со филтрирање на „крајната локација“, тој ги изведе точните почетни адреси и со тоа идентификуваше различни чести посетители. Слично на тоа, може да се заклучи возење со такси кога се знаеше домашната адреса на лицето. Времето и локацијата на неколку славни филмски starsвезди беа откриени на озборувачки страници. По поврзувањето на оваа информација со податоците за такси во Cујорк, беше лесно да се изведат нивните возења со такси, сумата што ја платија и дали тие дадоа бакшиш.

Илустрација 4

Информирана индивидуа

координира отпуштање Hustler

Бредли Купер

такси и мапа

Џесика Алба

следење на мапи

4) Податоци како отпечаток од прст

Вообичаена аргументација е „овие податоци се безвредни“ или „никој не може да направи ништо со овие податоци“. Ова често е заблуда. Дури и најневините податоци можат да формираат уникатен „отпечаток од прст“ и да се користат за препознавање лица. Тоа е ризикот што произлегува од верувањето дека самите податоци се безвредни, додека не се.

Ризикот од идентификација ќе се зголеми со зголемување на податоците, вештачката интелигенција и други алатки и алгоритми кои овозможуваат откривање на сложени односи во податоците. Следствено, дури и ако вашата база на податоци не може да се открие сега, и веројатно е бескорисна за неовластени лица денес, можеби нема да биде утре.

студија на случај

Одличен пример е случајот кога Netflix имаше намера да го придружи својот оддел за истражување и развој со воведување отворен натпревар за Netflix за подобрување на нивниот систем за препорака на филмови. „Оној што го подобрува алгоритмот за филтрирање за соработка за да се предвидат оценките на корисниците за филмовите, добива награда од 1,000,000 американски долари“. Со цел да ја поддржи толпата, Netflix објави база на податоци што ги содржи само следниве основни атрибути: кориснички идентитет, филм, датум на оценка и одделение (така што нема дополнителни информации за корисникот или самиот филм).

Илустрација 5

Структура на бази на податоци Нетфликс цена

Корисничка идентификација Филм Датум на одделение Одделение
123456789 Невозможна мисија 10-12-2008 4

Во изолација, податоците изгледаа залудни. Кога го поставувате прашањето „Дали има податоци за клиентите во базата на податоци што треба да се чуваат приватни?“, Одговорот беше:

 „Не, сите информации за идентификација на клиентите се отстранети; останува само рејтингот и датумите. Ова ја следи нашата политика за приватност ... '

Сепак, Нарајанан (2008) од Универзитетот во Тексас во Остин го докажа спротивното. Комбинацијата на оценки, датум на оценување и филм на поединец формира уникатен филмски отпечаток од прст. Размислете за сопственото однесување на Netflix. Што мислите, колку луѓе гледале ист сет филмови? Колкумина гледаа ист сет филмови во исто време?

Главно прашање, како да се совпадне со овој отпечаток од прст? Беше прилично едноставно. Врз основа на информациите од добро познатата веб-страница за рејтинг на филмови IMDb (Интернет база на податоци за филмови), може да се формира сличен отпечаток од прст. Следствено, поединците би можеле повторно да се идентификуваат.

Иако однесувањето на гледање филмови можеби не се претпоставува како чувствителна информација, размислете за сопственото однесување-дали би ви пречело да излезе во јавност? Примери што Нарајанан ги наведе во својот труд се политичките преференции (оценки за „Исус од Назарет“ и „Евангелието по Јован“) и сексуални преференции (оценки за „Свиткани“ и „Квир како народни“) што може лесно да се дестилираат.

5) Општа регулатива за заштита на податоци (GDPR)

GDPR можеби не е супер возбудлив, ниту сребрениот куршум меѓу темите на блогот. Сепак, корисно е да се добијат директно дефинициите при обработка на лични податоци. Бидејќи овој блог е за вообичаената заблуда за отстранување колони како начин за анонимизирање на податоците и за да ве едуцира како процесор на податоци, да започнеме со истражување на дефиницијата за анонимизација според GDPR. 

Според рециталот 26 од ГДПР, анонимизираните информации се дефинираат како:

„информации што не се однесуваат на идентификувано или препознатливо физичко лице или лични податоци дадени анонимни на таков начин што субјектот на податоците не е или повеќе не може да се идентификува.“

Бидејќи се обработуваат лични податоци што се однесуваат на физичко лице, само дел 2 од дефиницијата е релевантен. За да се усогласи со дефиницијата, треба да се осигура дека субјектот на податоците (индивидуално) не е или повеќе не може да се идентификува. Како што е наведено во овој блог, сепак, неверојатно е едноставно да се идентификуваат поединци врз основа на неколку атрибути. Значи, отстранувањето на имињата од базата на податоци не е во согласност со дефиницијата за анонимизација на GDPR.

Во заклучок

Го оспоривме еден вообичаен и, за жал, с still уште често применуван пристап за анонимизација на податоците: отстранување на имиња. Во играта Погоди кој и четири други примери за:

  • Поврзани напади
  • Информирани лица
  • Податоци како отпечаток од прст
  • Општи регулативи за заштита на податоците (GDPR)

се покажа дека отстранувањето на имињата не успева како анонимизација. Иако примерите се впечатливи случаи, секој од нив ја покажува едноставноста на повторната идентификација и потенцијалното негативно влијание врз приватноста на поединците.

Како заклучок, отстранувањето на имињата од вашата база на податоци не резултира со анонимни податоци. Затоа, подобро е да избегнеме да ги користиме двата термина наизменично. Искрено се надевам дека нема да го примените овој пристап за анонимизација. И, ако с do уште го правите тоа, осигурајте се дека вие и вашиот тим целосно ги разбирате ризиците за приватност и дали ви е дозволено да ги прифатите тие ризици во име на засегнатите лица.

група на луѓе кои се смешкаат

Податоците се синтетички, но нашиот тим е реален!

Контактирајте со Синто и еден од нашите експерти ќе стапи во контакт со вас со брзина на светлината за да ја истражи вредноста на синтетичките податоци!

  • D. Reinsel, J. Gantz, John Rydning. Дигитализација на светот од работ до јадро, доба на податоци 2025 година, 2018 година
  • Л. Свини. к-анонимност: модел за заштита на приватноста. Меѓународен весник за несигурност, замаглување и системи базирани на знаење, 10 (5), 2002: 557-570
  • Л. Свини. Едноставната демографија честопати ги идентификува луѓето единствено. Универзитет Карнеги Мелон, работен труд за приватност на податоците 3. Питсбург 2000 година
  • П. Самарати. Заштита на идентитетот на испитаниците во објавувањето на микродата. Трансакции на IEEE за знаење и инженерство на податоци, 13 (6), 2001: 1010-1027
  • Атокар. Возење со Stвездите: Приватност на патниците во базата на податоци Таксик во NYујорк, 2014 година
  • Нарајанан, А., и Шматиков, В. (2008). Робусна де-анонимизација на големи ретки сетови на податоци. Во зборници-2008 IEEE симпозиум за безбедност и приватност, СП (стр. 111-125)
  • Општа регулатива за заштита на податоци (GDPR), Рецитал 26, Не се применува за анонимни податоци