Ким экенин тап? 5 мисал, эмне үчүн ысымдарды алып салуу мүмкүн эмес

кимдин оюнун билгиле

Guess Who менен таанышуу

Ким экенин тап? Көпчүлүгүңүз бул оюнду мурунтан эле билерине ишенем, бирок кыскача кыскача. Оюндун максаты: "Ооба" жана "Жок" деген суроолорду берип, каршылашыңыз тандаган мультфильм каарманы атын табыңыз, "адам шляпа кийеби?" же 'адам көз айнек тагынабы'? Оюнчулар атаандашынын жообунун негизинде талапкерлерди жок кылып, атаандашынын сырдуу мүнөзүнө тиешелүү атрибуттарды үйрөнүшөт. Экинчи оюнчунун табышмактуу мүнөзүн түшүнгөн биринчи оюнчу оюнду утуп алат.

Сиз түшүндүңүз. Тиешелүү атрибуттарга гана жетүү менен, инсанды маалымат базасынан аныктоо керек. Чынында, биз бул концепцияны үзгүлтүксүз көрөбүз, ким практикада колдонулган, бирок анда чыныгы адамдардын атрибуттарын камтыган саптар жана мамылар менен форматталган маалымат топтомдорунда колдонулат. Берилиштер менен иштөөнүн негизги айырмасы, адамдар бир нече атрибуттарга гана ээ болуу менен чыныгы инсандардын бетин ачуу оңой экендигин баалабайт.

Guess Who оюнунан көрүнүп тургандай, кимдир бирөө бир нече атрибутка гана ээ болуу менен инсанды аныктай алат. Бул сиздин маалымат топтомуңуздан "аттарды" (же башка түз идентификаторлорду) алып салуу анонимдештирүү ыкмасы катары ишке ашпай калуусунун жөнөкөй мисалы катары кызмат кылат. Бул блогдо биз маалыматтарды анонимдештирүү каражаты катары мамычаларды алып салуу менен байланышкан купуялык тобокелчиликтери жөнүндө сизге маалымат берүү үчүн төрт практикалык ишти сунуштайбыз.

2) Байланыш чабуулдары: башка (коомдук) маалымат булактарына шилтемеленген маалымат базаңыз

Байланыш чабуулдарынын коркунучу - анонимдештирүү ыкмасы катары аттарды алып салуу (мындан ары) иштебей тургандыгынын эң маанилүү себеби. Байланыш чабуулу менен, чабуулчу инсанды уникалдуу идентификациялоо жана бул адам жөнүндө маалыматты (көбүнчө сезимтал) билүү үчүн баштапкы маалыматтарды башка жеткиликтүү маалымат булактары менен бириктирет.

Бул жерде негизги нерсе - азыр бар же келечекте болушу мүмкүн болгон башка маалымат булактарынын болушу. Өзүң жөнүндө ойлон. Facebook, Instagram же LinkedInден жеке маалыматыңыздын канчасы табылышы мүмкүн, бул шилтеме чабуулу үчүн кыянаттык менен пайдаланылышы мүмкүн?

Мурунку күндөрдө маалыматтын жеткиликтүүлүгү кыйла чектелүү болчу, бул жарым -жартылай фамилиялардын жеке жашоосун сактоо үчүн жетиштүү болгонун түшүндүрөт. Жеткиликтүү маалыматтар азыраак, маалыматтарды байланыштыруу мүмкүнчүлүктөрү аз. Бирок, биз азыр (активдүү) маалыматтарга негизделген экономиканын катышуучуларыбыз, бул жерде маалыматтардын саны экспоненциалдык ылдамдыкта өсүүдө. Көбүрөөк маалымат жана маалыматтарды чогултуу технологиясын жакшыртуу байланыш чабуулдарынын потенциалын жогорулатат. Байланыш чабуулунун коркунучу жөнүндө 10 жылда ким жазмак эле?

Illustration 1

Экспоненциалдуу түрдө өсүп жаткан маалыматтар - бул факт

Маалыматтардын көлөмү

Case изилдөө

Свини (2002) академиялык иш кагазында ал "ооруканага баруунун" жалпыга жеткиликтүү маалымат топтомун Америка Кошмо Штаттарындагы жалпыга жеткиликтүү добуш берүүчү каттоочуга байланыштыруунун негизинде жеке адамдардын купуя медициналык маалыматтарын кантип аныктоону жана алууну көрсөткөнүн көрсөткөн. Ысымдарды жана башка түз идентификаторлорду жок кылуу аркылуу анонимдүү деп болжолдонгон эки маалымат топтому.

Illustration 2

Иш жүзүндө байланыш чабуулу

Link Attack

Үч параметрдин негизинде (1) Почта индекси, (2) Жынысы жана (3) Туулган күнү, ал АКШ калкынын 87% ын эки маалымат топтомунан жогоруда айтылган атрибуттарды дал келтирүү аркылуу кайра идентификациялоого болорун көрсөттү. Свини андан кийин "почталык кодго" альтернатива катары "өлкө" менен болгон ишин кайталады. Кошумча катары, ал АКШ калкынын 18% ын (1) өз өлкөсү, (2) жынысы жана (3) туулган датасы жөнүндө маалыматты камтыган маалымат топтомуна кирүү аркылуу гана аныктоого болорун көрсөттү. Facebook, LinkedIn же Instagram сыяктуу жогоруда айтылган коомдук булактар ​​жөнүндө ойлонуп көрүңүз. Сиздин өлкөңүз, жынысыңыз жана туулган күнүңүз көрүнүп турабы же башка колдонуучулар аны чыгарып сала алабы?

Illustration 3

Суини жыйынтыктары

Квази-идентификаторлор

% АКШ калкынын уникалдуу аныкталган (248 миллион)

5 орундуу ZIP, жынысы, туулган күнү

87%

орун, жынысы, туулган күнү

53%

мамлекет, жынысы, туулган күнү

18%

Бул мисал анонимдүү көрүнгөн маалыматтарда анонимдүүлүктү жашыруу абдан оңой экенин көрсөтүп турат. Биринчиден, бул изилдөө чоң тобокелдикти көрсөтүп турат АКШ калкынын 87% ын оңой эле аныктаса болот бир нече өзгөчөлүктөр. Экинчиден, бул изилдөөдө ачык медициналык маалыматтар өтө сезимтал болгон. Ооруканага баргандардын маалымат топтомуна кабылган адамдардын мисалдарына улуту, диагнозу жана дары -дармектери кирет. Мисалы, камсыздандыруу компанияларынан жашыруун сактала турган атрибуттар.

3) кабардар болгон адамдар

Аты -жөнү сыяктуу түздөн -түз идентификаторлорду алып салуунун дагы бир коркунучу маалыматтуулардын маалымат базасында белгилүү бир инсандардын сапаттары же жүрүм -туруму жөнүндө жогорку билимге же маалыматка ээ болгондо пайда болот.. Билимине таянып, чабуулчу белгилүү бир маалымат жазууларын чыныгы адамдарга байланыштыра алат.

Case изилдөө

Жогорку билимди колдонуп, маалымат базасына кол салуунун мисалы, Нью -Йорктогу такси корпусу, мында Atockar (2014) конкреттүү адамдарды ачып көрсөтө алган. Иштелген маалымат базасында Нью -Йорктогу бардык такси саякаттары камтылган, алар баштапкы координаттар, аяктоочу координаттар, баалар жана сапардын учу сыяктуу негизги атрибуттар менен байытылган.

Нью -Йоркту билген, маалыматы бар адам "Hustler" чоңдор клубуна такси менен бара алган. "Акыркы жерди" чыпкалоо менен, ал так баштоо даректерин чыгарып, ошону менен ар кандай тез -тез келгендерди аныктады. Ошо сыяктуу эле, адамдын үйүнүн дареги белгилүү болгондо таксиде жүрүүгө болот. Бир нече атактуу кино жылдыздарынын убактысы жана орду ушак сайттарынан табылган. Бул маалыматты Нью -Йорктогу такси маалыматтарына байланыштыргандан кийин, алардын таксиде жүрүүсүн, төлөгөн суммасын жана учуп кетишкенин билүү оңой болду.

Illustration 4

Билимдүү инсан

түшүрүү координаттары Хустлер

Брэдли Купер

такси жана карта

Джессика Бил

карталарды көзөмөлдөө

4) Маалыматтар манжа изи катары

Аргументтердин жалпы линиясы "бул маалыматтар эч нерсеге арзыбайт" же "бул маалыматтар менен эч ким эч нерсе кыла албайт". Бул көбүнчө туура эмес түшүнүк. Ал тургай эң күнөөсүз маалыматтар да уникалдуу "манжа изин" түзүп, адамдарды кайра идентификациялоо үчүн колдонулушу мүмкүн. Бул маалыматтын өзү эч нерсеге жарабайт деген ишенимден келип чыккан коркунуч.

Идентификациялоо коркунучу маалыматтардын, AIдин жана башка инструменттердин жана маалыматтардын татаал мамилелеринин ачылышын камсыз кылган алгоритмдердин көбөйүшү менен жогорулайт. Демек, сиздин маалымат базаңызды азыр ачуу мүмкүн болбосо да жана бүгүн уруксатсыз адамдар үчүн жараксыз болуп калса да, эртең жок болушу мүмкүн.

Case изилдөө

Мыкты мисал Netflix өзүнүн кинолорун сунуштоо системасын жакшыртуу үчүн Netflixтин ачык конкурсун киргизүү аркылуу өзүнүн R&D бөлүмүн краудсорсинг кылууну көздөгөн учур. "Фильмдердин колдонуучуларынын рейтингин алдын ала билүү үчүн биргелешкен чыпкалоо алгоритмин өркүндөткөн адам US $ 1,000,000 сыйлыгын алат". Элди колдоо максатында, Netflix төмөнкү негизги атрибуттарды камтыган маалымат топтомун жарыялады: userID, кино, класстын датасы жана классы (андыктан колдонуучу же тасманын өзү жөнүндө кошумча маалымат жок).

Illustration 5

Dataset структурасы Netflix баасы

UserID Movie Класстын датасы класс
123456789 Мүмкүн эмес миссия 10-12-2008 4

Бөлүнгөндө маалыматтар пайдасыз болуп чыкты. 'Жеке маалымат сакталууга тийиш болгон кардар маалыматы барбы?' Деген суроону бергенде, жооп мындай болгон:

 'Жок, кардарды аныктоочу маалыматтын баары алынып салынды; рейтингдер жана даталар гана калды. Бул биздин купуялык саясатыбызга ылайык келет ... '

Бирок, Остиндеги Техас университетинен Нараянан (2008) башкача далилдеди. Баалардын, класстын датасынын жана инсандын киносунун айкалышы уникалдуу кино манжа изин түзөт. Өзүңүздүн Netflix жүрүм -турумуңуз жөнүндө ойлонуп көрүңүз. Сиздин оюңузча, бир эле тасманы канча адам көргөн? Канча кино бир эле топтомду бир убакта көрдү?

Негизги суроо, бул манжа изине кантип дал келет? Бул абдан жөнөкөй болчу. Белгилүү IMDb (Internet Movie Database) кино-рейтинг сайтынан алынган маалыматтын негизинде ушундай манжа изи түзүлүшү мүмкүн. Натыйжада, инсанды кайра таанууга болот.

Кино көрүү жүрүм-туруму купуя маалымат катары каралбаса да, өзүңүздүн жүрүм-турумуңуз жөнүндө ойлонуп көрүңүз-эгер ал ачыкка чыкса каршы эмеспизби? Нараянандын кагазында келтирилген мисалдар - бул саясий артыкчылыктар ("Назареттик Иса" жана "Жакандын Инжили" боюнча рейтингдер) жана сексуалдык каалоолор ("Бент" жана "Эл катары Queer" боюнча рейтингдер), алар оңой эле тазаланат.

5) Жалпы маалыматтарды коргоо жөнгө салуу (GDPR)

GDPR блогдун темаларынын арасында өтө кызыктуу же күмүш ок болушу мүмкүн эмес. Бирок, жеке маалыматтарды иштеп жатканда аныктамаларды алуу оңой. Бул блог маалыматтарды анонимдештирүү жана сизди маалымат процессору катары тарбиялоо үчүн мамычаларды алып салуу жөнүндө жалпы туура эмес түшүнүк жөнүндө болгондуктан, келгиле, GDPR боюнча анонимизациянын аныктамасын изилдеп көрөлү. 

GDPRдан алынган 26 -рециталга ылайык, анонимдүү маалымат төмөнкүчө аныкталат:

"Идентификацияланган же идентификацияланган жеке адамга же жеке маалыматка тиешеси жок маалымат анонимдүү түрдө берилип, маалымат субъекти аныкталбай калат же мындан ары аныкталбайт."

Жеке адамга тиешелүү жеке маалыматтарды иштеткендиктен, аныктаманын 2 -бөлүгү гана тиешелүү. Аныктамага ылайык келүү үчүн, маалымат субъектиси (индивидуал) аныкталбай турганын же мындан ары идентификацияланышын камсыз кылуусу керек. Бул блогдо айтылгандай, бирок, бир нече сыпаттардын негизинде адамдарды аныктоо өтө жөнөкөй. Ошентип, маалымат топтомунан аттарды алып салуу анонимизациянын GDPR аныктамасына туура келбейт.

Аягында

Биз маалымат анонимдештирүүнүн кеңири таралган жана тилекке каршы дагы эле көп колдонулган ыкмасына каршы чыктык: аттарды алып салуу. Guess Who оюнунда жана дагы төрт мисал жөнүндө:

  • Байланыш чабуулдары
  • Билдирилген инсандар
  • Манжа изи катары маалыматтар
  • Жалпы маалыматтар коргоо жобо (GDPR)

аттарды алып салуу анонимдүүлүк катары ишке ашпай тургандыгы көрсөтүлгөн. Мисалдар таң калыштуу учурлар болгону менен, ар бири кайра идентификациялоонун жөнөкөйлүгүн көрсөтөт жеке адамдардын жеке жашоосуна терс таасирин тийгизет.

Жыйынтыктап айтканда, маалымат базасынан аттарды алып салуу анонимдүү маалыматтарга алып келбейт. Демек, биз эки терминди тең алмаштырып колдонуудан оолак болушубуз керек. Сиз анонимдүүлүк үчүн бул ыкманы колдонбойсуз деп терең ишенем. Жана дагы деле болсоңуз, анда сиз жана сиздин командаңыз купуялуулуктун коркунучун толук түшүнүүсүн жана жабыр тарткан адамдардын атынан бул тобокелдиктерди кабыл алууга уруксат берилишин камсыз кылыңыз.

жылмайган адамдардын тобу

Маалыматтар синтетикалык, бирок биздин команда реалдуу!

Байланыш Syntho жана биздин адистердин бири синтетикалык маалыматтардын баалуулугун изилдөө үчүн жарык ылдамдыгы менен сиз менен байланышат!

  • D. Рейнсел, Дж. Ганц, Джон Райдинг. Дүйнөнүн четинен цифрлашуусу, Маалымат доору 2025, 2018
  • L. Sweeney. к-анонимдүүлүк: купуялуулукту коргоо үчүн модель. Эл аралык белгисиздик, бүдөмүк жана билимге негизделген системалар боюнча журнал, 10 (5), 2002: 557-570
  • L. Sweeney. Жөнөкөй демография көбүнчө адамдарды уникалдуу түрдө аныктайт. Карнеги Меллон Университети, Маалыматтардын Купуялыгынын Иш кагазы 3. Питтсбург 2000
  • P. Samarati. Микродеректерди чыгарууда респонденттердин инсандыгын коргоо. Билим жана маалымат инженериясы боюнча IEEE операциялары, 13 (6), 2001: 1010-1027
  • Atockar. Жылдыздар менен жүрүү: NYC Taxicab маалымат базасында жүргүнчүлөрдүн купуялыгы, 2014
  • Narayanan, A., & Shmatikov, V. (2008). Чоң сейрек маалымат топторунун күчтүү анонимдүүлүгү. Иштөөдө-2008 IEEE коопсуздук жана купуялык боюнча симпозиуму, SP (111-125-б.)
  • Жалпы маалыматты коргоо жөнгө салуу (GDPR), Recital 26, анонимдүү маалыматтарга колдонулбайт