Зашто класична анонимизација (и псеудонимизација) не резултира анонимним подацима

Шта је класична анонимизација?

Класичном анонимизацијом подразумевамо све методологије у којима се манипулише или искривљује оригинални скуп података како би се спречило праћење појединаца.

Типични примери класичне анонимизације које видимо у пракси су генерализација, потискивање / брисање, псеудонимизација и мешање редова и колона.

Овим техникама са одговарајућим примерима.

Техника Оригинални подаци Манипулирани подаци
Генерализација КСНУМКС година Између 25 и 30 година
Сузбијање / брисање инфо@синтхо.аи кккк@кккккк.кк
Псеудонимизација Амстердам хВФД6тд3јдХХј78гхдгревуи6
Мешање редова и колона Поравнање Схуффлед

Који су недостаци класичне анонимизације?

Манипулација скупом података са класичним техникама анонимизације доводи до два кључна недостатка:

  1. Изобличење скупа података доводи до смањења квалитета података (тј. Услужног програма за податке). Ово уводи класичан принцип одлагања смећа у смеће.
  2. Ризик приватности ће се смањити, али увек ће бити присутна. Остаје и манипулише верзија оригиналног скупа података са релацијама 1-1.

Показујемо та два кључна недостатка, корисност података и заштиту приватности. То чинимо следећом илустрацијом са примењеним потискивањем и уопштавањем.

Напомена: Слике користимо у илустративне сврхе. Исти принцип важи и за структуриране скупове података.

Класична анонимизација не успева
  • Лево: мала примена класичне анонимизације резултира репрезентативном илустрацијом. Међутим, појединац се лако може идентификовати, а ризик приватности је значајан.

 

  • Десно: тешка примена класичне анонимизације резултира снажном заштитом приватности. Међутим, илустрација постаје бескорисна.

Класичне технике анонимизације нуде субоптималну комбинацију између корисности података и заштите приватности.

Ово уводи компромис између корисности података и заштите приватности, где класичне технике анонимизације увек нуде субоптималну комбинацију оба. 

класична крива корисности анонимизације

Да ли је решење уклањање свих директних идентификатора (попут имена) из скупа података?

Не. Ово је велика заблуда и не резултира анонимним подацима. Да ли и даље примењујете ово као начин за анонимизацију вашег скупа података? Онда овај блог морате прочитати за вас.

По чему се синтетички подаци разликују?

Синтхо развија софтвер за генерисање потпуно новог скупа података свежих података. Подаци за идентификацију стварних појединаца једноставно нису присутни у синтетичком скупу података. Будући да синтетички подаци садрже умјетне записе података које генерира софтвер, лични подаци једноставно нису присутни што резултира ситуацијом без ризика по приватност.

Кључна разлика у компанији Синтхо: примењујемо машинско учење. Сходно томе, наше решење репродукује структуру и својства оригиналног скупа података у синтетичком скупу података што резултира максималном корисношћу података. Сходно томе, моћи ћете да добијете исте резултате приликом анализе синтетичких података у поређењу са употребом оригиналних података.

Ова студија случаја приказује врхунце из нашег извештаја о квалитету који садржи различите статистичке податке из синтетичких података генерисаних путем нашег Синтхо Енгине -а у поређењу са оригиналним подацима.

У закључку, синтетички подаци су пожељно решење за превазилажење типичног неоптималног компромиса између корисности података и заштите приватности, који вам нуде све класичне технике анонимизације.

класична крива корисности анонимизације

Дакле, зашто користити стварне (осетљиве) податке када можете користити синтетичке податке?

Закључно, са становишта корисности података и заштите приватности, увек се треба одлучити за синтетичке податке када то ваш случај употребе дозвољава.

 Вредност за анализуРизик приватности
Синтетички подацивисокниједан
Прави (лични) подацивисоквисок
Манипулирани подаци (путем класичне „анонимизације“)Ниско-средњиСредње високо
идеја

Синтетички подаци компаније Синтхо попуњавају празнине у којима класичне технике анонимизације недостају максимизирањем обоје дата-утилити   заштита приватности.

Заинтересовани?

Истражите додатну вредност синтетичких података са нама