Зошто класичната анонимизација (и псевдонимизација) не резултира со анонимни податоци

Што е класична анонимизација?

Со класичната анонимизација, ние ги подразбираме сите методологии каде што некој манипулира или искривува оригинална база на податоци за да го спречи пронаоѓањето на поединци.

Типични примери за класична анонимизација што ги гледаме во пракса се генерализација, сузбивање / бришење, псевдонимизација и мешање на редови и колони.

Со тоа тие техники со соодветни примери.

Техника Оригинални податоци Манипулирани податоци
Генерализација 27 години Помеѓу 25 и 30 години
Сузбивање / бришење info@syntho.ai xxxx@xxxxxx.xx
Псевдонимизација Амстердам hVFD6td3jdHHj78ghdgrewui6
Мешање на редови и колони Подредени Измешано

Кои се недостатоците на класичната анонимизација?

Манипулирањето со база на податоци со класични техники за анонимизација резултира со 2 клучни недостатоци:

  1. Искривувањето на базата на податоци резултира со намален квалитет на податоците (т.е. корисноста на податоците). Ова го воведува класичниот принцип ѓубре-во ѓубре-исфрлање.
  2. Ризик за приватност ќе се намали, но секогаш ќе биде присутенНа Останува и манипулира со верзијата на оригиналната база на податоци со односи 1-1.

Ги прикажуваме тие 2 клучни недостатоци, корисноста на податоците и заштитата на приватноста. Тоа го правиме со следнава илустрација со применета сузбивање и генерализација.

Забелешка: ние користиме слики за илустративни цели. Истиот принцип важи и за структурирани групи на податоци.

Класичната анонимизација не успее
  • Лево: малата примена на класичната анонимизација резултира со репрезентативна илустрација. Сепак, поединецот лесно може да се идентификува и ризикот за приватност е значаен.

 

  • Право: строгата примена на класичната анонимизација резултира со силна заштита на приватноста. Сепак, илустрацијата станува бескорисна.

Класичните техники за анонимизација нудат неоптимална комбинација помеѓу корисноста на податоците и заштитата на приватноста.

Ова воведува компромис помеѓу корисноста на податоците и заштитата на приватноста, каде класичните техники за анонимизација секогаш нудат субоптимална комбинација од двете. 

класична користна крива на анонимизација

Дали отстранувањето на сите директни идентификатори (како што се имињата) од базата на податоци е решение?

Не. Ова е голема заблуда и не резултира со анонимни податоци. Дали с still уште го применувате ова како начин за анонимизација на вашата база на податоци? Тогаш овој блог мора да го прочитате за вас.

Како се разликуваат синтетичките податоци?

Syntho развива софтвер за генерирање на целосно нова база на податоци со нови записи. Информациите за идентификација на вистински поединци едноставно не се присутни во синтетички бази на податоци. Бидејќи синтетичките податоци содржат вештачки записи за податоци генерирани од софтвер, личните податоци едноставно не се присутни што резултира во ситуација без ризици за приватност.

Клучната разлика во Syntho: ние применуваме машинско учење. Следствено, нашето решение ја репродуцира структурата и својствата на оригиналната база на податоци во синтетичката база на податоци што резултира со максимизирана корисност за податоци. Според тоа, ќе можете да ги добиете истите резултати при анализа на синтетичките податоци во споредба со користењето на оригиналните податоци.

Оваа студија на случај ги прикажува најважните моменти од нашиот извештај за квалитет што содржи различни статистики од синтетички податоци генерирани преку нашиот Syntho Engine во споредба со оригиналните податоци.

Како заклучок, синтетичките податоци се најпосакуваното решение за надминување на типичната под-оптимална размена помеѓу корисноста на податоците и заштитата на приватноста, што ви ја нудат сите класични техники за анонимизација.

класична користна крива на анонимизација

Значи, зошто да користите вистински (чувствителни) податоци кога можете да користите синтетички податоци?

Како заклучок, од аспект на корисноста на податоците и заштитата на приватноста, секогаш треба да се одлучите за синтетички податоци кога вашиот случај на употреба го дозволува тоа.

 Вредност за анализаРизик за приватност
Синтетички податоциВисокоНикој
Вистински (лични) податоциВисокоВисоко
Манипулирани податоци (преку класична „анонимизација“)Ниско-средноСредно високо
идеја

Синтетичките податоци на Синто ги пополнуваат празнините каде класичните техники на анонимизација се кратки со максимизирање на двете корисноста на податоците   заштита на приватноста.

Заинтересирани?

Истражете ја додадената вредност на синтетички податоци со нас