Со класичната анонимизација, ние ги подразбираме сите методологии каде што некој манипулира или искривува оригинална база на податоци за да го спречи пронаоѓањето на поединци.
Типични примери за класична анонимизација што ги гледаме во пракса се генерализација, сузбивање / бришење, псевдонимизација и мешање на редови и колони.
Со тоа тие техники со соодветни примери.
Техника | Оригинални податоци | Манипулирани податоци |
Генерализација | 27 години | Помеѓу 25 и 30 години |
Сузбивање / бришење | info@syntho.ai | xxxx@xxxxxx.xx |
Псевдонимизација | Амстердам | hVFD6td3jdHHj78ghdgrewui6 |
Мешање на редови и колони | Подредени | Измешано |
Манипулирањето со база на податоци со класични техники за анонимизација резултира со 2 клучни недостатоци:
Ги прикажуваме тие 2 клучни недостатоци, корисноста на податоците и заштитата на приватноста. Тоа го правиме со следнава илустрација со применета сузбивање и генерализација.
Забелешка: ние користиме слики за илустративни цели. Истиот принцип важи и за структурирани групи на податоци.
Ова воведува компромис помеѓу корисноста на податоците и заштитата на приватноста, каде класичните техники за анонимизација секогаш нудат субоптимална комбинација од двете.
Не. Ова е голема заблуда и не резултира со анонимни податоци. Дали с still уште го применувате ова како начин за анонимизација на вашата база на податоци? Тогаш овој блог мора да го прочитате за вас.
Syntho развива софтвер за генерирање на целосно нова база на податоци со нови записи. Информациите за идентификација на вистински поединци едноставно не се присутни во синтетички бази на податоци. Бидејќи синтетичките податоци содржат вештачки записи за податоци генерирани од софтвер, личните податоци едноставно не се присутни што резултира во ситуација без ризици за приватност.
Клучната разлика во Syntho: ние применуваме машинско учење. Следствено, нашето решение ја репродуцира структурата и својствата на оригиналната база на податоци во синтетичката база на податоци што резултира со максимизирана корисност за податоци. Според тоа, ќе можете да ги добиете истите резултати при анализа на синтетичките податоци во споредба со користењето на оригиналните податоци.
Оваа студија на случај ги прикажува најважните моменти од нашиот извештај за квалитет што содржи различни статистики од синтетички податоци генерирани преку нашиот Syntho Engine во споредба со оригиналните податоци.
Како заклучок, синтетичките податоци се најпосакуваното решение за надминување на типичната под-оптимална размена помеѓу корисноста на податоците и заштитата на приватноста, што ви ја нудат сите класични техники за анонимизација.
Како заклучок, од аспект на корисноста на податоците и заштитата на приватноста, секогаш треба да се одлучите за синтетички податоци кога вашиот случај на употреба го дозволува тоа.
Вредност за анализа | Ризик за приватност | |
Синтетички податоци | Високо | Никој |
Вистински (лични) податоци | Високо | Високо |
Манипулирани податоци (преку класична „анонимизација“) | Ниско-средно | Средно високо |
Синтетичките податоци на Синто ги пополнуваат празнините каде класичните техники на анонимизација се кратки со максимизирање на двете корисноста на податоците заштита на приватноста.