Зошто класичната анонимизација (и псевдонимизација) не резултира со анонимни податоци

Овој блог ги опфаќа следниве теми:

Што е класична анонимизација?
Кои се недостатоците на класичната анонимизација?
Зошто класичните техники за анонимизација нудат неоптимална комбинација помеѓу корисноста на податоците и заштитата на приватноста?.
Како се разликуваат синтетичките податоци?
Зошто с use уште користите лични податоци ако можете да користите синтетички податоци?

Што е класична анонимизација?

Со класичната анонимизација, ние ги подразбираме сите методологии каде што некој манипулира или искривува оригинална база на податоци за да го спречи пронаоѓањето на поединци.

Типични примери за класична анонимизација што ги гледаме во пракса се генерализација, сузбивање / бришење, псевдонимизација и мешање на редови и колони.

Со тоа тие техники со соодветни примери.

Техника	Оригинални податоци	Манипулирани податоци
Генерализација	27 години	Помеѓу 25 и 30 години
Сузбивање / бришење	info@syntho.ai	xxxx@xxxxxx.xx
Псевдонимизација	Амстердам	hVFD6td3jdHHj78ghdgrewui6
Мешање на редови и колони	Подредени	Измешано

Кои се недостатоците на класичната анонимизација?

Манипулирањето со база на податоци со класични техники за анонимизација резултира со 2 клучни недостатоци:

Искривувањето на базата на податоци резултира со намален квалитет на податоците (т.е. корисноста на податоците). Ова го воведува класичниот принцип ѓубре-во ѓубре-исфрлање.
Ризик за приватност ќе се намали, но секогаш ќе биде присутенНа Останува и манипулира со верзијата на оригиналната база на податоци со односи 1-1.

Ги прикажуваме тие 2 клучни недостатоци, корисноста на податоците и заштитата на приватноста. Тоа го правиме со следнава илустрација со применета сузбивање и генерализација.

Забелешка: ние користиме слики за илустративни цели. Истиот принцип важи и за структурирани групи на податоци.

Лево: малата примена на класичната анонимизација резултира со репрезентативна илустрација. Сепак, поединецот лесно може да се идентификува и ризикот за приватност е значаен.

Право: строгата примена на класичната анонимизација резултира со силна заштита на приватноста. Сепак, илустрацијата станува бескорисна.

Класичните техники за анонимизација нудат неоптимална комбинација помеѓу корисноста на податоците и заштитата на приватноста.

Ова воведува компромис помеѓу корисноста на податоците и заштитата на приватноста, каде класичните техники за анонимизација секогаш нудат субоптимална комбинација од двете.

Дали отстранувањето на сите директни идентификатори (како што се имињата) од базата на податоци е решение?

Не. Ова е голема заблуда и не резултира со анонимни податоци. Дали с still уште го применувате ова како начин за анонимизација на вашата база на податоци? Тогаш овој блог мора да го прочитате за вас.

Како се разликуваат синтетичките податоци?

Syntho развива софтвер за генерирање на целосно нова база на податоци со нови записи. Информациите за идентификација на вистински поединци едноставно не се присутни во синтетички бази на податоци. Бидејќи синтетичките податоци содржат вештачки записи за податоци генерирани од софтвер, личните податоци едноставно не се присутни што резултира во ситуација без ризици за приватност.

Клучната разлика во Syntho: ние применуваме машинско учење. Следствено, нашето решение ја репродуцира структурата и својствата на оригиналната база на податоци во синтетичката база на податоци што резултира со максимизирана корисност за податоци. Според тоа, ќе можете да ги добиете истите резултати при анализа на синтетичките податоци во споредба со користењето на оригиналните податоци.

Оваа студија на случај ги прикажува најважните моменти од нашиот извештај за квалитет што содржи различни статистики од синтетички податоци генерирани преку нашиот Syntho Engine во споредба со оригиналните податоци.

Како заклучок, синтетичките податоци се најпосакуваното решение за надминување на типичната под-оптимална размена помеѓу корисноста на податоците и заштитата на приватноста, што ви ја нудат сите класични техники за анонимизација.

Значи, зошто да користите вистински (чувствителни) податоци кога можете да користите синтетички податоци?

Како заклучок, од аспект на корисноста на податоците и заштитата на приватноста, секогаш треба да се одлучите за синтетички податоци кога вашиот случај на употреба го дозволува тоа.

	Вредност за анализа	Ризик за приватност
Синтетички податоци	Високо	Никој
Вистински (лични) податоци	Високо	Високо
Манипулирани податоци (преку класична „анонимизација“)	Ниско-средно	Средно високо

Синтетичките податоци на Синто ги пополнуваат празнините каде класичните техники на анонимизација се кратки со максимизирање на двете корисноста на податоците заштита на приватноста.

Заинтересирани?

Истражете ја додадената вредност на синтетички податоци со нас

РЕЗЕРВИРАЈ ДЕМО

Што се синтетички податоци?

Извештај за обезбедување квалитет

Надворешна евалуација од САС

Синтетички податоци за временски серии

PII скенер

Синтетички лажни податоци

Конзистентно мапирање

Деидентификација и синтетизација

Синтетички податоци засновани на правила

Подпоставување

Распоредување и интеграција

конектори

Проширени карактеристики

Поддржани податоци

Корисничка документација

Закажете демо

Цени

Синтетички податоци како податоци за тестирање

Синтетички податоци за аналитика

Синтетички податоци за споделување податоци

Синтетички податоци за демонстрации на производи

Здравствена заштита

Финансирање на

Јавни организации

Корисничка документација

Бела книга и водичи

Блог

Webinars

Студии на случај