Защо класическата анонимизация (и псевдонимизацията) не води до анонимни данни

Какво е класическа анонимизация?

С класическата анонимизация ние предполагаме всички методологии, при които човек манипулира или изкривява оригинален набор от данни, за да възпрепятства проследяването на отделни лица.

Типични примери за класическа анонимизация, които виждаме на практика, са обобщаване, потискане / изтриване, псевдонимизация и разбъркване на редове и колони.

С тези техники със съответни примери.

Техника Оригинални данни Манипулирани данни
Обобщение 27 година Между 25 и 30 години
Потискане / изтриване info@syntho.ai xxxx@xxxxxx.xx
Псевдонимизация Амстердам hVFD6td3jdHHj78ghdgrewui6
Разбъркване на редове и колони Наравно Разбъркано

Какви са недостатъците на класическата анонимизация?

Манипулирането на набор от данни с класически техники за анонимизация води до 2 ключови недостатъка:

  1. Изкривяването на набор от данни води до намаляване на качеството на данните (т.е. помощната програма за данни). Това въвежда класическия принцип за изхвърляне на боклук.
  2. Риск за поверителност ще бъде намален, но винаги ще присъства. Той остава и манипулирана версия на оригиналния набор от данни с релации 1-1.

Ние демонстрираме тези 2 основни недостатъка, полезността на данните и защитата на поверителността. Правим това със следната илюстрация с приложено потискане и обобщение.

Забележка: използваме изображения за илюстративни цели. Същият принцип важи и за структурираните масиви от данни.

Класическата анонимизация се проваля
  • Наляво: малко приложение на класическата анонимизация води до представителна илюстрация. Въпреки това, човек може лесно да бъде идентифициран и рискът за поверителността е значителен.

 

  • Право: строгото прилагане на класическа анонимизация води до силна защита на поверителността. Илюстрацията обаче става безполезна.

Класическите техники за анонимизация предлагат неоптимална комбинация между полезност на данни и защита на поверителността.

Това въвежда компромиса между помощната програма за данни и защитата на поверителността, където класическите техники за анонимизация винаги предлагат неоптимална комбинация от двете. 

класическа крива на полезност за анонимизиране

Дали премахването на всички директни идентификатори (като имена) от набора от данни е решение?

Не. Това е голямо погрешно схващане и не води до анонимни данни. Прилагате ли това все още като начин за анонимизиране на вашия набор от данни? Тогава този блог е задължителен за вас.

По какво се различават синтетичните данни?

Syntho разработва софтуер за генериране на изцяло нов набор от данни с нови записи. Информация за идентифициране на реални индивиди просто не присъства в синтетичен набор от данни. Тъй като синтетичните данни съдържат изкуствени записи на данни, генерирани от софтуер, личните данни просто не присъстват, което води до ситуация без риск за поверителността.

Ключовата разлика в Syntho: прилагаме машинно обучение. Следователно, нашето решение възпроизвежда структурата и свойствата на оригиналния набор от данни в синтетичния набор от данни, което води до максимална полезност на данните. Съответно ще можете да получите същите резултати, когато анализирате синтетичните данни в сравнение с използването на оригиналните данни.

Този казус демонстрира акценти от нашия доклад за качество, съдържащ различни статистически данни от синтетични данни, генерирани чрез нашия Syntho Engine в сравнение с оригиналните данни.

В заключение, синтетичните данни са предпочитаното решение за преодоляване на типичния неоптимален компромис между полезност на данни и защита на поверителността, който ви предлагат всички класически техники за анонимизация.

класическа крива на полезност за анонимизиране

И така, защо да използвате реални (чувствителни) данни, когато можете да използвате синтетични данни?

В заключение, от гледна точка на полезността на данните и защитата на поверителността, винаги трябва да избирате синтетични данни, когато вашият случай на използване позволява това.

 Стойност за анализРиск за поверителност
Синтетични данниВисокоNone
Реални (лични) данниВисокоВисоко
Манипулирани данни (чрез класическа „анонимизация“)Ниско средаMedium-висока
идея

Синтетичните данни от Syntho запълват празнините, при които класическите техники за анонимизация не достигат, като максимизират и двете помощна програма за данни намлява защита на поверителността.

Интересува ли ви?

Разгледайте добавената стойност на синтетичните данни с нас