Защо класическата анонимизация (и псевдонимизацията) не води до анонимни данни

Този блог обхваща следните теми:

Какво е класическа анонимизация?
Какви са недостатъците на класическата анонимизация?
Защо класическите техники за анонимизация предлагат неоптимална комбинация между данни за сигурност и защита на поверителността ?.
По какво се различават синтетичните данни?
Защо все още да използвате лични данни, ако можете да използвате синтетични данни?

Какво е класическа анонимизация?

С класическата анонимизация ние предполагаме всички методологии, при които човек манипулира или изкривява оригинален набор от данни, за да възпрепятства проследяването на отделни лица.

Типични примери за класическа анонимизация, които виждаме на практика, са обобщаване, потискане / изтриване, псевдонимизация и разбъркване на редове и колони.

С тези техники със съответни примери.

Техника	Оригинални данни	Манипулирани данни
Обобщение	27 година	Между 25 и 30 години
Потискане / изтриване	info@syntho.ai	xxxx@xxxxxx.xx
Псевдонимизация	Амстердам	hVFD6td3jdHHj78ghdgrewui6
Разбъркване на редове и колони	Наравно	Разбъркано

Какви са недостатъците на класическата анонимизация?

Манипулирането на набор от данни с класически техники за анонимизация води до 2 ключови недостатъка:

Изкривяването на набор от данни води до намаляване на качеството на данните (т.е. помощната програма за данни). Това въвежда класическия принцип за изхвърляне на боклук.
Риск за поверителност ще бъде намален, но винаги ще присъства. Той остава и манипулирана версия на оригиналния набор от данни с релации 1-1.

Ние демонстрираме тези 2 основни недостатъка, полезността на данните и защитата на поверителността. Правим това със следната илюстрация с приложено потискане и обобщение.

Забележка: използваме изображения за илюстративни цели. Същият принцип важи и за структурираните масиви от данни.

Наляво: малко приложение на класическата анонимизация води до представителна илюстрация. Въпреки това, човек може лесно да бъде идентифициран и рискът за поверителността е значителен.

Право: строгото прилагане на класическа анонимизация води до силна защита на поверителността. Илюстрацията обаче става безполезна.

Класическите техники за анонимизация предлагат неоптимална комбинация между полезност на данни и защита на поверителността.

Това въвежда компромиса между помощната програма за данни и защитата на поверителността, където класическите техники за анонимизация винаги предлагат неоптимална комбинация от двете.

Дали премахването на всички директни идентификатори (като имена) от набора от данни е решение?

Не. Това е голямо погрешно схващане и не води до анонимни данни. Прилагате ли това все още като начин за анонимизиране на вашия набор от данни? Тогава този блог е задължителен за вас.

По какво се различават синтетичните данни?

Syntho разработва софтуер за генериране на изцяло нов набор от данни с нови записи. Информация за идентифициране на реални индивиди просто не присъства в синтетичен набор от данни. Тъй като синтетичните данни съдържат изкуствени записи на данни, генерирани от софтуер, личните данни просто не присъстват, което води до ситуация без риск за поверителността.

Ключовата разлика в Syntho: прилагаме машинно обучение. Следователно, нашето решение възпроизвежда структурата и свойствата на оригиналния набор от данни в синтетичния набор от данни, което води до максимална полезност на данните. Съответно ще можете да получите същите резултати, когато анализирате синтетичните данни в сравнение с използването на оригиналните данни.

Този казус демонстрира акценти от нашия доклад за качество, съдържащ различни статистически данни от синтетични данни, генерирани чрез нашия Syntho Engine в сравнение с оригиналните данни.

В заключение, синтетичните данни са предпочитаното решение за преодоляване на типичния неоптимален компромис между полезност на данни и защита на поверителността, който ви предлагат всички класически техники за анонимизация.

И така, защо да използвате реални (чувствителни) данни, когато можете да използвате синтетични данни?

В заключение, от гледна точка на полезността на данните и защитата на поверителността, винаги трябва да избирате синтетични данни, когато вашият случай на използване позволява това.

	Стойност за анализ	Риск за поверителност
Синтетични данни	Високо	None
Реални (лични) данни	Високо	Високо
Манипулирани данни (чрез класическа „анонимизация“)	Ниско среда	Medium-висока

Синтетичните данни от Syntho запълват празнините, при които класическите техники за анонимизация не достигат, като максимизират и двете помощна програма за данни намлява защита на поверителността.

Интересува ли ви?

Разгледайте добавената стойност на синтетичните данни с нас

КНИГА ДЕМО

Какво представляват синтетичните данни?

Доклад за осигуряване на качеството

Външно оценяване от SAS

Синтетични данни за времеви редове

Скенер за лични данни

Синтетични фалшиви данни

Последователно картографиране

Деидентификация и синтезиране

Базирани на правила синтетични данни

Подмножество

Внедряване и интеграция

Портове

Разширени функции

Поддържани данни

Потребителска документация

Насрочете демонстрация

Планове

Синтетични данни като тестови данни

Синтетични данни за анализ

Синтетични данни за споделяне на данни

Синтетични данни за демонстрации на продукти

Здравеопазване

финанси

Обществени организации

Потребителска документация

Бели книги и ръководства

Блог

Webinars

Казуси