С класическата анонимизация ние предполагаме всички методологии, при които човек манипулира или изкривява оригинален набор от данни, за да възпрепятства проследяването на отделни лица.
Типични примери за класическа анонимизация, които виждаме на практика, са обобщаване, потискане / изтриване, псевдонимизация и разбъркване на редове и колони.
С тези техники със съответни примери.
Техника | Оригинални данни | Манипулирани данни |
Обобщение | 27 година | Между 25 и 30 години |
Потискане / изтриване | info@syntho.ai | xxxx@xxxxxx.xx |
Псевдонимизация | Амстердам | hVFD6td3jdHHj78ghdgrewui6 |
Разбъркване на редове и колони | Наравно | Разбъркано |
Манипулирането на набор от данни с класически техники за анонимизация води до 2 ключови недостатъка:
Ние демонстрираме тези 2 основни недостатъка, полезността на данните и защитата на поверителността. Правим това със следната илюстрация с приложено потискане и обобщение.
Забележка: използваме изображения за илюстративни цели. Същият принцип важи и за структурираните масиви от данни.
Това въвежда компромиса между помощната програма за данни и защитата на поверителността, където класическите техники за анонимизация винаги предлагат неоптимална комбинация от двете.
Не. Това е голямо погрешно схващане и не води до анонимни данни. Прилагате ли това все още като начин за анонимизиране на вашия набор от данни? Тогава този блог е задължителен за вас.
Syntho разработва софтуер за генериране на изцяло нов набор от данни с нови записи. Информация за идентифициране на реални индивиди просто не присъства в синтетичен набор от данни. Тъй като синтетичните данни съдържат изкуствени записи на данни, генерирани от софтуер, личните данни просто не присъстват, което води до ситуация без риск за поверителността.
Ключовата разлика в Syntho: прилагаме машинно обучение. Следователно, нашето решение възпроизвежда структурата и свойствата на оригиналния набор от данни в синтетичния набор от данни, което води до максимална полезност на данните. Съответно ще можете да получите същите резултати, когато анализирате синтетичните данни в сравнение с използването на оригиналните данни.
Този казус демонстрира акценти от нашия доклад за качество, съдържащ различни статистически данни от синтетични данни, генерирани чрез нашия Syntho Engine в сравнение с оригиналните данни.
В заключение, синтетичните данни са предпочитаното решение за преодоляване на типичния неоптимален компромис между полезност на данни и защита на поверителността, който ви предлагат всички класически техники за анонимизация.
В заключение, от гледна точка на полезността на данните и защитата на поверителността, винаги трябва да избирате синтетични данни, когато вашият случай на използване позволява това.
Стойност за анализ | Риск за поверителност | |
Синтетични данни | Високо | None |
Реални (лични) данни | Високо | Високо |
Манипулирани данни (чрез класическа „анонимизация“) | Ниско среда | Medium-висока |
Синтетичните данни от Syntho запълват празнините, при които класическите техники за анонимизация не достигат, като максимизират и двете помощна програма за данни намлява защита на поверителността.