З класичною анонімізацією ми маємо на увазі всі методології, де можна маніпулювати або спотворювати вихідний набір даних, щоб перешкоджати відстеженню осіб.
Типові приклади класичної анонімізації, які ми бачимо на практиці, - це узагальнення, придушення / стирання, псевдонімізація та перемішування рядків і стовпців.
Цим прийоми з відповідними прикладами.
Техніка | Вихідні дані | Маніпульовані дані |
Узагальнення | 27 років | У віці від 25 до 30 років |
Придушення / Витирання | info@syntho.ai | xxxx@xxxxxx.xx |
Псевдонімізація | Амстердам | hVFD6td3jdHHj78ghdgrewui6 |
Перемішування рядків і стовпців | Вирівняний | Перемішав |
Маніпулювання набором даних за допомогою класичних методів анонімізації призводить до двох ключових недоліків:
Ми демонструємо ці 2 ключові недоліки - корисність даних та захист конфіденційності. Ми робимо це за допомогою наступної ілюстрації із застосуванням придушення та узагальнення.
Примітка: ми використовуємо зображення для ілюстрації. Той же принцип діє і для структурованих наборів даних.
Це вводить компроміс між утилітою даних та захистом конфіденційності, де класичні методи анонімізації завжди пропонують неоптимальну комбінацію обох.
Ні. Це велика помилка і не призводить до анонімних даних. Ви все ще застосовуєте цей спосіб анонімізації набору даних? Тоді цей блог вам обов’язково потрібно прочитати.
Syntho розробляє програмне забезпечення для створення абсолютно нового набору свіжих записів даних. Інформації для ідентифікації реальних осіб просто немає в синтетичному наборі даних. Оскільки синтетичні дані містять записи штучних даних, створені програмним забезпеченням, особисті дані просто відсутні, що призводить до ситуації без ризиків конфіденційності.
Ключова відмінність Syntho: ми застосовуємо машинне навчання. Отже, наше рішення відтворює структуру та властивості вихідного набору даних у синтетичному наборі даних, що призводить до максимальної корисності даних. Відповідно, ви зможете отримати аналогічні результати при аналізі синтетичних даних порівняно з використанням вихідних даних.
Це тематичне дослідження демонструє основні моменти нашого звіту про якість, що містить різні статистичні дані із синтетичних даних, отриманих за допомогою нашого Syntho Engine, у порівнянні з вихідними даними.
На закінчення, синтетичні дані є кращим рішенням для подолання типового неоптимального компромісу між корисністю даних та захистом конфіденційності, який пропонують вам усі класичні методи анонімізації.
На закінчення, з точки зору корисності даних та захисту конфіденційності, завжди слід вибирати синтетичні дані, коли ваш варіант використання дозволяє це.
Значення для аналізу | Ризик конфіденційності | |
Синтетичні дані | Високий | ніхто |
Реальні (особисті) дані | Високий | Високий |
Маніпульовані дані (за допомогою класичної "анонімізації") | Низький-Середній | Середньо-високий |
Синтетичні дані компанії Syntho заповнюють прогалини, де класичні методи анонімізації не досягаються шляхом максимізації обох утиліта даних та захист конфіденційності.