Чому класична анонімізація (і псевдонімізація) не призводить до анонімних даних

Що таке класична анонімізація?

З класичною анонімізацією ми маємо на увазі всі методології, де можна маніпулювати або спотворювати вихідний набір даних, щоб перешкоджати відстеженню осіб.

Типові приклади класичної анонімізації, які ми бачимо на практиці, - це узагальнення, придушення / стирання, псевдонімізація та перемішування рядків і стовпців.

Цим прийоми з відповідними прикладами.

Техніка Вихідні дані Маніпульовані дані
Узагальнення 27 років У віці від 25 до 30 років
Придушення / Витирання info@syntho.ai xxxx@xxxxxx.xx
Псевдонімізація Амстердам hVFD6td3jdHHj78ghdgrewui6
Перемішування рядків і стовпців Вирівняний Перемішав

Які недоліки класичної анонімізації?

Маніпулювання набором даних за допомогою класичних методів анонімізації призводить до двох ключових недоліків:

  1. Спотворення набору даних призводить до зниження якості даних (тобто утиліти даних). Це вводить класичний принцип викидання сміття.
  2. Ризик конфіденційності буде скорочено, але завжди буде присутнім. Він залишається і маніпулює версією вихідного набору даних з 1-1 відношеннями.

Ми демонструємо ці 2 ключові недоліки - корисність даних та захист конфіденційності. Ми робимо це за допомогою наступної ілюстрації із застосуванням придушення та узагальнення.

Примітка: ми використовуємо зображення для ілюстрації. Той же принцип діє і для структурованих наборів даних.

Класична анонімізація не вдається
  • Зліва: невелике застосування класичної анонімізації призвело до репрезентативної ілюстрації. Однак особу можна легко ідентифікувати, і ризик конфіденційності є значним.

 

  • Справа: жорстке застосування класичної анонімізації призводить до надійного захисту конфіденційності. Однак ілюстрація стає марною.

Класичні методи анонімізації пропонують неоптимальне поєднання між корисністю даних та захистом конфіденційності.

Це вводить компроміс між утилітою даних та захистом конфіденційності, де класичні методи анонімізації завжди пропонують неоптимальну комбінацію обох. 

класична крива корисності анонімізації

Чи видалення всіх прямих ідентифікаторів (таких як імена) з набору даних є рішенням?

Ні. Це велика помилка і не призводить до анонімних даних. Ви все ще застосовуєте цей спосіб анонімізації набору даних? Тоді цей блог вам обов’язково потрібно прочитати.

Чим відрізняються синтетичні дані?

Syntho розробляє програмне забезпечення для створення абсолютно нового набору свіжих записів даних. Інформації для ідентифікації реальних осіб просто немає в синтетичному наборі даних. Оскільки синтетичні дані містять записи штучних даних, створені програмним забезпеченням, особисті дані просто відсутні, що призводить до ситуації без ризиків конфіденційності.

Ключова відмінність Syntho: ми застосовуємо машинне навчання. Отже, наше рішення відтворює структуру та властивості вихідного набору даних у синтетичному наборі даних, що призводить до максимальної корисності даних. Відповідно, ви зможете отримати аналогічні результати при аналізі синтетичних даних порівняно з використанням вихідних даних.

Це тематичне дослідження демонструє основні моменти нашого звіту про якість, що містить різні статистичні дані із синтетичних даних, отриманих за допомогою нашого Syntho Engine, у порівнянні з вихідними даними.

На закінчення, синтетичні дані є кращим рішенням для подолання типового неоптимального компромісу між корисністю даних та захистом конфіденційності, який пропонують вам усі класичні методи анонімізації.

класична крива корисності анонімізації

Отже, навіщо використовувати справжні (конфіденційні) дані, коли можна використовувати синтетичні дані?

На закінчення, з точки зору корисності даних та захисту конфіденційності, завжди слід вибирати синтетичні дані, коли ваш варіант використання дозволяє це.

 Значення для аналізуРизик конфіденційності
Синтетичні даніВисокийніхто
Реальні (особисті) даніВисокийВисокий
Маніпульовані дані (за допомогою класичної "анонімізації")Низький-СереднійСередньо-високий
ідея

Синтетичні дані компанії Syntho заповнюють прогалини, де класичні методи анонімізації не досягаються шляхом максимізації обох утиліта даних та  захист конфіденційності.

Зацікавлені?

Дослідіть додаткову цінність синтетичних даних разом з нами