Почему классическая анонимизация (и псевдонимизация) не приводит к анонимным данным

Что такое классическая анонимность?

Под классической анонимизацией мы подразумеваем все методологии, в которых кто-то манипулирует или искажает исходный набор данных, чтобы препятствовать отслеживанию людей.

Типичными примерами классической анонимизации, которые мы видим на практике, являются обобщение, подавление / стирание, псевдонимизация и перетасовка строк и столбцов.

Настоящим эти техники с соответствующими примерами.

Техника Исходные данные Обработанные данные
Обобщение 27 лет Между 25 и 30 лет
Подавление / стирание info@syntho.ai хххх@хххххх.хх
Псевдонимизация Амстердам hVFD6td3jdHHj78ghdgrewui6
Перестановка строк и столбцов выровненный перетасовал

В чем недостатки классической анонимности?

Управление набором данных с помощью классических методов анонимизации приводит к двум основным недостаткам:

  1. Искажение набора данных приводит к снижению качества данных (т.е. полезности данных). Это вводит классический принцип «мусор на входе и выходе».
  2. Риск конфиденциальности будет сокращено, но всегда будет присутствовать. Он остается и изменяет версию исходного набора данных с отношениями 1-1.

Мы демонстрируем эти 2 основных недостатка: полезность данных и защиту конфиденциальности. Мы делаем это с помощью следующей иллюстрации с примененным подавлением и обобщением.

Примечание: мы используем изображения в иллюстративных целях. Тот же принцип справедлив и для структурированных наборов данных.

Классическая анонимизация не работает
  • Слева: Небольшое применение классической анонимности приводит к наглядной иллюстрации. Однако личность может быть легко идентифицирована, и риск нарушения конфиденциальности велик.

 

  • Справа: строгое применение классической анонимности приводит к надежной защите конфиденциальности. Однако иллюстрация становится бесполезной.

Классические методы анонимизации предлагают неоптимальную комбинацию между полезностью данных и защитой конфиденциальности.

Это вводит компромисс между полезностью данных и защитой конфиденциальности, где классические методы анонимизации всегда предлагают неоптимальную комбинацию обоих. 

классическая кривая полезности анонимизации

Является ли удаление всех прямых идентификаторов (например, имен) из набора данных решением?

Нет. Это большое заблуждение и не приводит к анонимным данным. Вы все еще применяете это как способ анонимности своего набора данных? Тогда этот блог просто необходимо прочитать.

Чем отличаются синтетические данные?

Syntho разрабатывает программное обеспечение для создания совершенно нового набора данных из свежих записей данных. Информация для идентификации реальных людей просто отсутствует в синтетическом наборе данных. Поскольку синтетические данные содержат искусственные записи данных, созданные программным обеспечением, личные данные просто отсутствуют, что создает ситуацию без риска для конфиденциальности.

Ключевое отличие Syntho: мы применяем машинное обучение. Следовательно, наше решение воспроизводит структуру и свойства исходного набора данных в синтетическом наборе данных, что приводит к максимальной полезности данных. Соответственно, при анализе синтетических данных вы сможете получить те же результаты, что и при использовании исходных данных.

Это тематическое исследование демонстрирует основные моменты из нашего отчета о качестве, содержащего различные статистические данные на основе синтетических данных, созданных с помощью нашего Syntho Engine, по сравнению с исходными данными.

В заключение, синтетические данные являются предпочтительным решением для преодоления типичного неоптимального компромисса между полезностью данных и защитой конфиденциальности, который предлагают вам все классические методы анонимизации.

классическая кривая полезности анонимизации

Итак, зачем использовать реальные (конфиденциальные) данные, если можно использовать синтетические данные?

В заключение, с точки зрения утилиты данных и защиты конфиденциальности всегда следует выбирать синтетические данные, если это позволяет ваш сценарий использования.

 Значение для анализаРиск конфиденциальности
Синтетические данныеHighНичто
Реальные (личные) данныеHighHigh
Обработка данных (посредством классической «анонимизации»)Low-MediumСредне-высокая
идея

Синтетические данные от Syntho заполняют пробелы, в которых не работают классические методы анонимизации, максимизируя и то и другое. утилита данных и защита конфиденциальности.

Заинтересованы?

Узнайте о дополнительных преимуществах синтетических данных вместе с нами