Почему классическая анонимизация (и псевдонимизация) не приводит к анонимным данным

В этом блоге рассматриваются следующие темы:

Что такое классическая анонимность?
В чем недостатки классической анонимности?
Почему классические методы анонимизации предлагают неоптимальную комбинацию целостности данных и защиты конфиденциальности?
Чем отличаются синтетические данные?
Зачем по-прежнему использовать личные данные, если можно использовать синтетические данные?

Что такое классическая анонимность?

Под классической анонимизацией мы подразумеваем все методологии, в которых кто-то манипулирует или искажает исходный набор данных, чтобы препятствовать отслеживанию людей.

Типичными примерами классической анонимизации, которые мы видим на практике, являются обобщение, подавление / стирание, псевдонимизация и перетасовка строк и столбцов.

Настоящим эти техники с соответствующими примерами.

Техника	Исходные данные	Обработанные данные
Обобщение	27 лет	Между 25 и 30 лет
Подавление / стирание	info@syntho.ai	хххх@хххххх.хх
Псевдонимизация	Амстердам	hVFD6td3jdHHj78ghdgrewui6
Перестановка строк и столбцов	выровненный	перетасовал

В чем недостатки классической анонимности?

Управление набором данных с помощью классических методов анонимизации приводит к двум основным недостаткам:

Искажение набора данных приводит к снижению качества данных (т.е. полезности данных). Это вводит классический принцип «мусор на входе и выходе».
Риск конфиденциальности будет сокращено, но всегда будет присутствовать. Он остается и изменяет версию исходного набора данных с отношениями 1-1.

Мы демонстрируем эти 2 основных недостатка: полезность данных и защиту конфиденциальности. Мы делаем это с помощью следующей иллюстрации с примененным подавлением и обобщением.

Примечание: мы используем изображения в иллюстративных целях. Тот же принцип справедлив и для структурированных наборов данных.

Слева: Небольшое применение классической анонимности приводит к наглядной иллюстрации. Однако личность может быть легко идентифицирована, и риск нарушения конфиденциальности велик.

Справа: строгое применение классической анонимности приводит к надежной защите конфиденциальности. Однако иллюстрация становится бесполезной.

Классические методы анонимизации предлагают неоптимальную комбинацию между полезностью данных и защитой конфиденциальности.

Это вводит компромисс между полезностью данных и защитой конфиденциальности, где классические методы анонимизации всегда предлагают неоптимальную комбинацию обоих.

Является ли удаление всех прямых идентификаторов (например, имен) из набора данных решением?

Нет. Это большое заблуждение и не приводит к анонимным данным. Вы все еще применяете это как способ анонимности своего набора данных? Тогда этот блог просто необходимо прочитать.

Чем отличаются синтетические данные?

Syntho разрабатывает программное обеспечение для создания совершенно нового набора данных из свежих записей данных. Информация для идентификации реальных людей просто отсутствует в синтетическом наборе данных. Поскольку синтетические данные содержат искусственные записи данных, созданные программным обеспечением, личные данные просто отсутствуют, что создает ситуацию без риска для конфиденциальности.

Ключевое отличие Syntho: мы применяем машинное обучение. Следовательно, наше решение воспроизводит структуру и свойства исходного набора данных в синтетическом наборе данных, что приводит к максимальной полезности данных. Соответственно, при анализе синтетических данных вы сможете получить те же результаты, что и при использовании исходных данных.

Это тематическое исследование демонстрирует основные моменты из нашего отчета о качестве, содержащего различные статистические данные на основе синтетических данных, созданных с помощью нашего Syntho Engine, по сравнению с исходными данными.

В заключение, синтетические данные являются предпочтительным решением для преодоления типичного неоптимального компромисса между полезностью данных и защитой конфиденциальности, который предлагают вам все классические методы анонимизации.

Итак, зачем использовать реальные (конфиденциальные) данные, если можно использовать синтетические данные?

В заключение, с точки зрения утилиты данных и защиты конфиденциальности всегда следует выбирать синтетические данные, если это позволяет ваш сценарий использования.

	Значение для анализа	Риск конфиденциальности
Синтетические данные	High	Ничто
Реальные (личные) данные	High	High
Обработка данных (посредством классической «анонимизации»)	Low-Medium	Средне-высокая

Синтетические данные от Syntho заполняют пробелы, в которых не работают классические методы анонимизации, максимизируя и то и другое. утилита данных и защита конфиденциальности.

Заинтересованы?

Узнайте о дополнительных преимуществах синтетических данных вместе с нами

ЗАБРОНИРОВАТЬ

Что такое синтетические данные?

Отчет об обеспечении качества

Внешняя оценка SAS

Синтетические данные временных рядов

Сканер персональных данных

Синтетические фиктивные данные

Согласованное картографирование

Деидентификация и синтезирование

Синтетические данные на основе правил

Подмножество

Развертывание и интеграция

Соединители

Расширенные функции

Поддерживаемые данные

Пользовательская документация

График демо

Цены

Синтетические данные как тестовые данные

Синтетические данные для аналитики

Синтетические данные для обмена данными

Синтетические данные для демонстрации продукта

Здоровье

Финансы

Общественные организации

Пользовательская документация

Технические документы и руководства

Блог

Вебинары

Сферы деятельности