Под классической анонимизацией мы подразумеваем все методологии, в которых кто-то манипулирует или искажает исходный набор данных, чтобы препятствовать отслеживанию людей.
Типичными примерами классической анонимизации, которые мы видим на практике, являются обобщение, подавление / стирание, псевдонимизация и перетасовка строк и столбцов.
Настоящим эти техники с соответствующими примерами.
Техника | Исходные данные | Обработанные данные |
Обобщение | 27 лет | Между 25 и 30 лет |
Подавление / стирание | info@syntho.ai | хххх@хххххх.хх |
Псевдонимизация | Амстердам | hVFD6td3jdHHj78ghdgrewui6 |
Перестановка строк и столбцов | выровненный | перетасовал |
Управление набором данных с помощью классических методов анонимизации приводит к двум основным недостаткам:
Мы демонстрируем эти 2 основных недостатка: полезность данных и защиту конфиденциальности. Мы делаем это с помощью следующей иллюстрации с примененным подавлением и обобщением.
Примечание: мы используем изображения в иллюстративных целях. Тот же принцип справедлив и для структурированных наборов данных.
Это вводит компромисс между полезностью данных и защитой конфиденциальности, где классические методы анонимизации всегда предлагают неоптимальную комбинацию обоих.
Нет. Это большое заблуждение и не приводит к анонимным данным. Вы все еще применяете это как способ анонимности своего набора данных? Тогда этот блог просто необходимо прочитать.
Syntho разрабатывает программное обеспечение для создания совершенно нового набора данных из свежих записей данных. Информация для идентификации реальных людей просто отсутствует в синтетическом наборе данных. Поскольку синтетические данные содержат искусственные записи данных, созданные программным обеспечением, личные данные просто отсутствуют, что создает ситуацию без риска для конфиденциальности.
Ключевое отличие Syntho: мы применяем машинное обучение. Следовательно, наше решение воспроизводит структуру и свойства исходного набора данных в синтетическом наборе данных, что приводит к максимальной полезности данных. Соответственно, при анализе синтетических данных вы сможете получить те же результаты, что и при использовании исходных данных.
Это тематическое исследование демонстрирует основные моменты из нашего отчета о качестве, содержащего различные статистические данные на основе синтетических данных, созданных с помощью нашего Syntho Engine, по сравнению с исходными данными.
В заключение, синтетические данные являются предпочтительным решением для преодоления типичного неоптимального компромисса между полезностью данных и защитой конфиденциальности, который предлагают вам все классические методы анонимизации.
В заключение, с точки зрения утилиты данных и защиты конфиденциальности всегда следует выбирать синтетические данные, если это позволяет ваш сценарий использования.
Значение для анализа | Риск конфиденциальности | |
Синтетические данные | High | Ничто |
Реальные (личные) данные | High | High |
Обработка данных (посредством классической «анонимизации») | Low-Medium | Средне-высокая |
Синтетические данные от Syntho заполняют пробелы, в которых не работают классические методы анонимизации, максимизируя и то и другое. утилита данных и защита конфиденциальности.