Анонимизированные данные против синтетических данных

Если вы анонимизируете свои данные перед выполнением тестирования данных аналитики данных, есть несколько факторов:

Почти во всех случаях анонимные данные по-прежнему можно отследить до отдельных лиц благодаря конкретным и уникальным строкам (например, медицинским записям).
Чем больше вы анонимизируете или обобщаете, тем больше данных вы уничтожаете. Это снижает качество ваших данных и, следовательно, ваших идей.
Анонимизация работает по-разному для разных форматов данных. Это означает, что он не масштабируется и может занять очень много времени.

Синтетические данные решают все эти недостатки и многое другое. Посмотрите видео ниже, чтобы увидеть, как эксперт по аналитике из SAS (лидер мирового рынка аналитики) объяснит свою оценку разницы в качестве между исходными данными, анонимными данными и синтетическими данными, созданными Syntho.

Это видео снято из Syntho x SAS D [N] A Café о синтетических данных, созданных искусственным интеллектом. Полное видео можно найти здесь.

Эдвин ван Унен отправил исходный набор данных в Syntho, и мы синтезировали этот набор данных. Но вопрос был также: «Что произойдет, если мы сравним синтетические данные с анонимными данными?» Поскольку вы теряете много информации в анонимных данных, произойдет ли это также при синтезе набора данных? Мы начали с набора данных из телекоммуникационной отрасли с 56.000 128 строк и XNUMX столбцов информации об оттоке компании. Этот набор данных был одновременно синтезирован и анонимизирован, поэтому Эдвин мог сравнить синтезирование с анонимизацией. Затем Эдвин начал моделировать с помощью SAS Viya. Он построил пару моделей оттока на исходном наборе данных, используя классические методы регрессии и деревья решений, а также более сложные методы, такие как нейронные сети, повышение градиента, случайный лес и т. д. Использование стандартных опций SAS Viya при построении моделей.

Затем пришло время посмотреть на результаты. Результаты были очень многообещающими для синтетических данных, а не для анонимизации. Для тех, кто не занимается машинным обучением, мы смотрим на область под ROC-кривой, которая что-то говорит о точности модели. Сравнивая исходные данные с анонимизированными, мы видим, что исходная модель данных имеет площадь под ROC-кривой 8, что довольно хорошо. Однако анонимизированные данные имеют площадь под ROC-кривой 6. Это означает, что мы теряем много информации с анонимной моделью, поэтому вы теряете большую предсказательную силу.

Но тогда возникает вопрос, а как насчет синтетических данных? Здесь мы сделали то же самое, но вместо анонимизации данных Syntho синтезировал данные. Теперь мы видим, что и исходные, и синтетические данные имеют площадь под ROC-кривой 8, что очень похоже. Не совсем то же самое из-за изменчивости, но очень похоже. Это означает, что потенциал синтетических данных очень многообещающий — Эдвин этому очень рад.

Данные синтетические, но наша команда реальная!

Связаться с Syntho и один из наших экспертов свяжется с вами со скоростью света, чтобы изучить ценность синтетических данных!

Что такое синтетические данные?

Отчет об обеспечении качества

Внешняя оценка SAS

Синтетические данные временных рядов

Сканер персональных данных

Синтетические фиктивные данные

Согласованное картографирование

Деидентификация и синтезирование

Синтетические данные на основе правил

Подмножество

Развертывание и интеграция

Соединители

Расширенные функции

Поддерживаемые данные

Пользовательская документация

График демо

Цены

Синтетические данные как тестовые данные

Синтетические данные для аналитики

Синтетические данные для обмена данными

Синтетические данные для демонстрации продукта

Здоровье

Финансы

Общественные организации

Пользовательская документация

Технические документы и руководства

Блог

Вебинары

Сферы деятельности

Цены

О нас

Карьера

Анонимизированные данные против синтетических данных

Данные синтетические, но наша команда реальная!

Что мы делаем?

Компания

Полезные ресурсы

Синто-информационный бюллетень

Главное меню