Анонимизированные данные против синтетических данных

Если вы анонимизируете свои данные перед выполнением тестирования данных аналитики данных, есть несколько факторов:

  1. Почти во всех случаях анонимные данные по-прежнему можно отследить до отдельных лиц благодаря конкретным и уникальным строкам (например, медицинским записям).
  2. Чем больше вы анонимизируете или обобщаете, тем больше данных вы уничтожаете. Это снижает качество ваших данных и, следовательно, ваших идей.
  3. Анонимизация работает по-разному для разных форматов данных. Это означает, что он не масштабируется и может занять очень много времени.

Синтетические данные решают все эти недостатки и многое другое. Посмотрите видео ниже, чтобы увидеть, как эксперт по аналитике из SAS (лидер мирового рынка аналитики) объяснит свою оценку разницы в качестве между исходными данными, анонимными данными и синтетическими данными, созданными Syntho.

Это видео снято из Syntho x SAS D [N] A Café о синтетических данных, созданных искусственным интеллектом. Полное видео можно найти здесь.

Эдвин ван Унен отправил исходный набор данных в Syntho, и мы синтезировали этот набор данных. Но вопрос был также: «Что произойдет, если мы сравним синтетические данные с анонимными данными?» Поскольку вы теряете много информации в анонимных данных, произойдет ли это также при синтезе набора данных? Мы начали с набора данных из телекоммуникационной отрасли с 56.000 128 строк и XNUMX столбцов информации об оттоке компании. Этот набор данных был одновременно синтезирован и анонимизирован, поэтому Эдвин мог сравнить синтезирование с анонимизацией. Затем Эдвин начал моделировать с помощью SAS Viya. Он построил пару моделей оттока на исходном наборе данных, используя классические методы регрессии и деревья решений, а также более сложные методы, такие как нейронные сети, повышение градиента, случайный лес и т. д. Использование стандартных опций SAS Viya при построении моделей.

Затем пришло время посмотреть на результаты. Результаты были очень многообещающими для синтетических данных, а не для анонимизации. Для тех, кто не занимается машинным обучением, мы смотрим на область под ROC-кривой, которая что-то говорит о точности модели. Сравнивая исходные данные с анонимизированными, мы видим, что исходная модель данных имеет площадь под ROC-кривой 8, что довольно хорошо. Однако анонимизированные данные имеют площадь под ROC-кривой 6. Это означает, что мы теряем много информации с анонимной моделью, поэтому вы теряете большую предсказательную силу.

Но тогда возникает вопрос, а как насчет синтетических данных? Здесь мы сделали то же самое, но вместо анонимизации данных Syntho синтезировал данные. Теперь мы видим, что и исходные, и синтетические данные имеют площадь под ROC-кривой 8, что очень похоже. Не совсем то же самое из-за изменчивости, но очень похоже. Это означает, что потенциал синтетических данных очень многообещающий — Эдвин этому очень рад.

группа людей улыбается

Данные синтетические, но наша команда реальная!

Связаться с Syntho и один из наших экспертов свяжется с вами со скоростью света, чтобы изучить ценность синтетических данных!