Если вы анонимизируете свои данные перед выполнением тестирования данных аналитики данных, есть несколько факторов:
Синтетические данные решают все эти недостатки и многое другое. Посмотрите видео ниже, чтобы увидеть, как эксперт по аналитике из SAS (лидер мирового рынка аналитики) объяснит свою оценку разницы в качестве между исходными данными, анонимными данными и синтетическими данными, созданными Syntho.
Это видео снято из Syntho x SAS D [N] A Café о синтетических данных, созданных искусственным интеллектом. Полное видео можно найти здесь.
Эдвин ван Унен отправил исходный набор данных в Syntho, и мы синтезировали этот набор данных. Но вопрос был также: «Что произойдет, если мы сравним синтетические данные с анонимными данными?» Поскольку вы теряете много информации в анонимных данных, произойдет ли это также при синтезе набора данных? Мы начали с набора данных из телекоммуникационной отрасли с 56.000 128 строк и XNUMX столбцов информации об оттоке компании. Этот набор данных был одновременно синтезирован и анонимизирован, поэтому Эдвин мог сравнить синтезирование с анонимизацией. Затем Эдвин начал моделировать с помощью SAS Viya. Он построил пару моделей оттока на исходном наборе данных, используя классические методы регрессии и деревья решений, а также более сложные методы, такие как нейронные сети, повышение градиента, случайный лес и т. д. Использование стандартных опций SAS Viya при построении моделей.
Затем пришло время посмотреть на результаты. Результаты были очень многообещающими для синтетических данных, а не для анонимизации. Для тех, кто не занимается машинным обучением, мы смотрим на область под ROC-кривой, которая что-то говорит о точности модели. Сравнивая исходные данные с анонимизированными, мы видим, что исходная модель данных имеет площадь под ROC-кривой 8, что довольно хорошо. Однако анонимизированные данные имеют площадь под ROC-кривой 6. Это означает, что мы теряем много информации с анонимной моделью, поэтому вы теряете большую предсказательную силу.
Но тогда возникает вопрос, а как насчет синтетических данных? Здесь мы сделали то же самое, но вместо анонимизации данных Syntho синтезировал данные. Теперь мы видим, что и исходные, и синтетические данные имеют площадь под ROC-кривой 8, что очень похоже. Не совсем то же самое из-за изменчивости, но очень похоже. Это означает, что потенциал синтетических данных очень многообещающий — Эдвин этому очень рад.
Связаться с Syntho и один из наших экспертов свяжется с вами со скоростью света, чтобы изучить ценность синтетических данных!