Внешняя оценка наших синтетических данных экспертами по данным SAS

Наши синтетические данные оценивается и утвержденный экспертами по данным из ПАВ

Введение во внешнюю оценку наших синтетических данных экспертами по данным SAS

Что мы сделали?

Синтетические данные, генерируемые Syntho, оцениваются, проверяются и утверждаются с внешней и объективной точки зрения экспертами по данным SAS.

Почему наши синтетические данные оцениваются внешними экспертами по данным SAS?

Хотя Syntho с гордостью предлагает своим пользователям расширенный отчет по обеспечению качества, мы также понимаем важность получения внешней и объективной оценки наших синтетических данных от лидеров отрасли. Вот почему мы сотрудничаем с SAS, лидером в области аналитики, для оценки наших синтетических данных.

SAS проводит различные тщательные оценки точности данных, защиты конфиденциальности и удобства использования синтетических данных Syntho, сгенерированных искусственным интеллектом, по сравнению с исходными данными. В заключение SAS оценила и одобрила синтетические данные Syntho как точные, безопасные и пригодные для использования по сравнению с исходными данными.

Что делала SAS во время этой оценки?

В качестве целевых данных мы использовали данные телекоммуникаций, которые используются для прогнозирования «оттока». Целью оценки было использование синтетических данных для обучения различных моделей прогнозирования оттока клиентов и оценки эффективности каждой модели. Поскольку прогнозирование оттока является задачей классификации, для прогнозирования SAS выбрала популярные модели классификации, в том числе:

  1. Случайный лес
  2. Повышение градиента
  3. Логистическая регрессия
  4. Нейронная сеть

Перед созданием синтетических данных SAS случайным образом разделила набор телекоммуникационных данных на набор поездов (для обучения моделей) и набор задержек (для оценки моделей). Наличие отдельного набора задержек для оценки позволяет беспристрастно оценить, насколько хорошо модель классификации может работать применительно к новым данным.

Используя набор поездов в качестве входных данных, Syntho использовал свой Syntho Engine для создания синтетического набора данных. Для сравнительного анализа SAS также создала анонимную версию поезда после применения различных методов анонимизации для достижения определенного порога (k-анонимности). Первые шаги привели к четырем наборам данных:

  1. Набор данных поезда (т. е. исходный набор данных минус набор данных удержания)
  2. Задержанный набор данных (т. е. подмножество исходного набора данных)
  3. Анонимизированный набор данных (анонимизированные данные набора данных поезда, исходный набор данных минус набор резервных данных)
  4. Синтетический набор данных (синтезированные данные набора данных поезда, исходный набор данных минус набор резервных данных)

Наборы данных 1, 3 и 4 использовались для обучения каждой модели классификации, в результате чего было получено 12 (3 x 4) обученных моделей. Впоследствии SAS использовала этот набор данных для измерения точности каждой модели прогнозирования оттока клиентов.

SAS проводит различные тщательные оценки точности данных, защиты конфиденциальности и удобства использования синтетических данных Syntho, сгенерированных искусственным интеллектом, по сравнению с исходными данными. В заключение SAS оценила и одобрила синтетические данные Syntho как точные, безопасные и пригодные для использования по сравнению с исходными данными.

Остались вопросы?

Поговорите с одним из наших экспертов

Первоначальные результаты оценки данных SAS

Модели, обученные на синтетических данных, очень похожи по сравнению с моделями, обученными на исходных данных.

Синтетические данные Syntho содержат не только базовые закономерности, но и фиксируют глубокие «скрытые» статистические закономерности, необходимые для задач расширенной аналитики. Последнее показано на гистограмме, показывая, что точность моделей, обученных на синтетических данных, и моделей, обученных на исходных данных, аналогична. Следовательно, синтетические данные можно использовать для фактического обучения моделей. Входные данные и важность переменных, выбранных алгоритмами на основе синтетических данных по сравнению с исходными данными, были очень похожими. Таким образом, делается вывод, что процесс моделирования может выполняться на синтетических данных в качестве альтернативы использованию реальных конфиденциальных данных.

Почему модели, обученные на анонимных данных, получают худшие результаты?

Общим для классических методов анонимизации является то, что они манипулируют исходными данными, чтобы помешать отслеживанию отдельных лиц. Они манипулируют данными и тем самым уничтожают данные в процессе. Чем больше вы анонимизируете, тем лучше ваши данные защищены, но тем больше ваши данные уничтожаются. Это особенно разрушительно для задач искусственного интеллекта и моделирования, где важна «прогностическая сила», поскольку данные плохого качества приведут к неверным выводам модели ИИ. SAS продемонстрировала это с площадью под кривой (AUC*), близкой к 0.5, демонстрируя, что модели, обученные на анонимных данных, работают гораздо хуже.

Дополнительные результаты оценки синтетических данных SAS

Дополнительные результаты оценки синтетических данных SAS

Корреляции и отношения между переменными были точно сохранены в синтетических данных.

Площадь под кривой (AUC), метрика для измерения производительности модели, оставалась неизменной.

Кроме того, важность переменной, которая указывала на предсказательную силу переменных в модели, оставалась неизменной при сравнении синтетических данных с исходным набором данных.

Основываясь на этих наблюдениях SAS и использовании SAS Viya, мы можем с уверенностью заключить, что синтетические данные, сгенерированные Syntho Engine, действительно соответствуют реальным данным с точки зрения качества. Это подтверждает возможность использования синтетических данных для разработки моделей, открывая путь для расширенной аналитики с использованием синтетических данных.

Выводы экспертов по данным SAS

Логотип Sas

Наши синтетические данные утвержденный экспертами по данным SAS

Справочные статьи

крышка направляющей синто

Сохраните руководство по синтетическим данным прямо сейчас!