Външна оценка на нашите синтетични данни от експертите по данни на SAS

Нашите синтетични данни са оценена намлява одобрен от експертите по данни на SAS

Въведение във външната оценка на нашите синтетични данни от експертите по данни на SAS

какво направихме

Синтетичните данни, генерирани от Syntho, се оценяват, валидират и одобряват от външна и обективна гледна точка от експертите по данни на SAS.

Защо нашите синтетични данни се оценяват външно от експертите по данни на SAS?

Въпреки че Syntho се гордее да предложи на своите потребители усъвършенстван доклад за осигуряване на качеството, ние също така разбираме важността на наличието на външна и обективна оценка на нашите синтетични данни от лидери в индустрията. Ето защо ние си сътрудничим със SAS, лидер в анализите, за оценка на нашите синтетични данни.

SAS провежда различни задълбочени оценки на точността на данните, защитата на поверителността и използваемостта на генерираните от AI синтетични данни на Syntho в сравнение с оригиналните данни. Като заключение SAS оцени и одобри синтетичните данни на Syntho като точни, сигурни и използваеми в сравнение с оригиналните данни.

Какво направи SAS по време на тази оценка?

Използвахме данни от телекомуникациите, които се използват за прогнозиране на „отлив“ като целеви данни. Целта на оценката беше да се използват синтетични данни за обучение на различни модели за прогнозиране на отлив и да се оцени ефективността на всеки модел. Тъй като предвиждането на отлив е задача за класификация, SAS избра популярни модели за класификация, за да направи прогнозите, включително:

Случайна гора
Усилване на градиента
Логистична регресия
Невронна мрежа

Преди да генерира синтетичните данни, SAS разделя на случаен принцип телекомуникационния набор от данни на набор от влакове (за обучение на моделите) и набор за задържане (за оценяване на моделите). Наличието на отделен набор за задържане за точкуване позволява безпристрастна оценка на това колко добре може да се справи моделът за класификация, когато се прилага към нови данни.

Използвайки набора от влакове като вход, Syntho използва своя Syntho Engine за генериране на синтетичен набор от данни. За сравнителен анализ SAS също създаде анонимна версия на комплекта влакове, след като приложи различни техники за анонимизиране, за да достигне определен праг (на k-анонимност). Предишните стъпки доведоха до четири набора от данни:

Набор от данни за влак (т.е. оригиналният набор от данни минус набора от данни за задържане)
Задържащ набор от данни (т.е. подмножество от оригиналния набор от данни)
Анонимизиран набор от данни (анонимизирани данни от набора от данни за влака, оригинален набор от данни минус набора от данни за задържане)
Синтетичен набор от данни (синтезирани данни от набора от данни за влака, оригинален набор от данни минус набора от данни за задържане)

Набори от данни 1, 3 и 4 бяха използвани за обучение на всеки класификационен модел, което доведе до 12 (3 x 4) обучени модела. Впоследствие SAS използва набора от данни за задържане, за да измери точността на всеки модел при прогнозирането на оттока на клиентите.

Имате ли някакви въпроси?

Говорете с един от нашите експерти

Контакти

Първоначални резултати от оценката на данните от SAS

Моделите, обучени на синтетични данни, имат много сходен резултат в сравнение с моделите, обучени на оригинални данни

Синтетичните данни от Syntho съдържат не само основни модели, но също така улавят дълбоки „скрити“ статистически модели, необходими за задачи за разширен анализ. Последното е демонстрирано в лентовата диаграма, което показва, че точността на моделите, обучени на синтетични данни спрямо моделите, обучени на оригинални данни, е сходна. Следователно синтетичните данни могат да се използват за действително обучение на моделите. Входящите данни и променливата важност, избрани от алгоритмите за синтетични данни в сравнение с оригиналните данни, бяха много сходни. Следователно се заключава, че процесът на моделиране може да се извърши върху синтетични данни, като алтернатива за използване на реални чувствителни данни.

Защо моделите, обучени на анонимни данни, имат по-лош резултат?

Класическите техники за анонимизиране имат общото, че манипулират оригиналните данни, за да възпрепятстват проследяването на лица. Те манипулират данни и по този начин унищожават данните в процеса. Колкото повече анонимизирате, толкова по-добре са защитени вашите данни, но и толкова повече данните ви се унищожават. Това е особено пагубно за AI и задачи за моделиране, където „силата на прогнозиране“ е от съществено значение, тъй като данните с лошо качество ще доведат до лоши прозрения от AI модела. SAS демонстрира това с площ под кривата (AUC*) близо до 0.5, демонстрирайки, че моделите, обучени на анонимизирани данни, се представят най-лошо.

Допълнителни резултати от оценки на синтетични данни от SAS

Корелациите и връзките между променливите бяха точно запазени в синтетичните данни.

Площта под кривата (AUC), метрика за измерване на ефективността на модела, остана последователна.

Освен това важността на променливата, която показва предсказващата сила на променливите в модела, остава непокътната при сравняване на синтетични данни с оригиналния набор от данни.

Въз основа на тези наблюдения от SAS и чрез използването на SAS Viya, можем уверено да заключим, че синтетичните данни, генерирани от Syntho Engine, наистина са наравно с реалните данни по отношение на качеството. Това потвърждава използването на синтетични данни за разработване на модели, проправяйки пътя за усъвършенствани анализи със синтетични данни.

Заключения на експертите по данни на SAS

Моделите, обучени на синтетични данни, в сравнение с моделите, обучени върху оригинални данни, показват много сходна производителност
Моделите, обучени върху анонимизирани данни с „класически техники за анонимизиране“, показват по-ниска производителност в сравнение с моделите, обучени върху оригиналните данни или синтетичните данни
Генерирането на синтетични данни е лесно и бързо, тъй като техниката работи абсолютно еднакво за набор от данни и за тип данни

Нашите синтетични данни са одобрен от експертите по данни на SAS

Прочетете статията

Справочни статии

Оценка на експертите по данни на SAS: https://blogs.sas.com/content/hiddeninsights/2022/07/07/ai-generated-synthetic-data-easy-and-fast-access-to-high-quality-data/

Syntho победител в глобалния хакатон на SAS: https://www.linkedin.com/feed/update/urn:li:activity:7070047376249376769/
Резултати от казус в здравеопазването: https://communities.sas.com/t5/SAS-Hacker-s-Hub/AI-Generated-Synthetic-Data-in-Healthcare/ta-p/863407

Запазете вашето ръководство за синтетични данни сега!

Какво представляват синтетичните данни?
Защо организациите го използват?
Клиентски случаи с добавяне на стойност синтетични данни
Как да започнем

Какво представляват синтетичните данни?

Доклад за осигуряване на качеството

Външно оценяване от SAS

Синтетични данни за времеви редове

Скенер за лични данни

Синтетични фалшиви данни

Последователно картографиране

Деидентификация и синтезиране

Базирани на правила синтетични данни

Подмножество

Внедряване и интеграция

Портове

Разширени функции

Поддържани данни

Потребителска документация

Насрочете демонстрация

Планове

Данни за теста

Анализи

Споделяне на данни

Демонстрации на продукти

Монетизиране на данни

Здравеопазване

финанси

Обществени организации

Потребителска документация

Бели книги и ръководства

Блог

Webinars

Казуси

Планове

За нас

Кариери

Външна оценка на нашите синтетични данни от експертите по данни на SAS

Нашите синтетични данни са оценена намлява одобрен от експертите по данни на SAS

Въведение във външната оценка на нашите синтетични данни от експертите по данни на SAS

какво направихме

Защо нашите синтетични данни се оценяват външно от експертите по данни на SAS?

Какво направи SAS по време на тази оценка?

Имате ли някакви въпроси?

Говорете с един от нашите експерти

Първоначални резултати от оценката на данните от SAS

Моделите, обучени на синтетични данни, имат много сходен резултат в сравнение с моделите, обучени на оригинални данни

Защо моделите, обучени на анонимни данни, имат по-лош резултат?

Допълнителни резултати от оценки на синтетични данни от SAS

Допълнителни резултати от оценки на синтетични данни от SAS

Заключения на експертите по данни на SAS

Нашите синтетични данни са одобрен от експертите по данни на SAS

Справочни статии

Запазете вашето ръководство за синтетични данни сега!

Главно меню

Запазете вашето ръководство за синтетични данни сега!