Зовнішня оцінка наших синтетичних даних експертами з даних SAS

Наші синтетичні дані є оцінюється та затверджений за даними експертів ПАР

Вступ до зовнішньої оцінки наших синтетичних даних експертами з даних SAS

Що ми зробили?

Синтетичні дані, створені Syntho, оцінюються, перевіряються та затверджуються з зовнішньої та об’єктивної точки зору експертами з даних SAS.

Чому наші синтетичні дані оцінюються експертами з даних SAS?

Хоча Syntho з гордістю пропонує своїм користувачам розширений звіт про забезпечення якості, ми також розуміємо важливість зовнішньої та об’єктивної оцінки наших синтетичних даних від лідерів галузі. Ось чому ми співпрацюємо з SAS, лідером у сфері аналітики, щоб оцінити наші синтетичні дані.

SAS проводить різні ретельні оцінки точності даних, захисту конфіденційності та зручності використання синтетичних даних, згенерованих штучним інтелектом Syntho, у порівнянні з вихідними даними. У підсумку SAS оцінила та схвалила синтетичні дані Syntho як точні, безпечні та придатні для використання порівняно з вихідними даними.

Що робив SAS під час цього оцінювання?

Ми використали телекомунікаційні дані, які використовуються для прогнозування «відтоку», як цільові дані. Метою оцінки було використання синтетичних даних для навчання різних моделей прогнозування відтоку та оцінки ефективності кожної моделі. Оскільки прогнозування відтоку є завданням класифікації, SAS вибрала популярні моделі класифікації, щоб зробити прогнози, зокрема:

  1. Випадковий ліс
  2. Підвищення градієнта
  3. Логістична регресія
  4. Нейронна мережа

Перш ніж генерувати синтетичні дані, SAS випадковим чином розбиває набір телекомунікаційних даних на набір поїздів (для навчання моделей) і набір затримки (для оцінки моделей). Наявність окремого набору утримування для оцінки дозволяє неупереджено оцінити, наскільки добре модель класифікації може бути застосована до нових даних.

Використовуючи набір поїздів як вхідні дані, Syntho використовував свій Syntho Engine для створення синтетичного набору даних. Для порівняльного аналізу SAS також створила анонімну версію набору після застосування різних методів анонімізації для досягнення певного порогу (k-анонімності). Попередні кроки призвели до чотирьох наборів даних:

  1. Набір даних поїзда (тобто вихідний набір даних мінус набір даних про затримку)
  2. Затриманий набір даних (тобто підмножина вихідного набору даних)
  3. Анонімний набір даних (анонімні дані набору даних потяга, оригінальний набір даних мінус набір даних, що залишився)
  4. Синтетичний набір даних (синтезовані дані набору даних потягу, оригінальний набір даних мінус набір даних, що залишився)

Набори даних 1, 3 і 4 використовувалися для навчання кожної моделі класифікації, в результаті чого було отримано 12 (3 x 4) навчених моделей. Згодом SAS використовував набір даних про утримання, щоб виміряти точність кожної моделі в прогнозуванні відтоку клієнтів.

SAS проводить різні ретельні оцінки точності даних, захисту конфіденційності та зручності використання синтетичних даних, згенерованих штучним інтелектом Syntho, у порівнянні з вихідними даними. У підсумку SAS оцінила та схвалила синтетичні дані Syntho як точні, безпечні та придатні для використання порівняно з вихідними даними.

Залишились питання?

Поговоріть з одним із наших експертів

Початкові результати оцінки даних SAS

Моделі, навчені на синтетичних даних, мають дуже схожі результати порівняно з моделями, навченими на вихідних даних

Синтетичні дані від Syntho зберігають не лише базові шаблони, вони також фіксують глибокі «приховані» статистичні шаблони, необхідні для розширених аналітичних завдань. Останнє показано на гістограмі, яка вказує на те, що точність моделей, навчених на синтетичних даних, порівняно з моделями, навченими на вихідних даних, однакова. Отже, синтетичні дані можуть бути використані для реального навчання моделей. Вхідні дані та важливість змінної, вибрані алгоритмами на синтетичних даних, порівняно з оригінальними даними, були дуже схожими. Таким чином, можна зробити висновок, що процес моделювання можна виконувати на синтетичних даних, як альтернативу використанню реальних конфіденційних даних.

Чому моделі, навчені на анонімних даних, мають гірші результати?

Спільним для класичних методів анонімізації є те, що вони маніпулюють вихідними даними, щоб перешкодити відстеженню осіб. Вони маніпулюють даними і тим самим знищують дані в процесі. Чим більше ви анонімізуєте, тим краще ваші дані захищені, але також тим більше ваші дані знищуються. Це особливо руйнівно для задач штучного інтелекту та моделювання, де «передбачувальна здатність» є важливою, оскільки дані поганої якості призведуть до поганої інформації від моделі ШІ. SAS продемонструвала це з площею під кривою (AUC*), близькою до 0.5, демонструючи, що моделі, навчені на анонімних даних, працюють найгірше.

Додаткові результати оцінки синтетичних даних SAS

Додаткові результати оцінки синтетичних даних SAS

Кореляції та зв’язки між змінними були точно збережені в синтетичних даних.

Площа під кривою (AUC), метрика для вимірювання ефективності моделі, залишалася незмінною.

Крім того, важливість змінної, яка вказувала на прогностичну силу змінних у моделі, залишалася незмінною під час порівняння синтетичних даних із вихідним набором даних.

На основі цих спостережень SAS і використання SAS Viya ми можемо впевнено зробити висновок, що синтетичні дані, згенеровані Syntho Engine, справді відповідають реальним даним щодо якості. Це підтверджує використання синтетичних даних для розробки моделей, прокладаючи шлях до розширеної аналітики за допомогою синтетичних даних.

Висновки експертів даних SAS

Логотип Sas

Наші синтетичні дані є затверджений за даними експертів SAS

Довідкові статті

обкладинка посібника з синтезу

Збережіть свій посібник із синтетичних даних зараз!