FAQ

Часті запитання про синтетичні дані

Зрозуміло! На щастя, у нас є відповіді, і ми тут, щоб допомогти. Перегляньте наші поширені запитання.

Відкрийте запитання нижче та натисніть посилання, щоб отримати додаткову інформацію. У вас є більш складне питання, яке тут не зазначено? Запитайте наших експертів безпосередньо!

Найчастіші запитання

Синтетичні дані – це дані, створені штучно, а не зібрані з реальних джерел. Загалом, тоді як вихідні дані збираються під час усіх ваших взаємодій з особами (клієнтами, пацієнтами тощо) і через усі ваші внутрішні процеси, синтетичні дані генеруються комп’ютерним алгоритмом.

Синтетичні дані також можна використовувати для тестування та оцінки моделей у контрольованому середовищі або для захисту конфіденційної інформації шляхом створення даних, схожих на дані реального світу, але не містять конфіденційної інформації. Синтетичні дані часто використовуються як альтернатива конфіденційним даним і можуть використовуватися як тестові дані, для аналітики або для навчання машинного навчання.

Читати далі

Гарантувати, що синтетичні дані мають таку саму якість, що й вихідні дані, може бути складно, і це часто залежить від конкретного випадку використання та методів, які використовуються для створення синтетичних даних. Деякі методи генерації синтетичних даних, наприклад генеративні моделі, можуть створювати дані, дуже схожі на вихідні дані. Ключове питання: як це продемонструвати?

Є кілька способів забезпечити якість синтетичних даних:

  • Показники якості даних у нашому звіті про якість даних: Один із способів переконатися, що синтетичні дані мають таку саму якість, що й вихідні дані, — це використовувати показники якості даних для порівняння синтетичних даних із вихідними даними. Ці показники можна використовувати для вимірювання таких речей, як подібність, точність і повнота даних. Програмне забезпечення Syntho містило звіт про якість даних із різними показниками якості даних.
  • ЗНО: оскільки якість даних синтетичних даних у порівнянні з оригінальними даними є ключовою, ми нещодавно провели оцінку з експертами з даних компанії SAS (лідера на ринку аналітики), щоб продемонструвати якість даних синтетичних даних від Syntho у порівнянні з реальними даними. Едвін ван Унен, аналітичний експерт із SAS, оцінив згенеровані синтетичні набори даних із Syntho за допомогою різних аналітичних оцінок (AI) і поділився результатами. Перегляньте короткий огляд цього відео тут.
  • Тестування та оцінка самостійно: синтетичні дані можна перевірити та оцінити, порівнюючи їх із даними реального світу або використовуючи їх для навчання моделей машинного навчання та порівнюючи їх продуктивність з моделями, навченими на даних реального світу. Чому б не перевірити якість синтетичних даних самостійно? Запитайте наших експертів про можливості цього тут

Важливо зазначити, що синтетичні дані ніколи не можуть гарантувати 100% схожість з вихідними даними, але вони можуть бути достатньо близькими, щоб бути корисними для конкретного випадку використання. Цей конкретний варіант використання може бути навіть розширеною аналітикою або навчальними моделями машинного навчання.

Класична «анонімізація» не завжди є найкращим рішенням, оскільки:

  1. Ризик конфіденційності – матимеш завжди
    ризик конфіденційності. Застосовуючи ті
    класичні методи анонімізації
    тільки ускладнює, але ні
    неможливо ідентифікувати осіб.
  2. Знищення даних – чим більше ти
    анонімність, тим краще ви захистите
    вашу конфіденційність, але чим більше ви
    знищити ваші дані. Це не що
    ви хочете для аналітики, тому що
    знищені дані призведуть до поганих
    прозріння.
  3. Витрата часу – це рішення
    що займає багато часу, тому що
    ці техніки працюють по-різному
    на набір даних і на тип даних.

Синтетичні дані спрямовані на усунення всіх цих недоліків. Різниця настільки разюча, що ми зняли про це відео. Дивіться тут.

ЧАСТІ ЗАПИТАННЯ

Синтетичні дані

Як правило, більшість наших клієнтів використовують синтетичні дані для:

  • Тестування та розробка програмного забезпечення
  • Синтетичні дані для аналітики, розробки моделей і розширеної аналітики (AI & ML)
  • Демонстрація товару

Дізнайтеся більше та вивчіть випадки використання.

Синтетичний двійник даних — це згенерована алгоритмом копія реального набору даних і/або бази даних. За допомогою Synthetic Data Twin Syntho прагне імітувати оригінальний набір даних або базу даних якомога ближче до вихідних даних, щоб створити реалістичне представлення оригіналу. Завдяки двійникові синтетичних даних ми прагнемо до кращої якості синтетичних даних порівняно з вихідними даними. Ми робимо це за допомогою нашого програмного забезпечення для синтетичних даних, яке використовує найсучасніші моделі ШІ. Ці моделі штучного інтелекту генерують абсолютно нові точки даних і моделюють їх таким чином, що ми зберігаємо характеристики, зв’язки та статистичні шаблони вихідних даних до такої міри, що ви можете використовувати їх так, ніби це вихідні дані.

Це можна використовувати для різних цілей, таких як тестування та навчання моделей машинного навчання, моделювання сценаріїв для досліджень і розробок, а також створення віртуальних середовищ для навчання та навчання. Синтетичні двійники даних можна використовувати для створення реалістичних і репрезентативних даних, які можна використовувати замість даних реального світу, якщо вони недоступні або коли використання даних реального світу було б непрактичним або неетичним через суворі правила конфіденційності даних.

Детальніше.

Так ми робимо. Ми пропонуємо різноманітні додаткові функції оптимізації та розширення синтетичних даних, зокрема мокери, щоб вивести ваші дані на новий рівень.

Детальніше.

Імітаційні дані та синтетичні дані, згенеровані штучним інтелектом, є типами синтетичних даних, але вони генеруються різними способами та служать різним цілям.

Фіктивні дані – це тип синтетичних даних, які створюються вручну та часто використовуються для тестування та розробки. Зазвичай він використовується для моделювання поведінки даних реального світу в контрольованому середовищі та часто використовується для перевірки функціональності системи чи програми. Часто він простий, його легко згенерувати та не потребує складних моделей чи алгоритмів. Часто реферери також імітують дані як «фіктивні дані» або «фальшиві дані».

Синтетичні дані, згенеровані ШІ, з іншого боку, генеруються за допомогою методів штучного інтелекту, таких як машинне навчання або генеративні моделі. Він використовується для створення реалістичних і репрезентативних даних, які можна використовувати замість даних реального світу, коли використання даних реального світу було б непрактичним або неетичним через суворі правила конфіденційності. Часто це складніше та вимагає більше обчислювальних ресурсів, ніж ручні макетні дані. Як результат, він набагато реалістичніший і максимально схожий на вихідні дані.

Підводячи підсумок, макет даних створюється вручну та зазвичай використовується для тестування та розробки, тоді як синтетичні дані, створені ШІ, створюються за допомогою методів штучного інтелекту та використовуються для створення репрезентативних і реалістичних даних.

Ще запитання? Запитайте наших експертів

Якість даних

Гарантувати, що синтетичні дані мають таку саму якість, що й вихідні дані, може бути складно, і це часто залежить від конкретного випадку використання та методів, які використовуються для створення синтетичних даних. Деякі методи генерації синтетичних даних, наприклад генеративні моделі, можуть створювати дані, дуже схожі на вихідні дані. Ключове питання: як це продемонструвати?

Є кілька способів забезпечити якість синтетичних даних:

  • Показники якості даних у нашому звіті про якість даних: Один із способів переконатися, що синтетичні дані мають таку саму якість, що й вихідні дані, — це використовувати показники якості даних для порівняння синтетичних даних із вихідними даними. Ці показники можна використовувати для вимірювання таких речей, як подібність, точність і повнота даних. Програмне забезпечення Syntho містило звіт про якість даних із різними показниками якості даних.
  • ЗНО: оскільки якість даних синтетичних даних у порівнянні з оригінальними даними є ключовою, ми нещодавно провели оцінку з експертами з даних компанії SAS (лідера на ринку аналітики), щоб продемонструвати якість даних синтетичних даних від Syntho у порівнянні з реальними даними. Едвін ван Унен, аналітичний експерт із SAS, оцінив згенеровані синтетичні набори даних із Syntho за допомогою різних аналітичних оцінок (AI) і поділився результатами. Перегляньте короткий огляд цього відео тут.
  • Тестування та оцінка самостійно: синтетичні дані можна перевірити та оцінити, порівнюючи їх із даними реального світу або використовуючи їх для навчання моделей машинного навчання та порівнюючи їх продуктивність з моделями, навченими на даних реального світу. Чому б не перевірити якість синтетичних даних самостійно? Запитайте наших експертів про можливості цього тут

Важливо зазначити, що синтетичні дані ніколи не можуть гарантувати 100% схожість з вихідними даними, але вони можуть бути достатньо близькими, щоб бути корисними для конкретного випадку використання. Цей конкретний варіант використання може бути навіть розширеною аналітикою або навчальними моделями машинного навчання.

Так. Синтетичні дані навіть містять шаблони, про які ви не знали, що вони присутні в вихідних даних.

Але не вірте нам на слово. Експерти з аналітики SAS (лідер світового ринку аналітики) провели (AI) оцінку наших синтетичних даних і порівняли їх з вихідними даними. Цікаво? Спостерігайте за вся подія тут або подивіться коротку версію про якість даних тут.

Так ми робимо. Наша платформа оптимізована для баз даних і, отже, збереження посилальної цілісності між наборами даних у базі даних.

Цікаво дізнатися про це більше?

Запитайте безпосередньо наших експертів.

Конфіденційність

Ні, не маємо. Ми можемо легко розгорнути Syntho Engine локально або у вашій приватній хмарі через докер.

Ні. Ми оптимізували нашу платформу таким чином, щоб її можна було легко розгорнути в надійному середовищі клієнта. Це гарантує, що дані ніколи не залишать довірене середовище клієнта. Варіанти розгортання довіреного середовища замовника «локальне» та «хмарне середовище замовника (приватна хмара)».

Додатково: Syntho підтримує версію, яка розміщена в «хмарі Syntho».

Ні. Syntho Engine — це платформа самообслуговування. Як результат, генерування синтетичних даних за допомогою Syntho Engine стає можливим таким чином, що в end-to-end процес, Syntho ніколи не може бачити і ніколи не вимагає обробки даних.

Так, ми робимо це за допомогою нашого звіту про контроль якості.

 

Під час синтезу набору даних важливо продемонструвати, що не можна повторно ідентифікувати осіб. в це відео, Марійн вводить заходи щодо конфіденційності, які є в нашому звіті про якість, щоб продемонструвати це.

Звіт про контроль якості Syntho містить три галузевий стандарт метрики для оцінки конфіденційності даних. Ідея кожного з цих показників така:

  • Синтетичні дані (S) повинні бути «якомога ближче», але «не надто близько» до цільових даних (T).
  • Випадково вибрані дані про утримання (H) визначає орієнтир для «надто близько».
  • A ідеальне рішення генерує нові синтетичні дані, які поводяться точно так само, як вихідні дані, але раніше не зустрічалися (= H).

Один із варіантів використання, який особливо виділяє голландський орган із захисту даних, це використання синтетичних даних як тестових даних.

Більше можна знайти в цій статті.

Двигун Syntho

Syntho Engine поставляється в контейнері Docker і його можна легко розгорнути та підключити до вибраного середовища.

Можливі варіанти розгортання включають:

  • На приміщенні
  • Будь-яка (приватна) хмара
  • Будь-яке інше середовище

Читати далі.

Syntho дозволяє легко підключатися до ваших баз даних, програм, конвеєрів даних або файлових систем. 

Для end-to-end комплексний підхід.

Функції підключення, які ми підтримуємо:

  • Підключи і працюй з Docker
  • 20+ конекторів баз даних
  • 20+ коннекторів файлової системи

Читати далі.

Природно, час генерації залежить від розміру бази даних. У середньому таблиця з менш ніж 1 мільйоном записів синтезується менш ніж за 5 хвилин.

Алгоритми машинного навчання Syntho можуть краще узагальнювати функції за допомогою більшої кількості доступних записів об’єктів, що зменшує ризик конфіденційності. Рекомендується мінімальне співвідношення стовпців до рядків 1:500. Наприклад, якщо ваша вихідна таблиця має 6 стовпців, вона повинна містити щонайменше 3000 рядків.

Зовсім ні. Хоча для повного розуміння переваг, роботи та випадків використання синтетичних даних може знадобитися певні зусилля, процес синтезу дуже простий, і кожен, хто має базові знання комп’ютера, може це зробити. Щоб отримати додаткову інформацію про процес синтезу, перегляньте На цій сторінці or запит демо.

Syntho Engine найкраще працює зі структурованими табличними даними (все, що містить рядки та стовпці). У цих структурах ми підтримуємо такі типи даних:

  • Структурує дані, відформатовані в таблиці (категорійні, числові тощо)
  • Прямі ідентифікатори та ідентифікаційні дані
  • Великі набори даних і бази даних
  • Дані про географічне розташування (наприклад, GPS)
  • Дані часових рядів
  • Багатотабличні бази даних (з довідковою цілісністю)
  • Відкрити текстові дані

 

Підтримка комплексних даних
Окрім усіх звичайних типів табличних даних, Syntho Engine підтримує складні типи даних і складні структури даних.

  • Часовий ряд
  • Багатотабличні бази даних
  • Відкрити текст

Читати далі.

Ні, ми оптимізували нашу платформу, щоб мінімізувати обчислювальні вимоги (наприклад, не потрібен графічний процесор), без шкоди для точності даних. Крім того, ми підтримуємо автоматичне масштабування, щоб можна було синтезувати величезні бази даних.

Так. Програмне забезпечення Syntho оптимізоване для баз даних, що містять кілька таблиць.

Що стосується цього, Syntho автоматично визначає типи даних, схеми та формати, щоб максимально підвищити точність даних. Для багатотабличної бази даних ми підтримуємо автоматичний висновок і синтез зв’язків таблиць для збереження посилальної цілісності.

Група людей посміхається

Дані синтетичні, але наша команда справжня!

Зверніться до компанії Syntho і один з наших експертів зв’яжеться з вами зі швидкістю світла, щоб вивчити цінність синтетичних даних!