Часті запитання

FAQ

Часті запитання про синтетичні дані

Зрозуміло! На щастя, у нас є відповіді, і ми тут, щоб допомогти. Перегляньте наші поширені запитання.

Відкрийте запитання нижче та натисніть посилання, щоб отримати додаткову інформацію. У вас є більш складне питання, яке тут не зазначено? Запитайте наших експертів безпосередньо!

Найчастіші запитання

Що таке синтетичні дані?

Синтетичні дані – це дані, створені штучно, а не зібрані з реальних джерел. Загалом, тоді як вихідні дані збираються під час усіх ваших взаємодій з особами (клієнтами, пацієнтами тощо) і через усі ваші внутрішні процеси, синтетичні дані генеруються комп’ютерним алгоритмом.

Синтетичні дані також можна використовувати для тестування та оцінки моделей у контрольованому середовищі або для захисту конфіденційної інформації шляхом створення даних, схожих на дані реального світу, але не містять конфіденційної інформації. Синтетичні дані часто використовуються як альтернатива конфіденційним даним і можуть використовуватися як тестові дані, для аналітики або для навчання машинного навчання.

Як Syntho гарантує, що синтетичні дані мають ту саму якість даних, що й вихідні дані?

Гарантувати, що синтетичні дані мають таку саму якість, що й вихідні дані, може бути складно, і це часто залежить від конкретного випадку використання та методів, які використовуються для створення синтетичних даних. Деякі методи генерації синтетичних даних, наприклад генеративні моделі, можуть створювати дані, дуже схожі на вихідні дані. Ключове питання: як це продемонструвати?

Є кілька способів забезпечити якість синтетичних даних:

Показники якості даних у нашому звіті про якість даних: Один із способів переконатися, що синтетичні дані мають таку саму якість, що й вихідні дані, — це використовувати показники якості даних для порівняння синтетичних даних із вихідними даними. Ці показники можна використовувати для вимірювання таких речей, як подібність, точність і повнота даних. Програмне забезпечення Syntho містило звіт про якість даних із різними показниками якості даних.
ЗНО: оскільки якість даних синтетичних даних у порівнянні з оригінальними даними є ключовою, ми нещодавно провели оцінку з експертами з даних компанії SAS (лідера на ринку аналітики), щоб продемонструвати якість даних синтетичних даних від Syntho у порівнянні з реальними даними. Едвін ван Унен, аналітичний експерт із SAS, оцінив згенеровані синтетичні набори даних із Syntho за допомогою різних аналітичних оцінок (AI) і поділився результатами. Перегляньте короткий огляд цього відео тут.
Тестування та оцінка самостійно: синтетичні дані можна перевірити та оцінити, порівнюючи їх із даними реального світу або використовуючи їх для навчання моделей машинного навчання та порівнюючи їх продуктивність з моделями, навченими на даних реального світу. Чому б не перевірити якість синтетичних даних самостійно? Запитайте наших експертів про можливості цього тут.

Важливо зазначити, що синтетичні дані ніколи не можуть гарантувати 100% схожість з вихідними даними, але вони можуть бути достатньо близькими, щоб бути корисними для конкретного випадку використання. Цей конкретний варіант використання може бути навіть розширеною аналітикою або навчальними моделями машинного навчання.

Наразі ми анонімізуємо наші дані, чому ми повинні використовувати синтетичні дані?

Класична «анонімізація» не завжди є найкращим рішенням, оскільки:

Ризик конфіденційності – матимеш завжди
ризик конфіденційності. Застосовуючи ті
класичні методи анонімізації
тільки ускладнює, але ні
неможливо ідентифікувати осіб.
Знищення даних – чим більше ти
анонімність, тим краще ви захистите
вашу конфіденційність, але чим більше ви
знищити ваші дані. Це не що
ви хочете для аналітики, тому що
знищені дані призведуть до поганих
прозріння.
Витрата часу – це рішення
що займає багато часу, тому що
ці техніки працюють по-різному
на набір даних і на тип даних.

Синтетичні дані спрямовані на усунення всіх цих недоліків. Різниця настільки разюча, що ми зняли про це відео. Дивіться тут.

Синтетичні дані

Які типові випадки використання синтетичних даних?

Як правило, більшість наших клієнтів використовують синтетичні дані для:

Тестування та розробка програмного забезпечення
Синтетичні дані для аналітики, розробки моделей і розширеної аналітики (AI & ML)
Демонстрація товару

Дізнайтеся більше та вивчіть випадки використання.

Що ви маєте на увазі під генерацією «синтетичного близнюка даних»?

Синтетичний двійник даних — це згенерована алгоритмом копія реального набору даних і/або бази даних. За допомогою Synthetic Data Twin Syntho прагне імітувати оригінальний набір даних або базу даних якомога ближче до вихідних даних, щоб створити реалістичне представлення оригіналу. Завдяки двійникові синтетичних даних ми прагнемо до кращої якості синтетичних даних порівняно з вихідними даними. Ми робимо це за допомогою нашого програмного забезпечення для синтетичних даних, яке використовує найсучасніші моделі ШІ. Ці моделі штучного інтелекту генерують абсолютно нові точки даних і моделюють їх таким чином, що ми зберігаємо характеристики, зв’язки та статистичні шаблони вихідних даних до такої міри, що ви можете використовувати їх так, ніби це вихідні дані.

Це можна використовувати для різних цілей, таких як тестування та навчання моделей машинного навчання, моделювання сценаріїв для досліджень і розробок, а також створення віртуальних середовищ для навчання та навчання. Синтетичні двійники даних можна використовувати для створення реалістичних і репрезентативних даних, які можна використовувати замість даних реального світу, якщо вони недоступні або коли використання даних реального світу було б непрактичним або неетичним через суворі правила конфіденційності даних.

Детальніше.

Чи підтримуєте ви насмішників і імітують дані?

Так ми робимо. Ми пропонуємо різноманітні додаткові функції оптимізації та розширення синтетичних даних, зокрема мокери, щоб вивести ваші дані на новий рівень.

Детальніше.

Яка різниця між синтетичними даними (двійником синтетичних даних) і макетними даними?

Імітаційні дані та синтетичні дані, згенеровані штучним інтелектом, є типами синтетичних даних, але вони генеруються різними способами та служать різним цілям.

Фіктивні дані – це тип синтетичних даних, які створюються вручну та часто використовуються для тестування та розробки. Зазвичай він використовується для моделювання поведінки даних реального світу в контрольованому середовищі та часто використовується для перевірки функціональності системи чи програми. Часто він простий, його легко згенерувати та не потребує складних моделей чи алгоритмів. Часто реферери також імітують дані як «фіктивні дані» або «фальшиві дані».

Синтетичні дані, згенеровані ШІ, з іншого боку, генеруються за допомогою методів штучного інтелекту, таких як машинне навчання або генеративні моделі. Він використовується для створення реалістичних і репрезентативних даних, які можна використовувати замість даних реального світу, коли використання даних реального світу було б непрактичним або неетичним через суворі правила конфіденційності. Часто це складніше та вимагає більше обчислювальних ресурсів, ніж ручні макетні дані. Як результат, він набагато реалістичніший і максимально схожий на вихідні дані.

Підводячи підсумок, макет даних створюється вручну та зазвичай використовується для тестування та розробки, тоді як синтетичні дані, створені ШІ, створюються за допомогою методів штучного інтелекту та використовуються для створення репрезентативних і реалістичних даних.

Ще запитання? Запитайте наших експертів

Якість даних

Як Syntho демонструє якість згенерованих синтетичних даних?

Є кілька способів забезпечити якість синтетичних даних:

Показники якості даних у нашому звіті про якість даних: Один із способів переконатися, що синтетичні дані мають таку саму якість, що й вихідні дані, — це використовувати показники якості даних для порівняння синтетичних даних із вихідними даними. Ці показники можна використовувати для вимірювання таких речей, як подібність, точність і повнота даних. Програмне забезпечення Syntho містило звіт про якість даних із різними показниками якості даних.
ЗНО: оскільки якість даних синтетичних даних у порівнянні з оригінальними даними є ключовою, ми нещодавно провели оцінку з експертами з даних компанії SAS (лідера на ринку аналітики), щоб продемонструвати якість даних синтетичних даних від Syntho у порівнянні з реальними даними. Едвін ван Унен, аналітичний експерт із SAS, оцінив згенеровані синтетичні набори даних із Syntho за допомогою різних аналітичних оцінок (AI) і поділився результатами. Перегляньте короткий огляд цього відео тут.
Тестування та оцінка самостійно: синтетичні дані можна перевірити та оцінити, порівнюючи їх із даними реального світу або використовуючи їх для навчання моделей машинного навчання та порівнюючи їх продуктивність з моделями, навченими на даних реального світу. Чому б не перевірити якість синтетичних даних самостійно? Запитайте наших експертів про можливості цього тут.

Чи достатньо якості синтетичних даних, створених штучним інтелектом, для розширеної аналітики (наприклад, AI, ML, BI)?

Так. Синтетичні дані навіть містять шаблони, про які ви не знали, що вони присутні в вихідних даних.

Але не вірте нам на слово. Експерти з аналітики SAS (лідер світового ринку аналітики) провели (AI) оцінку наших синтетичних даних і порівняли їх з вихідними даними. Цікаво? Спостерігайте за вся подія тут або подивіться коротку версію про якість даних тут.

Чи зберігаєте ви посилальну цілісність у базах даних із багатьма таблицями?

Так ми робимо. Наша платформа оптимізована для баз даних і, отже, збереження посилальної цілісності між наборами даних у базі даних.

Цікаво дізнатися про це більше?

Запитайте безпосередньо наших експертів.

Конфіденційність

Чи потрібен Syntho доступ до моїх даних для створення синтетичних даних?

Ні, не маємо. Ми можемо легко розгорнути Syntho Engine локально або у вашій приватній хмарі через докер.

Чи потрібно мені ділитися своїми даними з Syntho для створення синтетичних даних?

Ні. Ми оптимізували нашу платформу таким чином, щоб її можна було легко розгорнути в надійному середовищі клієнта. Це гарантує, що дані ніколи не залишать довірене середовище клієнта. Варіанти розгортання довіреного середовища замовника «локальне» та «хмарне середовище замовника (приватна хмара)».

Додатково: Syntho підтримує версію, яка розміщена в «хмарі Syntho».

Чи бачить Syntho та/або обробляє мої дані?

Ні. Syntho Engine — це платформа самообслуговування. Як результат, генерування синтетичних даних за допомогою Syntho Engine стає можливим таким чином, що в end-to-end процес, Syntho ніколи не може бачити і ніколи не вимагає обробки даних.

Як ви демонструєте конфіденційність?

Так, ми робимо це за допомогою нашого звіту про контроль якості.

Під час синтезу набору даних важливо продемонструвати, що не можна повторно ідентифікувати осіб. в це відео, Марійн вводить заходи щодо конфіденційності, які є в нашому звіті про якість, щоб продемонструвати це.

Які показники конфіденційності містяться у звіті про забезпечення якості Syntho?

Звіт про контроль якості Syntho містить три галузевий стандарт метрики для оцінки конфіденційності даних. Ідея кожного з цих показників така:

Синтетичні дані (S) повинні бути «якомога ближче», але «не надто близько» до цільових даних (T).
Випадково вибрані дані про утримання (H) визначає орієнтир для «надто близько».
A ідеальне рішення генерує нові синтетичні дані, які поводяться точно так само, як вихідні дані, але раніше не зустрічалися (= H).

Що нідерландський орган із захисту даних каже про використання синтетичних даних?

Один із варіантів використання, який особливо виділяє голландський орган із захисту даних, це використання синтетичних даних як тестових даних.

Більше можна знайти в цій статті.

Двигун Syntho

Які варіанти розгортання ви підтримуєте?

Syntho Engine поставляється в контейнері Docker і його можна легко розгорнути та підключити до вибраного середовища.

Можливі варіанти розгортання включають:

На приміщенні
Будь-яка (приватна) хмара
Будь-яке інше середовище

Як підключити Syntho Engine до ваших даних?

Syntho дозволяє легко підключатися до ваших баз даних, програм, конвеєрів даних або файлових систем.

Для end-to-end комплексний підхід.

Функції підключення, які ми підтримуємо:

Підключи і працюй з Docker
20+ конекторів баз даних
20+ коннекторів файлової системи

Скільки часу потрібно для створення синтетичних даних?

Природно, час генерації залежить від розміру бази даних. У середньому таблиця з менш ніж 1 мільйоном записів синтезується менш ніж за 5 хвилин.

Скільки навчальних записів мені потрібно для синтезу моїх даних?

Алгоритми машинного навчання Syntho можуть краще узагальнювати функції за допомогою більшої кількості доступних записів об’єктів, що зменшує ризик конфіденційності. Рекомендується мінімальне співвідношення стовпців до рядків 1:500. Наприклад, якщо ваша вихідна таблиця має 6 стовпців, вона повинна містити щонайменше 3000 рядків.

Чи потрібні спеціальні навички для використання Syntho Engine?

Зовсім ні. Хоча для повного розуміння переваг, роботи та випадків використання синтетичних даних може знадобитися певні зусилля, процес синтезу дуже простий, і кожен, хто має базові знання комп’ютера, може це зробити. Щоб отримати додаткову інформацію про процес синтезу, перегляньте На цій сторінці or запит демо.

Які типи даних ви підтримуєте?

Syntho Engine найкраще працює зі структурованими табличними даними (все, що містить рядки та стовпці). У цих структурах ми підтримуємо такі типи даних:

Структурує дані, відформатовані в таблиці (категорійні, числові тощо)
Прямі ідентифікатори та ідентифікаційні дані
Великі набори даних і бази даних
Дані про географічне розташування (наприклад, GPS)
Дані часових рядів
Багатотабличні бази даних (з довідковою цілісністю)
Відкрити текстові дані

Підтримка комплексних даних
Окрім усіх звичайних типів табличних даних, Syntho Engine підтримує складні типи даних і складні структури даних.

Часовий ряд
Багатотабличні бази даних
Відкрити текст

Чи потрібен мені графічний процесор для використання Syntho?

Ні, ми оптимізували нашу платформу, щоб мінімізувати обчислювальні вимоги (наприклад, не потрібен графічний процесор), без шкоди для точності даних. Крім того, ми підтримуємо автоматичне масштабування, щоб можна було синтезувати величезні бази даних.

Чи збережеться посилальна цілісність, коли я маю базу даних?

Так. Програмне забезпечення Syntho оптимізоване для баз даних, що містять кілька таблиць.

Що стосується цього, Syntho автоматично визначає типи даних, схеми та формати, щоб максимально підвищити точність даних. Для багатотабличної бази даних ми підтримуємо автоматичний висновок і синтез зв’язків таблиць для збереження посилальної цілісності.

Дані синтетичні, але наша команда справжня!

Зверніться до компанії Syntho і один з наших експертів зв’яжеться з вами зі швидкістю світла, щоб вивчити цінність синтетичних даних!

Що таке синтетичні дані?

Звіт про забезпечення якості

ЗНО за SAS

Синтетичні дані часових рядів

Сканер ідентифікаційної інформації

Синтетичні макетні дані

Послідовне відображення

Деідентифікація та синтетизація

Синтетичні дані на основі правил

Піднабір

Розгортання та інтеграція

Роз'єми

Розширені функції

Підтримувані дані

Документація користувача

Сплануйте демонстраційну версію

Ціни

Синтетичні дані як тестові дані

Синтетичні дані для аналітики

Синтетичні дані для обміну даними

Синтетичні дані для демонстрації продукту

Здоров'я

Фінансові установи

Громадські організації

Документація користувача

Технічні документи та посібники

Блог

Вебінари

Приклади з практики

Ціни

Про нас

Кар'єра

FAQ