Керівництво з генерації синтетичних даних: визначення, типи та застосування

Ні для кого не секрет, що компанії стикаються з проблемами в отриманні та обміні високоякісними даними. Синтетична генерація даних це практичне рішення, яке допомагає створювати великі штучні набори даних і високоякісні тестові дані без ризиків конфіденційності та бюрократичних процедур.

Синтетичні набори даних можна створювати за допомогою різноманітних методів, що пропонують різноманітні застосування. При правильній оцінці синтетичні набори даних, створені за допомогою передових алгоритмів, допомагають організаціям пришвидшити аналітику, дослідження та тестування. Тож розглянемо ближче.

Ця стаття знайомить вас із синтетичними даними, включаючи основні типи, відмінності від анонімних наборів даних і нормативні нюанси. Ви дізнаєтесь, як штучно створені дані вирішують критичні проблеми з даними та мінімізують певні ризики. Ми також обговоримо його застосування в різних галузях, супроводжуючи приклади з наших прикладів.

Зміст

Синтетичні дані: визначення та ринкова статистика

Синтетичні дані є штучно згенерованою інформацією, позбавленою конфіденційного змісту, і служить альтернативою справжнім наборам даних. Науковці даних часто телефонують Синтетичні дані, створені ШІ двійник синтетичних даних через його високу статистичну точність імітації реальних даних.

Штучні набори даних створюються за допомогою алгоритмів штучного інтелекту (ШІ) і моделювання, які зберігають шаблони та кореляції вихідних даних. Ці дані можуть містити текст, таблиці та зображення. Алгоритми замінюють ідентифікаційну інформацію (PII) на макет даних.

Платформа синтетичних даних Syntho з усіма графіками рішень

Прогнози Grand View Research що ринок для генерація синтетичних даних за допомогою Generative AI зросте з 1.63 мільярда доларів США у 2022 році до приблизно 13.5 мільярда доларів США до 2030 року при CAGR 35%. За даними Gartner, 60% даних, які використовуються для ШІ у 2024 році, будуть синтетичними — це в 60 разів більше, ніж у 2021 році.

Платформи синтетичних даних також зростають. Ринок Стейтсвіль очікує глобальний ринок платформ синтетичних даних зросте з 218 мільйонів доларів США у 2022 році до 3.7 мільярдів доларів США до 2033 року.

Чому штучні дані зростають? Одним із рушійних факторів є свобода від регуляторного нагляду.

Чи закони про конфіденційність регулюють синтетичні дані, створені ШІ?

Багато США та ЄС безпека та конфіденційність даних правила застосовуються до персональних даних, які можна ідентифікувати. 

Але ці норми не стосуються синтетичні дані — синтетичні дані обробляються аналогічно анонімні дані. Вони утворюють так зване «ядро» інших правових норм.

Наприклад, пункт 26 GDPR говорить, що правила захисту конфіденційності застосовуються лише до даних, які стосуються особи, яку можна ідентифікувати. Якщо ваші синтетичні дані створено таким чином, що їх неможливо відстежити до осіб, які можна ідентифікувати, вони звільнені від регуляторного нагляду. Окрім регуляторного нагляду, існують інші перешкоди для використання реальних даних, які спонукають підприємства створювати синтетичні дані.

Ключові проблеми використання реальних даних

Багатьом компаніям важко знайти та використовувати релевантні високоякісні дані, особливо в достатній кількості для навчання алгоритму ШІ. Навіть якщо вони його знаходять, обмін або використання наборів даних може бути складним через ризики конфіденційності та проблеми сумісності. У цьому розділі викладено ключ кидає виклик синтетичним даним може вирішити.

Ризики конфіденційності перешкоджають використанню та обміну даними

Норми безпеки та конфіденційності даних, такі як GDPR і HIPAA, створюють бюрократичні перешкоди для обміну та використання даних. У таких галузях, як охорона здоров’я, навіть обмін ідентифікаційною інформацією між відділами однієї організації може зайняти багато часу через перевірки керівництва. Обмін даними із зовнішніми об’єктами є ще складнішим і несе більше ризиків для безпеки.

Дослідження від Fortune Business Insights визначає зростаючі ризики конфіденційності як основний каталізатор для впровадження синтетичних даних. Чим більше даних ви зберігаєте, тим більше ви ризикуєте порушити конфіденційність. Відповідно до Вартість звіту про порушення безпеки даних IBM за 2023 рік, середня вартість витоку даних у США склала 9.48 мільйона доларів. У всьому світі середня вартість склала 4.45 мільйона доларів; компанії з менш ніж 500 працівниками втрачають 3.31 мільйона доларів за порушення. І це не враховує репутаційну шкоду.

Труднощі з пошуком високоякісних даних

Опитування 2022 року 500 фахівців з обробки даних виявили, що 77% інженерів, аналітиків і спеціалістів з обробки даних стикалися з проблемами якості даних. Згідно зі звітом, якість даних перешкоджає фінансовій діяльності та продуктивності компанії та робить досягнення цілісного уявлення про її послуги важкодосяжним.

Компанії можуть не мати достатньо даних про певну демографію, щоб належним чином навчити свої моделі машинного навчання (ML). А набори даних часто містять невідповідності, неточності та відсутні значення. Якщо ви навчаєте свої платформи ШІ за допомогою моделі машинного навчання на низькоякісних даних без демографічного різноманіття, він робитиме неточні, упереджені прогнози. Так само, як і генерація анонімних даних, невдосконалені алгоритми можуть створювати ненадійні штучні набори даних, які впливають на результат аналізу даних.

Збільшення дискретизації за допомогою синтетичних даних може покращити якість даних шляхом усунення дисбалансів у наборах даних. Це гарантує, що недостатньо представлені класи отримають більш пропорційне представництво та зменшує упередженість. Більш надійний і репрезентативний набір даних дає кращі результати аналізу та навчання моделі.

Несумісність набору даних

Набори даних, отримані з різних джерел або в межах багатотабличних баз даних, можуть викликати несумісність, ускладнюючи обробку та аналіз даних і перешкоджаючи інноваціям.

Наприклад, агрегація даних у сфері охорони здоров’я включає електронні записи про стан здоров’я (EHR), переносні пристрої, власне програмне забезпечення та інструменти сторонніх розробників. Кожне джерело може використовувати різні формати даних та інформаційні системи, що призводить до розбіжностей у форматах даних, структурах або одиницях під час інтеграції. Використання синтетичних даних може вирішити цю проблему, забезпечуючи сумісність і дозволяючи генерувати дані у бажаному форматі.

Анонімізація недостатня

Методів анонімізації недостатньо, щоб подолати ризики конфіденційності або проблеми з якістю даних. Крім того, маскування або видалення ідентифікаторів може видалити деталі, необхідні для поглибленого аналізу у великих наборах даних.

Крім того, анонімні дані можна повторно ідентифікувати та відстежити до окремих осіб. Зловмисники можуть використовувати розширену аналітику, щоб виявити часові шаблони, які ставлять під загрозу анонімність, здавалося б, деідентифікованих даних. У цьому відношенні синтетичні дані перевершують анонімні дані.

на відміну від анонімізація, синтетичні дані не змінює існуючі набори даних, але створює нові дані, які нагадують характеристики та структуру необроблені дані, зберігаючи свою корисність. Це абсолютно новий набір даних, який не містить жодної особистої інформації.

Але це більш нюанси. Є кілька типів методи генерації синтетичних даних.

Типи генерації синтетичних даних

Створення синтетичних даних процеси відрізняються залежно від типу необхідних даних. Синтетичні типи даних включають дані, повністю згенеровані штучним інтелектом, на основі правил і фіктивні дані — кожен відповідає різним потребам.

Повністю згенеровані штучним інтелектом дані

Цей тип синтетичні дані створено з нуля за допомогою алгоритмів ML. The модель машинного навчання поїзди на фактичні дані щоб дізнатися про структуру даних, шаблони та зв’язки. Generative AI потім використовує ці знання для створення нових даних, які дуже нагадують статистичні властивості оригіналу (знову ж таки, роблячи їх невизначеними).

Цей тип повністю синтетичні дані корисний для навчання моделі ШІ та достатньо хороший, щоб використовувати його так, ніби це реальні дані. Це особливо корисно, коли ви не можете поділитися своїми наборами даних через договірні угоди про конфіденційність. Однак для створення синтетичних даних вам потрібна значна кількість вихідних даних як відправна точка модель машинного навчання навчання.

Синтетичні макетні дані

це синтетичні дані тип відноситься до штучно створених даних, які імітують структуру та формат реальних даних, але не обов’язково відображають фактичну інформацію. Це допомагає розробникам переконатися, що їхні програми можуть обробляти різні вхідні дані та сценарії без використання оригінальних, приватних або конфіденційні дані і, що найважливіше, не покладаючись на реальні дані. Ця практика має важливе значення для контрольованого та безпечного тестування функціональності та вдосконалення програмного забезпечення.

Коли це використовувати: щоб замінити прямі ідентифікатори (PII) або коли вам зараз бракує даних і ви не бажаєте витрачати час і енергію на визначення правил. Розробники зазвичай використовують імітаційні дані для оцінки функціональності та зовнішнього вигляду додатків на ранніх стадіях розробки, що дозволяє їм виявляти потенційні проблеми чи недоліки дизайну. 

Незважаючи на те, що фіктивним даним бракує автентичності реальної інформації, вони залишаються цінним інструментом для забезпечення належного функціонування систем і візуального представлення до фактичної інтеграції даних. 

Примітка. Синтетичні змішані дані часто називають "підроблені дані,', хоча ми не рекомендуємо використовувати ці терміни як взаємозамінні, оскільки вони можуть відрізнятися за значенням. 

Синтетичні макетні дані

Синтетичні дані на основі правил

Синтетичні дані на основі правил є корисним інструментом для створення налаштованих наборів даних на основі попередньо визначених правил, обмежень і логіки. Цей метод забезпечує гнучкість, дозволяючи користувачам налаштовувати виведення даних відповідно до конкретних бізнес-потреб, регулюючи такі параметри, як мінімальні, максимальні та середні значення. На відміну від повністю згенерованих штучним інтелектом даних, яким бракує налаштування, синтетичні дані на основі правил пропонують індивідуальне рішення для задоволення окремих операційних вимог. Це процес генерації синтетичних даних виявляється особливо корисним у тестуванні, розробці та аналітиці, де важлива точна та контрольована генерація даних.

Кожен метод генерації синтетичних даних має різні застосування. Платформа Syntho виділяється тим, що створює синтетичні двійники даних майже без зусиль з вашого боку. Ви отримуєте статистично точні, високоякісні синтетичні дані для ваших потреб без накладних витрат на відповідність.

Табличні синтетичні дані

Термін табличні синтетичні дані відноситься до створення штучних даних підмножини, які імітують структуру та статистичні властивості реального світу табличні дані, як-от дані, що зберігаються в таблицях або електронних таблицях. Це синтетичні дані створюється за допомогою алгоритми генерації синтетичних даних і техніки, призначені для повторення характеристик вихідні дані забезпечуючи при цьому конфіденційність або конфіденційні дані не розголошується.

Методи генерації табличний синтетичні дані зазвичай включають статистичне моделювання, моделі машинного навчанняабо генеративні моделі, такі як генеративні змагальні мережі (GAN) і варіаційні автокодери (VAE). Ці засоби генерації синтетичних даних проаналізуйте закономірності, розподіли та кореляції, присутні в реальний набір даних а потім створити новий точки даних Що дуже схожі на реальні дані але не містять реальної інформації.

Типовий табличний випадки використання синтетичних даних включають вирішення проблем конфіденційності, підвищення доступності даних і сприяння дослідженням та інноваціям у програмах, керованих даними. Однак важливо переконатися, що синтетичні дані точно фіксує базові закономірності та розподіли вихідних даних для підтримки утиліта даних і валідність для подальших завдань.

граф синтетичних даних на основі правил

Найпопулярніші програми синтетичних даних

Штучно створені дані відкривають інноваційні можливості для охорони здоров’я, роздрібної торгівлі, виробництва, фінансів та інших галузей. Первинний випадки використання включають підвищення дискретизації даних, аналітику, тестування та обмін.

Збільшення дискретизації для покращення наборів даних

Збільшення дискретизації означає створення більших наборів даних із менших для масштабування та диверсифікації. Цей метод застосовується, коли реальних даних мало, незбалансовано або неповно.

Розглянемо декілька прикладів. Для фінансових установ розробники можуть підвищити точність моделей виявлення шахрайства шляхом підвищення вибірки рідкісних спостережень і моделей активності в фінансові дані. Подібним чином маркетингове агентство може збільшити вибірку, щоб збільшити дані, пов’язані з недостатньо представленими групами, підвищивши точність сегментації.

Розширена аналітика з даними, створеними штучним інтелектом

Компанії можуть використовувати високоякісні синтетичні дані, створені ШІ, для моделювання даних, бізнес-аналітики та клінічних досліджень. Синтез даних виявляється життєздатною альтернативою, коли отримання реальних наборів даних занадто дороге або займає багато часу.

Синтетичні дані дозволяє дослідникам проводити глибокий аналіз без шкоди для конфіденційності пацієнта. Вчені-дані і дослідники отримують доступ до даних пацієнтів, інформації про клінічні стани та подробиці лікування, отримуючи інформацію, яка забирала б значно більше часу з реальними даними. Крім того, виробники можуть вільно обмінюватися даними з постачальниками, включаючи маніпульовані дані GPS і дані про місцезнаходження для створення алгоритмів для тестування продуктивності або покращення прогнозного обслуговування.

Тим не менш, оцінка синтетичних даних є критичним. Продуктивність Syntho Engine перевіряється внутрішньою командою із забезпечення якості зовнішні експерти Інституту SAS. У дослідженні прогнозного моделювання ми навчили чотирьох моделі машинного навчання на реальних, анонімних і синтетичних даних. Результати показали, що моделі, навчені на наших синтетичних наборах даних, мали такий самий рівень точності, як і моделі, навчені на реальних наборах даних, тоді як анонімні дані зменшили корисність моделей.

Зовнішній і внутрішній обмін даними

Синтетичні дані спрощують обмін даними всередині та між організаціями. Ти можеш використовувати синтетичні дані до обмінюватися інформацією без ризику порушення конфіденційності чи недотримання нормативних вимог. Переваги синтетичних даних включають прискорення результатів дослідження та більш ефективну співпрацю.

Роздрібні компанії можуть ділитися інформацією з постачальниками або дистриб’юторами, використовуючи синтетичні дані, які відображають поведінку клієнтів, рівень запасів або інші ключові показники. Однак для забезпечення найвищого рівня конфіденційність даних, конфіденційні дані клієнтів і корпоративні секрети залишаються конфіденційними.

Syntho виграв Global SAS Hackathon 2023 за нашу здатність створювати та ділитися aточні синтетичні дані ефективно та без ризику. Ми синтезували дані пацієнтів для кількох лікарень з різними групами пацієнтів, щоб продемонструвати ефективність прогнозних моделей. Використання комбінованих синтетичних наборів даних виявилося таким же точним, як і використання реальних даних.

Дані синтетичних тестів

Синтетичні тестові дані – це штучно створені дані, призначені для моделювання тестування даних середовища для розробки програмного забезпечення. Окрім зменшення ризиків конфіденційності, синтетичні тестові дані дозволяють розробникам ретельно оцінювати продуктивність, безпеку та функціональність додатків у різних потенційних сценаріях, не впливаючи на реальну систему.

Наша співпраця з одним із найбільших голландських банків Вітрини переваги синтетичних даних для тестування програмного забезпечення. Генерація тестових даних із Syntho Engine призвело до створення наборів даних, схожих на робочі, які допомогли банку прискорити розробку програмного забезпечення та виявлення помилок, що призвело до швидшого та безпечнішого випуску програмного забезпечення.

Методи генерації табличний синтетичні дані зазвичай включають статистичне моделювання, моделі машинного навчанняабо генеративні моделі, такі як генеративні змагальні мережі (GAN) і варіаційні автокодери (VAE). Ці засоби генерації синтетичних даних проаналізуйте закономірності, розподіли та кореляції, присутні в реальний набір даних а потім створити новий точки даних Що дуже схожі на реальні дані але не містять реальної інформації.

Типовий табличний випадки використання синтетичних даних включають вирішення проблем конфіденційності, підвищення доступності даних і сприяння дослідженням та інноваціям у програмах, керованих даними. Однак важливо переконатися, що синтетичні дані точно фіксує базові закономірності та розподіли вихідних даних для підтримки утиліта даних і валідність для подальших завдань.

Платформа генерації синтетичних даних Syntho

Syntho надає інтелектуальну платформу для створення синтетичних даних, яка дає можливість організаціям інтелектуально перетворювати дані в конкурентну перевагу. Надаючи всі методи генерації синтетичних даних на одній платформі, Syntho пропонує комплексне рішення для організацій, які прагнуть використовувати дані, які охоплюють:

  • Синтетичні дані, створені ШІ який імітує статистичні моделі вихідних даних у синтетичних даних за допомогою потужності штучного інтелекту.
  • Розумна деідентифікація Захищати конфіденційні дані шляхом видалення або зміни персональної інформації (PII).
  • Test data management що дозволяє створення, підтримка та контроль репрезентативних тестових даних для невиробничих середовищ.

Наші платформи інтегруються в будь-яке хмарне або локальне середовище. Крім того, ми піклуємося про планування та розгортання. Наша команда навчить ваших співробітників користуватися Двигун Syntho ефективно, і ми забезпечимо постійну підтримку після розгортання.

Ви можете прочитати більше про можливості Syntho's синтетичні дані платформа генерації в Розділ «Рішення» нашого сайту.

Що чекає синтетичні дані в майбутньому?

Генерація синтетичних даних за допомогою генеративного ШІ допомагає створювати та ділитися великими обсягами відповідні дані, уникаючи проблем із сумісністю форматів, нормативних обмежень і ризику витоку даних.

На відміну від анонімізації, генерування синтетичних даних дозволяє зберегти структурні зв'язки в даних. Це робить синтетичні дані придатними для розширеної аналітики, досліджень і розробок, диверсифікації та тестування.

Використання синтетичних наборів даних лише поширюватиметься в галузях. Компанії готові до створювати синтетичні дані, розширюючи його сферу дії на складні зображення, аудіо та відеовміст. Компанії розширять використання моделі машинного навчання до більш складного моделювання та застосування.

Хочете дізнатися більше про практичне застосування синтетичні дані? Не соромтеся запланувати демонстрацію на наш веб-сайт.

Про Syntho

Синто забезпечує смарт генерація синтетичних даних платформа, важелі численні синтетичні форми даних і методи генерації, що дозволяє організаціям розумно перетворювати дані в конкурентну перевагу. Наші синтетичні дані, створені штучним інтелектом, імітують статистичні моделі вихідних даних, забезпечуючи точність, конфіденційність і швидкість, як оцінюють зовнішні експерти, як-от SAS. Завдяки інтелектуальним функціям деідентифікації та узгодженому відображенню конфіденційна інформація захищена, зберігаючи довідкову цілісність. Наша платформа дозволяє створювати, керувати та контролювати тестові дані для невиробничих середовищ, використовуючи правила на основі методи генерації синтетичних даних для цільових сценаріїв. Крім того, користувачі можуть генерувати синтетичні дані програмним шляхом і отримати реалістичні тестові дані легко розробляти комплексні сценарії тестування та розробки.

Про автора

Фотографія голови генерального директора та співзасновника Syntho Віма Кеса Яннсена

Вім Кіс Янсен

Генеральний директор і засновник

Syntho, масштабне розширення, яке руйнує індустрію даних за допомогою синтетичних даних, створених ШІ. Вім Кіз разом із Syntho довів, що він може розблоковувати конфіденційні дані, щоб зробити доступ розумнішим і швидшим, щоб організації могли реалізувати інновації на основі даних. У результаті Wim Kees і Syntho виграли престижну нагороду Philips Innovation Award, перемогли на глобальному хакатоні SAS у сфері охорони здоров’я та біологічних наук, а NVIDIA вибрала лідера генеративного AI Scale-Up.

опублікований
19 Лютого, 2024