Руководство по генерации синтетических данных: определение, типы и приложения

Ни для кого не секрет, что предприятия сталкиваются с трудностями при получении и обмене высококачественными данными. Генерация синтетических данных — это практическое решение, которое помогает создавать большие наборы искусственных данных и высококачественные тестовые данные без риска для конфиденциальности и бюрократической волокиты.

Синтетические наборы данных могут быть созданы с использованием различных методов, предлагающих разнообразные приложения. При правильной оценке наборы синтетических данных, созданные с использованием передовых алгоритмов, помогают организациям ускорить анализ, исследования и тестирование. Итак, давайте посмотрим поближе.

Эта статья знакомит вас с синтетическими данными, включая основные типы, отличия от анонимных наборов данных и нормативные нюансы. Вы узнаете, как искусственно сгенерированные данные решают критические проблемы с данными и минимизируют определенные риски. Мы также обсудим его применение в различных отраслях, сопровождая его примерами из наших тематических исследований.

Содержание

Синтетические данные: определение и рыночная статистика

Синтетические данные представляет собой искусственно созданную информацию, лишенную конфиденциального содержания и служащую альтернативой реальным наборам данных. Ученые, работающие с данными, часто называют Синтетические данные, созданные ИИ двойник синтетических данных из-за его высокой статистической точности при имитации реальных данных.

Наборы искусственных данных создаются с использованием алгоритмов искусственного интеллекта (ИИ) и моделирования, которые сохраняют закономерности и корреляции исходных данных. Эти данные могут включать текст, таблицы и изображения. Алгоритмы заменяют личную информацию (PII) на ложные данные.

Платформа синтетических данных Syntho с графиком всех решений

Прогнозы Grand View Research что рынок для генерация синтетических данных с помощью Generative AI вырастет с $1.63 млрд в 2022 году до примерно $13.5 млрд к 2030 году при среднегодовом темпе роста 35%. По данным Гартнера, 60% данных, используемых для ИИ в 2024 году, будут синтетическими — это в 60 раз больше, чем в 2021 году.

Платформы синтетических данных также находятся на подъеме. Рынок Стейтсвилля ожидает Мировой рынок платформ синтетических данных вырастет с 218 миллионов долларов в 2022 году до 3.7 миллиардов долларов к 2033 году.

Почему искусственных данных становится всё больше? Одним из движущих факторов является свобода от регулирующего надзора.

Регулируют ли законы о конфиденциальности синтетические данные, генерируемые ИИ?

Многие США и ЕС безопасность и конфиденциальность данных правила применяются к идентифицируемым персональным данным. 

Но эти правила не распространяются на синтетические данные — синтетические данные обрабатываются аналогично анонимизированные данные. Они образуют так называемое «ядро» других правовых норм.

Например, декламация 26 GDPR говорит, что правила защиты конфиденциальности применяются только к данным, которые относятся к идентифицируемому лицу. Если ваши синтетические данные сгенерированы таким образом, что их невозможно отследить до конкретных лиц, они освобождаются от регулирующего надзора. Помимо нормативного надзора, существуют и другие препятствия на пути использования реальных данных, которые побуждают предприятия генерировать синтетические данные.

Ключевые проблемы использования реальных данных

Многим компаниям сложно найти и использовать соответствующие высококачественные данные, особенно в достаточных объемах для обучения алгоритмов ИИ. Даже если они их найдут, совместное использование или использование наборов данных может быть затруднено из-за рисков конфиденциальности и проблем совместимости. В этом разделе описаны ключевые бросает вызов синтетическим данным может решить.

Риски конфиденциальности препятствуют использованию и обмену данными

Правила безопасности и конфиденциальности данных, такие как GDPR и HIPAA, создают бюрократические препятствия для обмена и использования данных. В таких отраслях, как здравоохранение, даже обмен PII между подразделениями одной организации может занять много времени из-за проверок со стороны руководства. Обмен данными с внешними организациями еще более сложен и несет в себе больше рисков для безопасности.

Исследования, проведенные Бизнес-аналитика Fortune определяет растущие риски конфиденциальности в качестве основного катализатора внедрения практики синтетических данных. Чем больше данных вы храните, тем больше вы рискуете поставить под угрозу конфиденциальность. В соответствии с отчет IBM о затратах на безопасность в случае утечки данных в 2023 годуСредний ущерб от утечки данных в США составил 9.48 миллиона долларов. Во всем мире средняя стоимость составила 4.45 миллиона долларов; компании, в которых работает менее 500 человек, теряют 3.31 миллиона долларов за одно нарушение. И это не учитывает репутационный ущерб.

Трудности с поиском качественных данных

Обзор 2022 из 500 специалистов по данным выявили, что 77% инженеров, аналитиков и специалистов по обработке данных сталкивались с проблемами качества данных. Согласно отчету, качество данных снижает финансовые показатели и производительность компании и делает практически невозможным достижение целостного представления об ее услугах.

Компаниям может не хватать данных по конкретным демографическим группам для правильного обучения своих моделей машинного обучения (ML). Наборы данных часто содержат несоответствия, неточности и пропущенные значения. Если вы обучаете свои платформы искусственного интеллекта с помощью модели машинного обучения на основе данных низкого качества, лишенных демографического разнообразия, он будет делать неточные и предвзятые прогнозы. Точно так же, как и при генерации анонимных данных, нерафинированные алгоритмы могут создавать ненадежные искусственные наборы данных, которые влияют на результат анализа данных.

Повышение дискретизации синтетических данных может повысить качество данных за счет устранения дисбаланса в наборах данных. Это гарантирует, что недостаточно представленные классы получат более пропорциональное представительство и уменьшит предвзятость. Более надежный и репрезентативный набор данных дает улучшенные результаты анализа и обучение модели.

Несовместимость наборов данных

Наборы данных, полученные из разных источников или в многотабличных базах данных, могут привести к несовместимости, что усложняет обработку и анализ данных и препятствует инновациям.

Например, агрегирование данных в здравоохранении включает в себя электронные медицинские записи (EHR), носимые устройства, проприетарное программное обеспечение и сторонние инструменты. Каждый источник может использовать разные форматы данных и информационные системы, что приводит к различиям в форматах, структурах или единицах данных во время интеграции. Использование синтетических данных может решить эту проблему, обеспечивая совместимость и позволяя генерировать данные в желаемом формате.

Анонимизация недостаточна

Методов анонимизации недостаточно для преодоления рисков конфиденциальности или проблем с качеством данных. Более того, маскирование или удаление идентификаторов может лишить вас деталей, необходимых для углубленного анализа. в больших наборах данных.

Кроме того, анонимизированные данные можно повторно идентифицировать и отследить до отдельных лиц. Злоумышленники могут использовать расширенную аналитику для выявления временных закономерностей, которые ставят под угрозу анонимность, казалось бы, обезличенных данных. В этом отношении синтетические данные превосходят анонимизированные данные.

В отличие от анонимизация, синтетические данные не изменяет существующие наборы данных, а генерирует новые данные, которые напоминают характеристики и структуру необработанные данные, сохраняя свою полезность. Это совершенно новый набор данных, не содержащий никакой личной информации.

Но здесь больше нюансов. Существует несколько типов синтетические методы генерации данных.

Типы генерации синтетических данных

Создание синтетических данных Процессы различаются в зависимости от типа требуемых данных. Синтетические типы данных включают полностью сгенерированные искусственным интеллектом, основанные на правилах и фиктивные данные — каждый из которых отвечает различным потребностям.

Синтетические данные, полностью сгенерированные искусственным интеллектом.

Этот тип синтетические данные построен с нуля с использованием алгоритмов ML. модель машинного обучения поезда на фактические данные узнать о структуре данных, закономерностях и отношениях. Затем генеративный ИИ использует эти знания для генерации новых данных, которые очень похожи на статистические свойства оригинала (опять же, делая их неидентифицируемыми).

Этот тип полностью синтетические данные полезен для обучения модели ИИ и достаточно хорош, чтобы его можно было использовать так, как если бы это были реальные данные. Это особенно полезно, когда вы не можете делиться своими наборами данных из-за договорных соглашений о конфиденциальности. Однако для создания синтетических данных вам потребуется значительный объем исходных данных в качестве отправной точки. модель машинного обучения обучение.

Синтетические фиктивные данные

Эта синтетические данные Тип относится к искусственно созданным данным, которые имитируют структуру и формат реальных данных, но не обязательно отражают реальную информацию. Это помогает разработчикам гарантировать, что их приложения смогут обрабатывать различные входные данные и сценарии без использования подлинных, частных или конфиденциальных данных и, самое главное, не полагаясь на реальные данные. Эта практика необходима для тестирования функциональности и совершенствования программных приложений контролируемым и безопасным образом.

Когда его использовать: для замены прямых идентификаторов (PII) или когда вам в настоящее время не хватает данных и вы предпочитаете не тратить время и энергию на определение правил. Разработчики обычно используют макетные данные для оценки функциональности и внешнего вида приложений на ранних стадиях разработки, что позволяет им выявлять потенциальные проблемы или недостатки дизайна. 

Несмотря на то, что ложным данным не хватает подлинности реальной информации, они остаются ценным инструментом для обеспечения правильного функционирования систем и визуального представления перед фактической интеграцией данных. 

Примечание. Синтетические имитируемые данные часто называют «фейковые данные,', хотя мы не рекомендуем использовать эти термины как взаимозаменяемые, поскольку они могут различаться по смыслу. 

Синтетические фиктивные данные

Синтетические данные на основе правил

Синтетические данные на основе правил — полезный инструмент для создания индивидуальных наборов данных на основе заранее определенных правил, ограничений и логики. Этот метод обеспечивает гибкость, позволяя пользователям настраивать вывод данных в соответствии с конкретными потребностями бизнеса, регулируя такие параметры, как минимальное, максимальное и среднее значения. В отличие от данных, полностью генерируемых искусственным интеллектом и не имеющих возможности настройки, синтетические данные на основе правил предлагают индивидуальное решение для удовлетворения конкретных эксплуатационных требований. Этот процесс генерации синтетических данных оказывается особенно полезным в тестировании, разработке и аналитике, где важно точное и контролируемое генерирование данных.

Каждый метод генерации синтетических данных имеет разные применения. Платформа Syntho выделяется тем, что позволяет создавать двойники синтетических данных практически без усилий с вашей стороны. Вы получаете статистически точные, высококачественные синтетические данные для ваших нужд без накладных расходов на соблюдение требований.

Табличные синтетические данные

Термин табличные синтетические данные относится к создание искусственных данных подмножества, которые имитируют структуру и статистические свойства реального мира. табличные данные, например данные, хранящиеся в таблицах или электронных таблицах. Этот синтетические данные создается с использованием алгоритмы генерации синтетических данных и методы, предназначенные для воспроизведения характеристик источник данных обеспечивая при этом конфиденциальность или конфиденциальных данных не разглашается.

Методы создания табличный синтетические данные обычно включают статистическое моделирование, модели машинного обученияили генеративные модели, такие как генеративно-состязательные сети (GAN) и вариационные автокодировщики (VAE). Эти инструменты генерации синтетических данных проанализировать закономерности, распределения и корреляции, присутствующие в реальный набор данных а затем генерировать новые точки данных который очень похожи на реальные данные но не содержат никакой реальной информации.

Типичная таблица варианты использования синтетических данных включают решение проблем конфиденциальности, повышение доступности данных и содействие исследованиям и инновациям в приложениях, управляемых данными. Однако важно обеспечить, чтобы синтетические данные точно фиксирует основные закономерности и распределение исходных данных для поддержания утилита данных и пригодность для последующих задач.

график синтетических данных на основе правил

Самые популярные приложения для синтетических данных

Искусственно сгенерированные данные открывают инновационные возможности для здравоохранения, розничной торговли, производства, финансов и других отраслей. Главная случаи использования включают в себя повышенную дискретизацию данных, аналитику, тестирование и обмен данными.

Повышение дискретизации для улучшения наборов данных

Повышение дискретизации означает создание больших наборов данных из меньших для масштабирования и диверсификации. Этот метод применяется, когда реальных данных недостаточно, несбалансированны или неполны.

Рассмотрим несколько примеров. Для финансовых учреждений разработчики могут повысить точность моделей обнаружения мошенничества за счет повышения выборки редких наблюдений и моделей активности в финансовые данные. Аналогичным образом, маркетинговое агентство может повысить точность выборки, чтобы дополнить данные, относящиеся к недостаточно представленным группам, повышая точность сегментации.

Расширенная аналитика с данными, сгенерированными ИИ

Компании могут использовать высококачественные синтетические данные, генерируемые искусственным интеллектом, для моделирования данных, бизнес-аналитики и клинических исследований. Синтезирование данных оказывается жизнеспособной альтернативой, когда получение реальных наборов данных слишком дорого или отнимает много времени.

Синтетические данные дает исследователям возможность проводить углубленный анализ без ущерба для конфиденциальности пациентов. Ученые данных а исследователи получают доступ к данным пациентов, информации о клинических состояниях и деталях лечения, получая информацию, которая при использовании реальных данных заняла бы значительно больше времени. Более того, производители могут свободно обмениваться данными с поставщиками, включая обработанные данные GPS и местоположения для создания алгоритмов тестирования производительности или улучшения профилактического обслуживания.

Однако синтетическая оценка данных имеет решающее значение. Результаты работы Syntho Engine проверяются внутренней командой обеспечения качества и внешние эксперты Института SAS. В исследовании прогнозного моделирования мы обучили четырех модели машинного обучения на реальных, анонимизированных и синтетических данных. Результаты показали, что модели, обученные на наших синтетических наборах данных, имели тот же уровень точности, что и модели, обученные на реальных наборах данных, в то время как анонимные данные снижали полезность моделей.

Внешний и внутренний обмен данными

Синтетические данные упрощают обмен данными внутри и между организациями. Ты можешь использовать синтетические данные в обмениваться информацией без риска нарушения конфиденциальности или несоблюдения нормативных требований. Преимущества синтетических данных включают ускорение результатов исследований и более эффективное сотрудничество.

Розничные компании могут делиться информацией с поставщиками или дистрибьюторами, используя синтетические данные, отражающие поведение клиентов, уровень запасов или другие ключевые показатели. Однако для обеспечения высочайшего уровня конфиденциальность данныхконфиденциальные данные клиентов и корпоративные тайны остаются конфиденциальными.

Syntho выиграла Global SAS Hackathon 2023 за нашу способность генерировать и делиться aточные синтетические данные эффективно и без риска. Мы синтезировали данные о пациентах из нескольких больниц с разными группами пациентов, чтобы продемонстрировать эффективность прогностических моделей. Было показано, что использование объединенных наборов синтетических данных столь же точно, как и использование реальных данных.

Данные синтетических испытаний

Синтетические данные испытаний — это искусственно сгенерированные данные, предназначенные для моделирования тестирование данных среды для разработки программного обеспечения. Помимо снижения рисков конфиденциальности, синтетические тестовые данные позволяют разработчикам тщательно оценивать производительность, безопасность и функциональность приложений в ряде потенциальных сценариев, не влияя на реальную систему.

Наше сотрудничество с одним из крупнейших голландских банков Витрины Преимущества синтетических данных для тестирования программного обеспечения. Генерация тестовых данных Использование Syntho Engine привело к созданию наборов данных, аналогичных производственным, что помогло банку ускорить разработку программного обеспечения и обнаружение ошибок, что привело к более быстрому и безопасному выпуску программного обеспечения.

Методы создания табличный синтетические данные обычно включают статистическое моделирование, модели машинного обученияили генеративные модели, такие как генеративно-состязательные сети (GAN) и вариационные автокодировщики (VAE). Эти инструменты генерации синтетических данных проанализировать закономерности, распределения и корреляции, присутствующие в реальный набор данных а затем генерировать новые точки данных который очень похожи на реальные данные но не содержат никакой реальной информации.

Типичная таблица варианты использования синтетических данных включают решение проблем конфиденциальности, повышение доступности данных и содействие исследованиям и инновациям в приложениях, управляемых данными. Однако важно обеспечить, чтобы синтетические данные точно фиксирует основные закономерности и распределение исходных данных для поддержания утилита данных и пригодность для последующих задач.

Платформа генерации синтетических данных Syntho

Syntho предоставляет интеллектуальную платформу для генерации синтетических данных, позволяющую организациям интеллектуально преобразовывать данные в конкурентное преимущество. Объединив все методы генерации синтетических данных на одной платформе, Syntho предлагает комплексное решение для организаций, стремящихся использовать данные, которые охватывают:

  • Синтетические данные, созданные ИИ который имитирует статистические закономерности исходных данных в синтетических данных с помощью искусственного интеллекта.
  • Умная деидентификация защищать конфиденциальных данных путем удаления или изменения личной информации (PII).
  • Test data management что позволяет создание, обслуживание и контроль репрезентативных тестовых данных для непроизводственных сред.

Наши платформы интегрируются в любую облачную или локальную среду. Кроме того, мы берем на себя планирование и развертывание. Наша команда обучит ваших сотрудников использованию Синто-движок эффективно, и мы обеспечим постоянную поддержку после развертывания.

Подробнее о возможностях Syntho вы можете прочитать синтетические данные платформа поколения в Раздел Решения на нашем сайте.

Что ждет синтетические данные в будущем?

Генерация синтетических данных с помощью генеративного ИИ помогает создавать и делиться большими объемами Соответствующие данные, минуя проблемы совместимости форматов, нормативные ограничения и риск утечки данных.

В отличие от анонимизации, генерация синтетических данных позволяет сохранить структурные связи в данных. Это делает синтетические данные пригодными для расширенной аналитики, исследований и разработок, диверсификации и тестирования.

Использование синтетических наборов данных будет только расширяться во всех отраслях. Компании готовы создавать синтетические данные, расширяя сферу своей деятельности на сложные изображения, аудио и видеоконтент. Компании будут расширять использование модели машинного обучения к более продвинутым симуляциям и Приложения.

Хотите узнать больше о практическом применении синтетические данные? Не стесняйся запланировать демонстрацию на наш веб-сайт.

О Syntho

Синто обеспечивает умный генерация синтетических данных платформа, используя несколько синтетических форм данных и методы генерации, позволяющие организациям интеллектуально преобразовывать данные в конкурентное преимущество. Наши синтетические данные, генерируемые искусственным интеллектом, имитируют статистические закономерности исходных данных, обеспечивая точность, конфиденциальность и скорость по оценкам внешних экспертов, таких как SAS. Благодаря интеллектуальным функциям деидентификации и последовательному сопоставлению конфиденциальная информация защищена, сохраняя при этом ссылочную целостность. Наша платформа позволяет создавать, управлять и контролировать тестовые данные для непроизводственных сред, используя основанные на правилах синтетические методы генерации данных для целевых сценариев. Кроме того, пользователи могут генерировать синтетические данные программно и получить реалистичные данные испытаний с легкостью разрабатывать комплексные сценарии тестирования и разработки.

Об авторе

Фотография генерального директора и соучредителя Syntho Вима Киса Яннсена.

Вим Кис Янссен

Генеральный директор и основатель

Syntho — масштабное расширение, которое меняет индустрию данных благодаря синтетическим данным, генерируемым ИИ. Вим Кис доказал с помощью Syntho, что он может разблокировать конфиденциальные данные, чтобы сделать данные более интеллектуальными и быстрыми, чтобы организации могли реализовать инновации, основанные на данных. В результате Вим Кис и Syntho выиграли престижную премию Philips Innovation Award, выиграли глобальный хакатон SAS в области здравоохранения и биологических наук и были выбраны NVIDIA в качестве ведущих специалистов по масштабированию генеративного искусственного интеллекта.

опубликованный
19 февраля 2024