FAQ

Часто задаваемые вопросы о синтетических данных

Понятно! К счастью, у нас есть ответы, и мы здесь, чтобы помочь. Ознакомьтесь с нашими часто задаваемыми вопросами.

Пожалуйста, откройте вопрос ниже и щелкните ссылки, чтобы найти дополнительную информацию. Есть более сложный вопрос, который здесь не указан? Спросите напрямую у наших специалистов!

Самые задаваемые вопросы

Синтетические данные относятся к данным, которые создаются искусственно, а не собираются из реальных источников. В целом, в то время как исходные данные собираются во всех ваших взаимодействиях с людьми (клиентами, пациентами и т. д.) и во всех ваших внутренних процессах, синтетические данные генерируются компьютерным алгоритмом.

Синтетические данные также можно использовать для тестирования и оценки моделей в контролируемой среде или для защиты конфиденциальной информации путем создания данных, которые аналогичны реальным данным, но не содержат конфиденциальной информации. Синтетические данные часто используются в качестве альтернативы конфиденциальным данным и могут использоваться в качестве тестовых данных, для аналитики или для обучения машинному обучению.

Читать далее

Гарантия того, что синтетические данные имеют то же качество данных, что и исходные данные, может быть сложной задачей и часто зависит от конкретного варианта использования и методов, используемых для создания синтетических данных. Некоторые методы создания синтетических данных, такие как генеративные модели, могут создавать данные, очень похожие на исходные данные. Ключевой вопрос: как это продемонстрировать?

Есть несколько способов обеспечить качество синтетических данных:

  • Показатели качества данных в нашем отчете о качестве данных: Один из способов гарантировать, что синтетические данные имеют то же качество данных, что и исходные данные, — это использовать метрики качества данных для сравнения синтетических данных с исходными данными. Эти показатели можно использовать для измерения таких вещей, как сходство, точность и полнота данных. Программное обеспечение Syntho включало отчет о качестве данных с различными показателями качества данных..
  • Внешняя оценка: поскольку качество синтетических данных по сравнению с исходными данными является ключевым, мы недавно провели оценку с экспертами по данным SAS (лидер рынка аналитики), чтобы продемонстрировать качество синтетических данных Syntho по сравнению с реальными данными. Эдвин ван Унен, эксперт по аналитике из SAS, оценил сгенерированные синтетические наборы данных из Syntho с помощью различных оценок аналитики (ИИ) и поделился результатами. Посмотрите краткое изложение этого видео здесь.
  • Тестирование и оценка самостоятельно: синтетические данные можно тестировать и оценивать, сравнивая их с реальными данными или используя их для обучения моделей машинного обучения и сравнивая их производительность с моделями, обученными на реальных данных. Почему бы не проверить качество синтетических данных самостоятельно? Спросите наших экспертов о возможностях этого здесь

Важно отметить, что синтетические данные никогда не могут гарантировать 100% сходство с исходными данными, но они могут быть достаточно близки, чтобы быть полезными для конкретного случая использования. Этот конкретный вариант использования может быть даже расширенной аналитикой или обучающими моделями машинного обучения.

Классическая «анонимизация» не всегда лучшее решение, потому что:

  1. Риск конфиденциальности - у тебя всегда будет
    риск конфиденциальности. Применение этих
    классические методы анонимизации
    только усложняет, но не
    невозможно идентифицировать личности.
  2. Уничтожение данных - чем больше ты
    анонимизируйте, тем лучше вы защитите
    вашу конфиденциальность, но чем больше вы
    уничтожить ваши данные. Это не то, что
    вы хотите для аналитики, потому что
    уничтоженные данные приведут к плохим
    понимание.
  3. Кропотливый - это решение
    это занимает много времени, потому что
    эти методы работают по-разному
    для каждого набора данных и для каждого типа данных.

Синтетические данные призваны устранить все эти недостатки. Разница настолько разительна, что мы сняли о ней видео. Смотрите здесь.

Часто задаваемые вопросы

Синтетические данные

Как правило, большинство наших клиентов используют синтетические данные для:

  • Тестирование и разработка программного обеспечения
  • Синтетические данные для аналитики, разработки моделей и расширенной аналитики (ИИ и МО)
  • Демоверсии продукта

Узнайте больше и изучите варианты использования.

Синтетический двойник данных — это сгенерированная алгоритмом копия реального набора данных и/или базы данных. С Synthetic Data Twin Syntho стремится имитировать исходный набор данных или базу данных как можно ближе к исходным данным, чтобы создать реалистичное представление оригинала. С двойником синтетических данных мы стремимся к более высокому качеству синтетических данных по сравнению с исходными данными. Мы делаем это с помощью нашего программного обеспечения для синтетических данных, которое использует самые современные модели искусственного интеллекта. Эти модели ИИ генерируют совершенно новые точки данных и моделируют их таким образом, что мы сохраняем характеристики, взаимосвязи и статистические закономерности исходных данных до такой степени, что вы можете использовать их, как будто это исходные данные.

Это можно использовать для различных целей, таких как тестирование и обучение моделей машинного обучения, моделирование сценариев для исследований и разработок, а также создание виртуальных сред для обучения и образования. Двойники синтетических данных можно использовать для создания реалистичных и репрезентативных данных, которые можно использовать вместо реальных данных, когда они недоступны или когда использование реальных данных было бы непрактичным или неэтичным из-за строгих правил конфиденциальности данных.

Подробнее.

Да. Мы предлагаем различные дополнительные функции оптимизации и расширения синтетических данных, в том числе мокеры, чтобы вывести ваши данные на новый уровень.

Подробнее.

Имитация данных и синтетические данные, сгенерированные ИИ, являются типами синтетических данных, но они генерируются разными способами и служат разным целям.

Мок-данные — это тип синтетических данных, которые создаются вручную и часто используются для целей тестирования и разработки. Обычно он используется для имитации поведения реальных данных в контролируемой среде и часто используется для проверки функциональности системы или приложения. Зачастую он прост, легко генерируется и не требует сложных моделей или алгоритмов. Часто кто-то также ссылается на имитацию данных как на «фиктивные данные» или «фальшивые данные».

С другой стороны, синтетические данные, сгенерированные ИИ, генерируются с использованием методов искусственного интеллекта, таких как машинное обучение или генеративные модели. Он используется для создания реалистичных и репрезентативных данных, которые можно использовать вместо реальных данных, когда использование реальных данных было бы непрактичным или неэтичным из-за строгих правил конфиденциальности. Часто это сложнее и требует больше вычислительных ресурсов, чем фиктивные данные вручную. В результате он намного более реалистичен и максимально точно имитирует исходные данные.

Таким образом, фиктивные данные создаются вручную и обычно используются для тестирования и разработки, в то время как синтетические данные, сгенерированные ИИ, создаются с использованием методов искусственного интеллекта и используются для создания репрезентативных и реалистичных данных.

Больше вопросов? Задайте вопрос нашим экспертам

Качество данных

Гарантия того, что синтетические данные имеют то же качество данных, что и исходные данные, может быть сложной задачей и часто зависит от конкретного варианта использования и методов, используемых для создания синтетических данных. Некоторые методы создания синтетических данных, такие как генеративные модели, могут создавать данные, очень похожие на исходные данные. Ключевой вопрос: как это продемонстрировать?

Есть несколько способов обеспечить качество синтетических данных:

  • Показатели качества данных в нашем отчете о качестве данных: Один из способов гарантировать, что синтетические данные имеют то же качество данных, что и исходные данные, — это использовать метрики качества данных для сравнения синтетических данных с исходными данными. Эти показатели можно использовать для измерения таких вещей, как сходство, точность и полнота данных. Программное обеспечение Syntho включало отчет о качестве данных с различными показателями качества данных..
  • Внешняя оценка: поскольку качество синтетических данных по сравнению с исходными данными является ключевым, мы недавно провели оценку с экспертами по данным SAS (лидер рынка аналитики), чтобы продемонстрировать качество синтетических данных Syntho по сравнению с реальными данными. Эдвин ван Унен, эксперт по аналитике из SAS, оценил сгенерированные синтетические наборы данных из Syntho с помощью различных оценок аналитики (ИИ) и поделился результатами. Посмотрите краткое изложение этого видео здесь.
  • Тестирование и оценка самостоятельно: синтетические данные можно тестировать и оценивать, сравнивая их с реальными данными или используя их для обучения моделей машинного обучения и сравнивая их производительность с моделями, обученными на реальных данных. Почему бы не проверить качество синтетических данных самостоятельно? Спросите наших экспертов о возможностях этого здесь

Важно отметить, что синтетические данные никогда не могут гарантировать 100% сходство с исходными данными, но они могут быть достаточно близки, чтобы быть полезными для конкретного случая использования. Этот конкретный вариант использования может быть даже расширенной аналитикой или обучающими моделями машинного обучения.

Да, это так. Синтетические данные содержат даже шаблоны, о которых вы не знали, что они присутствовали в исходных данных.

Но не верьте нам на слово. Аналитические эксперты SAS (лидер мирового рынка аналитики) провели (AI) оценку наших синтетических данных и сравнили их с исходными данными. Любопытный? Смотри все мероприятие здесь или посмотрите короткую версию о качество данных здесь.

Да. Наша платформа оптимизирована для баз данных и, следовательно, сохранения ссылочной целостности между наборами данных в базе данных.

Хотите узнать об этом больше?

Спросите напрямую у наших специалистов.

Политика

Нет, мы не знаем. Мы можем легко развернуть Syntho Engine локально или в вашем частном облаке через докер.

Нет. Мы оптимизировали нашу платформу таким образом, чтобы ее можно было легко развернуть в доверенной среде заказчика. Это гарантирует, что данные никогда не покинут доверенную среду клиента. Варианты развертывания доверенной среды заказчика — «локально» и в «облачной среде заказчика (частное облако)».

Необязательно: Syntho поддерживает версию, размещенную в «облаке Syntho».

Нет. Syntho Engine — это платформа самообслуживания. В результате генерация синтетических данных с помощью Syntho Engine возможна таким образом, что в end-to-end процесс, Syntho никогда не может видеть и никогда не требуется обрабатывать данные.

Да, мы делаем это через наш отчет о контроле качества.

 

При синтезе набора данных важно продемонстрировать, что невозможно повторно идентифицировать людей. В здесь, Marijn представляет меры конфиденциальности, которые представлены в нашем отчете о качестве, чтобы продемонстрировать это.

Отчет о контроле качества Syntho содержит три промышленный стандарт метрики для оценки конфиденциальности данных. Идея каждой из этих метрик заключается в следующем:

  • Синтетические данные (S) должны быть «максимально близки», но «не слишком близки» к целевым данным (T).
  • Случайно выбранные данные удержания (H) определяет ориентир для «слишком близко».
  • A идеальное решение генерирует новые синтетические данные, которые ведут себя точно так же, как исходные данные, но ранее не встречались (= H).

Один из вариантов использования, особо отмеченный Управлением по защите данных Нидерландов, — это использование синтетических данных в качестве тестовых данных.

Больше можно найти в этой статье.

Синто-движок

Syntho Engine поставляется в контейнере Docker и может быть легко развернут и подключен к выбранной вами среде.

Возможные варианты развертывания включают:

  • На предпосылке
  • Любое (частное) облако
  • Любая другая среда

Читать далее.

Syntho позволяет легко подключаться к вашим базам данных, приложениям, конвейерам данных или файловым системам. 

Мы поддерживаем различные интегрированные соединители, чтобы вы могли подключаться к исходной среде (где хранятся исходные данные) и среде назначения (куда вы хотите записать синтетические данные) для end-to-end Комплексный подход.

Возможности подключения, которые мы поддерживаем:

  • Plug-and-play с Docker
  • 20+ коннекторов баз данных
  • 20+ коннекторов файловой системы

Читать далее.

Естественно, время генерации зависит от размера базы данных. В среднем таблица с менее чем 1 миллионом записей синтезируется менее чем за 5 минут.

Алгоритмы машинного обучения Syntho могут лучше обобщать функции с большим количеством доступных записей сущностей, что снижает риск конфиденциальности. Рекомендуется минимальное соотношение столбца к строке 1:500. Например, если исходная таблица имеет 6 столбцов, она должна содержать не менее 3000 строк.

Нисколько. Хотя может потребоваться некоторое усилие, чтобы полностью понять преимущества, способы работы и варианты использования синтетических данных, процесс синтеза очень прост, и любой человек, обладающий базовыми компьютерными знаниями, может это сделать. Для получения дополнительной информации о процессе синтеза ознакомьтесь с эту страницу or запроса демо-версии.

Syntho Engine лучше всего работает со структурированными табличными данными (все, что содержит строки и столбцы). В этих структурах мы поддерживаем следующие типы данных:

  • Структурирует данные, отформатированные в таблицах (категориальные, числовые и т. Д.)
  • Прямые идентификаторы и PII
  • Большие наборы данных и базы данных
  • Данные о географическом местоположении (например, GPS)
  • Данные временного ряда
  • Многотабличные базы данных (со ссылочной целостностью)
  • Открыть текстовые данные

 

Комплексная поддержка данных
Помимо всех обычных типов табличных данных, Syntho Engine поддерживает сложные типы данных и сложные структуры данных.

  • Временная последовательность
  • Многотабличные базы данных
  • Открыть текст

Читать далее.

Нет, мы оптимизировали нашу платформу, чтобы свести к минимуму вычислительные требования (например, отсутствие необходимости в графическом процессоре) без ущерба для точности данных. Кроме того, мы поддерживаем автоматическое масштабирование, так что можно синтезировать огромные базы данных.

Да. Программное обеспечение Syntho оптимизировано для баз данных, содержащих несколько таблиц.

Что касается этого, Syntho автоматически определяет типы данных, схемы и форматы, чтобы максимизировать точность данных. Для базы данных с несколькими таблицами мы поддерживаем автоматический вывод и синтез отношений между таблицами для сохранения ссылочной целостности.

группа людей улыбается

Данные синтетические, но наша команда реальная!

Связаться с Syntho и один из наших экспертов свяжется с вами со скоростью света, чтобы изучить ценность синтетических данных!