Что такое синтетические данные?

Ускоренный курс синтетических данных

 

 

Введение

Что такое синтетические данные?

Ответ относительно прост. В то время как исходные данные собираются при всех ваших взаимодействиях с реальными людьми (например, клиентами, пациентами, сотрудниками и т. д.) и во всех ваших внутренних процессах, синтетические данные генерируются компьютерным алгоритмом. Этот компьютерный алгоритм генерирует совершенно новые и искусственные точки данных.

Решайте проблемы конфиденциальности данных

Синтетически сгенерированные данные состоят из совершенно новых и искусственных точек данных, не имеющих однозначного отношения к исходным данным. Следовательно, ни одна из синтетических точек данных не может быть отслежена или подвергнута обратной инженерии исходным данным. В результате синтетические данные освобождаются от правил конфиденциальности, таких как GDPR, и служат решением для решения и преодоления проблем конфиденциальности данных.

Дополнить и смоделировать

Генеративный аспект генерации синтетических данных позволяет дополнять и моделировать совершенно новые данные. Это работает как решение, когда у вас недостаточно данных (дефицит данных), вы хотите повысить выборку в крайних случаях или когда у вас еще нет данных.

Здесь в центре внимания Syntho структурированные данные (данные, отформатированные в таблицах, содержащих строки и столбцы, как вы видите в таблицах Excel), но нам всегда нравится иллюстрировать концепцию синтетических данных с помощью изображений, потому что это более привлекательно.

Типы синтетических данных

В комплексе синтетических данных существует три типа синтетических данных. Эти 3 типа синтетических данных: фиктивные данные, синтетические данные, сгенерированные на основе правил, и синтетические данные, сгенерированные искусственным интеллектом (ИИ). Мы кратко объясним, что такое 3 различных типа синтетических данных.

Фиктивные данные / фиктивные данные

Фиктивные данные — это данные, сгенерированные случайным образом (например, с помощью генератора фиктивных данных).

Следовательно, характеристики, взаимосвязи и статистические закономерности, содержащиеся в исходных данных, не сохраняются, не фиксируются и не воспроизводятся в сгенерированных фиктивных данных. Следовательно, репрезентативность фиктивных данных / фиктивных данных минимальна по сравнению с исходными данными.

  • Когда использовать: для замены прямых идентификаторов (PII) или когда у вас нет данных (пока) и вы не хотите тратить время и силы на определение правил.

Созданные на основе правил синтетические данные

Синтетические данные, сгенерированные на основе правил, — это синтетические данные, сгенерированные по предварительно определенному набору правил. Примерами этих предопределенных правил может быть то, что вы хотели бы иметь синтетические данные с определенным минимальным значением, максимальным значением или средним значением. Любые характеристики, взаимосвязи и статистические закономерности, которые вы хотели бы воспроизвести в синтетических данных, созданных на основе правил, должны быть предварительно определены.

Следовательно, качество данных будет соответствовать заданному набору правил. Это приводит к проблемам, когда высокое качество данных имеет существенное значение. Во-первых, можно определить только ограниченный набор правил, которые должны быть зафиксированы в синтетических данных. Кроме того, установка нескольких правил обычно приводит к перекрывающимся и конфликтующим правилам. Более того, вы никогда полностью не охватите все соответствующие правила. Кроме того, могут быть соответствующие правила, о которых вы даже не знаете. И, наконец (и не забывайте), это отнимет у вас много времени и энергии, что приведет к неэффективному решению.

  • Когда использовать: когда у вас нет данных (пока)

Синтетические данные, созданные искусственным интеллектом (ИИ)

Как и следует из названия, синтетические данные, сгенерированные искусственным интеллектом (ИИ), — это синтетические данные, сгенерированные алгоритмом искусственного интеллекта (ИИ). Модель ИИ обучается на исходных данных, чтобы изучить все характеристики, взаимосвязи и статистические закономерности. После этого этот алгоритм ИИ может генерировать совершенно новые точки данных и моделировать эти новые точки данных таким образом, чтобы воспроизводить характеристики, отношения и статистические закономерности из исходного набора данных. Это то, что мы называем двойником синтетических данных.

Модель ИИ имитирует исходные данные для создания двойников синтетических данных, которые можно использовать так, как если бы это были исходные данные. Это открывает различные варианты использования, когда синтетические данные, сгенерированные ИИ, можно использовать в качестве альтернативы использованию исходных (конфиденциальных) данных, например, использование синтетических данных, сгенерированных ИИ, в качестве тестовых данных, демонстрационных данных или для аналитики.

Визуализация того, как создаются синтетические данные

По сравнению с синтетическими данными, сгенерированными на основе правил: вместо того, чтобы вы изучали и определяли соответствующие правила, алгоритм ИИ делает это автоматически за вас. Здесь будут рассмотрены не только характеристики, взаимосвязи и статистические закономерности, о которых вы знаете, но и характеристики, взаимосвязи и статистические закономерности, о которых вы даже не подозреваете.

  • Когда его использовать: когда у вас есть (некоторые) данные в качестве входных данных для имитации или использования в качестве отправной точки для создания интеллектуальных данных и функций дополнения.

Какой тип синтетических данных использовать?

В зависимости от вашего варианта использования рекомендуется сочетание фиктивных данных / фиктивных данных, синтетических данных, сгенерированных на основе правил, или синтетических данных, сгенерированных искусственным интеллектом (ИИ). Этот обзор дает вам первое представление о том, какой тип синтетических данных следует использовать. Поскольку Syntho поддерживает все из них, не стесняйтесь обращаться к нашим экспертам, чтобы подробно изучить ваш вариант использования вместе с нами.

На этой диаграмме представлены различные типы синтетических данных.

крышка направляющей синто

Сохраните руководство по синтетическим данным прямо сейчас!