什么是合成数据?

速成班综合数据

 

 

介绍

什么是合成数据?

答案比较简单。 原始数据是在您与真实的人(例如客户、患者、员工等)的所有互动中以及通过您的所有内部流程收集的,而合成数据是由计算机算法生成的。 该计算机算法生成全新的人工数据点。

解决数据隐私挑战

合成生成的数据由全新的人工数据点组成,与原始数据没有一对一的关系。 因此,没有一个合成数据点可以追溯到或反向工程到原始数据。 因此,合成数据不受 GDPR 等隐私法规的约束,可作为解决和克服数据隐私挑战的解决方案。

增强和模拟

合成数据生成的生成方面允许增强和模拟全新的数据。 当您没有足够的数据(数据稀缺),想要对边缘情况进行上采样或您还没有数据时,这可以作为解决方案。

在这里,Syntho 的重点是结构化数据(在包含行和列的表格中格式化的数据,就像您在 Excel 工作表中看到的那样),但我们总是喜欢通过图像来说明合成数据的概念,因为它更具吸引力。

合成数据的类型

合成数据保护伞中确实存在三种类型的合成数据。 这 3 种类型的合成数据是:虚拟数据、基于规则生成的合成数据和人工智能 (AI) 生成的合成数据。 我们将简要解释 3 种不同类型的合成数据是什么。

虚拟数据/模拟数据

虚拟数据是随机生成的数据(例如通过模拟数据生成器)。

因此,原始数据中的特征、关系和统计模式不会在生成的虚拟数据中保留、捕获和再现。 因此,与原始数据相比,虚拟数据/模拟数据的代表性最小。

  • 何时使用它:替换直接标识符 (PII) 或当您还没有数据并且不想在定义规则上花费时间和精力时。

基于规则生成的合成数据

基于规则生成的合成数据是由一组预定义的规则生成的合成数据。 这些预定义规则的示例可能是您希望获得具有某个最小值、最大值或平均值的合成数据。 您希望在基于规则生成的合成数据中重现的任何特征、关系和统计模式都需要预先定义。

因此,数据质量将与预定义的规则集一样好。 当高数据质量至关重要时,这会带来挑战。 首先,人们只能定义一组有限的规则以在合成数据中捕获。 此外,设置多个规则通常会导致规则重叠和冲突。 此外,您永远不会完全涵盖所有相关规则。 此外,可能还有您甚至不知道的相关规则。 最后(不要忘记),这将花费您大量的时间和精力,从而导致解决方案效率低下。

  • 何时使用它:当您没有数据时(还)

人工智能 (AI) 生成的合成数据

顾名思义,人工智能 (AI) 生成的合成数据是人工智能 (AI) 算法生成的合成数据。 AI 模型在原始数据上进行训练,以学习所有特征、关系和统计模式。 此后,该人工智能算法能够生成全新的数据点,并对这些新数据点进行建模,从而重现原始数据集中的特征、关系和统计模式。 这就是我们所说的合成数据孪生。

人工智能模型模仿原始数据生成合成数据孪生,可以像原始数据一样使用。 这解锁了各种用例,其中 AI 生成的合成数据可用作使用原始(敏感)数据的替代方案,例如将 AI 生成的合成数据用作测试数据、演示数据或用于分析。

可视化如何创建合成数据

与基于规则生成的合成数据相比:AI 算法无需您研究和定义相关规则,而是自动为您执行此操作。 在这里,不仅包括您知道的特征、关系和统计模式,还包括您甚至不知道的特征、关系和统计模式。

  • 何时使用它:当您有(一些)数据作为输入来模拟或用作智能数据生成和增强功能的起点时

使用什么类型的合成数据?

根据您的用例,建议使用虚拟数据/模拟数据、基于规则生成的合成数据或人工智能 (AI) 生成的合成数据的组合。 本概述为您提供了要使用哪种类型的合成数据的初步指示。 由于 Syntho 支持所有这些,请随时联系我们的专家与我们一起深入了解您的用例。

该图表显示了不同类型的综合数据

合成器指南盖

立即保存您的合成数据指南!