常见问题

有关合成数据的常见问题

了解更多

立即联系我们

可以理解！幸运的是，我们有答案，我们随时为您提供帮助。查看我们的常见问题解答。

请在下面打开一个问题，然后单击链接以查找更多信息。有一个在这里没有说明的更复杂的问题？ 直接咨询我们的专家！

最常被问到的问题

什么是合成数据？

合成数据是指人工生成的数据，而不是从现实世界来源收集的数据。一般来说，原始数据是在你与人（客户、患者等）的所有互动中收集的，并通过你所有的内部流程收集的，而合成数据是由计算机算法生成的。

合成数据还可用于在受控环境中测试和评估模型，或通过生成类似于真实世界数据但不包含任何敏感信息的数据来保护敏感信息。合成数据通常用作隐私敏感数据的替代品，并可用作测试数据、用于分析或训练机器学习。

Syntho 如何保证合成数据与原始数据保持相同的数据质量？

保证合成数据具有与原始数据相同的数据质量可能具有挑战性，并且通常取决于特定用例和用于生成合成数据的方法。一些生成合成数据的方法，例如生成模型，可以生成与原始数据高度相似的数据。关键问题：如何证明这一点？

有一些方法可以确保合成数据的质量：

通过我们的数据质量报告的数据质量指标：确保合成数据与原始数据具有相同数据质量的一种方法是使用数据质量指标将合成数据与原始数据进行比较。这些指标可用于衡量数据的相似性、准确性和完整性等。 Syntho 软件包括一个数据质量报告，其中包含各种数据质量指标.
外部评估：由于合成数据与原始数据相比的数据质量是关键，我们最近与 SAS（分析市场领导者）的数据专家进行了评估，以证明 Syntho 合成数据与真实数据相比的数据质量。 SAS 的分析专家 Edwin van Unen 通过各种分析 (AI) 评估评估了 Syntho 生成的合成数据集并分享了结果。在此处观看该视频的简短回顾.
自己测试和评估：可以通过将合成数据与真实世界数据进行比较，或使用它来训练机器学习模型并将其性能与基于真实世界数据训练的模型进行比较来测试和评估合成数据。为什么不自己测试合成数据的数据质量呢？在这里向我们的专家询问这种可能性.

请务必注意，合成数据永远不能保证与原始数据 100% 相似，但它可以足够接近以对特定用例有用。这个特定用例甚至可以是高级分析或训练机器学习模型。

目前，我们对数据进行了匿名处理，为什么要使用合成数据？

经典的“匿名化”并不总是最好的解决方案，因为：

隐私风险 – 你将永远拥有
隐私风险。应用那些
经典的匿名化技术
只会让它更难，但不会
无法识别个人。
销毁数据 – 你越多
匿名化，你保护得越好
你的隐私，但你越多
破坏你的数据。这不是什么
你想要分析，因为
破坏的数据会导致坏
耗时的 – 这是一个解决方案
这需要很多时间，因为
这些技术的工作方式不同
每个数据集和每个数据类型。

合成数据旨在解决所有这些缺点。差异是如此惊人，以至于我们制作了一段视频。在这里观看.

常见问题解答

综合数据

什么是典型的合成数据用例？

通常，我们的大多数客户将合成数据用于：

软件测试与开发
用于分析、模型开发和高级分析（AI 和 ML）的综合数据
产品演示

阅读更多内容并探索用例.

生成“合成数据孪生”是什么意思？

合成数据孪生是真实世界数据集和/或数据库的算法生成副本。通过合成数据孪生，Syntho 旨在模拟原始数据集或数据库，尽可能接近原始数据，以创建原始数据的真实表示。使用合成数据孪生，我们的目标是与原始数据相比具有更高的合成数据质量。我们通过使用最先进的人工智能模型的合成数据软件来做到这一点。这些 AI 模型生成全新的数据点，并以这样一种方式对它们进行建模，即我们将原始数据的特征、关系和统计模式保留到这样的程度，以至于您可以像使用原始数据一样使用它。

这可用于多种目的，例如测试和训练机器学习模型、模拟研究和开发场景以及创建用于培训和教育的虚拟环境。合成数据孪生可用于创建真实且具有代表性的数据，当现实世界的数据不可用或由于严格的数据隐私法规而使用现实世界的数据不切实际或不道德时，这些数据可以用来代替现实世界的数据。

阅读更多。

你支持嘲笑者和模拟数据吗？

是的，我们有。我们提供各种增值合成数据优化和扩充功能，包括 mockers，将您的数据提升到一个新的水平。

阅读更多。

合成数据（合成数据孪生）和模拟数据有什么区别？

模拟数据和人工智能生成的合成数据都属于合成数据，只是生成方式不同，用途不同。

模拟数据是一种人工创建的合成数据，通常用于测试和开发目的。它通常用于在受控环境中模拟真实世界数据的行为，并且通常用于测试系统或应用程序的功能。它通常很简单，易于生成，并且不需要复杂的模型或算法。通常，一个引用者还将模拟数据称为“虚拟数据”或“虚假数据”。

另一方面，人工智能生成的合成数据是使用人工智能技术生成的，例如机器学习或生成模型。它用于创建真实且具有代表性的数据，当由于严格的隐私法规而使用真实世界的数据不切实际或不道德时，这些数据可以用来代替真实世界的数据。它通常比手动模拟数据更复杂，需要更多的计算资源。因此，它更加逼真，并尽可能接近地模仿原始数据。

综上所述，模拟数据是人工创建的，通常用于测试和开发，而人工智能生成的合成数据是使用人工智能技术创建的，用于创建具有代表性和真实性的数据。

更多问题？咨询我们的专家

数据质量

Syntho 如何证明生成的合成数据的质量？

有一些方法可以确保合成数据的质量：

通过我们的数据质量报告的数据质量指标：确保合成数据与原始数据具有相同数据质量的一种方法是使用数据质量指标将合成数据与原始数据进行比较。这些指标可用于衡量数据的相似性、准确性和完整性等。 Syntho 软件包括一个数据质量报告，其中包含各种数据质量指标.
外部评估：由于合成数据与原始数据相比的数据质量是关键，我们最近与 SAS（分析市场领导者）的数据专家进行了评估，以证明 Syntho 合成数据与真实数据相比的数据质量。 SAS 的分析专家 Edwin van Unen 通过各种分析 (AI) 评估评估了 Syntho 生成的合成数据集并分享了结果。在此处观看该视频的简短回顾.
自己测试和评估：可以通过将合成数据与真实世界数据进行比较，或使用它来训练机器学习模型并将其性能与基于真实世界数据训练的模型进行比较来测试和评估合成数据。为什么不自己测试合成数据的数据质量呢？在这里向我们的专家询问这种可能性.