常见问题

有关合成数据的常见问题

可以理解! 幸运的是,我们有答案,我们随时为您提供帮助。 查看我们的常见问题解答。

请在下面打开一个问题,然后单击链接以查找更多信息。 有一个在这里没有说明的更复杂的问题? 直接咨询我们的专家!

最常被问到的问题

合成数据是指人工生成的数据,而不是从现实世界来源收集的数据。 一般来说,原始数据是在你与人(客户、患者等)的所有互动中收集的,并通过你所有的内部流程收集的,而合成数据是由计算机算法生成的。

合成数据还可用于在受控环境中测试和评估模型,或通过生成类似于真实世界数据但不包含任何敏感信息的数据来保护敏感信息。 合成数据通常用作隐私敏感数据的替代品,并可用作测试数据、用于分析或训练机器学习。

查看更多

保证合成数据具有与原始数据相同的数据质量可能具有挑战性,并且通常取决于特定用例和用于生成合成数据的方法。 一些生成合成数据的方法,例如生成模型,可以生成与原始数据高度相似的数据。 关键问题:如何证明这一点?

有一些方法可以确保合成数据的质量:

  • 通过我们的数据质量报告的数据质量指标:确保合成数据与原始数据具有相同数据质量的一种方法是使用数据质量指标将合成数据与原始数据进行比较。 这些指标可用于衡量数据的相似性、准确性和完整性等。 Syntho 软件包括一个数据质量报告,其中包含各种数据质量指标.
  • 外部评估:由于合成数据与原始数据相比的数据质量是关键,我们最近与 SAS(分析市场领导者)的数据专家进行了评估,以证明 Syntho 合成数据与真实数据相比的数据质量。 SAS 的分析专家 Edwin van Unen 通过各种分析 (AI) 评估评估了 Syntho 生成的合成数据集并分享了结果。 在此处观看该视频的简短回顾.
  • 自己测试和评估:可以通过将合成数据与真实世界数据进行比较,或使用它来训练机器学习模型并将其性能与基于真实世界数据训练的模型进行比较来测试和评估合成数据。 为什么不自己测试合成数据的数据质量呢? 在这里向我们的专家询问这种可能性

请务必注意,合成数据永远不能保证与原始数据 100% 相似,但它可以足够接近以对特定用例有用。 这个特定用例甚至可以是高级分析或训练机器学习模型。

经典的“匿名化”并不总是最好的解决方案,因为:

  1. 隐私风险 – 你将永远拥有
    隐私风险。 应用那些
    经典的匿名化技术
    只会让它更难,但不会
    无法识别个人。
  2. 销毁数据 – 你越多
    匿名化,你保护得越好
    你的隐私,但你越多
    破坏你的数据。 这不是什么
    你想要分析,因为
    破坏的数据会导致坏
  3. 耗时的 – 这是一个解决方案
    这需要很多时间,因为
    这些技术的工作方式不同
    每个数据集和每个数据类型。

合成数据旨在解决所有这些缺点。 差异是如此惊人,以至于我们制作了一段视频。 在这里观看.

常见问题解答

综合数据

通常,我们的大多数客户将合成数据用于:

  • 软件测试与开发
  • 用于分析、模型开发和高级分析(AI 和 ML)的综合数据
  • 产品演示

阅读更多内容并探索用例.

合成数据孪生是真实世界数据集和/或数据库的算法生成副本。 通过合成数据孪生,Syntho 旨在模拟原始数据集或数据库,尽可能接近原始数据,以创建原始数据的真实表示。 使用合成数据孪生,我们的目标是与原始数据相比具有更高的合成数据质量。 我们通过使用最先进的人工智能模型的合成数据软件来做到这一点。 这些 AI 模型生成全新的数据点,并以这样一种方式对它们进行建模,即我们将原始数据的特征、关系和统计模式保留到这样的程度,以至于您可以像使用原始数据一样使用它。

这可用于多种目的,例如测试和训练机器学习模型、模拟研究和开发场景以及创建用于培训和教育的虚拟环境。 合成数据孪生可用于创建真实且具有代表性的数据,当现实世界的数据不可用或由于严格的数据隐私法规而使用现实世界的数据不切实际或不道德时,这些数据可以用来代替现实世界的数据。

阅读更多。

是的,我们有。 我们提供各种增值合成数据优化和扩充功能,包括 mockers,将您的数据提升到一个新的水平。

阅读更多。

模拟数据和人工智能生成的合成数据都属于合成数据,只是生成方式不同,用途不同。

模拟数据是一种人工创建的合成数据,通常用于测试和开发目的。 它通常用于在受控环境中模拟真实世界数据的行为,并且通常用于测试系统或应用程序的功能。 它通常很简单,易于生成,并且不需要复杂的模型或算法。 通常,一个引用者还将模拟数据称为“虚拟数据”或“虚假数据”。

另一方面,人工智能生成的合成数据是使用人工智能技术生成的,例如机器学习或生成模型。 它用于创建真实且具有代表性的数据,当由于严格的隐私法规而使用真实世界的数据不切实际或不道德时,这些数据可以用来代替真实世界的数据。 它通常比手动模拟数据更复杂,需要更多的计算资源。 因此,它更加逼真,并尽可能接近地模仿原始数据。

综上所述,模拟数据是人工创建的,通常用于测试和开发,而人工智能生成的合成数据是使用人工智能技术创建的,用于创建具有代表性和真实性的数据。

更多问题? 咨询我们的专家

数据质量

保证合成数据具有与原始数据相同的数据质量可能具有挑战性,并且通常取决于特定用例和用于生成合成数据的方法。 一些生成合成数据的方法,例如生成模型,可以生成与原始数据高度相似的数据。 关键问题:如何证明这一点?

有一些方法可以确保合成数据的质量:

  • 通过我们的数据质量报告的数据质量指标:确保合成数据与原始数据具有相同数据质量的一种方法是使用数据质量指标将合成数据与原始数据进行比较。 这些指标可用于衡量数据的相似性、准确性和完整性等。 Syntho 软件包括一个数据质量报告,其中包含各种数据质量指标.
  • 外部评估:由于合成数据与原始数据相比的数据质量是关键,我们最近与 SAS(分析市场领导者)的数据专家进行了评估,以证明 Syntho 合成数据与真实数据相比的数据质量。 SAS 的分析专家 Edwin van Unen 通过各种分析 (AI) 评估评估了 Syntho 生成的合成数据集并分享了结果。 在此处观看该视频的简短回顾.
  • 自己测试和评估:可以通过将合成数据与真实世界数据进行比较,或使用它来训练机器学习模型并将其性能与基于真实世界数据训练的模型进行比较来测试和评估合成数据。 为什么不自己测试合成数据的数据质量呢? 在这里向我们的专家询问这种可能性

请务必注意,合成数据永远不能保证与原始数据 100% 相似,但它可以足够接近以对特定用例有用。 这个特定用例甚至可以是高级分析或训练机器学习模型。

是的。 合成数据甚至包含您不知道它们存在于原始数据中的模式。

但不要只相信我们的话。 SAS(分析领域的全球市场领导者)的分析专家对我们的合成数据进行了 (AI) 评估,并将其与原始数据进行了比较。 好奇的? 看着 整个活动在这里 或观看有关的简短版本 数据质量在这里.

是的,我们有。 我们的平台针对数据库进行了优化,因此保留了数据库中数据集之间的参照完整性。

想了解更多信息吗?

直接咨询我们的专家.

隐私政策

不,我们没有。 我们可以通过 docker 在本地或您的私有云中轻松部署 Syntho Engine。

不会。我们优化了我们的平台,使其可以轻松部署在客户信任的环境中。 这确保了数据永远不会离开客户的可信环境。 客户可信环境的部署选项是“本地”和“客户云环境(私有云)”。

可选:Syntho 支持托管在“Syntho 云”中的版本。

不是。Syntho Engine 是一个自助服务平台。 因此,使用 Syntho Engine 生成合成数据的方式是可能的 end-to-end 过程中,Syntho 永远无法看到也永远不需要处理数据。

是的,我们通过我们的质量检查报告来做到这一点。

 

合成数据集时,必须证明无法重新识别个人。 在 该视频, Marijn 引入了我们质量报告中的隐私措施来证明这一点。

Syntho 的 QA 报告包含三个 工业标准 评估数据隐私的指标。 每个指标背后的想法如下:

  • 合成数据(S) 应“尽可能接近”,但“不要太接近”目标数据 (T).
  • 随机选择的保持数据(H) 确定“太接近”的基准。
  • A 完美的解决方案 生成新的合成数据,其行为与原始数据完全相同,但以前从未见过(= H).

荷兰数据保护局特别强调的一个用例是使用合成数据作为测试数据。

可以在这篇文章中找到更多内容。

合成引擎

Syntho Engine 装在 Docker 容器中,可以轻松部署并插入到您选择的环境中。

可能的部署选项包括:

  • 预置
  • 任何(私有)云
  • 任何其他环境

查看更多.

Syntho 使您能够轻松连接您的数据库、应用程序、数据管道或文件系统。 

我们支持各种集成连接器,以便您可以连接源环境(存储原始数据的位置)和目标环境(您要将合成数据写入的位置) end-to-end 综合方法。

我们支持的连接功能:

  • 与 Docker 即插即用
  • 20 多个数据库连接器
  • 20 多个文件系统连接器

查看更多.

当然,生成时间取决于数据库的大小。 平均而言,少于 1 万条记录的表在不到 5 分钟的时间内被合成。

Syntho 的机器学习算法可以更好地概括具有更多可用实体记录的特征,从而降低隐私风险。 建议最小列与行的比例为 1:500。 例如,如果您的源表有 6 列,它应该至少包含 3000 行。

一点也不。 虽然要完全理解合成数据的优势、工作原理和用例可能需要一些努力,但合成过程非常简单,任何具有基本计算机知识的人都可以做到。 有关合成过程的更多信息,请查看 这页 or 请求演示.

Syntho 引擎最适合处理结构化的表格数据(任何包含行和列的数据)。 在这些结构中,我们支持以下数据类型:

  • 结构化表格中的数据(分类、数字等)
  • 直接标识符和 PII
  • 大型数据集和数据库
  • 地理位置数据(如 GPS)
  • 时间序列数据
  • 多表数据库(具有参照完整性)
  • 打开文本数据

 

复杂数据支持
除了所有常规类型的表格数据之外,Syntho Engine 还支持复杂的数据类型和复杂的数据结构。

  • 时间序列
  • 多表数据库
  • 开启文字

查看更多.

不,我们优化了我们的平台以最大限度地减少计算要求(例如不需要 GPU),而不会影响数据准确性。 此外,我们支持自动缩放,这样就可以合成一个庞大的数据库。

是的。 Syntho 软件针对包含多个表的数据库进行了优化。

至于这一点,Syntho 会自动检测数据类型、模式和格式,以最大限度地提高数据准确性。 对于多表数据库,我们支持自动表关系推断和合成以保持引用完整性。

一群人微笑着

数据是合成的,但我们的团队是真实的!

联系合成 我们的一位专家将以光速与您取得联系,探索合成数据的价值!