人工智能的隐形罪魁祸首:揭开内部偏见

偏见博客系列:第 1 部分

介绍

在人工智能形式日益增多的世界中,负责做出复杂决策的机器变得越来越普遍。 越来越多的文献表明人工智能在商业、高风险决策等各个领域的应用,以及过去几年在医疗领域的应用。 然而,随着这种流行率的不断提高,人们注意到了上述系统中的一些趋势。 也就是说,虽然它们本质上是为了纯粹遵循数据模式而设计的,但它们却表现出了偏见的迹象,即可以观察到各种性别歧视和歧视行为。 最近的 欧洲人工智能法案,也相当广泛地涵盖了这种偏见的问题,并为解决与之相关的问题奠定了基础。 

在多年的技术文档中,人们倾向于使用“偏见”一词来描述这种针对某些人群的倾斜行为。 这个词的含义各不相同,导致混乱并使解决该问题的任务变得复杂。

本文是涵盖偏见主题的一系列博客文章中的第一篇。 在本系列中,我们的目标是让您对人工智能中的偏见有一个清晰易懂的理解。 我们将介绍衡量和最小化偏差的方法,并探讨合成数据在通往更公平系统的道路上的作用。 我们还将让您了解合成数据生成领域的领先企业 Syntho 如何为这项工作做出贡献。 因此,无论您是寻求可行见解的从业者,还是只是对这个主题感到好奇,您都来对地方了。

行动中的偏见:一个现实世界的例子

你可能想知道,“人工智能中的这种偏见很重要,但这对我、对普通人来说意味着什么?” 事实是,影响是深远的,通常是看不见的,但却是强大的。 人工智能中的偏见不仅仅是一个学术概念; 这是一个现实世界的问题,会带来严重的后果。

以荷兰儿童福利丑闻为例。 自动化系统被认为是一种以最少的人为干预生成公平有效结果的工具,但存在偏见。 它基于有缺陷的数据和假设,错误地将数千名家长标记为欺诈。 结果? 家庭陷入混乱、个人声誉受损、经济困难,这一切都是人工智能系统的偏见造成的。 正是这样的例子凸显了解决人工智能偏见的紧迫性。

人们抗议

但我们还不止于此。 这起事件并不是偏见造成严重破坏的孤立案例。 人工智能偏见的影响延伸到我们生活的各个角落。 从谁被雇用、谁获得贷款批准、到谁接受什么样的医疗——有偏见的人工智能系统可能会延续现有的不平等并创造新的不平等。

考虑一下:一个接受有偏见历史数据训练的人工智能系统可能会仅仅因为性别或种族而拒绝合格候选人的工作。 或者,有偏见的人工智能系统可能会因为邮政编码而拒绝向符合资格的候选人提供贷款。 这些不仅仅是假设的场景;而且是真实的。 它们现在正在发生。

特定类型的偏差,例如历史偏差和测量偏差,会导致此类有缺陷的决策。 它们是数据所固有的,深深植根于社会偏见,并反映在不同人口群体之间的不平等结果中。 它们可能会扭曲预测模型的决策并导致不公平的待遇。

从长远来看,人工智能中的偏见可以充当沉默的影响者,以我们甚至没有意识到的方式巧妙地塑造我们的社会和我们的生活。 所有上述几点可能会让您质疑为什么没有采取行动来阻止,以及是否有可能。

事实上,随着新技术的进步,解决此类问题变得越来越容易。 然而,解决这个问题的第一步是理解并承认它的存在和影响。 目前,对其存在的承认已经形成,“理解”的问题仍然相当模糊。 

了解偏见

虽然偏见的最初定义是由 剑桥词典 虽然这个词与人工智能相关,但它并没有偏离这个词的主要目的太远,即使是这个单一的定义也可以有许多不同的解释。 分类法,例如由研究人员提出的分类法,例如 Hellström 等人 (2020)克利格尔 (2021),提供对偏见定义的更深入见解。 然而,简单浏览一下这些论文就会发现,为了有效解决这个问题,需要极大地缩小该术语的定义。 

虽然事件发生了变化,但为了最佳地定义和传达偏见的含义,我们可以更好地定义相反的含义,即公平。 

定义公平 

正如最近各种文献中所定义的那样,例如 卡斯泰尔诺沃等人。 (2022),在理解潜在空间一词的情况下,可以对公平性进行详细阐述。 就其存在而言,潜在空间(PS)是指个人的能力和知识程度,无论其属于某个人口群体。 鉴于 PS 概念的这一定义,人们可以轻松地将公平定义为具有相同 PS 的两个人之间的平等待遇,无论他们在偏见诱导参数(例如种族、年龄或性别)方面存在可观察到的和隐藏的差异。 任何偏离这一定义(也称为机会平等)的行为都明确表明存在偏见,值得进一步调查。  

读者中的实践者可能会注意到,鉴于我们世界中存在的固有偏见,实现此处定义的某些内容可能是完全不可能的。 那是真实的! 我们生活的世界,以及从这个世界上发生的事件收集的所有数据,都受到很多历史和统计偏差的影响。 事实上,这降低了有一天完全减轻偏见对基于此类“偏见”数据训练的预测模型的影响的信心。 然而,通过使用各种方法,人们可以尽量减少偏见的影响。 在这种情况下,本博客文章其余部分中使用的术语将转向最小化偏见影响而不是完全减轻偏见的想法。

好的! 现在我们已经提出了关于什么是偏见以及如何评估其存在的想法; 然而,如果我们想正确解决这个问题,我们就需要知道所有这些偏见的根源。

了解来源和类型

现有研究为机器学习中不同类型的偏差提供了有价值的见解。 作为 梅赫拉比等。 等人。 (2019) 继续划分机器学习中的偏差,可以将偏差分为三大类。 即:

  • 数据到算法:包含源自数据本身的偏差的类别。 这可能是由于数据收集不善、世界上存在的固有偏见等造成的。
  • 算法对用户:这一类别重点关注源于算法设计和功能的偏差。 它包括算法如何解释、权衡或考虑某些数据点而不是其他数据点,这可能会导致有偏差的结果。
  • 用户对数据:涉及用户与系统交互产生的偏差。 用户输入数据的方式、他们固有的偏见,甚至他们对系统输出的信任都会影响结果。
图形

图 1:数据挖掘 CRISP-DM 框架的可视化; 常用于数据挖掘,与识别可能出现偏差的阶段的过程相关。

虽然这些名称表明了偏见的形式,但人们可能仍然对这些总称术语下可能归类的偏见类型存有疑问。 对于我们的读者中的爱好者,我们提供了一些与此术语和分类相关的文献的链接。 为了在这篇博文中简单起见,我们将介绍一些与情况相关的精选偏差(几乎所有偏差都属于数据到算法的类别)。 偏差的具体类型如下:

  • 历史偏差:数据固有的一种偏差,由世界上不同社会群体和整个社会存在的自然偏差引起。 正是因为这些数据在世界上的固有性,所以无法通过各种采样和特征选择的手段来缓解。
  • 测量偏差和表征偏差:当数据集的不同子组包含不等量的“有利”结果时,就会出现这两种密切相关的偏差。 因此,这种类型的偏差可能会扭曲预测模型的结果
  • 算法偏差:偏差完全与所使用的算法相关。 正如在测试中观察到的那样(在帖子中进一步阐述),这种类型的偏差会对给定算法的公平性产生巨大影响。

这些对机器学习偏差的基本理解将被利用,以便在后面的文章中更有效地解决问题。

最后的思考

在对人工智能内部偏见的探索中,我们阐明了它在日益人工智能驱动的世界中所具有的深远影响。 从荷兰儿童福利丑闻等现实世界的例子到偏见类别和类型错综复杂的细微差别,很明显,认识和理解偏见至关重要。

虽然偏见带来的挑战——无论是历史的、算法的还是用户引起的——是巨大的,但它们并不是不可克服的。 牢牢掌握偏见的根源和表现形式,我们就能更好地解决这些问题。 然而,认可和理解只是起点。

随着本系列文章的深入,我们的下一个重点将是我们可以使用的有形工具和框架。 我们如何衡量人工智能模型的偏差程度? 更重要的是,我们如何最大限度地减少其影响? 这些是我们接下来要深入研究的紧迫问题,确保随着人工智能的不断发展,它朝着既公平又高效的方向发展。

一群人微笑着

数据是合成的,但我们的团队是真实的!

联系合成 我们的一位专家将以光速与您取得联系,探索合成数据的价值!