Невидимый виновник искусственного интеллекта: раскрытие внутренней предвзятости

Серия блогов Bias: часть 1

Введение

В нашем мире все более искусственных форм интеллекта машины, которым поручено принимать сложные решения, становятся все более и более распространенными. Растет объем литературы, указывающей на использование ИИ в различных областях, таких как бизнес, принятие важных решений, а за последние несколько лет и в медицинском секторе. Однако с учетом этой растущей распространенности люди заметили тенденции в указанных системах; То есть, хотя они по своей сути предназначены исключительно для следования закономерностям в данных, они демонстрируют признаки предубеждений в том смысле, что можно наблюдать различное сексистское и дискриминационное поведение. Недавний Европейский закон об искусственном интеллекте, также довольно широко освещает вопрос таких предубеждений и закладывает основу для решения связанных с ними проблем. 

На протяжении многих лет технической документации люди имели тенденцию использовать термин «предвзятость» для описания этого искаженного типа поведения по отношению к определенной демографической группе; слово, значение которого варьируется, вызывая путаницу и усложняя задачу обращения к нему.

Эта статья является первой в серии публикаций в блоге, посвященных теме предвзятости. В этой серии мы постараемся дать вам четкое и понятное представление о предвзятости в ИИ. Мы представим способы измерения и минимизации предвзятости и исследуем роль синтетических данных на пути к более справедливым системам. Мы также расскажем вам, как Syntho, ведущий игрок в области генерации синтетических данных, может внести свой вклад в эти усилия. Итак, независимо от того, являетесь ли вы практиком, ищущим практические идеи, или просто интересуетесь этой темой, вы находитесь в правильном месте.

Предвзятость в действии: пример из реальной жизни

Вы можете задаться вопросом: «Эта предвзятость в отношении ИИ очень важна, но что она значит для меня, для обычных людей?» Правда в том, что влияние имеет далеко идущие последствия, часто невидимое, но мощное. Предвзятость в ИИ — это не просто академическая концепция; это реальная проблема с серьезными последствиями.

Возьмем в качестве примера скандал, связанный с охраной детей в Нидерландах. Автоматизированная система, предположительно инструмент, созданный для получения справедливых и эффективных результатов с минимальным вмешательством человека, была предвзятой. На основании ошибочных данных и предположений тысячи родителей были ошибочно обвинены в мошенничестве. Результат? Семьи в смятении, личная репутация испорчена, финансовые трудности — и все это из-за предубеждений в системе искусственного интеллекта. Подобные примеры подчеркивают необходимость устранения предвзятости в сфере ИИ.

люди протестуют

Но давайте не будем останавливаться на достигнутом. Этот инцидент не является единичным случаем предвзятости, сеющей хаос. Влияние предвзятости в сфере ИИ распространяется на все аспекты нашей жизни. От того, кого нанимают на работу, кого одобряют на получение кредита, до того, кто какое медицинское лечение получает — предвзятые системы ИИ могут увековечить существующее неравенство и создать новое.

Подумайте вот о чем: система искусственного интеллекта, обученная на предвзятых исторических данных, может отказать высококвалифицированному кандидату в работе просто из-за его пола или этнической принадлежности. Или предвзятая система искусственного интеллекта может отказать в кредите достойному кандидату из-за его почтового индекса. Это не просто гипотетические сценарии; они происходят прямо сейчас.

Конкретные типы предубеждений, такие как историческая погрешность и погрешность измерения, приводят к таким ошибочным решениям. Они присущи данным, глубоко укоренены в социальных предубеждениях и отражены в неравных результатах среди различных демографических групп. Они могут исказить решения прогнозных моделей и привести к несправедливому обращению.

По большому счету, предвзятость в ИИ может действовать как молчаливый фактор влияния, тонко формируя наше общество и нашу жизнь, часто способами, которые мы даже не осознаем. Все эти вышеперечисленные моменты могут заставить вас задаться вопросом, почему не были приняты меры по прекращению и возможно ли это вообще.

Действительно, с появлением новых технологических достижений решение такой проблемы становится все более доступным. Однако первым шагом к решению этой проблемы является понимание и признание ее существования и воздействия. На данный момент признание его существования уже создано, а вопрос «понимания» остается весьма расплывчатым. 

Понимание предвзятости

Хотя первоначальное определение предвзятости, представленное Кембриджский словарь не отклоняется слишком далеко от основной цели этого слова в отношении ИИ, даже из этого единственного определения можно сделать множество различных интерпретаций. Таксономии, например, представленные такими исследователями, как Хелльстрем и др. (2020) и Клигр (2021), дайте более глубокое понимание определения предвзятости. Однако простой взгляд на эти статьи покажет, что для эффективного решения этой проблемы необходимо существенное сужение определения этого термина. 

Несмотря на то, что предвзятость является изменением событий, чтобы оптимально определить и передать значение предвзятости, лучше определить противоположное, то есть Справедливость. 

Определение справедливости 

Как это определено в различной современной литературе, такой как Кастельново и др. (2022)Говоря о справедливости, можно более подробно остановиться на понимании термина «потенциальное пространство». В существующем виде потенциальное пространство (ПС) относится к степени способностей и знаний человека независимо от его принадлежности к определенной демографической группе. Учитывая это определение концепции PS, можно легко определить справедливость как равенство обращения между двумя людьми с одинаковым PS, независимо от их наблюдаемых и скрытых различий в параметрах, вызывающих предвзятость (таких как раса, возраст или пол). Любое отклонение от этого определения, также называемого «равенством возможностей», является явным признаком предвзятости и заслуживает дальнейшего исследования.  

Практики среди читателей могут заметить, что достижение чего-то, как определено здесь, может быть совершенно невозможным, учитывая присущие нашему миру предубеждения. Это правда! Мир, в котором мы живем, а также все данные, собранные о событиях в этом мире, подвержены значительной исторической и статистической предвзятости. Это действительно снижает уверенность в том, что однажды удастся полностью смягчить влияние предвзятости на прогностические модели, обученные на таких «предвзятых» данных. Однако, используя различные методы, можно попытаться свести к минимуму влияние предвзятости. В таком случае терминология, используемая в остальной части этого сообщения(-ий), будет смещаться в сторону идеи минимизации воздействия предвзятости, а не полного его смягчения.

Хорошо! Итак, теперь, когда возникла идея о том, что такое предвзятость и как потенциально можно оценить ее существование; Однако если мы хотим правильно решить эту проблему, нам необходимо знать, откуда берутся все эти предубеждения.

Понимание источников и типов

Существующие исследования дают ценную информацию о различных типах предвзятостей в машинном обучении. Как Мехраби и др. ал. (2019) Приступив к разделению предубеждений в машинном обучении, можно разделить предубеждения на три основные категории. А именно:

  • Данные для алгоритма: категория, охватывающая предвзятости, возникающие из самих данных. Возможно, это вызвано плохим сбором данных, присущими миру предубеждениями и т. д.
  • Алгоритм для пользователя: категория, в которой основное внимание уделяется предвзятости, возникающей из-за конструкции и функциональности алгоритмов. Он включает в себя то, как алгоритмы могут интерпретировать, взвешивать или учитывать одни точки данных по сравнению с другими, что может привести к предвзятым результатам.
  • Пользователь к данным: относится к предвзятости, возникающей в результате взаимодействия пользователя с системой. То, как пользователи вводят данные, присущие им предубеждения или даже их доверие к результатам работы системы, могут влиять на результаты.
график

Рисунок 1: Визуализация структуры CRISP-DM для интеллектуального анализа данных; обычно используется при интеллектуальном анализе данных и имеет отношение к процессу определения этапов, на которых может возникнуть предвзятость.

Хотя названия указывают на форму предвзятости, все же могут возникнуть вопросы относительно типов предубеждений, которые можно отнести к этим общим терминам. Для энтузиастов среди наших читателей мы предоставили ссылки на некоторую литературу, связанную с этой терминологией и классификацией. Для простоты в этом сообщении блога мы рассмотрим несколько избранных предубеждений, которые имеют отношение к ситуации (почти все из них относятся к категории данных для алгоритма). Конкретные виды предубеждений следующие:

  • Историческая предвзятость: тип предвзятости, присущий данным, вызванный естественными предубеждениями, существующими в мире в различных социальных группах и обществе в целом. Именно из-за того, что эти данные присущи миру, их невозможно смягчить с помощью различных средств выборки и выбора признаков.
  • Систематическая ошибка измерения и систематическая ошибка репрезентации. Эти две тесно связанные ошибки возникают, когда разные подгруппы набора данных содержат неодинаковое количество «благоприятных» результатов. Таким образом, этот тип предвзятости может исказить результаты прогнозных моделей.
  • Алгоритмическая ошибка: ошибка, связанная исключительно с используемым алгоритмом. Как также наблюдалось в ходе проведенных тестов (подробнее описано далее в статье), этот тип предвзятости может оказать огромное влияние на справедливость данного алгоритма.

Это фундаментальное понимание предвзятости в машинном обучении будет использовано для более эффективного решения проблемы в последующих публикациях.

Заключение

В этом исследовании предвзятости в области искусственного интеллекта мы осветили глубокие последствия, которые она несет в нашем мире, все более управляемом ИИ. От реальных примеров, таких как скандал с благополучием детей в Нидерландах, до сложных нюансов категорий и типов предвзятости, очевидно, что признание и понимание предвзятости имеет первостепенное значение.

Хотя проблемы, создаваемые предубеждениями (историческими, алгоритмическими или вызванными пользователями), значительны, они не являются непреодолимыми. Имея четкое представление о причинах и проявлениях предвзятости, мы будем лучше подготовлены к их устранению. Однако признание и понимание – это лишь отправная точка.

По мере продвижения в этой серии статей наше следующее внимание будет сосредоточено на реальных инструментах и ​​структурах, имеющихся в нашем распоряжении. Как мы можем измерить степень предвзятости в моделях ИИ? И что еще более важно, как нам минимизировать его влияние? Это насущные вопросы, которые мы рассмотрим дальше, гарантируя, что по мере того, как ИИ продолжает развиваться, он делает это в справедливом и эффективном направлении.

группа людей улыбается

Данные синтетические, но наша команда реальная!

Связаться с Syntho и один из наших экспертов свяжется с вами со скоростью света, чтобы изучить ценность синтетических данных!