Нябачны віноўнік штучнага інтэлекту: разгадванне ўнутранай прадузятасці

Серыя блогаў Bias: частка 1

Увядзенне

У нашым свеце штучных формаў інтэлекту ўсё больш і больш пераважаюць машыны, якім даручана прымаць складаныя рашэнні. Расце колькасць літаратуры, якая паказвае на выкарыстанне штучнага інтэлекту ў розных галінах, такіх як бізнес, працэс прыняцця важных рашэнняў, а за апошнія некалькі гадоў - і ў медыцынскім сектары. Аднак з ростам распаўсюджанасці людзі заўважылі непрыемныя тэндэнцыі ў названых сістэмах; Гэта значыць, што яны па сваёй сутнасці створаны выключна для захавання шаблонаў у дадзеных, яны дэманструюць прыкметы прадузятасці ў тым сэнсе, што можна назіраць розныя сэксісцкія і дыскрымінацыйныя паводзіны. Нядаўні Еўрапейскі закон аб AI, таксама даволі шырока асвятляе пытанне такіх забабонаў і стварае аснову для вырашэння звязаных з імі праблем.

На працягу многіх гадоў тэхнічнай дакументацыі людзі схільныя выкарыстоўваць тэрмін «прадузятасць» для апісання гэтага скажонага тыпу паводзін у адносінах да пэўных дэмаграфічных груп; слова, значэнне якога змяняецца, што выклікае блытаніну і ўскладняе задачу звароту да яго.

Гэты артыкул з'яўляецца першым у серыі паведамленняў у блогу, прысвечаных тэме прадузятасці. У гэтай серыі мы паспрабуем даць вам дакладнае, лёгказасваяльнае разуменне прадузятасці ў ІІ. Мы прадставім спосабы вымярэння і мінімізацыі прадузятасці і вывучым ролю сінтэтычных даных на гэтым шляху да больш справядлівых сістэм. Мы таксама дамо вам зазірнуць у тое, як Syntho, вядучы гулец у галіне стварэння сінтэтычных даных, можа ўнесці свой уклад у гэтыя намаганні. Такім чынам, незалежна ад таго, ці з'яўляецеся вы практыкуючым спецыялістам, які шукае дзейную інфармацыю, або проста цікавіцеся гэтай тэмай, вы знаходзіцеся ў правільным месцы.

Прадузятасць у дзеянні: прыклад з рэальнага свету

Вы можаце задацца пытаннем: «Гэты ўхіл у ІІ важны, але што гэта значыць для мяне, для звычайных людзей?» Праўда ў тым, што ўздзеянне далёка ідучае, часта нябачнае, але моцнае. Прадузятасць у ІІ - гэта не проста акадэмічная канцэпцыя; гэта рэальная праблема з сур'ёзнымі наступствамі.

Возьмем у якасці прыкладу галандскі скандал з дапамогаю дзяцей. Аўтаматызаваная сістэма, як мяркуецца, інструмент, створаны для атрымання справядлівых і эфектыўных вынікаў з мінімальным умяшаннем чалавека, была прадузятай. Ён памылкова пазначыў тысячы бацькоў за махлярства на аснове памылковых даных і здагадак. Вынік? Сем'і, якія апынуліся ў бязладзіцы, пашкоджаная асабістая рэпутацыя і фінансавыя цяжкасці, усё з-за прадузятасцяў у сістэме штучнага інтэлекту. Менавіта такія прыклады падкрэсліваюць неабходнасць барацьбы з прадузятасцю ў ІІ.

Крыніца: «Compensatie ouders toeslagenaffaire kan zomaar tot 2030 duren”, 2023. ЗША

Але не будзем спыняцца на дасягнутым. Гэты інцыдэнт не з'яўляецца адзінкавым выпадкам прадузятасці, які сее хаос. Уздзеянне прадузятасці ў ІІ распаўсюджваецца на ўсе куткі нашага жыцця. Ад таго, каго наймаюць на працу, хто атрымлівае адабрэнне на пазыку, да таго, хто атрымлівае якое лячэнне - прадузятыя сістэмы штучнага інтэлекту могуць увекавечыць існуючую няроўнасць і стварыць новую.

Улічыце наступнае: сістэма штучнага інтэлекту, навучаная на неаб'ектыўных гістарычных дадзеных, можа адмовіць добра кваліфікаванаму кандыдату ў працы проста з-за яго полу або этнічнай прыналежнасці. Або прадузятая сістэма штучнага інтэлекту можа адмовіць годнаму кандыдату ў пазыцы з-за яго паштовага індэкса. Гэта не проста гіпатэтычныя сцэнары; яны адбываюцца прама цяпер.

Да такіх памылковых рашэнняў прыводзяць пэўныя тыпы зрушэнняў, такія як гістарычны зрух і зрушэнне вымярэнняў. Яны ўласцівыя дадзеным, глыбока ўкаранёныя ў грамадскіх прадузятасцях і адлюстроўваюцца ў няроўных выніках сярод розных дэмаграфічных груп. Яны могуць сказіць рашэнні прагнастычных мадэляў і прывесці да несправядлівага стаўлення.

У агульных рысах прадузятасць ІІ можа дзейнічаць як маўклівы фактар уплыву, тонка фармуючы наша грамадства і наша жыццё, часта такім чынам, што мы нават не падаем. Усе гэтыя вышэйзгаданыя моманты могуць прывесці вас да пытання, чаму не былі прыняты меры па спыненні і ці магчыма гэта наогул.

Сапраўды, з новымі тэхналагічнымі дасягненнямі рашэнне такой праблемы становіцца ўсё больш даступным. Аднак першым крокам да вырашэння гэтай праблемы з'яўляецца разуменне і прызнанне яе існавання і ўздзеяння. На дадзены момант пацверджанне яго існавання было створана, у выніку чаго пытанне «разумення» застаецца даволі расплывістым.

Разуменне прадузятасці

У той час як першапачатковае вызначэнне прадузятасці, прадстаўленае Кембрыджскі слоўнік не адыходзіць занадта далёка ад асноўнага прызначэння слова, паколькі яно адносіцца да штучнага інтэлекту, нават гэта адзінае вызначэнне павінна быць зроблена па-рознаму. Таксанаміі, напрыклад, прадстаўленыя такімі даследчыкамі, як Хельстрэм і інш (2020) і Клігр (2021), забяспечваюць больш глыбокае разуменне вызначэння прадузятасці. Аднак просты погляд на гэтыя дакументы пакажа, што для эфектыўнага вырашэння праблемы патрабуецца значнае звужэнне вызначэння гэтага тэрміна.

У той час як змена падзей, каб аптымальна вызначыць і перадаць значэнне прадузятасці, можна лепш вызначыць супрацьлегласць, гэта значыць Справядлівасць.

Вызначэнне справядлівасці 

Як гэта вызначана ў рознай нядаўняй літаратуры, напрыклад Касцельнава і інш. (2022), справядлівасці можна больш падрабязна растлумачыць, калі зразумець тэрмін патэнцыйная прастора. Як існуе, патэнцыйная прастора (ПС) адносіцца да ступені здольнасцей і ведаў індывіда незалежна ад яго прыналежнасці да пэўнай дэмаграфічнай групы. Улічваючы такое вызначэнне паняцця PS, можна лёгка вызначыць, што справядлівасць - гэта роўнае абыходжанне паміж дзвюма асобамі з аднолькавым PS, незалежна ад іх назіраных і схаваных адрозненняў у параметрах, якія выклікаюць зрушэнне (такіх як раса, узрост або пол). Любое адхіленне ад гэтага вызначэння, якое таксама называюць Роўнасцю магчымасцей, з'яўляецца відавочным прыкметай прадузятасці і заслугоўвае далейшага расследавання.

Практыкі сярод чытачоў могуць заўважыць, што дасягненне чагосьці, як гэта вызначана тут, можа быць цалкам немагчымым, улічваючы ўласцівыя прадузятасці, якія існуюць у нашым свеце. Гэта праўда! Свет, у якім мы жывем, разам з усімі дадзенымі, сабранымі аб падзеях у гэтым свеце, падвяргаецца значнай гістарычнай і статыстычнай прадузятасці. Гэта, сапраўды, зніжае ўпэўненасць у тым, што аднойчы цалкам змякчаць уплыў прадузятасці на прагнастычныя мадэлі, падрыхтаваныя на такіх «неаб'ектыўных» дадзеных. Тым не менш, выкарыстоўваючы розныя метады, можна паспрабаваць звесці да мінімуму ўздзеянне прадузятасці. У гэтым выпадку тэрміналогія, якая выкарыстоўваецца ў астатняй частцы гэтага паведамлення(-й) у блогу, будзе зрушвацца ў бок мінімізацыі ўплыву прадузятасці, а не поўнага яго змякчэння.

Добра! Такім чынам, цяпер, калі ўзнікла ідэя аб тым, што такое прадузятасць і як патэнцыйна можна ацаніць яе існаванне; Аднак, калі мы хочам правільна вырашыць праблему, нам трэба ведаць, адкуль бяруцца ўсе гэтыя прадузятасці.

Разуменне крыніц і тыпаў

Існуючыя даследаванні даюць каштоўную інфармацыю аб розных тыпах зрушэнняў у машынным навучанні. Як Мехрабі і інш. інш. (2019) перайшлі да падзелу прадузятасцяў у машынным навучанні, можна падзяліць прадузятасці на 3 асноўныя катэгорыі. А менавіта тыя з:

Дадзеныя да алгарытму: катэгорыя, якая ахоплівае зрушэнні, якія паходзяць з саміх даных. Гэта можа быць выклікана дрэнным зборам даных, унутранымі прадузятасцямі, якія існуюць у свеце, і г.д.
Ад алгарытму да карыстальніка: катэгорыя, прысвечаная прадузятасцям, якія вынікаюць з дызайну і функцыянальнасці алгарытмаў. Гэта ўключае ў сябе тое, як алгарытмы могуць інтэрпрэтаваць, узважваць або разглядаць пэўныя даныя ў параўнанні з іншымі, што можа прывесці да неаб'ектыўных вынікаў.
Ад карыстальніка да даных: адносіцца да зрушэнняў, якія ўзнікаюць у выніку ўзаемадзеяння карыстальніка з сістэмай. Спосаб, якім карыстальнікі ўводзяць даныя, іх уласцівыя прадузятасці ці нават іх давер да вынікаў сістэмы могуць паўплываць на вынікі.

Малюнак 1: візуалізацыя структуры CRISP-DM для здабычы дадзеных; звычайна выкарыстоўваецца ў інтэлектуальным аналізе дадзеных і мае дачыненне да працэсу вызначэння этапаў, на якіх можа ўзнікнуць зрушэнне.

Нягледзячы на тое, што назвы сведчаць аб форме прадузятасці, усё яшчэ могуць узнікнуць пытанні адносна тыпаў прадузятасці, якія можна класіфікаваць пад гэтымі агульнымі тэрмінамі. Для энтузіястаў сярод нашых чытачоў мы далі спасылкі на некаторую літаратуру, звязаную з гэтай тэрміналогіяй і класіфікацыяй. Дзеля прастаты ў гэтай публікацыі ў блогу мы разгледзім некалькі выбраных ухілаў, якія маюць дачыненне да сітуацыі (амаль усе з іх адносяцца да катэгорыі дадзеных да алгарытму). Канкрэтныя тыпы ўхілаў наступныя:

Гістарычная прадузятасць: тып прадузятасці, уласцівай дадзеным, выкліканы натуральнымі прадузятасцямі, якія існуюць у свеце ў розных сацыяльных групах і грамадстве ў цэлым. Менавіта з-за ўласцівасці гэтых даных у свеце, што яны не могуць быць аслаблены з дапамогай розных сродкаў выбаркі і адбору прыкмет.
Зрушэнне вымярэння і зрушэнне ўяўлення: гэтыя два цесна звязаныя зрушэнні ўзнікаюць, калі розныя падгрупы набору даных утрымліваюць неаднолькавую колькасць «спрыяльных» вынікаў. Такім чынам, гэты тып зрушэння можа сказіць вынікі прагнастычных мадэляў
Алгарытмічны зрух: зрушэнне, выключна звязанае з алгарытмам, які выкарыстоўваецца. Як таксама было заўважана ў праведзеных тэстах (разгледжана далей у паведамленні), гэты тып зрушэння можа аказаць надзвычайны ўплыў на справядлівасць дадзенага алгарытму.

Гэтыя фундаментальныя разуменні прадузятасці ў машынным навучанні будуць выкарыстоўвацца для больш эфектыўнага вырашэння праблемы ў наступных паведамленнях.

Заключныя думкі

У гэтым даследаванні прадузятасці штучнага інтэлекту мы асвятлілі глыбокія наступствы, якія гэта мае ў нашым свеце, які ўсё больш кіруецца ІІ. Відавочна, што прызнанне і разуменне прадузятасці мае першараднае значэнне, пачынаючы з рэальных прыкладаў, такіх як галандскі скандал з справамі аб дабрабыце дзяцей, і заканчваючы складанымі нюансамі катэгорый і тыпаў прадузятасці.

Нягледзячы на тое, што праблемы, звязаныя з прадузятасцямі - гістарычнымі, алгарытмічнымі або выкліканымі карыстальнікамі - значныя, яны не непераадольныя. Маючы цвёрдае ўяўленне аб паходжанні і праявах прадузятасці, мы лепш падрыхтаваны да іх ліквідацыі. Аднак прызнанне і разуменне - гэта толькі пачатак.

Калі мы рухаемся наперад у гэтай серыі, наша наступная ўвага будзе сканцэнтравана на матэрыяльных інструментах і рамках, якія ёсць у нашым распараджэнні. Як мы вымяраем ступень зрушэння ў мадэлях штучнага інтэлекту? І што яшчэ больш важна, як мінімізаваць яго ўздзеянне? Гэта надзённыя пытанні, якія мы паглыбімся далей, гарантуючы, што штучны інтэлект будзе развівацца ў напрамку, які будзе справядлівым і эфектыўным.

Дадзеныя сінтэтычныя, але наша каманда сапраўдная!

Звяжыцеся з Syntho і адзін з нашых экспертаў звяжацца з вамі на хуткасці святла, каб вывучыць каштоўнасць сінтэтычных дадзеных!

Што такое сінтэтычныя дадзеныя?

Справаздача аб якасці

Знешняя ацэнка па SAS

Сінтэтычныя даныя часавых шэрагаў

Сканер ідэнтыфікацыйных звестак

Сінтэтычныя макетныя даныя

Паслядоўнае адлюстраванне

Дэідэнтыфікацыя і сінтэтызацыя

Сінтэтычныя даныя на аснове правілаў

Падмноства

Разгортванне і інтэграцыя

Раздымы

Пашыраныя магчымасці

Падтрымліваюцца дадзеныя

дакументацыя карыстальніка

Сплануйце дэма

Цэннiк

тэставыя дадзеныя

аналітыка

Абмен дадзенымі

Дэма-версіі прадукту

Манетызацыя дадзеных

Здароўе

фінансаў

Грамадскія арганізацыі

дакументацыя карыстальніка

Белыя паперы і кіраўніцтва

Блог

Вебинары

Прыклады

Цэннiк

Пра нас

Кар'ера

Нябачны віноўнік штучнага інтэлекту: разгадванне ўнутранай прадузятасці

Серыя блогаў Bias: частка 1

Увядзенне

Прадузятасць у дзеянні: прыклад з рэальнага свету

Разуменне прадузятасці

Вызначэнне справядлівасці

Разуменне крыніц і тыпаў

Заключныя думкі

Дадзеныя сінтэтычныя, але наша каманда сапраўдная!

галоўнае меню

Вызначэнне справядлівасці