AI nägematu süüdlane: sisemise eelarvamuse lahtiharutamine

Eelarvamuste ajaveebi seeria: 1. osa

Sissejuhatus

Meie maailmas, kus intelligentsuse vormid on üha kunstlikumad, muutuvad üha levinumaks masinad, mille ülesandeks on teha keerulisi otsuseid. Järjest rohkem on kirjandust, mis viitab tehisintellekti kasutamisele erinevates valdkondades, nagu äri, kõrgete otsuste tegemine ja viimastel aastatel meditsiinisektoris. Selle kasvava levikuga on inimesed aga märganud nimetatud süsteemides puudutavaid tendentse; See tähendab, et kuigi need on oma olemuselt kavandatud järgima puhtalt andmete mustreid, on need näidanud eelarvamuste märke selles mõttes, et võib täheldada erinevat seksistlikku ja diskrimineerivat käitumist. Viimased Euroopa AI seadus, käsitleb ka selliste eelarvamuste teemat üsna ulatuslikult ja loob aluse sellega seotud probleemide lahendamisele. 

Aastate jooksul, mil tehniline dokumentatsioon on koostatud, on inimesed kaldunud kasutama terminit „erapoolik“, et kirjeldada seda teatud demograafiliste näitajate suhtes kaldu käitumist; sõna, mille tähendus varieerub, tekitades segadust ja raskendades sellega tegelemist.

See artikkel on esimene blogipostituste seeriast, mis käsitleb eelarvamuste teemat. Selle seeria eesmärk on anda teile selge ja arusaadav arusaam AI eelarvamustest. Tutvustame viise, kuidas mõõta ja minimeerida eelarvamusi ning uurida sünteetiliste andmete rolli õiglasemate süsteemide suunas. Samuti anname teile ülevaate sellest, kuidas sünteetiliste andmete genereerimise juhtiv tegija Syntho saab sellele jõupingutusele kaasa aidata. Niisiis, olenemata sellest, kas olete praktik, kes otsib praktilisi teadmisi või olete lihtsalt selle teema vastu uudishimulik, olete õiges kohas.

Eelarvamus tegevuses: näide tegelikust maailmast

Võib-olla mõtlete: "See AI eelarvamus on oluline, kuid mida see minu jaoks tavainimeste jaoks tähendab?" Tõde on see, et mõju on kaugeleulatuv, sageli nähtamatu, kuid võimas. AI eelarvamus ei ole pelgalt akadeemiline mõiste; see on tõsiste tagajärgedega reaalne probleem.

Võtame näiteks Hollandi laste heaolu skandaali. Automatiseeritud süsteem, väidetavalt tööriist, mis loodi õiglaste ja tõhusate tulemuste saamiseks minimaalse inimliku sekkumisega, oli kallutatud. See tähistas vigaste andmete ja eelduste põhjal tuhandeid vanemaid pettuse eest ekslikult. Tulemus? AI-süsteemi eelarvamuste tõttu on segadusse sattunud pered, kahjustatud isiklik maine ja rahalised raskused. Just sellised näited rõhutavad tehisintellekti erapoolikuste käsitlemise kiireloomulisust.

inimesed protestivad

Kuid ärgem lõpetagem sellega. See juhtum ei ole üksikjuhtum, mis põhjustaks kaost. AI eelarvamuste mõju ulatub meie elu kõikidesse nurkadesse. Alates sellest, kes võetakse tööle, kes saab laenu heakskiidu ja kes saab millist ravi – kallutatud AI-süsteemid võivad põlistada olemasolevat ebavõrdsust ja luua uusi.

Mõelge sellele: kallutatud ajalooliste andmete põhjal koolitatud tehisintellekti süsteem võib keelata hästi kvalifitseeritud kandidaadil töökoha lihtsalt nende soo või etnilise kuuluvuse tõttu. Või kallutatud AI-süsteem võib keelduda teenivale kandidaadile laenu andmisest nende sihtnumbri tõttu. Need ei ole ainult hüpoteetilised stsenaariumid; need toimuvad praegu.

Konkreetsed eelarvamuste tüübid, nagu ajalooline eelarvamus ja mõõtmise eelarvamus, viivad selliste vigaste otsusteni. Need on andmetele omased, sügavalt juurdunud ühiskondlikes eelarvamustes ja peegelduvad erinevate demograafiliste rühmade ebavõrdsetes tulemustes. Need võivad ennustavate mudelite otsuseid kallutada ja põhjustada ebaõiglast kohtlemist.

Asjade suures plaanis võib tehisintellekti erapoolik toimida vaikiva mõjutajana, kujundades peenelt meie ühiskonda ja meie elu, sageli viisil, millest me isegi aru ei saa. Kõik need ülalmainitud punktid võivad tekitada küsimuse, miks ei ole peatamiseks midagi ette võetud ja kas see on üldse võimalik.

Tõepoolest, tänu uutele tehnoloogilistele edusammudele muutub sellise probleemiga tegelemine üha kättesaadavamaks. Esimene samm selle probleemi lahendamiseks on aga selle olemasolu ja mõju mõistmine ja tunnistamine. Praeguseks on selle olemasolu tunnistamine loodud, jättes “mõistmise” küsimuse veel üsna ebamääraseks. 

Eelarvamuse mõistmine

Kuigi algne eelarvamuse määratlus, nagu on esitatud Cambridge'i sõnastik ei kaldu liiga kaugele sõna peamisest eesmärgist, kuna see on seotud tehisintellektiga, tuleb isegi seda ainsuse määratlust tõlgendada palju erinevaid. Taksonoomiad, nagu need, mille on esitanud sellised teadlased nagu Hellström jt (2020) ja Kliegr (2021), annab sügavama ülevaate eelarvamuste määratlusest. Lihtne pilk nendele dokumentidele näitab aga, et probleemi tõhusaks lahendamiseks on vaja termini määratlust oluliselt kitsendada. 

Kuigi tegemist on sündmuste muutusega, saab kallutatuse tähenduse optimaalseks määratlemiseks ja edasi andmiseks paremini määratleda vastupidise, see on õiglus. 

Õigluse määratlemine 

Nagu on määratletud mitmes hiljutises kirjanduses, näiteks Castelnovo et al. (2022), saab õiglust edasi arendada, kui mõistetakse potentsiaalse ruumi mõistet. Olemasoleval kujul viitab potentsiaalne ruum (PS) indiviidi võimete ja teadmiste ulatusele sõltumata tema kuulumisest teatud demograafilisse rühma. Arvestades seda PS mõiste määratlust, saab õiglust hõlpsasti määratleda kui kahe võrdse PS-ga isiku võrdsust kohtlemise all, olenemata nende jälgitavatest ja varjatud erinevustest eelarvamusi esilekutsuvates parameetrites (nagu rass, vanus või sugu). Igasugune kõrvalekaldumine sellest määratlusest, mida nimetatakse ka võimaluste võrdsuseks, viitab selgelt erapoolikusele ja väärib edasist uurimist.  

Lugejate hulgas olevad praktikud võivad märgata, et millegi saavutamine, nagu siin määratletud, võib olla täiesti võimatu, arvestades meie maailmas eksisteerivaid loomupäraseid eelarvamusi. See on tõsi! Maailm, kus me elame, ja kõik selle maailma sündmuste kohta kogutud andmed on allutatud suurele ajaloolisele ja statistilisele eelarvamusele. See tõepoolest vähendab kindlustunnet, et ühel päeval leevendatakse täielikult eelarvamuste mõju sellistele "kallutatud" andmetele koolitatud ennustavatele mudelitele. Erinevate meetodite kasutamisega võib aga püüda kallutatuse mõju minimeerida. Sel juhul nihkub ülejäänud ajaveebi postitus(t)es kasutatud terminoloogia pigem kallutatuse mõju minimeerimise kui selle täieliku leevendamise idee poole.

Okei! Nii et nüüd, kui on tekkinud idee, mis on eelarvamus ja kuidas selle olemasolu potentsiaalselt hinnata; Kui tahame probleemiga korralikult tegeleda, peame aga teadma, kust kõik need eelarvamused pärinevad.

Allikate ja tüüpide mõistmine

Olemasolevad uuringud annavad väärtuslikku teavet masinõppe eri tüüpi eelarvamuste kohta. Nagu Mehrabi et. al. (2019) on masinõppes eelarvamusi jaganud, võib eelarvamused jagada kolme suurde kategooriasse. Nimelt need:

  • Data to Algorithm: kategooria, mis hõlmab andmetest endast tulenevaid eelarvamusi. Selle põhjuseks võib olla halb andmete kogumine, maailmas esinevad loomupärased eelarvamused jne.
  • Algoritm kasutajale: kategooria, mis keskendub algoritmide disainist ja funktsionaalsusest tulenevatele eelarvamustele. See hõlmab seda, kuidas algoritmid võivad tõlgendada, kaaluda või arvestada teatud andmepunkte teistega võrreldes, mis võib viia kallutatud tulemusteni.
  • Kasutaja andmetele: puudutab eelarvamusi, mis tulenevad kasutaja suhtlusest süsteemiga. Viis, kuidas kasutajad andmeid sisestavad, nende loomupärased eelarvamused või isegi usaldus süsteemiväljundite vastu, võivad tulemusi mõjutada.
graafik

Joonis 1: CRISP-DM raamistiku visualiseerimine andmekaeve jaoks; mida kasutatakse tavaliselt andmekaevanduses ja mis on seotud eelarvamuste ilmnemise etappide tuvastamise protsessiga.

Ehkki nimed viitavad eelarvamuste vormile, võib siiski tekkida küsimusi, millist tüüpi eelarvamusi võib nende katusterminite alla liigitada. Lugejahuvilistele oleme andnud lingid selle terminoloogia ja klassifikatsiooniga seotud kirjandusele. Lihtsuse huvides käsitleme selles ajaveebi postituses mõnda valitud eelarvamust, mis on olukorraga seotud (peaaegu kõik need kuuluvad algoritmi kategooria andmetesse). Konkreetsed eelarvamuste tüübid on järgmised:

  • Ajalooline eelarvamus: andmetele omane eelarvamus, mis on põhjustatud maailmas erinevates sotsiaalsetes rühmades ja ühiskonnas üldiselt eksisteerivatest loomulikest eelarvamustest. Nende andmete olemuse tõttu maailmas ei saa neid erinevate proovivõtu- ja funktsioonivaliku vahenditega leevendada.
  • Mõõtmise kallutatus ja esituse kallutatus: need kaks tihedalt seotud kallutatust ilmnevad siis, kui andmestiku erinevad alarühmad sisaldavad ebavõrdselt palju "soodsaid" tulemusi. Seetõttu võib seda tüüpi eelarvamused ennustavate mudelite tulemusi kallutada
  • Algorithmic Bias: nihe on seotud ainult kasutatava algoritmiga. Nagu täheldati ka läbiviidud testides (mida on postituses üksikasjalikumalt kirjeldatud), võib seda tüüpi eelarvamusel olla tohutu mõju antud algoritmi õiglusele.

Neid põhilisi arusaamu masinõppe eelarvamustest kasutatakse probleemi tõhusamaks lahendamiseks hilisemates postitustes.

Final Thoughts

Tehisintellekti eelarvamuste uurimisel oleme valgustanud selle sügavaid tagajärgi meie üha enam tehisintellekti juhitavas maailmas. Alates reaalsetest näidetest, nagu Hollandi laste heaolu skandaal, kuni eelarvamuste kategooriate ja tüüpide keeruliste nüanssideni, on ilmne, et eelarvamuste äratundmine ja mõistmine on ülimalt oluline.

Kuigi eelarvamustest tulenevad väljakutsed – olgu need siis ajaloolised, algoritmilised või kasutaja poolt põhjustatud – on olulised, ei ole need siiski ületamatud. Kuna oleme erapoolikuste päritolust ja ilmingutest kindlalt aru saanud, oleme nendega paremini toime tulnud. Tunnustus ja mõistmine on aga vaid lähtekohad.

Selles sarjas edasi liikudes keskendume järgmiseks meie käsutuses olevatele käegakatsutavatele tööriistadele ja raamistikele. Kuidas mõõta AI mudelite eelarvamuste ulatust? Ja mis veelgi olulisem, kuidas selle mõju minimeerida? Need on pakilised küsimused, millesse me järgmisena süveneme, tagades, et tehisintellekti arenedes teeb see seda nii ausas kui ka tulemuslikus suunas.

naeratavate inimeste rühm

Andmed on sünteetilised, kuid meie meeskond on tõeline!

Võtke ühendust Synthoga ja üks meie ekspertidest võtab teiega valguse kiirusel ühendust, et uurida sünteetiliste andmete väärtust!