Neviditeľný vinník AI: Odhaľovanie zaujatosti vo vnútri

Séria blogov Bias: časť 1

úvod

V našom svete čoraz umelejších foriem inteligencie čoraz viac prevládajú stroje, ktoré majú za úlohu robiť zložité rozhodnutia. Narastá množstvo literatúry, ktorá naznačuje používanie AI v rôznych oblastiach, ako je podnikanie, rozhodovanie s vysokým podielom a za posledných niekoľko rokov v lekárskom sektore. S touto rastúcou prevalenciou si však ľudia všimli tendencie v uvedených systémoch; To znamená, že hoci sú vo svojej podstate navrhnuté tak, aby čisto sledovali vzorce v údajoch, vykazovali známky predsudkov v tom zmysle, že možno pozorovať rôzne sexistické a diskriminačné správanie. Nedávne Európsky zákon o umelej inteligencii, tiež pomerne obšírne pokrýva problematiku takýchto predsudkov a vytvára základ pre riešenie problémov s tým spojených. 

Počas rokov technickej dokumentácie mali ľudia tendenciu používať termín „zaujatosť“ na opis tohto skresleného typu správania voči určitej demografickej skupine; slovo, ktorého význam sa mení, čo spôsobuje zmätok a komplikuje úlohu jeho oslovenia.

Tento článok je prvým zo série blogových príspevkov pokrývajúcich tému zaujatosti. V tejto sérii sa budeme snažiť poskytnúť vám jasné a stráviteľné pochopenie zaujatosti v AI. Predstavíme spôsoby merania a minimalizácie skreslenia a preskúmame úlohu syntetických údajov na tejto ceste k spravodlivejším systémom. Dáme vám tiež nahliadnuť do toho, ako môže Syntho, popredný hráč v generovaní syntetických dát, prispieť k tomuto úsiliu. Či už ste praktizujúci, ktorí hľadajú praktické poznatky alebo sa len zaujímate o túto tému, ste na správnom mieste.

Zaujatosť v akcii: Príklad zo skutočného sveta

Možno sa pýtate: „Táto zaujatosť v AI je dôležitá, ale čo to znamená pre mňa, pre bežných ľudí?“ Pravdou je, že vplyv je ďalekosiahly, často neviditeľný, ale silný. Zaujatosť v AI nie je len akademický koncept; je to skutočný problém s vážnymi následkami.

Vezmite si ako príklad holandský škandál v oblasti sociálnej starostlivosti o deti. Automatizovaný systém, údajne nástroj vytvorený na generovanie spravodlivých a efektívnych výsledkov s minimálnym zásahom človeka, bol neobjektívny. Neprávom označila tisíce rodičov za podvody na základe chybných údajov a predpokladov. Výsledok? Rodiny uvrhnuté do nepokoja, poškodená osobná povesť a finančné ťažkosti, to všetko kvôli predsudkom v systéme AI. Práve takéto príklady zdôrazňujú naliehavosť riešenia zaujatosti v AI.

ľudia protestujú

Ale nezostávajme len pri tom. Tento incident nie je ojedinelým prípadom zaujatosti, ktorá spôsobuje zmätok. Vplyv zaujatosti v AI sa rozširuje do všetkých kútov nášho života. Od toho, kto dostane prácu, kto dostane schválenú pôžičku, až po to, kto dostane aký druh lekárskeho ošetrenia – neobjektívne systémy AI môžu udržiavať existujúce nerovnosti a vytvárať nové.

Zvážte toto: systém AI vyškolený na neobjektívnych historických údajoch by mohol odoprieť prácu dobre kvalifikovanému kandidátovi jednoducho z dôvodu jeho pohlavia alebo etnickej príslušnosti. Alebo zaujatý systém AI môže odmietnuť pôžičku zaslúžilému kandidátovi z dôvodu jeho poštového smerovacieho čísla. Toto nie sú len hypotetické scenáre; dejú sa práve teraz.

Špecifické typy zaujatosti, ako je historické skreslenie a skreslenie merania, vedú k takýmto chybným rozhodnutiam. Sú súčasťou údajov, sú hlboko zakorenené v spoločenských predsudkoch a odrážajú sa v nerovnakých výsledkoch medzi rôznymi demografickými skupinami. Môžu skresľovať rozhodnutia prediktívnych modelov a viesť k nespravodlivému zaobchádzaniu.

Vo veľkej schéme vecí môže zaujatosť v AI pôsobiť ako tichý vplyvník, ktorý nenápadne formuje našu spoločnosť a naše životy, často spôsobom, ktorý si ani neuvedomujeme. Všetky tieto vyššie uvedené body vás môžu viesť k otázke, prečo neboli podniknuté kroky na zastavenie a či je to vôbec možné.

V skutočnosti je s novým technologickým pokrokom čoraz dostupnejšie riešenie tohto problému. Prvým krokom k riešeniu tohto problému je však pochopenie a uznanie jeho existencie a dosahu. Nateraz sa vytvorilo uznanie jeho existencie, takže otázka „pochopenia“ je stále dosť vágna. 

Pochopenie zaujatosti

Zatiaľ čo pôvodná definícia zaujatosti, ako ju prezentuje Cambridgeský slovník sa príliš nevzďaľuje od hlavného účelu slova, keďže sa vzťahuje na AI, aj z tejto singulárnej definície možno urobiť veľa rôznych výkladov. Taxonómie, aké prezentujú výskumníci ako napr Hellström a kol. (2020) a Kliegr (2021), poskytujú hlbší pohľad na definíciu zaujatosti. Jednoduchý pohľad na tieto články však odhalí, že na efektívne riešenie problému je potrebné veľké zúženie definície tohto pojmu. 

Aj keď ide o zmenu udalostí, na optimálne definovanie a vyjadrenie významu zaujatosti je možné lepšie definovať opak, teda spravodlivosť. 

Definovanie spravodlivosti 

Ako je to definované v rôznej novšej literatúre ako napr Castelnovo a kol. (2022)férovosť je možné rozvinúť na základe pochopenia pojmu potenciálny priestor. Ako existuje, potenciálny priestor (PS) označuje rozsah schopností a vedomostí jednotlivca bez ohľadu na jeho príslušnosť k určitej demografickej skupine. Vzhľadom na túto definíciu pojmu PS možno jednoducho definovať spravodlivosť ako rovnaké zaobchádzanie s dvoma jednotlivcami s rovnakým PS bez ohľadu na ich pozorovateľné a skryté rozdiely v parametroch vyvolávajúcich zaujatosť (ako je rasa, vek alebo pohlavie). Akékoľvek odklonenie od tejto definície, nazývanej aj rovnosť príležitostí, je jasným znakom zaujatosti a zaslúži si ďalšie skúmanie.  

Praktizujúci medzi čitateľmi si môžu všimnúť, že dosiahnuť niečo, ako je tu definované, môže byť úplne nemožné vzhľadom na prirodzené predsudky existujúce v našom svete. To je pravda! Svet, v ktorom žijeme, spolu so všetkými údajmi zozbieranými z udalostí v tomto svete podlieha mnohým historickým a štatistickým skresleniam. To skutočne znižuje dôveru, že jedného dňa sa úplne zmiernia dopady zaujatosti na prediktívne modely trénované na takýchto „zaujatých“ údajoch. Pomocou rôznych metód sa však možno pokúsiť minimalizovať dopady zaujatosti. V tomto prípade sa terminológia použitá vo zvyšku tohto blogového príspevku (príspevkov) posunie smerom k myšlienke minimalizácie vplyvu zaujatosti a nie k úplnému zmierneniu.

Dobre! Takže teraz, keď sa objavila myšlienka, čo je zaujatosť a ako by sa dala potenciálne zhodnotiť jej existencia; Ak však chceme problém správne riešiť, musíme vedieť, odkiaľ všetky tieto predsudky pochádzajú.

Pochopenie zdrojov a typov

Existujúci výskum poskytuje cenné poznatky o rôznych typoch predsudkov v strojovom učení. Ako Mehrabi et. al. (2019) pristúpili k rozdeleniu skreslení v strojovom učení, možno predsudky rozdeliť do 3 hlavných kategórií. Konkrétne tých z:

  • Data to Algorithm: kategória zahŕňajúca predsudky, ktoré pochádzajú zo samotných údajov. Môže to byť spôsobené slabým zberom údajov, inherentnými predsudkami existujúcimi vo svete atď.
  • Algorithm to User: kategória zameraná na predsudky, ktoré vyplývajú z dizajnu a funkčnosti algoritmov. Zahŕňa to, ako môžu algoritmy interpretovať, vážiť alebo zvažovať určité údajové body pred ostatnými, čo môže viesť k skresleným výsledkom.
  • Používateľ k údajom: týka sa predsudkov, ktoré vznikajú pri interakcii používateľa so systémom. Spôsob, akým používatelia zadávajú údaje, ich prirodzené zaujatosti alebo dokonca ich dôvera vo výstupy systému môžu ovplyvniť výsledky.
graf

Obrázok 1: Vizualizácia rámca CRISP-DM pre dolovanie údajov; bežne používané pri získavaní údajov a relevantné pre proces identifikácie štádií, v ktorých môže dôjsť k zaujatosti.

Aj keď názvy naznačujú formu zaujatosti, stále môžu existovať otázky týkajúce sa typov zaujatosti, ktoré by sa dali kategorizovať pod tieto zastrešujúce pojmy. Pre nadšencov z radov našich čitateľov sme poskytli odkazy na literatúru súvisiacu s touto terminológiou a klasifikáciou. V záujme jednoduchosti v tomto blogovom príspevku pokryjeme niekoľko vybraných predsudkov, ktoré sú relevantné pre danú situáciu (takmer všetky patria do kategórie údajov pre algoritmus). Špecifické typy predsudkov sú nasledovné:

  • Historická zaujatosť: Typ zaujatosti súvisiaci s údajmi spôsobený prirodzenými predsudkami existujúcimi vo svete v rôznych sociálnych skupinách a spoločnosti všeobecne. Je to kvôli inherentnosti týchto údajov vo svete, že ich nemožno zmierniť rôznymi spôsobmi vzorkovania a výberu funkcií.
  • Skreslenie merania a skreslenie reprezentácie: Tieto dve úzko súvisiace skreslenia sa vyskytujú, keď rôzne podskupiny súboru údajov obsahujú nerovnaké množstvá „priaznivých“ výsledkov. Tento typ zaujatosti preto môže skresliť výsledok prediktívnych modelov
  • Algoritmické skreslenie: Predsudok čisto súvisí s používaným algoritmom. Ako bolo tiež pozorované pri testoch (rozpracovaných ďalej v príspevku), tento typ skreslenia môže mať obrovský vplyv na spravodlivosť daného algoritmu.

Tieto základné poznatky o zaujatosti v strojovom učení sa využijú na efektívnejšie riešenie problému v neskorších príspevkoch.

Záverečné myšlienky

Pri tomto skúmaní zaujatosti v rámci umelej inteligencie sme objasnili hlboké dôsledky, ktoré to má v našom svete, ktorý je čoraz viac poháňaný AI. Z príkladov zo skutočného sveta, ako je holandský škandál v oblasti starostlivosti o deti, až po zložité nuansy kategórií a typov zaujatosti je zrejmé, že rozpoznanie a pochopenie zaujatosti je prvoradé.

Hoci výzvy, ktoré predstavujú predsudky – či už sú historické, algoritmické alebo vyvolané používateľmi – sú významné, nie sú neprekonateľné. S pevným pochopením pôvodu a prejavov zaujatosti sme lepšie pripravení ich riešiť. Uznanie a pochopenie sú však len východiskové body.

Keď sa v tejto sérii posunieme vpred, naše ďalšie zameranie sa zameria na konkrétne nástroje a rámce, ktoré máme k dispozícii. Ako meriame rozsah zaujatosti v modeloch AI? A čo je dôležitejšie, ako minimalizujeme jeho dopad? Toto sú naliehavé otázky, ktorým sa budeme venovať nabudúce, aby sme zaistili, že AI sa bude vyvíjať spravodlivým aj výkonným smerom.

skupina ľudí s úsmevom

Dáta sú syntetické, ale náš tím je skutočný!

Kontaktujte Syntho a jeden z našich odborníkov sa s vami spojí rýchlosťou svetla, aby preskúmal hodnotu syntetických údajov!