Neviđeni krivac AI: razotkrivanje pristranosti unutar

Serija blogova o pristrasnosti: 1. dio

Uvod

U našem svijetu sve umjetnijih oblika inteligencije, sve više preovlađuju mašine koje imaju zadatak da donose složene odluke. Postoji sve veći broj literature koja ukazuje na upotrebu AI u različitim domenima kao što su biznis, donošenje odluka sa visokim ulozima i tokom proteklih nekoliko godina u medicinskom sektoru. Sa ovom rastućom rasprostranjenošću, međutim, ljudi su primijetili zabrinjavajuće tendencije u navedenim sistemima; Odnosno, iako su inherentno dizajnirani da isključivo slijede obrasce u podacima, oni su pokazali znakove predrasuda, u smislu da se mogu uočiti različita seksistička i diskriminatorna ponašanja. Nedavno Evropski zakon o veštačkoj inteligenciji, također prilično opširno pokriva pitanje takvih predrasuda i postavlja temelj za rješavanje problema povezanih s tim.

Tokom godina tehničke dokumentacije, ljudi su imali tendenciju da koriste izraz „pristrasnost“ da opišu ovu iskrivljenu vrstu ponašanja prema određenim demografskim kategorijama; riječ čije značenje varira, što izaziva zbrku i komplikuje zadatak obraćanja.

Ovaj članak je prvi u nizu postova na blogu koji pokrivaju temu pristranosti. U ovoj seriji, imat ćemo za cilj da vam pružimo jasno, probavljivo razumijevanje pristranosti u AI. Uvest ćemo načine mjerenja i minimiziranja pristrasnosti i istražiti ulogu sintetičkih podataka na ovom putu ka pravednijim sistemima. Također ćemo vam dati uvid u to kako Syntho, vodeći igrač u generiranju sintetičkih podataka, može doprinijeti ovom naporu. Dakle, bilo da ste praktičar koji traži korisne uvide ili ste samo radoznali o ovoj temi, na pravom ste mjestu.

Pristrasnost na djelu: primjer iz stvarnog svijeta

Možda se pitate: „Ova pristrasnost u AI je sva važna, ali šta to znači za mene, za obične ljude?“ Istina je da je uticaj dalekosežan, često nevidljiv, ali moćan. Pristrasnost u AI nije puki akademski koncept; to je stvarni problem sa ozbiljnim posljedicama.

Uzmimo za primjer holandski skandal o dobrobiti djece. Automatizovani sistem, navodno alat stvoren da generiše poštene i efikasne rezultate uz minimalnu ljudsku intervenciju, bio je pristrasan. Pogrešno je označio hiljade roditelja zbog prevare na osnovu pogrešnih podataka i pretpostavki. Rezultat? Porodice bačene u nemir, oštećena lična reputacija i finansijske poteškoće, a sve to zbog predrasuda u AI sistemu. Upravo primjeri poput ovih ističu hitnost rješavanja pristrasnosti u AI.

Izvor: “Compensatie ouders toeslagenaffaire kan zomaar dot 2030 duren”, 2023. NOS

Ali nemojmo stati na tome. Ovaj incident nije izolovan slučaj pristrasnosti koja izaziva haos. Utjecaj pristranosti u AI proteže se na sve kutke naših života. Od toga ko se zapošljava za posao, kome se odobrava zajam, do toga ko prima kakvu vrstu lečenja – pristrasni sistemi veštačke inteligencije mogu produžiti postojeće nejednakosti i stvoriti nove.

Uzmite u obzir ovo: AI sistem obučen na pristrasnim istorijskim podacima mogao bi dobro kvalifikovanom kandidatu uskratiti posao samo zbog njegovog pola ili etničke pripadnosti. Ili bi pristrasan AI sistem mogao uskratiti zajam zaslužnom kandidatu zbog njegovog poštanskog broja. Ovo nisu samo hipotetički scenariji; dešavaju se upravo sada.

Specifične vrste pristranosti, kao što su historijska pristrasnost i pristrasnost mjerenja, dovode do takvih pogrešnih odluka. Oni su svojstveni podacima, duboko ukorijenjeni u društvenim predrasudama i odražavaju se u nejednakim ishodima među različitim demografskim grupama. Oni mogu iskriviti odluke prediktivnih modela i rezultirati nepravednim tretmanom.

U velikoj shemi stvari, pristrasnost u AI može djelovati kao tihi utjecajni faktor, suptilno oblikujući naše društvo i naše živote, često na načine na koje nismo ni svjesni. Sve ove gore navedene tačke mogu vas navesti da se zapitate zašto nisu preduzete radnje da se zaustavi, i da li je to uopšte moguće.

Zaista, s novim tehnološkim napretkom postaje sve dostupnije za rješavanje takvog problema. Međutim, prvi korak ka rješavanju ovog problema je razumijevanje i priznavanje njegovog postojanja i uticaja. Za sada je stvoreno priznanje o njegovom postojanju, pa je pitanje „razumijevanja“ još uvijek prilično nejasno.

Razumijevanje pristrasnosti

Dok je originalna definicija pristranosti predstavljena od Cambridge rječnik ne udalji se previše od glavne svrhe riječi jer se odnosi na umjetnu inteligenciju, može se napraviti mnogo različitih tumačenja čak i ove jedinstvene definicije. Taksonomije, kakve su predstavili istraživači kao npr Hellström i ostali (2020.) i Kliegr (2021), pružaju dublji uvid u definiciju pristrasnosti. Jednostavan pogled na ove radove otkrit će, međutim, da je potrebno veliko sužavanje definicije pojma da bi se problem efikasno riješio.

Iako se radi o promeni događaja, da bi se optimalno definisalo i prenelo značenje pristrasnosti, može se bolje definisati suprotnost, to je pravičnost.

Definisanje pravičnosti 

Kako je to definirano u raznim novijim literaturama kao npr Castelnovo i dr. (2022), pravednost se može elaborirati na osnovu razumijevanja pojma potencijalni prostor. Kako postoji, potencijalni prostor (PS) se odnosi na obim sposobnosti i znanja pojedinca bez obzira na njegovu pripadnost određenoj demografskoj grupi. S obzirom na ovu definiciju koncepta PS-a, lako se može definirati pravednost kao jednakost tretmana između dvije osobe jednakog PS-a, bez obzira na njihove vidljive i skrivene razlike u parametrima koji izazivaju pristrasnost (kao što su rasa, dob ili spol). Svako odstupanje od ove definicije, koja se naziva i Jednakost mogućnosti, jasan je pokazatelj pristrasnosti i zaslužuje dalju istragu.

Praktičari među čitaocima mogli bi primijetiti da bi postizanje nečega kako je ovdje definirano moglo biti potpuno nemoguće s obzirom na inherentne predrasude koje postoje u našem svijetu. To je istina! Svijet u kojem živimo, zajedno sa svim podacima prikupljenim iz događaja u ovom svijetu, podložan je mnogim historijskim i statističkim pristrasnostima. Ovo, zaista, umanjuje samopouzdanje da će se jednog dana potpuno ublažiti uticaji pristrasnosti na prediktivne modele obučene na takvim „pristrasnim“ podacima. Međutim, korištenjem različitih metoda može se pokušati minimizirati utjecaj pristranosti. Budući da je to slučaj, terminologija korištena u ostatku ovog(ih) postova na blogu će se pomjeriti prema ideji minimiziranja utjecaja pristrasnosti umjesto potpunog ublažavanja.

U redu! Dakle, sada kada je iznesena ideja o tome šta je pristrasnost i kako bi se potencijalno moglo proceniti njeno postojanje; Međutim, ako želimo da se pravilno pozabavimo problemom, moramo znati odakle sve te pristranosti potiču.

Razumijevanje izvora i tipova

Postojeća istraživanja pružaju vrijedan uvid u različite vrste predrasuda u mašinskom učenju. As Mehrabi et. al. (2019) nastavili sa podjelom predrasuda u mašinskom učenju, može se podijeliti pristrasnosti u 3 glavne kategorije. Naime one od:

Podaci u algoritam: kategorija koja obuhvata predrasude koje potiču od samih podataka. Može li to biti uzrokovano lošim prikupljanjem podataka, inherentnim predrasudama koje postoje u svijetu, itd.
Algoritam za korisnika: kategorija koja se fokusira na predrasude koje proizlaze iz dizajna i funkcionalnosti algoritama. Uključuje kako algoritmi mogu interpretirati, odmjeriti ili uzeti u obzir određene podatke u odnosu na druge, što može dovesti do pristrasnih ishoda.
Korisnik prema podacima: odnosi se na pristranosti koje proizlaze iz interakcije korisnika sa sistemom. Način na koji korisnici unose podatke, njihove inherentne predrasude ili čak njihovo povjerenje u sistemske izlaze mogu utjecati na ishode.

Slika 1: Vizualizacija CRISP-DM okvira za rudarenje podataka; obično se koristi u rudarenju podataka i relevantan je za proces identifikacije faza u kojima može doći do pojave pristrasnosti.

Iako su nazivi indikativni za oblik pristrasnosti, još uvijek se mogu postaviti pitanja o vrstama pristrasnosti koje bi se mogle kategorizirati pod ovim krovnim terminima. Za entuzijaste među našim čitaocima, dali smo linkove na literaturu koja se odnosi na ovu terminologiju i klasifikaciju. Radi jednostavnosti u ovom postu na blogu, pokriti ćemo nekoliko odabranih predrasuda koje su relevantne za situaciju (skoro sve su podaci kategorije za algoritam). Specifične vrste predrasuda su sljedeće:

Istorijska pristrasnost: Vrsta pristrasnosti svojstvena podacima uzrokovana prirodnim predrasudama koje postoje u svijetu u različitim društvenim grupama i društvu općenito. Upravo zbog inherentnosti ovih podataka u svijetu, oni se ne mogu ublažiti različitim sredstvima uzorkovanja i odabira karakteristika.
Pristrasnost mjerenja i predrasuda: Ove dvije blisko povezane pristranosti se javljaju kada različite podgrupe skupa podataka sadrže nejednake količine „povoljnih“ ishoda. Ova vrsta pristrasnosti stoga može iskriviti ishod prediktivnih modela
Algoritamska pristranost: Pristrasnost isključivo povezana sa algoritmom koji se koristi. Kao što je takođe primećeno u sprovedenim testovima (obrađeno dalje u postu), ova vrsta pristrasnosti može imati ogroman uticaj na pravednost datog algoritma.

Ova temeljna razumijevanja pristranosti u mašinskom učenju će se koristiti za efikasnije rješavanje problema u kasnijim objavama.

Final Thoughts

U ovom istraživanju pristranosti unutar umjetne inteligencije, rasvijetlili smo duboke implikacije koje ona ima u našem svijetu koji sve više vodi AI. Od primjera iz stvarnog svijeta poput holandskog skandala o dobrobiti djece do zamršenih nijansi kategorija i tipova pristrasnosti, očigledno je da je prepoznavanje i razumijevanje pristrasnosti najvažnije.

Iako su izazovi predrasuda – bilo da su istorijski, algoritamski ili izazvani korisnicima – značajni, nisu nepremostivi. Sa čvrstim razumijevanjem porijekla i manifestacija pristrasnosti, bolje smo opremljeni da ih riješimo. Međutim, prepoznavanje i razumijevanje su samo početne tačke.

Kako napredujemo u ovoj seriji, naš sljedeći fokus će biti na opipljivim alatima i okvirima koji su nam na raspolaganju. Kako mjerimo obim pristrasnosti u AI modelima? I što je još važnije, kako da minimiziramo njegov uticaj? Ovo su hitna pitanja u koja ćemo se u nastavku pozabaviti, kako bismo osigurali da kako AI nastavi da se razvija, to čini u smjeru koji je i pošten i efikasan.

Podaci su sintetički, ali naš tim je stvaran!

Kontaktirajte Syntho i jedan od naših stručnjaka će vas kontaktirati brzinom svjetlosti kako bi istražio vrijednost sintetičkih podataka!

Šta su sintetički podaci?

Izvještaj o osiguranju kvaliteta

Eksterna evaluacija od strane SAS-a

Sintetički podaci vremenskih serija

PII skener

Sintetički lažni podaci

Konzistentno mapiranje

Deidentifikacija i sintetizacija

Sintetički podaci zasnovani na pravilima

Podpostavka

Postavljanje i integracija

konektori

Proširene karakteristike

Podržani podaci

Korisnička dokumentacija

Zakažite demo

Cijene

Podaci ispitivanja

analitika

Dijeljenje podataka

Demo proizvoda

Monetizacija podataka

Zdravstvo

finansije

Javne organizacije

Korisnička dokumentacija

Bijeli papiri i vodiči

Blog

Webinari

studije slučaja

Cijene

O nama

Karijera

Neviđeni krivac AI: razotkrivanje pristranosti unutar

Serija blogova o pristrasnosti: 1. dio

Uvod

Pristrasnost na djelu: primjer iz stvarnog svijeta

Razumijevanje pristrasnosti

Definisanje pravičnosti

Razumijevanje izvora i tipova

Final Thoughts

Podaci su sintetički, ali naš tim je stvaran!

Glavni meni

Definisanje pravičnosti