AI's Unseen Culprit: Unraveling the Bias Within

Bias-bloggserie: del 1

Introduksjon

I vår verden av stadig mer kunstige former for intelligens, blir maskiner som har i oppgave å ta komplekse beslutninger mer og mer utbredt. Det er en voksende mengde litteratur som indikerer bruken av kunstig intelligens i ulike domener som Business, beslutningstaking med høy innsats og i løpet av de siste årene i medisinsk sektor. Med denne økende prevalensen har folk imidlertid lagt merke til tendenser i nevnte systemer; Det vil si, mens de iboende er utformet for å kun følge mønstre i dataene, har de vist tegn på fordommer, i den forstand at ulike sexistisk og diskriminerende atferd kan observeres. Den siste European AI Act, dekker også spørsmålet om slike fordommer ganske omfattende og legger et grunnlag for å takle problemer knyttet til det. 

Gjennom årene med teknisk dokumentasjon har folk hatt en tendens til å bruke begrepet "bias" for å beskrive denne skjeve typen oppførsel mot visse demografiske grupper; et ord hvis betydning varierer, forårsaker forvirring og kompliserer oppgaven med å adressere det.

Denne artikkelen er den første i en serie blogginnlegg som dekker temaet skjevhet. I denne serien tar vi sikte på å gi deg en klar, fordøyelig forståelse av skjevhet i AI. Vi vil introdusere måter å måle og minimere skjevheter og utforske rollen til syntetiske data i denne veien til mer rettferdige systemer. Vi vil også gi deg et innblikk i hvordan Syntho, en ledende aktør innen syntetisk datagenerering, kan bidra til denne innsatsen. Så enten du er en utøver som leter etter praktisk innsikt eller bare er nysgjerrig på dette emnet, er du på rett sted.

Bias in Action: Et eksempel fra den virkelige verden

Du lurer kanskje på: "Denne skjevheten i AI er viktig, men hva betyr det for meg, for vanlige mennesker?" Sannheten er at virkningen er vidtrekkende, ofte usynlig, men potent. Bias i AI er ikke bare et akademisk konsept; det er et problem i den virkelige verden med alvorlige konsekvenser.

Ta den nederlandske barnevernskandalen som et eksempel. Det automatiserte systemet, visstnok et verktøy laget for å generere rettferdige og effektive resultater med minimal menneskelig innblanding, var partisk. Den flagget feilaktig tusenvis av foreldre for svindel basert på feil data og forutsetninger. Resultatet? Familier kastet ut i uro, skadet personlig rykte og økonomiske vanskeligheter, alt på grunn av skjevheter i et AI-system. Det er eksempler som disse som fremhever hvor viktig det er å ta opp skjevhet i AI.

folk som protesterer

Men la oss ikke stoppe der. Denne hendelsen er ikke et isolert tilfelle av skjevhet som skaper kaos. Virkningen av skjevhet i AI strekker seg til alle hjørner av livet vårt. Fra hvem som blir ansatt i en jobb, hvem som får godkjent et lån, til hvem som får hva slags medisinsk behandling – partiske AI-systemer kan opprettholde eksisterende ulikheter og skape nye.

Tenk på dette: et AI-system trent på partiske historiske data kan nekte en velkvalifisert kandidat en jobb bare på grunn av deres kjønn eller etnisitet. Eller et partisk AI-system kan nekte et lån til en fortjent kandidat på grunn av postnummeret deres. Dette er ikke bare hypotetiske scenarier; de skjer akkurat nå.

De spesifikke typene skjevheter, som historisk skjevhet og måleskjevhet, fører til slike feilaktige beslutninger. De er iboende i dataene, dypt forankret i samfunnsmessige skjevheter og gjenspeiles i ulik utfall blant ulike demografiske grupper. De kan skjeve avgjørelsene til prediktive modeller og resultere i urettferdig behandling.

I den store sammenhengen kan skjevhet i AI fungere som en stille influencer, og subtilt forme samfunnet vårt og livene våre, ofte på måter vi ikke engang er klar over. Alle disse punktene ovenfor kan føre til at du spør hvorfor det ikke er iverksatt tiltak for å stoppe, og om det i det hele tatt er mulig.

Faktisk, med nye teknologiske fremskritt blir det stadig mer tilgjengelig for å takle slike problemer. Det første trinnet for å løse dette problemet er imidlertid å forstå og erkjenne dets eksistens og virkning. Foreløpig har erkjennelsen av dens eksistens blitt opprettet, noe som gjør at spørsmålet om "forståelse" fortsatt er ganske vagt. 

Forstå Bias

Mens den opprinnelige definisjonen av skjevhet som presentert av Cambridge ordbok ikke går for langt unna hovedformålet med ordet når det gjelder AI, må mange forskjellige tolkninger gjøres av selv denne enestående definisjonen. Taksonomier, som de som presenteres av forskere som f.eks Hellström et al (2020) og Kliegr (2021), gi dypere innsikt i definisjonen av skjevhet. Et enkelt blikk på disse papirene vil imidlertid avsløre at en stor innsnevring av definisjonen av begrepet er nødvendig for å effektivt takle problemet. 

Selv om det er en endring av hendelser, for å optimalt definere og formidle betydningen av skjevhet kan man bedre definere det motsatte, det er rettferdighet. 

Definere rettferdighet 

Slik det er definert i diverse nyere litteratur som f.eks Castelnovo et al. (2022), kan rettferdighet utdypes gitt en forståelse av begrepet potensielt rom. Som det eksisterer, refererer potensielt rom (PS) til omfanget av evner og kunnskap til et individ uavhengig av deres tilhørighet til en viss demografisk gruppe. Gitt denne definisjonen av begrepet PS, kan man enkelt definere rettferdighet til å være likebehandling mellom to individer med lik PS, uavhengig av deres observerbare og skjulte forskjeller i skjevhetsinduserende parametere (som rase, alder eller kjønn). Enhver avledning fra denne definisjonen, også kalt Equality of Opportunities, er en klar indikasjon på skjevhet og fortjener videre etterforskning.  

Utøverne blant leserne vil kanskje legge merke til at å oppnå noe som definert her kan være helt umulig gitt de iboende skjevhetene som eksisterer i vår verden. Det er sant! Verden vi lever i, sammen med alle data som er samlet inn fra hendelser i denne verden, er gjenstand for mye historisk og statistisk skjevhet. Dette reduserer faktisk tilliten til en dag å dempe virkningene av skjevhet på prediktive modeller som er trent på slike "partiske" data. Gjennom bruk av ulike metoder kan man imidlertid prøve å minimere virkningene av skjevhet. Når dette er tilfelle, vil terminologien som brukes i resten av dette blogginnlegget(e) skifte mot ideen om å minimere virkningen av skjevhet i stedet for å dempe den fullstendig.

Greit! Så nå som en idé har blitt brakt frem om hva skjevhet er og hvordan man potensielt kan evaluere dens eksistens; Hvis vi ønsker å takle problemet riktig, må vi imidlertid vite hvor alle disse skjevhetene kommer fra.

Forstå kildene og typene

Eksisterende forskning gir verdifull innsikt i ulike typer skjevheter innen maskinlæring. Som Mehrabi et. al. (2019) har gått videre med å dele skjevheter i maskinlæring, kan man dele skjevheter inn i 3 hovedkategorier. Nemlig de av:

  • Data til algoritme: en kategori som omfatter skjevheter som stammer fra selve dataene. Kan det være forårsaket av dårlig datainnsamling, iboende skjevheter som eksisterer i verden, etc.
  • Algoritme til bruker: en kategori som fokuserer på skjevheter som stammer fra utformingen og funksjonaliteten til algoritmene. Det inkluderer hvordan algoritmer kan tolke, veie eller vurdere visse datapunkter fremfor andre, noe som kan føre til partiske utfall.
  • Bruker til data: gjelder skjevheter som oppstår fra brukerinteraksjon med systemet. Måten brukere legger inn data på, deres iboende skjevheter, eller til og med deres tillit til systemutdata, kan påvirke resultatene.
graf

Figur 1: En visualisering av CRISP-DM-rammeverket for datautvinning; ofte brukt i datautvinning og relevant for prosessen med å identifisere stadiene der skjevhet kan oppstå.

Selv om navnene er en indikasjon på formen for skjevhet, kan man fortsatt ha spørsmål om hvilke typer skjevheter man kan kategorisere under disse paraplybegrepene. For entusiastene blant leserne våre har vi gitt lenker til noe litteratur relatert til denne terminologien og klassifiseringen. For enkelhets skyld i dette blogginnlegget vil vi dekke noen få utvalgte skjevheter som er relevante for situasjonen (nesten alle er av kategorien data til algoritme). De spesifikke typene skjevheter er som følger:

  • Historisk skjevhet: En type skjevhet som er iboende for dataene forårsaket av de naturlige skjevhetene som eksisterer i verden i forskjellige sosiale grupper og samfunnet generelt. Det er på grunn av iboelsen til disse dataene i verden at de ikke kan reduseres gjennom ulike metoder for prøvetaking og funksjonsvalg.
  • Målingsskjevhet og representasjonsskjevhet: Disse to nært beslektede skjevhetene oppstår når de forskjellige undergruppene av datasettet inneholder ulik mengde "gunstige" utfall. Denne typen skjevhet kan derfor skjeve utfallet av prediktive modeller
  • Algoritmisk skjevhet: Bias som kun er relatert til algoritmen som er i bruk. Som også observert i tester som er kjørt (utdypet videre i innlegget), kan denne typen skjevhet ha en enorm effekt på rettferdigheten til en gitt algoritme.

Disse grunnleggende forståelsene av skjevhet i maskinlæring vil bli brukt for å takle problemet mer effektivt i senere innlegg.

Final Thoughts

I denne utforskningen av skjevhet innen kunstig intelligens, har vi belyst de dyptgripende implikasjonene det har i vår stadig mer AI-drevne verden. Fra eksempler fra den virkelige verden som den nederlandske barnevernskandalen til de intrikate nyansene av biaskategorier og typer, er det tydelig at det er viktig å gjenkjenne og forstå skjevhet.

Selv om utfordringene som følger av skjevheter – enten de er historiske, algoritmiske eller brukerinduserte – er betydelige, er de ikke uoverkommelige. Med et godt grep om opprinnelsen og manifestasjonene av skjevhet, er vi bedre rustet til å håndtere dem. Men anerkjennelse og forståelse er bare utgangspunktet.

Når vi går videre i denne serien, vil vårt neste fokus være på de håndgripelige verktøyene og rammene vi har til rådighet. Hvordan måler vi omfanget av skjevhet i AI-modeller? Og enda viktigere, hvordan minimerer vi effekten? Dette er de presserende spørsmålene vi skal fordype oss i neste gang, for å sikre at etter hvert som AI fortsetter å utvikle seg, gjør den det i en retning som er både rettferdig og presterende.

gruppe mennesker som smiler

Data er syntetiske, men teamet vårt er ekte!

Kontakt Syntho og en av våre eksperter vil kontakte deg med lysets hastighet for å utforske verdien av syntetiske data!