AI's Unseen Culprit: Unraveling the Bias Within

Bias Blog Serie: Deel 1

Aféierung

An eiser Welt vun ëmmer méi kënschtlecher Formen vun Intelligenz, Maschinnen, déi Aufgab sinn komplex Entscheedungen ze treffen, ginn ëmmer méi heefeg. Et gëtt e wuessende Kierper vu Literatur, déi d'Benotzung vun AI an verschiddenen Domänen uginn, wéi Business, High-stake Entscheedungsprozess, an an de leschte Joren am medizinesche Secteur. Mat dëser wuessender Prävalenz hunn d'Leit awer betreffend Tendenzen an de genannte Systemer gemierkt; Dat ass, wärend se inherent entworf sinn fir reng Musteren an den Daten ze verfollegen, hunn se Unzeeche vu Viruerteeler gewisen, am Sënn datt verschidde sexistesch an diskriminatoresch Verhalen observéiert kënne ginn. Déi rezent Europäesch AI Gesetz, befaasst och d'Thema vun esou Viruerteeler zimlech extensiv a setzt e Fundament fir d'Problemer, déi domat verbonne sinn, unzegoen. 

Duerch d'Jore vun der technescher Dokumentatioun hunn d'Leit tendéiert de Begrëff "Bias" ze benotzen fir dës verréckt Aart vu Verhalen vis-à-vis vu bestëmmte Demographie ze beschreiwen; e Wuert deem seng Bedeitung variéiert, Duercherneen verursaacht an d'Aufgab komplizéiert et ze adresséieren.

Dësen Artikel ass deen éischten an enger Serie vu Blogposts déi d'Thema vu Bias decken. An dëser Serie ziele mir Iech e klore, verdaubare Verständnis vu Bias an AI ze ginn. Mir wäerte Weeër virstellen fir Bias ze moossen an ze minimiséieren an d'Roll vun syntheteschen Donnéeën op dësem Wee fir méi fair Systemer z'erkennen. Mir ginn Iech och e Bléck op wéi Syntho, e féierende Spiller an der synthetescher Dategeneratioun, zu dësem Effort bäidroe kann. Also, egal ob Dir e Praktiker sidd deen no handlungsfäeg Abléck sicht oder just virwëtzeg iwwer dëst Thema sidd, sidd Dir op der richteger Plaz.

Bias in Action: A Real-World Beispill

Dir kënnt Iech froen: "Dës Bias an AI ass alles wichteg, awer wat heescht et fir mech, fir normal Leit?" D'Wourecht ass, den Impakt ass wäitreegend, dacks onsichtbar awer potent. Bias an AI ass net nëmmen e akademescht Konzept; et ass e reelle Problem mat eeschte Konsequenzen.

Huelt den hollännesche Kannerschutzskandal als Beispill. Den automatiséierte System, vermeintlech e Tool erstallt fir fair an effizient Resultater mat minimalem mënschlechen Interventioun ze generéieren, war partiell. Et huet falsch Dausende vun Elteren fir Bedruch markéiert baséiert op fehlerhafter Donnéeën an Viraussetzungen. D'Resultat? Famillen an Onrou geworf, perséinleche Ruff beschiedegt, a finanziell Schwieregkeeten, alles wéinst Biases an engem AI System. Et sinn Beispiller wéi dës, déi d'Dréngendlechkeet vun der Adresséierung vun der Bias an der AI beliicht.

Leit protestéieren

Mee loosse mer net do ophalen. Dësen Tëschefall ass net en isoléierte Fall vu Viraussetzung, déi Verstouss dréit. Den Impakt vu Bias an AI erstreckt sech an all Ecker vun eisem Liewen. Vu wien fir eng Aarbecht agestallt gëtt, wien fir e Prêt guttgeheescht gëtt, bis wien wat fir eng medizinesch Behandlung kritt - biased AI Systemer kënnen existent Ongläichheeten daueren an nei kreéieren.

Bedenkt dëst: en AI System trainéiert op biaséiert historesch Donnéeën kéint e gutt qualifizéierte Kandidat eng Aarbecht verleegnen einfach wéinst hirem Geschlecht oder Ethnie. Oder e partizipativen AI System kéint e Prêt un e verdéngten Kandidat refuséieren wéinst hirem Postcode. Dëst sinn net nëmmen hypothetesch Szenarie; si geschéien grad elo.

Déi spezifesch Aarte vu Biases, wéi historesch Bias a Messungsbias, féieren zu sou fehlerhafte Entscheedungen. Si sinn inherent an den Donnéeën, déif a gesellschaftleche Biase verwuerzelt, a reflektéiert an den ongläiche Resultater tëscht verschiddenen demographesche Gruppen. Si kënnen d'Decisioune vu prévisive Modeller verschwannen an zu enger ongerechter Behandlung féieren.

Am grousse Schema vun de Saachen, Bias an AI kann als stille Influencer handelen, subtil eis Gesellschaft an eist Liewen formen, dacks op Weeër déi mir net emol realiséieren. All dës uewe genannte Punkte kënnen Iech op d'Fro stellen firwat net Aktioune gemaach gi fir ze stoppen, an ob et iwwerhaapt méiglech ass.

Tatsächlech, mat neien technologesche Fortschrëtter gëtt et ëmmer méi zougänglech fir sou Problem unzegoen. Den éischte Schrëtt fir dëse Problem unzegoen ass awer seng Existenz an Impakt ze verstoen an unerkennen. Fir de Moment ass d'Unerkennung vu senger Existenz geschaf ginn, wat d'Saach vum "Verstoe" nach ëmmer zimlech vague léisst. 

Bias verstoen

Wärend déi ursprénglech Definitioun vu Bias wéi presentéiert vum Cambridge Wierderbuch verschwënnt net ze wäit ewech vum Haaptzweck vum Wuert wéi et op AI bezitt, vill verschidden Interpretatioune solle vu souguer vun dëser eenzegaarteger Definitioun gemaach ginn. Taxonomien, wéi déi vun Fuerscher presentéiert wéi z Hellström et al (2020) an Kliegr (2021), liwweren méi déif Abléck an d'Definitioun vu Bias. En einfache Bléck op dës Pabeieren wäert awer verroden datt eng grouss Verengung vun der Definitioun vum Begrëff erfuerderlech ass fir de Problem effektiv unzegoen. 

Wärend e Changement vun Eventer ass, fir d'Bedeitung vun der Bias optimal ze definéieren an ze vermëttelen kann een de Géigendeel besser definéieren, dat ass Fairness. 

Fairness definéieren 

Wéi et a verschiddene rezenter Literatur definéiert ass wéi z Castelnovo et al. (2022), Fairness kann ausgeschafft ginn op e Verständnis vum Begrëff potenziell Raum. Wéi et existéiert, bezitt de Potenzialraum (PS) op d'Ausmooss vu Fäegkeeten a Wëssen vun engem Individuum onofhängeg vun hirem gehéiert zu enger bestëmmter demographescher Grupp. Gitt dës Definitioun vum Konzept vu PS, kann ee ganz einfach Fairness definéieren fir d'Gläichheet vun der Behandlung tëscht zwee Individuen mat gläiche PS ze sinn, onofhängeg vun hiren beobachtbaren a verstoppte Differenzen a Bias-induzéierende Parameteren (wéi Rass, Alter oder Geschlecht). All Diversioun vun dëser Definitioun, och genannt Chancegläichheet, ass eng kloer Indikatioun vu Bias a Verdéngschter weider Enquête.  

D'Praktiker ënner de Lieser kéinte bemierken datt eppes z'erreechen wéi hei definéiert ass komplett onméiglech ass wéinst den inherente Biases déi an eiser Welt existéieren. Dat ass wouer! D'Welt an där mir liewen, zesumme mat allen Donnéeën, déi aus Optriede vun dëser Welt gesammelt ginn, ënnerleien vill historeschen a statistesche Bias. Dëst verklengert tatsächlech d'Vertraue vun engem Dag voll d'Auswierkunge vu Bias op prévisiv Modeller ze reduzéieren, déi op sou "biaséiert" Daten trainéiert ginn. Wéi och ëmmer, duerch d'Benotzung vu verschiddene Methoden, kann ee probéieren d'Auswierkunge vu Bias ze minimiséieren. Dëst ass de Fall, d'Terminologie, déi am Rescht vun dësem Blogpost(en) benotzt gëtt, wäert sech op d'Iddi veränneren fir den Impakt vu Bias ze minimiséieren anstatt se komplett ze reduzéieren.

Okay! Also elo datt eng Iddi bruecht gouf vu wat Bias ass a wéi ee potenziell seng Existenz kéint evaluéieren; Wa mir de Problem awer richteg unzegoen wëllen, musse mer wëssen, wou all dës Biases hierkommen.

D'Quellen an d'Typen verstoen

Bestehend Fuerschung liwwert wäertvoll Abléck an déi verschidden Aarte vu Biases am Maschinnléieren. Wéi Mehrabi et al. al. (2019) weidergaange sinn Biases am Maschinnléieren opzedeelen, kann een Biases an 3 Haaptkategorien opdeelen. Nämlech déi vun:

  • Donnéeën zum Algorithmus: eng Kategorie déi Biases enthält, déi aus den Daten selwer stamen. Kann dat duerch schlecht Datesammlung verursaacht ginn, inherent Viraussetzungen, déi an der Welt existéieren, etc.
  • Algorithmus fir Benotzer: eng Kategorie konzentréiert sech op Biases déi aus dem Design a Funktionalitéit vun den Algorithmen staamen. Et enthält wéi Algorithmen verschidden Datepunkte iwwer anerer kënnen interpretéieren, weien oder betruechten, wat zu biased Resultater féieren kann.
  • Benotzer op Daten: bezitt sech op Biases déi entstinn aus der Benotzerinteraktioun mam System. D'Manéier wéi d'Benotzer Daten aginn, hir inherent Biases, oder souguer hiert Vertrauen an de Systemausgaben, kënnen d'Resultater beaflossen.
Grafik

Figur 1: Eng Visualiséierung vum CRISP-DM Kader fir Datemining; allgemeng am Datemining benotzt a relevant fir de Prozess fir d'Etappen z'identifizéieren an deenen Bias entstoen kann.

Wärend d'Nimm indikativ fir d'Form vu Bias sinn, kann een nach ëmmer Froen hunn iwwer d'Aarte vu Biases déi een ënner dëse Regenschirmbegrëffer kategoriséiere kann. Fir d'Enthusiaster ënnert eise Lieser hu mir Linken op e puer Literatur am Zesummenhang mat dëser Terminologie a Klassifikatioun geliwwert. Fir d'Einfachheet an dësem Blog Post wäerte mir e puer ausgewielt Biases decken déi relevant sinn fir d'Situatioun (bal all déi vun der Kategorie Daten zum Algorithmus sinn). Déi spezifesch Aarte vu Biases sinn wéi follegt:

  • Historesch Bias: Eng Aart vu Bias inherent zu den Donnéeën verursaacht duerch déi natierlech Biasen déi op der Welt existéieren a verschiddene soziale Gruppen a Gesellschaft am Allgemengen. Et ass wéinst der Inherenz vun dësen Donnéeën an der Welt datt se net duerch verschidde Probenmethoden a Feature Selektioun kënne reduzéiert ginn.
  • Miessung Bias & Representatioun Bias: Dës zwee enk verwandte Biases geschéien wann déi verschidde Ënnergruppen vun der Dataset ongläiche Quantitéiten un "gënschteg" Resultater enthalen. Dës Zort vu Viraussetzung kann also d'Resultat vu prévisive Modeller verschwannen
  • Algorithmesch Bias: Bias reng am Zesummenhang mam Algorithmus am Gebrauch. Wéi och observéiert an Tester lafen (weider ausgeschafft am Post), kann dës Zort vu Bias en enormen Effekt op d'Gerechtegkeet vun engem bestëmmten Algorithmus hunn.

Dës fundamental Verständnis vu Bias am Maschinnléiere wäerte benotzt ginn fir de Problem méi effektiv a spéider Posts unzegoen.

Finale Schied

An dëser Exploratioun vu Bias bannent kënschtlecher Intelligenz hu mir déi déifgräifend Implikatioune beliicht déi et an eiser ëmmer méi AI-driven Welt hält. Vun real-Welt Beispiller wéi den hollännesche Kannerbetreiungsskandal bis zu de komplizéierte Nuancen vu Biaskategorien an Typen, ass et evident datt d'Erkennung a Verständnis vu Bias wichteg ass.

Wärend d'Erausfuerderunge vu Biases stellen - egal ob se historesch, algorithmesch oder Benotzer-induzéiert sinn - bedeitend sinn, si sinn net oniwwergänglech. Mat engem festen Grëff op d'Origine an d'Manifestatiounen vu Bias, si mir besser ausgestatt fir se unzegoen. Wéi och ëmmer, Unerkennung a Verständnis si just d'Ausgangspunkte.

Wéi mir an dëser Serie viru goen, wäert eisen nächste Fokus op déi konkret Tools a Kaderen sinn, déi eis zur Verfügung stinn. Wéi moosse mir d'Ausmooss vu Bias an AI Modeller? A méi wichteg, wéi miniméiere mir hiren Impakt? Dëst sinn déi dréngend Froen, déi mir nächst wäerte verdéiwen, fir sécherzestellen datt wéi AI sech weider entwéckelt, et an eng Richtung mécht, déi souwuel fair a performant ass.

Grupp vu Leit laachen

Daten sinn synthetesch, awer eis Team ass real!

Kontakt Syntho an ee vun eisen Experten wäert Iech mat der Liichtgeschwindegkeet kontaktéieren fir de Wäert vun syntheteschen Daten ze entdecken!