KI se ongesiene skuldige: die vooroordeel binne ontrafel

Bias blog reeks: deel 1

Inleiding

In ons wêreld van toenemend kunsmatige vorme van intelligensie, word masjiene wat die taak het om komplekse besluite te neem al hoe meer algemeen. Daar is 'n groeiende hoeveelheid literatuur wat die gebruik van KI in verskeie domeine aandui, soos besigheid, besluitneming met 'n hoë belang, en oor die afgelope paar jaar in die mediese sektor. Met hierdie groeiende voorkoms het mense egter opgemerk aangaande neigings in genoemde stelsels; Dit wil sê, hoewel dit inherent ontwerp is om suiwer patrone in die data te volg, het hulle tekens van vooroordeel getoon, in die sin dat verskeie seksistiese en diskriminerende gedrag waargeneem kan word. Die onlangse Europese KI-wet, dek ook die kwessie van sulke vooroordeel taamlik breedvoerig en lê 'n grondslag vir die aanpak van probleme wat daarmee gepaard gaan. 

Deur die jare van tegniese dokumentasie was mense geneig om die term “vooroordeel” te gebruik om hierdie skewe tipe gedrag teenoor sekere demografie te beskryf; 'n woord waarvan die betekenis verskil, wat verwarring veroorsaak en die taak om dit aan te spreek bemoeilik.

Hierdie artikel is die eerste in 'n reeks blogplasings wat die onderwerp van vooroordeel dek. In hierdie reeks sal ons poog om jou 'n duidelike, verteerbare begrip van vooroordeel in KI te gee. Ons sal maniere bekendstel om vooroordeel te meet en te minimaliseer en die rol van sintetiese data in hierdie pad na meer regverdige stelsels te ondersoek. Ons sal jou ook 'n kykie gee in hoe Syntho, 'n toonaangewende speler in sintetiese datagenerering, tot hierdie poging kan bydra. Dus, of jy nou 'n praktisyn is wat op soek is na bruikbare insigte of net nuuskierig is oor hierdie onderwerp, jy is op die regte plek.

Vooroordeel in aksie: 'n werklike wêreld voorbeeld

Jy mag dalk wonder, "Hierdie vooroordeel in KI is alles belangrik, maar wat beteken dit vir my, vir gewone mense?" Die waarheid is dat die impak verreikend is, dikwels onsigbaar maar kragtig. Vooroordeel in KI is nie 'n blote akademiese konsep nie; dit is 'n werklike probleem met ernstige gevolge.

Neem die Nederlandse kinderwelsynskandaal as voorbeeld. Die outomatiese stelsel, vermoedelik 'n instrument wat geskep is om billike en doeltreffende resultate met minimale menslike ingryping te genereer, was bevooroordeeld. Dit het verkeerdelik duisende ouers gevlag vir bedrog op grond van gebrekkige data en aannames. Die resultaat? Gesinne wat in onrus gegooi is, persoonlike reputasies beskadig en finansiële swaarkry, alles as gevolg van vooroordele in 'n KI-stelsel. Dit is voorbeelde soos hierdie wat die dringendheid beklemtoon om vooroordeel in KI aan te spreek.

mense wat betoog

Maar laat ons nie daar stop nie. Hierdie voorval is nie 'n geïsoleerde geval van vooroordeel wat verwoesting saai nie. Die impak van vooroordeel in KI strek tot alle uithoeke van ons lewens. Van wie vir 'n werk aangestel word, wie vir 'n lening goedgekeur word, tot wie watter soort mediese behandeling ontvang – bevooroordeelde KI-stelsels kan bestaande ongelykhede voortduur en nuwes skep.

Oorweeg dit: 'n KI-stelsel wat op bevooroordeelde historiese data opgelei is, kan 'n goed gekwalifiseerde kandidaat 'n werk ontsê bloot vanweë hul geslag of etnisiteit. Of 'n bevooroordeelde KI-stelsel kan 'n lening aan 'n verdienstelike kandidaat weier weens hul poskode. Dit is nie net hipotetiese scenario's nie; hulle gebeur op die oomblik.

Die spesifieke tipes vooroordele, soos historiese vooroordeel en metingsvooroordeel, lei tot sulke gebrekkige besluite. Hulle is inherent aan die data, diep gewortel in sosiale vooroordele, en weerspieël in die ongelyke uitkomste onder verskillende demografiese groepe. Hulle kan die besluite van voorspellende modelle skeeftrek en onbillike behandeling tot gevolg hê.

In die groot skema van dinge kan vooroordeel in KI as 'n stille beïnvloeder optree, wat ons samelewing en ons lewens subtiel vorm, dikwels op maniere wat ons nie eers besef nie. Al hierdie bogenoemde punte kan jou dalk laat bevraagteken hoekom is daar nie stappe gedoen om te stop nie, en of dit selfs moontlik is.

Inderdaad, met nuwe tegnologiese vooruitgang word dit al hoe meer toeganklik om so 'n probleem aan te pak. Die eerste stap om hierdie probleem aan te spreek, is egter om die bestaan ​​en impak daarvan te verstaan ​​en te erken. Vir nou is die erkenning van die bestaan ​​daarvan geskep, wat die saak van "verstaan" nog redelik vaag laat. 

Begrip van vooroordeel

Terwyl die oorspronklike definisie van vooroordeel soos aangebied deur die Cambridge woordeboek nie te ver wegdwaal van die hoofdoel van die woord soos dit met KI verband hou nie, moet baie verskillende interpretasies gemaak word van selfs hierdie enkelvoudige definisie. Taksonomieë, soos dié wat deur navorsers aangebied word soos Hellström et al (2020) en Kliegr (2021), verskaf dieper insigte in die definisie van vooroordeel. 'n Eenvoudige blik op hierdie vraestelle sal egter aan die lig bring dat 'n groot verskraling van die definisie van die term nodig is om die probleem doeltreffend aan te pak. 

Alhoewel dit 'n verandering van gebeure is, kan 'n mens die teenoorgestelde beter definieer om die betekenis van vooroordeel optimaal te definieer en oor te dra, dit is Billikheid. 

Definieer regverdigheid 

Soos dit in verskeie onlangse literatuur gedefinieer word soos Castelnovo et al. (2022), billikheid kan uitgebrei word op gegewe 'n begrip van die term potensiële ruimte. Soos dit bestaan, verwys potensiële ruimte (PS) na die omvang van vermoëns en kennis van 'n individu ongeag of hulle aan 'n sekere demografiese groep behoort. Gegewe hierdie definisie van die konsep van PS, kan 'n mens maklik regverdigheid definieer as die gelykheid van behandeling tussen twee individue van gelyke PS, ongeag hul waarneembare en verborge verskille in vooroordeel-induserende parameters (soos ras, ouderdom of geslag). Enige afleiding van hierdie definisie, ook genoem Gelykheid van geleenthede, is 'n duidelike aanduiding van vooroordeel en verdien verdere ondersoek.  

Die praktisyns onder die lesers sal dalk agterkom dat die bereiking van iets soos hier gedefinieer heeltemal onmoontlik kan wees gegewe die inherente vooroordele wat in ons wêreld bestaan. Dit is waar! Die wêreld waarin ons leef, tesame met alle data wat van gebeurtenisse in hierdie wêreld versamel is, is onderhewig aan baie historiese en statistiese vooroordeel. Dit verminder inderdaad die vertroue om eendag die impak van vooroordeel op voorspellende modelle wat op sulke "bevooroordeelde" data opgelei is, ten volle te versag. Deur die gebruik van verskeie metodes kan mens egter probeer om die impak van vooroordeel te minimaliseer. As dit die geval is, sal die terminologie wat in die res van hierdie blogplasing(s) gebruik word, verskuif na die idee om die impak van vooroordeel te minimaliseer eerder as om dit ten volle te versag.

Goed! So nou dat 'n idee na vore gebring is van wat vooroordeel is en hoe 'n mens moontlik die bestaan ​​daarvan kan evalueer; As ons egter die probleem behoorlik wil aanpak, moet ons weet waar al hierdie vooroordele vandaan kom.

Verstaan ​​die bronne en tipes

Bestaande navorsing verskaf waardevolle insigte in die verskillende tipes vooroordele in masjienleer. Soos Mehrabi et. al. (2019) voortgegaan het om vooroordele in masjienleer te verdeel, kan 'n mens vooroordele in 3 hoofkategorieë verdeel. Naamlik dié van:

  • Data na Algoritme: 'n kategorie wat vooroordele omsluit wat uit die data self ontstaan. Kan dit veroorsaak word deur swak data-insameling, inherente vooroordele wat in die wêreld bestaan, ens.
  • Algoritme na gebruiker: 'n kategorie wat fokus op vooroordele wat voortspruit uit die ontwerp en funksionaliteit van die algoritmes. Dit sluit in hoe algoritmes sekere datapunte oor ander kan interpreteer, weeg of oorweeg, wat tot bevooroordeelde uitkomste kan lei.
  • Gebruiker tot data: het betrekking op vooroordele wat ontstaan ​​uit gebruikersinteraksie met die stelsel. Die wyse waarop gebruikers data invoer, hul inherente vooroordele, of selfs hul vertroue in stelseluitsette kan uitkomste beïnvloed.
grafiek

Figuur 1: 'n Visualisering van die CRISP-DM-raamwerk vir data-ontginning; algemeen gebruik in data-ontginning en relevant vir die proses om die stadiums te identifiseer waarin vooroordeel kan ontstaan.

Alhoewel die name 'n aanduiding is van die vorm van vooroordeel, kan 'n mens dalk steeds vrae hê oor die tipe vooroordele wat 'n mens onder hierdie sambreelterme kan kategoriseer. Vir die entoesiaste onder ons lesers het ons skakels verskaf na sommige literatuur wat met hierdie terminologie en klassifikasie verband hou. Ter wille van eenvoud in hierdie blogpos, sal ons 'n paar uitgesoekte vooroordele dek wat relevant is vir die situasie (byna almal van die kategorie data tot algoritme). Die spesifieke tipes vooroordele is soos volg:

  • Historiese vooroordeel: 'n Tipe vooroordeel inherent aan die data wat veroorsaak word deur die natuurlike vooroordele wat in die wêreld bestaan ​​in verskillende sosiale groepe en die samelewing in die algemeen. Dit is as gevolg van die inherentheid van hierdie data in die wêreld dat dit nie versag kan word deur verskeie maniere van steekproefneming en kenmerkseleksie nie.
  • Metingsvooroordeel en voorstellingsvooroordeel: Hierdie twee nouverwante vooroordele vind plaas wanneer die verskillende subgroepe van die datastel ongelyke hoeveelhede "gunstige" uitkomste bevat. Hierdie tipe vooroordeel kan dus die uitkoms van voorspellende modelle skeeftrek
  • Algoritmiese vooroordeel: Vooroordeel wat suiwer verband hou met die algoritme wat gebruik word. Soos ook waargeneem in toetse wat uitgevoer is (verder uitgebrei in die pos), kan hierdie tipe vooroordeel 'n geweldige uitwerking hê op die regverdigheid van 'n gegewe algoritme.

Hierdie grondliggende begrip van vooroordeel in masjienleer sal gebruik word om die probleem meer effektief in latere plasings aan te pak.

Harde Gedagtes

In hierdie verkenning van vooroordeel binne kunsmatige intelligensie, het ons die diepgaande implikasies wat dit inhou in ons toenemend KI-gedrewe wêreld belig. Van werklike voorbeelde soos die Nederlandse kinderwelsynskandaal tot die ingewikkelde nuanses van vooroordeelkategorieë en -tipes, is dit duidelik dat die erkenning en begrip van vooroordeel uiters belangrik is.

Alhoewel die uitdagings wat deur vooroordele gestel word - of dit histories, algoritmies of gebruikergeïnduseerd is - beduidend is, is dit nie onoorkombaar nie. Met 'n stewige greep op die oorsprong en manifestasies van vooroordeel, is ons beter toegerus om dit aan te spreek. Erkenning en begrip is egter net die beginpunte.

Soos ons vorentoe beweeg in hierdie reeks, sal ons volgende fokus op die tasbare gereedskap en raamwerke tot ons beskikking wees. Hoe meet ons die mate van vooroordeel in KI-modelle? En nog belangriker, hoe verminder ons die impak daarvan? Dit is die dringende vrae waarin ons volgende sal delf, om te verseker dat namate KI voortgaan om te ontwikkel, dit dit doen in 'n rigting wat beide regverdig en presteer.

groep mense wat glimlag

Data is sinteties, maar ons span is werklik!

Kontak Syntho en een van ons kundiges sal met u in verbinding tree met die spoed van lig om die waarde van sintetiese data te ondersoek!