Kunstig intelligens skal renses for fordomme

Af Stig Andersen

Med den udbredte anvendelse af kunstig intelligens følger en række etiske og juridiske problemstillinger. Bias – indbyggede fordomme og negative stereotyper – i løsninger anvendt til profilering og såkaldt predictive modeling er en af dem. I dag anvendes den type løsninger blandt andet i forbindelse med kreditvurderinger, risikovurderinger i forbindelse med tegning af forsikringer og produktanbefalinger.

Anvendelserne har flere gange udløst en heftig offentlig debat. Det gjaldt ikke mindst for løsningen Correctional Offender Management Profiling for Alternative Sanctions (COMPAS), som bliver anvendt i retssale og fængsler i en række amerikanske stater til at forudsige risikoen for, at en sigtet eller fængslet person vil begå ny kriminalitet. Risikovurderingen bliver brugt til mange forskellige formål, blandt andet fastsættelse af kaution, valg af rehabilitering eller alternative straffe, prøveløsladelser og strafudmåling.

I et studie udført i 2016 af det uafhængige medie ProPublica på data fra Broward County, Florida, blev COMPAS kritiseret for at have bias i forhold til sorte. Eksempelvis påviste studiet, at sorte dobbelt så mange gange som hvide blev udpeget som fremtidige kriminelle, uden at de rent faktisk begik ny kriminalitet. Studiet påviste også, at en høj score i risikovurderingen i en række konkrete sager havde bidraget til skærpede straffe. Studiet udløste en større debat, hvor nogle af ProPublica’s præmisser og konklusioner blev udfordret, men det illustrerede under alle omstændigheder nogle vigtige problemstillinger i forhold til bias. Mere om det senere.

Mange eksempler på bias
Der findes en række andre eksempler på bias. Et meget uheldigt tilfælde var Google Photo’s billedgenkendelses-algoritme, der klassificerede sorte på billederne som gorillaer. Det skabte også voldsom furore, da en artikel i The Economist i september 2017 omtalte et studie af psykolog Michal Kosinki, Stanford University, hvori han hævede, at kunstig intelligens anvendt til ansigtsgenkendelse med stor træfsikkerhed kan identificere en persons seksuelle orientering.

Og i den lidt mere kuriøse afdeling: Nikon’s kamera software, der tjekker, om personer på billedet blinker, gav meldingen ”Did someone blink?” i rigtig mange tilfælde, hvor der var asiater på billedet. Og hvis man bruger Google Translate til at oversætte sætningerne ”She is a doctor” og ”He is a nurse” til et sprog som tyrkisk, hvor man ikke har et kønsspecifikt grundled i sætningen, og så oversætter tilbage igen til engelsk, så vil Google Translate konsekvent returnere ”He is a doctor” og ”She is a nurse”.

Domæneviden om inputdata og en præcis definition af retfærdighed som redskab til at identificere bias er vigtige faktorer, forklarer Niklas Kasenburg, machine learning specialist, Alexandra Instituttet

Domæneviden om data
Ifølge Niklas Kasenburg, machine learning specialist, Alexandra Instituttet, er forskningen i bias inden for kunstig intelligens – eller mere præcist machine learning — og hvordan man undgår det, stadig i sin vorden. Én kilde til bias er dog ikke til diskussion. For at kunne identificere potentiel bias, skal man have detaljeret viden om, hvordan inputdata er blevet indsamlet.

”Det er vigtigt at have domæneviden om og forståelse for selve dataindsamlingen, så man kan sikre sig, at data er repræsentative. For hvis der allerede i datagrundlaget er indbyggede skævheder, får man et upålideligt resultat,” forklarer Niklas Kasenburg og fortsætter:
”Det er ligeledes vigtigt, at man på forhånd har defineret hvilket retfærdighedsbegreb, som modellerne skal holdes op imod. Ellers har man ikke mulighed for at identificere bias i den specifikke sammenhæng.”

Eksemplet kunne være kreditvurdering i forhold til långivning. Betyder retfærdighed, at lige mange i de grupper eller kategorier, man arbejder med, får bevilliget lån. Eller er retfærdighed, at lige mange personer fra alle kategorier får bevilliget lån, hvis sandsynligheden for, at de betaler lånet tilbage, er den samme.

Og her vender vi så tilbage til COMPAS-eksemplet, hvor der ifølge ProPublica’s studie var problemer både i forhold til indsamlingen af data og definitionen af retfærdighed.
Den daværende leverandør af løsningen, Northpointe, påpegede helt korrekt, at dataene fra Broward County viste, at inden for de to risikokategorier low og medium/high var andelen af henholdsvis sorte og hvide, der begik ny kriminalitet, omtrent den samme. Dermed mente man at kunne konkludere, at COMPAS var retfærdigt.

Det retfærdighedsbegreb købte ProPublica og andre kritikere af COMPAS dog ikke, da sorte i højere grad end hvide i det hele taget blev klassificeret som tilhørende risikogruppen medium/high (58 vs 33 procent). Så den indbyggede uretfærdighed lå i selve klassifikationen og dermed placeringen i risikogrupperne.

Northpointe og senere ejere af produktet har aldrig offentliggjort algoritmerne i COMPAS, men man ved, at race ikke indgår i inputdata. Det gør til gengæld tidligere arrestationer, og da sorte sigtede og fængslede rent faktisk oftere tidligere er blevet arresteret end hvide, påvirker det risikovurderingen. Så hvis politiet for eksempel patruljerer mere i sorte bydele og sorte måske blandt andet derfor oftere bliver arresteret end hvide, så vil den skævhed via inputdata blive båret med ind i løsningen – eller som kritikere vil sige: Menneskelig bias bliver transformeret til maskin-bias.

COMPAS-casen illustrerer således også, at man ikke kan løse bias-problemet ved blot at undlade at tage en information som race med i inputdata.
”Specielt i løsninger med dybe neurale netværk, vil der ofte være uigennemskuelige korrelationer mellem andre parametre, der indirekte indikerer eksempelvis race, selvom race ikke er inkluderet som selvstændig parameter,” forklarer Niklas Kasenburg.

Gode råd
Fokus på datakvalitet og definition af retfærdighedsbegrebet er altså centrale overvejelser for brugere af løsninger, der anvender machine learning til predictive modelling. Der findes derudover en række andre gode bud på, hvordan man kan forsøge at undgå bias. Det helt overordnede og gennemgående råd er overhovedet at være opmærksom på problemstillingen med bias. Det betyder blandt andet, at man skal stille kritiske spørgsmål til leverandørerne og forsøge at få en forståelse af de begrænsninger, der måtte være i løsningen. Det skal blandt andet tjene til, at man undgår at sætte machine learning-løsningen til at besvare spørgsmål, hvor der vil være stor risiko for bias i resultaterne.

Det bliver også ofte fremhævet, at bare fordi vi har at gøre med intelligente automatiserede løsninger, så betyder det ikke, at de kan køre løs uden menneskelig indgriben. I en artikel fra 2017 betegner Tobias Baer og Vishnu Kamalnathis fra konsulentfirmaet McKinsey&Company det som en af de farligste myter i forhold til machine learning og skriver videre:
”Business users would do better to view the application of machine-learning algorithms like the creation and tending of a garden. Much human oversight is needed. Experts with deep machine-learning knowledge and good business judgment are like experienced gardeners, carefully nurturing the plants to encourage their organic growth. The data scientist knows that in machine learning the answers can be useful only if we ask the right questions.”

Er modellen retfærdig?
Bias kan også ligge på et dybere, teknisk niveau, eksempelvis i den machine learning-model, som anvendes i løsningen. For at finde ud af, om en model er biased, er der i princippet to muligheder ifølge Niklas Kasenburg:
”Enten kender man og kan gennemskue modellen i alle detaljer, hvilket ofte er umuligt, specielt hvis modellen er bare lidt avanceret. Eller også kigger man på de resulterende data og undersøger, hvilke parametre i inputdata, der påvirker resultatet mest,” forklarer han.

Det sidste er reelt et forsøg på at vurdere, hvor retfærdig modellen er og er det område, som forskningen ifølge Niklas Kasenburg i øjeblikket har fokus på. Et centralt begreb i den forbindelse er såkaldte counter factuals. Her vælger man et specifikt dataeksempel – et datapunkt – og finder det nærmeste datapunkt, som fik en anden klassifikation, f.eks. ”Ja” i stedet for ”Nej”. Derefter undersøger man systematisk, hvilke parametre i inputdata, der skal skrues på, før man får samme resultat for begge datapunkter. Nogle af de store spillere inden for machine learning er faktisk begyndt at stille værktøjer til rådighed til at tjekke machine learning-modellen ved hjælp af counter factuals. Et eksempel er Google’s What-If tool, som giver mulighed for at få evalueret en model uden at skrive kodelinher og få en visuel præsentation af resultatet.

Retningslinjer på vej
Der arbejdes også på politisk plan for at forsøge at få producenter af løsninger, der inkluderer kunstig intelligens, til at overholde en række grundlæggende dataetiske principper. Som en del af EU-Kommissionens handlingsplan for kunstig intelligens, som blev offentliggjort den 7. december 2018, er der således nedsat et ekspertudvalg, der skal udarbejde retningslinjer, der baserer sig på EU’s charter om grundlæggende rettigheder og principperne for databeskyttelse og gennemsigtighed. Den endelig udgave af retningslinjer er planlagt til offentliggørelse i marts 2019 i regi af The Euopean AI Alliance.

Herhjemme arbejdes der også på sagen. SIRI-kommissionen, der blev nedsat i 2016 på initiativ af Ida Auken, MF for Radikale Venstre, og Thomas Damkjær Petersen, formand for ingeniørforeningen IDA, udgav i september 2018 rapporten "AI Scenarier. Etiske Overvejelser & Anbefalinger" udarbejdet af Pernille Tranberg og Gry Hasselbalch fra den tænkehandletanken DataEthics.eu. I rapporten gennemgås nogle tværgående principper som gennemskuelighed, ansvarlighed og ligeværdighed, og der gives konkrete anbefalinger i en række brugsscenarier.

Referencer

Tidligere artikelNu rykker machine learning i kommunerne
Næste artikelIBM bruger blockchain til at luge ud i papirdyngerne
Stig Andersen, journalist og skribent på Digitalt fra 2018 til aug 2019. Indehaver af Thingvalla Kommunikation i Århus