Kunstig intelligens i sagsbehandling:

By Hans Jayatissa, CTO, KMD & Peter Damm, Applied Research Director, KMD

23. november 2021

0

Teknologidirektør Hans Jayatissa, KMD, er en erfaren herre med stor viden om de nye teknologier, som kunstig intelligens, machine learning og blockchain.
Han har siden foråret 2017 arbejdet i KMD, hvor han har ansvaret for at opbygge og drive KMD's Office of Technology-enhed.
Hans Jayatissa er uddannet cand.scient i datalogi og matematik fra Aarhus Universitet i 1994 og har en MBA fra Henley Business School (2006). Peter Damm er forskningsdirektør i R&D i KMD og gæsteforelæser inden for Troværdig AI og Data etik på CBS og Aarhus Universitet. Peter arbejder bl.a. sammen med KMD’s ejere NEC og deres syv forskningslaboratorier for at udvikle selvforklarende AI systemer. Han har en baggrund inden for astrofysik og datalogi fra Aarhus Universitet og har en master i IT fra Aalborg Universitet.

Institut for Menneskerettigheder udgav for nyligt rapporten ”Når algoritmer sagsbehandler” om rettigheder og retssikkerhed i offentlige myndigheders brug af profileringsmodeller.

Rapporten beskriver bl.a. den velkendte udfordring med bias og varians i arbejdet med at skabe en anvendelig model for læring. Vi vil i dette indlæg give et indblik i, hvilke overvejelser og løsningsmodeller vi i KMD arbejder med i forhold til bias og varians.

Bias og varians
Først et par ord om begreberne. Bias beskriver modellens ”indbyggede” tendens til at overse eller fejlfortolke sammenhænge mellem egenskaber i data i forhold til det, vi ønsker modellen skal kunne klassificere eller forudsige.

Hvis en model har en høj bias, så har den en tendens til at lægge for meget vægt på nogle få egenskaber, f.eks. en persons alder og skaber derfor for ”grovkornede” vurderinger (en undertilpasning), dvs. at for mange personer puttes i ”samme bås”.

Varians repræsenterer omvendt, hvor detaljeret modellen er. Hvis en model har for høj varians, har den tendens til at lægge for meget vægt på meget specifikke sammensætninger af egenskaber i træningsdatasættet og komme med for ”finkornede” vurderinger (overtilpasning), og har dermed svært ved at generalisere data/beslutningsgrundlag.

Figur: Institut for Menneskerettigheder (2021), ”Når algoritmer sagsbehandler”, s. 29

Vi ønsker grundlæggende at kunne generalisere data med vores modeller. Årsagen er, at vi forventer, at de data, vi senere skal anvende modellen på, med stor sandsynlighed vil variere en anelse fra de træningsdata, vi udvikler modelleb fra.

Det ideelle valg er at udvikle en model, som er tilpas generel til at passe med både træningsdata, testdata og produktionsdata, og hvor vi opnår balance mellem bias og varians med den mindst mulige fejlrate på datagrundlaget.

Overvejelser i KMD’s arbejde
KMD har deltaget i forskningsprojektet EcoKnow, der benytter AI-modeller til at foreslå, hvilke indsatser, der skal til for at en ledig borger hurtigst muligt kan komme i det bedst mulige job. Træningssættet tager udgangspunkt i informationer om tidligere sager, indsatser og resultater.

Hvis AI-modellen har for høj bias, lader den enkeltfaktorer, som f.eks. køn, alder, etnicitet være for afgørende for modellens forudsigelse. Dette kan således give anledning til uønsket og ulovlig diskrimination.

Umiddelbart, kunne man tænke, at en nem måde at undgå dette på, vil være at udelade problematiske enkeltfaktorer som f.eks. køn og etnicitet fra træningssættet. Det er dog ikke en god løsning. Dels fordi man dermed kan risikere at gøre modellen mindre præcis, da de udeladte faktorer kan have en vis indflydelse, og dels fordi andre faktorer tilsammen kan repræsentere den udeladte faktor, såkaldte proxyvariable. F.eks. er der typisk en sammenhæng mellem højde og køn, så selvom køn er udeladt, så vil højde alligevel repræsentere kønnet til en vis grad.

En anden mulighed er at øge forekomsten af de problematiske tilfælde i træningssættet, så de er mere ligeligt fordelt. Den bias, som en model lærer, kan nemlig tilskrives den relative over- og underrepræsentation af en ”følsom” egenskab som alder, køn, etnicitet etc. De fleste data fra den virkelige verden har naturligvis en skæv fordeling, med et lille antal velrepræsenterede egenskaber som f.eks. alder, bopæl og højde og en lang hale af egenskaber, der er relativt underrepræsenteret som f.eks. etnicitet, hudfarve, osv. Denne form for bias, som skyldes underrepræsentation af visse egenskaber, fører til uensartede fejlrater på den underrepræsenterede egenskab. Så hvis man nøje udvælger træningsdata, så der fx. er lige mange af begge køn, så undgår vi denne type bias. Men det kræver selvfølgelig at man har så god forståelse for data og datasammenhænge, at man kan lave denne form for de-bias af træningsdata.

Hvis AI-modellen i stedet har for høj varians, så vil den bygge på meget nøjagtige egenskaber og sammenhænge for personer i træningssættet, og modellen vil kun kunne lave nøjagtige forudsigelser for personer, som meget præcist ligner de personer, som allerede var med i træningssættet, mens alle andre typer af personer vil få uforudsigelige og forkerte forudsigelser. Hvis vi havde tilstrækkeligt med forskellige borgere repræsenteret i træningsdata, ville dette ikke være et stort problem, men man har ofte ikke adgang til meget store datasæt, som repræsenterer alle typer af personer.

Løsningen - proces flow og syntetiske data
I det konkrete eksempel fra EcoKnow har vi valgt at løse problemet fra to vinkler.

Dels har vi valgt modeller, som vægter selve sagsforløbene højere end personlige informationer og betragter hændelserne i de enkelte sager som et proces flow. Herved kan vi anvende tidsserieanalyser og process mining principper med tilhørende neurale netværk til processering af sekvenser af data, dvs. de populære transformer-modeller, som kendes fra Open AI og GPT3.

Dels har vi trænet modellerne på syntetiske datasæt. Disse baserer sig på de ægte datasæt, men er forvanskede på en sådan måde, at de overordnede statistiske egenskaber holdes intakte. For eksempel kan man fra det ægte datasæt ændre på køn eller alder for den enkelte person, bytte bopæl med en anden inden for samme område etc. således at data overordnet er de samme. Vi har herved kunnet forhindre uhensigtsmæssige skævheder ved at tilføje flere syntetiske repræsentationer f.eks. af minoriteter således, at denne minoritet ikke længere er underrepræsenteret.

Tidligere artikel

IT-arkitektur som forudsætning for Identity Management

Næste artikel

Brain+: Digital kur mod hjernesygdomme

Kunstig intelligens i sagsbehandling:

Proces-flow og syntetiske data holder fejlraten nede

Mere fra samme indlægsholder

Bedre data skaber mere værdi

AlphaGo er stadig langt fra virkelighedens verden

Sporet ender blindt efter Schrems II

To danske specifikationer om kunstig intelligens

Kunstig intelligens i sagsbehandling:

Proces-flow og syntetiske data holder fejlraten nede

RELATED ARTICLES

Vi skal kigge mod Holland for at lære noget om ansigtsgenkendelse

Mobil robot koblet på 5G for første gang i Europa

Manglende viden bremser anvendelsen af ansigtsgenkendelse

Mere fra samme indlægsholder

Bedre data skaber mere værdi

AlphaGo er stadig langt fra virkelighedens verden

Sporet ender blindt efter Schrems II

To danske specifikationer om kunstig intelligens