Sprogrobotterne bliver bedre til at forstå sprog

Claus Dahl leder Visma e-conomics Machine Learning team. Claus er cand scient i matematik og har 20 års erfaring med software og dataanalyse.

Sent sidste år gennemførte Google en stille revolution I firmaets altdominerende søgemaskine. Hvor søgemaskinen, siden sin begyndele var baseret på en kæmpe database af ordene på de websider, man søger i, skiftede Google over til i stedet for at søge i betydningen af teksten på siden.

Men hvad pokker betyder det nu – og kan computere virkelig forstå tekst? Læs videre, så skal jeg prøve at forklare hvad der foregår.

Da Google revolutionerede web-søgemaskinen for et par og tyve år siden, havde det meget lidt med sprog at gøre. Selv om de af os, der er gamle nok, husker Google som en kæmpe forandring.  fungerede det meste af Google nogenlunde på samme måde som alle andre søgemaskiner. Når man søger, slår man op i en gigantisk database med alle ord på alle websider – finder de sider hvor alle de ord man søger på fremgår, og viser nogle af dem.  Det geniale ved Google var ikke forståelsen af sidens indhold – det var internettet, Google forstod bedre - relationerne mellem websider, som hjalp Google med at finde den vigtigste side at vise os. Selve indekset – databasen - var der ikke noget nyt i. Det fungerede helt som alle de andre søgemaskiner.

Konceptet har sine begrænsninger, da ord kan betyde mange forskellige ting. Hvis jeg søger på ’bedre kost’ – handler det så om rengøring eller ernæring – eller er det slang for blomster eller overskæg.

Derfor har Google – og de andre søgemaskiner også – lige siden været på jagt efter nye måder at vælge resultaterne på; med en bedre model for hvad det egentlig er vi gerne vil finde, når vi søger.

Først var det bare stavefejl, der blev rettet – så fik vi alle indhold, som var tilpasset lige netop os – Googles oprindelige idé med at nogle sider er vigtigere end andre, spiller simpelthen ikke den samme rolle længere som da Google begyndte.

Hvordan skal sproget forstås?
En revolution i hvordan sproget skulle forstås - indholdet på siden - har ladet vente på sig. De seneste 10 års tid har vi bedst kunnet følge den revolution ved at kigge på maskinoversættelse. Fra et decideret komisk niveau har oversættelsesrobotterne efterhånden nået et fornuftigt parlørniveau. Man er sjældent i tvivl om, at det er en robots arbejde man læser; men masser af faste vendinger og simpelt funktionelt sprog klarer robotterne fint.

Når nu oversættelsesrobotterne er blevet så meget bedre, kan det undre, at søgemaskinen ikke har fået tilsvarende forbedringer i den samme periode. Forklaringen er den meget enkle – at kunstig intelligens stadig ikke er særlig intelligent; en robot der bliver trænet til én anvendelse har som hovedregel ingen værdi til andre anvendelser.

I en del år har vi vænnet os til at sådan behøver det ikke være mere – med billedanalyse. De store giganter bruger enorme ressourcer på at træne komplekse billedmodeller; som vi andre så kan skille ad og genbruge til nye udfordringer – på sprogsiden har det haltet noget bagefter. Men det er der ved at blive lavet om på med teknologier som BERT.

Transformeren BERT
Pludselig er der dukket en ny klasse af neurale netværk op, såkaldte transformers, der ser ud til at kunne lære basale sproglige sammenhænge på et niveau, der åbner op for en stor klasse af opgaver – både ting som oversættelse; og altså nu Google’s søgemaskine også. BERT – som efterhånden har en hel hær af afarter – har sat en mængde rekorder i løsningen af en ganske varieret bunke sproglige opgaver.

Transformers i almindelighed – og BERT i særdeleshed har flyttet ”state of the art” markant de sidste par år. I 2018 publicerede en gruppe med bl.a. Sam Bowman fra NYU opgavesættet GLUE – for at evaluere hvordan det gik bredt med sprogteknologi. Det korte svar i 2018 var ’ikke særlig godt’ – mennesker klarede GLUE markant bedre end maskiner. Sådan er det ikke længere – transformerne har gået deres sejrsgang.

Så forskelligartede problemer som at analysere om en sætning giver mening; at svare på om et givet udsagn er en logisk konsekvens af et andet, at svare på spørgsmål ved at citere fra en tekst og at parafrasere – altså generere et kort sammendrag af – en tekst er pludselig blevet voldsomt forbedret ved at bruge BERT som grundlag for modellerne.

Successen har givet BERT og transformers massiv vind i sejlene – og aktiviteten med at udnytte de nye modeller er enorm. De bliver populariseret og proppet ind i snart sagt alt.

Som altid er der en stor debat om, i hvilken grad modeller som BERT faktisk lærer sproget – og i hvilken grad, det bare er et bjerg af tricks, der genkender præcis de datasæt man plejer at analysere indenfor feltet – og knapt så overraskende er der tegn på at billige tricks spiller en stor rolle. Jo større modellerne bliver – og BERT er kæmpestor – jo flere finurlige detaljere fra datasættene samler de op.

Og i efteråret kom turen så til at sætte BERT i drift for alvor. BERT skal forbedre Googles hovedprodukt, søgemaskinen. I næsten halvdelen af alle Google søgninger, søger brugeren på ét eller to ord – så der betyder sprogforståelse intet eller meget lidt. Der er simpelthen ikke noget sprog at analysere. For de søgninger kan BERT ikke på magisk vis ændre, hvad Google er – men de korte søgninger er også en konsekvens af at de lange simpelten ikke virkede – det gør de i langt højere grad nu; fortæller Google.

Machine Learning står aldrig stille – og Google spiller ikke kun på én hest; så rekorden på GLUE-benchmarket er ikke længere en BERT-model, selv om den kommer fra Google. Men dog stadig en beslægtet model, et familiemedlem.

Hvis man vil læse, hvordan søgemaskineeksperterne får forklaret forandringen kan man læse med her.
For en generel intro til BERT kan man starte hos Wired.

Tidligere artikelDer findes stadig mobilhuller i Danmark
Næste artikelDanmark i spidsen for ny europæisk vision om kunstig intelligens
Claus Dahl leder Visma e-conomics Machine Learning team. Claus er cand scient i matematik og har 20 års erfaring med software og dataanalyse.