Artikel

Transformer-arkitektur — Den tekniske grund under alle moderne LLM'er

Transformer-arkitekturen (2017) introducerede attention-mekanismer der giver modellen fuld kontekst over hele inputtet. Fundamentet under GPT, BERT, Claude og Gemini.

Transformer-arkitekturen blev introduceret i papiret “Attention Is All You Need” af Vaswani et al. fra Google i 2017. Det var en arkitektonisk revolution: i stedet for sekventiel behandling (som RNN’er og LSTM’er) behandler en transformer alle tokens simultant og beregner relationer mellem alle positioner i inputtet parallelt.

Det centrale koncept er self-attention: for hvert token i inputtet beregner modellen hvor meget opmærksomhed det skal give til hvert andet token. “Banken ved floden er oversvømmet” — her skal “banken” give høj attention til “floden” for at disambiguere ordets mening. En transformer kan lære den relation; en Markov-kæde kan ikke.

Encoder, decoder og encoder-decoder

Transformer-arkitekturen bruges i tre varianter med fundamentalt forskellige egenskaber:

Encoder-only (BERT-stil): Ser hele inputtet simultant — kan ikke generere, men er fremragende til klassificering, named entity recognition og semantisk forståelse. Bruges i søgemaskiner til at forstå forespørgsler og matche dem med dokumenter.

Decoder-only (GPT-stil): Genererer tekst token for token — ser kun foregående tokens, ikke fremtidige. Alle store generative modeller (GPT-4, Claude, Gemini) er decoder-only transformers.

Encoder-decoder (T5, mT5): Encoder forstår input, decoder genererer output. Ideel til oversættelse og opsummering.

Attention-mekanismen intuitivt

For hvert token beregnes tre vektorer: Query (hvad leder jeg efter?), Key (hvad indeholder jeg?) og Value (hvad bidrager jeg med?). Attention-scoren for et par af tokens er dot-produktet af Query og Key — højere score betyder mere opmærksomhed. Summen af Value-vektorerne vægtet med attention-scorer er tokenets kontekstuelle repræsentation.

Multi-head attention gentager denne beregning parallelt med forskellige weight-matricer — det tillader modellen at lære forskellige typer relationer simultant (syntaktiske, semantiske, co-reference osv.).

Skala og fremvækst

Transformer-arkitekturen skalerer ekstraordinært godt. Fra BERT med 110M parametre (2018) til GPT-3 med 175B (2020) til GPT-4 og Claude 3 i billioner-parameter-klassen viser empiriske resultater at større modeller konsekvent er bedre — et fænomen der er formaliseret i scaling laws.

Det er denne skalerbarhed der adskiller transformers fra alle tidligere NLP-arkitekturer: mere data og flere parametre gav forudsigelige forbedringer, og forbedringerne stoppede ikke ved nogen åbenlys grænse.

Andre artikler i samme emne

Placering i ordbogen