Transformer-arkitektur — Den tekniske grund under alle moderne LLM'er
Transformer-arkitekturen (2017) introducerede attention-mekanismer der giver modellen fuld kontekst over hele inputtet. Fundamentet under GPT, BERT, Claude og Gemini.
Transformer-arkitekturen blev introduceret i papiret “Attention Is All You Need” af Vaswani et al. fra Google i 2017. Det var en arkitektonisk revolution: i stedet for sekventiel behandling (som RNN’er og LSTM’er) behandler en transformer alle tokens simultant og beregner relationer mellem alle positioner i inputtet parallelt.
Det centrale koncept er self-attention: for hvert token i inputtet beregner modellen hvor meget opmærksomhed det skal give til hvert andet token. “Banken ved floden er oversvømmet” — her skal “banken” give høj attention til “floden” for at disambiguere ordets mening. En transformer kan lære den relation; en Markov-kæde kan ikke.
Encoder, decoder og encoder-decoder
Transformer-arkitekturen bruges i tre varianter med fundamentalt forskellige egenskaber:
Encoder-only (BERT-stil): Ser hele inputtet simultant — kan ikke generere, men er fremragende til klassificering, named entity recognition og semantisk forståelse. Bruges i søgemaskiner til at forstå forespørgsler og matche dem med dokumenter.
Decoder-only (GPT-stil): Genererer tekst token for token — ser kun foregående tokens, ikke fremtidige. Alle store generative modeller (GPT-4, Claude, Gemini) er decoder-only transformers.
Encoder-decoder (T5, mT5): Encoder forstår input, decoder genererer output. Ideel til oversættelse og opsummering.
Attention-mekanismen intuitivt
For hvert token beregnes tre vektorer: Query (hvad leder jeg efter?), Key (hvad indeholder jeg?) og Value (hvad bidrager jeg med?). Attention-scoren for et par af tokens er dot-produktet af Query og Key — højere score betyder mere opmærksomhed. Summen af Value-vektorerne vægtet med attention-scorer er tokenets kontekstuelle repræsentation.
Multi-head attention gentager denne beregning parallelt med forskellige weight-matricer — det tillader modellen at lære forskellige typer relationer simultant (syntaktiske, semantiske, co-reference osv.).
Skala og fremvækst
Transformer-arkitekturen skalerer ekstraordinært godt. Fra BERT med 110M parametre (2018) til GPT-3 med 175B (2020) til GPT-4 og Claude 3 i billioner-parameter-klassen viser empiriske resultater at større modeller konsekvent er bedre — et fænomen der er formaliseret i scaling laws.
Det er denne skalerbarhed der adskiller transformers fra alle tidligere NLP-arkitekturer: mere data og flere parametre gav forudsigelige forbedringer, og forbedringerne stoppede ikke ved nogen åbenlys grænse.
Andre artikler i samme emne
- Embeddings — Semantisk mening som matematiske vektorer
- Fine-tuning — Hvornår du bør specialisere en AI-model
- Hallucination i LLM'er — Hvad det er og hvordan du håndterer det
- Kontekstvindue — Hvad context window er og hvad det betyder
- LLM Bias — Skævheder og fejl i AI-sprogmodeller
- RAG — Retrieval-Augmented Generation forklaret
- Tokens og tokenisering — Hvad det er og hvorfor det betyder noget
Placering i ordbogen
- Embeddings — Semantisk mening som matematiske vektorer
- Fine-tuning — Hvornår du bør specialisere en AI-model
- Hallucination i LLM'er — Hvad det er og hvordan du håndterer det
- Kontekstvindue — Hvad context window er og hvad det betyder
- LLM Bias — Skævheder og fejl i AI-sprogmodeller
- RAG — Retrieval-Augmented Generation forklaret
- Tokens og tokenisering — Hvad det er og hvorfor det betyder noget