Artikel

Transformer-arkitektur — Den tekniske grund under alle moderne LLM'er

Transformer-arkitekturen (2017) introducerede attention-mekanismer der giver modellen fuld kontekst over hele inputtet. Fundamentet under GPT, BERT, Claude og Gemini.

Transformer-arkitekturen blev introduceret i papiret “Attention Is All You Need” af Vaswani et al. fra Google i 2017. Det var en arkitektonisk revolution: i stedet for sekventiel behandling (som RNN’er og LSTM’er) behandler en transformer alle tokens simultant og beregner relationer mellem alle positioner i inputtet parallelt.

Det centrale koncept er self-attention: for hvert token i inputtet beregner modellen hvor meget opmærksomhed det skal give til hvert andet token. “Banken ved floden er oversvømmet” — her skal “banken” give høj attention til “floden” for at disambiguere ordets mening. En transformer kan lære den relation; en Markov-kæde kan ikke.

Encoder, decoder og encoder-decoder

Transformer-arkitekturen bruges i tre varianter med fundamentalt forskellige egenskaber:

Encoder-only (BERT-stil)

Encoder-only modeller ser hele inputtet simultant. De kan ikke generere tekst, men er fremragende til klassificering, named entity recognition og semantisk forståelse. Det er denne variant søgemaskiner bruger til at forstå forespørgsler og matche dem med dokumenter.

Decoder-only (GPT-stil)

Decoder-only modeller genererer tekst token for token og ser kun foregående tokens — aldrig fremtidige. Alle store generative modeller (GPT-4, Claude, Gemini) er decoder-only transformers. Det er den dominerende arkitektur for konversationelle og generative AI-systemer.

Encoder-decoder (T5, mT5)

I encoder-decoder modeller forstår encoderen inputtet og decoderen genererer outputtet. Arkitekturen er ideel til oversættelse og opsummering, hvor input og output er to separate sekvenser med forskellig struktur.

Attention-mekanismen intuitivt

For hvert token beregnes tre vektorer: Query (hvad leder jeg efter?), Key (hvad indeholder jeg?) og Value (hvad bidrager jeg med?). Attention-scoren for et par af tokens er dot-produktet af Query og Key — højere score betyder mere opmærksomhed. Summen af Value-vektorerne vægtet med attention-scorer er tokenets kontekstuelle repræsentation.

Multi-head attention gentager denne beregning parallelt med forskellige weight-matricer — det tillader modellen at lære forskellige typer relationer simultant (syntaktiske, semantiske, co-reference osv.).

Skala og fremvækst

Transformer-arkitekturen skalerer ekstraordinært godt. Fra BERT med 110M parametre (2018) til GPT-3 med 175B (2020) til GPT-4 og Claude 3 i billioner-parameter-klassen viser empiriske resultater at større modeller konsekvent er bedre — et fænomen der er formaliseret i scaling laws.

Det er denne skalerbarhed der adskiller transformers fra alle tidligere NLP-arkitekturer: mere data og flere parametre gav forudsigelige forbedringer, og forbedringerne stoppede ikke ved nogen åbenlys grænse. → Denne artikel er en del af Sprogmodeller og LLM’er — Hvad de er og hvordan de virker.

Andre artikler i samme emne

Ofte stillede spørgsmål

Hvad er transformer-arkitekturen?
Transformer-arkitekturen er et neuralt netværk introduceret i Googles paper 'Attention Is All You Need' fra 2017. I stedet for sekventiel behandling (som ældre RNN-modeller) behandler en transformer alle tokens simultant og beregner relationer mellem alle positioner i inputtet parallelt. Det centrale koncept er self-attention: for hvert token beregner modellen, hvor meget opmærksomhed det skal give til hvert andet token — det giver langsigtet kontekst og semantisk forståelse. Alle moderne LLM'er (GPT, Claude, Gemini) er baseret på transformer-arkitekturen.
Hvad er forskellen på encoder-only, decoder-only og encoder-decoder transformers?
Encoder-only modeller (BERT-stil) ser hele inputtet simultant og er fremragende til klassificering og semantisk forståelse — de bruges i søgemaskiner til at forstå forespørgsler. Decoder-only modeller (GPT-stil) genererer tekst token for token og ser kun foregående tokens — alle store generative modeller som GPT-4o, Claude og Gemini er decoder-only. Encoder-decoder modeller (T5-stil) er ideelle til oversættelse og opsummering, hvor input og output er to separate sekvenser.
Hvad adskiller transformer-arkitekturen fra tidligere NLP-metoder?
Den afgørende forskel er attention-mekanismen og skalerbarhed. Ældre metoder som Markov-kæder mangler langsigtet kontekst — de ser kun de foregående n ord. Word2Vec-embeddings mangler kontekstualitet — ét ord har ét embedding uanset sammenhæng. Transformers har attention der lader hvert token tage hensyn til alle andre tokens i konteksten, og de skalerer ekstraordinært godt: fra 110M parametre (BERT) til billioner er empiriske forbedringer konsistente — et fænomen der er formaliseret i scaling laws.
Hvad er scaling laws og hvad betyder de for LLM-udvikling?
Scaling laws er empirisk dokumenterede relationer der viser at LLM-performance forbedres forudsigeligt med mere data, flere parametre og mere beregningskraft — og at disse forbedringer ikke rammer nogen åbenlys mur i de størrelsesordener der er udforsket. Det har drevet en enorm skaleringsrace siden 2020: GPT-3 (175 mia. parametre), GPT-4 og Claude 3 Opus i billioner-parameter-klassen. Scaling laws forklarer hvorfor frontier-modeller er så markant bedre end modeller fra 3-5 år siden, og de er baggrunden for investerings-og compute-racet i AI-industrien.
Hvad er sammenhængen mellem transformer-arkitektur og Googles søgealgoritme?
Google introducerede BERT (Bidirectional Encoder Representations from Transformers) som del af søgealgoritmen i oktober 2019 — en af de mest signifikante ranking-ændringer i årtiet. BERT er en encoder-only transformer der forstår kontekst i begge retninger og markant forbedrede Googles evne til at forstå naturligt sprog i søgeforespørgsler, særligt komplekse forespørgsler med prepositioner og spørgsmål. Siden er transformer-baserede modeller (MUM, Gemini) central i Googles søgeforståelse. Det er den teknologiske baggrund for at søgeintention og semantisk relevans er afgørende i SEO frem for ren keyword-densitet.

Placering i ordbogen