Question 1

Hvad er transformer-arkitekturen?

Accepted Answer

Transformer-arkitekturen er et neuralt netværk introduceret i Googles paper 'Attention Is All You Need' fra 2017. I stedet for sekventiel behandling (som ældre RNN-modeller) behandler en transformer alle tokens simultant og beregner relationer mellem alle positioner i inputtet parallelt. Det centrale koncept er self-attention: for hvert token beregner modellen, hvor meget opmærksomhed det skal give til hvert andet token — det giver langsigtet kontekst og semantisk forståelse. Alle moderne LLM'er (GPT, Claude, Gemini) er baseret på transformer-arkitekturen.

Question 2

Hvad er forskellen på encoder-only, decoder-only og encoder-decoder transformers?

Accepted Answer

Encoder-only modeller (BERT-stil) ser hele inputtet simultant og er fremragende til klassificering og semantisk forståelse — de bruges i søgemaskiner til at forstå forespørgsler. Decoder-only modeller (GPT-stil) genererer tekst token for token og ser kun foregående tokens — alle store generative modeller som GPT-4o, Claude og Gemini er decoder-only. Encoder-decoder modeller (T5-stil) er ideelle til oversættelse og opsummering, hvor input og output er to separate sekvenser.

Question 3

Hvad adskiller transformer-arkitekturen fra tidligere NLP-metoder?

Accepted Answer

Den afgørende forskel er attention-mekanismen og skalerbarhed. Ældre metoder som Markov-kæder mangler langsigtet kontekst — de ser kun de foregående n ord. Word2Vec-embeddings mangler kontekstualitet — ét ord har ét embedding uanset sammenhæng. Transformers har attention der lader hvert token tage hensyn til alle andre tokens i konteksten, og de skalerer ekstraordinært godt: fra 110M parametre (BERT) til billioner er empiriske forbedringer konsistente — et fænomen der er formaliseret i scaling laws.

Question 4

Hvad er scaling laws og hvad betyder de for LLM-udvikling?

Accepted Answer

Scaling laws er empirisk dokumenterede relationer der viser at LLM-performance forbedres forudsigeligt med mere data, flere parametre og mere beregningskraft — og at disse forbedringer ikke rammer nogen åbenlys mur i de størrelsesordener der er udforsket. Det har drevet en enorm skaleringsrace siden 2020: GPT-3 (175 mia. parametre), GPT-4 og Claude 3 Opus i billioner-parameter-klassen. Scaling laws forklarer hvorfor frontier-modeller er så markant bedre end modeller fra 3-5 år siden, og de er baggrunden for investerings-og compute-racet i AI-industrien.

Question 5

Hvad er sammenhængen mellem transformer-arkitektur og Googles søgealgoritme?

Accepted Answer

Google introducerede BERT (Bidirectional Encoder Representations from Transformers) som del af søgealgoritmen i oktober 2019 — en af de mest signifikante ranking-ændringer i årtiet. BERT er en encoder-only transformer der forstår kontekst i begge retninger og markant forbedrede Googles evne til at forstå naturligt sprog i søgeforespørgsler, særligt komplekse forespørgsler med prepositioner og spørgsmål. Siden er transformer-baserede modeller (MUM, Gemini) central i Googles søgeforståelse. Det er den teknologiske baggrund for at søgeintention og semantisk relevans er afgørende i SEO frem for ren keyword-densitet.

Transformer-arkitektur — Den tekniske grund under alle moderne LLM'er

Encoder, decoder og encoder-decoder

Encoder-only (BERT-stil)

Decoder-only (GPT-stil)

Encoder-decoder (T5, mT5)

Attention-mekanismen intuitivt

Skala og fremvækst

Andre artikler i samme emne

Ofte stillede spørgsmål

Placering i ordbogen