Tokens og tokenisering — Hvad det er og hvorfor det betyder noget
Tokens er de grundenheder LLM'er processerer — typisk 3-4 tegn per token. Token-count bestemmer API-pris og context window-brug.
En token er ikke et ord, ikke et tegn og ikke en sætning. Det er den grundenhed som AI-modeller faktisk processerer — og forståelse for tokens er praktisk nyttig fordi det direkte påvirker to ting: hvad du betaler og hvad modellen kan huske.
Hvad er en token
Tokenisering er processen der opdeler tekst i de bider modellen behandler. Typiske mønstre:
- Korte, hyppige ord: “er”, “og”, “i” → typisk 1 token
- Mellemlange ord: “søgemaskine” → 2-3 tokens
- Lange sammensatte ord: “søgemaskineoptimering” → 4-6 tokens
- Tal og specialtegn: “2026” → 1-2 tokens, ”#” → 1 token
På engelsk er tommelfingerreglen 1 token ≈ 4 tegn eller ¾ ord. På dansk er morfologien mere kompleks — sammensætninger er hyppige og tokeniseres til flere tokens, så den samme information kræver typisk lidt flere tokens på dansk end på engelsk.
Du kan se tokenisering i aktion på Anthropics og OpenAIs tokenizer-tools online. Indsæt tekst og se præcis hvordan den opdeles.
Praktiske konsekvenser
Pris: API-kald prissættes i tokens. En typisk prompt + svar på 2.000 ord koster ca. 2.500-3.500 tokens. Multiplicit med tusindvis af kald om måneden, og det akkumulerer. Effektiv prompt-design handler delvis om at kommunikere præcist — ikke om at spare tokens til et punkt det skader output-kvalitet, men om at undgå tomme gentagelser og unødvendig padding.
Context window: Modellens “hukommelse” i en session måles i tokens. Claudes 200.000 token context window svarer til ca. 150.000 ord. Sender du lange prompts med mange eksempler og kontekst, spiser du af den grænse.
Kodning er dyrt: Kode med masser af specialtegn, indrykning og symboltunge syntaks tokeniseres til markant flere tokens per meningsenhed end prosatext. Sende store kodeblokke til analyse er tokenprismæssigt dyrt.
Tal er dyre og upålidelige: “1.234.567,89” tokeniseres som en sekvens af tegn, ikke som et tal. Det er en af grundene til at LLM’er er dårlige til aritmetik — de “ser” ikke tal som numeriske værdier.
Input vs. output tokens
API-priser skelner typisk mellem input tokens (din prompt) og output tokens (modellens svar). Output tokens er dyrere — typisk 3-5x dyrere per token end input.
Implikation: det er billigere at sende lang kontekst end at bede om langt output. Hvis du kan strukturere en opgave så output er kortfattet og struktureret (JSON frem for en lang narrativ rapport), reducerer du cost markant.
Tokenisering og sprog
Tokenisering-modeller er primært trænet på engelsk tekst. Det betyder at sjældnere sprog (dansk inkluderet) generelt tokeniseres mindre effektivt — du bruger flere tokens per informationsenhed. Dansk tekst kræver typisk 10-15% flere tokens end tilsvarende engelsk tekst.
Det er et konkret argument for at skrive prompts på engelsk hvis outputtet kan genereres på dansk efterfølgende — men i praksis er forskellen lille nok at det sjældent er værd at kompromittere prompt-klarhed for at spare tokens på sprog.
Hvornår du aktivt tæller tokens
For de fleste ad hoc-opgaver er token-bevidsthed irrelevant — du taster, modellen svarer, og du betaler et øretal. Token-bevidsthed bliver relevant:
- Når du nærmer dig context window-grænsen og skal prioritere hvad der er i kontekst
- Når du bygger høj-volumen batch-processing workflows og ønsker at optimere cost
- Når du designer prompts til produktionsbrug og vil estimere monthly API-udgift
De fleste LLM-biblioteker (anthropic Python SDK, openai Python SDK) returnerer token-count i API-responsen, så du kan monitorere forbrug præcist. → Denne artikel er en del af Sprogmodeller og LLM’er — Hvad de er og hvordan de virker.
Andre artikler i samme emne
- Embeddings — Semantisk mening som matematiske vektorer
- Fine-tuning — Hvornår du bør specialisere en AI-model
- Hallucination i LLM'er — Hvad det er og hvordan du håndterer det
- Kontekstvindue — Hvad context window er og hvad det betyder
- LLM Bias — Skævheder og fejl i AI-sprogmodeller
- RAG — Retrieval-Augmented Generation forklaret
- RLHF — Reinforcement Learning from Human Feedback
- Transformer-arkitektur — Den tekniske grund under alle moderne LLM'er
Ofte stillede spørgsmål
- Hvad er en token i AI-sammenhæng?
- En token er den grundenhed som AI-modeller processerer — ikke et ord, ikke et tegn, men et stykke tekst der typisk svarer til 3-4 tegn eller ¾ ord på engelsk. Korte hyppige ord som 'og' og 'er' er typisk 1 token, mellemlange ord 2-3 tokens og lange sammensatte ord 4-6 tokens. Tokens er vigtige fordi de direkte påvirker to ting: hvad du betaler (API-priser er token-baserede) og hvad modellen kan huske (context window måles i tokens).
- Hvad koster tokens og hvornår bør man tænke over det?
- API-kald prissættes per 1.000 tokens — typisk med output tokens 3-5x dyrere end input tokens. En prompt og svar på 2.000 ord koster ca. 2.500-3.500 tokens. Token-bevidsthed er irrelevant ved ad hoc-brug men bliver vigtig ved: høj-volumen batch-processing workflows, opgaver der nærmer sig context window-grænsen, og produktionsworkflows hvor du vil estimere monthly API-udgift. Effektiv prompt-design handler om præcis kommunikation — ikke om at spare tokens til et punkt det skader output.
- Bruger dansk tekst flere tokens end engelsk?
- Ja — tokenisering er primært optimeret til engelsk tekst. Dansk morfologi med hyppige sammensætninger tokeniseres mindre effektivt: den samme information kræver typisk 10-15% flere tokens på dansk end på engelsk. Det er et konkret argument for at skrive prompts på engelsk i højvolumen-workflows, men i praksis er forskellen lille nok at det sjældent er værd at kompromittere prompt-klarhed for token-besparelser.
- Hvad er caching af tokens og hvornår sparer det penge?
- Prompt caching er en API-feature (tilgængelig hos Anthropic og OpenAI) der genbruger beregninger for identiske dele af en prompt på tværs af API-kald. Hvis din system prompt er 2.000 tokens og er identisk i alle kald i en batch-opgave, betales den kun fuldt ud ved første kald — efterfølgende kald genbruger den cachede beregning til ca. 10-20% af normal inputpris. For SEO-batch-workflows med stor statisk system prompt (brand voice, format-regler, eksempler) kan caching reducere omkostningerne markant. Implementeres ved at markere den statiske del af prompten med cache_control-headeren.
- Hvad er extended thinking og koster det ekstra tokens?
- Extended thinking (Anthropics term for Chain-of-Thought reasoning i Claudes API) aktiverer en intern ræsonneringsproces hvor modellen genererer skjulte tænketokens inden det endelige svar. Disse 'thinking tokens' er i Claude's API billigere end standard output tokens, men du betaler stadig for dem. For komplekse SEO-analyser der kræver multi-step ræsonnering (content gap-analyse, teknisk audit-prioritering) kan extended thinking forbedre outputkvaliteten markant. For enkle, formaterede opgaver som meta-tag-generering er det unødvendigt og øger blot latency og cost.
Placering i ordbogen
- Embeddings — Semantisk mening som matematiske vektorer
- Fine-tuning — Hvornår du bør specialisere en AI-model
- Hallucination i LLM'er — Hvad det er og hvordan du håndterer det
- Kontekstvindue — Hvad context window er og hvad det betyder
- LLM Bias — Skævheder og fejl i AI-sprogmodeller
- RAG — Retrieval-Augmented Generation forklaret
- RLHF — Reinforcement Learning from Human Feedback
- Transformer-arkitektur — Den tekniske grund under alle moderne LLM'er