Embeddings — Semantisk mening som matematiske vektorer
Embeddings er tekst konverteret til matematiske vektorer der repræsenterer semantisk mening. Bruges til semantisk søgning, content clustering og RAG.
Embeddings er tekst konverteret til tal — men ikke vilkårlige tal. En embedding er en vektor (en liste af tal, typisk med 768 til 3.072 dimensioner) der repræsenterer den semantiske mening af en tekst. Tekster med lignende betydning får vektorer der ligger tæt på hinanden i det matematiske rum.
Det er fundamentet under moderne semantisk søgning, RAG-systemer og content clustering.
Embeddings i praksis
Forestil dig et koordinatsystem med mange dimensioner. “SEO” og “søgemaskineoptimering” placeres tæt på hinanden. “SEO” og “kartofler” er langt fra hinanden. “ChatGPT” og “Claude” er relativt tætte — begge er LLM’er — men har distinkte positioner.
Denne geometri gør det muligt at beregne semantisk lighed: du tager to teksters embeddings og beregner cosine similarity. Et tal fra -1 til 1 angiver hvor semantisk ens de er. Over 0.85 er meget lig. Under 0.5 er substantielt forskellig.
Du bruger ikke en generativ LLM til at lave embeddings — du bruger en dedikeret embedding-model. De mest brugte:
- OpenAI text-embedding-3-large: State-of-the-art, 3.072 dimensioner, multilingual
- OpenAI text-embedding-3-small: Billigere, 1.536 dimensioner, god pris/kvalitet
- Anthropic: Egne embedding-kapaciteter via API
- Open source: sentence-transformers (Python) til lokale embeddings uden API-omkostning
SEO-relevante use cases
Semantisk content clustering: Du embedder alle URLs på et site og bruger clustering-algoritmer (k-means, DBSCAN) til at gruppere sider med semantisk lignende indhold. Resultat: automatisk indholdskort der viser topical clusters, thin content og potentielle kannibaliserings-issues.
Duplicate og near-duplicate detection: Cosine similarity over 0.92-0.95 mellem to siders embeddings er et stærkt signal for indholdsmæssigt overlap. Skalerer til store sites.
Søgeintentions-matching: Embed brugerens søgeforespørgsel og find de sider i dit content der er semantisk tættest — uanset om de eksakte nøgleord matcher. Bedre end keyword-matching.
Internal link recommendation: Embed alle sider og find kandidater til interne links baseret på semantisk lighed. Automatiserer et tidskrævende manuelt arbejde.
RAG-retrieval: Det primære use case teknisk set. Embed alle dokumenter i en vidensbase, embed bruger-query, find de mest semantisk relevante dokumenter og send dem som kontekst til LLM’en.
Vektordatabaser
Embeddings skal gemmes og søges effektivt. Vektordatabaser er optimeret til dette:
- Pinecone: Managed, nem at komme i gang med, god til prototyping
- Weaviate: Open source, self-hostable, fuldt-featured
- pgvector: PostgreSQL-extension — hvis du allerede er på Postgres er det naturlige valg
- Chroma: Open source, typisk brugt til lokale RAG-eksperimenter
For SEO-use cases på site-skala (under 100k sider) er pgvector eller Chroma tilstrækkeligt. Pinecone giver mening ved meget store datasæt eller managed-infrastruktur-behov.
Hvad embeddings ikke kan
Embeddings fanger semantisk mening men mister syntaktisk detalje og nuance. De er ikke velegnet til:
- Præcis faktual retrieval (brug traditionel søgning med keyword-match til det)
- Opgaver der kræver forståelse af grammatisk struktur
- Meget domænespecifike emner der er underrepræsenteret i embedding-modellens træningsdata
Kombiner embeddings med traditionel keyword-søgning i en hybrid retrieval-arkitektur for de bedste resultater i produktionsworkflows. → Denne artikel er en del af Sprogmodeller og LLM’er — Hvad de er og hvordan de virker.
Andre artikler i samme emne
- Fine-tuning — Hvornår du bør specialisere en AI-model
- Hallucination i LLM'er — Hvad det er og hvordan du håndterer det
- Kontekstvindue — Hvad context window er og hvad det betyder
- LLM Bias — Skævheder og fejl i AI-sprogmodeller
- RAG — Retrieval-Augmented Generation forklaret
- RLHF — Reinforcement Learning from Human Feedback
- Tokens og tokenisering — Hvad det er og hvorfor det betyder noget
- Transformer-arkitektur — Den tekniske grund under alle moderne LLM'er
Ofte stillede spørgsmål
- Hvad er embeddings i AI-sammenhæng?
- Embeddings er tekst konverteret til matematiske vektorer — lister af tal med typisk 768 til 3.072 dimensioner — der repræsenterer den semantiske mening af teksten. Tekster med lignende betydning får vektorer der ligger tæt på hinanden i det matematiske rum. Det muliggør beregning af semantisk lighed via cosine similarity og er fundamentet under semantisk søgning, RAG-systemer og content clustering.
- Hvad bruges embeddings til i SEO-arbejde?
- Embeddings bruges til flere konkrete SEO-opgaver: semantisk content clustering der grupperer sider med lignende indhold, duplicate og near-duplicate detection via cosine similarity-beregninger, søgeintentions-matching der finder semantisk relevante sider uanset eksakt keyword-match, internal link recommendation baseret på semantisk lighed, og RAG-retrieval der finder relevante dokumenter til LLM-kontekst.
- Hvad er forskellen på embeddings og generative LLM'er?
- Embeddings genereres af dedikerede embedding-modeller (f.eks. OpenAIs text-embedding-3-large) og konverterer tekst til numeriske vektorer. Generative LLM'er (GPT-4o, Claude, Gemini) genererer ny tekst. De to typer modeller tjener fundamentalt forskellige formål: embedding-modeller til semantisk søgning og lighed-beregning, generative modeller til tekstproduktion og analyse. I RAG-systemer bruges begge: embedding-modellen finder relevante dokumenter, den generative model producerer svaret.
- Hvad er cosine similarity og hvornår bruges det i SEO?
- Cosine similarity er en matematisk beregning der måler vinklen mellem to embeddings-vektorer og returnerer en score fra -1 til 1 — jo tættere på 1, desto mere semantisk ens er de to tekster. I SEO bruges det til duplicate og near-duplicate detection (sider med cosine similarity over 0,92-0,95 er kandidater til kannibalisering eller konsolidering), internal link recommendation (find sider der er semantisk nære og kan linke til hinanden), og content gap-analyse (embed konkurrenters indhold og mål afstanden til dit eget).
- Hvilken embedding-model bør man vælge til SEO-opgaver på dansk indhold?
- Til SEO-opgaver på dansk indhold er OpenAIs text-embedding-3-large det stærkeste valg — multilingval træning giver god dansk dækning, 3.072 dimensioner giver høj præcision, og prisen er ca. $0,13 per million tokens. text-embedding-3-small er 5x billigere med lidt lavere kvalitet og er tilstrækkeligt til de fleste clustering-opgaver. Open source-alternativet sentence-transformers/paraphrase-multilingual-mpnet-base-v2 kører lokalt uden API-omkostning og er effektivt til store volumenopgaver med krav om datafortrolighed.
Placering i ordbogen
- Fine-tuning — Hvornår du bør specialisere en AI-model
- Hallucination i LLM'er — Hvad det er og hvordan du håndterer det
- Kontekstvindue — Hvad context window er og hvad det betyder
- LLM Bias — Skævheder og fejl i AI-sprogmodeller
- RAG — Retrieval-Augmented Generation forklaret
- RLHF — Reinforcement Learning from Human Feedback
- Tokens og tokenisering — Hvad det er og hvorfor det betyder noget
- Transformer-arkitektur — Den tekniske grund under alle moderne LLM'er