Artikel

Embeddings — Semantisk mening som matematiske vektorer

Embeddings er tekst konverteret til matematiske vektorer der repræsenterer semantisk mening. Bruges til semantisk søgning, content clustering og RAG.

Embeddings er tekst konverteret til tal — men ikke vilkårlige tal. En embedding er en vektor (en liste af tal, typisk med 768 til 3.072 dimensioner) der repræsenterer den semantiske mening af en tekst. Tekster med lignende betydning får vektorer der ligger tæt på hinanden i det matematiske rum.

Det er fundamentet under moderne semantisk søgning, RAG-systemer og content clustering.

Embeddings i praksis

Forestil dig et koordinatsystem med mange dimensioner. “SEO” og “søgemaskineoptimering” placeres tæt på hinanden. “SEO” og “kartofler” er langt fra hinanden. “ChatGPT” og “Claude” er relativt tætte — begge er LLM’er — men har distinkte positioner.

Denne geometri gør det muligt at beregne semantisk lighed: du tager to teksters embeddings og beregner cosine similarity. Et tal fra -1 til 1 angiver hvor semantisk ens de er. Over 0.85 er meget lig. Under 0.5 er substantielt forskellig.

Du bruger ikke en generativ LLM til at lave embeddings — du bruger en dedikeret embedding-model. De mest brugte:

  • OpenAI text-embedding-3-large: State-of-the-art, 3.072 dimensioner, multilingual
  • OpenAI text-embedding-3-small: Billigere, 1.536 dimensioner, god pris/kvalitet
  • Anthropic: Egne embedding-kapaciteter via API
  • Open source: sentence-transformers (Python) til lokale embeddings uden API-omkostning

SEO-relevante use cases

Semantisk content clustering: Du embedder alle URLs på et site og bruger clustering-algoritmer (k-means, DBSCAN) til at gruppere sider med semantisk lignende indhold. Resultat: automatisk indholdskort der viser topical clusters, thin content og potentielle kannibaliserings-issues.

Duplicate og near-duplicate detection: Cosine similarity over 0.92-0.95 mellem to siders embeddings er et stærkt signal for indholdsmæssigt overlap. Skalerer til store sites.

Søgeintentions-matching: Embed brugerens søgeforespørgsel og find de sider i dit content der er semantisk tættest — uanset om de eksakte nøgleord matcher. Bedre end keyword-matching.

Internal link recommendation: Embed alle sider og find kandidater til interne links baseret på semantisk lighed. Automatiserer et tidskrævende manuelt arbejde.

RAG-retrieval: Det primære use case teknisk set. Embed alle dokumenter i en vidensbase, embed bruger-query, find de mest semantisk relevante dokumenter og send dem som kontekst til LLM’en.

Vektordatabaser

Embeddings skal gemmes og søges effektivt. Vektordatabaser er optimeret til dette:

  • Pinecone: Managed, nem at komme i gang med, god til prototyping
  • Weaviate: Open source, self-hostable, fuldt-featured
  • pgvector: PostgreSQL-extension — hvis du allerede er på Postgres er det naturlige valg
  • Chroma: Open source, typisk brugt til lokale RAG-eksperimenter

For SEO-use cases på site-skala (under 100k sider) er pgvector eller Chroma tilstrækkeligt. Pinecone giver mening ved meget store datasæt eller managed-infrastruktur-behov.

Hvad embeddings ikke kan

Embeddings fanger semantisk mening men mister syntaktisk detalje og nuance. De er ikke velegnet til:

  • Præcis faktual retrieval (brug traditionel søgning med keyword-match til det)
  • Opgaver der kræver forståelse af grammatisk struktur
  • Meget domænespecifike emner der er underrepræsenteret i embedding-modellens træningsdata

Kombiner embeddings med traditionel keyword-søgning i en hybrid retrieval-arkitektur for de bedste resultater i produktionsworkflows.

Andre artikler i samme emne

Placering i ordbogen