Artikel

Latent Semantic Analysis — Semantik uden neurale netværk

LSA (Latent Semantic Analysis) finder semantiske relationer i tekst via SVD-matrixfaktorisering. Pre-neural semantisk forståelse — forløber for moderne embeddings.

Latent Semantic Analysis — også kaldet Latent Semantic Indexing (LSI) i søgemaskine-kontekst — er en matematisk metode til at afdække skjulte (latente) semantiske relationer i store tekstsamlinger. Den er fra 1988 og er fundamentalt anderledes end neural-netværksbaserede tilgange: ingen parametre der trænes, ingen gradient descent — kun lineær algebra.

Teknikken bygger på observation af at ord der optræder i de samme dokumenter sandsynligvis er semantisk relaterede. “Hund” og “hundehvalp” optræder hyppigt i de samme kontekster — LSA kan afdække den relation uden at kende noget som helst til ordenes betydning.

Hvordan LSA virker

  1. Byg en term-dokument-matrix: Rækker er ord, kolonner er dokumenter, celler er frekvenser (typisk TF-IDF-vægtede).
  2. Anvend Singular Value Decomposition (SVD): Reducerer matrixens dimensioner til et lavdimensionalt semantisk rum — typisk 100-500 dimensioner.
  3. Semantisk nærhed: Ord og dokumenter der havner tæt på hinanden i det reducerede rum er semantisk relaterede — selvom de aldrig optræder i de samme sætninger.

Resultatet er primitive embeddings: numeriske repræsentationer af ord der afspejler semantisk kontekst. Ikke nær så præcise som Word2Vec eller moderne transformer-embeddings, men langt bedre end simpel keywordmatchning.

LSI i SEO-kontekst — myten og virkeligheden

“LSI keywords” er et begreb der cirkulerede massivt i SEO-kredse i 2010’erne. Anbefalingen var at inkludere “LSI-relaterede søgeord” i indhold for at signalere topical relevance til Google.

Problemet: Google har aldrig bekræftet at de bruger LSA/LSI. John Mueller fra Google har eksplicit afvist begrebet “LSI keywords” som ikke-eksisterende i Googles systemer. Googles tilgang til semantisk forståelse er fundamentalt anderledes — baseret på neurale netværk og transformer-arkitektur.

LSI-keywords som SEO-begreb er dermed et eksempel på at branchens forståelse af teknologi ikke følger med den faktiske teknologiudvikling.

Arven: fra LSA til embeddings

LSA var den første praktiske implementering af idéen om at repræsentere ord og dokumenter i et kontinuert semantisk rum. Det er den direkte konceptuelle forløber for Word2Vec, GloVe og de moderne embeddings der driver semantisk søgning og RAG-systemer. Springer man fra LSA til Word2Vec til transformer-embeddings, ser man en kontinuert forbedring af den grundlæggende idé — ikke et brud.

Andre artikler i samme emne

Placering i ordbogen