Artikel

Latent Semantic Analysis — Semantik uden neurale netværk

LSA (Latent Semantic Analysis) finder semantiske relationer i tekst via SVD-matrixfaktorisering. Pre-neural semantisk forståelse — forløber for moderne embeddings.

Latent Semantic Analysis — også kaldet Latent Semantic Indexing (LSI) i søgemaskine-kontekst — er en matematisk metode til at afdække skjulte (latente) semantiske relationer i store tekstsamlinger. Den er fra 1988 og er fundamentalt anderledes end neural-netværksbaserede tilgange: ingen parametre der trænes, ingen gradient descent — kun lineær algebra.

Teknikken bygger på observation af at ord der optræder i de samme dokumenter sandsynligvis er semantisk relaterede. “Hund” og “hundehvalp” optræder hyppigt i de samme kontekster — LSA kan afdække den relation uden at kende noget som helst til ordenes betydning.

Hvordan LSA virker

  1. Byg en term-dokument-matrix: Rækker er ord, kolonner er dokumenter, celler er frekvenser (typisk TF-IDF-vægtede).
  2. Anvend Singular Value Decomposition (SVD): Reducerer matrixens dimensioner til et lavdimensionalt semantisk rum — typisk 100-500 dimensioner.
  3. Semantisk nærhed: Ord og dokumenter der havner tæt på hinanden i det reducerede rum er semantisk relaterede — selvom de aldrig optræder i de samme sætninger.

Resultatet er primitive embeddings: numeriske repræsentationer af ord der afspejler semantisk kontekst. Ikke nær så præcise som Word2Vec eller moderne transformer-embeddings, men langt bedre end simpel keywordmatchning.

LSI i SEO-kontekst — myten og virkeligheden

“LSI keywords” er et begreb der cirkulerede massivt i SEO-kredse i 2010’erne. Anbefalingen var at inkludere “LSI-relaterede søgeord” i indhold for at signalere topical relevance til Google.

Problemet: Google har aldrig bekræftet at de bruger LSA/LSI. John Mueller fra Google har eksplicit afvist begrebet “LSI keywords” som ikke-eksisterende i Googles systemer. Googles tilgang til semantisk forståelse er fundamentalt anderledes — baseret på neurale netværk og transformer-arkitektur.

LSI-keywords som SEO-begreb er dermed et eksempel på at branchens forståelse af teknologi ikke følger med den faktiske teknologiudvikling.

Arven: fra LSA til embeddings

LSA var den første praktiske implementering af idéen om at repræsentere ord og dokumenter i et kontinuert semantisk rum. Det er den direkte konceptuelle forløber for Word2Vec, GloVe og de moderne embeddings der driver semantisk søgning og RAG-systemer. Springer man fra LSA til Word2Vec til transformer-embeddings, ser man en kontinuert forbedring af den grundlæggende idé — ikke et brud. → Denne artikel er en del af Generativ AI-historik — Fra spintax til sprogmodeller.

Andre artikler i samme emne

Ofte stillede spørgsmål

Hvad er Latent Semantic Analysis (LSA)?
Latent Semantic Analysis er en matematisk metode fra 1988 til at afdække skjulte semantiske relationer i store tekstsamlinger via matrixfaktorisering (Singular Value Decomposition). Teknikken bygger på observation af at ord der optræder i de samme dokumenter sandsynligvis er semantisk relaterede. Den bygger en term-dokument-matrix og reducerer dimensionerne til et lavdimensionalt semantisk rum, hvor ord og dokumenter der er semantisk relaterede havner tæt på hinanden — selv uden at optræde i de samme sætninger.
Er 'LSI keywords' et reelt SEO-begreb?
Nej — 'LSI keywords' er et misvisende SEO-begreb uden grundlag i, hvordan Google faktisk fungerer. Google har aldrig bekræftet at de bruger LSA/LSI. John Mueller fra Google har eksplicit afvist begrebet 'LSI keywords' som ikke-eksisterende i Googles systemer. Googles tilgang til semantisk forståelse er baseret på neurale netværk og transformer-arkitektur — fundamentalt anderledes end LSA. LSI-keywords som SEO-begreb er et eksempel på at branchens teknologiforståelse ikke fulgte med den faktiske teknologiudvikling.
Hvad er LSAs relation til moderne embeddings?
LSA var den første praktiske implementering af idéen om at repræsentere ord og dokumenter i et kontinuert semantisk rum via matematisk reduktion. Det er den direkte konceptuelle forløber for Word2Vec (2013), GloVe (2014) og de moderne transformer-embeddings der driver semantisk søgning og RAG-systemer. Springer man fra LSA til Word2Vec til BERT til moderne embeddings, ser man en kontinuert forbedring af den grundlæggende idé — ikke et brud: semantiske relationer repræsenteres matematisk, men med stadigt mere præcise og kontekstuelle metoder.
Bruges LSA-relaterede teknikker stadig i moderne søgemaskiner?
LSA i sin originale form er erstattet i moderne søgemaskiner, men de matematiske principper bag er ikke forsvundet. Dimensionsreduktion som koncept lever videre i neurale embeddings. Topic modelling via LDA (Latent Dirichlet Allocation) — en probabilistisk afstikker fra LSA — bruges stadig i indholdskategorisering og topical analysis. For SEO-praktikere er den praktiske relevans begrænset til at forstå begrebshistorien bag semantisk søgning og at erkende at LSI-keyword-begrebet er baseret på forældet teknologiforståelse.
Hvad er Singular Value Decomposition (SVD) og hvorfor er det kernen i LSA?
SVD er en lineær algebra-teknik der dekomponerer en matrix i tre komponenter der tilsammen rekonstruerer originalen. I LSA-konteksten dekomponeres term-dokument-matrixen og reduceres til et lavdimensionalt rum der bevarer de vigtigste semantiske mønstre — og eliminerer 'støj' fra tilfældig co-occurrence. Det er den matematiske mekanisme der gør det muligt at finde semantiske relationer der ikke er synlige i rå frekvensdata. Moderne neural embedding-træning har erstattet SVD med gradient descent, men konceptet om at komprimere høj-dimensional data til meningsfulde lave dimensioner er det samme.

Placering i ordbogen