Latent Semantic Analysis — Semantik uden neurale netværk
LSA (Latent Semantic Analysis) finder semantiske relationer i tekst via SVD-matrixfaktorisering. Pre-neural semantisk forståelse — forløber for moderne embeddings.
Latent Semantic Analysis — også kaldet Latent Semantic Indexing (LSI) i søgemaskine-kontekst — er en matematisk metode til at afdække skjulte (latente) semantiske relationer i store tekstsamlinger. Den er fra 1988 og er fundamentalt anderledes end neural-netværksbaserede tilgange: ingen parametre der trænes, ingen gradient descent — kun lineær algebra.
Teknikken bygger på observation af at ord der optræder i de samme dokumenter sandsynligvis er semantisk relaterede. “Hund” og “hundehvalp” optræder hyppigt i de samme kontekster — LSA kan afdække den relation uden at kende noget som helst til ordenes betydning.
Hvordan LSA virker
- Byg en term-dokument-matrix: Rækker er ord, kolonner er dokumenter, celler er frekvenser (typisk TF-IDF-vægtede).
- Anvend Singular Value Decomposition (SVD): Reducerer matrixens dimensioner til et lavdimensionalt semantisk rum — typisk 100-500 dimensioner.
- Semantisk nærhed: Ord og dokumenter der havner tæt på hinanden i det reducerede rum er semantisk relaterede — selvom de aldrig optræder i de samme sætninger.
Resultatet er primitive embeddings: numeriske repræsentationer af ord der afspejler semantisk kontekst. Ikke nær så præcise som Word2Vec eller moderne transformer-embeddings, men langt bedre end simpel keywordmatchning.
LSI i SEO-kontekst — myten og virkeligheden
“LSI keywords” er et begreb der cirkulerede massivt i SEO-kredse i 2010’erne. Anbefalingen var at inkludere “LSI-relaterede søgeord” i indhold for at signalere topical relevance til Google.
Problemet: Google har aldrig bekræftet at de bruger LSA/LSI. John Mueller fra Google har eksplicit afvist begrebet “LSI keywords” som ikke-eksisterende i Googles systemer. Googles tilgang til semantisk forståelse er fundamentalt anderledes — baseret på neurale netværk og transformer-arkitektur.
LSI-keywords som SEO-begreb er dermed et eksempel på at branchens forståelse af teknologi ikke følger med den faktiske teknologiudvikling.
Arven: fra LSA til embeddings
LSA var den første praktiske implementering af idéen om at repræsentere ord og dokumenter i et kontinuert semantisk rum. Det er den direkte konceptuelle forløber for Word2Vec, GloVe og de moderne embeddings der driver semantisk søgning og RAG-systemer. Springer man fra LSA til Word2Vec til transformer-embeddings, ser man en kontinuert forbedring af den grundlæggende idé — ikke et brud.
Andre artikler i samme emne
- Article spinning — Automatisk omskrivning og SEO-misbrug
- ELIZA og tidlige chatbots — Regelstyret AI før maskinlæring
- GPT-2 og tidlig generativ AI — Springet til transformer-baseret tekstgenerering
- Markov-kæder — Statistisk tekstgenerering uden sproglig forståelse
- RSS-scraping og auto-content — Da feeds blev indholdsfabrikker
- Spintax — Spin Syntax og skabelon-baseret tekstvariation
- Word2Vec og tidlige embeddings — Da ord fik retning i vektorrum
Placering i ordbogen
- Article spinning — Automatisk omskrivning og SEO-misbrug
- ELIZA og tidlige chatbots — Regelstyret AI før maskinlæring
- GPT-2 og tidlig generativ AI — Springet til transformer-baseret tekstgenerering
- Markov-kæder — Statistisk tekstgenerering uden sproglig forståelse
- RSS-scraping og auto-content — Da feeds blev indholdsfabrikker
- Spintax — Spin Syntax og skabelon-baseret tekstvariation
- Word2Vec og tidlige embeddings — Da ord fik retning i vektorrum