Latent Semantic Analysis — Semantik uden neurale netværk
LSA (Latent Semantic Analysis) finder semantiske relationer i tekst via SVD-matrixfaktorisering. Pre-neural semantisk forståelse — forløber for moderne embeddings.
Latent Semantic Analysis — også kaldet Latent Semantic Indexing (LSI) i søgemaskine-kontekst — er en matematisk metode til at afdække skjulte (latente) semantiske relationer i store tekstsamlinger. Den er fra 1988 og er fundamentalt anderledes end neural-netværksbaserede tilgange: ingen parametre der trænes, ingen gradient descent — kun lineær algebra.
Teknikken bygger på observation af at ord der optræder i de samme dokumenter sandsynligvis er semantisk relaterede. “Hund” og “hundehvalp” optræder hyppigt i de samme kontekster — LSA kan afdække den relation uden at kende noget som helst til ordenes betydning.
Hvordan LSA virker
- Byg en term-dokument-matrix: Rækker er ord, kolonner er dokumenter, celler er frekvenser (typisk TF-IDF-vægtede).
- Anvend Singular Value Decomposition (SVD): Reducerer matrixens dimensioner til et lavdimensionalt semantisk rum — typisk 100-500 dimensioner.
- Semantisk nærhed: Ord og dokumenter der havner tæt på hinanden i det reducerede rum er semantisk relaterede — selvom de aldrig optræder i de samme sætninger.
Resultatet er primitive embeddings: numeriske repræsentationer af ord der afspejler semantisk kontekst. Ikke nær så præcise som Word2Vec eller moderne transformer-embeddings, men langt bedre end simpel keywordmatchning.
LSI i SEO-kontekst — myten og virkeligheden
“LSI keywords” er et begreb der cirkulerede massivt i SEO-kredse i 2010’erne. Anbefalingen var at inkludere “LSI-relaterede søgeord” i indhold for at signalere topical relevance til Google.
Problemet: Google har aldrig bekræftet at de bruger LSA/LSI. John Mueller fra Google har eksplicit afvist begrebet “LSI keywords” som ikke-eksisterende i Googles systemer. Googles tilgang til semantisk forståelse er fundamentalt anderledes — baseret på neurale netværk og transformer-arkitektur.
LSI-keywords som SEO-begreb er dermed et eksempel på at branchens forståelse af teknologi ikke følger med den faktiske teknologiudvikling.
Arven: fra LSA til embeddings
LSA var den første praktiske implementering af idéen om at repræsentere ord og dokumenter i et kontinuert semantisk rum. Det er den direkte konceptuelle forløber for Word2Vec, GloVe og de moderne embeddings der driver semantisk søgning og RAG-systemer. Springer man fra LSA til Word2Vec til transformer-embeddings, ser man en kontinuert forbedring af den grundlæggende idé — ikke et brud. → Denne artikel er en del af Generativ AI-historik — Fra spintax til sprogmodeller.
Andre artikler i samme emne
- Article spinning — Automatisk omskrivning og SEO-misbrug
- ELIZA og tidlige chatbots — Regelstyret AI før maskinlæring
- GPT-2 og tidlig generativ AI — Springet til transformer-baseret tekstgenerering
- Markov-kæder — Statistisk tekstgenerering uden sproglig forståelse
- RSS-scraping og auto-content — Da feeds blev indholdsfabrikker
- Spintax — Spin Syntax og skabelon-baseret tekstvariation
- Tidlig AI-content spam — Spintax, Markov og fortidens fejl
- Word2Vec og tidlige embeddings — Da ord fik retning i vektorrum
Ofte stillede spørgsmål
- Hvad er Latent Semantic Analysis (LSA)?
- Latent Semantic Analysis er en matematisk metode fra 1988 til at afdække skjulte semantiske relationer i store tekstsamlinger via matrixfaktorisering (Singular Value Decomposition). Teknikken bygger på observation af at ord der optræder i de samme dokumenter sandsynligvis er semantisk relaterede. Den bygger en term-dokument-matrix og reducerer dimensionerne til et lavdimensionalt semantisk rum, hvor ord og dokumenter der er semantisk relaterede havner tæt på hinanden — selv uden at optræde i de samme sætninger.
- Er 'LSI keywords' et reelt SEO-begreb?
- Nej — 'LSI keywords' er et misvisende SEO-begreb uden grundlag i, hvordan Google faktisk fungerer. Google har aldrig bekræftet at de bruger LSA/LSI. John Mueller fra Google har eksplicit afvist begrebet 'LSI keywords' som ikke-eksisterende i Googles systemer. Googles tilgang til semantisk forståelse er baseret på neurale netværk og transformer-arkitektur — fundamentalt anderledes end LSA. LSI-keywords som SEO-begreb er et eksempel på at branchens teknologiforståelse ikke fulgte med den faktiske teknologiudvikling.
- Hvad er LSAs relation til moderne embeddings?
- LSA var den første praktiske implementering af idéen om at repræsentere ord og dokumenter i et kontinuert semantisk rum via matematisk reduktion. Det er den direkte konceptuelle forløber for Word2Vec (2013), GloVe (2014) og de moderne transformer-embeddings der driver semantisk søgning og RAG-systemer. Springer man fra LSA til Word2Vec til BERT til moderne embeddings, ser man en kontinuert forbedring af den grundlæggende idé — ikke et brud: semantiske relationer repræsenteres matematisk, men med stadigt mere præcise og kontekstuelle metoder.
- Bruges LSA-relaterede teknikker stadig i moderne søgemaskiner?
- LSA i sin originale form er erstattet i moderne søgemaskiner, men de matematiske principper bag er ikke forsvundet. Dimensionsreduktion som koncept lever videre i neurale embeddings. Topic modelling via LDA (Latent Dirichlet Allocation) — en probabilistisk afstikker fra LSA — bruges stadig i indholdskategorisering og topical analysis. For SEO-praktikere er den praktiske relevans begrænset til at forstå begrebshistorien bag semantisk søgning og at erkende at LSI-keyword-begrebet er baseret på forældet teknologiforståelse.
- Hvad er Singular Value Decomposition (SVD) og hvorfor er det kernen i LSA?
- SVD er en lineær algebra-teknik der dekomponerer en matrix i tre komponenter der tilsammen rekonstruerer originalen. I LSA-konteksten dekomponeres term-dokument-matrixen og reduceres til et lavdimensionalt rum der bevarer de vigtigste semantiske mønstre — og eliminerer 'støj' fra tilfældig co-occurrence. Det er den matematiske mekanisme der gør det muligt at finde semantiske relationer der ikke er synlige i rå frekvensdata. Moderne neural embedding-træning har erstattet SVD med gradient descent, men konceptet om at komprimere høj-dimensional data til meningsfulde lave dimensioner er det samme.
Placering i ordbogen
- Article spinning — Automatisk omskrivning og SEO-misbrug
- ELIZA og tidlige chatbots — Regelstyret AI før maskinlæring
- GPT-2 og tidlig generativ AI — Springet til transformer-baseret tekstgenerering
- Markov-kæder — Statistisk tekstgenerering uden sproglig forståelse
- RSS-scraping og auto-content — Da feeds blev indholdsfabrikker
- Spintax — Spin Syntax og skabelon-baseret tekstvariation
- Tidlig AI-content spam — Spintax, Markov og fortidens fejl
- Word2Vec og tidlige embeddings — Da ord fik retning i vektorrum