Word2Vec og tidlige embeddings — Da ord fik retning i vektorrum
Word2Vec (2013) lærte ordvektorer via et neurnalt netværk — king - man + woman ≈ queen. Det første praktiske bevis på at neurale embeddings fanger semantisk mening.
Word2Vec er et neuralt netværk publiceret af Tomas Mikolov og kolleger fra Google i 2013. Det var ikke det første forsøg på neurale ordrepræsentationer, men det første der kombinerede høj kvalitet med praktisk skalerbarhed — og dermed det der bragte distribuerede ordrepræsentationer ind i mainstream NLP.
Det centrale bidrag: hvert ord repræsenteres som en vektor med typisk 100-300 dimensioner, og vektorer for semantisk relaterede ord ligger tæt på hinanden i det matematiske rum. Mere end det: relationerne er algebraisk konsistente. Den berømte demonstration: vektor(king) - vektor(man) + vektor(woman) ≈ vektor(queen). Semantiske og syntaktiske relationer var ikke bare proximity — de var retning.
Hvordan Word2Vec lærer
Word2Vec trænes via to arkitekturer.
CBOW (Continuous Bag of Words)
CBOW forudsiger et ord givet dets kontekstord: input er de omgivende ord, output er det midterste ord.
Skip-gram
Skip-gram er det omvendte — det forudsiger kontekstordene givet et enkelt ord. Skip-gram fungerer bedre for sjældne ord og er den mest brugte arkitektur i praksis.
Hverken CBOW eller Skip-gram er faktisk sproggenerering. Det er en proxy-opgave der tvinger netværket til at lære nyttige repræsentationer som biprodukt.
GloVe og FastText
Word2Vec fik hurtigt konkurrenter. GloVe (Global Vectors, Stanford 2014) kombinerede fordele fra LSA og Word2Vec ved at træne direkte på global co-occurrence-statistik frem for lokale kontekstvinduer. Resulterede i marginalt bedre embeddings på visse benchmarks.
FastText (Facebook/Meta 2016) gik et skridt videre ved at repræsentere ord som summer af karakter-n-gram vektorer. Det betød at modellen kunne håndtere ord den aldrig havde set under træning — afgørende for morfologisk rige sprog som dansk.
Begrænsningen: kontekstuafhængige vektorer
Word2Vec og GloVe producerer ét embedding per ord — uanset kontekst. “Bank” har ét embedding hvad enten det drejer sig om en pengeinstitution eller en flodbredde. Det er en fundamental begrænsning.
Løsningen kom med ELMo (2018) og BERT (2018): kontekstuelle embeddings der producerer unikke vektorer per ord per kontekst baseret på hele omgivende sætningen. Det krævede transformer-arkitektur — og markerede overgangen fra pre-LLM NLP til det der skulle blive fundamentet for moderne sprogmodeller.
Relevansen for moderne SEO
Word2Vec og dets efterfølgere er stadig i brug i semantiske søgesystemer, content clustering tools og keyword-research software. Forståelsen af at søgeord og emner eksisterer i vektorrum — og at nærhed i det rum svarer til semantisk relation — er direkte anvendelig i topical authority-strategier og semantisk indholdsoptimering. → Denne artikel er en del af Generativ AI-historik — Fra spintax til sprogmodeller.
Andre artikler i samme emne
- Article spinning — Automatisk omskrivning og SEO-misbrug
- ELIZA og tidlige chatbots — Regelstyret AI før maskinlæring
- GPT-2 og tidlig generativ AI — Springet til transformer-baseret tekstgenerering
- Latent Semantic Analysis — Semantik uden neurale netværk
- Markov-kæder — Statistisk tekstgenerering uden sproglig forståelse
- RSS-scraping og auto-content — Da feeds blev indholdsfabrikker
- Spintax — Spin Syntax og skabelon-baseret tekstvariation
- Tidlig AI-content spam — Spintax, Markov og fortidens fejl
Ofte stillede spørgsmål
- Hvad er Word2Vec og hvad var det revolutionerende ved det?
- Word2Vec er et neuralt netværk fra Google (2013) der repræsenterer hvert ord som en vektor med typisk 100-300 dimensioner, hvor semantisk relaterede ord ligger tæt på hinanden i det matematiske rum. Det revolutionerende var at semantiske relationer var algebraisk konsistente: vektor(king) - vektor(man) + vektor(woman) ≈ vektor(queen). Semantiske og syntaktiske relationer var ikke bare nærhed — de var retning. Det var det første neurale embedding-system der kombinerede høj kvalitet med praktisk skalerbarhed.
- Hvad er begrænsningen ved Word2Vec sammenlignet med moderne embeddings?
- Word2Vec producerer ét embedding per ord — uanset kontekst. 'Bank' har ét embedding hvad enten det drejer sig om en pengeinstitution eller en flodbredde. Det er en fundamental begrænsning. Løsningen kom med ELMo (2018) og BERT (2018): kontekstuelle embeddings der producerer unikke vektorer per ord per kontekst baseret på hele den omgivende sætning. Det krævede transformer-arkitektur og markerede overgangen fra pre-LLM NLP til fundamentet for moderne sprogmodeller.
- Hvad er Word2Vec relevant for i moderne SEO?
- Word2Vec og dets efterfølgere GloVe og FastText er stadig i brug i semantiske søgesystemer, content clustering tools og keyword-research software. Forståelsen af at søgeord og emner eksisterer i vektorrum — og at nærhed i det rum svarer til semantisk relation — er direkte anvendelig i topical authority-strategier og semantisk indholdsoptimering. Den konceptuelle arv fra Word2Vec er desuden tydelig i de moderne transformer-embeddings der driver RAG-systemer og semantisk søgning i 2026.
- Hvad er FastText og hvornår er det bedre end Word2Vec til dansk indhold?
- FastText (Meta/Facebook 2016) repræsenterer ord som summer af karakter-n-gram vektorer frem for hele ord som i Word2Vec. Det giver to konkrete fordele for dansk indhold: håndtering af ukendte ord (ord der ikke var i træningsdatasættet kan stadig embeddes via deres karakter-n-gram) og bedre håndtering af dansk morfologi (sammensatte ord som 'søgemaskineoptimering' dekomponeres til overlappende karakter-sekvenser der fanger dele af ordets semantik). For keyword-research-tools og klassificering af dansk webtekst er FastText eller dets efterfølgere stadig bedre end Word2Vec.
- Hvad er ELMo og hvad løste det som Word2Vec ikke kunne?
- ELMo (Embeddings from Language Models, Allen Institute 2018) introducerede kontekstuelle embeddings: hvert ord får en unik vektor baseret på den fulde omgivende kontekst, ikke ét fast embedding uanset sammenhæng som i Word2Vec. 'Bank' i 'banken ved floden' og 'banken godkendte lånet' får to fundamentalt forskellige ELMo-embeddings. Det var det afgørende skridt mellem Word2Vec og BERT — ELMo brugte en biretektional LSTM-arkitektur (ikke transformer), og BERT forbedrede det yderligere med full transformer-attention. ELMo er historisk vigtigt som det første brede kontekstuelle embedding-system men er i dag erstattet af transformer-baserede embeddings.
Placering i ordbogen
- Article spinning — Automatisk omskrivning og SEO-misbrug
- ELIZA og tidlige chatbots — Regelstyret AI før maskinlæring
- GPT-2 og tidlig generativ AI — Springet til transformer-baseret tekstgenerering
- Latent Semantic Analysis — Semantik uden neurale netværk
- Markov-kæder — Statistisk tekstgenerering uden sproglig forståelse
- RSS-scraping og auto-content — Da feeds blev indholdsfabrikker
- Spintax — Spin Syntax og skabelon-baseret tekstvariation
- Tidlig AI-content spam — Spintax, Markov og fortidens fejl