Word2Vec og tidlige embeddings — Da ord fik retning i vektorrum
Word2Vec (2013) lærte ordvektorer via et neurnalt netværk — king - man + woman ≈ queen. Det første praktiske bevis på at neurale embeddings fanger semantisk mening.
Word2Vec er et neuralt netværk publiceret af Tomas Mikolov og kolleger fra Google i 2013. Det var ikke det første forsøg på neurale ordrepræsentationer, men det første der kombinerede høj kvalitet med praktisk skalerbarhed — og dermed det der bragte distribuerede ordrepræsentationer ind i mainstream NLP.
Det centrale bidrag: hvert ord repræsenteres som en vektor med typisk 100-300 dimensioner, og vektorer for semantisk relaterede ord ligger tæt på hinanden i det matematiske rum. Mere end det: relationerne er algebraisk konsistente. Den berømte demonstration: vektor(king) - vektor(man) + vektor(woman) ≈ vektor(queen). Semantiske og syntaktiske relationer var ikke bare proximity — de var retning.
Hvordan Word2Vec lærer
Word2Vec trænes via to arkitekturer:
CBOW (Continuous Bag of Words): Forudsig et ord givet dets kontekstord. Input: de omgivende ord. Output: det midterste ord.
Skip-gram: Det omvendte — forudsig kontekstordene givet et enkelt ord. Skip-gram fungerer bedre for sjældne ord og er den mest brugte arkitektur.
Hverken CBOW eller Skip-gram er faktisk sproggenerering. Det er en proxy-opgave der tvinger netværket til at lære nyttige repræsentationer som biprodukt.
GloVe og FastText
Word2Vec fik hurtigt konkurrenter. GloVe (Global Vectors, Stanford 2014) kombinerede fordele fra LSA og Word2Vec ved at træne direkte på global co-occurrence-statistik frem for lokale kontekstvinduer. Resulterede i marginalt bedre embeddings på visse benchmarks.
FastText (Facebook/Meta 2016) gik et skridt videre ved at repræsentere ord som summer af karakter-n-gram vektorer. Det betød at modellen kunne håndtere ord den aldrig havde set under træning — afgørende for morfologisk rige sprog som dansk.
Begrænsningen: kontekstuafhængige vektorer
Word2Vec og GloVe producerer ét embedding per ord — uanset kontekst. “Bank” har ét embedding hvad enten det drejer sig om en pengeinstitution eller en flodbredde. Det er en fundamental begrænsning.
Løsningen kom med ELMo (2018) og BERT (2018): kontekstuelle embeddings der producerer unikke vektorer per ord per kontekst baseret på hele omgivende sætningen. Det krævede transformer-arkitektur — og markerede overgangen fra pre-LLM NLP til det der skulle blive fundamentet for moderne sprogmodeller.
Relevansen for moderne SEO
Word2Vec og dets efterfølgere er stadig i brug i semantiske søgesystemer, content clustering tools og keyword-research software. Forståelsen af at søgeord og emner eksisterer i vektorrum — og at nærhed i det rum svarer til semantisk relation — er direkte anvendelig i topical authority-strategier og semantisk indholdsoptimering.
Andre artikler i samme emne
- Article spinning — Automatisk omskrivning og SEO-misbrug
- ELIZA og tidlige chatbots — Regelstyret AI før maskinlæring
- GPT-2 og tidlig generativ AI — Springet til transformer-baseret tekstgenerering
- Latent Semantic Analysis — Semantik uden neurale netværk
- Markov-kæder — Statistisk tekstgenerering uden sproglig forståelse
- RSS-scraping og auto-content — Da feeds blev indholdsfabrikker
- Spintax — Spin Syntax og skabelon-baseret tekstvariation
Placering i ordbogen
- Article spinning — Automatisk omskrivning og SEO-misbrug
- ELIZA og tidlige chatbots — Regelstyret AI før maskinlæring
- GPT-2 og tidlig generativ AI — Springet til transformer-baseret tekstgenerering
- Latent Semantic Analysis — Semantik uden neurale netværk
- Markov-kæder — Statistisk tekstgenerering uden sproglig forståelse
- RSS-scraping og auto-content — Da feeds blev indholdsfabrikker
- Spintax — Spin Syntax og skabelon-baseret tekstvariation