Artikel

Word2Vec og tidlige embeddings — Da ord fik retning i vektorrum

Word2Vec (2013) lærte ordvektorer via et neurnalt netværk — king - man + woman ≈ queen. Det første praktiske bevis på at neurale embeddings fanger semantisk mening.

Word2Vec er et neuralt netværk publiceret af Tomas Mikolov og kolleger fra Google i 2013. Det var ikke det første forsøg på neurale ordrepræsentationer, men det første der kombinerede høj kvalitet med praktisk skalerbarhed — og dermed det der bragte distribuerede ordrepræsentationer ind i mainstream NLP.

Det centrale bidrag: hvert ord repræsenteres som en vektor med typisk 100-300 dimensioner, og vektorer for semantisk relaterede ord ligger tæt på hinanden i det matematiske rum. Mere end det: relationerne er algebraisk konsistente. Den berømte demonstration: vektor(king) - vektor(man) + vektor(woman) ≈ vektor(queen). Semantiske og syntaktiske relationer var ikke bare proximity — de var retning.

Hvordan Word2Vec lærer

Word2Vec trænes via to arkitekturer:

CBOW (Continuous Bag of Words): Forudsig et ord givet dets kontekstord. Input: de omgivende ord. Output: det midterste ord.

Skip-gram: Det omvendte — forudsig kontekstordene givet et enkelt ord. Skip-gram fungerer bedre for sjældne ord og er den mest brugte arkitektur.

Hverken CBOW eller Skip-gram er faktisk sproggenerering. Det er en proxy-opgave der tvinger netværket til at lære nyttige repræsentationer som biprodukt.

GloVe og FastText

Word2Vec fik hurtigt konkurrenter. GloVe (Global Vectors, Stanford 2014) kombinerede fordele fra LSA og Word2Vec ved at træne direkte på global co-occurrence-statistik frem for lokale kontekstvinduer. Resulterede i marginalt bedre embeddings på visse benchmarks.

FastText (Facebook/Meta 2016) gik et skridt videre ved at repræsentere ord som summer af karakter-n-gram vektorer. Det betød at modellen kunne håndtere ord den aldrig havde set under træning — afgørende for morfologisk rige sprog som dansk.

Begrænsningen: kontekstuafhængige vektorer

Word2Vec og GloVe producerer ét embedding per ord — uanset kontekst. “Bank” har ét embedding hvad enten det drejer sig om en pengeinstitution eller en flodbredde. Det er en fundamental begrænsning.

Løsningen kom med ELMo (2018) og BERT (2018): kontekstuelle embeddings der producerer unikke vektorer per ord per kontekst baseret på hele omgivende sætningen. Det krævede transformer-arkitektur — og markerede overgangen fra pre-LLM NLP til det der skulle blive fundamentet for moderne sprogmodeller.

Relevansen for moderne SEO

Word2Vec og dets efterfølgere er stadig i brug i semantiske søgesystemer, content clustering tools og keyword-research software. Forståelsen af at søgeord og emner eksisterer i vektorrum — og at nærhed i det rum svarer til semantisk relation — er direkte anvendelig i topical authority-strategier og semantisk indholdsoptimering.

Andre artikler i samme emne

Placering i ordbogen