Artikel

Markov-kæder — Statistisk tekstgenerering uden sproglig forståelse

Markov-kæder beregner sandsynligheder for næste ord baseret på de foregående ord. Tidlig statistisk tekstgenerering — semantisk blind men overraskende flydende i korte passager.

Sidst opdateret: 18. marts 2026

En Markov-kæde til tekstgenerering er en statistisk model der har lært sandsynligheder for ordsekvenser fra et tekstkorpus. Givet de seneste n ord beregner modellen hvilket ord der statistisk set oftest følger — og vælger det (eller trækker tilfældigt vægtet).

Det er fundamentalt anderledes end spintax. En Markov-model har ingen regler og ingen skabeloner. Den har lært mønstre fra data — og det giver output der flyder langt mere naturligt end spintax i korte sekvenser. Men den mangler enhver form for semantisk forståelse eller langsigtet sammenhæng.

Første- og anden ordens Markov-kæder

En første ordens Markov-kæde ser kun på det seneste ord når det forudsiger næste. Det er tilstrækkeligt til at producere grammatisk plausible ordpar, men sætningerne hænger ikke logisk sammen.

En anden ordens kæde ser på de to foregående ord — bedre sammenhæng på sætningsniveau, stadig inkohærens over afsnit. Tredje og fjerde orden forbedrer kohærensen yderligere men øger risikoen for at modellen blot reproducerer sætninger fra træningsdata.

Praktisk eksempel: trænet på Wikipedia-artikler om geografi kan en Markov-kæde producere sætninger som “Landet har en befolkning på 4,2 millioner og grænser til bjergene mod nord” — grammatisk korrekt, statistisk sandsynlig, men faktamæssigt meningsløs uden kontekst.

Brugen i SEO-spam

I perioden 2008-2013 brugte black hat SEO-praktikere Markov-genereret tekst som et skridt op fra spintax. Resultatet var tekst der var sværere at klassificere som maskinproduceret end spintax-varianter — og som bestod af “naturlige” sætninger selvom de tilsammen sagde ingenting.

Typisk setup: Markov-modellen trænes på et legitimt tekstkorpus inden for nichen. Den genererer unikke artikler med overskrifter, indledninger og afsnit. Disse publiceres i massevis med søgeords-stuffing i title tags og headers.

Forholdet til moderne LLM’er

LLM’er løser præcis det problem Markov-kæder ikke kan: de har langsigtet kontekst (via attention-mekanismer) og semantisk forståelse (via distribuerede repræsentationer). Men det er den samme grundidé — forudsigelse af næste token baseret på foregående tokens — bare skaleret med milliarder af parametre og transformers i stedet for en simpel tabel.

At forstå Markov-kæder giver en intuitiv forståelse for hvad en LLM i bund og grund gør — og hvorfor dybere kontekst er afgørende for sammenhængende output.

Del af: Generativ AI-historik — Fra spintax til sprogmodeller →

Andre artikler i samme emne

Placering i ordbogen

AI-modeller — LLM'er, Claude, ChatGPT og agentic workflows

Generativ AI-historik — Fra spintax til sprogmodeller

Markov-kæder — Statistisk tekstgenerering uden sproglig forståelse

Markov-kæder — Statistisk tekstgenerering uden sproglig forståelse

Første- og anden ordens Markov-kæder

Brugen i SEO-spam

Forholdet til moderne LLM’er

Andre artikler i samme emne

Relaterede begreber

Placering i ordbogen