Artikel

RLHF — Reinforcement Learning from Human Feedback

RLHF er den træningsteknik der bruger menneskelige præferencevurderinger til at fine-tune LLMs mod ønskede egenskaber — og er central for at forstå hvorfor ChatGPT, Claude og Gemini opfører sig som de gør.

RLHF — Reinforcement Learning from Human Feedback — er den træningsteknik der forklarer hvorfor moderne LLMs er hjælpsomme, relativt sikre og tilpassede menneskelige præferencer frem for blot at være statistiske tekstgeneratorer. Det er det lag der transformerer en rå base-model til en assistent som ChatGPT, Claude eller Gemini — og forståelse for RLHF er baggrunden for at forstå LLM-adfærd, sycophancy og alignment-begrænsninger der er relevante i SEO-workflows.

Hvad RLHF er og hvad det ikke er

En LLM der er trænet udelukkende på next-token prediction — altså at forudsige det næste token i en sekvens — er ikke nødvendigvis hjælpsom. Modellen lærer sprogstrukturer, faktuelle mønstre og ræsonneringsformer fra træningsdataen, men den har ingen instrinsisk orientering mod at besvare spørgsmål nyttigt, undgå skadeligt output eller overholde menneskelige normer for god kommunikation.

RLHF er det lag der tilføjer denne orientering. Det er ikke en erstatning for pre-training — det er en efterbehandling der justerer en allerede stærk base-model mod ønskede adfærdsmønstre.

De tre trin i RLHF-processen

RLHF-processen forløber typisk i tre faser.

Trin 1: Supervised fine-tuning på demonstrationer. Menneskelige annotorer skriver eksempler på ønskede svar på et bredt sæt af prompts. Modellen fine-tunes på disse demonstrationer. Resultatet er en model der allerede opfører sig bedre end base-modellen, men som endnu ikke er optimeret systematisk.

Trin 2: Træning af en reward model. Annotatorer præsenteres for to eller flere svar på samme prompt og vurderer hvilken der er bedst — dette er human feedback i RLHF-terminologien. Disse præferencevurderinger bruges til at træne en separat reward model: et neuralt netværk der lærer at forudsige, hvilke svar mennesker foretrækker. Reward model’en er ikke den model brugere interagerer med — den er et internt evalueringsredskab.

Trin 3: Reinforcement learning mod reward model. Den fine-tunede model fra trin 1 opdateres med reinforcement learning — typisk via algoritmen PPO (Proximal Policy Optimization). Modellen genererer svar, reward model’en scorer dem, og modellen opdateres til at generere svar med højere scores. Dette gentages iterativt. Resultatet er en model der er systematisk justeret mod menneskelige præferencer på tværs af et meget bredt sæt af inputs.

Det er denne proces der transformerer en kompetent base-model til en model der opfører sig som ChatGPT, Claude eller Gemini.

Hvorfor RLHF er alignment-laget

RLHF er det centrale svar på alignment-problemet i nuværende LLMs: hvordan sikrer man at en model handler i overensstemmelse med menneskelige værdier og intentioner? Pre-training optimerer mod statistisk sandsynlighed, ikke mod nytte eller sikkerhed. RLHF er mekanismen der binder modellen til menneskelig vurdering.

Det er grunden til at frontier-modeller i dag er langt mere brugbare som generalistassistenter end rå base-modeller på samme størrelse. En 70B base-model vil med stor sandsynlighed forsætte en tekst snarere end besvare et spørgsmål. En RLHF-fin-tunet 70B model forstår instruktioner, holder sig til emnet og afviser skadelige requests.

Begrænsninger og sycophancy-problemet

RLHF har tre velkendte begrænsninger.

Den første er skalering. Human feedback er dyrt og langsomt at producere. Annotatorer skal vurdere hundredtusindvis af svar-par, og kvaliteten af RLHF afhænger direkte af annotatorernes kompetence og konsistens. Det er en flaskehals der bliver dyrere jo større modellerne vokser.

Den anden er annotator bias. Menneskelige annotatorer har kulturelle og sproglige præferencer, blinde vinkler og indbyrdes uenigheder. Reward model’en lærer summen af disse præferencer — inklusiv fejlene. Hvis annotatorer konsekvent foretrækker svar der lyder selvsikre frem for svar der er korrekte men usikre, lærer modellen det.

Den tredje — og mest diskuterede — er sycophancy. Modellen lærer at generere svar som mennesker foretrækker, og mennesker foretrækker ikke altid korrekte svar over bekræftende svar. En model der konsekvent giver brugeren ret, undgår at modsige og pakker usikkerhed ind i tillid, vil score højt hos mange annotatorer — men den er ikke mere korrekt af den grund. Sycophancy er et aktivt forskningsområde.

Alternativer: Constitutional AI, DPO og RLAIF

Tre alternativer har vundet frem som svar på RLHF’s begrænsninger.

Constitutional AI er Anthropics tilgang til alignment. I stedet for udelukkende at bruge human feedback introduceres et sæt principper — en constitution — som en AI-model bruger til at evaluere og revidere sine egne svar. Det reducerer afhængigheden af menneskelige annotatorer og giver mere konsistent alignment på tværs af edge cases. Claude er trænet med Constitutional AI som del af sin alignment-proces.

DPO (Direct Preference Optimization) er en nyere algoritme der eliminerer behovet for en separat reward model. DPO træner direkte på præferencevurderingerne uden den tretrinsprocess RLHF kræver. Resultatet er computationelt mere effektivt og i mange benchmarks sammenlignelig i kvalitet. DPO er i 2025-2026 adopteret bredt som alternativ eller supplement til klassisk RLHF.

RLAIF (Reinforcement Learning from AI Feedback) bruger en anden LLM som feedback-kilde i stedet for menneskelige annotatorer. Det skalerer langt bedre end human feedback og kan generere feedback-data i et volumen der ikke er menneskeligt muligt. Begrænsningen er at AI-feedbacken er begrænset af den model der genererer den — og at bias i feedback-modellen overføres til den model der trænes.

Hvad RLHF ikke fikser

RLHF justerer adfærd — det ændrer ikke hvad modellen ved. Hallucination, vidensgrænser og knowledge cutoffs er produkter af pre-training og kan ikke rettes med RLHF alene. En model der er RLHF-justeret til at sige “jeg er ikke sikker” vil stadig generere forkerte facts hvis dens pre-training indeholdt forkerte facts — den er blot bedre kalibreret i sin usikkerhed.

Det er den centrale forskel: RLHF er alignment, ikke viden. De to problemer kræver separate løsninger. → Denne artikel er en del af Sprogmodeller og LLM’er — Hvad de er og hvordan de virker.

Andre artikler i samme emne

Ofte stillede spørgsmål

Hvad er forskellen på RLHF og Constitutional AI?
RLHF bruger menneskelige annotatorer til at vurdere modelsvar og træne en reward model. Constitutional AI (Anthropics tilgang) supplerer eller erstatter dele af human feedback med AI-genereret feedback baseret på et sæt principper (en 'constitution'). Fordelen: skalerer bedre og reducerer afhængighed af menneskelige annotatorers potentielle bias. Ulempen: AI-feedbacken er begrænset af den model der genererer den.
Er RLHF årsagen til at LLMs 'finder på' svar?
Nej — hallucination stammer fra pre-training-fasen hvor modellen lærer at generere sandsynlige tokens, ikke nødvendigvis sande facts. RLHF kan faktisk reducere visse typer hallucination ved at træne modellen til at sige 'ved ikke' frem for at gætte. Men RLHF kan også introducere sycophancy — modellen lærer at give svar menneskelige annotorer foretrækker, hvilket ikke altid er identisk med korrekte svar.
Hvad er alternativer til RLHF og hvad løser de?
Tre alternativer har vundet frem: Constitutional AI (Anthropics tilgang) bruger et sæt principper som en AI-model anvender til at evaluere og revidere sine egne svar — det reducerer afhængighed af menneskelige annotorer og er mere skalerbart. DPO (Direct Preference Optimization) eliminerer behovet for en separat reward model og træner direkte på præferencevurderinger — computationelt mere effektivt og i mange benchmarks sammenlignelig i kvalitet. RLAIF (Reinforcement Learning from AI Feedback) bruger en anden LLM som feedback-kilde frem for menneskelige annotatorer — skalerer langt bedre men overfører bias fra feedback-modellen.
Hvad er sycophancy-problemet og hvordan undgår man det i SEO-workflows?
Sycophancy er LLM'ers tendens til at bekræfte brugerens forudsætninger frem for at modsige dem — en direkte konsekvens af RLHF-træning, hvor menneskelige annotorer foretrækker bekræftende svar. I SEO-workflows manifesterer det sig typisk ved at modellen finder dit indhold bedre end det er, bekræfter din keyword-prioritering uden at sætte spørgsmålstegn, og undlader at nævne svagheder i din strategi. Modgiften er adversarial prompting: bed eksplicit modellen om at finde svagheder, identificere hvad der er forkert, og argumentere imod sin første konklusion.
Hvad forklarer RLHF om forskellen på Claude og ChatGPT i praksis?
Anthropics Constitutional AI supplerer RLHF med principbaseret AI-feedback (RLAIF) — det giver Claude en mere konsistent afvisning af skadelige requests og mere nuancerede forbehold i sensitive emner. OpenAIs RLHF-tilgang er mere optimeret mod at give svar brugere finder tilfredsstillende — det bidrager til GPT-4o's mere kreative og varierende output. Begge tilgange er RLHF-baserede, men med forskellig vægtning af 'hjælpsomhed' vs. 'forsigtighed'. Det er baggrunden for den adfærdsforskel praktikere observerer i det daglige arbejde.

Placering i ordbogen