Artikel

RAG — Retrieval-Augmented Generation forklaret

RAG henter relevant indhold via embeddings-søgning og injicerer det i LLM-konteksten. Alternativ til fine-tuning der er billigere, opdateres dynamisk og reducerer hallucination.

RAG — Retrieval-Augmented Generation — er en arkitektur der kombinerer en LLM med et søgesystem. I stedet for at forvente at modellen har al relevant viden “bagt ind” under træning, henter systemet det relevante indhold dynamisk og injicerer det i prompten som kontekst.

Flowet: bruger stiller et spørgsmål → spørgsmålet konverteres til en embedding-vektor → vektordatabasen søges for semantisk lignende dokumenter → de mest relevante dokumenter injiceres i prompten → LLM’en genererer svar baseret på kombinationen af spørgsmål og hentet kontekst.

Hvorfor RAG frem for fine-tuning

Fine-tuning træner modellen direkte på dine data — men det er dyrt, tidskrævende og producerer en statisk model der ikke kender til data fra efter træningen. RAG løser alle tre problemer:

Dynamisk opdatering: Tilføj et nyt dokument til vektordatabasen og systemet kender til det øjeblikkeligt — ingen gentrænning.

Kildetransparens: RAG-systemer kan citere de konkrete dokumenter der lå til grund for svaret. Det muliggør verifikation og reducerer blind tillid til output.

Lavere hallucination: Når modellen har relevant faktuel kontekst injiceret i prompten, er den langt mindre tilbøjelig til at fabricere information. Modellen instrueres til at basere sit svar på den fremsendte kontekst.

Lavere omkostning: Fine-tuning af en stor model koster titusinder af dollars. En vektordatabase og embedding-API’er er brøkdelen.

Vektordatabaser og embeddings i RAG

Kernen i retrieval-steget er embeddings og vektordatabaser. Hvert dokument konverteres til en embedding-vektor og gemmes i en database som Pinecone, Weaviate, Chroma eller pgvector. Ved søgning konverteres spørgsmålet til en vektor og de nærmeste vektorer (cosine similarity eller dot product) hentes.

Kvaliteten af retrieval-steget er afgørende for systemets samlede kvalitet. En perfekt LLM kan ikke generere godt output baseret på dårligt hentet kontekst — “garbage in, garbage out” gælder fuldt ud.

RAG og Googles AI Overviews

Google AI Overviews er i essensen et RAG-system i masseskala: Googles indeks er vektordatabasen, søgealgoritmerne er retrieval-steget og en Gemini-model genererer det opsummerende svar baseret på hentet indhold.

Det er denne arkitektur der giver RAG-systemernes udfordring og mulighed for SEO: dine sider skal retrieves (synlighed i indekset) og de skal være de bedste kandidater til at blive injiceret som kontekst (autoritet, præcision, citérbarhed). Klassisk SEO og AI-synlighed konvergerer i RAG-arkitekturen.

Andre artikler i samme emne

Placering i ordbogen