RAG — Retrieval-Augmented Generation forklaret
RAG henter relevant indhold via embeddings-søgning og injicerer det i LLM-konteksten. Alternativ til fine-tuning der er billigere, opdateres dynamisk og reducerer hallucination.
RAG — Retrieval-Augmented Generation — er en arkitektur der kombinerer en LLM med et søgesystem. I stedet for at forvente at modellen har al relevant viden “bagt ind” under træning, henter systemet det relevante indhold dynamisk og injicerer det i prompten som kontekst.
Flowet: bruger stiller et spørgsmål → spørgsmålet konverteres til en embedding-vektor → vektordatabasen søges for semantisk lignende dokumenter → de mest relevante dokumenter injiceres i prompten → LLM’en genererer svar baseret på kombinationen af spørgsmål og hentet kontekst.
Hvorfor RAG frem for fine-tuning
Fine-tuning træner modellen direkte på dine data — men det er dyrt, tidskrævende og producerer en statisk model der ikke kender til data fra efter træningen. RAG løser alle tre problemer:
Dynamisk opdatering: Tilføj et nyt dokument til vektordatabasen og systemet kender til det øjeblikkeligt — ingen gentrænning.
Kildetransparens: RAG-systemer kan citere de konkrete dokumenter der lå til grund for svaret. Det muliggør verifikation og reducerer blind tillid til output.
Lavere hallucination: Når modellen har relevant faktuel kontekst injiceret i prompten, er den langt mindre tilbøjelig til at fabricere information. Modellen instrueres til at basere sit svar på den fremsendte kontekst.
Lavere omkostning: Fine-tuning af en stor model koster titusinder af dollars. En vektordatabase og embedding-API’er er brøkdelen.
Vektordatabaser og embeddings i RAG
Kernen i retrieval-steget er embeddings og vektordatabaser. Hvert dokument konverteres til en embedding-vektor og gemmes i en database som Pinecone, Weaviate, Chroma eller pgvector. Ved søgning konverteres spørgsmålet til en vektor og de nærmeste vektorer (cosine similarity eller dot product) hentes.
Kvaliteten af retrieval-steget er afgørende for systemets samlede kvalitet. En perfekt LLM kan ikke generere godt output baseret på dårligt hentet kontekst — “garbage in, garbage out” gælder fuldt ud.
RAG og Googles AI Overviews
Google AI Overviews er i essensen et RAG-system i masseskala: Googles indeks er vektordatabasen, søgealgoritmerne er retrieval-steget og en Gemini-model genererer det opsummerende svar baseret på hentet indhold.
Det er denne arkitektur der giver RAG-systemernes udfordring og mulighed for SEO: dine sider skal retrieves (synlighed i indekset) og de skal være de bedste kandidater til at blive injiceret som kontekst (autoritet, præcision, citérbarhed). Klassisk SEO og AI-synlighed konvergerer i RAG-arkitekturen.
Andre artikler i samme emne
- Embeddings — Semantisk mening som matematiske vektorer
- Fine-tuning — Hvornår du bør specialisere en AI-model
- Hallucination i LLM'er — Hvad det er og hvordan du håndterer det
- Kontekstvindue — Hvad context window er og hvad det betyder
- LLM Bias — Skævheder og fejl i AI-sprogmodeller
- Tokens og tokenisering — Hvad det er og hvorfor det betyder noget
- Transformer-arkitektur — Den tekniske grund under alle moderne LLM'er
Placering i ordbogen
- Embeddings — Semantisk mening som matematiske vektorer
- Fine-tuning — Hvornår du bør specialisere en AI-model
- Hallucination i LLM'er — Hvad det er og hvordan du håndterer det
- Kontekstvindue — Hvad context window er og hvad det betyder
- LLM Bias — Skævheder og fejl i AI-sprogmodeller
- Tokens og tokenisering — Hvad det er og hvorfor det betyder noget
- Transformer-arkitektur — Den tekniske grund under alle moderne LLM'er