Question 1

Hvad er RAG (Retrieval-Augmented Generation)?

Accepted Answer

RAG er en arkitektur der kombinerer en LLM med et søgesystem. Flowet: bruger stiller et spørgsmål → spørgsmålet konverteres til en embedding-vektor → en vektordatabase søges for semantisk lignende dokumenter → de mest relevante dokumenter injiceres i prompten som kontekst → LLM'en genererer et svar baseret på kombinationen af spørgsmål og hentet kontekst. Resultatet er en model der kan svare baseret på aktuel, verificerbar information fremfor hvad den 'husker' fra træning.

Question 2

Hvad er fordelen ved RAG frem for fine-tuning?

Accepted Answer

RAG har tre primære fordele over fine-tuning: dynamisk opdatering (tilføj et dokument til vektordatabasen og systemet kender til det øjeblikkeligt uden gentrænning), kildetransparens (RAG-systemer kan citere de konkrete dokumenter der lå til grund for svaret), og lavere hallucination (modellen baserer sit svar på injiceret faktuel kontekst frem for statistiske mønstre fra træning). Fine-tuning koster mere, er statisk og løser ikke hallucinationsproblemet.

Question 3

Hvordan er Googles AI Overviews et RAG-system?

Accepted Answer

Google AI Overviews fungerer i essensen som RAG i masseskala: Googles søgeindeks er vektordatabasen, søgealgoritmerne er retrieval-steget der finder de mest relevante dokumenter, og en Gemini-model genererer det opsummerende svar baseret på hentet indhold. Det betyder at SEO og AI-synlighed konvergerer i RAG-arkitekturen — dine sider skal både retrieves (indekseres og rangeres) og være de bedste kandidater til at blive injiceret som kontekst (faktuel præcision, autoritet, klar struktur).

Question 4

Hvad er chunk-strategien i RAG og hvorfor er den vigtig?

Accepted Answer

Chunking er processen at opdele dokumenter i passende stykker inden de embeddes og gemmes i vektordatabasen. For lille chunks (enkeltlinjer) mister man kontekst; for store chunks (hele dokumenter) fortyndes det specifikke indhold og retrieval-præcisionen falder. En typisk effektiv chunk-størrelse er 200-500 tokens med overlap på 20-50 tokens mellem chunks. Valget af chunk-strategi er en af de vigtigste tuning-parametre i et RAG-system — dårlig chunking degraderer output-kvalitet selv med en god LLM og embedding-model.

Question 5

Hvornår er RAG bedre end en meget lang prompt med hele dokumentet?

Accepted Answer

Med Claudes 200k tokens og Geminis 1M tokens context window kan man i nogle cases sende hele dokumentet som kontekst frem for at bygge et RAG-system. RAG er bedre når: vidensbasen er større end det praktiske context window (f.eks. alle blogindlæg de seneste 5 år), dokumentsamlingen opdateres hyppigt og skal reflekteres uden nyt API-kald, præcis kildeattribution er krævet per svar, og cost per token er en begrænsende faktor ved meget dyre modeller. Direkte kontekst er enklere og foretrækkes for overskulige datasæt.

RAG — Retrieval-Augmented Generation forklaret

Hvorfor RAG frem for fine-tuning

Dynamisk opdatering

Kildetransparens

Lavere hallucination

Lavere omkostning

Vektordatabaser og embeddings i RAG

RAG og Googles AI Overviews

Andre artikler i samme emne

Ofte stillede spørgsmål

Placering i ordbogen