Artikel

Crawl budget — Hvordan Google prioriterer din crawling

Crawl budget er den mængde crawling Googlebot bruger på dit site — forstå hvad der spilder det og hvordan du optimerer.

Googlebot har ikke ubegrænsede ressourcer. For ethvert site opererer Google med et crawl budget — en implicit grænse for, hvor mange sider Googlebot vil crawle inden for en given periode. For de fleste mindre sites er crawl budget ikke en flaskehals, men for store sites med tusindvis af sider kan det være en kritisk teknisk faktor.

Hvad er crawl budget?

Crawl budget er summen af to faktorer, som Google selv har beskrevet.

Crawl rate limit

Crawl rate limit er den hastighed, Googlebot kan crawle dit site med uden at overbelaste serveren. Googlebot justerer tempoet baseret på din servers responstid og fejlrate.

Crawl demand

Crawl demand er, hvor meget Google ønsker at crawle dit site, baseret på popularitet og opdateringsfrekvens. Populære, hyppigt opdaterede sider crawles oftere.

Det effektive crawl budget er balancen mellem disse to faktorer.

Hvad spilder dit crawl budget?

Googlebot bruger crawl budget på alt, den besøger — også sider, der ikke bør indekseres. Typiske årsager til spild:

  • Duplicate content — URL-parametre der skaber tusindvis af URL-varianter med identisk indhold
  • Facetteret navigation — e-handelssites med kombinationer af filtre der genererer nye URL’er
  • Redirect chains — lange omdirigeringskæder forsinker og spilder crawler-kapacitet
  • Fejlsider (4xx/5xx) — Googlebot bruger tid på sider der ikke eksisterer
  • Thin content-sider — sider uden reelt indhold der alligevel crawles
  • Session-ID’er i URL’er — unikt session-ID pr. besøg skaber unikke URL’er

Optimering af crawl budget

Robots.txt

Bloker sektioner der aldrig bør crawles — admin-sider, interne søgninger og URL-parametre der ikke producerer unikt indhold. Det er den hurtigste måde at stoppe Googlebot i at spilde budget på irrelevante URLs.

Canonical tags

Canonical tags hjælper Google med at forstå hvilken URL der er den primære, så varianter ikke tæller separat i crawl-budgettet. Særligt vigtigt på e-handelssites med filternavigation.

XML sitemap

En ren sitemap med kun indeksérbare sider hjælper Google med at prioritere crawling af det vigtige indhold. Sider der returnerer 404 eller er sat til noindex hører ikke hjemme i sitemappen.

HTTP-statuskoder

Ret 404-sider og fjern redirect chains. En enkelt 301 er OK; en kæde som 301→302→301 spilder crawler-kapacitet og bør samles i én direkte omdirigering.

Intern linkstruktur

Sider med mange interne links crawles hyppigere. Sørg for at dine vigtigste sider er vellinket fra andre centrale sider på sitet — det signalerer prioritet til Googlebot.

Hvornår er crawl budget en reel udfordring?

For sites med under 1.000 sider er crawl budget sjældent et problem — Google vil crawle dem alle. Det bliver relevant når:

  • Sitet har over 10.000 URL’er
  • Nyt indhold indekseres langsomt eller ikke i det hele taget
  • Google Search Console viser “Discovered — currently not indexed” på mange sider

Crawl budget er et symptom på en dybere teknisk sundhed. Sites med ren URL-struktur, god intern linking og hurtige servere har sjældent crawl budget-problemer. → Denne artikel er en del af Crawling og indeksering — Sådan læser Google din kode.

Andre artikler i samme emne

Ofte stillede spørgsmål

Hvad er crawl budget?
Crawl budget er den mængde ressourcer Googlebot allokerer til at crawle et bestemt website inden for et givet tidsrum. Det er kombinationen af crawl capacity limit (hvor hurtigt Googlebot kan crawle uden at overbelaste serveren) og crawl demand (Googles vurdering af hvor mange sider på sitet der er værd at crawle). For de fleste websites er crawl budget ikke en flaskehals, men for store sites med tusindvis af sider er det en konkret SEO-faktor.
Hvad spilder crawl budget?
De hyppigste årsager til spild af crawl budget er: Facetterede URL'er og filtrerings-parametre der genererer tusindvis af næsten-identiske URL-varianter. Redirect chains der kræver Googlebot at følge flere hop. Soft 404-sider der returnerer 200-statuskode men ingen indholdsmæssig relevans. Duplikat-indhold fra parametre, www vs ikke-www og HTTP vs HTTPS. Blokeret JavaScript der tvinger Googlebot til at forsøge rendering af sider der alligevel er utilgængelige. Og sider med thin content Google vurderer som lav-prioritet.
Hvornår er crawl budget vigtigt at optimere?
Crawl budget er primært relevant for store websites med mange sider: e-commerce sites med mange produktvarianter og filtreringsURLer, nyhedsmedier der publicerer hundredvis af artikler dagligt, og websites med mange interne søgeresultater og parameteriserede URL'er. For små og mellemstore sites med god intern linking og stærk autoritet crawler Google typisk alle vigtige sider uanset crawl budget-overvejelser. Tegn på crawl budget-problemer er at nye sider indekseres langsomt eller slet ikke på trods af god indholdskvalitet.
Hvad er crawl rate limit og kan jeg justere det?
Crawl rate limit er den hastighed Googlebot crawler dit site med, selvpålagt for ikke at overbelaste serveren. Google justerer automatisk baseret på serverens svartid og fejlrate. I Google Search Console kan du under Indstillinger begrænse Googlebots crawl-hastighed, men du kan ikke øge den ud over hvad Google selv fastsætter. Langsom server og mange 5xx-fejl reducerer crawl rate automatisk.
Hvad er soft 404 og hvad har det med crawl budget at gøre?
En soft 404 er en side der returnerer HTTP-statuskode 200 men indeholder intet eller meget lidt indhold — for eksempel en 'Ingen resultater fundet'-side i en intern søgning. Google registrerer den som en reel side, bruger crawl budget på den og forsøger at indeksere den. Google Search Console rapporterer soft 404'er under Indexing. Korrekte 404-statuskoder eller robots.txt-blokering af interne søgesider løser problemet.

Placering i ordbogen