Artikel

RSS-scraping og auto-content — Da feeds blev indholdsfabrikker

RSS-scraping hentede automatisk indhold fra andres feeds og publicerede det som eget. En central kilde til auto-content-sites og content farms i perioden 2005-2012.

RSS — Really Simple Syndication — blev skabt som et format til at distribuere indhold til læsere og aggregatorer. I perioden 2005-2012 blev det i stor udstrækning misbrugt til noget fundamentalt andet: automatisk at høste andres indhold og publicere det som eget for at opnå søgemaskinesynlighed.

Princippet var enkelt. Et script abonnerede på hundredvis eller tusindvis af RSS-feeds fra legitime publishers, hentede nye artikler automatisk og publicerede dem på egne domæner — typisk med let omskrivning via spintax, ændrede titler eller tilføjede affiliate-links. Siden indeholdt originalt indhold (andres) og var teknisk unik (efter spinning). Det var nok til at rangere i 2006.

Content farms og automatiserede sites

RSS-scraping var grundteknikken bag det der kom til at hedde content farms — sites der producerede eller aggregerede enorme mængder indhold primært for søgemaskinesynlighed frem for læsere. Demand Media og eHow er de mest citerede eksempler på den semi-legitime ende; det fuldt automatiserede og spunnet RSS-scraper-site er den sorte ende.

Et typisk setup fra perioden:

  1. Python- eller PHP-script abonnerer på 500 RSS-feeds inden for et niche
  2. Nye artikler hentes hvert 15. minut
  3. Titler og indledninger omskrives med synonymordbog
  4. Content publiceres på WordPress-sites med auto-genererede kategorisider
  5. AdSense-blokke placeres for monetisering

Med nok domæner og nok volumen kunne man opnå betydelig passiv indkomst — indtil Panda.

Panda og slutningen på auto-content

Googles Panda-opdatering i februar 2011 var i praksis designet til at ramme netop dette. Algoritmen trænede på menneskelige kvalitetsvurderinger og lærte at skelne mellem sider med reel informationsværdi og sider der primært aggregerede andres indhold. Sites med høj procentdel scraped eller tyndt indhold tabte dramatisk i synlighed.

Demand Media — børsnoteret på dette tidspunkt — tabte 40% af søgetrafikken inden for uger efter Pandas udrulning.

Arven: aggregering og curation

RSS-scraping i sin rå form er ophørt som effektiv taktik. Men spørgsmålet om hvornår content aggregering tilføjer reel værdi er fortsat relevant. Nyhedsaggregatorer, kurerede nyhedsbreve og AI-genererede opsummeringer af nyheder opererer i en gråzone der i princippet rejser de samme spørgsmål som RSS-scraping — bare med bedre teknologi og mere brugervenligt format. → Denne artikel er en del af Generativ AI-historik — Fra spintax til sprogmodeller.

Andre artikler i samme emne

Ofte stillede spørgsmål

Hvad var RSS-content scraping?
RSS-scraping var en udbredt teknik i perioden 2005-2012 til automatisk at hente andres RSS-feed-indhold og publicere det som eget for at opnå søgemaskinesynlighed. Et script abonnerede på hundredvis eller tusindvis af RSS-feeds fra legitime publishers, hentede nye artikler automatisk og publicerede dem på egne domæner — typisk med let omskrivning via spintax, ændrede titler eller tilføjede affiliate-links. Det var grundteknikken bag content farms.
Hvad var Googles Panda-opdateringens relation til RSS-scraping?
Googles Panda-opdatering i februar 2011 var i praksis designet til at ramme netop RSS-scraping og content farms. Algoritmen trænede på menneskelige kvalitetsvurderinger og lærte at skelne mellem sider med reel informationsværdi og sider der primært aggregerede andres indhold. Sites med høj procentdel scraped eller tyndt indhold tabte dramatisk i synlighed. Demand Media — børsnoteret på dette tidspunkt — tabte 40% af søgetrafikken inden for uger efter Pandas udrulning.
Er RSS-scraping stadig et problem i dag?
RSS-scraping i sin rå form er ophørt som effektiv taktik. Men spørgsmålet om hvornår content-aggregering tilføjer reel værdi er fortsat relevant. Nyhedsaggregatorer, kurerede nyhedsbreve og AI-genererede opsummeringer af nyheder opererer i en gråzone der rejser de samme principielle spørgsmål som RSS-scraping — bare med bedre teknologi og mere brugervenligt format. Googles 'Helpful Content System' adresserer løbende denne grænse.
Hvad var Demand Media og eHow's model, og hvorfor er det relevant for AI-content i dag?
Demand Media var børsnoteret med en model der producerede lavkvalitets indhold i ekstremt høj volumen baseret på keyword-søgevolumendata. eHow og andre sites publicerede tusindvis af tynde how-to-artikler om dag, skrevet til rankingalgoritmens daværende svagheder. Modellen kollapsede med Panda i 2011. Parallellen til AI-genereret bulkindhold i 2024-2026 er direkte: LLM'er producerer langt mere naturlig tekst end RSS-scraping, men mønstret — volumen uden substans, produktion for SERP-manipulation frem for brugere — er identisk. Googles Helpful Content System er i praksis 2024-versionen af Panda.
Hvad er article spinning og hvad er sammenhængen med RSS-scraping?
Article spinning er processen at omskrive eksisterende tekst til 'unikke' varianter ved automatisk substitution af synonymer og omformulering af sætninger. RSS-scraping hentede originalindholdet; article spinning gjorde varianten tilstrækkeligt 'unik' til at undgå duplicate content-detektion. De to teknikker blev typisk kombineret i et workflow: scrape → spin → publicer i bulk. Spintax var det tekniske format der muliggjorde spinning i skala. I dag er LLM-baseret parafrasering den teknologiske efterfølger — bedre sproglig kvalitet, men samme principielle problem hvis det bruges til masseproduktion uden reel value-add.

Placering i ordbogen