Artikel

RSS-scraping og auto-content — Da feeds blev indholdsfabrikker

RSS-scraping hentede automatisk indhold fra andres feeds og publicerede det som eget. En central kilde til auto-content-sites og content farms i perioden 2005-2012.

RSS — Really Simple Syndication — blev skabt som et format til at distribuere indhold til læsere og aggregatorer. I perioden 2005-2012 blev det i stor udstrækning misbrugt til noget fundamentalt andet: automatisk at høste andres indhold og publicere det som eget for at opnå søgemaskinesynlighed.

Princippet var enkelt. Et script abonnerede på hundredvis eller tusindvis af RSS-feeds fra legitime publishers, hentede nye artikler automatisk og publicerede dem på egne domæner — typisk med let omskrivning via spintax, ændrede titler eller tilføjede affiliate-links. Siden indeholdt originalt indhold (andres) og var teknisk unik (efter spinning). Det var nok til at rangere i 2006.

Content farms og automatiserede sites

RSS-scraping var grundteknikken bag det der kom til at hedde content farms — sites der producerede eller aggregerede enorme mængder indhold primært for søgemaskinesynlighed frem for læsere. Demand Media og eHow er de mest citerede eksempler på den semi-legitime ende; det fuldt automatiserede og spunnet RSS-scraper-site er den sorte ende.

Et typisk setup fra perioden:

  1. Python- eller PHP-script abonnerer på 500 RSS-feeds inden for et niche
  2. Nye artikler hentes hvert 15. minut
  3. Titler og indledninger omskrives med synonymordbog
  4. Content publiceres på WordPress-sites med auto-genererede kategorisider
  5. AdSense-blokke placeres for monetisering

Med nok domæner og nok volumen kunne man opnå betydelig passiv indkomst — indtil Panda.

Panda og slutningen på auto-content

Googles Panda-opdatering i februar 2011 var i praksis designet til at ramme netop dette. Algoritmen trænede på menneskelige kvalitetsvurderinger og lærte at skelne mellem sider med reel informationsværdi og sider der primært aggregerede andres indhold. Sites med høj procentdel scraped eller tyndt indhold tabte dramatisk i synlighed.

Demand Media — børsnoteret på dette tidspunkt — tabte 40% af søgetrafikken inden for uger efter Pandas udrulning.

Arven: aggregering og curation

RSS-scraping i sin rå form er ophørt som effektiv taktik. Men spørgsmålet om hvornår content aggregering tilføjer reel værdi er fortsat relevant. Nyhedsaggregatorer, kurerede nyhedsbreve og AI-genererede opsummeringer af nyheder opererer i en gråzone der i princippet rejser de samme spørgsmål som RSS-scraping — bare med bedre teknologi og mere brugervenligt format.

Andre artikler i samme emne

Placering i ordbogen