Skrapa blogspot-bloggar

Det är oklart varför, men jag satt och funderade på om det fanns något spännande man kunde göra med bloggtexter ur ett medborgarprogrammeringsperspektiv. Men innan jag hann tänka så mycket på det dök ett praktiskt problem upp. Hur ladda ned allt som skrivits på en blogg?

Jag skrev således ett litet skrapverktyg för Blogspot-bloggar som jag döpte till det fantasifulla namnet blogspotscraper. Skraparen fungerar så att den börjar på det senaste inlägget, sedan arbetar sig skriptet bakåt i tiden rekursivt. För varje blogpost sparar den sedan en html-fil, rensad från de värsta kodsnuttarna så att man nästan bara får texten.

Man borde kunna använda samma approach för WordPressbloggar eftersom även de har en funktion för att läsa ”nästa (äldre) inlägg”.

I allt detta glömde jag bort vad jag nu ska göra med tusentals nedsparade blogginlägg. Kanske träna upp en chatterbot.

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *

Time limit is exhausted. Please reload CAPTCHA.