SOU om Digitalisering re-digitaliserad och kvantifierad enligt sina referenser

Jag kunde inte hålla mig från att testa några saker på text-versionen av SOU 2015:65 – En antologi om digitaliseringens möjligheter. Jag är intresserad av att hitta olika sätt att förstå den kunskapsform som en SOU innehåller, och jag funderar på hur man kan begripa detta bortom de hermeneutiska cirklarna.

Ett sätt att ta tempen på en kunskapsform kan vara att se vilka andra källor av kunskap som åberopas. Detta är en slags paradigmatisk uppställning där en dimension består av en slags tidslighet. Hur gamla eller unga är de källor man hänvisar till? Vilken historicitet har citeringsnätverket?

Det trubbigaste men samtidigt det tydligaste sättet är att helt enkelt se hur gamla texterna är som man hänvisar till. Ämnet ”digitalisering” kommer givetvis vara ”ungt” i jämförelse med en utredning som har historiska inslag eller handlar om ämnen som inte har påverkats av en vis teknikutveckling osv. Men, det är bara hypoteser! Här har jag bara gjort ett litet stickprov.

Eftersom vi numera har nästan alla SOUer under våra fingertoppar är det bara fantasi och kod som sätter gränserna.

Vad säger detta tänker ni?

\\

Metod

När jag skriver fram metoden kan det tyckas att jag krånglar till det med terminalkommandon och kodsträngar. Anledningen till detta är 1) reproducerbarhet och 2) att arbetsflödet ska kunna skalas upp och automatiseras. I detta fall rör det sig ju bara om en SOU. Men låt säga att man vill göra samma sak på tusen dokument. Då går det inte att ”peka och klicka” för då blir man aldrig klar.

Först hämta pdf-filen och göra om den till text:


wget -U firefox http://www.regeringen.se/contentassets/bacbfd7c61ac4e4eaff7cd3a7505e6c4/sou-2015_65-webb.pdf; pdftotext sou-2015_65-webb.pdf

Observation: Regeringens hemsida gillar inte att wget kommer och hämtar filer. Så man får lura regeringen att tro att det är en vanlig firefox som kommer och vill vara en informerad medborgare. (regeringen diskriminerar robotar, något Robotpartiet kanske vill reagera på).

När vi sedan har textfilen redo kan vi analysera hur en referens ser ut. För det mesta följer de detta mönster:


Morozov, E. (2012). The Net Delusion: The Dark Side of InterneFreedom. PublicAffairs.

Det som verkar vara beständigt i denna SOUs referenslista är årtal inom parentes, eller \(\d\d\d\d\) som reguljärt uttryck. För vårt nuvarande syfte räcker detta. Om man däremot skulle vilja ha ut författarnamn, titlar osv. blir det lite svårare eftersom det är långt ifrån homogent hur litteraturlistorna skrivs ut. (se nedan exempelvis i om man skriver punkt före förnamnsinitial eller inte).

För att få ut alla årtal som finns inom parenteser:


egrep -io '\((\d\d\d\d)\)' sou-2015_65-webb.txt > file.txt

Som vi sedan gör till en kommaseparerad fil som går att räkna lätt på.


perl -p -i -e 's/\(|\)//g' file.txt

Sist men inte minst kan vi lägga till ett ”Year” allra först i filen, samt döpa om till .csv.


(echo "Year" ; cat file.txt) > file.csv

Nu är det bara att ladda in i R och tillverka ett enkelt histogram. Kör antingen rad för rad i Rs kommandotolk eller kopiera och kör hela skriptet med Rscript skriptnamn.r :


mydata <- read.csv("file.csv") hist(mydata$Year,main='SOU 2015:65 - Citation Frequency per Year',xlab='Years',col='green',breaks=100,xlim=c(1980, 2016),prob = TRUE) lines(density(mydata$Year))

Som ni ser har jag exkluderat de sporadiska referenser som finns till texter före 1980. De är kvalitativt intressanta, men kanske inte kvantitativt. Alla metoder har ju sina gränser (som tur är).

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *

Time limit is exhausted. Please reload CAPTCHA.