SOUernas geografi

Var är Sverige utrett? Oftast frågar man efter hur och så tänker man sig att svaret skulle vara av kvalitativ art. Men det finns en annan väg, givet att man vet exakt vilka platser som har skrivits ned i alla statliga offentliga utredningar. Rad för rad. I denna bloggpost och instruktion hade jag tänkt att försöka mig på att ta ett steg närmare en sådan empirisk datamängd.

En spännande teoretisk fråga man då kan ställa sig handlar om hur staten ”blir till” (performativt) genom att utreda ort för ort. På samma sätt som ett nätverk av ryska gasledningar kan göra anspråk på ett territorium, kan ett nätverk av utredningar sakta men säkert släppa på och av flöden av ”statsgas” som letar sig ända ut i skogarna och värmer (eller kyler) stugorna med en känsla av att tillhöra ”staten Sverige”.

Nationens gränser finns inte, de måste hela tiden (om)skapas.

Jag tänkte med denna bloggpost lägga ut steg för steg hur jag har lyckats extrahera alla ortnamn ur SOUer 1922–1996. Jag lägger ut all rådata och alla steg i bearbetningen. Det blir kanske inte så läsvänligt, men å andra sidan kan alla mina steg replikeras och kritiseras så att datan blir fullt användbar för vem som helst att använda eller publicera. Dessutom krävde det hela mycket datorkraft, så det är en miljöinsats att använda mina filer.

Med andra ord, det är alltså fritt fram att göra vad ni vill!

\\
Steg 1 – Extrahera ortsnamn
Detta tog en vecka. I skripten som Peter Krantz publicerade finns lista på ortsnamn som man kan matcha mot alla SOUer med hjälp av:


grep -owf features.txt data/30tal/*.txt > trettiotal.txt

Jag körde detta för varje katalog i åtta screens på en riktigt snabb server. I detta läge använder sig grep av Aho Corasick strängmatchning. Den letar alltså efter träffar från en (jättelång) lista av ord och så printar den ut dessa till en fil. Kanske hade jag kunnat distribuera processorlasten över alla 32 processorer i mitt system, men jag ville heller inte krascha maskinen som delas med andra. Den råa datamängden från detta kan laddas ned som:

Men dessa filer innehåller massvis av skräpdata och är bökiga att arbeta med statistiskt. Således måste de bearbetas.

\\

Formatera data

För att göra datamängden statistiskt läsbar började jag karva fram variablerna Årtal, SOU-Nummer och Ortnamn enligt följande trixande med reguljära uttryck (kommentera gärna om ni har smidigare lösningar).

Först gjorde jag en första grov extrahering av Årtal (\d{4}), Nummer (:\d{2}) och sedan Ortsnamen som kommer sist på varje rad (.*):


ag -o '\d{4}:\d{2}.*(?<=:\d{2}.txt:).*' SOU1922-1996.txt > 1.txt

Sedan gjorde jag två olika versioner. Den första filen (2.6Mb)inneåller År, Nummer, Ort och gjordes om till en kommaseparerad fil med ett enkelt perl-handgrepp:


perl -p -i -e 's/.txt:/, /g' 1.txt

Men, för enkelhets skull gjorde jag även (2.4Mb) en version med bara År och Ort ur ovanstående fil:


perl -p -i -e 's/:\d{2}//g' 1.txt

\\

Stoppord

Men nu framträder ytterligare ett problem. Ortnamn, speciellt svenska ortnamn, har ju ibland betydelser även i vardagsspråket. Staden Kista och en sådan där trälåda man läggs i när man dör, stavas likadant. Ännu värre blir det med orten ”Vi” eller ”Gran”. Jag började först med att bläddra igenom filerna induktivt och hittade själv följande lista:

Vi|Bet|När|Bön|Håll|Mark|Böj|Vad|Färjan|Kap|Så|Alla|Verksamheten|Vecka|Källa|Varmvattnet|Hallen|Bo|Gran|Björk|Viken

Men detta var väldigt tidsödande, så jag frågade runt i sociala medier och fick massvis av svar. Här är de jag samlade in i går kväll:

Lyckan|Önska|By|Ön|Holmen|Strand|Vara|Mannaminne|Ensamheten|Bor|Kärleken|Skara|Bro|Viken|Skruv|Tving|Råda|Torp|Näs|Berg|Lugnet|Torp|By|Sand|Slut

För att sortera ut dessa falska positiver använde jag mig av lite perl.


perl -p -i -e 's/^.*\b(Vi|Bet|När|Bön|Håll|Mark|Böj|Vad|Färjan|Kap|Så|Alla|Verksamheten|Vecka|Källa|Varmvattnet|Hallen|Bo|Gran|Björk|VikenLyckan|Önska|By|Ön|Holmen|Strand|Vara|Mannaminne|Ensamheten|Bor|Kärleken|Skara|Bro|Viken|Skruv|Tving|Råda|Torp|Näs|Berg|Lugnet|Torp|By|Sand|Slut|Mom)\b//g' test.txt

Detta tar bort alla rader som innehåller något av ovanstående ord. Däremot lämnar det kvar blanka rader som jag tar bort med:


perl -p -i -e 's/^(\s*|\r|\n)$//mg' test.txt

Av någon anledning fanns fortfarande orten ”Så” med, så jag fick köra en ny vända med:


perl -p -i -e 's/.*Så//g' test.txt

Och sedan ta bort blanka rader igen.

\\
Datamängden

Sedan är det bara att döpa om txt-filen till .csv. Och så har vi datamängden SOU1922-1996artal-ort-filtered.csv.zip (1.5Mb).

Denna kommaseparerade fil borde man kunna läsa in rakt i Excel om man vill. För att göra allt replikerbart har jag dock bara gjort lite enkel statistik i R. För att skapa en enkel lista över orter i SOUer (i fallande ordning), kör jag bara (byt ut sökväg):


mydata <- read.csv("/home/anon/Desktop/SOU1922-1996artal-ort-filtered.csv") sink("Platserfrekvens.txt") df <- as.data.frame(table(mydata$Place)) ; df[order(df$Freq, decreasing=T), ]

Här instruerar jag R att skriva ut hela resultatet till filen Platserfrekvens.txt vars topplista ser ut så här:

Stockholm 73039
Göteborg 28937
Uppsala 26130
Malmö 20032
Danmark 17324
Norrland 15245
Örebro 14191
Lund 14143
Kalmar 10821
Bohus 8124
Frankrike 7372
Umeå 6948
Gävle 6569
Norrköping 6013
Västerås 5777
Luleå 5389
Skåne 5249
Linköping 5125
Karlskrona 5015
Hälsingborg 4695
Växjö 4190
Os 4069

Jag antar att "Os" är ytterligare en sökanomali. Stoppordslistan måsta alltså uppdateras.

Men detta vara bara ett test och ett sätt att få ut datamängden så att ni andra kan börja tinka med den. Det borde vara enkelt att skapa fina grafer över tid, kanske ned till varje enskild rapport. Det skulle även vara helt magnifikt med en sverigekarta som över tid uppdaterades dynamiskt med en "prick" på kartan varje gång en SOU nämnde en ort. Då skulle man, precis som med tekniska nätverk, se precis var någonstans det finns "täckning" och var någonstans det finns "vita fläckar". Tänk en täckningskarta för mobiltelefoner.

Kommentera mer än gärna. Vad finns det mer för idéer?

2 svar på “SOUernas geografi”

  1. Väldigt intressant att använda SOUer och undersöka hur staten performativt blir till som svenska staten. Dessa performativa stat-handlingar legitimerar ju varandra så det blir en resonanseffekt. Statens undersökningar bör väl som performativa handlingar jämställas med tull, skatt, militär, parlament. Då skapar vi inte en dualism mellan utredningar och verkligheten, verkliga staten.

  2. Per: Det är så jag tänker. En vanlig missuppfattning är ju att utredningar, undersökningar och rapporter ”representerar” ett Sverige som finns till någonstans ”där ute”. Men man får leta förgäves i skogen för att finna en sådan gräns.

    Men däremot finns Sverige till i betydelsen att alla dessa utredningar och kartor och pass och personnummer gemensamt ”utför” eller ”performerar” något som ofta kallas för statens-, Sveriges-, nationens-, rikets-, osv. angelägenheter. Vi kan inte bara ”vara i Sverige”. Däremot kan vi nämnas i en utredning om en aspekt av något som utförs inom ett koordinatsystem som kallas ”Sverige”.

    Vad som gör att man ofta tänker sig Sverige som något som existerar ”där ute” tror jag beror på att alla dessa handlingar som hela tiden hålls igång av olika myndigheter, organisationer, föreningar, företag, system osv. är så många och svåra att överblicka att man ger upp. Metodologisk nationalism är ofta den enkla vägen ut ur ett problem, både vardagligt och vetenskapligt. Men det är en bedräglig väg eftersom den leder in i en falsk tanke om en insida och en utsida, ett vi och ett dom.

    Tack för kommentaren!

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *

Time limit is exhausted. Please reload CAPTCHA.