Öppna data 2 – Replikerbarhet av figurer om livstillfredsställelse baserade på data från Eurobarometer och SOM

Ett argument för öppen vetenskap är att replikerbarheten ökar. När data ligger ute så kan vem som helst med tillräckliga kunskaper kontrollera och återskapa de analyser som ligger till grund för forskningsresultaten.

Jag tänkte att det hela kunde prövas. Vissa talar nämligen om en replikationskris.

Häromdagen läste jag en intressant artikel av Brülde och Nilsson (2010) som innehåller följande figur:


I förra bloggposten skrev jag om hur man kan analysera data från SOM-institutets stora enkäter. Figuren ovan innehåller dock även data från Eurobarometern. Dessa data är öppet tillgängliga från EU-kommissionens hemsida. Jag skrev en liten Jupyter-anteckningsbok med Pythonkod som beskriver hur man kan analysera den lätt.

Det intressanta med figuren är att den visar på en ganska stor skillnad mellan Eurobarometerns besöksintervjuer och SOM-institutets postalenkäter, trots att man ställer samma fråga. Brülde och Nilsson skriver:

Att besöksintervjuer tenderar att generera mer positiva svar blir särskilt tydligt i en jämförelse av utfallet i SOM-undersökningen och Eurobarometern (EB) över tid (figur 1). Det ska emellertid noteras att även svarsskalan skiljer sig åt i dessa undersökningar; där SOM på den ”missnöjda sidan” använder sig av ’inte särskilt nöjd’ och ’inte alls nöjd’ har EB lite starkare formuleringar – ’ganska missnöjd’ och ’mycket missnöjd’ – något som rimligen också det bidrar till den genomgående mer nöjda svenska befolkningen i EB:s mätning. (s. 5)

Jag tog således resultaten från SOM och Eurobarometern, bakade ihop dem till en csv-fil och skrev några rader kod. Viktigt är att man bara tar de mätningar från Eurobarometern som är genomförda på hösten (samma tid som SOM går i fält). Så här blev min figur (har lagt till några extra år som bonus):

Det ser ju bra ut. Eller… vänta nu. Min figur har 39% mycket nöjda år 2000 medan Brülde och Nilsson bara har 35%. Det kan knappast vara ett avrundningsfel. Tillbaka till källdatan från Eurobarometern:

Det ser ut som att Brülde och Nillson har tagit data från mätningen den fjärde maj istället för den fjortonde november (men det kan likagärna vara jag som har blandat ihop korten).

Öppna data 1 – SuperSOM med Python och Pandas

I en ‘post factual’ demokrati tror vissa att öppen vetenskap kan ge människor förnuftet tillbaka. Om detta vet vi mycket lite, eftersom vi inte har så mycket fakta att gå på (vilket kan betraktas som lite ironiskt).

Men, något kan man ändå veta. För att öppen vetenskap ska bli användbar av både forskare och allmänhet (framförallt då öppna data) så måste den göras begripbar. När det kommer till kvantitativa data så underlättar det om man antingen har kunskap och licenspengar att köpa och lära sig Excel eller SPSS. Men, om man istället vill vara öppen hela vägen så är det mycket bättre att köra helt med open source. Och om man dessutom vill slå flera flugor i en smäll tar man och lär sig ett programmeringsspråk. Då kan man göra tusen andra saker än bara analysera data.

Ett bra programmeringsspråk för statistik är R eftersom det i standardutförande gör allt man behöver för att använda sig av de datastrukturer som är bra för att analysera statistisk data.

Själv använder jag Python. Det är ett mera generellt språk, men med biblioteket Pandas får man enkla färdiga datastrukturer som är väldigt lätta att använda.

I denna lilla anteckning tänkte jag lägga ut lite kodsnuttar för att analysera SOM-institutets långa tidsserie 1986-2014, även kallad ”SuperSOM”, med Python/Pandas. Det är en guldgruva för samhällsvetare och det är svårt att hitta enkätdata med högre kvalitet i Europa. Dock innehåller denna datamängd mer än 93 tusen enkätsvar, så man får ha lite tålamod och RAM-minne till hands.

SuperSOM1 är öppen data, men den är inte superöppen. Man måste beställa den från Svensk Nationell Datatjänst och tillgängligheten bestäms av ”primärforskaren”. Så man måste ange vad man ska ha datamängden till och sedan får man en nedladdningslänk. Man får inte sprida den vidare.

Tyvärr levererar inte SND i csv-format utan bara i statistikprogramformat. Så jag beställde Excel-format (som smidigt kan konverteras till csv, se nedan).

Först konvertering från Excel till csv med två enkla rader:

import pandas as pd
df = pd.read_excel('data/SND 0905-004 Super-Riks-SOM 1986-2014.xlsx') # öppna Excelfil
df.to_csv("SuperSOM1986-2014.csv", sep='\t', encoding='utf-8') # skriv till csv-fil

 

Observera att det kan ta lite tid att konvertera. Excel-formatet är lite långsamt av sig. Men när det är klart kan man läsa in csv-filen på några sekunder (tar ca. 2 Gb i minne, så bör funka på vanlig dator).

df = pd.read_csv('data/SuperSOM1986-2014.csv', sep='\t', encoding='utf-8')

Nu är hela SuperSOM inläst som en ”dataframe” och allokerad som variabeln df. För att kolla att all data är med i leken kan vi göra en enkel graf år för år med det lättanvända biblioteket Seaborn.

import seaborn as sns
years = sns.factorplot('year', data=df, kind='count', size=8, aspect=2)
years.set_xticklabels(rotation=30)

Japp, SOM-enkäten blir mycket större med åren. Däremot minskar svarsfrekvensen, något man får ha i bakhuvudet.

Därefter kan man ta fram kodboken man får med och sedan börja analysera datan. Som exempel tänker jag ta fråga md10 som frågar hur nöjd man är med livet (det man kallar för ”Life satisfaction” i internationell forskning). Om man vill få ut data i procent för varje år i en tabell får man göra lite handpåläggning (tar gärna emot tips på hur man kan göra detta med mindre kod).

Så här gjorde jag (med lite hjälp av biblioteket tabulate)

from tabulate import tabulate

def lstimeseries():
    tsresults = []
    for y in range(1996, 2015):
        year = y
        md10table = df['md10'].loc[df['year'] == year]
        #md10table = df['md10']
        md10total = 0
        mycketnojd = 0
        ganskanojd = 0
        intesarskiltnojd = 0
        inteallsnojd = 0 
        nan = 0
        for t in md10table:
            if pd.isnull(t):
                nan += 1
            elif t == 98:
                nan += 1
            elif t == 99:
                nan += 1
            elif t == 96:
                nan += 1
            elif t == 1:
                mycketnojd += 1
                md10total += 1
            elif t == 2:
                ganskanojd += 1
                md10total += 1
            elif t == 3:
                intesarskiltnojd += 1
                md10total += 1
            elif t == 4:
                inteallsnojd += 1
                md10total += 1
        # Append the data to a lis of lists that can be tabulated:
        # add , 2 to the round method to get some decimals e.g. round((mycketnojd/md10total * 100), 2)
        tsresults.append([year, round((mycketnojd/md10total * 100)),   
                           round((ganskanojd/md10total * 100)),
                           round((intesarskiltnojd/md10total * 100)),
                           round((inteallsnojd/md10total * 100))])
    return(tsresults)

print("Nöjd med livet, nationella SOM-undersökningen\n")
# For html, add , tablefmt="html"
print(tabulate(lstimeseries(), headers=["Year", "Mycket nöjd", "Ganska nöjd", 
                                        "Inte särskilt nöjd", "Inte alls nöjd"])) 

Vilket ger:

Year Mycket nöjd Ganska nöjd Inte särskilt nöjd Inte alls nöjd
1996 30 64 6 0
1997 30 61 8 2
1998 28 63 8 1
1999 29 62 8 1
2000 31 61 7 1
2001 32 60 8 1
2002 29 62 8 1
2003 33 58 8 1
2004 33 59 7 1
2005 32 59 7 1
2006 35 57 7 1
2007 35 58 7 1
2008 34 58 7 2
2009 36 57 7 1
2010 36 57 6 1
2011 37 56 6 1
2012 35 58 6 1
2013 36 57 7 1
2014 37 56 6 1

För säkerhets skull kan man kolla att man har räknat rätt genom att kontrollera mot någon av alla de rapporter som SOM-institutet publicerat. Exempelvis en intressant studie av Brülde och Nilsson från 2010.

Det verkar alltså som att vi blir allt mer ”intensivt nöjda” med livet för varje år som går. Missnöjdheten är däremot stabilt låg.

Således har vi tagit fram lite data som vi kan visa för alla kommentatorer  ”känner” det ena och det andra i samtiden. Samtidigt har vi replikerat SOM-institutets mätningar, något som är viktigt för att öka den vetenskapliga kvaliteten. Ju fler ögon desto färre buggar.


  1. Göteborgs universitet, SOM-institutet. (2016). Super-Riks-SOM 1986-2014. Version 1.0. Svensk Nationell Datatjänst. http://dx.doi.org/10.5878/002826 

Mårdhunden, Judasdjuret och Människan

Racoondogskull

I helgen har jag testat att analysera biodiversitetsdata från Analysportalen från Svenska Lifewatch. Analysportalen innehåller enorma mängder artobservationer från bland annat det stora medborgarforskningsprojektet Artportalen.

Mårdhunden är en invasiv art. Den introducerades under perioden 1928-1950 i Ukraina för att jagas för pälsens skull. Människans fåfänga har ofta ekologiska konsekvenser och så även i detta fall. Mårdhunden etablerade sig och spred sig, från post-Sovjet hela vägen över Finland, till Sverige.

För att få bukt med spridningen av mårdhundarna använder man sig av ”Judasdjur”. I Jägareförbundets rapport 2015 kan man läsa följande mycket poetiska stycke:

Sändarmärkta mårdhundar (Judasdjur) letar dygnet runt efter  nya  mårdhundar  som de sedan  leder  oss  till.  Mårdhunden  är  monogam  och  dess  första  prioritet  förutom  egen  överlevnad är att finna en partner som den sedan aldrig lämnar förrän en av dem dör, då den  återigen  börjar leta en ny  partner.  Sterilisering av  sändardjuren  utförs  innan de släpps så att de inte ska kunna reproducera sig om vi skulle förlora dem genom sändarfel.Båda  könen  fungerar  lika  bra  som  Judasdjur.  Sändardjuren  fungerar  effektivare  ju  lägre  täthet det är eftersom det då är mycket svårt för oss människor att ens hitta ett spår. En annan  mårdhund  kommer  dock  att  förr  eller  senare  finna  sin  artfrände.  De  ägnar  all  sin  tid åt detta och vandrar över mycket stora områden (ibland långt över 100 000 hektar) i sitt  sökande.  I  figur  1  ser  vi  området  en  mårdhund  har  täckt  under  två  år  i  sitt  sökande  efter  en  partner,  området  är  större  än  de  flesta  län  i  landet.  När  de  finner  en  partner  avslutas  vandringen  och  paret  stannar  därefter  inom  ett  mycket  begränsat  område,  det  är också så vi ser att de har funnit en partner.

Framtiden ser inte ljus ut för mårdhunden.

screen-shot-2016-12-05-at-09-53-15

Mårdhundsobservationer per län, se källkod.

Men vad har vi för data på mårdhundens utbredning? Analysportalen är ett fantastiskt verktyg för öppna data, och man kan med enkla medel ladda hem alla observationer. Med lite helghackande lyckades jag få till lite kod som kan användas på lite olika sätt. All kod och data som behövs för att replikera figurerna finns här.

Med lite kod kan man skapa en karta över de inrapporterade observationerna (klicka för att få fram info om varje observation).

Se kartan i större format.

Men hur ska vi förstå mårdhunden och dess relation till territoriet, människan och ett processfilosofiskt tänkande?

Deleuze och Guattari’s berömda passage i Tusen platåer ger oss ett tankeuppslag:

Orkidén avterritorialiseras genom att skapa en bild, en kalkering av en geting; men getingen återterritorialiseras på denna bild. Getingen avterritorialiseras emellertid, i det att den själv blir en del av orkidéns reproduktionsapparat; den återterritorialiserar orkidén genom att transportera pollen. Getingen och orkidén bildar ett rhizom just därför att de är heterogena. (s. 27)

Människans fåfänga skapade en bild av mårdhundens päls i relation till hur människans semiotiska signaler (pälskläder) territorialiserar ett socialt stratum (jag är rik, jag har ”stil”). Detta ledde till att fåfängans logik översattes en kapitalistisk utbyteslogik av de Sovjetiska(!) aktörerna som gjorde vad de kunde för att introducera mårdhunden i östra Europa och västra Asien. Det var främst i Baltikum som mårdhunden kunde återterritorialisera sig i de födorika skogarna. Men den skulle sakta men säkert börja vandra norrut genom Karelen, samtidigt som den avterritorialiserade de djupa skogarna och kastade om den ekologiska balansen. I mårdhundarnas magar skapade dvärgbandmaskar och parasiter kalkeringar av en mårdhund och gjorde denna plats till sin reproduktionsapparat. I detta moment skapade människan en ny bild av mårdhunden som en invasiv art. Man uppfann Judasdjuret, som med avsaknad av reproduktionsapparat (steriliserad) kunde röra sig över hundratals hektar av skog i jakt på en förvildad mårdhund.

Människan, Judasdjuret, mårdhunden och dvärgbandmasken bildar ett rhizom, vars utbredning är en ständig kamp om territorium.

Att kartlägga aktörsnätverk i dokument med Named-Entity Recognition

I förra veckan var jag på en workshop arrangerad av Swe-CLARIN som arrangerats för att sprida språkteknologiska metoder till andra discipliner och ämnen. Det var en mycket lyckad tillställning och jag fick många idéer till hur man kan använda lite mer avancerade metoder för att studera dokument genom maskinell fjärrläsning, som i sin tur kan göra så att man bättre navigerar fram till kvalitativt intressanta materialfragment.

Den metod som jag genast blev intresserad av är någ0t som kallas för Named Entity Recognition (NER). NER funkar på så sätt att man applicerar olika statistiska modeller (ibland avancerad maskininlärning även) på naturligt språk för att extrahera ”entiteter” ur text.

Det har funnits flera NER-tillämpningar för engelska, men för andra språk är det ju alltid svårare. Men när jag besökte en session om annoteringsverktyget Sparv fick jag höra talas om SweNER, en tillämpning som är utformad efter svenska.  Den exakta funktionaliteten är dokumenterad i Kokkinakis D., Niemi J., Hardwick S., Lindén K. and Borin L. (2014). HFST-SweNER. A New NER Resource for Swedish. Proceedings of the 9th edition of the Language Resources and Evaluation Conference (LREC). Reykjavik, Iceland och koden hittar man här.

Vad upptäcker då SweNER i en text? Mycket intressanta saker!

Det lättaste är att ge ett exempel. När jag skickar text till SweNER svarar den så här:

$ echo "Jag bor i Göteborg. Jag är vän med Lisa som arbetar på Socialstyrelsen och tillsammans med Sven ska jag på julafton åka till Nora." | hfst-swener 

Jag bor i <ENAMEX TYPE="LOC" SBT="PPL">Göteborg. Jag</ENAMEX> är vän med <ENAMEX TYPE="PRS" SBT="HUM">Lisa</ENAMEX> som arbetar på <ENAMEX TYPE="ORG" SBT="CRP">Socialstyrelsen</ENAMEX> och tillsammans med <ENAMEX TYPE="PRS" SBT="HUM">Sven</ENAMEX> ska jag <TIMEX TYPE="TME" SBT="DAT">på julafton</TIMEX> åka till <ENAMEX TYPE="LOC" SBT="PPL">Nora.</ENAMEX>

SweNER upptäcker alltså att:

  • Göteborg – LOC – en plats.
  • Lisa – PRS/HUM – en person, mänsklig.
  • Socialstyrelsen – ORG – en organisation.
  • Sven – PRS/HUM – en person, mänsklig.
  • Julafton – TME/DAT – Datum.
  • Nora – LOC – En plats (och inte i denna kontext ett namn på en person).

Vad kan man då göra med denna typ av metadata? Jo, man kan studera vad Gabriel Tarde kallade för monader och som nutida sociologi kallar för ”aktörsnätverk”. Utan att gå in på detaljer kan man säga att varje text består av ett antal aktörer, vissa är mänskliga, andra är organisationer, teknologier, platser, händelser osv., allt som har varit med och format något genom sin verkan kan man kalla för aktörer (eller aktanter, entiteter, monader, ju obskyrare begrepp man använder desto argare kritiker får man).

En aktör definieras av sitt nätverk, vilket ger upphov till ett perspektiv på andra nätverk. Ett nätverk, i sin tur, påverkas av sina aktörer. Om jag är vän med Lisa påverkas Lisa av mig och jag av henne. Om jag bor i Göteborg påverkas Göteborg (väldigt lite förvisso) och jag påverkas av Göteborg (till och med påverkas min småländska dialekt sakta men säkert). Jag definieras litegrann av Göteborg (men jag kan inte reduceras till ”göteborgare”) och Göteborg definieras ytterst lite av min närvaro i staden.

Med NER kan man alltså skapa en (förvisso partiell och ofullständig) lista av aktörer som ingår i ett nätverk. För att ge ett exempel kan vi ta en Statlig offentlig utredning eller två. En utredning är ju skriven av en kommitté, som ofta består av flera personer (PRS/HUM). Den beskriver ofta geografiska platser (LOC) och den inhämtar massvis med information av andra organisationer (ORG).

Hur kan man använda detta för att lättare navigera i stora textmängder? Låt mig ge ett exempel på två offentliga utredningar som jag inte har läst ett enda ord i (än): SOU 1989:73 – TV-politiken och SOU 1973:10 – Reklam. Det enda dessa har gemensamt vid första anblick var att jag sökte på ”television”.

Låt oss säga att jag nu skulle vara intresserad av TV-politik. Då kan jag visualisera dessa två utredningar baserat på deras aktörsnätverk (som vi kan se konturerna av genom resultatet av NER). Så här kan det se ut vid en första anblick.

1989_73

Hela visualiseringen kan man se som en pdf. Vad betyder detta? De lila noderna representerar ORGanisationer. TV3, Marknadsdomstolen, Regeringskansliet, Europarådet och Kabelnämnden har uppenbarligen med TV-politik att göra (för att ta reda på hur måste vi givetvis läsa texten). De gröna noderna är platser (LOC), exempel Vännäs och Göteborg. Expressen, Kvällsposten och TV-konventionen klassificeras som WRK, som står för ”Work&Art”, vilket består av texter, filmer, böcker, nyhetsmedier, skulpturer etc. Men vi hittar även några manliga HUMans, här Bengt, Lars och Bertil (jag borde kanske haft med efternamnen :)).

Vi kan alltså får en första glimt av vad en SOU innehåller för entiteter. Men det intressanta blir om man lägger flera SOUer bredvid varandra. Mellan SOU 1989:73 och SOU 1973:10 finns det nämligen några gemensamma aktörer. Vi intar ett ny monadiskt perspektiv:

mellanrum

Här hittar vi inga människor, utan platser (LOC) och organisationer (ORG). Televerket, Sveriges Radio, Kommunikationsdepartementet och Jordbruksdepartementet relaterar till utredningar om television och reklam. Det gör även Stockholm, Norden, USA och Danmark.

Här kan vi fortsätta att lägga till texter och dokument, aktörsnätverk är lite som fraktaler, de blir större och större ju mer man zoomar.

Tror ni att detta kan vara något som är intressant att exempelvis applicera på alla de 8000 utredningar som nu finns tillgängliga digitalt? Givetvis inte samtidig, det skulle bli helt oöverskådligt. Men man skulle kunna hälla in alla nätverksfiler i offentligautredningar.se och så kan användarna själva komponera sina aktörsnätverk i Gephi.

\

All kod och källdata finns på min Github-sida för den som vill tillämpa detta på helt andra texter (har endast testat på Linux för det är lite enklare).

Minnesanteckning Spridningskollen – Vilka operatörer har tvingats lämna ut uppgifter?

Minnesanteckning. Det har nog inte undgått någon att Spridningskollen ska börja skicka ut brev till människor vars IP-nummer trålats och identifierats som fildelande bittorrentnoder. Det känns som ett eko tillbaka till 2008 då man diskuterade piratjägarlagen IPRED. Vad som händer nu är konsekvenserna av detta, trots att många internetoperatörer har gjort motstånd mot lagens införande och praktik.

På Twitter diskuterades vilka operatörer som har tvingats (eller frivilligt) lämna ut uppgifter till Spridningskollen. Här kommer några screenshots från kundtjänsternas sociala-medierkonton där de svarar. Jag lägger dem bara här för arkivets skull (så man kan stämma av mot vilka, med vilken operatör, som faktiskt fått brev).

Om någon har kompletterade information, kommentera mer än gärna!

\\

Uppdatering: Jag kontaktade Telenors kundtjänst på Twitter och fin nummer på domarna som lett fram till att de tvingades lämna ut uppgifterna. Har lite annat att stå i för tillfället, men lägger ut dem här. Borde vara intressant läsning.


Stockholms tingsrätt:
Ärendenummer från domstolsbeslutet från 26 augusti:
Scanbox Entertainment./. Målnummer Ä8895-16
Crystalis Entertainment./. Målnummer Ä8785-16
Ärendenummer från tidigare fall, 17 december: Crystalis Entertainment./. Målnummer Ä14271-15
Ärendenummer från tidigare fall, 17 december, 16 juni 2015: Crystalis Entertainment./. Målnummer Ä4191-15

Hovrätten:
Detta domstolsbeslut överklagades till Hovrätten men fick avslag: Målnummer ÖÄ6116-15

\\

Uppdatering: På flashback har någon begärt ut två av domarna. Lägger kopia på pdferna för arkivets skull: Stockholms TR Å 8895-16 Slutligt beslut (ej särskilt uppsatt) 2016-08-26 och Stockholms TR Ä 8785-16 Slutligt beslut (ej särskilt uppsatt) 2016-08-26

\\

Telenor säger sig ha lämnat ut uppgifter till Spridningskollen:

telenor

Comhem svarar så här:

comhem

comhem2

Telia säger:

telia

Bredbandsbolaget verkar vara tydligast med sitt svar:

bredbandsbolaget

Uppdatering. Fick tips om någon som frågat Tele2. Tipstack och bra ställd fråga av Angelica på Facebook.

tele2

Varför lade man ned låginkomstutredningen

Jag undrar varför man lade ned låginkomstutredningen 1971. Mitt intresse väcktes av en fotnot i Sten Johanssons artikel ”The Level of Living Survey” i Acta Sociologica. Här skrev han:

The political turmoil that followed the dissolution of the Low Income Committee in 1971 has forced some thinking on this problem and on the role of the expert.
Men varför upplöstes den av socialdemokraterna? En tes är att den visade på en utbredd fattigdom som gick emot den socialdemokratiska självbilden av att ha skapat ett jämlikt samhälle.
Journalisten Peter Antman skriver:

I mitten av 1960-talet hade också den så kallade låginkomstutredning startats under ledning av LO-ekonomen Per Holmberg. I slutet av 1960-talet började den publicera sina förfärande resultat, som pekade på en verklighet som sällan varit synlig – kanske var tredje löntagare hade mycket låga inkomster.

Alla i partiledningen uppskattade inte utredningens resultat. I slutet av 1960-talet hade Gunnar Sträng börjat tala om att välfärdsbygget var färdigt, att det bara återstod några smärre finjusteringar. Låginkomstutredningen innebar ett grundskott mot Strängs slutsatser. Han blev så förfärad att han i ett bekant uttalande undrade hur man är ”funtad å kroppens och huvudets vägnar” om man har så låga inkomster som låginkomstutredningen redovisat. Utan att tala med Palme lade han och inrikesminister Eric Holmqvist ner utredningen.

Det paradoxala är att utredningen till och med gillades av högern. Olof Johansson (Centerpartiet) motionerade 1972 att Låginkomstutredningen skulle göras permanent. Till och med de borgerliga ville ha kvar den utredning som visade att klassamhället var större än vad man tidigare trott.

Men, var det verkligen så här det gick till? Jag hittar inget bra som är skrivet om detta och letar därför litteraturtips.

Uppdatering:

Jag hittade en lite mera ingående förklaring i Robert Eriksons text ”Svensk välfärdsforskning”. Återigen citat ur en fotnot:

En redogörelse för arbetet i utredningen och en sammanfattning av resultaten från de undersökningar som den initierade finns i den i samband med utredningens nedläggning bildade Arbetsgruppens för låginkomstfrågor Kompendium om Låginkomstutredningen, DS IN 1971:16. Det formella skälet till att utredningen lades ner var att Rudolf Meidner lämnade uppdraget som utredningsman. Att någon ny utredningsman inte utsågs torde dock ha sammanhängt med att delar av regeringen, och då särskilt finansminister Gunnar Sträng, inte kunde fördra Per Holmbergs agerande som huvudsekreterare (ett misshag som nog delades av arbetsmarknadens parter) utan föredrog att det fortsatta arbetet skedde i en interdepartemental arbetsgrupp inom  regeringskansliet. Samtliga som skrev  underlagsrapporter till utredningen fick dock möjlighet att fullfölja detta arbete och Per Holmberg gavs  utrymme att skriva ett betänkande om hur  låginkomstutredningens arbete skulle fortsättas.
Uppdatering 2: Hittade följande mycket intressanta passage i Jenny Anderssons ”Between growth and security : Swedish social democracy from a strong society to a third way ” (2006).

During a historic radio debate, the Minister of Finance Gunnar Sträng greeted Per Holmberg with this question: “What person, sound of body and mind, would work for less than five kronor an hour)” The Implication was clear: en a social democratic society of full employment and solitary wage bargaining, only thoese in some way handicapped could possibly remain poor. In 1971, the Committee on Low Income was disbanded by the prime Minister and party leader Olof Palme. Palme’s act was widely perceived as a way of quick silencing criticism that had become increasingly difficult to refute and that pointed to the failure of the SAP to create security for all. Later, in a 1977 book on current affairs, Olof Palme commented on the termination with the argument that the Committee had produced enough statistics.

“[Palme] I wish to categorically deny that the Committee on Lown Income was, in this case, cut off. This is the way it was portrayed, but we were able to verify that all the fundamental empirical evidence we needed had already been produced and published. At that level, there were no more reports to be written. Now it was time to take action. “ (p. 54)

Uppdatering: Jag hittade ytterligare en förklaring av Carsten von Otter i Acta Sociologica, Vol. 16, No. 3 (1973), pp. 229-239 .

Truth is valuable – be chary with it

Studies of social indicators present the politicians with a dilemma. The yare aware of the need for normative empirical research, but at the same time they are afraid of the consequences when the public is presented with more facts. The history of the Swedish Low Income Committee, of which the Level of Living study formed a part, is illustrative It was setup in 1965 In 1967 a special survey, the Level of Living study, was ordered from Sten Johansson at the Dept. of Sociology, Uppsala University. In August 1970 reports began to be published. Its head secretary, Per Holmberg, took an active part in the public debate in these issues. By summer 1971 the Committee was told to terminate its work within a few months, much earlier than previously planned. This was the first time in some thirty years that a government appointed committee had been discontinued prematurely. A new committee was then formed under the chairmanship of the right-hand man of the prime minister, with Johansson as its secretary. Its purpose was to evaluate the material of the low-income committee and come forward with concrete political proposals. As a rating of its political relevance this is of course a high mark for the committee. Sweden, like most countries, lacks proper social statistics related to different social groups and classes. When all this information became available to the public, it was just a little too much, for some members of the cabinet, to stand. Continued enquiry was asked for but under better political control.

Anteckning om Folkpartistisk tillväxtkritik 1972

I mitt arbete med att analysera olika sätt att mäta välfärd på snubblade jag över en intressant folkpartistiskt motion från 1972, fyra år efter låginkomstutredningen/levnadsnivåundersökningen. Tack riksdagen för era öppna data!

Folkpartisterna är i denna motion på krigsstigen mot samhällets ekonomisering. BNP avfärdas som en indikator på välfärd så här:

Vi använder oss i dag av synnerligen bristfälliga och ibland rent
felaktiga metoder för att mäta välfärden. Ofta har man använt ökad bruttonationalprodukt som liktydigt med ekonomisk utveckling, framåtskridande och ökat välstånd, trots att bruttonationalproduktbegreppet inte täcker in värden som fritid, trygghet och valfrihet i arbetet, miljö, hälsotillstånd m. m. Sådana faktorer utövar ett stort inflytande på välfärd supplevelsen men kommer inte till uttryck i  bruttonationalproduktbegreppet. Det är helt enkelt fel att reservationslöst jämställa en ökad bruttonationalprodukt — BNP — med ökad välfärd.

Denna kritik är ju mer eller mindre allmängods på 70-talet. Men det som är intressant är att till och med Folkpartiet tänker att de nya mätmetoderna ska utvecklas av ”parlamentariker” snarare än forskare, och ansluter sig till LO:s linje:

Man borde observera vad LO skriver i sitt remissvar över denna fråga om ett bredare system av välfärdsmått. LO ser detta som en stor, och tydligen också svår, fråga. LO anser att det är lämpligt att låta det tilltänkta utrednings- och metodutvecklingsarbetet ledas av parlamentariker. LO:s syn summeras så här i utlåtandet (FiU 39, 1971, s. 8): ”Därigenom skulle en bättre anknytning till riksdagens behov av att kunna styra utformningen av underlaget för samhällsplaneringen skapas.” Det gäller enligt LO den uppenbart mycket stora frågan ”hur dessa kalkyler och de olika välfärdsmått och politiska ställningstaganden de föranleder skall kunna byggas in i prognos- och planeringsarbetet”. Detta gäller en bred och genomgripande fråga, och därför är det värdefullt att parlamentariker kan vara med på ett tidigt stadium.

Jag undrar om detta skulle vara möjligt idag? Att till och med metodarbete ska utföras av parlamentariker (och inte forskare).

Sist men inte minst uttrycker Folkpartisterna en arbetskritik som även den är en omöjlig figur på den politiska högerkanten idag.

Till detta kommer att samhället med alla sina sociala skyddssystem ändå är ett hårt samhälle för den som inte orkar med i en uppskruvad arbetstakt, har svårt att anpassa sig till etablerad arbetsmoral och konkurrenskrav eller som helt enkelt av rent fysiska skäl inte orkar. Varje år stampas ett växande antal människor ut från arbetsmarknaden. Vi måste inse att den industriella exploateringen inte kan fortsätta som hittills, att vi måste ägna en mycket större uppmärksamhet
åt tillväxtens innehåll och effekter.

Bokmässan och öppna(de) data

Bokmässan inträffar ju varje höst i Göteborg. Jag har blandade känslor som vanligt.

Men jag tänker att det finns en dataperspektiv på det mesta. Vilka arrangerar saker på bokmässan? Vad handlar de om? Vilka organisationer använder detta vinmingel till att påverka politiken? Vilka personer är mest eftertraktade?

Tyvärr verkar arrangörer (till exempel Almedalsveckan) vara allergiska mot öppna data och ogillar att dela. Bok och Biblioteksmässan är dock ett privat företag, så jag bekymrade mig inte ens om att mejla och fråga. Det kan ju vara lite tröttsamt med rättshaverism.

Något som är mycket roligare än offentlighetsprinciper är datamaskiners principer. Bokmässans program ligger inbäddad i en ”skrollande” sida, en för varje dag som mässan är öppen. Inte så vänligt om man skulle vilja göra lite statistik. Men desto roligare utmaning att skrapa.

Med hjälp av selenium och ett litet pythonskript lyckades jag emulera en febrilt skrollande webläsare som hämtade all data och förpackade 1631 programpunkter (jag tror att detta är alla) i en lite trevligare csv-fil (som man kan öppna med LibreOffice eller Excel). Enkelt fixat.

Med denna data kan vi sedan skapa lite basal statistik (med hjälp av ytterligare ett litet skript) som besvarar de inledande frågeställningarna.

  1. Vilka är de största arrangörerna? Svar (uppdaterad tabell, se kommentarerna):
Författarcentrum och Sveriges Författarförbund	73
Albert Bonniers Förlag 70
Norstedts	65
Natur & Kultur	63
Bonnier Carlsen	61
Rabén & Sjögren	35
Studieförbundet Vuxenskolan	35
Wahlström & Widstrand	32
Storytel	29
Kartago	26
Göteborgs universitet	24
Linköpings universitet	23
Eksjö Bokhandel	22
Forum	22
Institutionen för svenska språket	20
Bonnier Fakta	18
Lunds universitet	17

Storytel är på uppgång och vad gör egentligen ”Eksjö bokhandel” med 22 arrangerade programpunkter, nästan lika mycket som Göteborgs universitet! (troligtvis har de lagt in alla 20 annonserade författarsigneringar som egna programpunkter).

2. Vilka är de mest bokade personerna? (vem har mest kulturellt bokmässekapital). Svar:

Anna Öqvist Ragnar	28
Jenny Jägerfeld	13
Janina Orlov	12
Ebba Witt-Brattström	12
Katarina Gäddnäs	12
Stina Wirsén	11
Cecilia Uddén	10
Mats Strandberg	10
Lotta Olsson	10
Wivan Nygård-Fagerudd	9
Irena Bre?ná	9
Anna Bennich Karlstedt	9
Johan Unenge	9
Jonas Mattsson	8
Ola Larsmo	8
Lena Andersson	8
Erik Titusson	8
Niklas Gårdfeldt Leavy	7
Björn Ranelid	7
Anne-Marie Körling	7
Yukiko Duke	7
Ingrid Elam	7
Daniel Sandström	7
Lars H Gustafsson	7
Katarina Wennstam	7
Sara Lövestam	7
Christina Wahldén	6
Sara Nyström	6
Pija Lindenbaum	6
Gunilla Bergström	6
Benita Funke	6
Sandra Beijer	6
Ulrika Knutson	6
Karolina Ramqvist	6
Henrik Meinander	6
Ylva Lagercrantz	6
Niklas Rådström	6
Siri Pettersen	6
Anna Jansson	6
Jan Guillou	6
Meg Rosoff	6
Antje Jackelén	6
Marianne Rundström	6
Elsie Johansson	6
KG Hammar	6
Farzad Farzaneh	6
Anders Hansen	6
Helena von Zweigbergk	6
Theodor Kallifatides	6

Återigen en topplacering för Storytel. Kulturmännen verkar inte kunna nå den absoluta toppen.

3. Vilka teman dominerar? Svar:

Samhälle och debatt	429
Barn och ungdom	406
Skola	237
Hälsa och livsstil	154
Bibliotek	152
Historia	133
Yttrandefrihet	128
Memoarer och biografier	100
Livsåskådning	90
Deckare	75
Serier	44
Fantasy och science fiction	41
Populärvetenskap	17
Mat och dryck	2

 

Data mining och medborgarprogrammering?

I artikeln Known or knowing publics? Social media data mining and the question of public agency i Big Data & Society (open access) skriver Helen Kennedy och Giles Moss om hur data mining kan göras tillgängligt för en bredare allmänhet och varför det är viktigt ur ett demokratiperspektiv.

Författarna belyser hur ”big data” innehåller en maktasymmetri eftersom dessa datamängder i princip uteslutande ägs av stora företag med kontor i Silicon valley. Både forskare och allmänheten ligger på efterkälken, och har varken (obegränsad) tillgång till data eller de resurser och kunskaper som behövs för att utvinna värdefulla kunskaper ur dessa datamängder. Denna utveckling har även lett till bekymmer med integritet och dataskydd, där å ena sidan allmänheten ofta är utelämnad till de villkor som företagen ställt upp, och, å andra sidan, forskare har svårt att närma sig dessa datamängder på grund av forskningsetik. Data och metadata är helt enkelt väldigt lätta att missbruka om de används i fel syften (eller läcker, oavsiktligt eller med flit).

Kennedy och Moss ställer upp tre teser om hur data mining kan förbättras:

1. Data-mining practices should be subject to greater public supervision and regulation.
2. Data mining (data, tools, and expertise) should be accessible for all to use.
3. Data-mining practices should be used in ways that help to make more reflexive and active publics.

Den första frågan snävar av mot en lagstiftande politik. Den andra frågan är både enkel och komplicerad. När det kommer till verktygen, framförallt mjukvaran, är öppen källkod såklart att föredra. Det är svårt att granska slutna lösningar och bökigt att använda dem vetenskapligt när man vill redovisa metoderna. Men när det kommer till tillgänglighet för data uppstår genast ytterligare en dimension. Det är (forsknings)etiskt problematiskt att göra data tillgängliga, dels för att en genomsnittlig Twitter eller Facebookanvändare knappast har haft i åtanke en sådan användning när hen tecknade kontot (även om det tillåter en sådan användning), och dels för att det blir omöjligt att radera data om den mångfaldigas i flera olika arkiv.

Men det intressantaste är den tredje punkten, att data mining (eller, jag gillar egentligen det bredare uttrycket ”digitala metoder”) bör användas av allmänheten för att skapa en mera reflexiv offentlighet. Som jag ser det är det ett solklart fall av medborgarprogrammering. Kennedy och Moss argumenterar vidare:

The first two of these [punkterna ovan] are already the subject of widespread discussion, but the third is less widely discussed in relation to data mining and analytics. Our contribution to this debate is to argue that all of these three ways of democratising data mining are necessary to address the problems of data power, because together, they provide the means by which publics may be empowered through data. Of course, these are not straightforward solutions and are far from being implemented in practice, but identifying and outlining them is a necessary part of our project of imagining alternative and more democratic forms of social media data mining.

Offentligheterna ska alltså gå från att vara ”known” till att bli ”knowing”. Från att vara studerade studieobjekt av de stora Silicon Valleyföretagen till att själva bli vetande subjekt som själva genererar reflexiva insikter och kunskaper om sig själva och om andra offentligheter. Kennedy och Moss går inte in på hur det skulle se ut i detalj (vilket inte förminskar deras argument, allt kan inte vara praxis), men man kan tänka sig att detta inte är helt fritt från paradoxer.

Jag drabbas alltid av en kritisk fantomsmärta varje gång jag läser att något ska vara ”demokratiserande”. Men, om jag bortser från detta, är jag ändå positivt inställd till att skapa ett utrymme för en slags fusion mellan ”medborgerliga” digitala metoder och forskningsmässiga. Till exempel, som jag skrev i förra bloggposten, är det intressant ur ett brett perspektiv att öppna upp data kring Almedalen samtidigt som det innebär värdefulla data för samhällsforskare.

Vad får vi för skattepengarna när universitet och högskolor satsar på Almedalen?

För några veckor sedan försökte jag få tag på lite data om Almedalsveckan. Först försökte jag få ut programmet genom att be snällt och vädja till offentlighetsprincipen. Men det gick inte. Så jag använde mig istället av lite medborgarprogrammering och fick tag på den data jag behövde genom att skrapa sökmotorn. Om data är stängda får man öppna dem.

Men vad kan man då göra med data? Här tänkte jag bara ta upp ett litet exempel om svenska universitet och högskolors närvaro under Almedalsveckan.

Som SVT rapporterade lägger lärosätena ”miljontals” kronor på att medverka. Men vad får man då för dessa miljoner? Förvisso rör det sig inte om så mycket pengar, inte om man sätter summorna i relation till vad forskning och undervisning kostar. Men det är en viktig principfråga att det finns möjlighet för vem som helst att ställa och besvara en sådan fråga.

SVTs artikel ger endast en topplista på vad lärosätena spenderar på Almedalsveckan (visst borde även journalistiken satsa mera på öppna data!). Så här ser den ut:

  • Stockholms universitet 1000.000 kronor.
  • Lunds universitet 800.000 kronor.
  • Uppsala universitet 500.000 kronor.
  • Göteborgs universitet 410.000 kronor.
  • Högskolan i Borås 310.000 kronor.

Tyvärr ger inte SVT någon vidare information om svarsfrekvens eller hur hela listan ser ut, så man får ta den med en nypa salt. Men det är ändå en början.

Ett sätt att mäta ”kostnadseffektiviteten” i dessa satsningar är att räkna hur många seminarier som respektive lärosäte organiserar. Ur den data som jag lyckades extrahera ur Almedals-sökmotorn (all kod och data finns på min Github-sida) kan jag göra en topplista över vilka arrangörer som arrangerat olika ”event”. Så här ser de 20 mest ”produktiva” arrangörerna ur för all data:

Expressen 90
Dagens Nyheter 65
Dagens Samhälle 59
Västsvenska Arenan 52
Fastighetsnytt 46
Business Arena Almedalen 45
Tidningen Syre 42
Sveriges Radio 41
Svenska Dagbladet 39
Dagens Industri 37
Centerpartiet 37
Studieförbundet Bilda 34
Uppsala Universitet 34
Initiativ Samutveckling 32
Naturskyddsföreningen 32
Offentliga Affärer 30
Migrationsverket 28
Humtank 27
Svt Nyheter 27
Sensus Studieförbund 27

En enkel slutsats är att de stora medierna dominerar. Men Centerpartiet sticker ut som parti, Naturskyddsföreningen som organisation, Uppsala Universitet som lärosäte.

Men här hittar vi även tankesmedjan Humtank, ”en tankesmedja för forskning och utbildning inom humaniora”. Trots att humaniora ofta ser sig som åsidosatta och underfinansierade (eller kanske precis på grund av detta) så är de väl representerade under Almedalsveckan.

Nu är ju antalet arrangerade ”events” inte en helt klockren indikator på prestation. Måttet borde egentligen kompletteras med antalet besökare, men sådan statistik är nog svår att generera automatiskt, inte minst av integritetsmässiga skäl.

Men det som jag är mest intresserad av är lärosäten. Så jag programmerade en liten funktion för att få ut bara universitet och högskolor. Så här rankar våra universitet på vad vi kan kalla för ”Almedalens ArrangörsIndex” (AAI), i en justerad* topp 15-lista:

Arrangör Event
Uppsala Universitet 34
Göteborgs Universitet 29
Lunds Universitet 27
Linköpings Universitet 24
Stockholms Universitet 23
Sveriges Lantbruksuniversitet 14
Södertörns Högskola 10
Högskolan i Borås 9
Malmö Högskola 7
Mittuniversitetets 8
Försvarshögskolan 7
Karolinska Universitetssjukhuset 6
Sveriges Universitets- och Högskoleförbund (Suhf) 5
Högskolan Väst 5

På detta sätt kan man få något att relatera prislappen till. Var det värt 310 tusen att arrangera 9 seminarier, Borås Högskola? Är 23 seminarier värda en miljon, Stockholms universitet?

Om detta kan man ha delade meningar. Min enda önskan är att data blir öppna så att en sådan mening kan baseras på fakta.

Således bör vi kräva öppna data av Almedalsveckan, nu!


* eftersom det finns flera sätt att skriva namn på samma lärosäte har jag slagit samman vissa namn. Till exempel tillhör ju Segerstedtinstitutet, GPCC och HDK Göteborgs universitet. Här är rådatan för den som vill kontrollräkna.