Öppna data 2 – Replikerbarhet av figurer om livstillfredsställelse baserade på data från Eurobarometer och SOM

Ett argument för öppen vetenskap är att replikerbarheten ökar. När data ligger ute så kan vem som helst med tillräckliga kunskaper kontrollera och återskapa de analyser som ligger till grund för forskningsresultaten.

Jag tänkte att det hela kunde prövas. Vissa talar nämligen om en replikationskris.

Häromdagen läste jag en intressant artikel av Brülde och Nilsson (2010) som innehåller följande figur:


I förra bloggposten skrev jag om hur man kan analysera data från SOM-institutets stora enkäter. Figuren ovan innehåller dock även data från Eurobarometern. Dessa data är öppet tillgängliga från EU-kommissionens hemsida. Jag skrev en liten Jupyter-anteckningsbok med Pythonkod som beskriver hur man kan analysera den lätt.

Det intressanta med figuren är att den visar på en ganska stor skillnad mellan Eurobarometerns besöksintervjuer och SOM-institutets postalenkäter, trots att man ställer samma fråga. Brülde och Nilsson skriver:

Att besöksintervjuer tenderar att generera mer positiva svar blir särskilt tydligt i en jämförelse av utfallet i SOM-undersökningen och Eurobarometern (EB) över tid (figur 1). Det ska emellertid noteras att även svarsskalan skiljer sig åt i dessa undersökningar; där SOM på den ”missnöjda sidan” använder sig av ’inte särskilt nöjd’ och ’inte alls nöjd’ har EB lite starkare formuleringar – ’ganska missnöjd’ och ’mycket missnöjd’ – något som rimligen också det bidrar till den genomgående mer nöjda svenska befolkningen i EB:s mätning. (s. 5)

Jag tog således resultaten från SOM och Eurobarometern, bakade ihop dem till en csv-fil och skrev några rader kod. Viktigt är att man bara tar de mätningar från Eurobarometern som är genomförda på hösten (samma tid som SOM går i fält). Så här blev min figur (har lagt till några extra år som bonus):

Det ser ju bra ut. Eller… vänta nu. Min figur har 39% mycket nöjda år 2000 medan Brülde och Nilsson bara har 35%. Det kan knappast vara ett avrundningsfel. Tillbaka till källdatan från Eurobarometern:

Det ser ut som att Brülde och Nillson har tagit data från mätningen den fjärde maj istället för den fjortonde november (men det kan likagärna vara jag som har blandat ihop korten).

Öppna data 1 – SuperSOM med Python och Pandas

I en ‘post factual’ demokrati tror vissa att öppen vetenskap kan ge människor förnuftet tillbaka. Om detta vet vi mycket lite, eftersom vi inte har så mycket fakta att gå på (vilket kan betraktas som lite ironiskt).

Men, något kan man ändå veta. För att öppen vetenskap ska bli användbar av både forskare och allmänhet (framförallt då öppna data) så måste den göras begripbar. När det kommer till kvantitativa data så underlättar det om man antingen har kunskap och licenspengar att köpa och lära sig Excel eller SPSS. Men, om man istället vill vara öppen hela vägen så är det mycket bättre att köra helt med open source. Och om man dessutom vill slå flera flugor i en smäll tar man och lär sig ett programmeringsspråk. Då kan man göra tusen andra saker än bara analysera data.

Ett bra programmeringsspråk för statistik är R eftersom det i standardutförande gör allt man behöver för att använda sig av de datastrukturer som är bra för att analysera statistisk data.

Själv använder jag Python. Det är ett mera generellt språk, men med biblioteket Pandas får man enkla färdiga datastrukturer som är väldigt lätta att använda.

I denna lilla anteckning tänkte jag lägga ut lite kodsnuttar för att analysera SOM-institutets långa tidsserie 1986-2014, även kallad ”SuperSOM”, med Python/Pandas. Det är en guldgruva för samhällsvetare och det är svårt att hitta enkätdata med högre kvalitet i Europa. Dock innehåller denna datamängd mer än 93 tusen enkätsvar, så man får ha lite tålamod och RAM-minne till hands.

SuperSOM1 är öppen data, men den är inte superöppen. Man måste beställa den från Svensk Nationell Datatjänst och tillgängligheten bestäms av ”primärforskaren”. Så man måste ange vad man ska ha datamängden till och sedan får man en nedladdningslänk. Man får inte sprida den vidare.

Tyvärr levererar inte SND i csv-format utan bara i statistikprogramformat. Så jag beställde Excel-format (som smidigt kan konverteras till csv, se nedan).

Först konvertering från Excel till csv med två enkla rader:

import pandas as pd
df = pd.read_excel('data/SND 0905-004 Super-Riks-SOM 1986-2014.xlsx') # öppna Excelfil
df.to_csv("SuperSOM1986-2014.csv", sep='\t', encoding='utf-8') # skriv till csv-fil

 

Observera att det kan ta lite tid att konvertera. Excel-formatet är lite långsamt av sig. Men när det är klart kan man läsa in csv-filen på några sekunder (tar ca. 2 Gb i minne, så bör funka på vanlig dator).

df = pd.read_csv('data/SuperSOM1986-2014.csv', sep='\t', encoding='utf-8')

Nu är hela SuperSOM inläst som en ”dataframe” och allokerad som variabeln df. För att kolla att all data är med i leken kan vi göra en enkel graf år för år med det lättanvända biblioteket Seaborn.

import seaborn as sns
years = sns.factorplot('year', data=df, kind='count', size=8, aspect=2)
years.set_xticklabels(rotation=30)

Japp, SOM-enkäten blir mycket större med åren. Däremot minskar svarsfrekvensen, något man får ha i bakhuvudet.

Därefter kan man ta fram kodboken man får med och sedan börja analysera datan. Som exempel tänker jag ta fråga md10 som frågar hur nöjd man är med livet (det man kallar för ”Life satisfaction” i internationell forskning). Om man vill få ut data i procent för varje år i en tabell får man göra lite handpåläggning (tar gärna emot tips på hur man kan göra detta med mindre kod).

Så här gjorde jag (med lite hjälp av biblioteket tabulate)

from tabulate import tabulate

def lstimeseries():
    tsresults = []
    for y in range(1996, 2015):
        year = y
        md10table = df['md10'].loc[df['year'] == year]
        #md10table = df['md10']
        md10total = 0
        mycketnojd = 0
        ganskanojd = 0
        intesarskiltnojd = 0
        inteallsnojd = 0 
        nan = 0
        for t in md10table:
            if pd.isnull(t):
                nan += 1
            elif t == 98:
                nan += 1
            elif t == 99:
                nan += 1
            elif t == 96:
                nan += 1
            elif t == 1:
                mycketnojd += 1
                md10total += 1
            elif t == 2:
                ganskanojd += 1
                md10total += 1
            elif t == 3:
                intesarskiltnojd += 1
                md10total += 1
            elif t == 4:
                inteallsnojd += 1
                md10total += 1
        # Append the data to a lis of lists that can be tabulated:
        # add , 2 to the round method to get some decimals e.g. round((mycketnojd/md10total * 100), 2)
        tsresults.append([year, round((mycketnojd/md10total * 100)),   
                           round((ganskanojd/md10total * 100)),
                           round((intesarskiltnojd/md10total * 100)),
                           round((inteallsnojd/md10total * 100))])
    return(tsresults)

print("Nöjd med livet, nationella SOM-undersökningen\n")
# For html, add , tablefmt="html"
print(tabulate(lstimeseries(), headers=["Year", "Mycket nöjd", "Ganska nöjd", 
                                        "Inte särskilt nöjd", "Inte alls nöjd"])) 

Vilket ger:

Year Mycket nöjd Ganska nöjd Inte särskilt nöjd Inte alls nöjd
1996 30 64 6 0
1997 30 61 8 2
1998 28 63 8 1
1999 29 62 8 1
2000 31 61 7 1
2001 32 60 8 1
2002 29 62 8 1
2003 33 58 8 1
2004 33 59 7 1
2005 32 59 7 1
2006 35 57 7 1
2007 35 58 7 1
2008 34 58 7 2
2009 36 57 7 1
2010 36 57 6 1
2011 37 56 6 1
2012 35 58 6 1
2013 36 57 7 1
2014 37 56 6 1

För säkerhets skull kan man kolla att man har räknat rätt genom att kontrollera mot någon av alla de rapporter som SOM-institutet publicerat. Exempelvis en intressant studie av Brülde och Nilsson från 2010.

Det verkar alltså som att vi blir allt mer ”intensivt nöjda” med livet för varje år som går. Missnöjdheten är däremot stabilt låg.

Således har vi tagit fram lite data som vi kan visa för alla kommentatorer  ”känner” det ena och det andra i samtiden. Samtidigt har vi replikerat SOM-institutets mätningar, något som är viktigt för att öka den vetenskapliga kvaliteten. Ju fler ögon desto färre buggar.


  1. Göteborgs universitet, SOM-institutet. (2016). Super-Riks-SOM 1986-2014. Version 1.0. Svensk Nationell Datatjänst. http://dx.doi.org/10.5878/002826 

Mårdhunden, Judasdjuret och Människan

Racoondogskull

I helgen har jag testat att analysera biodiversitetsdata från Analysportalen från Svenska Lifewatch. Analysportalen innehåller enorma mängder artobservationer från bland annat det stora medborgarforskningsprojektet Artportalen.

Mårdhunden är en invasiv art. Den introducerades under perioden 1928-1950 i Ukraina för att jagas för pälsens skull. Människans fåfänga har ofta ekologiska konsekvenser och så även i detta fall. Mårdhunden etablerade sig och spred sig, från post-Sovjet hela vägen över Finland, till Sverige.

För att få bukt med spridningen av mårdhundarna använder man sig av ”Judasdjur”. I Jägareförbundets rapport 2015 kan man läsa följande mycket poetiska stycke:

Sändarmärkta mårdhundar (Judasdjur) letar dygnet runt efter  nya  mårdhundar  som de sedan  leder  oss  till.  Mårdhunden  är  monogam  och  dess  första  prioritet  förutom  egen  överlevnad är att finna en partner som den sedan aldrig lämnar förrän en av dem dör, då den  återigen  börjar leta en ny  partner.  Sterilisering av  sändardjuren  utförs  innan de släpps så att de inte ska kunna reproducera sig om vi skulle förlora dem genom sändarfel.Båda  könen  fungerar  lika  bra  som  Judasdjur.  Sändardjuren  fungerar  effektivare  ju  lägre  täthet det är eftersom det då är mycket svårt för oss människor att ens hitta ett spår. En annan  mårdhund  kommer  dock  att  förr  eller  senare  finna  sin  artfrände.  De  ägnar  all  sin  tid åt detta och vandrar över mycket stora områden (ibland långt över 100 000 hektar) i sitt  sökande.  I  figur  1  ser  vi  området  en  mårdhund  har  täckt  under  två  år  i  sitt  sökande  efter  en  partner,  området  är  större  än  de  flesta  län  i  landet.  När  de  finner  en  partner  avslutas  vandringen  och  paret  stannar  därefter  inom  ett  mycket  begränsat  område,  det  är också så vi ser att de har funnit en partner.

Framtiden ser inte ljus ut för mårdhunden.

screen-shot-2016-12-05-at-09-53-15

Mårdhundsobservationer per län, se källkod.

Men vad har vi för data på mårdhundens utbredning? Analysportalen är ett fantastiskt verktyg för öppna data, och man kan med enkla medel ladda hem alla observationer. Med lite helghackande lyckades jag få till lite kod som kan användas på lite olika sätt. All kod och data som behövs för att replikera figurerna finns här.

Med lite kod kan man skapa en karta över de inrapporterade observationerna (klicka för att få fram info om varje observation).

Se kartan i större format.

Men hur ska vi förstå mårdhunden och dess relation till territoriet, människan och ett processfilosofiskt tänkande?

Deleuze och Guattari’s berömda passage i Tusen platåer ger oss ett tankeuppslag:

Orkidén avterritorialiseras genom att skapa en bild, en kalkering av en geting; men getingen återterritorialiseras på denna bild. Getingen avterritorialiseras emellertid, i det att den själv blir en del av orkidéns reproduktionsapparat; den återterritorialiserar orkidén genom att transportera pollen. Getingen och orkidén bildar ett rhizom just därför att de är heterogena. (s. 27)

Människans fåfänga skapade en bild av mårdhundens päls i relation till hur människans semiotiska signaler (pälskläder) territorialiserar ett socialt stratum (jag är rik, jag har ”stil”). Detta ledde till att fåfängans logik översattes en kapitalistisk utbyteslogik av de Sovjetiska(!) aktörerna som gjorde vad de kunde för att introducera mårdhunden i östra Europa och västra Asien. Det var främst i Baltikum som mårdhunden kunde återterritorialisera sig i de födorika skogarna. Men den skulle sakta men säkert börja vandra norrut genom Karelen, samtidigt som den avterritorialiserade de djupa skogarna och kastade om den ekologiska balansen. I mårdhundarnas magar skapade dvärgbandmaskar och parasiter kalkeringar av en mårdhund och gjorde denna plats till sin reproduktionsapparat. I detta moment skapade människan en ny bild av mårdhunden som en invasiv art. Man uppfann Judasdjuret, som med avsaknad av reproduktionsapparat (steriliserad) kunde röra sig över hundratals hektar av skog i jakt på en förvildad mårdhund.

Människan, Judasdjuret, mårdhunden och dvärgbandmasken bildar ett rhizom, vars utbredning är en ständig kamp om territorium.

Att kartlägga aktörsnätverk i dokument med Named-Entity Recognition

I förra veckan var jag på en workshop arrangerad av Swe-CLARIN som arrangerats för att sprida språkteknologiska metoder till andra discipliner och ämnen. Det var en mycket lyckad tillställning och jag fick många idéer till hur man kan använda lite mer avancerade metoder för att studera dokument genom maskinell fjärrläsning, som i sin tur kan göra så att man bättre navigerar fram till kvalitativt intressanta materialfragment.

Den metod som jag genast blev intresserad av är någ0t som kallas för Named Entity Recognition (NER). NER funkar på så sätt att man applicerar olika statistiska modeller (ibland avancerad maskininlärning även) på naturligt språk för att extrahera ”entiteter” ur text.

Det har funnits flera NER-tillämpningar för engelska, men för andra språk är det ju alltid svårare. Men när jag besökte en session om annoteringsverktyget Sparv fick jag höra talas om SweNER, en tillämpning som är utformad efter svenska.  Den exakta funktionaliteten är dokumenterad i Kokkinakis D., Niemi J., Hardwick S., Lindén K. and Borin L. (2014). HFST-SweNER. A New NER Resource for Swedish. Proceedings of the 9th edition of the Language Resources and Evaluation Conference (LREC). Reykjavik, Iceland och koden hittar man här.

Vad upptäcker då SweNER i en text? Mycket intressanta saker!

Det lättaste är att ge ett exempel. När jag skickar text till SweNER svarar den så här:

$ echo "Jag bor i Göteborg. Jag är vän med Lisa som arbetar på Socialstyrelsen och tillsammans med Sven ska jag på julafton åka till Nora." | hfst-swener 

Jag bor i <ENAMEX TYPE="LOC" SBT="PPL">Göteborg. Jag</ENAMEX> är vän med <ENAMEX TYPE="PRS" SBT="HUM">Lisa</ENAMEX> som arbetar på <ENAMEX TYPE="ORG" SBT="CRP">Socialstyrelsen</ENAMEX> och tillsammans med <ENAMEX TYPE="PRS" SBT="HUM">Sven</ENAMEX> ska jag <TIMEX TYPE="TME" SBT="DAT">på julafton</TIMEX> åka till <ENAMEX TYPE="LOC" SBT="PPL">Nora.</ENAMEX>

SweNER upptäcker alltså att:

  • Göteborg – LOC – en plats.
  • Lisa – PRS/HUM – en person, mänsklig.
  • Socialstyrelsen – ORG – en organisation.
  • Sven – PRS/HUM – en person, mänsklig.
  • Julafton – TME/DAT – Datum.
  • Nora – LOC – En plats (och inte i denna kontext ett namn på en person).

Vad kan man då göra med denna typ av metadata? Jo, man kan studera vad Gabriel Tarde kallade för monader och som nutida sociologi kallar för ”aktörsnätverk”. Utan att gå in på detaljer kan man säga att varje text består av ett antal aktörer, vissa är mänskliga, andra är organisationer, teknologier, platser, händelser osv., allt som har varit med och format något genom sin verkan kan man kalla för aktörer (eller aktanter, entiteter, monader, ju obskyrare begrepp man använder desto argare kritiker får man).

En aktör definieras av sitt nätverk, vilket ger upphov till ett perspektiv på andra nätverk. Ett nätverk, i sin tur, påverkas av sina aktörer. Om jag är vän med Lisa påverkas Lisa av mig och jag av henne. Om jag bor i Göteborg påverkas Göteborg (väldigt lite förvisso) och jag påverkas av Göteborg (till och med påverkas min småländska dialekt sakta men säkert). Jag definieras litegrann av Göteborg (men jag kan inte reduceras till ”göteborgare”) och Göteborg definieras ytterst lite av min närvaro i staden.

Med NER kan man alltså skapa en (förvisso partiell och ofullständig) lista av aktörer som ingår i ett nätverk. För att ge ett exempel kan vi ta en Statlig offentlig utredning eller två. En utredning är ju skriven av en kommitté, som ofta består av flera personer (PRS/HUM). Den beskriver ofta geografiska platser (LOC) och den inhämtar massvis med information av andra organisationer (ORG).

Hur kan man använda detta för att lättare navigera i stora textmängder? Låt mig ge ett exempel på två offentliga utredningar som jag inte har läst ett enda ord i (än): SOU 1989:73 – TV-politiken och SOU 1973:10 – Reklam. Det enda dessa har gemensamt vid första anblick var att jag sökte på ”television”.

Låt oss säga att jag nu skulle vara intresserad av TV-politik. Då kan jag visualisera dessa två utredningar baserat på deras aktörsnätverk (som vi kan se konturerna av genom resultatet av NER). Så här kan det se ut vid en första anblick.

1989_73

Hela visualiseringen kan man se som en pdf. Vad betyder detta? De lila noderna representerar ORGanisationer. TV3, Marknadsdomstolen, Regeringskansliet, Europarådet och Kabelnämnden har uppenbarligen med TV-politik att göra (för att ta reda på hur måste vi givetvis läsa texten). De gröna noderna är platser (LOC), exempel Vännäs och Göteborg. Expressen, Kvällsposten och TV-konventionen klassificeras som WRK, som står för ”Work&Art”, vilket består av texter, filmer, böcker, nyhetsmedier, skulpturer etc. Men vi hittar även några manliga HUMans, här Bengt, Lars och Bertil (jag borde kanske haft med efternamnen :)).

Vi kan alltså får en första glimt av vad en SOU innehåller för entiteter. Men det intressanta blir om man lägger flera SOUer bredvid varandra. Mellan SOU 1989:73 och SOU 1973:10 finns det nämligen några gemensamma aktörer. Vi intar ett ny monadiskt perspektiv:

mellanrum

Här hittar vi inga människor, utan platser (LOC) och organisationer (ORG). Televerket, Sveriges Radio, Kommunikationsdepartementet och Jordbruksdepartementet relaterar till utredningar om television och reklam. Det gör även Stockholm, Norden, USA och Danmark.

Här kan vi fortsätta att lägga till texter och dokument, aktörsnätverk är lite som fraktaler, de blir större och större ju mer man zoomar.

Tror ni att detta kan vara något som är intressant att exempelvis applicera på alla de 8000 utredningar som nu finns tillgängliga digitalt? Givetvis inte samtidig, det skulle bli helt oöverskådligt. Men man skulle kunna hälla in alla nätverksfiler i offentligautredningar.se och så kan användarna själva komponera sina aktörsnätverk i Gephi.

\

All kod och källdata finns på min Github-sida för den som vill tillämpa detta på helt andra texter (har endast testat på Linux för det är lite enklare).

Bokmässan och öppna(de) data

Bokmässan inträffar ju varje höst i Göteborg. Jag har blandade känslor som vanligt.

Men jag tänker att det finns en dataperspektiv på det mesta. Vilka arrangerar saker på bokmässan? Vad handlar de om? Vilka organisationer använder detta vinmingel till att påverka politiken? Vilka personer är mest eftertraktade?

Tyvärr verkar arrangörer (till exempel Almedalsveckan) vara allergiska mot öppna data och ogillar att dela. Bok och Biblioteksmässan är dock ett privat företag, så jag bekymrade mig inte ens om att mejla och fråga. Det kan ju vara lite tröttsamt med rättshaverism.

Något som är mycket roligare än offentlighetsprinciper är datamaskiners principer. Bokmässans program ligger inbäddad i en ”skrollande” sida, en för varje dag som mässan är öppen. Inte så vänligt om man skulle vilja göra lite statistik. Men desto roligare utmaning att skrapa.

Med hjälp av selenium och ett litet pythonskript lyckades jag emulera en febrilt skrollande webläsare som hämtade all data och förpackade 1631 programpunkter (jag tror att detta är alla) i en lite trevligare csv-fil (som man kan öppna med LibreOffice eller Excel). Enkelt fixat.

Med denna data kan vi sedan skapa lite basal statistik (med hjälp av ytterligare ett litet skript) som besvarar de inledande frågeställningarna.

  1. Vilka är de största arrangörerna? Svar (uppdaterad tabell, se kommentarerna):
Författarcentrum och Sveriges Författarförbund	73
Albert Bonniers Förlag 70
Norstedts	65
Natur & Kultur	63
Bonnier Carlsen	61
Rabén & Sjögren	35
Studieförbundet Vuxenskolan	35
Wahlström & Widstrand	32
Storytel	29
Kartago	26
Göteborgs universitet	24
Linköpings universitet	23
Eksjö Bokhandel	22
Forum	22
Institutionen för svenska språket	20
Bonnier Fakta	18
Lunds universitet	17

Storytel är på uppgång och vad gör egentligen ”Eksjö bokhandel” med 22 arrangerade programpunkter, nästan lika mycket som Göteborgs universitet! (troligtvis har de lagt in alla 20 annonserade författarsigneringar som egna programpunkter).

2. Vilka är de mest bokade personerna? (vem har mest kulturellt bokmässekapital). Svar:

Anna Öqvist Ragnar	28
Jenny Jägerfeld	13
Janina Orlov	12
Ebba Witt-Brattström	12
Katarina Gäddnäs	12
Stina Wirsén	11
Cecilia Uddén	10
Mats Strandberg	10
Lotta Olsson	10
Wivan Nygård-Fagerudd	9
Irena Bre?ná	9
Anna Bennich Karlstedt	9
Johan Unenge	9
Jonas Mattsson	8
Ola Larsmo	8
Lena Andersson	8
Erik Titusson	8
Niklas Gårdfeldt Leavy	7
Björn Ranelid	7
Anne-Marie Körling	7
Yukiko Duke	7
Ingrid Elam	7
Daniel Sandström	7
Lars H Gustafsson	7
Katarina Wennstam	7
Sara Lövestam	7
Christina Wahldén	6
Sara Nyström	6
Pija Lindenbaum	6
Gunilla Bergström	6
Benita Funke	6
Sandra Beijer	6
Ulrika Knutson	6
Karolina Ramqvist	6
Henrik Meinander	6
Ylva Lagercrantz	6
Niklas Rådström	6
Siri Pettersen	6
Anna Jansson	6
Jan Guillou	6
Meg Rosoff	6
Antje Jackelén	6
Marianne Rundström	6
Elsie Johansson	6
KG Hammar	6
Farzad Farzaneh	6
Anders Hansen	6
Helena von Zweigbergk	6
Theodor Kallifatides	6

Återigen en topplacering för Storytel. Kulturmännen verkar inte kunna nå den absoluta toppen.

3. Vilka teman dominerar? Svar:

Samhälle och debatt	429
Barn och ungdom	406
Skola	237
Hälsa och livsstil	154
Bibliotek	152
Historia	133
Yttrandefrihet	128
Memoarer och biografier	100
Livsåskådning	90
Deckare	75
Serier	44
Fantasy och science fiction	41
Populärvetenskap	17
Mat och dryck	2

 

Data mining och medborgarprogrammering?

I artikeln Known or knowing publics? Social media data mining and the question of public agency i Big Data & Society (open access) skriver Helen Kennedy och Giles Moss om hur data mining kan göras tillgängligt för en bredare allmänhet och varför det är viktigt ur ett demokratiperspektiv.

Författarna belyser hur ”big data” innehåller en maktasymmetri eftersom dessa datamängder i princip uteslutande ägs av stora företag med kontor i Silicon valley. Både forskare och allmänheten ligger på efterkälken, och har varken (obegränsad) tillgång till data eller de resurser och kunskaper som behövs för att utvinna värdefulla kunskaper ur dessa datamängder. Denna utveckling har även lett till bekymmer med integritet och dataskydd, där å ena sidan allmänheten ofta är utelämnad till de villkor som företagen ställt upp, och, å andra sidan, forskare har svårt att närma sig dessa datamängder på grund av forskningsetik. Data och metadata är helt enkelt väldigt lätta att missbruka om de används i fel syften (eller läcker, oavsiktligt eller med flit).

Kennedy och Moss ställer upp tre teser om hur data mining kan förbättras:

1. Data-mining practices should be subject to greater public supervision and regulation.
2. Data mining (data, tools, and expertise) should be accessible for all to use.
3. Data-mining practices should be used in ways that help to make more reflexive and active publics.

Den första frågan snävar av mot en lagstiftande politik. Den andra frågan är både enkel och komplicerad. När det kommer till verktygen, framförallt mjukvaran, är öppen källkod såklart att föredra. Det är svårt att granska slutna lösningar och bökigt att använda dem vetenskapligt när man vill redovisa metoderna. Men när det kommer till tillgänglighet för data uppstår genast ytterligare en dimension. Det är (forsknings)etiskt problematiskt att göra data tillgängliga, dels för att en genomsnittlig Twitter eller Facebookanvändare knappast har haft i åtanke en sådan användning när hen tecknade kontot (även om det tillåter en sådan användning), och dels för att det blir omöjligt att radera data om den mångfaldigas i flera olika arkiv.

Men det intressantaste är den tredje punkten, att data mining (eller, jag gillar egentligen det bredare uttrycket ”digitala metoder”) bör användas av allmänheten för att skapa en mera reflexiv offentlighet. Som jag ser det är det ett solklart fall av medborgarprogrammering. Kennedy och Moss argumenterar vidare:

The first two of these [punkterna ovan] are already the subject of widespread discussion, but the third is less widely discussed in relation to data mining and analytics. Our contribution to this debate is to argue that all of these three ways of democratising data mining are necessary to address the problems of data power, because together, they provide the means by which publics may be empowered through data. Of course, these are not straightforward solutions and are far from being implemented in practice, but identifying and outlining them is a necessary part of our project of imagining alternative and more democratic forms of social media data mining.

Offentligheterna ska alltså gå från att vara ”known” till att bli ”knowing”. Från att vara studerade studieobjekt av de stora Silicon Valleyföretagen till att själva bli vetande subjekt som själva genererar reflexiva insikter och kunskaper om sig själva och om andra offentligheter. Kennedy och Moss går inte in på hur det skulle se ut i detalj (vilket inte förminskar deras argument, allt kan inte vara praxis), men man kan tänka sig att detta inte är helt fritt från paradoxer.

Jag drabbas alltid av en kritisk fantomsmärta varje gång jag läser att något ska vara ”demokratiserande”. Men, om jag bortser från detta, är jag ändå positivt inställd till att skapa ett utrymme för en slags fusion mellan ”medborgerliga” digitala metoder och forskningsmässiga. Till exempel, som jag skrev i förra bloggposten, är det intressant ur ett brett perspektiv att öppna upp data kring Almedalen samtidigt som det innebär värdefulla data för samhällsforskare.

Vad får vi för skattepengarna när universitet och högskolor satsar på Almedalen?

För några veckor sedan försökte jag få tag på lite data om Almedalsveckan. Först försökte jag få ut programmet genom att be snällt och vädja till offentlighetsprincipen. Men det gick inte. Så jag använde mig istället av lite medborgarprogrammering och fick tag på den data jag behövde genom att skrapa sökmotorn. Om data är stängda får man öppna dem.

Men vad kan man då göra med data? Här tänkte jag bara ta upp ett litet exempel om svenska universitet och högskolors närvaro under Almedalsveckan.

Som SVT rapporterade lägger lärosätena ”miljontals” kronor på att medverka. Men vad får man då för dessa miljoner? Förvisso rör det sig inte om så mycket pengar, inte om man sätter summorna i relation till vad forskning och undervisning kostar. Men det är en viktig principfråga att det finns möjlighet för vem som helst att ställa och besvara en sådan fråga.

SVTs artikel ger endast en topplista på vad lärosätena spenderar på Almedalsveckan (visst borde även journalistiken satsa mera på öppna data!). Så här ser den ut:

  • Stockholms universitet 1000.000 kronor.
  • Lunds universitet 800.000 kronor.
  • Uppsala universitet 500.000 kronor.
  • Göteborgs universitet 410.000 kronor.
  • Högskolan i Borås 310.000 kronor.

Tyvärr ger inte SVT någon vidare information om svarsfrekvens eller hur hela listan ser ut, så man får ta den med en nypa salt. Men det är ändå en början.

Ett sätt att mäta ”kostnadseffektiviteten” i dessa satsningar är att räkna hur många seminarier som respektive lärosäte organiserar. Ur den data som jag lyckades extrahera ur Almedals-sökmotorn (all kod och data finns på min Github-sida) kan jag göra en topplista över vilka arrangörer som arrangerat olika ”event”. Så här ser de 20 mest ”produktiva” arrangörerna ur för all data:

Expressen 90
Dagens Nyheter 65
Dagens Samhälle 59
Västsvenska Arenan 52
Fastighetsnytt 46
Business Arena Almedalen 45
Tidningen Syre 42
Sveriges Radio 41
Svenska Dagbladet 39
Dagens Industri 37
Centerpartiet 37
Studieförbundet Bilda 34
Uppsala Universitet 34
Initiativ Samutveckling 32
Naturskyddsföreningen 32
Offentliga Affärer 30
Migrationsverket 28
Humtank 27
Svt Nyheter 27
Sensus Studieförbund 27

En enkel slutsats är att de stora medierna dominerar. Men Centerpartiet sticker ut som parti, Naturskyddsföreningen som organisation, Uppsala Universitet som lärosäte.

Men här hittar vi även tankesmedjan Humtank, ”en tankesmedja för forskning och utbildning inom humaniora”. Trots att humaniora ofta ser sig som åsidosatta och underfinansierade (eller kanske precis på grund av detta) så är de väl representerade under Almedalsveckan.

Nu är ju antalet arrangerade ”events” inte en helt klockren indikator på prestation. Måttet borde egentligen kompletteras med antalet besökare, men sådan statistik är nog svår att generera automatiskt, inte minst av integritetsmässiga skäl.

Men det som jag är mest intresserad av är lärosäten. Så jag programmerade en liten funktion för att få ut bara universitet och högskolor. Så här rankar våra universitet på vad vi kan kalla för ”Almedalens ArrangörsIndex” (AAI), i en justerad* topp 15-lista:

Arrangör Event
Uppsala Universitet 34
Göteborgs Universitet 29
Lunds Universitet 27
Linköpings Universitet 24
Stockholms Universitet 23
Sveriges Lantbruksuniversitet 14
Södertörns Högskola 10
Högskolan i Borås 9
Malmö Högskola 7
Mittuniversitetets 8
Försvarshögskolan 7
Karolinska Universitetssjukhuset 6
Sveriges Universitets- och Högskoleförbund (Suhf) 5
Högskolan Väst 5

På detta sätt kan man få något att relatera prislappen till. Var det värt 310 tusen att arrangera 9 seminarier, Borås Högskola? Är 23 seminarier värda en miljon, Stockholms universitet?

Om detta kan man ha delade meningar. Min enda önskan är att data blir öppna så att en sådan mening kan baseras på fakta.

Således bör vi kräva öppna data av Almedalsveckan, nu!


* eftersom det finns flera sätt att skriva namn på samma lärosäte har jag slagit samman vissa namn. Till exempel tillhör ju Segerstedtinstitutet, GPCC och HDK Göteborgs universitet. Här är rådatan för den som vill kontrollräkna.

Att öppna data – Almedalen och den slutna offentligheten

Häromveckan rapporterade SVT att svenska lärosäten lägger ”miljontals kronor” på Almedalsveckan. Det kan man ha blandade känslor inför. För att råda bot på min ambivalens tänkte jag att det måste gå att se vilken valuta för pengarna som universiteten egentligen får. Även om summorna kanske inte är enorma, så är det ju en demokratisk fråga huruvida man överhuvudtaget ska vara närvarande på en ö så långt borta från medborgarna man bara kan komma när man sysslar med vetenskap och utbildning.

Jag surfade till Almedalsveckans hemsida och försökte ladda ned programmet i någon form av rådata, så att jag skulle kunna ordna fram lite statistik och se vad som egentligen universiteten pratade om. Den vecka då politiker möter lobbyister måste väl ändå vara så transparent att luften vi andas känns grumlig i jämförelse! Men, jag möttes av besvikelse. Man var tvungen att ”köpa” CSV-filen som innehöll programmet som rådata.

Detta handlar inte om kostnaden. Detta handlar om att man sätter en tröskel mellan medborgare och data. Ett av mina specialintressen är datamedborgarskap, så jag känner att det är min plikt att haverera lite kring detta.

”Ursäkta om jag stör konsensusmyset i roséminglet.”

Två vägar framåt kan identifieras: Den ”juridiska strategin” (korsningen mellan juridik (LAW) och teknik (TEC) som man kan säga med filosofisk terminologi), samt den ”teknologiska strategin” (korsningen teknik (TEC) och referens (REF)). Jag testade båda parallellt.

Del 1: Den juridiska strategin

Först mailade jag Almedalsveckan och begärde CSV-filen som man kunde köpa. Min motivation var att det rörde sig om en allmän handling. Jag fick nej första gången, och andra gången hänvisades jag till ett tidigare domslut. Min fråga var:

Hej,

tack för det snabba svaret!

För att jag ska kunna gå vidare med ärendet skulle jag behöva någon form av  myndighetsbeslut att hänvisa till i min överklagan. Gärna något som är diariefört.

Sedan har jag en fråga som bara är för förtydligande. Visst är det så att jag har att göra med Gotlands kommun som myndighet i sista instans?

Tack på förhand

Mvh

Christopher Kullenberg

Svaret jag fick:

Hej Christopher,

Myndigheten som förvarar handlingen är Regionstyrelsen i Region Gotland. Någon rätt till utlämnande i elektroniskt format finns inte, se t ex http://www.allmanhandling.se/wp-content/uploads/2012/10/KR_Sthlm_4666_12.pdf. Där framgår också att beslut kring det inte är ett överklagningsbart beslut att inte lämna ut i ett visst elektroniskt format.

Jag bifogar det beslut vi arbetar efter.

Jag tar med mig dina synpunkter i vår årliga utvärdering av Almedalsveckan.

Hälsningar, [Anonymiserat]

…………………………………………..
Almedalsveckan
Telefon: 0498-26 93 10
E-post: almedalsveckan@gotland.se

Region Gotland
Visborgsallén 19, 621 81 Visby
www.gotland.se

Jag är inte så bra på den juridiska biten. Men jag tror att man kan gå vidare här. Men, jag tänker även att ja kanske inte ska plåga någon tjänsteman med detta över semestern, så ärendet kan ”vila” lite.

Men ändå: Region Gotland har resurser att leta upp prejudicerande domar som argument för att låsa in data från medborgarna. Är detta ett öppet samhälle eller en byråkratisk järnbur?

Del 2: Den teknologiska strategin

Parallellt med denna lilla juridiska ordväxling (to be continued) så testade jag även att se vad man kunde få ut av den existerande sökmotorn som är ”fri” för medborgarna att använda.

Om inte myndigheter kan ge medborgardata så kan man använda sig av medborgarprogrammering för att öppna data. I Spinozistisk mening behöver ibland Staten en intervention, en slags ”uppgradering”.

Nu blir det lite tekniskt (men egentligen är detta bara en form av applicerad sociologi som arbetar utmed linjen offentligt/icke-offentligt)

För att få maximalt antal träffar i sökmotorn sökte jag på %s%almedalsveckan.info. Denna sträng genererar 3823 träffar, vilket bör vara det ungefärliga totalurvalet.

Screenshot from 2016-07-04 17-58-20

När sökningen är klar kan man ladda ned resultaten som en pdf. Denna pdf-fil kan man enkelt konvertera till html med det anspråkslösa programmet pdftohtml.

$ pdftohtml almedalen_2016.pdf

För att sedan extrahera länkarna till varje programpunkt, är det inte svårare än att man komponerar ett reguljärt uttryck medelst egrep och skriver länkarna till en ny fil:

$ egrep -io 'http://www.almedalsveckan.info/event/user-view/[^\"]*' almedalen_2016s.html > almeurl.txt

För att sedan hämta alla länkar och därefter extrahera den data man vill ha i varje programpunkt har jag skrivit ett litet Pythonskript som man kan läsa och ladda ned här. Hela filarkivet finns på Github under det kryptiska namnet AlmeScraper.

Resultatet: En CSV-fil med några centrala data (Arrangör, Kontaktperson1, Kontaktperson2, Sökord, Ämnesområde).

Det hela kan göras mycket snyggare beroende på vilken data man vill åt. Se det mer som ett proof of concept än en exakt reproduktion av det slutna programmet.

Genuskontroll av högskoleläckan, del 2: Ämnen (falsifierade)

Jag söndagsprogrammerade lite och passade på att uppdatera mina skrap-skript. För ett par veckor sedan gjorde jag en liten genusanalys av facebookgrupen Högskoleläckan. Men så hittade jag en liten bugg i mitt skript som gjorde att jag bara fick de 25 första kommentarerna. Nu har jag löst detta och upptäckte då att det finns några riktigt långa trådar som i sig kan vara värda att inspektera.

Jag fick även justera mina siffror lite grann (en procent cirka). Så här ser genusrepresentationen ut baserat på vem som skrivit de 30629 kommentarerna på Högskoleläckan:

Män: 20225 (66%)

Kvinnor: 7306 (24%)

Icke-identifierade: 3098 (10%)

Men under vilka omständigheter skapas denna mansdominans? Finns det några speciella ämnen i diskussionerna? Jag undersökte de tjugo längsta trådarna i hela gruppen. I tabellen indikerar en * att det finns mer än 35% kvinnor i tråden. Min hypotes var att det skulle ha med innehåll att göra. Men den får nog betraktas som falsifierad. Jag ser inget samband.

(för att kunna klicka på länken måste ni vara medlemmar i Högskoleläckan. Men det är bara att göra en förfrågan, gruppen är de facto öppen).

1 Länk  Identitetspolitik/Rasifiering Total: 428 Män: 322 (75.23 %) Kvinnor: 105 (24.53 %) X: 1 (0.23 %)
2 *Länk  Kunskapsfömedling/Pedagogik *Total: 262 *Män: 119 (45.42 %) *Kvinnor: 143 (54.58 %) *X: 0 (0.0 %)
3 Länk  Studieavgifter Total: 171 Män: 158 (92.4 %) Kvinnor: 9 (5.26 %) X: 4 (2.34 %)
4 Länk  Utbildningspolitik Total: 161 Män: 138 (85.71 %) Kvinnor: 17 (10.56 %) X: 6 (3.73 %)
5 Länk  LAS / Utlysningar av tjänster Total: 153 Män: 143 (93.46 %) Kvinnor: 1 (0.65 %) X: 9 (5.88 %)
6 *Länk  Normkritik / Pedagogik *Total: 145 *Män: 79 (54.48 %) *Kvinnor: 56 (38.62 %) *X: 10 (6.9 %)
7 Länk  Studenter / Tentamensrät Total: 133 Män: 90 (67.67 %) Kvinnor: 31 (23.31 %) X: 12 (9.02 %)
8 Länk  Sanningsrelativism / Postmodernism Total: 133 Män: 78 (58.65 %) Kvinnor: 36 (27.07 %) X: 19 (14.29 %)
9 Länk  Tillträde till Campus Total: 128 Män: 71 (55.47 %) Kvinnor: 38 (29.69 %) X: 19 (14.84 %)
10 Länk  Pedagogik / Behöriga lärare Total: 127 Män: 96 (75.59 %) Kvinnor: 23 (18.11 %) X: 8 (6.3 %)
11 Länk  Pedagogik Total: 121 Män: 67 (55.37 %) Kvinnor: 34 (28.1 %) X: 20 (16.53 %)
12 Länk  Utlysningar av tjänster / Högskolepedagogik Total: 120 Män: 63 (52.5 %) Kvinnor: 42 (35.0 %) X: 15 (12.5 %)
13 Länk  Högskolepolitik Total: 104 Män: 84 (80.77 %) Kvinnor: 9 (8.65 %) X: 11 (10.58 %)
14 Länk  Pedagogik / Utbildningspolitik Total: 103 Män: 82 (79.61 %) Kvinnor: 20 (19.42 %) X: 1 (0.97 %)
15 *Länk  Genus *Total: 100 *Män: 54 (54.0 %) *Kvinnor: 41 (41.0 %) *X: 5 (5.0 %)
16 Länk  Högskolepolitik / ”Traditioner” Total: 99 Män: 65 (65.66 %) Kvinnor: 25 (25.25 %) X: 9 (9.09 %)
17 Länk  Genus Total: 96 Män: 64 (66.67 %) Kvinnor: 24 (25.0 %) X: 8 (8.33 %)
18 *Länk  Pedagogik *Total: 95 *Män: 50 (52.63 %) *Kvinnor: 44 (46.32 %) *X: 1 (1.05 %)
19 *Länk  Kårpolitik *Total: 95 *Män: 48 (50.53 %) *Kvinnor: 40 (42.11 %) *X: 7 (7.37 %)
20 Länk  Excellenssatsningar Total: 91 Män: 71 (78.02 %) Kvinnor: 8 (8.79 %) X: 12 (13.19 %)

Efter denna besvikelse harvade jag runt i datamängden, och eventuellt hittade jag något som kanske kan vara intressant. Det verkar nämligen som att könsbalansen blir jämnare för mindre trådar med färre kommentarer. Om man kollar på trådar som får kring 9 kommentarer så blir det genast bättre, men å andra sidan är det så få analysenheter att det blir lite meningslöst att kvantifiera.

995 *Länk *Total: 9 *Män: 5 (55.56 %) *Kvinnor: 4 (44.44 %) *X: 0 (0.0 %)
996 *Länk *Total: 9 *Män: 3 (33.33 %) *Kvinnor: 5 (55.56 %) *X: 1 (11.11 %)
997 *Länk *Total: 9 *Män: 4 (44.44 %) *Kvinnor: 5 (55.56 %) *X: 0 (0.0 %)
998 *Länk *Total: 9 *Män: 5 (55.56 %) *Kvinnor: 4 (44.44 %) *X: 0 (0.0 %)
999 Länk Total: 9 Män: 4 (44.44 %) Kvinnor: 0 (0.0 %) X: 5 (55.56 %)
1000 Länk Total: 9 Män: 7 (77.78 %) Kvinnor: 0 (0.0 %) X: 2 (22.22 %)
1001 *Länk *Total: 9 *Män: 3 (33.33 %) *Kvinnor: 4 (44.44 %) *X: 2 (22.22 %)
1002 Länk Total: 9 Män: 8 (88.89 %) Kvinnor: 1 (11.11 %) X: 0 (0.0 %)
1003 Länk Total: 9 Män: 8 (88.89 %) Kvinnor: 0 (0.0 %) X: 1 (11.11 %)
1004 *Länk *Total: 9 *Män: 3 (33.33 %) *Kvinnor: 6 (66.67 %) *X: 0 (0.0 %)
1005 Länk Total: 9 Män: 9 (100.0 %) Kvinnor: 0 (0.0 %) X: 0 (0.0 %)
1006 *Länk *Total: 9 *Män: 5 (55.56 %) *Kvinnor: 4 (44.44 %) *X: 0 (0.0 %)

Längre än så kom jag inte denna gång. Tar gärna emot förslag på vad man skulle kunna operationalisera till kod för att hitta alternativa förståelser av detta fenomen (om några sådana ens finns i denna datatyp). Eller så ligger frågan någon annan stans, jag vet inte riktigt.

Uppdatering

Jag fick en fråga om det skiljer sig något i längden på kommentarerna mellan män och kvinnor. Jag undersökte det genom att anropa min sqlite3-databas med följande kommando (minnesantekning):

select sum(length(trim(comment))
- length(replace(trim(comment), ' ', '')) + 1) from main where gender='X';

Det gav följande totalresultat (totalt antal ord per kön):

Män: 932342
Kvinnor: 278074
X: 122732

Om vi sedan tar och delar dessa totalsiffror med antalet kommentarer får vi följande genomsnitt av ord/kommentar.

Män: 46.09
Kvinnor: 38.06
X: 39.61

Mäns kommentarer är alltså 21 % längre än kvinnors. Genererar detta kanske en hypotes om ”mansplaining”?

Uppdatering 2

Ett genomsnitt säger ju inte så mycket om fördelningen. Dessutom är genomsnitt känsliga för (i detta fall) att ett fåtal mycket långa kommentarer drar upp siffrorna alldeles för mycket. Så jag gjorde en snabb bar plot i R. Jag är inte så bra på att göra snygga diagram, men rådata kan laddas ned i två csv-filer (män (N=20225), kvinnor (N=7306) för den som vill räkna på ytterligare mått.

Jag laddar in de båda datamängderna som variabler (m = män, w = kvinnor) i R.

summary(m)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.0   13.0    28.0  46.1  58.0  1059.0

summary(w)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.00  10.00  23.00 38.06 49.00  1173.00

men

kvinnorboxplot

För att generera dessa figurer använde jag följande lilla R-skript:

mydata = read.csv("kvinnor.csv")
counts <- table(mydata$freq)
barplot(counts, main="Kvinnor", xlab="Antal ord per kommentar")
boxplot(m, w, names=c("Män", "Kvinnor")

Det ser ganska likt varandra ut.

Uppatering 3

Även visuell inspektion kan vara vilseledande. Med lite hjälp lyckades jag göra ett MWU-test i R (jag måste lära mig syntaxet ordentligt någon dag, R har verkligen vissa fördelar gentemot Python när det kommer till statistik).

# Läs in data
men = read.csv("men.csv")
women = read.csv("kvinnor.csv")
# Skapa arrayer
m = men$freq
w = women$freq
#Kör MWU-testet
wilcox.test(m, w, conf.int=TRUE)


Wilcoxon rank sum test with continuity correction
data: m and w
W = 81899000, p-value < 2.2e-16
alternative hypothesis: true location shift is not equal to 0
95 percent confidence interval:
3.999971 4.999997
sample estimates:
difference in location
4.000045

Således, medianvärdet för män (28) är mycket högre än för kvinnor (23)  (Man Witney U test har ett p-värde nära noll (< 2.2e-16)

Uppdatering 4:

Max Berggren har gjort lite mera avancerad statistik som visar att kvinnor oftare gör mycket korta kommentarer, medan män är överrepresenterade på långa kommentarer, och totalt sett kommenterar 11-18 procent längre. Se figurer och Pythonkod här.

Uppdatering 5:

Hur ser då dessa korta kommentarer ut egentligen. Först kvinnor (kommaseparerade, < 8 tecken långa):

Heja!, Tjoho!, Japp., Haha!, Hahaha!, Vilket?, Wow, , :), japp., 😂😂😂, Heja PA, Nej., 😂😂😂😂, Haha 😁, , , 😂, , "varit", 👍, 😡😡😡, , Nä., , BTH, Awful!, Tjoho!, Super, Följer, Sant!, Bra!, Bra!, Ok, , 👍, Suck..., Emelie, Bra!!, Pm., :-(, Bad., Va?! 😨, Följer!, suck, Meh..., , Jaaa!, Hmmm., 2 år., ??, !!, NM, Ja!, Käbbel!, !!!!!!!, Absolut, , Tack!, Wow!, Jaha!, , wtf?, , ;), :D, Right., Haha, , :-), OK, :(, Haha, I wish., ?, Bra., Oj., Exakt!, Nä ;(, , "42" !, :), SCB!, Tack!, Aha!, Amen!, ;), RIP Per, Oj!, Följer., Ja., Ja., Ja!, Oh no., Jäpp!, Lovar!, :-(, #ridå, :), :(((, Vad?, Fint!, he he, Bra!, haha:-), Typ., Nej., Tack!, !!!!!, Tack!, Klokt., Bra!, Wow!, Usch., Mycket!, Bra., Ajajaj., :-), Då så!, :-), OK, :(, Wehej!, Tack, Jepp., Tack!, OK., Uscha!, Amen!, Vågen:), Nice!, Tack!, ojojoj, ja, tack!, Tack!, ;-), :), :), Tack!, Japp,

Samma fast för män:

Ja., för*, O M G, Men ej!, Smart., , Censur?, ?, Och?, , Oj!, , Haha, ;-D, Okej., Nä., ????, , WTF!?, Var?, !!, Nej., Trams, ?, Japp., "Hånar", 👍🏻, Tihi, Nej., Nejdå!, Burn!, , , Aa., , 75..., W T F?!, Oliver, Suck!, NP1, , ^_^, Impact!, Nuts, Klokt!, Awww., , tackar!, ?, Så bra!, s. 271, , Öh, va?, Rector., 😂😂😂, Gamar., Trams., Ja., Nej., Vilka?, Klokt!, Bra!, Yes!, Äsch!, , Hmm?, , , Haha.., , Aouch!, Trams!, , Pyser?, cup?, Bra!, Uurk, Kul!, Nej., N, Bra!, Tack!, , , Va?, Köpt., ?, , Följer, Risk?, Exakt!, Nej., Varför?, ;), tack!, Är det?, ?, Om vad?, :-), Tio år., ?, , Hilfe, , ?, Öh?, Tack:-), Fan :D, , Tack., Bu, Oj!, gonatt, Klokt, ouch!, O.o, Tack, Umeå?, Hahaha!, :-), Haha!, ??? BB, haha:-), Bra!, C.O. ??, Tack!, Tack, Tackar., HumTank, Nä., :(, Trist., 7, NP1, ?, , =(, länk, :(, Nej., Nej., Jepp., Kommer, Visst, oki :-), Yes!!, Bildt?, Toppen!, Tack!, Jösses!, Meta, Anmäl., Anmäl!, :D, Nej., Synd..., Ja., Dalnäs?, UKÄ?, Ah., , Tack,, dialog, Bra!, Precis., Voff!, wow., Omg, =), och -, UK-Ä, Tack, Ajdå., vafan, Hur?, Ja, kommer!, Urk., Great!, :), hehe, 2?, Oj, Tack!, Läs!, Bra!, Aha., Fint!, Njä!, <3, ...en, ???, Nej., Tack!, S. 11, Bra DN!, Suck., Enig., klokt., Ja., :), lol, oui!, Tack!, hehe, ajdå., Great,, Cool!,

Genuskontroll av Högskoleläckan

Ibland skrivs det i tidningen om att det är dålig stämning i en Facebookgrupp som heter Högskoleläckan. Gruppen startades av Ulf Dalnäs i december 2010 och har omkring tiotusen medlemmar. Dess primära inriktning är ”skvaller” från högskolevärlden, men för det mesta är inläggen som postas väldigt seriösa.

Jag blev lite nyfiken på vilka som kommenterade på Högskoleläckan, fast bara i sociologisk mening, givetvis.

Jag skrapade ned de cirka 5200 trådarna på Högskoleläckan innehållandes sammanlagt ungefär 24000 kommentarer. Jag anonymiserade datamängden. Sedan plockade jag fram algoritmen gendercounter som jag har skrivit primärt för Genuskollen, men som funkar utmärkt att importera som en modul för att analysera stora mängder namn genom att köra dem mot SCBs statistik över namn/kön från folkbokföringen.

Jag hittade 24210 namn i kommentarstrådarna. Dessa fördelade sig så här:

Kvinnor: 5837

Män: 15810

Obestämda: 2563

Vilket ger avrundar till procentfördelningen:

Kvinnor: 24%

Män: 65%

Obestämda: 11%

Kategorin ”obestämda” har flera förklaringar. För det första är det vanligt med utländska namn på en sida som har en förhållandevis internationell användarbas. För det andra så är det vanligt att Facebook-användarnamnen är smeknamn, exempelvis ”Peo” istället för ”Per-Olof” och att vissa anger efternamnet som förnamn, typ ”Svensson Sven”. På Facebook anger man förvisso kön i sin användarprofil, men jag ville inte riktigt anropa individer som sådana i denna lilla undersökning. Det är bra ändå med ett elvaprocentigt brus, eftersom det ger mycket bra data att mata tillbaka till gendercounter-algoritmen för att förfina den.

Högskoleläckan är så pass stor att den även uppvisar korrelationer med saker som händer i omvärlden. Till exempel Macchiarini-skandalen får ett bra kronologiskt avtryck, alltså, gruppens interaktioner går att relatera till händelser i ”omvärlden” (klicka för att förstora).

Screen Shot 2016-05-05 at 16.18.41

Resultaten ska tolkas med en nypa salt. De är framtagna med lite eftermiddagsprogrammering. Även om de är replikerbara är en elvaprocentig ”felmarginal” ändå inte helt obetydlig i sammanhanget.