Mårdhunden, Judasdjuret och Människan

Racoondogskull

I helgen har jag testat att analysera biodiversitetsdata från Analysportalen från Svenska Lifewatch. Analysportalen innehåller enorma mängder artobservationer från bland annat det stora medborgarforskningsprojektet Artportalen.

Mårdhunden är en invasiv art. Den introducerades under perioden 1928-1950 i Ukraina för att jagas för pälsens skull. Människans fåfänga har ofta ekologiska konsekvenser och så även i detta fall. Mårdhunden etablerade sig och spred sig, från post-Sovjet hela vägen över Finland, till Sverige.

För att få bukt med spridningen av mårdhundarna använder man sig av ”Judasdjur”. I Jägareförbundets rapport 2015 kan man läsa följande mycket poetiska stycke:

Sändarmärkta mårdhundar (Judasdjur) letar dygnet runt efter  nya  mårdhundar  som de sedan  leder  oss  till.  Mårdhunden  är  monogam  och  dess  första  prioritet  förutom  egen  överlevnad är att finna en partner som den sedan aldrig lämnar förrän en av dem dör, då den  återigen  börjar leta en ny  partner.  Sterilisering av  sändardjuren  utförs  innan de släpps så att de inte ska kunna reproducera sig om vi skulle förlora dem genom sändarfel.Båda  könen  fungerar  lika  bra  som  Judasdjur.  Sändardjuren  fungerar  effektivare  ju  lägre  täthet det är eftersom det då är mycket svårt för oss människor att ens hitta ett spår. En annan  mårdhund  kommer  dock  att  förr  eller  senare  finna  sin  artfrände.  De  ägnar  all  sin  tid åt detta och vandrar över mycket stora områden (ibland långt över 100 000 hektar) i sitt  sökande.  I  figur  1  ser  vi  området  en  mårdhund  har  täckt  under  två  år  i  sitt  sökande  efter  en  partner,  området  är  större  än  de  flesta  län  i  landet.  När  de  finner  en  partner  avslutas  vandringen  och  paret  stannar  därefter  inom  ett  mycket  begränsat  område,  det  är också så vi ser att de har funnit en partner.

Framtiden ser inte ljus ut för mårdhunden.

screen-shot-2016-12-05-at-09-53-15

Mårdhundsobservationer per län, se källkod.

Men vad har vi för data på mårdhundens utbredning? Analysportalen är ett fantastiskt verktyg för öppna data, och man kan med enkla medel ladda hem alla observationer. Med lite helghackande lyckades jag få till lite kod som kan användas på lite olika sätt. All kod och data som behövs för att replikera figurerna finns här.

Med lite kod kan man skapa en karta över de inrapporterade observationerna (klicka för att få fram info om varje observation).

Se kartan i större format.

Men hur ska vi förstå mårdhunden och dess relation till territoriet, människan och ett processfilosofiskt tänkande?

Deleuze och Guattari’s berömda passage i Tusen platåer ger oss ett tankeuppslag:

Orkidén avterritorialiseras genom att skapa en bild, en kalkering av en geting; men getingen återterritorialiseras på denna bild. Getingen avterritorialiseras emellertid, i det att den själv blir en del av orkidéns reproduktionsapparat; den återterritorialiserar orkidén genom att transportera pollen. Getingen och orkidén bildar ett rhizom just därför att de är heterogena. (s. 27)

Människans fåfänga skapade en bild av mårdhundens päls i relation till hur människans semiotiska signaler (pälskläder) territorialiserar ett socialt stratum (jag är rik, jag har ”stil”). Detta ledde till att fåfängans logik översattes en kapitalistisk utbyteslogik av de Sovjetiska(!) aktörerna som gjorde vad de kunde för att introducera mårdhunden i östra Europa och västra Asien. Det var främst i Baltikum som mårdhunden kunde återterritorialisera sig i de födorika skogarna. Men den skulle sakta men säkert börja vandra norrut genom Karelen, samtidigt som den avterritorialiserade de djupa skogarna och kastade om den ekologiska balansen. I mårdhundarnas magar skapade dvärgbandmaskar och parasiter kalkeringar av en mårdhund och gjorde denna plats till sin reproduktionsapparat. I detta moment skapade människan en ny bild av mårdhunden som en invasiv art. Man uppfann Judasdjuret, som med avsaknad av reproduktionsapparat (steriliserad) kunde röra sig över hundratals hektar av skog i jakt på en förvildad mårdhund.

Människan, Judasdjuret, mårdhunden och dvärgbandmasken bildar ett rhizom, vars utbredning är en ständig kamp om territorium.

Att kartlägga aktörsnätverk i dokument med Named-Entity Recognition

I förra veckan var jag på en workshop arrangerad av Swe-CLARIN som arrangerats för att sprida språkteknologiska metoder till andra discipliner och ämnen. Det var en mycket lyckad tillställning och jag fick många idéer till hur man kan använda lite mer avancerade metoder för att studera dokument genom maskinell fjärrläsning, som i sin tur kan göra så att man bättre navigerar fram till kvalitativt intressanta materialfragment.

Den metod som jag genast blev intresserad av är någ0t som kallas för Named Entity Recognition (NER). NER funkar på så sätt att man applicerar olika statistiska modeller (ibland avancerad maskininlärning även) på naturligt språk för att extrahera ”entiteter” ur text.

Det har funnits flera NER-tillämpningar för engelska, men för andra språk är det ju alltid svårare. Men när jag besökte en session om annoteringsverktyget Sparv fick jag höra talas om SweNER, en tillämpning som är utformad efter svenska.  Den exakta funktionaliteten är dokumenterad i Kokkinakis D., Niemi J., Hardwick S., Lindén K. and Borin L. (2014). HFST-SweNER. A New NER Resource for Swedish. Proceedings of the 9th edition of the Language Resources and Evaluation Conference (LREC). Reykjavik, Iceland och koden hittar man här.

Vad upptäcker då SweNER i en text? Mycket intressanta saker!

Det lättaste är att ge ett exempel. När jag skickar text till SweNER svarar den så här:

$ echo "Jag bor i Göteborg. Jag är vän med Lisa som arbetar på Socialstyrelsen och tillsammans med Sven ska jag på julafton åka till Nora." | hfst-swener 

Jag bor i <ENAMEX TYPE="LOC" SBT="PPL">Göteborg. Jag</ENAMEX> är vän med <ENAMEX TYPE="PRS" SBT="HUM">Lisa</ENAMEX> som arbetar på <ENAMEX TYPE="ORG" SBT="CRP">Socialstyrelsen</ENAMEX> och tillsammans med <ENAMEX TYPE="PRS" SBT="HUM">Sven</ENAMEX> ska jag <TIMEX TYPE="TME" SBT="DAT">på julafton</TIMEX> åka till <ENAMEX TYPE="LOC" SBT="PPL">Nora.</ENAMEX>

SweNER upptäcker alltså att:

  • Göteborg – LOC – en plats.
  • Lisa – PRS/HUM – en person, mänsklig.
  • Socialstyrelsen – ORG – en organisation.
  • Sven – PRS/HUM – en person, mänsklig.
  • Julafton – TME/DAT – Datum.
  • Nora – LOC – En plats (och inte i denna kontext ett namn på en person).

Vad kan man då göra med denna typ av metadata? Jo, man kan studera vad Gabriel Tarde kallade för monader och som nutida sociologi kallar för ”aktörsnätverk”. Utan att gå in på detaljer kan man säga att varje text består av ett antal aktörer, vissa är mänskliga, andra är organisationer, teknologier, platser, händelser osv., allt som har varit med och format något genom sin verkan kan man kalla för aktörer (eller aktanter, entiteter, monader, ju obskyrare begrepp man använder desto argare kritiker får man).

En aktör definieras av sitt nätverk, vilket ger upphov till ett perspektiv på andra nätverk. Ett nätverk, i sin tur, påverkas av sina aktörer. Om jag är vän med Lisa påverkas Lisa av mig och jag av henne. Om jag bor i Göteborg påverkas Göteborg (väldigt lite förvisso) och jag påverkas av Göteborg (till och med påverkas min småländska dialekt sakta men säkert). Jag definieras litegrann av Göteborg (men jag kan inte reduceras till ”göteborgare”) och Göteborg definieras ytterst lite av min närvaro i staden.

Med NER kan man alltså skapa en (förvisso partiell och ofullständig) lista av aktörer som ingår i ett nätverk. För att ge ett exempel kan vi ta en Statlig offentlig utredning eller två. En utredning är ju skriven av en kommitté, som ofta består av flera personer (PRS/HUM). Den beskriver ofta geografiska platser (LOC) och den inhämtar massvis med information av andra organisationer (ORG).

Hur kan man använda detta för att lättare navigera i stora textmängder? Låt mig ge ett exempel på två offentliga utredningar som jag inte har läst ett enda ord i (än): SOU 1989:73 – TV-politiken och SOU 1973:10 – Reklam. Det enda dessa har gemensamt vid första anblick var att jag sökte på ”television”.

Låt oss säga att jag nu skulle vara intresserad av TV-politik. Då kan jag visualisera dessa två utredningar baserat på deras aktörsnätverk (som vi kan se konturerna av genom resultatet av NER). Så här kan det se ut vid en första anblick.

1989_73

Hela visualiseringen kan man se som en pdf. Vad betyder detta? De lila noderna representerar ORGanisationer. TV3, Marknadsdomstolen, Regeringskansliet, Europarådet och Kabelnämnden har uppenbarligen med TV-politik att göra (för att ta reda på hur måste vi givetvis läsa texten). De gröna noderna är platser (LOC), exempel Vännäs och Göteborg. Expressen, Kvällsposten och TV-konventionen klassificeras som WRK, som står för ”Work&Art”, vilket består av texter, filmer, böcker, nyhetsmedier, skulpturer etc. Men vi hittar även några manliga HUMans, här Bengt, Lars och Bertil (jag borde kanske haft med efternamnen :)).

Vi kan alltså får en första glimt av vad en SOU innehåller för entiteter. Men det intressanta blir om man lägger flera SOUer bredvid varandra. Mellan SOU 1989:73 och SOU 1973:10 finns det nämligen några gemensamma aktörer. Vi intar ett ny monadiskt perspektiv:

mellanrum

Här hittar vi inga människor, utan platser (LOC) och organisationer (ORG). Televerket, Sveriges Radio, Kommunikationsdepartementet och Jordbruksdepartementet relaterar till utredningar om television och reklam. Det gör även Stockholm, Norden, USA och Danmark.

Här kan vi fortsätta att lägga till texter och dokument, aktörsnätverk är lite som fraktaler, de blir större och större ju mer man zoomar.

Tror ni att detta kan vara något som är intressant att exempelvis applicera på alla de 8000 utredningar som nu finns tillgängliga digitalt? Givetvis inte samtidig, det skulle bli helt oöverskådligt. Men man skulle kunna hälla in alla nätverksfiler i offentligautredningar.se och så kan användarna själva komponera sina aktörsnätverk i Gephi.

\

All kod och källdata finns på min Github-sida för den som vill tillämpa detta på helt andra texter (har endast testat på Linux för det är lite enklare).

Minnesanteckning Spridningskollen – Vilka operatörer har tvingats lämna ut uppgifter?

Minnesanteckning. Det har nog inte undgått någon att Spridningskollen ska börja skicka ut brev till människor vars IP-nummer trålats och identifierats som fildelande bittorrentnoder. Det känns som ett eko tillbaka till 2008 då man diskuterade piratjägarlagen IPRED. Vad som händer nu är konsekvenserna av detta, trots att många internetoperatörer har gjort motstånd mot lagens införande och praktik.

På Twitter diskuterades vilka operatörer som har tvingats (eller frivilligt) lämna ut uppgifter till Spridningskollen. Här kommer några screenshots från kundtjänsternas sociala-medierkonton där de svarar. Jag lägger dem bara här för arkivets skull (så man kan stämma av mot vilka, med vilken operatör, som faktiskt fått brev).

Om någon har kompletterade information, kommentera mer än gärna!

\\

Uppdatering: Jag kontaktade Telenors kundtjänst på Twitter och fin nummer på domarna som lett fram till att de tvingades lämna ut uppgifterna. Har lite annat att stå i för tillfället, men lägger ut dem här. Borde vara intressant läsning.


Stockholms tingsrätt:
Ärendenummer från domstolsbeslutet från 26 augusti:
Scanbox Entertainment./. Målnummer Ä8895-16
Crystalis Entertainment./. Målnummer Ä8785-16
Ärendenummer från tidigare fall, 17 december: Crystalis Entertainment./. Målnummer Ä14271-15
Ärendenummer från tidigare fall, 17 december, 16 juni 2015: Crystalis Entertainment./. Målnummer Ä4191-15

Hovrätten:
Detta domstolsbeslut överklagades till Hovrätten men fick avslag: Målnummer ÖÄ6116-15

\\

Uppdatering: På flashback har någon begärt ut två av domarna. Lägger kopia på pdferna för arkivets skull: Stockholms TR Å 8895-16 Slutligt beslut (ej särskilt uppsatt) 2016-08-26 och Stockholms TR Ä 8785-16 Slutligt beslut (ej särskilt uppsatt) 2016-08-26

\\

Telenor säger sig ha lämnat ut uppgifter till Spridningskollen:

telenor

Comhem svarar så här:

comhem

comhem2

Telia säger:

telia

Bredbandsbolaget verkar vara tydligast med sitt svar:

bredbandsbolaget

Uppdatering. Fick tips om någon som frågat Tele2. Tipstack och bra ställd fråga av Angelica på Facebook.

tele2

Varför lade man ned låginkomstutredningen

Jag undrar varför man lade ned låginkomstutredningen 1971. Mitt intresse väcktes av en fotnot i Sten Johanssons artikel ”The Level of Living Survey” i Acta Sociologica. Här skrev han:

The political turmoil that followed the dissolution of the Low Income Committee in 1971 has forced some thinking on this problem and on the role of the expert.
Men varför upplöstes den av socialdemokraterna? En tes är att den visade på en utbredd fattigdom som gick emot den socialdemokratiska självbilden av att ha skapat ett jämlikt samhälle.
Journalisten Peter Antman skriver:

I mitten av 1960-talet hade också den så kallade låginkomstutredning startats under ledning av LO-ekonomen Per Holmberg. I slutet av 1960-talet började den publicera sina förfärande resultat, som pekade på en verklighet som sällan varit synlig – kanske var tredje löntagare hade mycket låga inkomster.

Alla i partiledningen uppskattade inte utredningens resultat. I slutet av 1960-talet hade Gunnar Sträng börjat tala om att välfärdsbygget var färdigt, att det bara återstod några smärre finjusteringar. Låginkomstutredningen innebar ett grundskott mot Strängs slutsatser. Han blev så förfärad att han i ett bekant uttalande undrade hur man är ”funtad å kroppens och huvudets vägnar” om man har så låga inkomster som låginkomstutredningen redovisat. Utan att tala med Palme lade han och inrikesminister Eric Holmqvist ner utredningen.

Det paradoxala är att utredningen till och med gillades av högern. Olof Johansson (Centerpartiet) motionerade 1972 att Låginkomstutredningen skulle göras permanent. Till och med de borgerliga ville ha kvar den utredning som visade att klassamhället var större än vad man tidigare trott.

Men, var det verkligen så här det gick till? Jag hittar inget bra som är skrivet om detta och letar därför litteraturtips.

Uppdatering:

Jag hittade en lite mera ingående förklaring i Robert Eriksons text ”Svensk välfärdsforskning”. Återigen citat ur en fotnot:

En redogörelse för arbetet i utredningen och en sammanfattning av resultaten från de undersökningar som den initierade finns i den i samband med utredningens nedläggning bildade Arbetsgruppens för låginkomstfrågor Kompendium om Låginkomstutredningen, DS IN 1971:16. Det formella skälet till att utredningen lades ner var att Rudolf Meidner lämnade uppdraget som utredningsman. Att någon ny utredningsman inte utsågs torde dock ha sammanhängt med att delar av regeringen, och då särskilt finansminister Gunnar Sträng, inte kunde fördra Per Holmbergs agerande som huvudsekreterare (ett misshag som nog delades av arbetsmarknadens parter) utan föredrog att det fortsatta arbetet skedde i en interdepartemental arbetsgrupp inom  regeringskansliet. Samtliga som skrev  underlagsrapporter till utredningen fick dock möjlighet att fullfölja detta arbete och Per Holmberg gavs  utrymme att skriva ett betänkande om hur  låginkomstutredningens arbete skulle fortsättas.
Uppdatering 2: Hittade följande mycket intressanta passage i Jenny Anderssons ”Between growth and security : Swedish social democracy from a strong society to a third way ” (2006).

During a historic radio debate, the Minister of Finance Gunnar Sträng greeted Per Holmberg with this question: “What person, sound of body and mind, would work for less than five kronor an hour)” The Implication was clear: en a social democratic society of full employment and solitary wage bargaining, only thoese in some way handicapped could possibly remain poor. In 1971, the Committee on Low Income was disbanded by the prime Minister and party leader Olof Palme. Palme’s act was widely perceived as a way of quick silencing criticism that had become increasingly difficult to refute and that pointed to the failure of the SAP to create security for all. Later, in a 1977 book on current affairs, Olof Palme commented on the termination with the argument that the Committee had produced enough statistics.

“[Palme] I wish to categorically deny that the Committee on Lown Income was, in this case, cut off. This is the way it was portrayed, but we were able to verify that all the fundamental empirical evidence we needed had already been produced and published. At that level, there were no more reports to be written. Now it was time to take action. “ (p. 54)

Uppdatering: Jag hittade ytterligare en förklaring av Carsten von Otter i Acta Sociologica, Vol. 16, No. 3 (1973), pp. 229-239 .

Truth is valuable – be chary with it

Studies of social indicators present the politicians with a dilemma. The yare aware of the need for normative empirical research, but at the same time they are afraid of the consequences when the public is presented with more facts. The history of the Swedish Low Income Committee, of which the Level of Living study formed a part, is illustrative It was setup in 1965 In 1967 a special survey, the Level of Living study, was ordered from Sten Johansson at the Dept. of Sociology, Uppsala University. In August 1970 reports began to be published. Its head secretary, Per Holmberg, took an active part in the public debate in these issues. By summer 1971 the Committee was told to terminate its work within a few months, much earlier than previously planned. This was the first time in some thirty years that a government appointed committee had been discontinued prematurely. A new committee was then formed under the chairmanship of the right-hand man of the prime minister, with Johansson as its secretary. Its purpose was to evaluate the material of the low-income committee and come forward with concrete political proposals. As a rating of its political relevance this is of course a high mark for the committee. Sweden, like most countries, lacks proper social statistics related to different social groups and classes. When all this information became available to the public, it was just a little too much, for some members of the cabinet, to stand. Continued enquiry was asked for but under better political control.

Anteckning om Folkpartistisk tillväxtkritik 1972

I mitt arbete med att analysera olika sätt att mäta välfärd på snubblade jag över en intressant folkpartistiskt motion från 1972, fyra år efter låginkomstutredningen/levnadsnivåundersökningen. Tack riksdagen för era öppna data!

Folkpartisterna är i denna motion på krigsstigen mot samhällets ekonomisering. BNP avfärdas som en indikator på välfärd så här:

Vi använder oss i dag av synnerligen bristfälliga och ibland rent
felaktiga metoder för att mäta välfärden. Ofta har man använt ökad bruttonationalprodukt som liktydigt med ekonomisk utveckling, framåtskridande och ökat välstånd, trots att bruttonationalproduktbegreppet inte täcker in värden som fritid, trygghet och valfrihet i arbetet, miljö, hälsotillstånd m. m. Sådana faktorer utövar ett stort inflytande på välfärd supplevelsen men kommer inte till uttryck i  bruttonationalproduktbegreppet. Det är helt enkelt fel att reservationslöst jämställa en ökad bruttonationalprodukt — BNP — med ökad välfärd.

Denna kritik är ju mer eller mindre allmängods på 70-talet. Men det som är intressant är att till och med Folkpartiet tänker att de nya mätmetoderna ska utvecklas av ”parlamentariker” snarare än forskare, och ansluter sig till LO:s linje:

Man borde observera vad LO skriver i sitt remissvar över denna fråga om ett bredare system av välfärdsmått. LO ser detta som en stor, och tydligen också svår, fråga. LO anser att det är lämpligt att låta det tilltänkta utrednings- och metodutvecklingsarbetet ledas av parlamentariker. LO:s syn summeras så här i utlåtandet (FiU 39, 1971, s. 8): ”Därigenom skulle en bättre anknytning till riksdagens behov av att kunna styra utformningen av underlaget för samhällsplaneringen skapas.” Det gäller enligt LO den uppenbart mycket stora frågan ”hur dessa kalkyler och de olika välfärdsmått och politiska ställningstaganden de föranleder skall kunna byggas in i prognos- och planeringsarbetet”. Detta gäller en bred och genomgripande fråga, och därför är det värdefullt att parlamentariker kan vara med på ett tidigt stadium.

Jag undrar om detta skulle vara möjligt idag? Att till och med metodarbete ska utföras av parlamentariker (och inte forskare).

Sist men inte minst uttrycker Folkpartisterna en arbetskritik som även den är en omöjlig figur på den politiska högerkanten idag.

Till detta kommer att samhället med alla sina sociala skyddssystem ändå är ett hårt samhälle för den som inte orkar med i en uppskruvad arbetstakt, har svårt att anpassa sig till etablerad arbetsmoral och konkurrenskrav eller som helt enkelt av rent fysiska skäl inte orkar. Varje år stampas ett växande antal människor ut från arbetsmarknaden. Vi måste inse att den industriella exploateringen inte kan fortsätta som hittills, att vi måste ägna en mycket större uppmärksamhet
åt tillväxtens innehåll och effekter.

Bokmässan och öppna(de) data

Bokmässan inträffar ju varje höst i Göteborg. Jag har blandade känslor som vanligt.

Men jag tänker att det finns en dataperspektiv på det mesta. Vilka arrangerar saker på bokmässan? Vad handlar de om? Vilka organisationer använder detta vinmingel till att påverka politiken? Vilka personer är mest eftertraktade?

Tyvärr verkar arrangörer (till exempel Almedalsveckan) vara allergiska mot öppna data och ogillar att dela. Bok och Biblioteksmässan är dock ett privat företag, så jag bekymrade mig inte ens om att mejla och fråga. Det kan ju vara lite tröttsamt med rättshaverism.

Något som är mycket roligare än offentlighetsprinciper är datamaskiners principer. Bokmässans program ligger inbäddad i en ”skrollande” sida, en för varje dag som mässan är öppen. Inte så vänligt om man skulle vilja göra lite statistik. Men desto roligare utmaning att skrapa.

Med hjälp av selenium och ett litet pythonskript lyckades jag emulera en febrilt skrollande webläsare som hämtade all data och förpackade 1631 programpunkter (jag tror att detta är alla) i en lite trevligare csv-fil (som man kan öppna med LibreOffice eller Excel). Enkelt fixat.

Med denna data kan vi sedan skapa lite basal statistik (med hjälp av ytterligare ett litet skript) som besvarar de inledande frågeställningarna.

  1. Vilka är de största arrangörerna? Svar (uppdaterad tabell, se kommentarerna):
Författarcentrum och Sveriges Författarförbund	73
Albert Bonniers Förlag 70
Norstedts	65
Natur & Kultur	63
Bonnier Carlsen	61
Rabén & Sjögren	35
Studieförbundet Vuxenskolan	35
Wahlström & Widstrand	32
Storytel	29
Kartago	26
Göteborgs universitet	24
Linköpings universitet	23
Eksjö Bokhandel	22
Forum	22
Institutionen för svenska språket	20
Bonnier Fakta	18
Lunds universitet	17

Storytel är på uppgång och vad gör egentligen ”Eksjö bokhandel” med 22 arrangerade programpunkter, nästan lika mycket som Göteborgs universitet! (troligtvis har de lagt in alla 20 annonserade författarsigneringar som egna programpunkter).

2. Vilka är de mest bokade personerna? (vem har mest kulturellt bokmässekapital). Svar:

Anna Öqvist Ragnar	28
Jenny Jägerfeld	13
Janina Orlov	12
Ebba Witt-Brattström	12
Katarina Gäddnäs	12
Stina Wirsén	11
Cecilia Uddén	10
Mats Strandberg	10
Lotta Olsson	10
Wivan Nygård-Fagerudd	9
Irena Bre?ná	9
Anna Bennich Karlstedt	9
Johan Unenge	9
Jonas Mattsson	8
Ola Larsmo	8
Lena Andersson	8
Erik Titusson	8
Niklas Gårdfeldt Leavy	7
Björn Ranelid	7
Anne-Marie Körling	7
Yukiko Duke	7
Ingrid Elam	7
Daniel Sandström	7
Lars H Gustafsson	7
Katarina Wennstam	7
Sara Lövestam	7
Christina Wahldén	6
Sara Nyström	6
Pija Lindenbaum	6
Gunilla Bergström	6
Benita Funke	6
Sandra Beijer	6
Ulrika Knutson	6
Karolina Ramqvist	6
Henrik Meinander	6
Ylva Lagercrantz	6
Niklas Rådström	6
Siri Pettersen	6
Anna Jansson	6
Jan Guillou	6
Meg Rosoff	6
Antje Jackelén	6
Marianne Rundström	6
Elsie Johansson	6
KG Hammar	6
Farzad Farzaneh	6
Anders Hansen	6
Helena von Zweigbergk	6
Theodor Kallifatides	6

Återigen en topplacering för Storytel. Kulturmännen verkar inte kunna nå den absoluta toppen.

3. Vilka teman dominerar? Svar:

Samhälle och debatt	429
Barn och ungdom	406
Skola	237
Hälsa och livsstil	154
Bibliotek	152
Historia	133
Yttrandefrihet	128
Memoarer och biografier	100
Livsåskådning	90
Deckare	75
Serier	44
Fantasy och science fiction	41
Populärvetenskap	17
Mat och dryck	2

 

Data mining och medborgarprogrammering?

I artikeln Known or knowing publics? Social media data mining and the question of public agency i Big Data & Society (open access) skriver Helen Kennedy och Giles Moss om hur data mining kan göras tillgängligt för en bredare allmänhet och varför det är viktigt ur ett demokratiperspektiv.

Författarna belyser hur ”big data” innehåller en maktasymmetri eftersom dessa datamängder i princip uteslutande ägs av stora företag med kontor i Silicon valley. Både forskare och allmänheten ligger på efterkälken, och har varken (obegränsad) tillgång till data eller de resurser och kunskaper som behövs för att utvinna värdefulla kunskaper ur dessa datamängder. Denna utveckling har även lett till bekymmer med integritet och dataskydd, där å ena sidan allmänheten ofta är utelämnad till de villkor som företagen ställt upp, och, å andra sidan, forskare har svårt att närma sig dessa datamängder på grund av forskningsetik. Data och metadata är helt enkelt väldigt lätta att missbruka om de används i fel syften (eller läcker, oavsiktligt eller med flit).

Kennedy och Moss ställer upp tre teser om hur data mining kan förbättras:

1. Data-mining practices should be subject to greater public supervision and regulation.
2. Data mining (data, tools, and expertise) should be accessible for all to use.
3. Data-mining practices should be used in ways that help to make more reflexive and active publics.

Den första frågan snävar av mot en lagstiftande politik. Den andra frågan är både enkel och komplicerad. När det kommer till verktygen, framförallt mjukvaran, är öppen källkod såklart att föredra. Det är svårt att granska slutna lösningar och bökigt att använda dem vetenskapligt när man vill redovisa metoderna. Men när det kommer till tillgänglighet för data uppstår genast ytterligare en dimension. Det är (forsknings)etiskt problematiskt att göra data tillgängliga, dels för att en genomsnittlig Twitter eller Facebookanvändare knappast har haft i åtanke en sådan användning när hen tecknade kontot (även om det tillåter en sådan användning), och dels för att det blir omöjligt att radera data om den mångfaldigas i flera olika arkiv.

Men det intressantaste är den tredje punkten, att data mining (eller, jag gillar egentligen det bredare uttrycket ”digitala metoder”) bör användas av allmänheten för att skapa en mera reflexiv offentlighet. Som jag ser det är det ett solklart fall av medborgarprogrammering. Kennedy och Moss argumenterar vidare:

The first two of these [punkterna ovan] are already the subject of widespread discussion, but the third is less widely discussed in relation to data mining and analytics. Our contribution to this debate is to argue that all of these three ways of democratising data mining are necessary to address the problems of data power, because together, they provide the means by which publics may be empowered through data. Of course, these are not straightforward solutions and are far from being implemented in practice, but identifying and outlining them is a necessary part of our project of imagining alternative and more democratic forms of social media data mining.

Offentligheterna ska alltså gå från att vara ”known” till att bli ”knowing”. Från att vara studerade studieobjekt av de stora Silicon Valleyföretagen till att själva bli vetande subjekt som själva genererar reflexiva insikter och kunskaper om sig själva och om andra offentligheter. Kennedy och Moss går inte in på hur det skulle se ut i detalj (vilket inte förminskar deras argument, allt kan inte vara praxis), men man kan tänka sig att detta inte är helt fritt från paradoxer.

Jag drabbas alltid av en kritisk fantomsmärta varje gång jag läser att något ska vara ”demokratiserande”. Men, om jag bortser från detta, är jag ändå positivt inställd till att skapa ett utrymme för en slags fusion mellan ”medborgerliga” digitala metoder och forskningsmässiga. Till exempel, som jag skrev i förra bloggposten, är det intressant ur ett brett perspektiv att öppna upp data kring Almedalen samtidigt som det innebär värdefulla data för samhällsforskare.

Vad får vi för skattepengarna när universitet och högskolor satsar på Almedalen?

För några veckor sedan försökte jag få tag på lite data om Almedalsveckan. Först försökte jag få ut programmet genom att be snällt och vädja till offentlighetsprincipen. Men det gick inte. Så jag använde mig istället av lite medborgarprogrammering och fick tag på den data jag behövde genom att skrapa sökmotorn. Om data är stängda får man öppna dem.

Men vad kan man då göra med data? Här tänkte jag bara ta upp ett litet exempel om svenska universitet och högskolors närvaro under Almedalsveckan.

Som SVT rapporterade lägger lärosätena ”miljontals” kronor på att medverka. Men vad får man då för dessa miljoner? Förvisso rör det sig inte om så mycket pengar, inte om man sätter summorna i relation till vad forskning och undervisning kostar. Men det är en viktig principfråga att det finns möjlighet för vem som helst att ställa och besvara en sådan fråga.

SVTs artikel ger endast en topplista på vad lärosätena spenderar på Almedalsveckan (visst borde även journalistiken satsa mera på öppna data!). Så här ser den ut:

  • Stockholms universitet 1000.000 kronor.
  • Lunds universitet 800.000 kronor.
  • Uppsala universitet 500.000 kronor.
  • Göteborgs universitet 410.000 kronor.
  • Högskolan i Borås 310.000 kronor.

Tyvärr ger inte SVT någon vidare information om svarsfrekvens eller hur hela listan ser ut, så man får ta den med en nypa salt. Men det är ändå en början.

Ett sätt att mäta ”kostnadseffektiviteten” i dessa satsningar är att räkna hur många seminarier som respektive lärosäte organiserar. Ur den data som jag lyckades extrahera ur Almedals-sökmotorn (all kod och data finns på min Github-sida) kan jag göra en topplista över vilka arrangörer som arrangerat olika ”event”. Så här ser de 20 mest ”produktiva” arrangörerna ur för all data:

Expressen 90
Dagens Nyheter 65
Dagens Samhälle 59
Västsvenska Arenan 52
Fastighetsnytt 46
Business Arena Almedalen 45
Tidningen Syre 42
Sveriges Radio 41
Svenska Dagbladet 39
Dagens Industri 37
Centerpartiet 37
Studieförbundet Bilda 34
Uppsala Universitet 34
Initiativ Samutveckling 32
Naturskyddsföreningen 32
Offentliga Affärer 30
Migrationsverket 28
Humtank 27
Svt Nyheter 27
Sensus Studieförbund 27

En enkel slutsats är att de stora medierna dominerar. Men Centerpartiet sticker ut som parti, Naturskyddsföreningen som organisation, Uppsala Universitet som lärosäte.

Men här hittar vi även tankesmedjan Humtank, ”en tankesmedja för forskning och utbildning inom humaniora”. Trots att humaniora ofta ser sig som åsidosatta och underfinansierade (eller kanske precis på grund av detta) så är de väl representerade under Almedalsveckan.

Nu är ju antalet arrangerade ”events” inte en helt klockren indikator på prestation. Måttet borde egentligen kompletteras med antalet besökare, men sådan statistik är nog svår att generera automatiskt, inte minst av integritetsmässiga skäl.

Men det som jag är mest intresserad av är lärosäten. Så jag programmerade en liten funktion för att få ut bara universitet och högskolor. Så här rankar våra universitet på vad vi kan kalla för ”Almedalens ArrangörsIndex” (AAI), i en justerad* topp 15-lista:

Arrangör Event
Uppsala Universitet 34
Göteborgs Universitet 29
Lunds Universitet 27
Linköpings Universitet 24
Stockholms Universitet 23
Sveriges Lantbruksuniversitet 14
Södertörns Högskola 10
Högskolan i Borås 9
Malmö Högskola 7
Mittuniversitetets 8
Försvarshögskolan 7
Karolinska Universitetssjukhuset 6
Sveriges Universitets- och Högskoleförbund (Suhf) 5
Högskolan Väst 5

På detta sätt kan man få något att relatera prislappen till. Var det värt 310 tusen att arrangera 9 seminarier, Borås Högskola? Är 23 seminarier värda en miljon, Stockholms universitet?

Om detta kan man ha delade meningar. Min enda önskan är att data blir öppna så att en sådan mening kan baseras på fakta.

Således bör vi kräva öppna data av Almedalsveckan, nu!


* eftersom det finns flera sätt att skriva namn på samma lärosäte har jag slagit samman vissa namn. Till exempel tillhör ju Segerstedtinstitutet, GPCC och HDK Göteborgs universitet. Här är rådatan för den som vill kontrollräkna.

Att öppna data – Almedalen och den slutna offentligheten

Häromveckan rapporterade SVT att svenska lärosäten lägger ”miljontals kronor” på Almedalsveckan. Det kan man ha blandade känslor inför. För att råda bot på min ambivalens tänkte jag att det måste gå att se vilken valuta för pengarna som universiteten egentligen får. Även om summorna kanske inte är enorma, så är det ju en demokratisk fråga huruvida man överhuvudtaget ska vara närvarande på en ö så långt borta från medborgarna man bara kan komma när man sysslar med vetenskap och utbildning.

Jag surfade till Almedalsveckans hemsida och försökte ladda ned programmet i någon form av rådata, så att jag skulle kunna ordna fram lite statistik och se vad som egentligen universiteten pratade om. Den vecka då politiker möter lobbyister måste väl ändå vara så transparent att luften vi andas känns grumlig i jämförelse! Men, jag möttes av besvikelse. Man var tvungen att ”köpa” CSV-filen som innehöll programmet som rådata.

Detta handlar inte om kostnaden. Detta handlar om att man sätter en tröskel mellan medborgare och data. Ett av mina specialintressen är datamedborgarskap, så jag känner att det är min plikt att haverera lite kring detta.

”Ursäkta om jag stör konsensusmyset i roséminglet.”

Två vägar framåt kan identifieras: Den ”juridiska strategin” (korsningen mellan juridik (LAW) och teknik (TEC) som man kan säga med filosofisk terminologi), samt den ”teknologiska strategin” (korsningen teknik (TEC) och referens (REF)). Jag testade båda parallellt.

Del 1: Den juridiska strategin

Först mailade jag Almedalsveckan och begärde CSV-filen som man kunde köpa. Min motivation var att det rörde sig om en allmän handling. Jag fick nej första gången, och andra gången hänvisades jag till ett tidigare domslut. Min fråga var:

Hej,

tack för det snabba svaret!

För att jag ska kunna gå vidare med ärendet skulle jag behöva någon form av  myndighetsbeslut att hänvisa till i min överklagan. Gärna något som är diariefört.

Sedan har jag en fråga som bara är för förtydligande. Visst är det så att jag har att göra med Gotlands kommun som myndighet i sista instans?

Tack på förhand

Mvh

Christopher Kullenberg

Svaret jag fick:

Hej Christopher,

Myndigheten som förvarar handlingen är Regionstyrelsen i Region Gotland. Någon rätt till utlämnande i elektroniskt format finns inte, se t ex http://www.allmanhandling.se/wp-content/uploads/2012/10/KR_Sthlm_4666_12.pdf. Där framgår också att beslut kring det inte är ett överklagningsbart beslut att inte lämna ut i ett visst elektroniskt format.

Jag bifogar det beslut vi arbetar efter.

Jag tar med mig dina synpunkter i vår årliga utvärdering av Almedalsveckan.

Hälsningar, [Anonymiserat]

…………………………………………..
Almedalsveckan
Telefon: 0498-26 93 10
E-post: almedalsveckan@gotland.se

Region Gotland
Visborgsallén 19, 621 81 Visby
www.gotland.se

Jag är inte så bra på den juridiska biten. Men jag tror att man kan gå vidare här. Men, jag tänker även att ja kanske inte ska plåga någon tjänsteman med detta över semestern, så ärendet kan ”vila” lite.

Men ändå: Region Gotland har resurser att leta upp prejudicerande domar som argument för att låsa in data från medborgarna. Är detta ett öppet samhälle eller en byråkratisk järnbur?

Del 2: Den teknologiska strategin

Parallellt med denna lilla juridiska ordväxling (to be continued) så testade jag även att se vad man kunde få ut av den existerande sökmotorn som är ”fri” för medborgarna att använda.

Om inte myndigheter kan ge medborgardata så kan man använda sig av medborgarprogrammering för att öppna data. I Spinozistisk mening behöver ibland Staten en intervention, en slags ”uppgradering”.

Nu blir det lite tekniskt (men egentligen är detta bara en form av applicerad sociologi som arbetar utmed linjen offentligt/icke-offentligt)

För att få maximalt antal träffar i sökmotorn sökte jag på %s%almedalsveckan.info. Denna sträng genererar 3823 träffar, vilket bör vara det ungefärliga totalurvalet.

Screenshot from 2016-07-04 17-58-20

När sökningen är klar kan man ladda ned resultaten som en pdf. Denna pdf-fil kan man enkelt konvertera till html med det anspråkslösa programmet pdftohtml.

$ pdftohtml almedalen_2016.pdf

För att sedan extrahera länkarna till varje programpunkt, är det inte svårare än att man komponerar ett reguljärt uttryck medelst egrep och skriver länkarna till en ny fil:

$ egrep -io 'http://www.almedalsveckan.info/event/user-view/[^\"]*' almedalen_2016s.html > almeurl.txt

För att sedan hämta alla länkar och därefter extrahera den data man vill ha i varje programpunkt har jag skrivit ett litet Pythonskript som man kan läsa och ladda ned här. Hela filarkivet finns på Github under det kryptiska namnet AlmeScraper.

Resultatet: En CSV-fil med några centrala data (Arrangör, Kontaktperson1, Kontaktperson2, Sökord, Ämnesområde).

Det hela kan göras mycket snyggare beroende på vilken data man vill åt. Se det mer som ett proof of concept än en exakt reproduktion av det slutna programmet.

Anteckningar om välfärdsmått 4 – Sten Johansson, indikatorrörelsen och Poppersk ingenjörskonst

Hur har man mätt den svenska välfärden? En nyckel till att förstå detta återfinns hos sociologen och professorn i välfärdsforskning Sten Johanssons arbeten på sjuttiotalet. Johansson ledde den första Levnadsnivåundersökningen som skulle exporteras till de övriga skandinaviska länderna och han var verksam vid det mycket inflytelserika Institutet för socialforskning (SOFI). Internationellt så lanserades denna forskning även som The Scandinavian Model of Welfare Research.

Sten Johanssons artikel i Acta Sociologica från 1973 1 innehåller några intressanta kopplingar mot den under sjuttiotalet framväxande indikatorrörelsen, den ”skandinaviska modellen” för välfärdsforskning och den Popperska demokratiska sociala ingenjörskonsten.

Johansson skriver att hans Levnadsnivåundersökning ansluter sig till  ”the (now) international ”social indicator movement”, if that is understood as a push for improved and more relevant social statistics”
(Johansson 1973: 212). Dels på grund av samma strävan att hitta nya mått på välfärd som hos indikatorrörelsen och dels med samma ambition att skapa långa tidsserier som kan fungera som indikatorer på att politiken rör sig i rätt riktning. Han delar även kritiken mot BNP som mått på välfärd:

“A corollary of this in our interpretation is that a unitary measure of welfare, a GWP 2, is rejected in favor of separate indicators to be assigned relative weights through the political process.“ (Johansson 1973: 212)

Johansson avvisar alltså BNP-måttet redan 1973, ett år innan tidskriften Social Indicators Research hade lanserats. Han avvisar även tydligt de subjektiva måtten, som kommer att bli framträdande i den internationella forskningen, framförallt med amerikanska influenser.

“Subjective satisfaction data would function as continuous pseudo-plebiscites in themselves while subjective perception data on resources (not to speak of objective data) can only function as a basis for interest articulation and aggregation for political parties, trade unions and other interest organizations. Subjective satisfaction data would simulate the function of interest articulation of the democratic process in a way that is rather controversial.”(Johansson 1973: 213)

Argumentet återkommer: subjektiva mått blir problematiska ur ett demokratisk perspektiv. Den politiska processen riskerar att gå vilse i forskning som mäter livstillfredsställelse, lycka och subjektivt välbefinnande eftersom det inte finns några konkreta åtgärder som kan sättas in. Dels vet vi inte med samma exakthet vad som gör människor tillfreds med sina liv, inte i jämförelse med hur vi kan påvisa bättre bostäder, ökad hälsa osv. Men det är också riskabelt att lockas av frestelsen att avstå från politiska åtgärder om människor visar sig vara nöjda med livet trots obefintliga förbättringar på en objektiv nivå, eller rent av försämringar.

Denna syn är förhållandevis kompatibel med Poppers syn på en stegvis och demokratisk social ingenjörskonst och Johansson skriver med hänvisning till detta perspektiv att  ”[the]interpretation of the level of living concept is its ”piece-meal” nature, when it comes to generating a consensus on the value problems involved in selecting indicators.” (Johansson 1973: 213)

På så sätt öppnar Johansson för att indikatorerna måste vara falsifierbara. Vi ska mäta välfärd på ett sådant sätt att vi kan gradvis förbättra samhället och samtidigt ska själva sättet vi mäter på även det kunna förfinas.

Detta är ibland enklare sagt än gjort eftersom enkätstudier måste vara ”konserverande” för att kunna uppnå långa tidsserier. Allt detta blir tydligare när vi sedan skruvar fram tiden till 2015, eftersom samma argument och liknande mått återkommer med full styrka.

Notes:

  1. Johansson, Sten 1973 The Level of Living Survey: A Presentation. Acta Sociologica 16(3): 211–219
  2. Gross World Product