Offentligheten och imitativ strålning – konspirationsteoretiker och tangentbordskrigare

I förra inlägget skrev jag hur man tentativt skulle kunna studera imitativa strålar i digitalt material som man skrapade från Facebook. Här kommer ytterligare en trevande idé om hur man kan vaska fram vissa typer av beteenden som kan vara intressanta för att förstå det offentliga samtalets struktur.

När jag samlar data från Facebook har jag även sparat hashsummor av användarnas femtonsiffriga ID-nummer. Detta gör att jag kan följa individer genom hela materialet, fast utan att veta vem de är eftersom hashsumman inte är reversibel. Sociologi intresserar sig ändå inte för individer, och forskning handlar ju inte om att hänga ut någon (det lämnar åt journalistiken).

Men vad som är intressant tänker jag är att se vilka ”idealtypiska” nätbeteenden som man kan vaska fram. Ofta talas det ju om ”troll” och ”tangentbordskrigare”, fast sällan hänvisar man till empiri. Kanske finns det möjlighet att ändra på det, om vi experimenterar med samhällsvetenskapliga metoder litegrann.

Observera att det jag nu skriver om är enskilda kvalitativa exempel baserade på användarmönster, och inte något uttalande om fenomenens utsträckning (kvantitet, strålningsgrad).

\\

Först tänkte jag ge ett exempel på vad man kan kalla för en ”konspirationsteoretiker”. När jag söker jag på ”Bilderberg” i min datamängd kan man se att vissa individer ger ett speciellt avtryck om man visualiserar beteendet som ett nätverk (av imitativa strålar).

bilderberg1

Individen d3eb1 har kommenterat på Moderaterna, Centerpartiet och Socialdemokraternas Facebooksidor om Bilderberggruppen. Det här är vad hen säger (klicka för att förstora):

bilder4bilder3bilder2

En övertygad konspirationsteoretiker är dels missionerande och vill berätta för så många som möjligt. Men samtidigt känner hen sig begränsad av censur och inskränkningar i yttrandefriheten. Budskapet ska fram till varje pris, men priset en får betala är att bli tystad.

Den här typen av utläggningar är typiska:

/…/ de censurerar obekväma användare genom att radera deras inlägg samt tar bort deras möjlighet att kunna kommentera! De är under ALL kritik. För istället för att SVARA på sakliga frågor som folk ställer om socialdemokratiska partimedlemmar som springer på hemliga kontroversiella Bilderbergmöten och om den snedvinklade rapporteringen från Syrien, så RADERAR de inlägg,som de sedan förnekar att de har tagit bort och som jag nämnde tidigare, tar bort funktionen att kunna KOMMENTERA!! Är det DEMOKRATI DET? Jag kommer ALDRIG mer rösta på Socialdemokraterna. Ett gäng hycklare är vad ni är som kränker människors mest fundamentala rätt att få yttra sig utan att bli censurerad!!
Nu skall jag gå ut och skriva om det här på min blogg!!

En annan typ som vi ofta möter är ”tangentbordskrigaren”. I likhet med konspirationsteoretikern finns en missionerande ambition som vänder sig utåt och vill berätta överallt om ”sin sanning”. Tangentbordskrigaren detekteras ofta genom att man söker på något ”kritiskt” begrepp (ex. ”massinvandring”, ”flyktingpolitik”) och sedan zoomar in på en användare som rör sig över flera grupper; alltså, någon som har ett nomadiskt förhållningssätt till territorier (krigsmaskin, den ”lantliga fascismen”).

tangent

Användaren 2c2b9 rör sig över flera grupper när man söker på termen ”massinvandring”. Misstanken om att vi har att göra med en tangentbordskrigare stärks. Tar man fram vad hen säger genom hela datamängden ser man att hen täcker in ett stort territorium:

Centerpartiet|Är inte regeringens politik skäl nog för att misstroendeförklaras, vad är i såfall skäligt?
Centerpartiet|Framgår inte ett smack vad graferna står för mätdata. 😒
Liberalerna|Lägg ner tankar på att gå med i nato.
Fundera på vilka som låg bakom Palme-mordet…
http://www.friatider.se/oliver-stone-cia-bakom-statskuppen-i-ukraina
Nyheter Idag|Dom där snorungarna skulle kunna  vara barn till dom där ”ensamkommande barnen”.
I takt med att invandrare förgriper sig på svenskar så får SD ökat stöd, men visst är det MYCKET SYND att det i Sverige länge inte funnits någon större nationalistisk solidaritet i annat än sportsammanhang.
Expressen|Kom mördaren till landet genom från ett arabland genom ”fri invandring” eller var han en urinvåndare som blev förtryckt av arbetslinjen?!?
Sverigedemokratisk ungdom|Läckert kaxig reklam. Politik ska alltid vara aktuellt och det visar SD exemplariskt. Dock så tror jag inte Sverige blir bra direkt vid regeringsskifte 2018, utan då har sveriges ekonomi och demografi skadats något offantligt mycket om inte moderaterna öppnar både sina hjärtan och hjärnor och utlyser nyval tillsammans med SD och övriga allianspartier. Det måste bli slut med den vänsterextrema migrationspolitiken!!
SR P1|Meningen. Må bra å ha kul! 😀🙌👍
SR P1|Räcker det inte att man luktar skit på sin fritid? På arbetstid kan man väl försöka hålla en god stil?
Stoppa maktmissbruket|I trafiken finns nolltollerans. Men den allmänna moralen och brottsstävjandet?!? KATASTROF!! Moderater och Sossar bör packa och icke göra sig besvär i riksdag och regering framöver….
Stoppa maktmissbruket|Ska vi ta in Saudi-Arabien, Irak, Egypten, Somalia och Eritrea med i EU också? När vi ändå håller på?!? :-p
Friatider.se|I Sverige är det rasism, vi är blandade och mångkulturella…
Friatider.se|Syriska och Marokanska Europer.
Bra att vi har massinvandring till sverige av sådana va?
Snart i en Svensk Stad nära dig. Säpo kanske ska höja terrorhotnivån en grad från och med idag?
Friatider.se|Igen och igen…

Tangentbordskrigaren rör sig alltså mellan högerextrema partier och grupperingar, via ”alternativmedierna” och in och ut genom de etablerade partierna. Både tantentbordskrigarna och konspirationsteoretikerna tycks dela denna mikrotaktik; breda ut sig, ockupera ett kommentarsfält, gå vidare.

\\

Nu funderar jag på om jag ska skriva en liten algoritm för att detektera beteenden som delar samma abstrakta maskin som tangentbordskrigaren och konstpirationsteoretikern. Jag tänker att följande egenskaper kan vara intressanta att kalibrera algoritmen efter:

  • Gradvis repetetiva ord och fraser (ofta upprepar sig).
  • Stor spridning över olika facebookgrupper.
  • Frekvent användning av CAPSLOCK.

Vad tror ni? Med en sådan algoritm skulle man sedan kunna kvantifiera mina icke-systematiska observationer och kanske få en bild av olika nätbeteenden.

Imitativ strålning i en halv miljon facebookkommentarer

Jag har länge funderat på olika metoder för att studera fenomenet imitativ strålning, det vill säga de repetioner/imiationer som utgör det sociala livets väv, som genomkorsar oss, och som vi använder oss av för att gå vidare i världen.

I Social Laws (1879) definierade Gabriel de Tarde ”imitativ strålning” som:

This, let me say again, is what I mean by a ray of imitation, or imitative ray ; and the sum total of rays of this kind derived from any single inventor, originator, or innovator, whose pattern is reproduced, is what I call an imitative radiation. Our social life includes a thick network of radiations of this sort, with countless mutual interferences. (p. 101)

Begreppet strålning ska här förstås i sin vetenskapshistoriska kontext. Det var vid denna tidpunkt som Röntgen, Becquerel och Curie upptäckte den radioaktiva strålningen, även om osynliga former av strålning (infrarött, ultraviolett ljus etc.) hade upptäckts hundra år tidigare.

Men en sociologisk stråle skiljer sig från en fysikalisk. En imitativ stråle hänvisar i någon mening tillbaka till en innovation eller en uppfinning. Men eftersom dessa ”original” ofta är omöjliga att spåra upp när det kommer till vardagliga beteenden och handlingar, så är det egentligen sällan innovationerna som man vill studera, utan repetitionerna.

Imitativ strålning kan studeras i alla möjliga typer av material. Men när det kommer till fenomenen såsom opinionen eller offentligheten så vill man ju gärna komma åt ”den vanliga människans” tankar och handlingar. Problemet är att det är svårt att närgranska vad människor tycker och tänker eftersom det med konventionella metoder (enkäter, intervjuer) blir dyrt och krångligt, och dessutom måste man ju skapa frågor som respondenterna svarar på, vilket gör att man inte kommer åt det spontana och vardagliga. Vissa humanister och samhällsvetare tar då till ett ”knep” och läser istället vad som står i tidningen, sedan antar de att vanliga människor är ”produkter” av den ”diskurs” som tidningen sprider. En omväg och en irrväg.

Istället tänker jag att allt det som sägs och görs i sociala medier borde kunna användas som ofiltrerat råmaterial för att snappa upp fragment av den imitativa strålningen. Här finns enorma mängder material, tillgängligt mer eller mindre gratis (fast på Silicon Valleyföretagens villkor), som nästan bara används för marknadsföring och omvärldsbevakning.

Med utgångspunkt i Imitationens lagar har jag tidigare hävdat att Facebooks databas i framtiden skulle vara ett av de viktigaste arkeologiska fynden för den som ville studera det sociala livet i retrospekt, kanske som en slags mikrohistoria.

Men Facebooks databas är gigantisk även om man bara närmar sig en delmängd av den. Men någonstans måste man ju börja, så jag skrev ett Pythonskript som skrapar kommentarer som postas på hundra stora Facebooksidor (och genast anonymiserar dem), som i någon mening har en koppling till den politiska offentligheten på ett eller annat sätt. Här ryms politiska partier, nyhetsmedier, föreningar, religösa samfund, kampanjer och en del ljusskygga medborgargarden och gatuaktivister från höger till vänster. Min plan är att utvidga listan på grupper så att jag täcker in mer och mer.

Men bara dessa hundra grupper gav efter några timmars tuggande upphov till en halv miljon poster i min databas (jag delar gärna med mig av den, men jag tror att det skulle bryta mot Facebooks regler om jag lade ut den för allmän nedladdning, kontakta mig).

En halv miljon Facebookkommentarer är bara en droppe i datafloden. Men på samma sätt som man kan detektera även små mängder strålning av vissa isotoper, kan man med små mängder naturligt språk detektera de imitativa strålarnas repetitioner genom det sociala livets bakgrundsstrålning.

För att göra databasen sökbar skrev jag ett annat skript och frontend som genererar ett smidigt webbgränssnitt som kan göra avancerade sökningar medelst reguljära uttryck*. Så här:

search

För att testa hur väl det funkar började jag med ett samtidsfenomen som är tillräckligt litet och begränsat för att man ska kunna kalibrera träffsäkerheten mot andra källor. Jag sökte därför på ”Soldiers of Odin”, och alla tänkbara varianter av hur man kan skriva ut detta, med följande reguljära uttryck: SOO\s|Soo\s|SoO|\ssoo\s|[S|s]oldiers of|S\.O\.O.*.

Tidsmässigt verkar det som att det talas om Soldiers of Odin med största intensitet bara de senaste månaden:

soo

De första träffarna är från januari i år och sker på en sida av offentligheten som verkar gilla SoO.

medborgar

När jag söker i Mediearkivet (lite snabbt) så är det först en månad senare, i slutet av februari, som ETC rapporterar att SoO är på väg till Sverige. Det spelar ingen roll egentligen, det intressanta är ju hur en finsk ”innovation” smittar till Sverige, inte bara via de stora massmediekanalerna, utan underifrån. Vill man studera hur dessa aktivistgrupper formeras och sprids från land till land gör man nog bäst i att övervaka dessa grupper (tillsammans med Flashback) snarare än vad som skrivs i tidningarna.

När sedan SoO börjar patrullera gatorna i Sverige sker en explosion framförallt i vad vi kan kalla för löst sammanhållna antifascistiska Facebookgrupper.

anon

Men vid det här laget har ju SoO redan blivit rikskändisar genom att ha patrullerat bland annat i Göteborg.

\\

Man kan även observera återmedieringar i den andra riktningen. Ta begreppet ”selfie” som introducerades med pedagogiska förklaringar i pressen i början av 2013. En skärmdump från Mediearkivet:

selfie

Den imitativa strålen träffar sedan urskiljningslöst genom offentligheten:

selfiesok

Ett annat uttryck som kan vara intressant är ”svetsarn” (Stefan Löfven). Uttrycket existerade innan han blivit statsminister, men väldigt sparsamt i svensk press ändå:

svetsarn

Till en början kan man då tänka att detta är ett nedsättande högeruttryck som används av Löfvens politiska fiender (det är här alla ”diskursanalyser” av massmedier stannar). Men tittar vi i hur uttrycket används blir det mera komplext.

svetsarn2

Uttrycket ”svetsarn” tycks förekomma både i gillande och ogillande sammanhang.

Imitativa strålar får inte sin mening genom att en högre ordning tillskriver dem betydelse. Istället får de sin innebörd genom att repeteras och imiteras. Vad som ena dagen är ett skällsord och andra dagen ett smeknamn är alltid en empirisk fråga.

* Obs. i Linux behöver du bara installera regexp-modulen till sqlite3, medan i Mac OS måste du kompilera om sqlite3 från källkod.

Empati på internet, läsande och primitivism

Idag skriver jag och min forskarkollega Niclas Hagen en replik till Fredrik Svenaeus, som liknade internet vid ”hejarklackens logik”. Jag tänkte här bara länka till de referenser som inte får plats i tidningsformatet.

  • Hänvisningen till Julia Pennlerts forskning om poesi på internet finns publicerad i antologin Litteraturens nätverk.
  • Diskussionerna kring internet och arabiska kvinnliga poeter ägde rum på Göteborgs poesifestival förra året.
  • Bruno Latours begrepp homo fabricatus kommer från kapitlet om teknik i An Inquiry into Modes of Existence, närmare bestämt på sidan 230. Jag har även bloggat om detta här.
  • Läsvärt i sammanhanget om Helena Granströms teknik- och modernitetskritik är Isabelle Ståhls recension i SvD. Man blir lite mörkrädd av passagen om ”renskötaren”…

Uppdatering: Svenaeus skrev en replik till vår replik med titeln ”Ängsligt teknikkramande förbättrar inte nätkulturen”.

Kvantitativ mansplaining: Sd vs. Fi Facebooksidor

Detta är bara ett litet test. Men jag gjorde ju en mätning av hur många män/kvinnor som kommenterade på olika partiers Facebooksidor för någon vecka sedan.

Här kommer två ytterst ovetenskapliga ordmoln, den första baserad på 6759 kommentarer gjorda av män på Sverigedemokraternas FB-sida och den andra baserad på 3332 kommentarer gjorda av män på Feministiskt initiativs FB-sida.

sdfi

Preliminärt resultat: På Sverigedemokraternas sida är svordomar mera vanligt förekommande (”fan”, ”jävla”, ”helvete”). På Feministiskt initiativs sida pratas det mer om ”kvinnor” och ”män”. Båda sidor pratar om sitt eget parti och båda pratar om ”Sverige”.

Säg till om ni vill ha källkod.

 

Recension: Digital politik: Sociala medier, deltagande och engagemang

Idag publiceras en recension av boken Digital politik: Sociala medier, deltagande och engagemang (Carlsson, Eric, Bo Nilsson & Simon Lindgren (red.) (2015). Göteborg: Daidalos) som jag har skrivit i tidskriften Human IT, som är helt och hållet open access.

Jag fick fritt fram att skriva långt, så recensionen är förhållandevis utförlig. Utrymmet gjorde även att jag fick möjlighet att driva ett antal metodologiska och teoretiska resonemang som visar hur boken med sitt diskursanalytiska perspektiv (tung inspirerat av Laclau och Mouffe) på många sätt missar den digitala politiken. Detta är dock mer än en metodfråga. Det får bland annat som konsekvens att man helt bortser från konsekvenserna av internets plattformisering, hur hypertext fungerar, vad meta-data betyder osv.

Men det finns även en annan brist i perspektivet. Genom att författarna i huvudsak analyserar hur man har talat om digital politik i konventionella massmedier, så missar man helt och hållet framväxten av ”alternativmedier” och deras (i många fall negativa) påverkan på det offentliga samtalet. Ur ett svenskt perspektiv känns det omöjligt att tala om digital politik utan att nämna Flashback, Avpixlat osv.

Eller vad tänker ni om detta?

 

Partiernas kön

I november förra året undersökte SCB i sin partisympatiundersökning hur fördelningen mellan män och kvinnor såg ut bland de som kunde tänka sig att rösta på ett visst parti i nästa val. Resultatet blev följande:

scb

Vad som kanske överraskade lite var den stora övervikten av män bland Sverigedemokraterna. Den var så stor att den fick alla andra partier att bli (svagt) kvinnodominerade. Sådan blir ju effekten av att ha riksdagsvalet som modell för vad som ”gör” ett parti. Allt kommer i slutändan bli 100 procent.

Finns det ett annat sätt att belysa kön på? En opinionsundersökning i linje med SCBs undersökning siktar ju bara på valresultatet som ett slag facit och ger ett extensivt mått. Men hur ser det ut när det politiska diskuteras? Ett sätt att studera det offentliga samtalet är att se vad som sägs på Facebook. På så sätt får man en mera processuell och rörelsebaserad indikation på hur det politiska byggs från handling till handling i offentligheterna. Vilka är det som dominerar i detta samtal?

För att undersöka detta laddade jag ned ett stort antal poster på de olika partiernas Facebooksidor (från 400 till 1000 poster, exklusive Kd som inte har något officiell sida) och gick igenom de ca. 100 000 namn som förekommer i kommentarstrådarna. Facebook håller förvisso ganska bra koll på vilket kön varje användare har, men denna information är inte öppet tillgänglig för övervakning via Graph-APIet som man använder för att skrapa data.

Så då fick jag lösa det med ett litet hack.

Jag körde alla hundratusen namn genom mitt lilla program gendercounter (som även utgör motorn i Genuskollen.se) och räknade hur ofta manliga och kvinnliga namn förekom (i absoluta tal, dvs. samma unika namn kan förekomma flera gånger). Resultatet blev så här:

resultat

När det kommer till kommentarer på Facebook är männen ständigt överrepresenterade, med undantag för Feministiskt initiativ som är det enda parti som har fler kommenterande kvinnor än män. Den generella trenden är att högerut är det fler män och vänsterut fler kvinnor. Men Sd sticker i denna undersökning inte ut mer än något annat högerparti. Istället är det Moderaterna som har flest män som kommenterar på sin Facebooksida.

Så här ser datamängden ut i tabellform för frekvens av namn (procenttalen avrundade, därför kan det bli 101% när man summerar):

Parti Kvinnor Män Obestämd N
Kommentarstrådar
Fi 55 32 13 10345 853
V 38 48 14 19429 998
S 37 48 15 20174 1004
Mp 34 53 13 15101 965
C 24 66 10 7512 732
L 27 65 9 10404 725
M 22 70 8 22354 1002
Sd 25 64 11 10529 427

Nu finns det flera metodproblem som jag ännu inte har löst, så dessa resultat ska läsas med försiktighet. Det som sorteras som ”obestämt” är  namn som inte förekommer i listorna som matchar namn. Det kan exempelvis röra sig om olika ”smeknamn”, men det kan även om genusneutrala namn. Jag jobbar kontinuerligt med att öka denna träffsäkerhet, men först måste man utsätta sig för riktig data innan man hittar anomalierna.

Trenden är ändå ganska tydlig. Kanske kastar denna typ av undersökningar nytt ljus på de politiska samtalens förutsättningar. Det verkar i så fall som att nästan alla Facebooktrådar är sorgligt mansdominerade.

\\

Metod / Kod

Först skrapade jag varje partis Facebooksida med följande skript. Fyll i sidornas ID-nummer och din access_token:

from facepy import GraphAPI
from django.core.serializers.json import DjangoJSONEncoder
import json

group_id =""
access_token = ""

graph = GraphAPI(access_token)
pages = graph.get(group_id + "/feed", page=True, retry=3, limit=1) #This is the number of posts per file!! original value 1
i = 0
for p in pages:
    print('Downloading page', i)
    with open('Partinamn/%scontent%i.json' % (group_id, i), 'w') as outfile:
        json.dump(p, outfile, indent = 4, cls=DjangoJSONEncoder, ensure_ascii=False)
    i += 1

Jag stoppade skriptet när det översteg 1000 poster för att inte översköljas av data.

Därefter körde jag följande skript för att räkna namn. Observera att jag importerar gendercounter som en modul, vilket gör att man först måste avkommentera några rader som sköter filöppning etc (se kodkommentarerna) samt lägga både gendercounter och dess namnlistor i samma katalog.

#-*- coding: utf8 -*-
import json
from json import load
from os import listdir
import gendercounter

counter = 0
kvinnocounter = 0
maencounter = 0
undetermined = 0
commentfield = 0

recordlist = []

directory = "Partinamn/"


#### Multi file parser from directory
for filename in listdir(directory):
    with open(directory + filename) as currentFile:
        jsondata = load(currentFile)

    for item in jsondata['data']:
        #print(item['status_type']) #For debugging
        if item:
            try:
                if item['comments']['data']:
                    commentfield += 1
                    print("Begin new post.")
                    for i in item['comments']['data']:
                        print("-" * 20)
                        namefield = i['from']['name']
                        splitted = namefield.split()
                        firstname = splitted[0]
                        print(firstname)
                        resultat = gendercounter.textinput(firstname)

                        if resultat[0][0]:
                            print("Kvinnonamn " + str(resultat[0][0]))
                            kvinnocounter += 1
                        elif resultat[1][0]:
                            print("Mansnamn " + str(resultat[1][0]))
                            maencounter += 1
                        else:
                            print("Couldn't determine gender")
                            undetermined += 1

            except KeyError:
                print("there was a key error")
            print("\n")


print("Results for the dicretory: " + directory)
print("There number of comment threads: " + str(commentfield))

summa = kvinnocounter + maencounter + undetermined
print("Summa namn: " + str(summa))

print("Kvinnocounter: " + str(kvinnocounter))
print("Maencounter: " + str(maencounter))
print("Undetermined: " + str(undetermined))

print("Kvinnor, " + str(kvinnocounter / summa))
print("Män, " + str(maencounter / summa))
print("Icke-bestämda, " + str(undetermined / summa))

 

Uppdateringar Genuskollen

I helgen fortsatte jag att medborgarprogrammeragenuskollen.se (och dess algoritm gendercounter.py). Jag gjorde några uppdateringar som jag tror ökar funktionaliteten. Här kommer några tekniska minnesanteckningar.

  1. Jag lade till en funktion för att detektera personliga pronomen hen/hon/han med varianter. Här finns det vissa felkällor, till exempel är ju ”Hans” både ett personligt pronomen och ett namn. Jag skrev tre funktioner för strängmatchning via reguljära uttryck som ser ut så här:
    def raknahen():
        hen = 0
        henom = 0
        hens = 0
        for t3 in text:
            henregexp = re.findall(r'\bhen\b', t3, flags = re.IGNORECASE)
            henomregexp = re.findall(r'\bhenom\b', t3, flags = re.IGNORECASE)
            hensregexp = re.findall(r'\bhens\b', t3, flags = re.IGNORECASE)
            if henregexp:
                hen += 1
            elif henomregexp:
                henom += 1
            elif hensregexp:
                hens += 1
            else:
                continue
        return(hen, henom, hens)

    Jag är inte helt säker på hur etablerade ”henom” och ”hens” är. De är ännu väldigt ovanligt förekommande. Kommentera gärna!

  2. Jag lade till funktionalitet för att ladda upp filer i formaten txt, pdf och docx, och säkrade upp filnamnen med werkzeug secure_filename. Det svåra i detta avsende är egenligen pdf. Det är ett omöjligt filformat på flera sätt och det tar väldigt stora systemresurser i anspråk att extrahera ut hyfsat ren text. Jag landade i pdfminer3k som är enkelt att använda på bekostnad av ganska långsam prestanda. Som tur är kommer nog inte genuskollen att behöva hantera många samtida användare så jag klarar mig nog med den nuvarande klena hårdvaran.
  3. Jag lade till en funktion som sparar själva resultatet av genomsökningen så att man enkelt kan länka till den. Här är ett exempel. Det uppenbara vore att strössla en sådan delningsfunktion med knappar till facebook, twitter, pinterest etc för att underlätta delningen. Men å andra sidan utsätter man då användaren för spionskript som ”ringer hem” till Silicon Valley. Det är inte helt entydigt vilken lösning som är den bästa här. Vad tycker ni?

Nästa steg i detta lilla hobbyprojekt blir nog att öka exaktheten i själva namnsökningen. Den konventionella strängmatchningen är inte tillräckligt exakt. Det finns ju namn som inte är namn, exempelvis ”Mina”, ”Hans”, ”De”, ”Dina” osv. Här har jag nu börjat snegla på olika lösningar för Named Entity Recognition, en funktion som finns bland annat i Korps annoteringslabb. På så sätt skulle man kunna förprocessera texten så att man får fram namn på en syntaktisk nivå innan man sedan matcharn namn/kön. Det finns gränssnitt för att integrera Standford NER med Python (och andra språk). Detta kräver dock lite inläsningsarbete. En annan helg!

 

 

 

Genuskollen

Häromdagen upptäckte jag att man kan köra Pythonskript på en webserver. På så sätt slipper användaren interagera med terminalgränssnittet. Eftersom beräkningarna körs på en fjärrserver behöver man inte ens ha Python installerat. Allt detta är ju självklarheter, men det kan ibland innebära en hel del handpåläggning innnan man får det att fungera.

Som jag tidigare bloggade om har jag börjat laborera med ett skript som jag kallar för Gendercounter. Det är detta skript som är motorn för själva beräknandet under huven på webtjänsten. Men nu kan man alltså enkelt räkna kvinnliga och manliga namn i vilken text som helst.

Resultat: Genuskollen (beta)

Men, det finns flera metodproblem som måste lösas innan detta blir någorlunda exakt. Därför tar jag gärna emot buggrapporter och observationer om felkällor så att jag kan förbättra tjänsten och skriptet framöver.

För den som vill köra detta på stora textmängder och vill göra mera avancerade saker är det bara att ladda ned källkoden.

Mäta gubbslem i texter – ett program

Citeringens praktiker är performativa, något som  Sara Ahmed reflekterar över inför sin kommande bok. Hon har valt att inte citera en enda vit man. Men hur ser det ut i vilken text som helst?

För det mesta reflekterar vi inte över vilka vi citerar eller omnämner när vi skriver. Ofta går det av bara farten och helt plötsligt sitter vi med en riktigt gubslemmig text. Med ”citering” kan man förstå även intervjupersoner och vilka vi skriver om i texterna. På så sätt kan man även inkludera journalistiska texter i analysen.

Jag skrev ett litet skript som räknar förekomsten av manliga och kvinnliga namn i en text. Programmet heter Gendercounter (ursäkta min dåliga fantasi). Programmet kollar varje ord i en text och matchar det sedan mot två listor, en med manliga namn och en med kvinnliga. Det finns förvisso ett flertal metodologiska problem med detta angrepssätt (namn är inte en hundraprocentig enkönade). Men man kan ändå använda detta som en första indikator.

Här kommer några tester jag gjorde. (uppdaterade efter att jag hittat några buggar)

Jag började med den Statliga offentliga utredningen Om Sverige i framtiden – en antologi om digitaliseringens möjligheter (ren textversion länkad). Resultat: 281 Kvinnor, 597 Män.

Sedan en lite äldre text, Den sociala och kulturella utvecklingen från Oskar I:s tid till våra dagar samt De politiska förhållandena under Karl XV:s, Oscar II:s och Gustaf V:s regering 1859-1923 Resultat: 418 Kvinnor, 1447 Män.

Till sist, Teknisk tidskrift årgång 1962 (1368 sid.) Resultat: 537 Kvinnor, 2472 Män.

Skriptet är än så länge bara ett test. Men det borde finnas intressanta saker man kan göra med denna form av kvantitativa innehållsanalys, givet att man har i bakhuvudet de metodologiska fallgroparna.

Testa gärna skriptet själva, instruktioner finns på Github-sidan. Fråga gärna i kommentarerna om något är oklart.

Förslag och kommentarer mottages gärna!

Sara Ahmed, lycka, olycka och falskt medvetande

Den 9 februari håller jag föredrag om Sara Ahmed, lycka, olycka och falskt medvetande på ABFs filosofiscen. Detta knyter an till min pågående forskning om lyckoforskning, men jag kommer även att diskutera Ahmeds kritik av ”affektfilosofin” och dess betoning på ”joy”, bland så som den kommer till uttryck hos Braidotti och Colebrook. I detta mellanrum ryms en ny form av lyckokritk som går bortom Benthams och Aristoteles välkända positioner.