Genuskontroll av högskoleläckan, del 2: Ämnen (falsifierade)

Jag söndagsprogrammerade lite och passade på att uppdatera mina skrap-skript. För ett par veckor sedan gjorde jag en liten genusanalys av facebookgrupen Högskoleläckan. Men så hittade jag en liten bugg i mitt skript som gjorde att jag bara fick de 25 första kommentarerna. Nu har jag löst detta och upptäckte då att det finns några riktigt långa trådar som i sig kan vara värda att inspektera.

Jag fick även justera mina siffror lite grann (en procent cirka). Så här ser genusrepresentationen ut baserat på vem som skrivit de 30629 kommentarerna på Högskoleläckan:

Män: 20225 (66%)

Kvinnor: 7306 (24%)

Icke-identifierade: 3098 (10%)

Men under vilka omständigheter skapas denna mansdominans? Finns det några speciella ämnen i diskussionerna? Jag undersökte de tjugo längsta trådarna i hela gruppen. I tabellen indikerar en * att det finns mer än 35% kvinnor i tråden. Min hypotes var att det skulle ha med innehåll att göra. Men den får nog betraktas som falsifierad. Jag ser inget samband.

(för att kunna klicka på länken måste ni vara medlemmar i Högskoleläckan. Men det är bara att göra en förfrågan, gruppen är de facto öppen).

1 Länk  Identitetspolitik/Rasifiering Total: 428 Män: 322 (75.23 %) Kvinnor: 105 (24.53 %) X: 1 (0.23 %)
2 *Länk  Kunskapsfömedling/Pedagogik *Total: 262 *Män: 119 (45.42 %) *Kvinnor: 143 (54.58 %) *X: 0 (0.0 %)
3 Länk  Studieavgifter Total: 171 Män: 158 (92.4 %) Kvinnor: 9 (5.26 %) X: 4 (2.34 %)
4 Länk  Utbildningspolitik Total: 161 Män: 138 (85.71 %) Kvinnor: 17 (10.56 %) X: 6 (3.73 %)
5 Länk  LAS / Utlysningar av tjänster Total: 153 Män: 143 (93.46 %) Kvinnor: 1 (0.65 %) X: 9 (5.88 %)
6 *Länk  Normkritik / Pedagogik *Total: 145 *Män: 79 (54.48 %) *Kvinnor: 56 (38.62 %) *X: 10 (6.9 %)
7 Länk  Studenter / Tentamensrät Total: 133 Män: 90 (67.67 %) Kvinnor: 31 (23.31 %) X: 12 (9.02 %)
8 Länk  Sanningsrelativism / Postmodernism Total: 133 Män: 78 (58.65 %) Kvinnor: 36 (27.07 %) X: 19 (14.29 %)
9 Länk  Tillträde till Campus Total: 128 Män: 71 (55.47 %) Kvinnor: 38 (29.69 %) X: 19 (14.84 %)
10 Länk  Pedagogik / Behöriga lärare Total: 127 Män: 96 (75.59 %) Kvinnor: 23 (18.11 %) X: 8 (6.3 %)
11 Länk  Pedagogik Total: 121 Män: 67 (55.37 %) Kvinnor: 34 (28.1 %) X: 20 (16.53 %)
12 Länk  Utlysningar av tjänster / Högskolepedagogik Total: 120 Män: 63 (52.5 %) Kvinnor: 42 (35.0 %) X: 15 (12.5 %)
13 Länk  Högskolepolitik Total: 104 Män: 84 (80.77 %) Kvinnor: 9 (8.65 %) X: 11 (10.58 %)
14 Länk  Pedagogik / Utbildningspolitik Total: 103 Män: 82 (79.61 %) Kvinnor: 20 (19.42 %) X: 1 (0.97 %)
15 *Länk  Genus *Total: 100 *Män: 54 (54.0 %) *Kvinnor: 41 (41.0 %) *X: 5 (5.0 %)
16 Länk  Högskolepolitik / ”Traditioner” Total: 99 Män: 65 (65.66 %) Kvinnor: 25 (25.25 %) X: 9 (9.09 %)
17 Länk  Genus Total: 96 Män: 64 (66.67 %) Kvinnor: 24 (25.0 %) X: 8 (8.33 %)
18 *Länk  Pedagogik *Total: 95 *Män: 50 (52.63 %) *Kvinnor: 44 (46.32 %) *X: 1 (1.05 %)
19 *Länk  Kårpolitik *Total: 95 *Män: 48 (50.53 %) *Kvinnor: 40 (42.11 %) *X: 7 (7.37 %)
20 Länk  Excellenssatsningar Total: 91 Män: 71 (78.02 %) Kvinnor: 8 (8.79 %) X: 12 (13.19 %)

Efter denna besvikelse harvade jag runt i datamängden, och eventuellt hittade jag något som kanske kan vara intressant. Det verkar nämligen som att könsbalansen blir jämnare för mindre trådar med färre kommentarer. Om man kollar på trådar som får kring 9 kommentarer så blir det genast bättre, men å andra sidan är det så få analysenheter att det blir lite meningslöst att kvantifiera.

995 *Länk *Total: 9 *Män: 5 (55.56 %) *Kvinnor: 4 (44.44 %) *X: 0 (0.0 %)
996 *Länk *Total: 9 *Män: 3 (33.33 %) *Kvinnor: 5 (55.56 %) *X: 1 (11.11 %)
997 *Länk *Total: 9 *Män: 4 (44.44 %) *Kvinnor: 5 (55.56 %) *X: 0 (0.0 %)
998 *Länk *Total: 9 *Män: 5 (55.56 %) *Kvinnor: 4 (44.44 %) *X: 0 (0.0 %)
999 Länk Total: 9 Män: 4 (44.44 %) Kvinnor: 0 (0.0 %) X: 5 (55.56 %)
1000 Länk Total: 9 Män: 7 (77.78 %) Kvinnor: 0 (0.0 %) X: 2 (22.22 %)
1001 *Länk *Total: 9 *Män: 3 (33.33 %) *Kvinnor: 4 (44.44 %) *X: 2 (22.22 %)
1002 Länk Total: 9 Män: 8 (88.89 %) Kvinnor: 1 (11.11 %) X: 0 (0.0 %)
1003 Länk Total: 9 Män: 8 (88.89 %) Kvinnor: 0 (0.0 %) X: 1 (11.11 %)
1004 *Länk *Total: 9 *Män: 3 (33.33 %) *Kvinnor: 6 (66.67 %) *X: 0 (0.0 %)
1005 Länk Total: 9 Män: 9 (100.0 %) Kvinnor: 0 (0.0 %) X: 0 (0.0 %)
1006 *Länk *Total: 9 *Män: 5 (55.56 %) *Kvinnor: 4 (44.44 %) *X: 0 (0.0 %)

Längre än så kom jag inte denna gång. Tar gärna emot förslag på vad man skulle kunna operationalisera till kod för att hitta alternativa förståelser av detta fenomen (om några sådana ens finns i denna datatyp). Eller så ligger frågan någon annan stans, jag vet inte riktigt.

Uppdatering

Jag fick en fråga om det skiljer sig något i längden på kommentarerna mellan män och kvinnor. Jag undersökte det genom att anropa min sqlite3-databas med följande kommando (minnesantekning):

select sum(length(trim(comment))
- length(replace(trim(comment), ' ', '')) + 1) from main where gender='X';

Det gav följande totalresultat (totalt antal ord per kön):

Män: 932342
Kvinnor: 278074
X: 122732

Om vi sedan tar och delar dessa totalsiffror med antalet kommentarer får vi följande genomsnitt av ord/kommentar.

Män: 46.09
Kvinnor: 38.06
X: 39.61

Mäns kommentarer är alltså 21 % längre än kvinnors. Genererar detta kanske en hypotes om ”mansplaining”?

Uppdatering 2

Ett genomsnitt säger ju inte så mycket om fördelningen. Dessutom är genomsnitt känsliga för (i detta fall) att ett fåtal mycket långa kommentarer drar upp siffrorna alldeles för mycket. Så jag gjorde en snabb bar plot i R. Jag är inte så bra på att göra snygga diagram, men rådata kan laddas ned i två csv-filer (män (N=20225), kvinnor (N=7306) för den som vill räkna på ytterligare mått.

Jag laddar in de båda datamängderna som variabler (m = män, w = kvinnor) i R.

summary(m)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.0   13.0    28.0  46.1  58.0  1059.0

summary(w)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.00  10.00  23.00 38.06 49.00  1173.00

men

kvinnorboxplot

För att generera dessa figurer använde jag följande lilla R-skript:

mydata = read.csv("kvinnor.csv")
counts <- table(mydata$freq)
barplot(counts, main="Kvinnor", xlab="Antal ord per kommentar")
boxplot(m, w, names=c("Män", "Kvinnor")

Det ser ganska likt varandra ut.

Uppatering 3

Även visuell inspektion kan vara vilseledande. Med lite hjälp lyckades jag göra ett MWU-test i R (jag måste lära mig syntaxet ordentligt någon dag, R har verkligen vissa fördelar gentemot Python när det kommer till statistik).

# Läs in data
men = read.csv("men.csv")
women = read.csv("kvinnor.csv")
# Skapa arrayer
m = men$freq
w = women$freq
#Kör MWU-testet
wilcox.test(m, w, conf.int=TRUE)


Wilcoxon rank sum test with continuity correction
data: m and w
W = 81899000, p-value < 2.2e-16
alternative hypothesis: true location shift is not equal to 0
95 percent confidence interval:
3.999971 4.999997
sample estimates:
difference in location
4.000045

Således, medianvärdet för män (28) är mycket högre än för kvinnor (23)  (Man Witney U test har ett p-värde nära noll (< 2.2e-16)

Uppdatering 4:

Max Berggren har gjort lite mera avancerad statistik som visar att kvinnor oftare gör mycket korta kommentarer, medan män är överrepresenterade på långa kommentarer, och totalt sett kommenterar 11-18 procent längre. Se figurer och Pythonkod här.

Uppdatering 5:

Hur ser då dessa korta kommentarer ut egentligen. Först kvinnor (kommaseparerade, < 8 tecken långa):

Heja!, Tjoho!, Japp., Haha!, Hahaha!, Vilket?, Wow, , :), japp., 😂😂😂, Heja PA, Nej., 😂😂😂😂, Haha 😁, , , 😂, , "varit", 👍, 😡😡😡, , Nä., , BTH, Awful!, Tjoho!, Super, Följer, Sant!, Bra!, Bra!, Ok, , 👍, Suck..., Emelie, Bra!!, Pm., :-(, Bad., Va?! 😨, Följer!, suck, Meh..., , Jaaa!, Hmmm., 2 år., ??, !!, NM, Ja!, Käbbel!, !!!!!!!, Absolut, , Tack!, Wow!, Jaha!, , wtf?, , ;), :D, Right., Haha, , :-), OK, :(, Haha, I wish., ?, Bra., Oj., Exakt!, Nä ;(, , "42" !, :), SCB!, Tack!, Aha!, Amen!, ;), RIP Per, Oj!, Följer., Ja., Ja., Ja!, Oh no., Jäpp!, Lovar!, :-(, #ridå, :), :(((, Vad?, Fint!, he he, Bra!, haha:-), Typ., Nej., Tack!, !!!!!, Tack!, Klokt., Bra!, Wow!, Usch., Mycket!, Bra., Ajajaj., :-), Då så!, :-), OK, :(, Wehej!, Tack, Jepp., Tack!, OK., Uscha!, Amen!, Vågen:), Nice!, Tack!, ojojoj, ja, tack!, Tack!, ;-), :), :), Tack!, Japp,

Samma fast för män:

Ja., för*, O M G, Men ej!, Smart., , Censur?, ?, Och?, , Oj!, , Haha, ;-D, Okej., Nä., ????, , WTF!?, Var?, !!, Nej., Trams, ?, Japp., "Hånar", 👍🏻, Tihi, Nej., Nejdå!, Burn!, , , Aa., , 75..., W T F?!, Oliver, Suck!, NP1, , ^_^, Impact!, Nuts, Klokt!, Awww., , tackar!, ?, Så bra!, s. 271, , Öh, va?, Rector., 😂😂😂, Gamar., Trams., Ja., Nej., Vilka?, Klokt!, Bra!, Yes!, Äsch!, , Hmm?, , , Haha.., , Aouch!, Trams!, , Pyser?, cup?, Bra!, Uurk, Kul!, Nej., N, Bra!, Tack!, , , Va?, Köpt., ?, , Följer, Risk?, Exakt!, Nej., Varför?, ;), tack!, Är det?, ?, Om vad?, :-), Tio år., ?, , Hilfe, , ?, Öh?, Tack:-), Fan :D, , Tack., Bu, Oj!, gonatt, Klokt, ouch!, O.o, Tack, Umeå?, Hahaha!, :-), Haha!, ??? BB, haha:-), Bra!, C.O. ??, Tack!, Tack, Tackar., HumTank, Nä., :(, Trist., 7, NP1, ?, , =(, länk, :(, Nej., Nej., Jepp., Kommer, Visst, oki :-), Yes!!, Bildt?, Toppen!, Tack!, Jösses!, Meta, Anmäl., Anmäl!, :D, Nej., Synd..., Ja., Dalnäs?, UKÄ?, Ah., , Tack,, dialog, Bra!, Precis., Voff!, wow., Omg, =), och -, UK-Ä, Tack, Ajdå., vafan, Hur?, Ja, kommer!, Urk., Great!, :), hehe, 2?, Oj, Tack!, Läs!, Bra!, Aha., Fint!, Njä!, <3, ...en, ???, Nej., Tack!, S. 11, Bra DN!, Suck., Enig., klokt., Ja., :), lol, oui!, Tack!, hehe, ajdå., Great,, Cool!,

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *

Time limit is exhausted. Please reload CAPTCHA.