Transaktioner om anarkiven; Panspektriska vs. de moderna samhällsvetenskaperna.

Copyriot uppmärksammade en viktig aspekt av förhållandet mellan arkiv och anarkiv i en av mina tidigare poster. När vi talar om bloggbävningar och andra typer av rörelsemönster på nätet baserar vi ofta våra resonemang på metadata från exempelvis Knuff och Twingly. Problemet är ju att dessa aktivt filtrerar bort bloggar som kanske är lite väl extrema, som behandlar tabun, eller som bryter mot de regler som tjänsten har satt upp.

En annan aspekt är givetvis att indexeringarna används i högsta grad som strategiska sätt att få många besökare och till och med som en kollektiv handling för att dominera en nyhetsagenda. Under bland annat FRA-debatter såg vi ett slags kompislänkande som givetvis medverkade till att knuffs top-50 i princip domineras av FRA-relaterade bloggar (vart tog de så kallade modebloggarna vägen?). Åtminstone två metodologiska problem uppstår när man vill använda dessa data för civilsociologisk forskning, vilket Copyriot påpekar:

  1. Det finns blind spots eftersom vissa bloggar är uteslutna.
  2. Det representerar inget eftersom skapandet av indexen är immanent till själva bloggandet och därmed inte en mätning från en utsida.

Ur detta kan vi formulera en ontologisk utgångspunkt för panspektrisk metadata:

  • Meta-data besitter ingen exterioritet, utan är alltid performativ.

Dock innebär detta ingen förminskad epistemisk position eftersom, med reservation för att detta är en bloggpost, alla arkiv har sina anarkiv och att det aldrig har funnits representation eller representativitet annat än i huvet på ett gäng nittonhundratalsfilosofer och samhällsvetare. Låt mig ta ett exempel från ett av mina centrala argument ur min avhandling:

Bilden visar hur enkäter kommer tillbaka till civilsociologerna. Dessa enorma statistiska undersökningar bygger på tanken om statistisk generaliserbarhet och longitudinella tidsserier. Det enorma arkivet finns här. Problemet är dock att undersökningar av detta slag alltid har ett bortfall i form av att vissa människor inte vill svara. I Sverige har man historiskt varit kanske bäst i världen på att minimera bortfallen (20% är riktigt bra, i Frankrike ligger det ofta på 75%).

Vad ska vi då göra med dessa blinda fläckar på den epistemologiska kartan? Jag har en teori som jag inom överskådlig tid kommer att publicera i hvetenskaplig tidsskrift. Men för att ta det hela kort handlar det om att anarkiven kan säga minst lika mycket om samhället som arkiven. Problemet för historikern är ju såklart att anarkiven ofta inte finns dokumenterade. Dock har jag tur, och har funnit en mängd material när det gäller just de svenska samhällsvetenskaperna. Dessa har varit fullkomligt transparenta med hur de har lyckats och ibland misslyckats med att bygga sina arkiv (Mertonmaskinen at work). Kanske är det det man skall kräva av tjänster som Twingly och Knuff. Genom att redovisa öppet hur filter byggs upp och blinda fläckar skapas kan man ge anarkivet ytterligare en chans att säga något intressant. Och om tjänsterna inte gör det, så görs det i alla fall.

5 reaktioner till “Transaktioner om anarkiven; Panspektriska vs. de moderna samhällsvetenskaperna.”

  1. Hej,

    har lämnat en kommentar hos Copyriot och ska inte upprepa mig alltför mycket här. Du förtydligar några av hans punkter, framförallt det faktum att tekniska brister och mekaniska filter ofrånkomligen existerar. Din och Copyriots idé att sökmotorer bör öppet redovisa sina filter är intressant av flera skäl.

    Twingly filtrerar t ex pingar direkt på URL-nivå för att begränsa bördan av spam och vi skulle t ex kunna redovisa vilka rudimentära filter som existerar där. Det skulle fylla två syften, dels skulle det ge möjlighet för bloggare att själva bedöma om de inte kommer med i våra tjänster av någon praktisk orsak, dels skulle vi kunna få synpunkter och förslag på förbättringar av våra filter.

    Nackdelen är uppenbar, att det kommer förändra missbruket i sin karaktär så att filtrena försvagas. Det tror jag dock än så länge är en relativt obetydlig farhåga, Twingly är inte så betydlig att de stora mängderna spam. Det finns också en konkurrensmässig nackdel, att arbetet med att ta fram våra filter kostat betydligt med svett och tårar och att det inte är något vi vill bespara våra konkurrenter, nuvarande eller framtida, med mindre än att ett ömsesidigt utbyte finns.

    Vi har en ganska bred uppsättning filter för att ta bort spam, i bemärkelsen att en del är väldigt rudimentära och en del är mer intrikata. Exempel på de mer rudimentära är att vi inte tar in några ping alls från .info-domänen, och filtrerar bort ping från bloggadresser som innehåller för många bindesstreck (-). Dessa är empiriskt framtagna och drabbar trots sin grovkornighet mycket få riktiga bloggare. De bloggare som blir drabbade hör av sig till oss, det är t ex ungefär i storleksordningen två (2) bloggare genom tiderna som skriver på .info som vi manuellt vitlistat för att deras ping ska komma igenom filtret.

    Vi hjälper ungefär fyra-fem bloggare per dag med att reda ut varför deras inlägg inte kommer med i Twingly. Det allra vanligaste problemet är att de inte länkat korrekt, det näst vanligaste tekniska problem med deras bloggar. För ett och ett halvt år sedan var felen oftare beroende på Twingly, men sedan dess har mycket utveckling skett. Den utvecklingen har starkt bidragit till att vita fläckar på kartan försvunnit, nu har vi en ganska robust inhämtning.

    Jag tycker det är en intressant diskussion och bidrar gärna med så mycket underlag jag kan. Blogga, mejla eller ring, så svarar vi.

    Mvh
    Martin Källström
    VD Twingly

  2. Hej Martin,

    tack för ditt utförliga svar! Vill först påpeka att jag är en frekvent användare av eran tjänst och uppskattar väldigt mycket att bloggvärlden och gammelmedierna kan kommunicera på det här viset. Jag tror att det har lett till att journalister faktiskt läser bloggar och har respekt för deras sätt att behandlar frågor som exempelvis FRA.

    Jag har full förståelse för spam-problematiken. Utan ett filter skulle det bli total rundgång. Detta är ju inget problem för driften, men om man ska göra spännande saker med de datamängder som ni samlar på er så måste ju varje sak dokumenteras.

    Twingly är ju inte skattefinansierat, så jag tror att både mitt och Copyriots inlägg främst var en reflektion över hur vi ska förhålla oss till nya former av statistik och data. Jag tror att vi kommer se många intressanta sätt att analysera trender, sociala nätverk osv. genom just denna typ av metadata. Min kollega Karl har bland annat använt sig av Technoratis data i denna artikel.

    Så länge vi forskare parasiterar på era datamängder får vi alltså leva med vissa metodbegränsningar. Men hellre det än ingen data alls!

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *

Time limit is exhausted. Please reload CAPTCHA.