#SOUhack

På väg hem från #SOUhack, ett mycket lyckat seminarium/workshop kring vad man kan göra med Statens offentliga utredningar medelst digitala metoder.

Jag tänkte bara passa på att posta ett par länkar samt ge en uppdaterad instruktion för ett litet sökskript som jag använde mig av i min presentation. Först länkarna:

      • Här är slides till min presentation med titeln ”Statens röst digitaliserad?”
      • Här är en direktlänk till en uppdaterad datamängd som innehåller alla SOUer 1922–2015 (förutom år 1996) som en zip-fil (1.2 Gb). Sammanställningen av SOUer från 1997-2015 har gjorts av min kollega Sverker LundinCentrum för Digital Humaniora, GU. Så nu kan man nästan söka på ALLT!

Om någon vill använda (eller återanvända) det lilla python-skriptet med det tråkiga namnet SOUsearchplot som jag skrev i somras kan man göra så här.

        1. Ladda ned skriptet SOUsearchplot.
        2. Om du kör Windows måste du ha Python installerat.
        3. Installera modulen ”progress bar” med pip install progress.
        4. Ladda ned SOU-datamängden (länkad ovan).
        5. Ändra på TVÅ ställen i skriptet till exakt den katalog som filerna ligger i.
        6. Kör skriptet från kommandoraden med python SOUsearchplot.py.
        7. Om allt går rätt till ska det börja laddas massa data till din dators minne. OBS. Detta kommer att kräva ca. 3,7 Gb av datorns minne. Jag har bara testat på en dator med 8 Gb i totalt RAM-minne. (Av vad som framgår av kommentarerna nedan är det en dålig idé att testa med bara 4Gb i minne).
        8. Kommentera om det ändå inte funkar!

Inom kort kommer det troligtvis att lanseras aningen mera moderna gränssnitt. Under seminariet diskuterade vi många intressanta ingångar till att göra SOUerna inte bara sökbara, utan även begripbara bortom söktermernas begränsningar.

Men mer om det i framtiden.

6 reaktioner till “#SOUhack”

  1. Väldigt användbart – bra insats att skriva och tillgängliggöra skriptet!

    Sitter på en maskin med 4 GB RAM och det funkar, även om övrig datoranvändning blir något lidande samtidigt som skriptet körs beroende på den lilla mängden minne. Men man kan ju låta det stå och tugga när man går på lunch, kanske över natten. Apropå det: skulle man kunna göra ett slags batch mode-version? Man skriver in en lista på begrepp man vill söka på, specificerar om man vill ha grafer ritade, och sen arbetar skriptet sig igenom alla söktermerna och dagen efter har man tre dussin grafer som väntar. Akademiskt treskift!

    En liten detalj: på min jobbdator har jag inte adminrättigheter och Pythonversionen som är installerad har inte pip, varför det inte gick att installera progress bar. Men jag kommenterade bort de ställen där bar förekom i skriptet och fick igång det på det viset.

  2. Gustav: Kul att du fick igång skriptet. Helt korrekt att kommentera ut progress bar, det är mest en användarvänlig grej för att minska ovisshet 🙂

    Ska fundera på att göra en version med ”batch mode”. Borde inte vara så svårt. Återkommer!

  3. Hej igen. Jag testade nu på en maskin med bara 4Gb i minne. Katastrof :D. Datamängden läses då in till swap och allt rasar.

    Detta kommer att avhjälpas när vi väl har fått igång ett ordentligt webb-gränssitt. Det är inte meningen att man ska köra sökmotorer lokalt på det här sättet egentligen.

    Men jag upptäckte även ett eventuellt fel med datamängden. Det verkar som att det saknades filer när jag packade upp den zip som finns länkad. Skumt.

    Återkommer alltså igen 😀

  4. Gustav: nu har jag fixat en ”trunkerad” version: http://scientometrics.flov.gu.se/files/searchtrunk.py

    Användning:
    python searchtrunk.py sökord j

    Om du vill göra flera efter varandra, separera med semikolon:

    python searchtrunk.py sökord j; python searchtrunk.py södkord2 n

    Dock är detta inte optimalt, för mellan sökorden måste den ladda om SOUerna till minnet. Och om du bara har 4Gb minne så kommer den harva med swappen. Men borde funka temporärt tills vi får igång ett ordentligt sökverktyg.

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *

Time limit is exhausted. Please reload CAPTCHA.