Emina Karic om Universell modulering

Idag blev jag speciellt glad när jag fick följande FRApportering i min RSS-läsare.

Emina på Nätverket Svart Måndag har grävt i SOU 2003:34 och lanserar det, mig veterligen, starkaste och mest klarsynta argumentet mot FRA-förespråkarnas försvar om ”Vi kan inte lagra allt, det går inte”. Nej, man kan nog inte lagra allt på nätet… men varför skulle man vilja lagra trettiotusen identiska kopior av senaste Batmanfilmen? Problemet är istället meta-data, eller det som vi inom filosofin brukar kalla universell modulering. Citat från Eminas post:

Översatt till svenska: FRA lagrar informationen. När utrymmet är slut åker någon gammal eller ointressant information ut, och ersätts av ny, färsk och potentiellt intressant information. Det mesta av datan lagras kort tid, men vissa delar blir kvar mycket länge. Databasen innehåller personuppgifter och sökord som kan användas går att hänföra till en person. Detta gäller idag och i fortsättningen, eftersom personuppgifter är en förutsättning för att FRA ska kunna bedriva sin verksamhet, och FRA:s PUL medger också denna typ av sökning.

Detaljerna kan ni läsa i den offentliga utredningen länkad ovan. Att lagra meta-data är inga problem och kräver inga superdatorresurser. Dessutom borde FRA vara ganska duktiga på det eftersom denna teknik utvecklades redan under andra världskriget, men då för att spana i etern. På den tiden så blev snart radiotrafiken oöverskådlig. Man kunde inte ha en person som lyssnade på varenda frekvens. Istället byggde man radarfarmer för trafikanalys som kunde skilja ryssen från P3 osv. Nu är det dock digital information som gäller, och då gäller det att hinna i kapp USA.

Metadata används för att finna vad som är relevant innan man kollar i innehållet överhuvutaget. En stor mängd personuppgifter kommer alltså vara lagrade hos FRA. Hur länge vet man inte, det kommer nog bero på hur viktigt man anser uppgifterna vara. Att sortera efter relevans är grunden i meta-data, och används dagligen av google exempelvis. Det finns åtminstone fem saker som är jobbiga med metadataregister (fyll på i kommentarerna om ni känner till fler):

  1. Lagringskapacitet är inget problem. Alltså är det bättre med för mycket än för lite. För ”säkerhets” skull.
  2. Risken för ”skenmönster” är stor om man har tunnelseende efter ex. terrorister. Bara för att jag har fem muslimska vänner på Facebook innebär det inte att jag är terrorist, även om ett sådant mönster kan avgöra om mina uppgifter ska lagras lite till, kanske hamna i ett hemligstämplat arkiv. I USA har man redan listor för eko-terrorister. Meta-data gör ofta sökandet överdeterminerat, det vill säga att mönster framträder mycket lättare än vad teorierna hänger med. Detta är ett epistemologiskt problem som jag ofta har diskuterat med Karl när vi har haft panspektriska seminarier, men som kan observeras ganska enkelt när man youtubear och får upp ”related videos”. Det är alltid frestande att se dessa samband, men de duger varken vetenskapligt eller juridiskt om man inte går igenom deras tillblivelseprocess ordentligt först (öppnar alla svarta lådor). Föregripande signalspaning bryr sig inte så mycket om detta eftersom de varken behöver bry sig om vetenskaplighet eller juridisk prövning. Kriget mot terrorismen och bytet av information mellan länder står ovan Lagen och ovan Filosofen.
  3. Det blir tekniskt möjligt att avskaffa meddelarskyddet (läs detta journalister!). Vi börjar med att föra in landets samtliga redaktioners domäner i första filtret (ex. svd.se, aftonbladet.se). Därefter väljer vi att kolla på all trafik som går som e-post. Även om det rör sig om hundratals redaktioner och tusentals mail är det inga problem rent tekniskt. Sen har man en stor databas med meta-data. Lite sökningar och vips har vi IP-numret till källan som whistleblowade. Detta IP-nummer blir sedan noden i nästa sökomgång, och från endast en källa kan vi kolla på ALLT.
  4. Metadata har en tendens att klibba sig fast. Att få bort något från Internet är ganska svårt. Exempelvis Google sparar en massa saker i sitt cache, även sidor som har tagits ned. Hur kommer man veta att det där som bara skulle kollas och sedan slängas inte finns kvar?
  5. Hastigheten räknas i millisekunder. Att söka i meta-data går extremt snabbt. Tänk på när ni sitter och googlar på något meningslöst på fikarasten. Den associativa kedja som uppstår när man söker runt lite går snabbare i datan än vad den gör i huvudet på människor.

10 reaktioner till “Emina Karic om Universell modulering”

  1. Mig veterligen har ganska många framfört kritik mot uttalanden som ”Vi kan inte lagra allt.” och tagit upp just meta-data. Det enda nya är väl utredningen i sig, och diskussionen om källdatabasen. 🙂

  2. Emina: Sant. Debatten har kommit vidare jämfört med hur det var kring omröstningen. Men jag tror att meta-data och hur internets funkar är långt ifrån redo att verkligen slå igenom i massmediernas debatt. Jag får ofta kommentaren ”gör det enkelt, inte tekniskt” när någon ber mig förklara eller argumentera.

  3. Ja, det är väl alldeles riktigt att lagrings-argumentet inte håller — egentligen. Däremot är FRA nog tvungna att analysera hela dataströmmen, även om det gäller en batman-film: för det är ganska vanligt metod att ”gömma” viktig information i en annan dataström (t.ex.i bilder, filmer eller ljudfiler etc. etc.). Lägg därtill att man inte på ett enkelt sätt kan extrahera meta-data ur krypterad trafik.

    Det meta-data som man kan få ut i realtid ut ett TCP-IP paket är som bekant ip-adress (källa och destination), kommunikationsprotokoll, routerhopp och massa annat protokoll-junk som egentligen inte säger så mycket.
    Skall man generera signifikant meta-data måste hela dataströmmen följas och kopieras till en mellanlagringsenhet för senare analys.
    Speciellt bekymmersamma är protokoll som är UDP baserade: t.ex. streaming, ip-telefoni och liknande. UDP(-IP) är tillskillnad från TCP(-IP) förbindelselös (stateless), vilket gör att FRA får svårt att ”läges-bestämma” kommunikationen: det vill säga, att FRA vet inte ifall paketet kommit fram eller hur mycket av strömmen mottagare fått. I det här fallen måste FRA spara ner hela dataströmmen och sen analysera innehåller för ”dolda” meddelanden.

    Summa summarum: det kommer att krävas stora lagringsmängder oavsett. Meta-datat kan man inte få ut i realtid enbart genom att kolla på protokoll-huvuden (IP- och TCP-, och applicationheaders).

  4. Heiti: Precis. Människor som vet vad de gör blir desto svårare att hitta. En krypterad fil måste ju dekrypteras innan man kan sätta vettig meta-data på den. Här räcker det inte långt med superdatorn ”Ellen”.

    UDP blir det perfekta gömstället 🙂

    Man kan iofs få ut ”abstrakt meta-data” även ur krypterad trafik. Att ex. geolokalisera överföringar mellan ex. en dator i Sverige och en i Ryssland som varje dag klockan fem skickar fem gigabyte med krypterad data till varandra är en slags meta-information som kanske FRA tycker är suspekt.

    Om kryptering blir standard i bittorrent… då får man mycket att göra.

  5. Precis. Trafikmönster kan vara nog så avslöjande. Det finns många färdiga tillämpningar för detta ändamål som används inom IT-branchen (Både offentlig och privat verksamhet). Se t.ex. http://en.wikipedia.org/wiki/Netflow

    ”Om kryptering blir standard i bittorrent… då får man mycket att göra.”

    Absolut. Det är därför FRA har ”flaggat” för att det kan ske vissa ”uppräkningar” i budgeten de närmaste åren. Mer kryptering = mer lagring och större ”brute-force” beräkningskluster.

    Dock är denna katt-å-råtta-lek dömt att misslyckas. Det finns såpass kraftig kryptering (t.ex. AES-4096 (används av USA:s militär) eller RSA-4096) idag som omöjligör ”brute-force” dekryptering. Och folk som vet vad de gör kommer alltid att komma undan. Redan här faller hela FRA-konceptet.

    Dock är SSL baserad internet trafik (det vill säga HTTPS) i riskzonen för att kunna dekrypteras av underrättelsetjänsten. SSL kan använda flera olika krypteringsalgoritmer, men den vanligast på webben (T.ex. webshops, webmail etc.) är kryptering via RSA-nycklar med 1024-bitars längd. Problemet är att RSA-1024 inte anses som säker idag. Men det räcker att man skruvar upp krypteringen till 2048 bitar för vara säker: men det kommer att kosta mycket i infrastrukturen (certifikat, krypteringsdosor etc. etc.) därtill ökar datamängden radikalt. Katten på råttan……

  6. Om datalagring: I boken om Super Crunchers talar Ian Ayres om Kryder’s Law – att lagringskapacitet har dubblerats vartannat år, sedan 1995.

    http://en.wikipedia.org/wiki/Kryder%27s_law
    http://www.panspectrocism.org/?p=10

    Detta – tillsammans med att alltfler övergivna lador i USA blir server farms – ökar ju trots allt möjligheten att lagra information…. Skulle inte förvåna mig om det finns företag som säljer denna kapacitet till stater.

  7. Kalle: Absolut. Teoretiskt möjligt och även praktiskt ifall man har tillräckligt med resurser (Typ. NSA och liknande organisationer).

    Enligt de siffror jag fick tag i förra året så ligger internettraffiken t/f Sverige på runt 160 Gbit/s (Innebär: 20Gbyte/s = runt 1 Terabyte per minut). Sen kommer nog FRA översållas av mer data än så då ”inrikestrafiken” kan ta omvägar via andra länder + mobiltelefoni (3G/4G tillämpningar).

    S.k. ”fuldisk” (FC-SATA i kombination med iSCSI (Lagring via IP)) har blivit såpass billigt att stora lagringskluster (Storage Area Networks) är möjliga att bygga med hyfsat billig peng. Dock är hastigheten och transporten (från ”sniffern” till lagringsarean) ett problem. Det skulle krävas många de-centraliserade lösningar för att kunna lösa detta. Det skulle bli oerhört kostnadsdrivande med tanke på det ovansagda.

    Ett problem med ”outsourcade” lagringsystem är att det omfattande datat måste transporteras hyfsat snabbt (kräver omfattande fiberinfrastruktur, egna kommunikationslinor). Den ”snabba” mellanlagringsminnet (cachen) får inte fyllas. Dagens fiberlagringsteknik klarar runt 4 GB/s per lagrinssystem: vilket innebär att det teoretiskt skulle krävas minst 40 sådana enheter.

    En(1) sådan här SAN-enhet som kan lagra uppemot en Petabyte (1024 Terabyte data) kostar 30-50 Mkr, fullmatad med disk. En sådan enhet klarar av att lagra (teoretiskt) 4 GB/s.
    http://www.emc.com/products/detail/hardware/symmetrix-dmx-4.htm

    Allt går, men det blir dyrt och komplicerat.

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *

Time limit is exhausted. Please reload CAPTCHA.