Detta avsnitt handlar om hur informationsresurserna bör finnas tillgängliga på internet. Inledningsvis kommer några allmänna rekommendationer. Därefter presenteras en flerstegsmodell som beskriver hur tillgängliggörandet successivt kan utvecklas för att andra lättare ska kunna vidareutnyttja uppgifterna.

Allmänna rekommendationer

  • Tillhandahåll informationen via ett domännamn som myndigheten eller någon annan del av det allmänna kontrollerar. Entreprenörer och andra vidareutnyttjare kan komma att integrera sina system mot myndighetens informationskällor och därför måste de kunna lita på att informationen inte försvinner. Myndigheten har fortfarande möjlighet att låta en extern leverantör hantera datalagringen. Om informationen finns på en underdomän bör den ha namnet ”data”, dvs. ”data.exempel.se”.
  • Ibland kan en vidareutnyttjare behöva kontrollera att den hämtade informationen inte har förvanskats under nedladdningen. Då kan myndigheten använda en checksumma eller tillhandahålla överföringar med hjälp av SSL.
  • Myndigheten bör låta potentiella vidareutnyttjare veta när informationen är uppdaterad eller när man har gjort tekniska ändringar (t.ex. förändringar i ett API, se steg 4). Exempelvis kan myndigheten ge sådana upplysningar i form av en prenumeration via RSS eller genom ett nyhetsbrev som sänds ut med e-post.

Flerstegsmodell

Den som arbetar med att göra data tillgänglig kan följa denna modell som beskriver arbetet i fem olika steg. Generellt sett har informationen större värde för en vidareutnyttjare ju högre upp på skalan man befinner sig. En viss informationsmängd kan mycket väl befinna sig på till exempel nivå 3 vid första publiceringen, man behöver alltså inte gå igenom alla steg i modellen. Flerstegsmodellen bör inte följas slaviskt. Ibland kan det t.ex. vara bra att ändra ordningen i förteckningen, t.ex. genom att välja steg 5 före steg 4. Modellen har tagits fram av Tim Berners-Lee.

Steg 1: Publicera informationen på webben i det nuvarande formatet

För att informationen ska bli tillgänglig så snabbt som möjligt bör den publiceras i sitt nuvarande format. I praktiken innebär detta att filerna (t.ex. en samling PDF-dokument) läggs ut på myndighetens webbplats.

Med detta steg är det lätt att komma igång. Formatet begränsar visserligen möjligheterna att bearbeta uppgifterna på ett strukturerat sätt, men det går att manuellt föra över informationen till en strukturerad form för fortsatt återanvändning. Potentiella vidareutnyttjare ser också vilken information som finns och kan föreslå framtida format etc.

Steg 2: Publicera informationen i maskinläsbar strukturerad form

För att information ska kunna vidareutnyttjas effektivt bör den finnas i ett strukturerat maskinläsbart format. Då är det lättare för vidareutnyttjarna att bearbeta informationen maskinellt, t.ex. sambearbeta den med annan information.

Rent praktiskt kan informationen t.ex. göras tillgänglig som en databasexport- eller Excel-fil. Ofta är detta steg lika enkelt att utföra som steg 1.

Steg 3: Publicera informationen i ett öppet format eller i en öppen standard

Genom att publicera informationen i ett öppet format blir återanvändaren mindre beroende av särskilda programvaror. Därmed blir det enklare, framför allt för mindre aktörer, att vidareutnyttja informationen. Om det finns en relevant öppen standard bör denna användas. Med ”öppen standard” menas en standard som uppfyller kriterierna i EU:s interoperabilitetsramverk EIF (jfr SOU 2009:86 s. 72).

I praktiken kan det t.ex. innebära att Excel-filer konverteras till CSV-format eller att en databas exporteras till XML.

Steg 4: Gör informationen åtkomlig via ett API

Vidareutnyttjarna måste säkerställa att informationen är densamma som i källan, dvs. att den information som används är uppdaterad etc. Ett sätt är att lämna ut informationen genom ett s.k. API (Application Programming Interface), som gör det möjligt att automatisera uttag av information. Ett API behöver inte nödvändigtvis utformas för att stötta alla former av vidareutnyttjande men det bör möjliggöra automatiserade uttag på ett konsekvent sätt över tid.

Det är möjligt att skapa ett sådant API genom att

  • ge vidareutnyttjare ett sätt att få notifieringar om förändringar i informationen (nya, uppdaterade och borttagna objekt) via t.ex. Atom Syndication format (RFC 4287), och
  • möjliggöra för vidareutnyttjaren att hämta ett objekt genom att notifieringen innehåller en unik identifierare till objektet (t.ex. http://data.example.se/objekttyp/12345).

Den som designar ett API bör tänka på detta:

  1. Tillhandahåll dokumentation om API:ets design, t.ex. vilka eventuella åtkomstsätt och representationsformat som används.
  2. Beskriv den semantik som används i representationen av objekt genom att publicera eventuella syntaxregler och begreppsdefinitioner.

Tillhandahållande genom API är bra när informationsresursen uppdateras ofta och när vidareutnyttjarnas egna användare direkt hämtar uppdaterad information från myndighetens system. Denna lösning kan dock leda till stora trafikvolymer och kostnader för myndigheten, särskilt om vidareutnyttjarnas tjänster blir populära. Detta gäller exempelvis den norska motsvarigheten till SMHI vars webbplats www.yr.no har väldigt stor trafik till sina realtidsdata. Det medför betydande kostnader i infrastruktur för att säkra tillgången.

När det gäller andra informationsresurser kan API-lösningar vara onödigt avancerade och myndigheten bör i stället prioritera att dela ut större informationsmängder enligt steg 1–3.

Steg 5: Publicera informationen som länkad data

Länkad data innebär att informationens kontext kan följa med till vidareutnyttjaren, vilket möjliggör automatiska bearbetningar av data från olika informationskällor. Med denna metod finns informationen tillgänglig på den semantiska webben och maskiner kan tolka informationen. Rent praktiskt kan man säga att all data bottnar i en referens som beskriver vad man menar. Denna referens kallas URI (Uniform Resource Identifier).

Data bör publiceras som RDF (Resource Description Framework), gärna uttryckt som XML. Det är möjligt att som ett mellansteg, mellan steg 4 och 5, låta en s.k. wrapper inkludera en semantisk kontext.

För att vidareutnyttjare ska förstå informationen behövs i regel en ontologisk beskrivning av den information som tillhandahålls. Den åskådliggör relationerna mellan de olika typerna av begrepp som används, i strukturerad form.

Avslutande kommentar

Det finns ett samband mellan frågan om vad som ska tillgängliggöras och hur detta ska ske. Kontakter med potentiella vidareutnyttjare kan visa att man behöver prioritera att tillgängliggöra en mer begränsad mängd information, men i en form som är mer lämpad för avancerad vidareutnyttjande (steg 4 och 5).

Kontakter med återanvändare visar emellertid att de flesta vidareutnyttjare vill att det elektroniska tillgängliggörandet ska komma igång, oavsett format och andra finesser. När allt har kommit igång blir det också lättare för vidareutnyttjare att ge synpunkter på formen för det framtida tillgängliggörandet.