Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

21
Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys Jani Stenvall 2005-02-17 Sähköisen julkaisemisen workshop, Viikki

description

Jani Stenvall 2005-02-17 Sähköisen julkaisemisen workshop, Viikki. Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys. Kansalliskirjasto?. Helsingin yliopiston kirjasto – Suomen kansalliskirjasto HY:n alainen erillislaitos Kaksinainen rooli: paikallispalvelut + kansalliset tehtävät - PowerPoint PPT Presentation

Transcript of Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

Page 1: Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

Jani Stenvall2005-02-17

Sähköisen julkaisemisen workshop, Viikki

Page 2: Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

Kansalliskirjasto?

• Helsingin yliopiston kirjasto – Suomen kansalliskirjasto– HY:n alainen erillislaitos– Kaksinainen rooli: paikallispalvelut + kansalliset tehtävät– Toimialan laajennusprosessi käynnissä (kirjastoverkon palvelut)

• Kolme toimipaikkaa– Pääkirjasto (Hki keskusta)– Vallila (mm. tietokantapalvelut)– Mikkeli (Mikrofilmaus, digitointi, konservointi)

Page 3: Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

Verkkojulkaisut

• Mikä on verkkojulkaisu?– Yksittäinen dokumentti vs. web-sivu vs. web-sivusto

• Eri toimijat, eri näkemykset– Kaupalliset kustantajat– Yliopistot, tutkimuslaitokset tms.– Julkishallinnon eri organisaatiot– Yritykset ja järjestöt– Yksityiset

Page 4: Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

Yliopistojen, tutkimuslaitoksten verkkojulkaisut

– Laajat web-sivustot

+

– “Oikeita” julkaisuja: Raportit, selvitykset, opinnäytteet, artikkelit, sarjajulkaisut, oppimateriaalit…

• Usein painettu esikuva olemassa• PDF hallitsee• Uskomus: vähän hyödynnetty digitaalisen dokumentin

mahdollisuuksia• Monilla käytössä oma julkaisutietokanta (-arkisto, -rekisteri)

Page 5: Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

Digitaalinen julkaiseminen: valikoituja trendejä

• Yliopistojen ja oppilaitosten kasvava verkkojulkaiseminen• Open Access - tieteellisten julkaisujen vapaa saatavuus sekä

avoimet julkaisuarkistot– OAI (Open Archives Iniative) sekä OAI-PMH (= Open Archives Iniative –

Protocol for Metadata Harvesting)• Muutos tavallisista web-sivuista tietokantapohjaisiin sivustoihin

tai julkaisurekistereihin– Kaupalliset ohjelmistot ja ilmaisohjelmistot– Open source –ohjelmistot– Itse rakennetut

• Semanttinen web

Page 6: Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

Kansalliskirjasto ja digitaalinen julkaisemisen trendit

• Kansalliskirjaston oma verkkojulkaisutoiminta– Digitointi– Omien digiaineistojen hallinta ja järkevien palvelujen

rakentaminen• Muita vaikutuksia kansalliskirjaston toimintaan

– Digitaalisen kirjaston kehittäminen (tiedonhakuportaali, kirjastojärjestelmä, digitaalisten dokumenttien hallintajärjestelmät)

– Digiaineistojen arkistointi ja pitkäaikaissäilytys (vapaakappalelaki)

– Metadataformaattien ja id-tunnusten tuki– Mukana Open access –kehityksessä mm. tavoitteena tukea

avoimia julkaisuarkistoja (OAI-PMH)– Mukana myös semanttisen webin kehityksessä (ns.

ontologiakehityksessä)

Page 7: Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys: Vapaakappalelain uudistus

• Vapaakappalelaki– Nykyinen laki vuodelta 1980– Uusi lakiluonnos esitetty opetusministerille 2003, eduskuntakäsittelyä

odotellaan (Tekijänoikeuslain uudistus vaikuttaa myös)– Aikataulu uudelle laille yhä avoin– Valmistautuminen kuitenkin jo käynnissä

• Uusi vapaakappalelaki, uudet vastuut– Kansalliskirjasto

• kansallisten verkkoaineistojen tallennus: ”edustavasti ja monipuolisesti avoimissa tietoverkoissa eri aikoina yleisön saatavilla olevaa aineistoa”

• tallenteiden (cd-rom etc.) tallennus– Suomen Elokuva-arkisto

• Kotimaisten radio- ja tv-ohjelmien keräys ja tallennus

Page 8: Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

Suomalaisen web-sisällön arkistointi lakiluonnoksen mukaan

• Lakiluonnoksessa periaatteessa määritelty kaksi tapaa: – Keräysohjelmalla haravoidaan kansallista web-avaruutta ja sen

osia– Jos aineistoa ei voida automaattisesti kerätä ja kansalliskirjasto

toteaa sen merkittäväksi: • kirjasto tekee ilmoituksen verkkojulkaisijalle => verkkojulkaisija

luovuttaa aineiston tai ”mahdollistaa” kirjastolle aineiston tallennuksen (velvoite)

• esim. maksulliset web-julkaisut, tietokannan kautta saatavia julkaisuja tai muita ”näkymättömän webin” aineistoja

• Verkkojulkaisukokoelmien luominen yhteistyössä julkaisijoiden kanssa

Page 9: Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

Sivuhyppy: Ketkä kaikki ”arkistoivat” verkkoaineistoja?

• Yleensä kansalliskirjastot : kontekstina vapaakappalelainsäädäntö tai muu mandaatti– Esim. pohjoismaat, Australia, Ranska, UK, Italia, USA...

• Internet Archive (globaalisti)– www.archive.org

• Muut organisaatiot• ”Itse-arkistointi”

• Yhteistyötä: International Internet Preservation Consortium (IIPC)– www.netpreserve.org

Page 10: Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

Sivuhyppy: Verkkoaineistojen arkistoinnin kaksi päälinjaa

• Valintaan (ja arkistointilupaan) perustuvat– Identifioidaan tallennettavat sivustot/dokumentit ja pyydetään

lupa arkistointiin sivuston omistajalta• Laaja haravointi (harvesting, crawling)

– Automaattisilla keräysohjelmilla kerätään suuria määriä dataa määritellyllä laajuudella (ilman yksittäisiä arkistointilupia = oikeutus yleensä lainsäädännössä)

– esim. maa-domain tasolla (fi, se, fr...)• Verkkoarkistoinnin haasteita

– Itse keräys, saman sivun eri versiot– Pitkäaikaissäilytys ja käytettävyys– Näkymätön web, web tietokannat tms.– Yhteistyö verkkojulkaisijoiden kanssa

Page 11: Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

Verkkoaineistojen arkistoinnin suunnitelmia kansalliskirjastossa

• Internet/www-aineistojen tallennus ja säilytys– Ohjelmallisesti tallentaminen (= haravointiohjelmat)– Julkaisijan/kustantajan avulla

• Tallennettu aineisto lakipykälien mukaiseen käyttöön: tutkijakäyttö (tai muut tarvitsijat), vain paikallisesti (vapaakappalekirjastot)

• Vapaakappalelaki kattaa vain tämän, se ei poista esim. organisaation muita säilytysvelvoitteita

• Digitaalisen aineiston pitkäaikaissäilytykseen tulee panostaa

Page 12: Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

Verkkoaineistojen arkistoinnin suunnitelmia kansalliskirjastossa 2

• Kokoelmapolitiikan ja digiarkisto(je)n määrittely • Perustetaan vapaakappaletoiminnan neuvottelukunta• Web-sivut vs. verkkojulkaisut?

– Web-sivujen keräyksen nykysuunnitelmat• 1-2 kertaa vuodessa tehdään laaja haravointikierros (kaikki kotimainen mitä

löydetään), massakeräys• Kerätään tiheämmin joitakin usein päivttyviä sivustoja (esim. uutissivustot,

lehdistö, media)• Teemakeräyksiä (esim. vaalisivustot)

– Verkkojulkaisut• Hyvien verkkojulkaisukokoelmien luominen yhteistyössä julkaisijoiden kanssa• Yksilöllinen käsitely, kuvailu ja pitkäaikaissäilytyksen metadata• Mahdolliset kytkökset ISBN- ja ISSN-tunnuksiin• Vapaaehtoisesti luovutettuja julkaisuja otetaan jo nyt vastaan

Page 13: Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

Kaksi linjaa web-aineistojen vapaakappalearkistointiin

Julkaisija luovuttaa

Haravointi

Suomalainen web

Full text indeksi

Datavarasto(t)

Käyttöliittymät Veera Doria

Metadata-tietokanta

Julkaisijan tarjoama erillinen metadata

”Verkkoarkisto”

”Luovutetun aineisto

n

arkisto”

Page 14: Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

Digiarkistojen kaksi linjaa

• “Verkkoarkisto”

– Web-sivut ja sivustot– Kansallinen domain (.fi) + muut

domain-nimet jotka tiedetään suomalaisiksi (com, net, org...)

– html, gif, jpeg...– Jotkut sivustot joissa id + salasana

– Haravoinnin kohteet ja rajoitteet

– Kokoteksti-indeksointi, automaattisesti hyödynnettävä metadata

• “Luovutetun aineiston arkisto”– Julkaisut joita ei voida kerätä

haravointiohjelmistolla (käyttörajoitetut julkaisut, näkymättömän webin aineistoja, kokoelmia)

– Julkaisut jotka on määritelty laadukkaiksi (?) (esim. julkaisusarjat, e-kirjat)

– Julkaisut jotka halutaan luetteloida kansallisbibliografiaan (Fennica)

– Mahdollimman rikasta metadataa julkaisukohtaisesti

– Kokoelma-ajattelu

Page 15: Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

Verkkoarkisto: Veera

• Veera-käyttöliittymä: Nordic Web Archive Toolset • Haravointi: Heritrix• Indeksointi: FAST• Datan tallennus

– Tällä hetkellä testikeräyksissä kerättyä dataa noin 1,5 TB – Aineisto tallennettu ns. ARC-formaatissa (Heritrix), mukana

metadataa• Kokonaissuunnittelu käynnissä digiarkistojen

teknisestä ”tuotantoympäristöstä”, joka rakennetaan siinä vaiheessa kun vapaakappalelain uudistus on hyväksytty

Page 16: Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

Doria - käyttöympäristö

• Doria on luonteeltaan ns. Digital Object Management System (DOMS) – Tuotenimi: ENCompass for Digital Collections– Käytössä kansalliskirjastossa (ja tulossa käyttöön myös muissa

yliopisto- ja AMK-kirjastoissa)– Julkaisukokoelmat + metadatakuvailut julkaisuista– Metadata muokattavissa vapaasti aineistojen ehdoilla– Käyttöoikeudet määriteltävissä– Hakukäyttöliittymä voidaan rakentaa jokaiseen kokoelmaan

erikseen (jos niin halutaan)

Page 17: Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

Doria ja vapaakappalejulkaisut (“Luovutetun aineiston arkisto”)

• Aineisto jota ei haravoida verkkoarkistoon, liitetään haettavaksi ja käytettäväksi Doriaan

• Ratkottava: – Dorian vapaakappalekokoelman rakenne– Metadataformaatti, joka tulee julkaisujen hallintaa ja

pitkäaikaissäilytystä– Olemassa olevan metadatan hyödyntäminen

• E.g. MARC-tietueet, metadataa verkkojulkaisijalta, OAI-PMH

Page 18: Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

Yliopistojen ja tutkimuslaitosten tms. verkkojulkaisut ja vapaakappaleet

1. Web-sivut • haravointi

2. ”Oikeat” julkaisut • Laadukkaita julkaisuja, joita kansalliskirjasto haluaisi tallentaa

tulevien tutkijoiden käyttöön. Mikäli mahdollista -> kokoelmaksi Doriaan

• Päällekkäisyyksiä tässä tulee olemaan– Haravoinnin mukana tulee/voi tulla myös “oikeat” julkaisut

• Ohjeet ja suositukset verkkojulkaisijoille• Mahdollisimman vähän työtä verkkojulkaisijoille

Page 19: Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

Digiaineistojen pitkäaikaissäilytys

• Digitaalisen aineiston säilyvyydessä on ongelmia– tietotekninen kehitys tuottaa uusia tuotteita, formaatteja – Säilyvyys epävarmaa ja kallis toteuttaa

• OAIS-malli (Open Archival Information System)• Pitkäaikaissäilytyksen menetelmiä kehitetään• Yksi ratkaisu on tukeutua metadataan

– kuvailemalla objekteja niiden säilyvyyttä voidaan parantaa

Page 20: Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

Digiaineistojen pitkäaikaissäilytys Suomessa

• Kansalliskirjasto, Kansallisarkisto, Suomen elokuva-arkisto, Yhteiskuntatieteellinen tietoarkisto ja CSC ovat aloittamassa pitkäaikaissäilytyksen yhteistyötä

• Joitakin näkemyksiä– Tarvitaan pitkäaikaissäilytystä kuvaavaa metadata– Tallennetaan metadata myös itse objektin yhteyteen– “Migration” lienee järkevintä kirjastoympäristössä– Tiedostoformaattien elinkyvyn seuraaminen (ks. Digital format

repositories)– Prosessien luominen (automatisointi, autenttisuuden varmistaminen)– Seurataan ja osallistutaan kv-kehitykseen– Resurssointi?

Page 21: Verkkojulkaisujen arkistointi ja pitkäaikaissäilytys

Lisätietoja

• Vapaakappalekuviosta– http://www.lib.helsinki.fi/julkaisuala/vapaakappaleet/

• Jos kiinnostaa julkaisujen vapaaehtoinen luovutus vapaakappalekokoelmaan– Yhteydenotot mieluiten sähköpostilla:

[email protected]