Webarchiv CZ
-
Upload
webarchive-of-national-library-of-the-czech-republic -
Category
Technology
-
view
719 -
download
2
Transcript of Webarchiv CZ
Webarchivpamátník českého internetu, více
Historie
• 2000 - začátek (jako projekt NK ČR, MZK a MU ČR)
• 2001 - první archivované webové stránky
• 2005 - pravidelné sklízení obsahu
• 2007 - vstup do IIPC
Dnes
• z projektu se stalo Oddělení archivace webu
• hlavní financování z rozpočtu knihovny
• 1 vedoucí + 2,5 kurátorů + 0,5 IT podpora
Profil archivu
• stáří archivu: 3. 9. 2001
• ~ 200 TB
• frekvence sklízení: 1x - 1x|2x|6x|12x/year
• hloubka sklízení: 5000 - 15 000 objects
• přístupnost: in house/online access
Rozložení domén
Tempo růstu
• robot.txt nerespektujeme
• velké dilema pro webové archivy
• rozhodnutí má zásadní dopady na archiv
• “V současnosti standardně soubory robots.txt nezohledňujeme, jelikož věříme, že historie webu by se měla uchovat v takové podobě, v jaké ho vidí lidé a ne vyhledávače.”
Designated community
• koncový uživatelé, kteří by měli být schopni porozumět konkrétní množině informací (OAIS)
• definice uživatelů určuje obsah i jeho formu
1. individuální uživatelé2. institucionální uživatelé3. výzkumníci a vědci
Typy sklizní
• Celoplošné: celý “český web”
• Výběrové: reprezentativní vzorek “českého webu”
• Tematické: události s dopadem v prostředí internetu
“český web”?• bohemikální charakter zdroje (definice v collection policy)
• Území – zdroje publikované na území ČR
• Jazyk – všechny zdroje v češtině (bez ohledu na místo vydání)
• Autorství – všechny zdroje českých autorů (bez ohledu na místo vydání)
• Předmět/obsah – všechny zdroje, jejichž obsah se týká České republiky nebo českého národa (bez ohledu na místo vydání)
Další kriteria“Preferovány jsou zdroje s kulturní, vědeckou či historickou hodnotou, které mají originální a unikátní obsah a dlouhodobou badatelskou hodnotu.”
• nechceme firemní prezentace, eshopy apod. komerční zdroje (?)• nechceme velké deníky (??)• intranety (?)• katalogy, portály se sekundárním obsahem• rozhlasové a televizní vysílání
• neděláme/neumíme sklízet zabezpečené webové zdroje (databáze, sekce pro registrované uživatele)
Technické překážky
• Flash, Ajax, JavaScript …
• technických překážek je mnoho, řešení?
• univerzální řešení neexistuje
• technické sklizně => “someday”
Zpřístupnění
• Wayback Machine (zobrazování)
• Vyhledávání:
• primárně WWW
• katalog Aleph
• WM
Akvizice domén
• CZ NIC
• návrhy uživatelů, vydavatelů
• ISSN agentura
• kurátoři -> konspekt
Licence
• výhradní (smlouva)
• na doménu
• bianco
• creative commons
Role kurátora
• komunikace s vydavateli
• “plnění” konspektu
• správa webových zdrojů vč. hodnocení
• katalogizace
• quality assurance
Kuratorství ve světě
• Technicky vyřešeno
• Důraz na kolekce
• IIPC collaborative collections
• Sociální sítě
Jak to děláme my?
• Tematické sklizně
• Plníme konspekt
• Kontinuální tematické sklizně?
• Zapojení dalších institucí?