Webarchivčeský webový archiv
Mgr. Jaroslav Kvasnica
Webová archivace
“Web archiving is the process of collecting portions of the World Wide Web to ensure the information is preserved in
an archive for future researchers, historians, and the public.”
Co stojí za to archivovat?
“more is more, less is less”
vs.
“hoarding is not a strategy”
Co stojí za to archivovat?
• V dnešní době můžeme jen hádat.
• Lidstvo nikdy nedokáže kategorizovat všechna data na světě.
Základní typologie akvizice
celoplošné sklízení
kvantita > kvalita
výběrové sklízení
kvalita > kvantita
Celoplošné sklízení
1. všechno, celý web (Internet Archive)2. předem definovaná část webu (národní web, TLD)
• semínka nevybírají kurátoři • důraz na kvantitu -> co nejvíc, co nejrychleji a hlavně
automatizovaně• nutnost definovat výsek, který chceme sklízet (všichni
nemůžou být IA)
Výběrové sklízení
• semínka připravují kurátoři
• důraz na kvalitu: obsahovou, technickou (QA)
• na základě tématu, události
• důležité: jednoznačně definovat kritéria akvizice
IIPC collaborative collection
• World War I. - 10 webových archivů - 1692 semínek
• Europan Refugee Crisis - 11. členů - 500 semínek
• https://archive-it.org/home/IIPC
• nový projekt: Online News Around the World
Instantní archivace
• news, social media
• technicky náročné (výpočetní výkon, nárok na kurátory)
• často se využívá technologie RSS
• aplikovaná spíše při zvláštních událostech
instantní archivace - příklad
“(…) a Ukrainian separatist leader also known as Strelkov, or someone acting on his behalf, posted a message on VKontakte, a Russian social-media
site: “We just downed a plane, an AN-26.” (An Antonov 26 is a Soviet-built military cargo plane.)
The post includes links to video of the wreckage of a plane; it appears to be a Boeing 777. (…)”
http://www.newyorker.com/magazine/2015/01/26/cobweb
WebarchivČeský webový archiv, více
Historie Webarchivu
• 2000 - začátek (jako projekt NK ČR, MZK a MU ČR)
• 2001 - první archivované webové stránky
• 2005 - pravidelné sklízení obsahu
• 2007 - vstup do IIPC
Profil archivu
• stáří archivu: 3. 9. 2001
• ~ 250 TB
• frekvence sklízení: 1x|2x|6x|12x/rok
• hloubka sklízení: 5000 - 15 000 objektů/doména
• robot.txt nerespektujeme
• velké dilema pro webové archivy
• rozhodnutí má zásadní dopady na profil archivu
• “V současnosti standardně soubory robots.txt nezohledňujeme, jelikož věříme, že historie webu by se měla uchovat v takové podobě, v jaké ho vidí lidé a ne vyhledávače.”
Celoplošné sklizně
• smlouva s CZ.NIC
• dnes ~ 1 200 000 domén
• dvakrát za rok sklizeň celé .cz domény
• menší hloubka, časově a objemově náročné
Výběrové sklizně
• manuální práce kurátorů
• “standardní” výběrová sklizeň -> konspekt
• tématické sklizně -> aktuální událost
• kolekce -> společné téma, obor, instituce…
Designated community
• koncový uživatelé, kteří by měli být schopni porozumět konkrétní množině informací (OAIS)
• definice uživatelů určuje obsah i jeho formu
1. individuální uživatelé2. institucionální uživatelé3. výzkumníci a vědci
Zpřístupnění
• Wayback Machine (zobrazování)
• vyhledávání:
• primárně WWW
• katalog Aleph
Legislativa
• “povinný výtisk” - zatím neexistuje pro webové zdroje
• Autorský zákon - můžeme vytvářet kopie pro archivní účely na základě knihovní licence (ne zpřístupňovat)
• online přístup - na základě smluv s vydavateli nebo Creative Commons licence
• méně než 1 % zdrojů zpřístupněných online
• celý archiv dostupný pouze v Klementinu
• Bude to lepší v budoucnu? Ne.
• terminály v dalších knihovnách?
• metadata
Top Related