Budoucnost českého webového archivu

19
Webarchiv Budoucnost českého webového archivu

Transcript of Budoucnost českého webového archivu

Page 1: Budoucnost českého webového archivu

WebarchivBudoucnost českého webového archivu

Page 2: Budoucnost českého webového archivu

Jsme Webarchiv

digitální knihovna, která uchovává webové zdrojepro budoucí generace. wwwPokud je nebudeme průběžně archivovat, zmizí významná součást národního kulturního dědictví.

Page 3: Budoucnost českého webového archivu

Jak archivujeme?

Provádíme kompletní archivaci“celého” českého webu.

WWWWWWWW

Souběžně probíhá výběrováa tematická archivace.

Page 4: Budoucnost českého webového archivu

Bohužel!

Ne všechna data jsou dostupná online. w

Může za to současná podoba autorského zákona, která byla vytvořena pro knihy. Pro přístup k celému archivu musíte prozatím až k nám.

Page 5: Budoucnost českého webového archivu

Budoucnost

Webový archiv není jen skladiště URL, na které usedá prach. Pracujeme na vytvoření fulltextu celého archivu. Potřebujeme porozumět tomu, co nesou jednotlivé digitální objekty a co budou znamenat historicky. wwWČeká nás otevření Webarchivu analytickému výzkumu a propojení našich dat s jinými archivy.

Page 6: Budoucnost českého webového archivu

Bude možné studovat 90. léta a dál bez webových archivů?

Ian Milligan

Page 7: Budoucnost českého webového archivu

Webový archiv Živý web

Page 8: Budoucnost českého webového archivu

Bude možné studovat 90. léta a dál bez webových archivů?

Ne.

Page 9: Budoucnost českého webového archivu

~210 TB komprimovaných dat~4 miliardy digitálních objektů~1,2 miliónu webových stránek

*.cz

Page 10: Budoucnost českého webového archivu

méně jak ~1% webových stránekWebarchivu, je volně přístupnéz Internetu

w

Page 11: Budoucnost českého webového archivu

METADATA

WWWWWWWW

Page 12: Budoucnost českého webového archivu

URL, Timestamp, SHA-1, Size, Outlinks, Content-Type, IP, Response, Title, Author ...

WWW

Page 13: Budoucnost českého webového archivu

Ian Milligan, opět

Page 14: Budoucnost českého webového archivu
Page 15: Budoucnost českého webového archivu

Identifikace formátu jednotlivých dig. objektů

verze PDF, HTML, MS Word apod.

Extrakce plného textu

z HTML, PDF, DOC apod.

Page 16: Budoucnost českého webového archivu

Rozponání žánru např. recenze, rozhovor, článek apod.

Identifikace entit např. místa, osoby, události apod.

Identifikace témat a klíčových slov např. Volby 2013, Útok ISIS, Ukrajinská krize

Rozpoznání jazyka dokumentu

Page 17: Budoucnost českého webového archivu

Obrazový hash hledání podobných obrázků

Audio2text prohledávání audiovizuáních dokumentů

Slovní popis obrázků včetně klíčových slov

černé a ryšavé koťátko si hrají na zelené trávě

Rozpoznávání tváří

Page 18: Budoucnost českého webového archivu

A co zajímá vás?