Digitalisering voor gebruik
Informatie aan Zee 2011
Trudi NoordermeerOostende, 16 september 2011
2
Programma
• 3 typen gebruikers
• Het gedigitaliseerde materiaal dat zij gebruiken- Projecten
• Tevredenheid, problemen en verbeterpunten
3
3 typen gebruikers
• De ‘recreatieve’ gebruiker en scholieren
• Bèta wetenschappers
• Wetenschappers in de humaniora
4
De recreatieve gebruikeren scholier
5
De recreatieve gebruiker & scholier
• Een breed publiek dat geïnteresseerd is in (gedigitaliseerd) cultureel erfgoed
- Brede, algemene (historische) belangstelling- Bezoekt de sites met presentatie topstukken,
interessante documenten, archivalia, foto’s, filmpjes, geluidsopnamen, documenten uit de lokale regio etc
- Scholieren die een werkstuk moeten maken
6
Digitalisering=toegang
• Nationale Bibliotheek Praag• 1994• Digitalisering topstukken• Publicatie op CD-ROM, distributie per post• Beoogd resultaat:
- minder gebruik van de orginelen
• Onverwacht effect:- méér vraag voor inzage originelen
7
1994-1996
• Honderd Hoogtepunten Koninklijke Bibliotheek Den Haag
• Boek + website- http://www.kb.nl/galerie/100hoogtepunten/van1to
t100.html
• Eén van de meest geraadpleegde webtentoonstellingen van de KB, nog altijd
8
Memory of The World
• Unesco• Topstukken uit bibliotheken, archieven, musea
conserveren, publiceren en digitaliseren• Vanaf 1992, wereldwijd• http://www.unesco.org/new/en/media-services/
multimedia/photos/photo-gallery-memory-of-the-world-items/
9
Nationale bibliotheken: projecten
• American Memory – USA, LoC- Brede selectie. Bijv. filmpje van aardbeving in San
Francisco, 1908
• The British Library Online - UK- Beowulf- Project Turning the Pages
• Gallica – Frankrijk, Bibliothèque Nationale
10
Nationale projecten/2
• Koninklijke Bibliotheek Den Haag- Geheugen van Nederland- Digitalisering collecties 80 instellingen
(bibliotheken, archieven, musea)- Aggregator
• Flandrica- 500 publicaties (2012)- 6 bibliotheken Vlaamse Erfgoedbibliotheek
11
Europeana
• Tegenhanger American Memory• Tientallen Europese bibliotheken, archieven,
musea• Zeer rijk Europees erfgoed• Aggregator
- Instellingen digitaliseren zelf: Europeana brengt samen
• Thematische website- Probleem: zoeken en vinden
12
De ‘recreatieve’ gebruiker, scholier
• Beleeft veel plezier aan het gedigitaliseerde materiaal
• Bezoekt sites met gedigitaliseerd materiaal uit eigen land en eigen regio
• Is niet erg kritisch
13
De bètawetenschapper
14
De bèta wetenschapper
• Biomedische informatie, scheikunde, natuurkunde, ingenieurswetenschappen, wiskunde en informatica
• Nieuwe wetenschappelijke informatie- Vrijwel geheel digitaal beschikbaar ‘digital born’
• Backfiles- Uitgevers scannen hun oude tijdschriften en verkopen
die als ‘backfiles’- Soms inferieure kwaliteit
15
Backfiles : een casus
• Reed Elsevier- Wetenschappelijke informatie (bèta)- Bijna alle publicaties van alle uitgevers die
Elsevier overnam- Re-scanning project: 600.000 scans van
onvoldoende kwaliteit worden opnieuw gescand- Vooral medische informatie
• http://www.info.sciverse.com/sciencedirect/content/backfiles/optimizing_backfiles
16
De bètawetenschapper/2
• Zeer kritisch• Eist topkwaliteit afbeeldingen
- Inferieure kwaliteit is onbruikbaar
• Meestal minder interesse in historisch materiaal
• Hoge kwaliteit materiaal is beschikbaar• Groot probleem
- kosten en de prijsstijgingen abonnementen
17
De onderzoeker in de humaniora
18
“Waar bètawetenschappers met een sport auto over de digitale snelweg razen, hobbelen beoefenaars van de humaniora met een brik door een doolhof van websites en databanken”
Karel Berkhout
19
“Digitaal erfgoed is doolhof”
“ Wanhopig zoeken in digitale bronnen”
NRC Handelsblad, 10 september 2011, p.1.
20
Problemen
• Geheugen van Nederland• Hoogtepunten Nederlands gedrukt vaderlands erfgoed• Schitterende boeken, boekomslagen, cartoons,
affiches, foto’s etc• Maar:
- Het is moeilijk om te zoeken in de grote hoeveelheid documenten
- Zoeken binnen een document is niet mogelijk: er is geen OCR (Optical Charcter Recognition) toegepast
21
Problemen
• Mening over open access:Universiteiten bouwen voor een onbekend bedrag
databanken met hun proefschriften en andere publicaties van hun personeel. De inrichting van de repositories is zo knullig, dat de publicaties nagenoeg onvindbaar zijn. Alleen wie precies weet wat hij zoekt kan iets vinden in deze repositoria.
NRC handelsblad, 10 september 2011
22
Problemen
• Auteursrecht: - niet technisch, maar allesbepalend voor het
gebruik: beperkingen van het Auteursrecht- UvA scande 10.000 boeken uit periode 1900 –
1915- Collectie is onbereikbaar voor academici buiten de
universiteit
• Verweesde werken- Onbekend wie de maker is
23
Problemen
• Sommige boeken zijn 6 keer gedigitaliseerd en gepubliceerd op Internet
• Gebrek aan (internationale) afstemming en coördinatie
• Gebrek aan standaarden, standaarden en nog eens standaarden op gebied van digitalisering, ontsluiting, presentatie, zoekmogelijkheden
24
Wens onderzoeker in humaniora
• Tekst wordt gescand- boeken, tijdschriften, kranten- liefst ook manuscripten
• Resultaat- Afbeelding, ‘image’
25
Wens onderzoeker in humaniora/2
• OCR software - Optical Character Recognition- Tekenherkenning- Afbeelding wordt omgezet in tekst die je kunt
doorzoeken en bewerken• Metadata
- Bibliografisch: auteur, titel, onderwerp- Technisch- Structureel
26
Kwaliteit OCR
• Sterk verbeterd, maar nog steeds niet goed genoeg voor bepaalde soorten onderzoek
• Handmatig correcties nodig
• Zeer duur, wordt vaak in het verre oosten gedaan
27
Onderzoek naar betere OCR
• Europese Commissie• NWO Nederlands Wetenschappelijk Onderzoek
• Ook naar OCR voor handschriftelijk materiaal
28
Wens van de onderzoeker
• Digitale onderzoekscorpora
• In de geesteswetenschappen- Literatuur, kunst, muziek, taal- en letterkunde,
(cultuur)geschiedenis
• Digitale humaniora of ‘digital humanities’
29
• Voorbeelden onderzoek:
30
Afgunst in de Middeleeuwen“In veel onderzoek wordt vooral aandacht besteed
aan een specifieke tekst of hooguit een paar. Ik wilde zoveel mogelijk teksten integraal thematisch bekijken.
Ideaal voor mijn onderzoek was dat veel belangrijke Middelnederlandse teksten op cd-rom beschikbaar zijn. Ik heb dus zelf geen handschriften hoeven lezen.
Op die cd-rom zijn ze naar de gewone drukletter
overgezet, dus makkelijk leesbaar”.Laura van der
Wijden
31
Nieuw onderzoek door digitale data
• Digging into the data challenge
- Er zijn zeer veel digitale data beschikbaar
- Welke nieuwe onderzoeksmethoden en –technieken zijn mogelijk?
- Ontwikkeling van een nieuwe onderzoeksinfrastructuur voor de 21 eeuw
32
Digging into the data challenge
• Voorbeelden van genonoreerde projecten:- Digging into the Enlightenment: Mapping the
Republic of Letters
- Railroads and the making of Modern America: tools voor spatio-temporal correlation, analysis and visualisation
- Harvesting speech datasets for linguistic research on the web
33
Dataset: Project Google books
• Voordeel:- Miljoenen boeken (van voor 1900) komen
beschikbaar voor een groot publiek
• Nadeel:- Kwaliteit scans en OCR is niet al te best
• Academici zijn blij met het grote corpus maar dringen aan op kwaliteitsverbetering
34
Nieuw onderzoek door digitale data
• Google Grant Progam- Collaborative research program to explore the
digital humanities using the Google Books corpus- 50.000 euro per onderzoek- 15 projecten per jaar
35
Google grant program: projecten
• Software ontwikkelen voor ontwikkeling in taal door de tijd heen
• Zoeksoftware voor het vinden van boeken en passages uit boeken voor een specifieke discipline
• Ontwikkeling systemen voor crowd-sourced correcties in boeken en metadata
36
Samenvattend: verbeterpunten
• Afstemming selectie te scannen materiaal- denk aan kosten digitale duurzaamheid: vele
malen groter dan digitalisering
• Internationale standaarden mbt kwaliteit, digitaliseren, OCR, metadata- dus ook: zoekmogelijkheden in digitale corpora en
binnen documenten verbeteren
• Voor de onderzoekers- nieuwe onderzoeksvragen bedenken
37
Vragen?
Top Related