Ut og vaske poster - FRBRisering i Podeprosjektet
-
Upload
the-podeproject -
Category
Documents
-
view
1.338 -
download
3
description
Transcript of Ut og vaske poster - FRBRisering i Podeprosjektet
AnneLena Westrum, Deichmanske bibliotek, Digitalt bibliotek
Trond Aalberg, NTNU
Asgeir Rekkavik, Deichmanske bibliotek, Voksenavdelingen
Anne Karine Sandberg, Deichmanske bibliotek, Katalogavdelingen
http://www.bibpode.no // Twitter: @podeprosjekt
Ut og vaske poster – FRBRisering i Podeprosjektet
Tilgang til egne katalogdata
Iguanasan byncnd
Bedre brukeropplevelse
Sette brukeren i sentrum og alltid gi brukeren treff og
veier videre
Ingen metadata – Ingen tjenester!
Iguanasan byncnd
MARC; snart 50 år og godt over middagshøyden?
Fokus!
Metadata is King!
Slices of Light byncnd
Trefflistene er et problem –uansett
FRBR og verkspresentasjon
Knut Hamsun fra 587 til 38
FRBR og FRBRisering
FRBR‐modellenModell av entiteter, relasjoner og attributter som er av interesse for sluttbrukere av bibl. informasjonLitt ny tankegang, litt opprydding i terminologi, men det mest vesentlige er kanskje en ”formell” modell
FRBRiseringPopulær term i prosjekter hvor vi prøver å tolke eller konvertere eksisterende bibliografisk informasjon i henhold til FRBR‐modellen
FRBRisering eksperiment Deichmanske og IDI, NTNU
Institutt for datateknikk og inf. vitenskapStartet med eksperimentell konvertering av BIBSYSOg har jobbet med dette i andre prosjekter seinere
DeichmanskePode‐prosjektet generelt interessert i FRBR og muligheten for FRBRisering av egne data
Ble enige om å sammen prøve ut en FRBRiseringav noen eksempler fra Deichmans katalog
Hva vi var interessert i (til slutt)
Hvilke entiteter og relasjoner kan vi systematisk trekke ut av MARC dataene?Hva er kvaliteten på resultatet?Hva er vesentlige årsaker til dårlig resultat?Hvilke begrensinger og/eller problemer gir dagens bruk av MARC‐formatet og dagens katalogiseringspraksisen?
Litt om verktøyet for frbrisering
XSLT‐basert konvertering av MARC‐posterMARC‐poster i XML som inputProduserer FRBR‐poster i XML som outputEn post for hver unike entitet (person, verk, uttrykk, ..)Med lenker for relasjonene
Bruker en database med regler for hvilke entiteter og relasjoner som skal opprettes under hvilke betingelserAutomatisk generering av selv XSLT‐fila som konverterer
Kan tilpasses et hvilket som helst MARC format – krever bare at du lager reglene for å tolke formatet
FRBRmodelleni praksis
Verk av HamsunForskjellige uttrykkOversettere, innlesere
Verk av HamsunForskjellige uttrykkOversettere, innlesere
Verk omHamsunVerk omHamsun
Verk basert påverk av HamsunVerk basert påverk av Hamsun
Litt mer avanserte
Samlede verker hvor enkeltbindeneinneholder 1 eller flere romanerBind 1: SultBind 4: Pan, VictoriaBind 6: Rosa, Benoni
Samlede verker hvor enkeltbindeneinneholder 1 eller flere romanerBind 1: SultBind 4: Pan, VictoriaBind 6: Rosa, Benoni
NovellesamlingerEn eller flere forfattereNovellesamlingerEn eller flere forfattere Essay‐samlinger som hver
har separate Hamsun‐verk som emne
Essay‐samlinger som hver har separate Hamsun‐verk som emne
Første runde med FRBRisering
Vi tok for oss 4 forskjellige test‐samlingerKnut Hamsun, Per Petterson, J.R.R. Tolkien, William Shakespeare
Laget en HTML‐basert presentasjon av resultatet og hadde manuell evalueringResultatet var egentlig som forventet, og inneholdt ”mye rart”
Resultat fra første rundeVerk av Petterson
Ut og stjæle hesterTil SibirI kjølvannetJeg forbanner tidens elvDet er greit for megAske i munnen, sand i skoaConfesiunile unei femei visatoareEkkolandFuori a rubar cavalliKielzogMånen over PortenTil SibiruV Sibir!
Egentlig ikke så ille…..‐men det mangler mange noveller ‐ og noen verk er feil
Egentlig ikke så ille…..‐men det mangler mange noveller ‐ og noen verk er feil
Hamsun (et lite utvalg)
BasarenBenoniBenoni og RosaBenoni. RosaBjørgerBlant dyrBrev til MarieBørn av tidenDagboksbladDamen fra tivoliDas Sausen und Waldes; [Gedichte]Den gaadefuldeDen gåtefulleDen sidste glædeDen siste gledeDen siste glædeDet vilde korDet vilde kor og andre diktDet vilde kor, og andre dikte
Generelt et dårlig resultat
Bedre utnyttelse av biinførslersiden vi kunne spesialbehandle ”samlede verker)
Men også mange feilkilder
Generelt et dårlig resultat
Bedre utnyttelse av biinførslersiden vi kunne spesialbehandle ”samlede verker)
Men også mange feilkilder
For mange verk
Verk identifiseres med forfatter + tittel Hvis 240 ikke finnes i posten brukes 245Generelle problemer
Oversettelser som mangler 240Forskjellig skriveform (eller skrivefeil) i 240 / 245 titler Titler i 240 /245 som ikke er verk
For få verk(fra biinnførslene)
Vanskelig å vite hvordan biinnførslene skal tolkesNovellesamlinger med 700‐innf. for novelle‐titleneFilmer med 700‐innf. for romanen filmen er basert på
Er en 740‐tittel en alternativ skriveform eller et eget uttrykk/verk?Hvis innholdet er beskrevet med 700/740 hvordan skal vi da tolke 240/245 titler og hvilke relasjoner finnes?
Kollektiv tittel som ikke er verk (Samlede verker)Eller eget verk (Norske perler i prosa)
Andre utfordringer
UttrykkSpråk og formkode for å identifisere uttrykkIngen egne titler for uttrykkene (vanskelig å velge)
RelasjonerMange varianter av samme funksjonskode”M:N” – problematikk
EmnerTitler i emneinnførsler er på norsk selv om org. tittel er påannet språk
Runde 2
Mulighet for bedre resultat med bedre data!Valgte å jobbe videre med Hamsun og PettersonRedigering av postene
Retting av titler, legge til orginaltitler etc.Bruke indikatorer for titler som identifiserer verk
Nye regler for konverteringenNy kjøring og nytt resultat
Hva som ble rettet i posteneTall fra Hamsunfila (842 poster)
Endring av språkkoder i noen få poster (5)La til 240$a (85) og rettet skriveform (24)Rette skrivefeil eller ISBD‐syntaks i 245$a (6)Endre første indikator i 245 slik at denne viser om 245‐tittel er verk eller ikke
Etter redigeringen er det 113 færre 245‐felt som skal tolkes som verk
Videre…
Mer systematisk/konsekvent bruk av 700/740740 der alle titler har samme forfatter (i 100)Samme skriveform i 740 som man ville brukt i 240
Systematisk bruk av andre indikator i 700/740 for å synliggjøre om dette er et eget verkStor antall endringer (vanskelig å tallfeste)
Litt statistikk for Hamsun
Litt statistikk for Petterson
Resultatet etter andre runde
Færre ”feil” verkFordi det var mulig å ekskludere ikke‐verks titlerFordi det fantes 240‐titler der det var nødvendig
Flere ”riktige” verkFordi det var mulig å bruke titler i 700 og 740 riktig
I tillegg var det mye enklere å lage reglerMen fortsatt er det mye informasjon i postene som er vanskelig å tolke automatisk
Konklusjon
FRBR‐modellen stiller nye kravTil MARC‐formatet, katalogiseringsreglene, data
Paradokset er at informasjonen finnes i postene, men er vanskelig å tolke automatisk
Enkelt å forstå en og en post Men vanskelig å lage regler for å tolke alle
Forsøket viser at MARC‐data kan bli bedreNoen utfordringer krever mer drastiske endringer
RDF
I et RDF‐datasett uttrykkes all informasjon i form av triplerEn trippel er et utsagn som består av tre deler:
– En instans (subjekt)– En egenskap (predikat)– En verdi (objekt)
Amund liker sjokolade
Alle instanser og egenskaper uttrykkes som unike identifikatorer (URI)
<http://.../Amund> <http://.../liker> <http://.../sjokolade>
person:Amund mat:liker mat:sjokolade
work:sult dct:creator person:Hamsun_Knut
Vokabularer
Core FRBR
Dublin Core Metadata Terms
Bibo ~ Bibliographic ontology
FOAF ~ Friend of a friend
SKOS ~ Simple Knowledge Organisation System
work:Hamsun_Knut_i_aeventyrland a frbr:Work;dct:title """I Æventyrland""" ;pode:subtitle """oplevet og drømt i Kaukasien""" ;dct:creator person:Hamsun_Knut ;pode:firstEdition "1903"^^xsd:int ;pode:classification pode:ddk_914_75 ;frbr:realization pode:26062446bee37b78d52bab7ae85c6526 ;frbr:realization pode:9bc949c17cdb23d53c7fe0f4c89521e1 ;frbr:realization pode:5933c37527c20cb56811c57e87027e95 ;frbr:realization pode:754e9a14038da8a2bb131b698c0c5a7e ;frbr:realization pode:c06e5d491d9085af9ab812154551ffa2 ; owl:sameAs dbpedia:In_Wonderland .
SPARQL
Spørrespråk for RDF‐data
SELECT ?document WHERE {?document dct:creator person:Hamsun_Knut .
}
SELECT ?person WHERE {doc:tnr_0765432 dct:creator ?person .
}
SELECT ?property WHERE {doc:tnr_654321 ?property person:Bjerke_Andre .
}
SELECT ?translator ?title WHERE {?document dct:language lexvo:nld ;
dct:title ?title ;bibo:translator ?translatordct:creator ?creator .
?creator dbprop:nationality dbpedia:Norway .}
Hvilke oversettere har oversatt norske bøker til nederlandsk?
Hvilke språk er Knut Hamsuns romaner utgitt på?
Hvilke norske forlag har gitt ut bøker om hinduismen?
Hvilke emner omhandles i nynorske romaner på mindre enn 250 sider?
Hvilke romaner, skrevet av kvinnelige forfattere fra land med muslimsk majoritet, er utgitt på norsk?
http://bibpode.no/linkedauthors
Forarbeid og arbeid – veien til FRBR
Hamsun og Petterson
*100 0$aHamsun, Knut$d1859-1952$jn.*24500$aLivsfragmenter$bni noveller$cKnut Hamsun ; samlet, redigert og kommentert av Lars Frode Larsen*260 $aOslo$bGyldendal$c1988*300 $a147 s.*500 $aNoveller publisert 1884-1906 i aviser og periodika*505 $aInnhold: Et livsfragment ; På tourné ; Synd ; Mod jul ; Småbyliv ; Natteranglere ; Mit reisefølge ; Onde dage ; På klinik.*599 $axAgnar0312*700 $aLarsen, Lars Frode$d1948-$jn.$eRed.$312753600*740 0$aOnde dager*740 0$aPå klinikk*740 0$aPå turné*740 2$aEt livsfragment*740 2$aMit reisefølge*740 2$aMod jul*740 2$aNatteranglere*740 2$aOnde dage*740 2$aPaa klinik*740 2$aPaa tourné*740 2$aSmaabyliv*740 2$aSynd
Verksautoritetsregister?– Nasjonalt!
Mer fokus på detaljer!
Flere måmed!
Podes ønskeliste
Åpen dokumentert tilgang til alle katalogdataEt moderne metadataformat som er åpent og fleksibeltNasjonalt autoritetsregister og åpne, nasjonale unike IDer for verk og forfattere
www.bibpode.no/blogg