Ut og vaske poster - FRBRisering i Podeprosjektet

45
AnneLena Westrum, Deichmanske bibliotek, Digitalt bibliotek Trond Aalberg, NTNU Asgeir Rekkavik, Deichmanske bibliotek, Voksenavdelingen Anne Karine Sandberg, Deichmanske bibliotek, Katalogavdelingen http://www.bibpode.no // Twitter: @podeprosjekt Ut og vaske poster – FRBRisering i Podeprosjektet

description

Presentasjon på KORG-dagene 2011, Høgskolen i Oslo.http://www.hio.no/Enheter/Avdeling-for-journalistikk-bibliotek-og-informasjonsfag/Konferanser/Kunnskapsorganisasjonsdagene-2011

Transcript of Ut og vaske poster - FRBRisering i Podeprosjektet

Page 1: Ut og vaske poster - FRBRisering i Podeprosjektet

Anne­Lena Westrum, Deichmanske bibliotek, Digitalt bibliotek

Trond Aalberg, NTNU

Asgeir Rekkavik, Deichmanske bibliotek, Voksenavdelingen

Anne Karine Sandberg, Deichmanske bibliotek, Katalogavdelingen

http://www.bibpode.no // Twitter: @podeprosjekt

Ut og vaske poster – FRBRisering i Podeprosjektet

Page 2: Ut og vaske poster - FRBRisering i Podeprosjektet

Tilgang til egne katalogdata

Iguanasan ­ by­nc­nd

Page 3: Ut og vaske poster - FRBRisering i Podeprosjektet

Bedre brukeropplevelse

Page 4: Ut og vaske poster - FRBRisering i Podeprosjektet

Sette brukeren i sentrum og alltid gi brukeren treff og 

veier videre

Page 5: Ut og vaske poster - FRBRisering i Podeprosjektet

Ingen metadata – Ingen tjenester!

Iguanasan ­ by­nc­nd

Page 6: Ut og vaske poster - FRBRisering i Podeprosjektet

MARC; snart 50 år og godt over middagshøyden?

Page 7: Ut og vaske poster - FRBRisering i Podeprosjektet

Fokus!

Page 8: Ut og vaske poster - FRBRisering i Podeprosjektet

Metadata is King!

Slices of Light ­ by­nc­nd

Page 9: Ut og vaske poster - FRBRisering i Podeprosjektet

Trefflistene er et problem –uansett

Page 10: Ut og vaske poster - FRBRisering i Podeprosjektet
Page 11: Ut og vaske poster - FRBRisering i Podeprosjektet

FRBR og verkspresentasjon

Knut Hamsun fra 587 til  38

Page 12: Ut og vaske poster - FRBRisering i Podeprosjektet

FRBR og FRBRisering

FRBR‐modellenModell av entiteter, relasjoner og attributter som er av interesse for sluttbrukere av bibl. informasjonLitt ny tankegang, litt opprydding i terminologi, men det mest vesentlige er kanskje en ”formell” modell

FRBRiseringPopulær term i prosjekter hvor vi prøver å tolke eller konvertere eksisterende bibliografisk informasjon i henhold til FRBR‐modellen

Page 13: Ut og vaske poster - FRBRisering i Podeprosjektet

FRBRisering eksperiment Deichmanske og IDI, NTNU

Institutt for datateknikk og inf. vitenskapStartet med eksperimentell konvertering av BIBSYSOg har jobbet med dette i andre prosjekter seinere

DeichmanskePode‐prosjektet generelt interessert i FRBR og muligheten for FRBRisering av egne data

Ble enige om å sammen prøve ut en FRBRiseringav noen eksempler fra Deichmans katalog

Page 14: Ut og vaske poster - FRBRisering i Podeprosjektet

Hva vi var interessert i (til slutt)

Hvilke entiteter og relasjoner kan vi systematisk trekke ut av MARC dataene?Hva er kvaliteten på resultatet?Hva er vesentlige årsaker til dårlig resultat?Hvilke begrensinger og/eller problemer gir dagens bruk av MARC‐formatet og dagens katalogiseringspraksisen?

Page 15: Ut og vaske poster - FRBRisering i Podeprosjektet

Litt om verktøyet for frbrisering

XSLT‐basert konvertering av MARC‐posterMARC‐poster i XML som inputProduserer FRBR‐poster i XML som outputEn post for hver unike entitet (person, verk, uttrykk, ..)Med lenker for relasjonene

Bruker en database med regler for hvilke entiteter og relasjoner som skal opprettes under hvilke betingelserAutomatisk generering av selv XSLT‐fila som konverterer

Kan tilpasses et hvilket som helst MARC format – krever bare at du lager reglene for å tolke formatet

Page 16: Ut og vaske poster - FRBRisering i Podeprosjektet

FRBR­modelleni praksis

Verk av HamsunForskjellige uttrykkOversettere, innlesere

Verk av HamsunForskjellige uttrykkOversettere, innlesere

Verk omHamsunVerk omHamsun

Verk basert påverk av HamsunVerk basert påverk av Hamsun

Page 17: Ut og vaske poster - FRBRisering i Podeprosjektet

Litt mer avanserte

Samlede verker hvor enkeltbindeneinneholder 1 eller flere romanerBind 1: SultBind 4: Pan, VictoriaBind 6: Rosa, Benoni

Samlede verker hvor enkeltbindeneinneholder 1 eller flere romanerBind 1: SultBind 4: Pan, VictoriaBind 6: Rosa, Benoni

NovellesamlingerEn eller flere forfattereNovellesamlingerEn eller flere forfattere Essay‐samlinger som hver 

har separate Hamsun‐verk som emne

Essay‐samlinger som hver har separate Hamsun‐verk som emne

Page 18: Ut og vaske poster - FRBRisering i Podeprosjektet

Første runde med FRBRisering

Vi tok for oss 4 forskjellige test‐samlingerKnut Hamsun, Per Petterson, J.R.R. Tolkien, William Shakespeare

Laget en HTML‐basert presentasjon av resultatet og hadde manuell evalueringResultatet var egentlig som forventet, og inneholdt ”mye rart”

Page 19: Ut og vaske poster - FRBRisering i Podeprosjektet

Resultat fra første rundeVerk av Petterson

Ut og stjæle hesterTil SibirI kjølvannetJeg forbanner tidens elvDet er greit for megAske i munnen, sand i skoaConfesiunile unei femei visatoareEkkolandFuori a rubar cavalliKielzogMånen over PortenTil SibiruV Sibir!

Egentlig ikke så ille…..‐men det mangler mange noveller ‐ og noen verk er feil

Egentlig ikke så ille…..‐men det mangler mange noveller ‐ og noen verk er feil

Page 20: Ut og vaske poster - FRBRisering i Podeprosjektet

Hamsun (et lite utvalg)

BasarenBenoniBenoni og RosaBenoni. RosaBjørgerBlant dyrBrev til MarieBørn av tidenDagboksbladDamen fra tivoliDas Sausen und Waldes; [Gedichte]Den gaadefuldeDen gåtefulleDen sidste glædeDen siste gledeDen siste glædeDet vilde korDet vilde kor og andre diktDet vilde kor, og andre dikte

Generelt et dårlig resultat

Bedre utnyttelse av biinførslersiden vi kunne spesialbehandle ”samlede verker)

Men også mange feilkilder

Generelt et dårlig resultat

Bedre utnyttelse av biinførslersiden vi kunne spesialbehandle ”samlede verker)

Men også mange feilkilder

Page 21: Ut og vaske poster - FRBRisering i Podeprosjektet

For mange verk

Verk identifiseres med forfatter + tittel Hvis 240 ikke finnes i posten brukes 245Generelle problemer

Oversettelser som mangler 240Forskjellig skriveform (eller skrivefeil) i 240 / 245 titler  Titler i 240 /245 som ikke er verk

Page 22: Ut og vaske poster - FRBRisering i Podeprosjektet

For få verk(fra biinnførslene)

Vanskelig å vite hvordan biinnførslene skal tolkesNovellesamlinger med 700‐innf. for novelle‐titleneFilmer med 700‐innf. for romanen filmen er basert på

Er en 740‐tittel en alternativ skriveform eller et eget uttrykk/verk?Hvis innholdet er beskrevet med 700/740 hvordan skal vi da tolke 240/245 titler og hvilke relasjoner finnes?

Kollektiv tittel som ikke er verk (Samlede verker)Eller eget verk  (Norske perler i prosa)

Page 23: Ut og vaske poster - FRBRisering i Podeprosjektet

Andre utfordringer

UttrykkSpråk og formkode for å identifisere uttrykkIngen egne titler for uttrykkene (vanskelig å velge)

RelasjonerMange varianter av samme funksjonskode”M:N” – problematikk

EmnerTitler i emneinnførsler er på norsk selv om org. tittel er påannet språk

Page 24: Ut og vaske poster - FRBRisering i Podeprosjektet

Runde 2

Mulighet for bedre resultat med bedre data!Valgte å jobbe videre med Hamsun og PettersonRedigering av postene

Retting av titler, legge til orginaltitler etc.Bruke indikatorer for titler som identifiserer verk

Nye regler for konverteringenNy kjøring og nytt resultat

Page 25: Ut og vaske poster - FRBRisering i Podeprosjektet

Hva som ble rettet i posteneTall fra Hamsun­fila (842 poster)

Endring av språkkoder i noen få poster (5)La til 240$a (85) og rettet skriveform (24)Rette skrivefeil eller ISBD‐syntaks i 245$a (6)Endre første indikator i 245 slik at denne viser om 245‐tittel er verk eller ikke

Etter redigeringen er det 113 færre 245‐felt som skal tolkes som verk

Page 26: Ut og vaske poster - FRBRisering i Podeprosjektet

Videre…

Mer systematisk/konsekvent bruk av 700/740740 der alle titler har samme forfatter (i 100)Samme skriveform i 740 som man ville brukt i 240

Systematisk bruk av andre indikator i 700/740 for å synliggjøre om dette er et eget verkStor antall endringer (vanskelig å tallfeste)

Page 27: Ut og vaske poster - FRBRisering i Podeprosjektet

Litt statistikk for Hamsun

Page 28: Ut og vaske poster - FRBRisering i Podeprosjektet

Litt statistikk for Petterson

Page 29: Ut og vaske poster - FRBRisering i Podeprosjektet

Resultatet etter andre runde

Færre ”feil” verkFordi det var mulig å ekskludere ikke‐verks titlerFordi det fantes 240‐titler der det var nødvendig

Flere ”riktige” verkFordi det var mulig å bruke titler i 700 og 740 riktig

I tillegg var det mye enklere å lage reglerMen fortsatt er det mye informasjon i postene som er vanskelig å tolke automatisk

Page 30: Ut og vaske poster - FRBRisering i Podeprosjektet

Konklusjon

FRBR‐modellen stiller nye kravTil MARC‐formatet, katalogiseringsreglene, data

Paradokset er at informasjonen finnes i postene, men er vanskelig å tolke automatisk

Enkelt å forstå en og en post Men vanskelig å lage regler for å tolke alle

Forsøket viser at MARC‐data kan bli bedreNoen utfordringer krever mer drastiske endringer

Page 31: Ut og vaske poster - FRBRisering i Podeprosjektet

RDF

I et RDF‐datasett uttrykkes all informasjon i form av triplerEn trippel er et utsagn som består av tre deler:

– En instans (subjekt)– En egenskap (predikat)– En verdi (objekt)

Amund liker sjokolade

Page 32: Ut og vaske poster - FRBRisering i Podeprosjektet

Alle instanser og egenskaper uttrykkes som unike identifikatorer (URI)

<http://.../Amund> <http://.../liker> <http://.../sjokolade>

person:Amund mat:liker mat:sjokolade

work:sult dct:creator person:Hamsun_Knut

Page 33: Ut og vaske poster - FRBRisering i Podeprosjektet

Vokabularer

Core FRBR

Dublin Core Metadata Terms

Bibo ~ Bibliographic ontology

FOAF ~ Friend of a friend

SKOS ~ Simple Knowledge Organisation System

Page 34: Ut og vaske poster - FRBRisering i Podeprosjektet

work:Hamsun_Knut_i_aeventyrland a frbr:Work;dct:title """I Æventyrland""" ;pode:subtitle """oplevet og drømt i Kaukasien""" ;dct:creator person:Hamsun_Knut ;pode:firstEdition "1903"^^xsd:int ;pode:classification pode:ddk_914_75 ;frbr:realization pode:26062446bee37b78d52bab7ae85c6526 ;frbr:realization pode:9bc949c17cdb23d53c7fe0f4c89521e1 ;frbr:realization pode:5933c37527c20cb56811c57e87027e95 ;frbr:realization pode:754e9a14038da8a2bb131b698c0c5a7e ;frbr:realization pode:c06e5d491d9085af9ab812154551ffa2 ; owl:sameAs dbpedia:In_Wonderland .

Page 35: Ut og vaske poster - FRBRisering i Podeprosjektet

SPARQL

Spørrespråk for RDF‐data

SELECT ?document WHERE {?document dct:creator person:Hamsun_Knut .

}

SELECT ?person WHERE {doc:tnr_0765432 dct:creator ?person .

}

SELECT ?property WHERE {doc:tnr_654321 ?property person:Bjerke_Andre .

}

Page 36: Ut og vaske poster - FRBRisering i Podeprosjektet

SELECT ?translator ?title WHERE {?document dct:language lexvo:nld ;

dct:title ?title ;bibo:translator ?translatordct:creator ?creator .

?creator dbprop:nationality dbpedia:Norway .}

Page 37: Ut og vaske poster - FRBRisering i Podeprosjektet

Hvilke oversettere har oversatt norske bøker til nederlandsk?

Hvilke språk er Knut Hamsuns romaner utgitt på?

Hvilke norske forlag har gitt ut bøker om hinduismen?

Hvilke emner omhandles i nynorske romaner på mindre enn 250 sider?

Hvilke romaner, skrevet av kvinnelige forfattere fra land med muslimsk majoritet, er utgitt på norsk?

Page 38: Ut og vaske poster - FRBRisering i Podeprosjektet

http://bibpode.no/linkedauthors

Page 39: Ut og vaske poster - FRBRisering i Podeprosjektet

Forarbeid og arbeid – veien til FRBR

Hamsun og Petterson

Page 40: Ut og vaske poster - FRBRisering i Podeprosjektet

*100 0$aHamsun, Knut$d1859-1952$jn.*24500$aLivsfragmenter$bni noveller$cKnut Hamsun ; samlet, redigert og kommentert av Lars Frode Larsen*260 $aOslo$bGyldendal$c1988*300 $a147 s.*500 $aNoveller publisert 1884-1906 i aviser og periodika*505 $aInnhold: Et livsfragment ; På tourné ; Synd ; Mod jul ; Småbyliv ; Natteranglere ; Mit reisefølge ; Onde dage ; På klinik.*599 $axAgnar0312*700 $aLarsen, Lars Frode$d1948-$jn.$eRed.$312753600*740 0$aOnde dager*740 0$aPå klinikk*740 0$aPå turné*740 2$aEt livsfragment*740 2$aMit reisefølge*740 2$aMod jul*740 2$aNatteranglere*740 2$aOnde dage*740 2$aPaa klinik*740 2$aPaa tourné*740 2$aSmaabyliv*740 2$aSynd

Page 41: Ut og vaske poster - FRBRisering i Podeprosjektet

Verksautoritetsregister?– Nasjonalt!

Page 42: Ut og vaske poster - FRBRisering i Podeprosjektet

Mer fokus på detaljer!

Page 43: Ut og vaske poster - FRBRisering i Podeprosjektet

Flere måmed!

Page 44: Ut og vaske poster - FRBRisering i Podeprosjektet

Podes ønskeliste

Åpen dokumentert tilgang til alle katalogdataEt moderne metadataformat som er åpent og fleksibeltNasjonalt autoritetsregister og åpne, nasjonale unike ID­er for verk og forfattere

Page 45: Ut og vaske poster - FRBRisering i Podeprosjektet

www.bibpode.no/blogg