PlanPlan
Podstawy– Rodzaje metadanych– Języki kodowania dokumentów i kodowanie znaków
MetaMapa
Syntaktyka: RDF
Formaty metadanych:– MARC, MODS– DC, ONIX– TEI, EAD, METS, MIX– FGDC.
PodstawyPodstawyOpisowe– Tytuł, autor, abstrakt, hasła przedmiotowe itp….
Techniczne i strukturalne– Rozmiar pliku, niezbędne oprogramowanie, typ pliku,
zasady prezentacji itp….
Administracyjne (zwane “meta-metadanymi”)– Numer rekordu, data utworzenia, pochodzenie rekordu
itp….
Prawa własności– Własność copyright, warunki wykorzystania itp….
Zarządzanie– [Zwykle przez/dla właściciela]: opłaty, zasady
udostępniania itp….
5 rodzajów metadanych
PodstawyPodstawyJęzyki kodowania:– Opisują strukturę dokumentu– Zawierają instrukcje dla oprogramowania przetwarzającego
tekst w celu: • indeksowania tekstu przez wyszukiwarki,• tworzenia prezentacji tekstu (na ekranie lub wydruku),• transformacji tekstu dla urządzeń wyjściowych (np. dla
syntezatorów mowy).– Kodowanie jest na ogół niewidoczne dla użytkownika
Extensible Markup Language (XML):– XML jest metajęzykiem
• Agencje definiują własny XML do własnych celów– Tworząc Document Type Definitions (DTDs) lub XML Schema
– Dane są oddzielone od instrukcji dot. prezentacji• Instrukcje dot. prezentacji trafiają do opisu stylu (style sheet)
– Pozwala uzyskać właściwe połączenie elastyczności z ustrukturyzowaniem
Języki kodowania dokumentów - XML
PodstawyPodstawyResource Description Format (RDF)– Metajęzyk oparty na teorii grafów (wierzchołki i krawędzie), o
syntaktyce XML, do wyrażania metadanych o zasobach Web– Zaprojektowany do maszynowego przetwarzania metadanych
(podstawowy RDF nie jest zbyt przyjazny dla człowieka)– Głównym elementem RDF jest trójka: (temat + predykat + obiekt)– Zarządzany przez W3C (World Wide Web Consortium)
Zalety RDF:– Kwestia dyskusji (zwykle wybór między RDF a XML)!– Za: oparte na modelu wyrażanie metadanych niezbędne dla
Semantycznego Webu; bardziej elastyczny, skalowalny i „wyrozumiały” niż XML
– Przeciw: RDF powoduje wzrost przetwarzania; dokumenty RDF mająza dużo słabych punktów; mało używany
Zastosowania RDF:– Open Directory Project, wybrane oprogramowanie (np. Siderean)– OCLC Connexion eksportuje Dublin Core w RDF/XML
Języki kodowania dokumentów - RDF
PodstawyPodstawy
Kodowanie znaków:– Stosowane dla przedstawiania znaków tekstu w
środowisku cyfrowym– Istnieją setki standardów kodowania znaków
narodowych– Konwersja znaków jest skomplikowana i kosztowna
Unicode: – Jeden, „powszechny” światowy standard kodowania
znaków– Zawiera znaki wszystkich ważniejszych
współczesnych, wielu mniejszych i wybranych martwych języków
Kodowanie znaków
http://mapageweb.umontreal.ca/turner/meta/english/metamap.html
MetaMapaMetaMapa
MARC 21MARC 21MARC 21 (ISO 2709)– Protokół komunikacyjny metadanych oparty na ISO 2709– Możliwość wyboru 2 opcji kodowania znaków:
• MARC 8 (ASCII, ANSEL, częściowo ISO, EACC)• Unicode (ograniczony do odpowiednika zestawu MARC)
– Możliwe zastosowanie XML– Zarządzanie: Library of Congress, współpr. NLC, BL
Zalety:• Dojrzały standard dobrze zarządzany• Szeroko stosowany w bibliotekarstwie na świecie• Dostępna olbrzymia liczba rekordów MARC 21• Możliwość swobodnego wyboru oprogramowania bibliotecznego
Wady (obecnie i w przyszłości): • Praktycznie nie stosowany poza bibliotekami• Ograniczenia rozmiarów pola i rekordu• Ograniczony zakres dostępnych skryptów• Ograniczona zdolność do wyrażania złożonych relacji, hierarchii,
atrybutów na poziomie etykiet/podpól
<datafield tag="100" ind1="1" ind2=" ">
<subfield code="a">Sandburg, Carl,</subfield>
<subfield code="d">1878-1967.</subfield>
</datafield>
<datafield tag="245" ind1="1" ind2="0">
<subfield code="a">Arithmetic /</subfield>
<subfield code="c">
Carl Sandburg ; illustrated as an anamorphic adventure by Ted Rand.
</subfield>
</datafield>
<datafield tag="250" ind1=" " ind2=" ">
<subfield code="a">1st ed.</subfield>
</datafield>
<datafield tag="260" ind1=" " ind2=" ">
<subfield code="a">San Diego :</subfield>
<subfield code="b">Harcourt Brace Jovanovich,</subfield>
<subfield code="c">c1993.</subfield>
</datafield>
<datafield tag="300" ind1=" " ind2=" ">
<subfield code="a">1 v. (unpaged) :</subfield>
<subfield code="b">ill. (some col.) ;</subfield>
<subfield code="c">26 cm.</subfield>
</datafield>
MARCXML
MODSMODSMetadata Object Description Schema (MODS) – W zasadzie przeróbka MARC 21 do środowiska XML
• Etykiety tekstowe zamiast cyfrowych, • Zestawy atrybutów MARC 21 scalone w jeden element MODS
– MARC 21 jest łatwo konwertowany do MODS, konwersja z powrotem z MODS do MARC 21nie jest bezstratna
– Zarządzanie: Library of Congress
Zalety MODS:– Obszerny, biblioteczny schemat metadanych w XML– Optymalny dla konwersji rekordów z MARC– Równie prosty jak DC– Odpowiedni jako format metadanych dla współpracy z OAI
Zastosowania MODS:– Konwersja rekordów MARC w LC z American Memory– Projekt Minerva, U of Chicago Press, California Digital Library, inni
stosują dla rekordów na stronach Web, e-tekstów.– Projekt bibliograficzny OpenOffice
MODSTitleInfo NoteName CartographicsType of resources SubjectGenre ClassificationPublicationInfo Related itemLanguage IdentifierPhysical description LocationAbstract Access conditionsTable of contents ExtensionTarget audience RecordInfo
MARC 21 & MODS MARC 21 & MODS Cecha MARC
21MARC
21 Unicode
MARC XML
MARC Slim
MODS
Structura ISO 2709 ISO 2709 XML XML XML
Kodowanie MARC 8 Unicode Unicode Unicode Unicode
Repertuar skryptów JACKPHY JACKPHY JACKPHY JACKPHY Unicode
Konwersja z MARC 21bezstrat. bezstrat. bezstrat.
minimal.strata bezstrat.
Konwersja do MARC 21bezstrat. bezstrat. bezstrat. bezstrat? małe straty
· Dane bibliograficzne OCLC OCLC R OCLC R OCLC R OCLC DCPS
· Dane autorytarne OCLC OCLC R
OCLC R
OCLC R x
· Klasyfikacja x OCLC R OCLC R x
· Użytkownicy x x x x
· Zasób OCLC x x x
JACKPHY - Japoński, Arabski, Chiński, Koreański, Perski, Hebrajski oraz Yiddish
Automatycznie
Silny
Numerycz.
XML
MARCXML
Przez specjalistów i automat.
Pod wpływem
Tekstowe
XML
MODS
Przez użytkown.,
specjalistów i automat.
Brak
Tekstowe
XML
RDF
(X)HTML
DC
Przez specjalistów
Silny
Numerycz.
ISO 2709 [ANSI Z39.2]
MARC
Przez użytkown.,
specjalistów i automat.
Brak
Tekstowe
XML
RDF
(X)HTML
QDC
Typowy sposób tworzenia
Format rekordu
Związek z AACR
Etykiety pól
DC, MARC & MODSDC, MARC & MODS
Dublin CoreDublin CoreDublin Core Metadata Element Set– ISO 15836:2003(E) The Dublin Core metadata element set– ISO 15836:2006(P) Informacja i dokumentacja – Zestaw elementów
metadanych Dublin Core– Standard dla wielodziedzinowego opisu zasobów
• Zaprojektowany głównie dla realizacji wyszukiwania– Definiuje semantykę a nie syntaktykę– Dostępny podstawowy lub kwalifikowany zestaw elementów DC – Zarządzanie: Dublin Core Metadata Initiative (DCMI)
Zalety Dublin Core:– Prostota, rozszerzalność współdziałanie– Globalne zastosowanie (DCMES tłumaczony na ponad 20 języków)– Przydatny jako schemat przełącznikowy między różnymi standardami
Zastosowania Dublin Core:– Open Archives Initiative (OAI) opiera się na metadanych DC– Stosowana duża liczba rozszerzonych wersji:
• W bibliotekach cyfrowych (dLibra), archiwach, muzeach• W programach e-government (AU, CA, DK, FI, IE, NZ, UK)
– Zastosowanie w OCLC: Connexion, DCPS, ContentDM, badania
ONIXONIXONIX International (Online Information Exchange):– Standardowy format wymiany danych dla wydawców i
księgarzy• Oparty na EPICS (EDItEUR Product Information Communication Standards)
– Służy reprezentacji i komunikacji informacji elektronicznej o produktach przemysłu wydawniczego
• Oferuje dwa poziomy szczegółowości (level 1 & level 2)– Zastosowanie schematu XML i Unicode– Zarządzanie: EDItEUR we współpracy z Book Industry
Communication (BIC) i Book Industry Study Group (BISG)Zalety of ONIX:– Zaspakaja potrzeby wydawców i księgarzy przez:
• Łatwiejszy dostęp do pełnych danych o książkach (dane bibliograficzne, sztuka ilustracyjna, spisy treści i wiele innych)
• Łatwy do zaimplementowania format wymiany danych
Zastosowanie ONIX:– Głównie przeznaczony dla wydawców i sprzedawców książek
• Większość głównych firm (Amazon, Baker & Taylor, etc.) stosuje ONIX
– Współpraca ONIX z bibliotekami i dostawcami ILS
TEITEIText Encoding Initiative (TEI):– Służy kompleksowemu kodowaniu tekstów literackich– Możliwe stosowanie SGML jak i DTD XML– Nagłówek TEI (TEIH) może służyć jako rekord metadanych– Agencja zarządzająca: Konsorcjum TEI:
• Konsorcjum TEI posiada biura w Bergen (Norwegia) i na czterech uniwersytetach: Univ. of Bergen, Brown Univ., Oxford Univ., Univ. of Virginia
• Opisany w “P4” Guidelines for Electronic Text Encoding and Interchangehttp://www.tei-c.org/release/doc/tei-p4-doc/html/
Zalety TEI:– Posiada wersję XML– Zaprojektowany na potrzeby pracowników naukowych (gł.
humanistów) do różnych celów, w tym:• Dodawanie komentarzy naukowych do e-tekstów• Wspomagania badań przez tworzenie specjalnych indeksów itp.
Zastosowania TEI:– Szeroko stosowany w głównych zbiorach humanistycznych tekstów
elektronicznych (np. CETH, UVa e-text center i in.).
TEI HeaderTEI HeaderElement <teiHeader> posiada cztery zasadnicze części: – <fileDesc> zawiera pełny opis bibliograficzny
obiektu elektronicznego – <encodingDesc> opisuje relacje pomiędzy tekstem
elektronicznym a źródłem lub źródłami z których został on pobrany
– <profileDesc> zawiera szczegółowy opis niebibliograficznych aspektów tekstu, w szczególności stosowane języki, konketst, w którym powstał oraz osoby biorące udział w tworzeniu
– <revisionDesc> zawiera historię zmian dokonywanych w obiekcie.
EADEADEncoded Archival Description (EAD)– Format dla wyszukiwania elektronicznych zasobów archiwalnych– Utworzono EAD DTD (wersja z 2002) działający zarówno jako SGML
i XML DTD– Zarządzany wspólnie przez Library of Congress oraz Society of
American Archivists (SAA)
Zalety EAD: – Efektywnie zorganizowana prezentacja zasobu dokumentów
(głównie zbiorów archiwalnych i rękopiśmiennych)• Nagłówek EAD zawiera metadane do wyszukiwania• Umożliwia proste lub złożone kodowanie dla różnych poziomów
indeksowania• Pomocny w tworzeniu sieci dokumentów z linkami do określonych
obiektów w zasobie (albo bezpośrednio do obiektu albo poprzez rekord z linkiem do obiektu).
Zastosowania EAD:– Konwersja papierowych narzędzi wyszukiwawczych do cyfrowych– Szeroko stosowany przez uczelnie i archiwa w USA– W bazie RLG Archival Resources jest wiele opisów w EAD
METSMETSMetadata Encoding and Transmission Standard (METS)– Standard „konteneru” do kodowania danych do wyszukiwania,
archiwizowania i obsługi zasobów cyfrowych• Sześć modułów definiujących metadane opisowe, administracyjne,
strukturalne, własnościowe i inne• Pewne części obiektu METS mogą być zewnętrzne (np. rekord MODS dla
metadanych opisowych)– Zarządzający schematem: Library of Congress
Zalety METS:– Potrzeba METS określona na spotkaniach ekspertów metadanych
DLF (Digital Library Federation - http://www.diglib.org/)• Zróżnicowanie lokalnych metadanych nieopisowych szkodzi
skalowalności i współdziałaniu– Oferuje standard dla „pakietowania” obiektów dla archiwizacji,
umieszczania w repozytoriach itp.
Zastosowania METS:– LC: plany użycia dla filmów, audio i zasobów multimedialnych– Zastosowanie w OCLC DCPS, RLG, Harvard, Stanford, UC
Berkeley, National Library of Wales w różnych projektach
METSMETSMETS Header – metadane dotyczące samego pliku METS, w tym data utworzenia, twórca, status itp.Descriptive Metadata – metadane opisowe dotyczące obiektu biblioteki cyfrowejAdministrative Metadata – metadane administracyjne dotyczące obiektu, w tym zagadnienia techniczne, copyright, informacje o źródle i cyfrowej archiwizacjiFile Inventory – zestaw wszystkich plików składających się na zawartość obiektu biblioteki cyfrowejStructural Map – opis struktury logicznej obiektu wraz z opisem sposobu powiązania z tą strukturą metadanych opisowych i administracyjnychStructural Links – wykaz linków między węzłami struktury logicznej zapisanej w Structural map, który jest stosowany do wykazania hiperlinków między plikami tworzącymi złożony obiekt biblioteki cyfrowejBehaviors – zapis sposobu funkcjonowania oprogramowania niezbędnego dla uzyskania dostępu do obiektu lub którejś z jego części.
MIXMIXMetadata for Images in XML (MIX)– Schemat XML dla zestawu elementów danych technicznych
niezbędnych dla obsługi zasobów obrazów cyfrowych– Format dla wymiany i/lub przechowywania danych opisany w normie
NISO Data Dictionary - Technical Metadata for Digital Still Images(ANSI/NISO Z39.87-2006).
– Dotąd na wstępnym etapie rozwoju i testowania– Powstaje we współpracy: Library of Congress i NISO Technical
Metadata for Digital Still Images Standards CommitteeZalety MIX:– Dostarcza schemat XML dla wyrażania danych technicznych,
głównie dla obrazów cyfrowych nieruchomych i ruchomych– Można go używać z innymi schematami, np. METS i MODS jako
część systemu zarządzania i archiwizacji cyfrowych obrazówZastosowanie MIX:– OCLC DCPS, LC, inni planują lub testują– MIX jeszcze we wstępnym etapie rozwoju i testów
DC ONIX TEI EAD METS MIX
StrukturaHTML, XML
XML XML XML XML XML
Kodowanie Unicode Unicode Unicode Unicode Unicode
Repertuar znaków Unicode Unicode Unicode Unicode Unicode
Konwersja z MARC 21
Różna strataMinimalna
strata
Tylko nagłówki -
stratny
Tylko nagłówki -
stratny
Konwersja do MARC 21Minimalna
strata
Częśćdanych stratna
Tylko nagłówki bez
straty
Tylko nagłówki bez
straty
Główne zastosowanie Prosty opis do
wyszukiwania
Inf. o nowych
publikacjach
Kodowanie etekstów
naukowych
Wyszukiw. Obiektów
archiwalnych
Kontener z danymi
technicznymi
Dane techniczne
dla obrazów
Główny użytkownik Biblioteki, muzea,
archiwa, e-rząd
Wydawcy, księgarze
Naukowcy z dziedzin
humanist.
Archiwa, biblioteki
Archiwa, biblioteki
Archiwa, biblioteki
Agencja zarządzająca
DCMI EditeurTEI
Consortium LC + SAA LC LC
Zestawienie:Zestawienie:
CSDGM (inaczej FGDC)CSDGM (inaczej FGDC)Content Standard for Digital Geospatial Metadata (CSDGM) [wcześniej znany jako “FGDC”]– CSDGM Version 2 - FGDC-STD-001-1998– Definiuje terminologię i opis cyfrowych danych geoprzestrzennych– Zarządzany przez Federal Geographic Data Committee (FGDC)– Dostępna konwersja z FGDC do ISO 19115:2003(E) Geographic
information - Metadata;
Zalety FGDC:– Stanowi standard dla publikowania metadanych o zasobach
geoprzestrzennych– Szeroko stosowany przez agendy rządowe i biznes– Standard wykorzystywany przez wiele systemów i aplikacji
Zastosowania FGDC:– Stosowany lub przystosowany przez główne agencje
geoprzestrzenne.– Przydatność rozszerzona dzięki profilom (np. dla danych
biologicznych)
LinkiLinkiDublin Core: http://www.dublincore.org
EAD: http://www.loc.gov/ead
FGDC: http://www.fgdc.gov/metadata/meta_stand.html
MARC 21: http://lcweb.loc.gov/marc/marcdocz.html
MARCXML: http://www.loc.gov/marc/marcxml.html
METS: http://www.loc.gov/standards/mets
MIX: http://www.loc.gov/standards/mix
MODS: http://www.loc.gov/standards/mods
ONIX: http://www.editeur.org/onix.html
RDF: http://www.w3.org/RDF
TEI: http://www.tei-c.org
OCLC Research: http://www.oclc.org/research
Top Related