Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident...
Transcript of Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident...
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 1
Mikroformaty, RDFa, Inicjatywy Open*
Mikołaj Morzy Agnieszka Ławrynowicz
Instytut Informatyki
Poznań, rok akademicki 2013/2014
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
2
Od „Sieci Dokumentów” do „Sieci Danych”
Sieć dokumentów • Podstawowe elementy: 1. Nazwy (URI) 2. Dokumenty (Zasoby) opisane w HTML, XML, itp. 3. Interakcja poprzez HTTP 4. (Hiper)linki pomiędzy dokumentami lub anchors w dokumentach
• Wady: – Nietypowane linki – Wyszukiwarki nie potrafią obsłużyć skomplikowanych zapytań
“Dokumenty”
Hyperlinks
TSiSS 2
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
3
Od „Sieci Dokumentów” do „Sieci Danych”
• Sieć Dokumentów • Sieć Danych
“Dokumenty” “Rzeczy”
Hyperlinks
Typowane Linki
TSiSS 3
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
4
Od „Sieci Dokumentów” do „Sieci Danych”
• Cechy: – Linki pomiędzy dowolnymi rzeczami (np. osobami, lokalizacjami, zdarzeniami, budynkami) – Sruktura danych na stronach WWW jest jawna – Rzeczy opisane na stronach mają nazwę i URI – Linki pomiędzy rzeczami są jawne i typowane
Sieć danych
“Rzeczy”
Typowane linki
TSiSS 4
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
5
Wizja Sieci Danych 1/2
• Sieć dzisiaj – składa się z odizolowanych silosów danych, które są dostępne poprzez wyspecjalizowane wyszukiwarki – jedna strona (silos danych) przechowuje filmy, inne recenzje, jeszcze inne informacje o aktorach – wiele popularnych rzeczy jest reprezentowanych w wielu różnych zbiorach danych – „linkowanie” identyfikatorów łączy te zbiory danych
TSiSS 5
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
6
Wizja Sieci Danych 2/2
• Sieć Danych -‐ globalna baza danych – składa się z obiektów i ich opisów – obiekty są ze sobą powiązane linkami – z wysokim stopniem ustrukturalizowania obiektów – z jawną semantyką linków i treści – zaprojektowana dla ludzi i maszyn
TSiSS 6
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
– wykorzystanie różnych API WWW (2.0) – wiązanie danych (tworzenie linków między danymi) – osadzanie ustrukturalizowanych danych (mikroformaty, RDFa, GRDDL)
7
Budowa Sieci Danych poprzez publikowanie danych strukturalnych w Sieci
TSiSS 7
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
– wykorzystanie różnych API WWW (2.0) – wiązanie danych (tworzenie linków między danymi) – osadzanie ustrukturalizowanych danych (mikroformaty, RDFa, GRDDL)
8
Budowa Sieci Danych poprzez publikowanie danych strukturalnych w Sieci
TSiSS 8
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
„Powiązane Dane” (ang. Linked Data): definicja
“The Seman)c Web isn't just about pu5ng data on the web. It is about making links, so that a person or machine can explore the web of data. With linked data, when you have some of it, you can find other, related, data. “ (Tim Berners-‐Lee)
Powiązane Dane – wykorzystanie technologii Sieci Semantycznej do publikowania ustrukturalizowanych danych w Sieci i do ustanawiania powiązań między źródłami danych.
9
TSiSS 9
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
10
„Powiązane Dane” - zasady
Używaj URI jako nazwy dla rzeczy. Używaj HTTP URI tak aby ludzie mogli wyszukiwać
tych nazw. Kiedy użytkownik wyszukuje URI, dostarcz użytecznej
informacji w RDF. Zawrzyj wyrażenia RDF, które są powiązane linkami
do innych identyfikatorów URI tak aby mogły one pomóc w wykryciu powiązanych rzeczy.
TSiSS 10
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
11
Projekt „Linking Open Data” (Otwarte Powiązane Dane)
Projekt społecznościowy ze wsparciem W3C
Cel: Pomoc w utworzeniu Sieci Semantycznej poprzez
publikowanie zbiorów danych z wykorzystaniem RDF. Spełnia zasady „połączonych danych” (Linked Data principles) Główna idea: wziąć istniejące (otwarte) zbiory danych i uczynić je
dostępnymi w Sieci w formacie RDF Raz opublikowane w RDF, połączyć je linkami z innymi zbiorami danych
Przykładowy link RDF: h]p://dbpedia.org/resource/Berlin
[Identyfikator Berlina w DBPedia] owl:sameAs h]p://sws.geonames.org/2950159 [Identyfikator Berlina w Geonames].
TSiSS 11
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
12
Chmura LOD - Maj 2007
TSiSS 12
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
Ogólnie: Chmura Powiązanych Otwartych Danych (Linked Open Data) jest zbiorem powiązanych między sobą zbiorów danych, które zostały opublikowane i powiązane linkami zgodnie z zasadami „powiązanych danych”. Fakty: Punkty „ogniskujące”:
DBPedia: wersja Wikipiedii w formacie RDF; wiele przychodzących i wychodzących linków
Zbiory danych dotyczące muzyki Duże zbiory danych zawierają: FOAF, US Census data Rozmiar w przybliżeniu 1 bilion trójek, 250k linków
13
Chmura LOD - Maj 2007
TSiSS 13
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
14
Chmura LOD - Wrzesień 2008
TSiSS 14
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
15
Chmura LOD - Wrzesień 2008
Fakty: Więcej niż 35 powiązanych zbiorów danych Gracze komercyjni dołączyli do chmury (np. BBC) Firmy zaczęły publikować i przechowywać zbiory danych (OpenLink, Talis, Garlik) Rozmiar w przybliżeniu 2 bilion’y trójek, 3 miliony linków
TSiSS 15
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
16
Chmura LOD - Marzec 2009
TSiSS 16
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
17
Chmura LOD - Marzec 2009
Fakty: Wielka część z chmury ‘Drug’ i projektu BIO2RDF Znaczące nowe zbiory danych: Freebase, OpenCalais, ACM/IEEE Rozmiar > 10 bilionów trójek
TSiSS 17
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
Chmura LOD - Wrzesień 2011
Liczba zbiorów danych: 295 Liczba trójek: 31 634 213 770
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
19
Publikowanie Powiązanych danych w 7 krokach
Wybór słowników – ważne ponowne wykorzystanie istniejących słowników -‐ interoperacyjność
Partycjonowanie grafu RDF do “stron danych” Przyznanie URI każdej stronie danych Stworzenie wariantów HTML każdej strony danych -‐ do
renderowania stron w przeglądarkach
Przyznanie URI każdej encji Dodanie metadanych stron i linków np. publisher, license, topics Dodanie semantycznej mapy strony (semanic sitemap) – ważna
dla pająków w celu znalezienia zbioru danych lub końcowki SPARQL z dostępem do danych
TSiSS 19
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
20
Tworzenie powiązań (linków)
• Popularne predykaty: owl:sameAs, foaf:homepage, foaf:topic, foaf:based_near, foaf:maker/foaf:made, foaf:depiction, foaf:page, foaf:primaryTopic, rdfs:seeAlso
TSiSS 20
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
Przykładowe zbiory danych
DBpedia BBC Music Open government (UK), Data.gov (US) Freebase Zbiory danych biologicznych i medycznych
TSiSS 21
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
DBpedia
Inicjatywa społeczna: Ekstrakcja strukturalnej informacji z Wikipedii Udostępnienie informacji w Sieci na otwartej licencji Powiązanie linkami zbioru danych DBpedii z innymi zbiorami danych w Sieci
DBpedia to jeden z najbardziej centralnych ”hubów” w tworzącej się Sieci Danych
TSiSS 22
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
!"#$%&'()$)*$%$)+,-./.%#0)
1. Gather data from many places and give it freely to developers, scientists, and citizens
2. Connect the community in finding solutions to allow collaboration through social media, events, and platforms
3. Provide an infrastructure built on standards and interoperability
4. Encourage technology developers to create apps, maps, and visualizations of
5. Gather more data and connect more people
7
“A Strategy for American Innovation” published September 2009
Data.gov !"#$%&'()$)*$%$)+,-./.%#0)
1. Gather data from many places and give it freely to developers, scientists, and citizens
2. Connect the community in finding solutions to allow collaboration through social media, events, and platforms
3. Provide an infrastructure built on standards and interoperability
4. Encourage technology developers to create apps, maps, and visualizations of
5. Gather more data and connect more people
7
“A Strategy for American Innovation” published September 2009
“A Strategy for American Innova2on” wrzesień 2009
1. Zgromadź dane – z wielu miejsc, udostępnij je za darmo deweloperom, naukowcom, obywatelom 2. Połącz społeczność – w znajdowaniu rozwiązań pozwalających na współpracę poprzez media społecznościowe, wydarzenia, plalormy 3. Dostarcz infrastrukturę – w oparciu o standardy i interoperacyjność 4. Zachęć twórców technologii – do tworzenia aplikacji, map, wizualizacji danych, które wzmocnią wybory dokonywane przez ludzi 5. Zgromadź więcej danych – i połącz więcej ludzi
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
24
Powiązane Dane – Narzędzia i Aplikacje
Narzędzia do przenoszenia danych z innych formatów i z funkcjonujących wewnętrznie systemów do Sieci Danych
Narzędzia do wykorzystywania Powiązanych Danych: przeszukiwanie, przeglądanie, tworzenie mashups, inne
TSiSS 24
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
25
Przenoszenia danych z innych formatów do Sieci Danych
• Dostarczenie danych przechowywanych w relacyjnych bazach danych do Sieci Danych: – Pubby: serwer dostarczający dostępu do składnic trójek w Sieci – Triplify: pozwala na specyfikację zapytań SQL i zrenderowanie
wyników jako RDF – D2RQ, ontop: odwzorowanie relacyjnych baz danych do RDF;
dostarczają końcówkę SPARQL z dostępem do danych – Virtuoso RDF Views: oferuje deklaratywny język do tworzenia
odwzorowań pomiędzy danymi SQL i RDF • Ekstrakcja danych z Sieci WWW (np. DBPedia: dane z Wikipedii) • Konwersja istniejących danych i ekstrakcja z nich RDF: z JPEG,
Email, BibTex, Java bytecode, Javadoc, Excel TSiSS 25
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
26
Repozytoria trójek RDF
– OWLIM: natywne, wykorzystuje mechanizm wnioskowania wprzód (forward chaining) i materializację
– AllegroGraph: natywne – Jena TDB: natywne – Open Link Virtuoso: hybrydowe, hostuje zbiór Dbpedia,
Virtuoso 7 -‐ Virtuoso Column Store – BigData: hybrydowe
TSiSS 26
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
Publikowanie powiązanych - typowe wzorce
12-10-22 21:11Linked Data: Evolving the Web into a Global Data Space
Strona 44 z 112http://linkeddatabook.com/editions/1.0/
5.1 Linked Data Publishing Patterns
Publishing Linked Data requires adoption of the basic principles outlined in Chapter 2. Compliance with the standards and best practices thatunderpin these principles is what enables Linked Data to streamline data interoperability and reuse over the Web. However, compliance with theLinked Data principles does not entail abandonment of existing data management systems and business applications but simply the addition ofextra technical layer of glue to connect these into the Web of Data. While there is a very large number of technical systems that can be connectedinto the Web of Data, the mechanisms for doing so fall into a small number of Linked Data publishing patterns. In this section, we will give anoverview of these patterns.
Figure 5.1 shows the most common Linked Data publishing patterns in the form of workflows, from structured data or textual content through toLinked Data published on the Web. In the following section, we will briefly address some of the key features of the workflows in 5.1.
Figure 5.1: Linked Data Publishing Options and Workflows.
5.1.1 Patterns in a Nutshell
The primary consideration in selecting a workflow for publishing Linked Data concerns the nature of the input data.
From Queryable Structured Data to Linked Data
Data sets stored in relational databases can be published relatively easily as Linked Data through the use of relational database to RDFwrappers. These tools allow the data publisher to define mappings from relational database structures to RDF graphs that are served up on theWeb according to the Linked Data principles. Section 5.2.4 gives an overview of relational database to RDF wrappers.
Where structured data exists in queryable form behind a custom API (such as the Flickr or Amazon Web APIs, or a local application or operatingsystem API), the situation is a little more complex, as a custom wrapper will likely need to be developed according to the specifics of the API inquestion. However, examples such as the RDF Book Mashup [29] demonstrate that such wrappers can be implemented in relatively trivialamounts of code, much of which can likely be componentised for reuse across wrappers. The wrapper pattern is described in more detail inSection 5.2.6.
From Static Structured Data to Linked Data
12-10-22 21:11Linked Data: Evolving the Web into a Global Data Space
Strona 44 z 112http://linkeddatabook.com/editions/1.0/
5.1 Linked Data Publishing Patterns
Publishing Linked Data requires adoption of the basic principles outlined in Chapter 2. Compliance with the standards and best practices thatunderpin these principles is what enables Linked Data to streamline data interoperability and reuse over the Web. However, compliance with theLinked Data principles does not entail abandonment of existing data management systems and business applications but simply the addition ofextra technical layer of glue to connect these into the Web of Data. While there is a very large number of technical systems that can be connectedinto the Web of Data, the mechanisms for doing so fall into a small number of Linked Data publishing patterns. In this section, we will give anoverview of these patterns.
Figure 5.1 shows the most common Linked Data publishing patterns in the form of workflows, from structured data or textual content through toLinked Data published on the Web. In the following section, we will briefly address some of the key features of the workflows in 5.1.
Figure 5.1: Linked Data Publishing Options and Workflows.
5.1.1 Patterns in a Nutshell
The primary consideration in selecting a workflow for publishing Linked Data concerns the nature of the input data.
From Queryable Structured Data to Linked Data
Data sets stored in relational databases can be published relatively easily as Linked Data through the use of relational database to RDFwrappers. These tools allow the data publisher to define mappings from relational database structures to RDF graphs that are served up on theWeb according to the Linked Data principles. Section 5.2.4 gives an overview of relational database to RDF wrappers.
Where structured data exists in queryable form behind a custom API (such as the Flickr or Amazon Web APIs, or a local application or operatingsystem API), the situation is a little more complex, as a custom wrapper will likely need to be developed according to the specifics of the API inquestion. However, examples such as the RDF Book Mashup [29] demonstrate that such wrappers can be implemented in relatively trivialamounts of code, much of which can likely be componentised for reuse across wrappers. The wrapper pattern is described in more detail inSection 5.2.6.
From Static Structured Data to Linked Data
Źródło:
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
28
Konsumowanie Powiązanych Danych
• Przeglądarki Powiązanych Danych: eksplorowanie rzeczy i zbiorów danych i nawigacja pomiędzy nimi – Tabulator Browser, Marbles, OpenLink RDF Browser, Zitgist RDF Browser, Disco Hyperdata Browser, Fenfire
• Mashup’y Powiązanych Danych: strony, które łączą („mieszają”) powiązane dane – Revyu.com, DBtune Slashfacet, DBPedia Mobile, Semansc Web Pipes
• Wyszukiwarki powiązanych danych – Falcons, Sindice, MicroSearch, Watson, SWSE, Swoogle
TSiSS 28
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
Przykładowy Mashup: Revyu.com 1/2
Revyu.com -‐ strona do oceniania wszystkiego. Powiązane Dane wykorzystywane do wzbogacania ocen. Oceny zawierają linki do ocenianej “rzeczy” i linki „seeAlso”
do Wikipedii i innych zbiorów danych.
29
TSiSS 29
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
30
Przykładowy Mashup: Revyu.com 2/2
http://revyu.com
TSiSS 30
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
Przykładowa wyszukiwarka: Sindice 1/2
Wyszukiwarka Powiązanych Danych. Pozwala na wyszukiwanie treści Sieci Semantycznej na bazie:
-‐ słów kluczowych -‐ URI (identyfikujących obiekty, pojęcia, lub dokumenty).
31
TSiSS 31
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
32
Przykładowa wyszukiwarka: Sindice 2/2
TSiSS 32
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
Inne inicjatywy Open*
Open Source Open Content Open Science (Open Notebook Science) Open Access Open CourseWare Open Society Foundaions Open Health
TSiSS 33
Otwarte dane – przykład aplikacji
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
!"##$%&'(()$%21 million American households can now download their home or business energy use data from their local utility Then use apps to manage their energy use to save money and go green More at Energy.Data.gov
21
Green BuHon • 21 milionów amerykańskich gospodarstw domowych może ściągnąć dane dot. zużycia energii w ich domu • Następnie wykorzystać aplikacje, które zarządzają ich zużyciem energii i zaoszczędzić pieniądze (i być bardziej ekologicznym) • Więcej: Energy.Data.gov
Źródło: Driving Innovason with Open Data and Interoperability Jeanne Holm Evangelist, Data.gov Listopad 14, 2012
Otwarte dane to ekosystem
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
Wspólna wizja
1. Wizja: Co będzie łączyć społeczność, jak współpraca będzie wyglądać w przyszłości?
2. Liderzy: Kto będzie przewodzić społeczności? 3. Uczestnicy: Kto będzie uczestniczyć? 4. Wyniki: Jakie są oczekiwane wyniki, miary ich osiągnięcia? 5. Funckcjonalność: Jakie typy aktywności będą funkjonować
(fora, blogi, wiki, rankingi konkursy, aplikacje)? 6. Treść: Jaka treść będzie pokazywana? 7. Interakcyjność: Jak społeczność będzie komunikować się z
liderami i z zewnętrznymi osobami, jednostkami?
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
37
Co to są mikroformaty?
-‐ sposób nadania znaczenia elementom HTML i jawnego pokazania struktur danych na stronach HTML
-‐ zaprojektowane dla ludzi w pierwszej kolejności, w drugiej dla maszyn
-‐ zbiór prostych, otwartych formatów danych, zbudowanych w oparciu o istniejące i szeroko zaadaptowane standardy (np. (X)HTML)
-‐ rozwiazują pojedynczy, specyficzny problem (np. reprezentację informacji geograficznej, kalendarzowej)
TSiSS 37
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
38
Ilustracja microformatów
TSiSS 38
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
39
Rodzaje mikroformatów
• Elementarne mikroformaty (jeden znacznik) – Rel-home (strona domowa) <link href="http://technorati.com" rel="home" />
– Rel-License (licencja) <a href="http://creativecommons.org/licenses/by/2.0/" rel="license">cc by2.0</a>
– Inne: rel-tag, rel-encluse, xfn-tags • Złożone mikroformaty
– Często oparte na istniejącym standardzie – np. hCard, hCalendar, hEvent, hReview
TSiSS 39
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
Składnia
Mikroformaty wykorzystują istniejące atrybuty HTML do osadzenia strukturalnych typów danych w dokumencie HTML i do wskazania obecności metadanych
• Atrybut rel/rev – wykorzystanie w elementarnych mikroformatach. Przykład: <a href=“http://www.cs.put.poznan.pl” rel=“tag”>instytut</a>
• Atrybut class – wykorzystanie w złożonych mikroformatach. Przykład: <span class=“geo”><span class=“latitude”>28.42</span><span class=“longitude”>37.10</span><span>
40
TSiSS 40
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
Ekspresywność mikroformatów
Mikroformaty rozszerzją siłę wyrażania (ekspresywność) języka HTML
Ekspresywność jest ograniczona tym, że mikroformaty są zaprojektowane do wykorzystywania tylko pre-‐definiowanych słowników.
41
TSiSS 41
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
42
Przykład: złożony mikroformat hCard 1/2
hCard – prosty format do reprezentacji danych ludzi, firm, organizacji i miejsc wykorzystujący 1:1 reprezentację własności i wartości standardu vCard (RFC2426) BEGIN: VCARD VERSION: 3 FN: Agnieszka Lawrynowicz ORG: Politechnika Poznanska … URL: h]p://www.put.poznan.pl TEL: +48 61 8790 790 END: VCARD
TSiSS 42
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
43
Przykład: złożony mikroformat hCard 2/2
<div class="vcard“> <span class="fn">Agnieszka Lawrynowicz</span> <a class="org url” href="http://www.put.poznan.pl">Politechnika Poznanska</a> <a class="email” href="mailto:[email protected]">mail me</a> Phone: <div class="tel">+48 61 8790790</div>
</div>
Example on this slide by Alexander Graf TSiSS 43
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
44
Wady mikroformatów
• Istnieje jedynie ustalony zbiór mikroformatów • Nie ma możliwości łączenia elementów danych • Ustalony słownik, nie-‐rozszerzalny, trudny do dostosowania do konkretnych potrzeb
• Osobne reguły parsowania potrzebne dla każdego mikroformatu
TSiSS 44
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
RDFa
RDFa = RDF w atrybutach • rekomendacja W3C • zbiór nowych atrybutów (X)HTML do wyrażenia metadanych wewnątrz (X)HTML
• format serializacji RDF, gdzie trójki RDF są "osadzone" w (X)HTML
• niezależne od dziedziny (w przeciwieństwie do dedykowanych dla danej dziedziny mikroformatów)
TSiSS 45
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
Składnia: wykorzystanie RDFa w XHTML
• Odpowienie atrybuty XHTML: @rel, @rev, @content, @href, @src
• Nowe atrybuty, specyficzne dla RDFa: @about, @property, @resource, @datatype, @typeof
46
TSiSS 46
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
Opis podstawowych atrybutów RDFa
• @about, @src – URI, które specyfikuje zasób opisywany przez metadane
• @rel, @rev – określają relację (relację odwrotną) z innym zasobem
• @href, @resource – określają stowarzyszony zasób • @property – określa własność dla zawartości (‘content’)
elementu • @content – opcjonalny atrybut, który nadpisuje zawartość
elementu, używając atrybutu ‘property’ • @datatype – opcjonalny atrybut, który określa typ danych
tekstu do wykorzystania z atrybutem ‘property’ • @typeof – opcjonalny atrybut, który określa typ(y) RDF
podmiotu (zasobu opisywanego przez metadane)
TSiSS 47
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
Wykorzystanie RDFa w XHTML
<html xmlns:foaf="h]p://xmlns.com/foaf/0.1/"> <head> <itle>Profil Jana Kochanowskiego</itle> <link rel="foaf:primaryTopic foaf:maker" href="#me"/> </head> <body> <div about="#me" typeof="foaf:Person"> <span property="foaf:name">Jan Kochanowski</span> ma strone
domowa <a rel="foaf:homepage" href="h]p://pl.wikipedia.org/wiki/Jan_Kochanowski">Strona Jana Kochanowskiego</a>. Zna:
<a rel="foaf:knows" href="h]p://pl.wikipedia.org/wiki/Zygmunt_II_August#me">Zygmunt II August</a>. <span
rel="foaf:img"> <img src=h]p://upload.wikimedia.org/wikipedia/commons/4/42/Jan_Kochanowski.png
alt="Jan"/> </span> </div> </body> </html>
TSiSS 48
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
Ekspresywność RDFa
• Specyfikacja RDFa definiuje składnię do osadzania RDF w dokumentach w dowolnym języku opartym o język XML.
• Dlatego RDFa zyskuje swoją ekspresywność z siły wyrażania RDF
49
TSiSS 49
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
GRDDL
GRDDL (“Gleaning Resource Descripions from Dialects of Languages”)
Specyfikacja GRDDL wprowadza znaczniki w oparciu o istniejące standardy deklaracji, że dokument XML zawiera dane kompatybilne z RDF i do łączenia z algorytmami (typowo reprezentowanymi w XSLT) do ekstrakcji tych danych z dokumentu.
50
TSiSS 50
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
51
Transformacje GRDDL
Transformacje GRDDL są stosowane w 3 krokach:
(1) Deklaracja dokumentu jako źródła.
(2) Połaczenie z jednym lub większą liczbą ekstraktorów.
(3) Agent GRDDL ekstrahuje RDF z dokumentu.
TSiSS 51
Inicjatywy „gigantów”
• h]p://schema.org (współpraca Google, Microso� i Yahoo!)
schemat znaczników danych strukturalnych wspieranych przez najważniejsze wyszukiwarki internetowe, mikrodane
• Google knowledge graph hzp://www.youtube.com/watch?feature=player_embedded&v=mmQl6VGvX-‐c
• Facebook Graph API, Open API hzps://www.youtube.com/watch?v=lh-‐YNvdJk8k
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
Jeopardy!
Jeopardy! to amerykański quiz show (odpowiednik polskiego Va Banque!)
1964 – do dzisiaj format odpowiedź-‐i-‐pytanie Przykład:
Kategoria: Nauka ogólnie Wskazówka: W zderzeniu z elektronami, fosfor wydziela energię elektromagnetyczną w tej formie
Odpowiedź: Czym jest światło?
dla ludzi, wyzwaniem jest znajomość odpowiedzi dla maszyn, wyzwaniem jest zrozumienie pytania
© 2011 IBM Corporation
What is Jeopardy?
Jeopardy! is an American quiz show
1964 Today
answer-and-question format contestants are presented with clues in the form of answers must phrase their responses in question form.
Example Category: General Science Clue: When hit by electrons, a phosphor gives off electromagnetic energy in this form Answer: What is light?
IBM Watson
Watson – system komputerowy stworzony przez IBM do odpowiadania na pytania zadawane w języku naturalnym
Watson wystąpił w Jeopardy! w trzydniowej rozgrywce (2011) …
h]p://www.youtube.com/watch?v=Puhs2LuO3Zc
IBM Watson
… przeciwnikami IBM Watsona byli:
Brad Ruzer – do tej pory wygrał najwięcej pieniędzy,
Ken Jennings – był najdłużej niepokonanym mistrzem
IBM Watson zajął pierwsze miejsce
Problem automatycznego i niezależnego od dziedziny odpowiadania na pytania (QA)
Mając dane „treściwe” pytania w języku naturalnym dot. szerokiej dziedziny wiedzy
Dostarcz (w czasie < 3s): precyzyjnych odpowiedzi: określ czego dotyczy pytanie & daj precyzyjną odpowiedź
dokładnie wyliczoną pewność odpowiedzi strawne wyjaśnienia co do poprawności odpowiedzi
IBM Watson – „trójząb”*
Nowy paradygmat oprogramowania coraz więcej zadań obliczeniowych wymaga rozwiązań niedokładnych, które łączą wiele metod w nieprzewidziany sposób
Wiedza nie jest celem (o tym za chwilę) Inteligencja maszynowa nie jest inteligencją ludzką
Różnica jest najbardziej znaczna w przypadku pomyłek
*Wg Chrisa Welty z IBM Research
IBM Watson – wiedza nie jest celem
Klasyczne podejście QA Od zarania SI zakładano, że odpowiadanie na pytania będzie działać na bazie procesu, który całkowicie przekłada język naturalny na jednoznaczną (logiczną) reprezentację; proces wnioskowania będzie działać na tej reprezentacji aby wyprodukować odpowiedzi.
JĘZYK NATURALNY WIEDZA
NLP precyzja
pokrycie
akwizycja
technologie semantyczne
skala
IBM Watson – wiedza nie jest celem
Klasyczne podejście QA Od zarania SI zakładano, że odpowiadanie na pytania będzie działać na bazie procesu, który całkowicie przekłada język naturalny na jednoznaczną (logiczną) reprezentację; proces wnioskowania będzie działać na tej reprezentacji aby wyprodukować odpowiedzi.
PORAŻKA! JĘZYK NATURALNY WIEDZA
NLP precyzja
pokrycie
akwizycja
technologie semantyczne
skala
IBM Watson – wiedza nie jest celem
DeepQA (Watson) generuje i ocenia wiele hipotez wykorzystując kolekcję metod z dziedziny przetwarzania języka naturalnego, uczenia maszynowego, reprezentacji wiedzy i wnioskowania;
gromadzą one i ważą dowody pochodzące ze źródeł danych niestrukturalnych i strukturalnych (np. otwartych powiązanych danych) aby ustalić odpowiedź o najwyższej pewności na podstawie odpowiedzi wielu (setek) metod
JĘZYK NATURALNY ZADANIE parsowanie
NER wyszukiwanie informacji
technologie semantyczne
uczenie maszynowe
crowd
IBM Watson – jak to działa
The science behind an answer h]p://www.youtube.com/watch?v=DywO4zksfXw
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
Google: Graf Wiedzy
semantyczne wyszukiwanie maj 2012: baza wiedzy wykorzystywana przez Google do
rozszerzenia wyników wyszukiwania wiele źródeł wiedzy: CIA World Factbook, Freebase, Wikipedia
sieć semantyczna zawiera ponad 570 mln obiektów i ponad 18 mld faktów
maj 2013: polska wersja językowa; zadawanie pytań raczej niż wyszukiwanie, informacje i powiązania między nimi raczej niż zestaw linków system poszukujący nie fraz kluczowych, lecz "bytów” stojących za wpisanymi w wyszukiwarkę słowami
Dwa główne sposoby działania Grafu Wiedzy
dopasowywanie odpowiedzi do kontekstu; w przypadku dwuznacznych haseł prezentacja różnych wersji odpowiedzi
podsumowania najbardziej istotnych informacji: -‐ biogramy, wyróżnione najważniejsze elementy, powiązania między kluczowymi hasłami, odnośniki do kolejnych informacji
Graf Wiedzy: przykład
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
65
Bibliografia
[1] C. Bizer, T. Heath, and T. Berners-‐lee “Linked Data – The Story So Far” Internasonal Journal on Semansc Web and Informason Systems (IJSWIS) (2009)
[2] T. Heath, and C. Bizer (2011) Linked Data: Evolving the Web into a Global Data Space (1st edison). Synthesis Lectures on the Semansc Web: Theory and Technology, 1:1, 1-‐136. Morgan & Claypool.
[3] RDFa Primer, hzp://www.w3.org/TR/xhtml-‐rdfa-‐primer/ (last accessed on 18.03.2009)
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
Wykorzystanie RDFa w XHTML – przykład 1/7
Krok 1 – tworzenie obiektu osoby -‐ wykorzystany atrybut @typeof i element słownictwa FOAF
(Person)
<html xmlns:foaf="http://xmlns.com/foaf/0.1/"> <head> <title>Profil Jana Kochanowskiego</title> </head> <body> <div typeof="foaf:Person"> ... </div> </body> </html>
TSiSS 66
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
Wykorzystanie RDFa w XHTML – przykład 2/7
Krok 2 – dodanie informacji personalnej -‐ wykorzystana własność foaf:name, ustawiona za pomocą
atrybutu RDFa @property
<div typeof="foaf:Person"> <span property="foaf:name">Jan Kochanowski</span> </div>
TSiSS 67
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
Wykorzystanie RDFa w XHTML – przykład 3/7
Krok 3 – dodanie strony domowej -‐ wykorzystana własność foaf:homepage i atrybut HTML @rel
(dodajemy URL)
<div typeof="foaf:Person"> <span property="foaf:name">Jan Kochanowski</span> <a rel="foaf:homepage" href="http://pl.wikipedia.org/wiki/
Jan_Kochanowski">Strona Jana Kochanowskiego</a> </div>
TSiSS 68
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
Wykorzystanie RDFa w XHTML – przykład 4/7
Krok 4 – dodanie przyjaciół/kolegów -‐ wykorzystana własność foaf:knows i atrybut HTML @rel
<div typeof="foaf:Person"> <span property="foaf:name">Jan Kochanowski</span> <a rel="foaf:homepage" href="h]p://pl.wikipedia.org/wiki/
Jan_Kochanowski">Strona Jana Kochanowskiego</a> <a rel="foaf:knows" href="h]p://pl.wikipedia.org/wiki/
Zygmunt_II_August#me">Zygmunt II August</a> </div>
TSiSS 69
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
Wykorzystanie RDFa w XHTML – przykład 5/7
Krok 5 – dodanie zdjęcia -‐ wykorzystana własność foaf:img
<div about="#me" typeof="foaf:Person"> <span property="foaf:name">Jan Kochanowski</span> <a rel="foaf:homepage" href="http://pl.wikipedia.org/wiki/
Jan_Kochanowski">Strona Jana Kochanowskiego</a> <a rel="foaf:knows" href="http://pl.wikipedia.org/wiki/
Zygmunt_II_August#me">Zygmunt II August</a> <span rel="foaf:img"> <img src=" http://upload.wikimedia.org/wikipedia/commons/4/42/
Jan_Kochanowski.png" alt="Jan"/> </span> </div>
TSiSS 70
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
Wykorzystanie RDFa w XHTML – przykład 6/7
Krok 6 – ostateczna wersja (łącznie z prezentacją)
<html xmlns:foaf="h]p://xmlns.com/foaf/0.1/"> <head> <itle>Profil Jana Kochanowskiego</itle> <link rel="foaf:primaryTopic foaf:maker" href="#me"/> </head> <body> <div about="#me" typeof="foaf:Person"> <span property="foaf:name">Jan Kochanowski</span> ma strone
domowa <a rel="foaf:homepage" href="h]p://pl.wikipedia.org/wiki/Jan_Kochanowski">Strona Jana Kochanowskiego</a>. Zna:
<a rel="foaf:knows" href="h]p://pl.wikipedia.org/wiki/Zygmunt_II_August#me">Zygmunt II August</a>. <span
rel="foaf:img"> <img src=h]p://upload.wikimedia.org/wikipedia/commons/4/42/Jan_Kochanowski.png
alt="Jan"/> </span> </div> </body> </html>
TSiSS 71
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
Wykorzystanie RDFa w XHTML – przykład 7/7
Trójki RDF wyrenderowane z dokumentu XHTML – np. za pomocą parsera i walidators RDfa Sindice Inspector hzp://inspector.sindice.com/
TSiSS 72
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
Przykładowa przeglądarka: Marbles 1/2
Wskazuje źródło wyświetlanych danych za pomocą kolorowych ikonek
Wsparcie dla różnych widoków: Pełen widok: wyświetlone wszystkie dostępne dane. Widok podsumowujący: krótkie tekstowe streszczenie na temat
zasobu. Widok „zdjęcie”: zdjęcie danego zasobu.
Pobiera dane z wielu źródeł poprzez (a) wysyłanie równoległych zapytań do wielu wyszukiwarek Powiązanych Danych (b) podążając za linkami owl:sameAs i rdfs:seeAlso.
73
TSiSS 73
(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej
74
Przykładowa przeglądarka: Marbles 2/2
http://marbles.sourceforge.net/
TSiSS 74