Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident...

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 1

Mikroformaty, RDFa, Inicjatywy Open*

Mikołaj Morzy Agnieszka Ławrynowicz

Instytut Informatyki

Poznań, rok akademicki 2013/2014

(c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej

2

Od „Sieci Dokumentów” do „Sieci Danych”

Sieć dokumentów •  Podstawowe elementy: 1.  Nazwy (URI) 2. Dokumenty (Zasoby) opisane w HTML, XML, itp. 3. Interakcja poprzez HTTP 4. (Hiper)linki pomiędzy dokumentami lub anchors w dokumentach

•  Wady: – Nietypowane linki – Wyszukiwarki nie potrafią obsłużyć skomplikowanych zapytań

“Dokumenty”

Hyperlinks

TSiSS 2


3


• Sieć Dokumentów • Sieć Danych

“Dokumenty” “Rzeczy”

Hyperlinks

Typowane Linki

TSiSS 3


4


• Cechy: – Linki pomiędzy dowolnymi rzeczami (np. osobami, lokalizacjami, zdarzeniami, budynkami) – Sruktura danych na stronach WWW jest jawna – Rzeczy opisane na stronach mają nazwę i URI – Linki pomiędzy rzeczami są jawne i typowane

Sieć danych

“Rzeczy”

Typowane linki

TSiSS 4


5

Wizja Sieci Danych 1/2

• Sieć dzisiaj – składa się z odizolowanych silosów danych, które są dostępne poprzez wyspecjalizowane wyszukiwarki – jedna strona (silos danych) przechowuje filmy, inne recenzje, jeszcze inne informacje o aktorach – wiele popularnych rzeczy jest reprezentowanych w wielu różnych zbiorach danych – „linkowanie” identyfikatorów łączy te zbiory danych

TSiSS 5


6

Wizja Sieci Danych 2/2

• Sieć Danych -‐ globalna baza danych – składa się z obiektów i ich opisów – obiekty są ze sobą powiązane linkami – z wysokim stopniem ustrukturalizowania obiektów – z jawną semantyką linków i treści – zaprojektowana dla ludzi i maszyn

TSiSS 6


–  wykorzystanie różnych API WWW (2.0) –  wiązanie danych (tworzenie linków między danymi) –  osadzanie ustrukturalizowanych danych (mikroformaty, RDFa, GRDDL)

7

Budowa Sieci Danych poprzez publikowanie danych strukturalnych w Sieci

TSiSS 7


–  wykorzystanie różnych API WWW (2.0) –  wiązanie danych (tworzenie linków między danymi) –  osadzanie ustrukturalizowanych danych (mikroformaty, RDFa, GRDDL)

8

Budowa Sieci Danych poprzez publikowanie danych strukturalnych w Sieci

TSiSS 8


„Powiązane Dane” (ang. Linked Data): definicja

“The Seman)c Web isn't just about pu5ng data on the web. It is about making links, so that a person or machine can explore the web of data. With linked data, when you have some of it, you can find other, related, data. “ (Tim Berners-‐Lee)

Powiązane Dane – wykorzystanie technologii Sieci Semantycznej do publikowania ustrukturalizowanych danych w Sieci i do ustanawiania powiązań między źródłami danych.

9

TSiSS 9


10

„Powiązane Dane” - zasady

Używaj URI jako nazwy dla rzeczy. Używaj HTTP URI tak aby ludzie mogli wyszukiwać

tych nazw. Kiedy użytkownik wyszukuje URI, dostarcz użytecznej

informacji w RDF. Zawrzyj wyrażenia RDF, które są powiązane linkami

do innych identyfikatorów URI tak aby mogły one pomóc w wykryciu powiązanych rzeczy.

TSiSS 10


11

Projekt „Linking Open Data” (Otwarte Powiązane Dane)

Projekt społecznościowy ze wsparciem W3C

Cel: Pomoc w utworzeniu Sieci Semantycznej poprzez

publikowanie zbiorów danych z wykorzystaniem RDF. Spełnia zasady „połączonych danych” (Linked Data principles) Główna idea: wziąć istniejące (otwarte) zbiory danych i uczynić je

dostępnymi w Sieci w formacie RDF Raz opublikowane w RDF, połączyć je linkami z innymi zbiorami danych

Przykładowy link RDF: h]p://dbpedia.org/resource/Berlin

[Identyfikator Berlina w DBPedia] owl:sameAs h]p://sws.geonames.org/2950159 [Identyfikator Berlina w Geonames].

TSiSS 11


12

Chmura LOD - Maj 2007

TSiSS 12


Ogólnie: Chmura Powiązanych Otwartych Danych (Linked Open Data) jest zbiorem powiązanych między sobą zbiorów danych, które zostały opublikowane i powiązane linkami zgodnie z zasadami „powiązanych danych”. Fakty: Punkty „ogniskujące”:

DBPedia: wersja Wikipiedii w formacie RDF; wiele przychodzących i wychodzących linków

Zbiory danych dotyczące muzyki Duże zbiory danych zawierają: FOAF, US Census data Rozmiar w przybliżeniu 1 bilion trójek, 250k linków

13

Chmura LOD - Maj 2007

TSiSS 13


14

Chmura LOD - Wrzesień 2008

TSiSS 14


15


Fakty: Więcej niż 35 powiązanych zbiorów danych Gracze komercyjni dołączyli do chmury (np. BBC) Firmy zaczęły publikować i przechowywać zbiory danych (OpenLink, Talis, Garlik) Rozmiar w przybliżeniu 2 bilion’y trójek, 3 miliony linków

TSiSS 15


16

Chmura LOD - Marzec 2009

TSiSS 16


17

Chmura LOD - Marzec 2009

Fakty: Wielka część z chmury ‘Drug’ i projektu BIO2RDF Znaczące nowe zbiory danych: Freebase, OpenCalais, ACM/IEEE Rozmiar > 10 bilionów trójek

TSiSS 17



Liczba zbiorów danych: 295 Liczba trójek: 31 634 213 770


19

Publikowanie Powiązanych danych w 7 krokach

Wybór słowników – ważne ponowne wykorzystanie istniejących słowników -‐ interoperacyjność

Partycjonowanie grafu RDF do “stron danych” Przyznanie URI każdej stronie danych Stworzenie wariantów HTML każdej strony danych -‐ do

renderowania stron w przeglądarkach

Przyznanie URI każdej encji Dodanie metadanych stron i linków np. publisher, license, topics Dodanie semantycznej mapy strony (semanic sitemap) – ważna

dla pająków w celu znalezienia zbioru danych lub końcowki SPARQL z dostępem do danych

TSiSS 19


20

Tworzenie powiązań (linków)

• Popularne predykaty: owl:sameAs, foaf:homepage, foaf:topic, foaf:based_near, foaf:maker/foaf:made, foaf:depiction, foaf:page, foaf:primaryTopic, rdfs:seeAlso

TSiSS 20


Przykładowe zbiory danych

DBpedia BBC Music Open government (UK), Data.gov (US) Freebase Zbiory danych biologicznych i medycznych

TSiSS 21


DBpedia

Inicjatywa społeczna: Ekstrakcja strukturalnej informacji z Wikipedii Udostępnienie informacji w Sieci na otwartej licencji Powiązanie linkami zbioru danych DBpedii z innymi zbiorami danych w Sieci

DBpedia to jeden z najbardziej centralnych ”hubów” w tworzącej się Sieci Danych

TSiSS 22


!"#$%&'()$)*$%$)+,-./.%#0)

1. Gather data from many places and give it freely to developers, scientists, and citizens

2. Connect the community in finding solutions to allow collaboration through social media, events, and platforms

3. Provide an infrastructure built on standards and interoperability

4. Encourage technology developers to create apps, maps, and visualizations of

5. Gather more data and connect more people

7

“A Strategy for American Innovation” published September 2009

Data.gov !"#$%&'()$)*$%$)+,-./.%#0)

1. Gather data from many places and give it freely to developers, scientists, and citizens

2. Connect the community in finding solutions to allow collaboration through social media, events, and platforms

3. Provide an infrastructure built on standards and interoperability

4. Encourage technology developers to create apps, maps, and visualizations of

5. Gather more data and connect more people

7

“A Strategy for American Innovation” published September 2009

“A Strategy for American Innova2on” wrzesień 2009

1. Zgromadź dane – z wielu miejsc, udostępnij je za darmo deweloperom, naukowcom, obywatelom 2. Połącz społeczność – w znajdowaniu rozwiązań pozwalających na współpracę poprzez media społecznościowe, wydarzenia, plalormy 3. Dostarcz infrastrukturę – w oparciu o standardy i interoperacyjność 4. Zachęć twórców technologii – do tworzenia aplikacji, map, wizualizacji danych, które wzmocnią wybory dokonywane przez ludzi 5. Zgromadź więcej danych – i połącz więcej ludzi


24

Powiązane Dane – Narzędzia i Aplikacje

Narzędzia do przenoszenia danych z innych formatów i z funkcjonujących wewnętrznie systemów do Sieci Danych

Narzędzia do wykorzystywania Powiązanych Danych: przeszukiwanie, przeglądanie, tworzenie mashups, inne

TSiSS 24


25

Przenoszenia danych z innych formatów do Sieci Danych

•  Dostarczenie danych przechowywanych w relacyjnych bazach danych do Sieci Danych: –  Pubby: serwer dostarczający dostępu do składnic trójek w Sieci –  Triplify: pozwala na specyfikację zapytań SQL i zrenderowanie

wyników jako RDF –  D2RQ, ontop: odwzorowanie relacyjnych baz danych do RDF;

dostarczają końcówkę SPARQL z dostępem do danych –  Virtuoso RDF Views: oferuje deklaratywny język do tworzenia

odwzorowań pomiędzy danymi SQL i RDF •  Ekstrakcja danych z Sieci WWW (np. DBPedia: dane z Wikipedii) •  Konwersja istniejących danych i ekstrakcja z nich RDF: z JPEG,

Email, BibTex, Java bytecode, Javadoc, Excel TSiSS 25


26

Repozytoria trójek RDF

–  OWLIM: natywne, wykorzystuje mechanizm wnioskowania wprzód (forward chaining) i materializację

–  AllegroGraph: natywne –  Jena TDB: natywne –  Open Link Virtuoso: hybrydowe, hostuje zbiór Dbpedia,

Virtuoso 7 -‐ Virtuoso Column Store –  BigData: hybrydowe

TSiSS 26


Publikowanie powiązanych - typowe wzorce

12-10-22 21:11Linked Data: Evolving the Web into a Global Data Space

Strona 44 z 112http://linkeddatabook.com/editions/1.0/

5.1 Linked Data Publishing Patterns

Publishing Linked Data requires adoption of the basic principles outlined in Chapter 2. Compliance with the standards and best practices thatunderpin these principles is what enables Linked Data to streamline data interoperability and reuse over the Web. However, compliance with theLinked Data principles does not entail abandonment of existing data management systems and business applications but simply the addition ofextra technical layer of glue to connect these into the Web of Data. While there is a very large number of technical systems that can be connectedinto the Web of Data, the mechanisms for doing so fall into a small number of Linked Data publishing patterns. In this section, we will give anoverview of these patterns.

Figure 5.1 shows the most common Linked Data publishing patterns in the form of workflows, from structured data or textual content through toLinked Data published on the Web. In the following section, we will briefly address some of the key features of the workflows in 5.1.

Figure 5.1: Linked Data Publishing Options and Workflows.

5.1.1 Patterns in a Nutshell

The primary consideration in selecting a workflow for publishing Linked Data concerns the nature of the input data.

From Queryable Structured Data to Linked Data

Data sets stored in relational databases can be published relatively easily as Linked Data through the use of relational database to RDFwrappers. These tools allow the data publisher to define mappings from relational database structures to RDF graphs that are served up on theWeb according to the Linked Data principles. Section 5.2.4 gives an overview of relational database to RDF wrappers.

Where structured data exists in queryable form behind a custom API (such as the Flickr or Amazon Web APIs, or a local application or operatingsystem API), the situation is a little more complex, as a custom wrapper will likely need to be developed according to the specifics of the API inquestion. However, examples such as the RDF Book Mashup [29] demonstrate that such wrappers can be implemented in relatively trivialamounts of code, much of which can likely be componentised for reuse across wrappers. The wrapper pattern is described in more detail inSection 5.2.6.

From Static Structured Data to Linked Data

12-10-22 21:11Linked Data: Evolving the Web into a Global Data Space

Strona 44 z 112http://linkeddatabook.com/editions/1.0/

5.1 Linked Data Publishing Patterns

Publishing Linked Data requires adoption of the basic principles outlined in Chapter 2. Compliance with the standards and best practices thatunderpin these principles is what enables Linked Data to streamline data interoperability and reuse over the Web. However, compliance with theLinked Data principles does not entail abandonment of existing data management systems and business applications but simply the addition ofextra technical layer of glue to connect these into the Web of Data. While there is a very large number of technical systems that can be connectedinto the Web of Data, the mechanisms for doing so fall into a small number of Linked Data publishing patterns. In this section, we will give anoverview of these patterns.

Figure 5.1 shows the most common Linked Data publishing patterns in the form of workflows, from structured data or textual content through toLinked Data published on the Web. In the following section, we will briefly address some of the key features of the workflows in 5.1.

Figure 5.1: Linked Data Publishing Options and Workflows.

5.1.1 Patterns in a Nutshell

The primary consideration in selecting a workflow for publishing Linked Data concerns the nature of the input data.

From Queryable Structured Data to Linked Data

Data sets stored in relational databases can be published relatively easily as Linked Data through the use of relational database to RDFwrappers. These tools allow the data publisher to define mappings from relational database structures to RDF graphs that are served up on theWeb according to the Linked Data principles. Section 5.2.4 gives an overview of relational database to RDF wrappers.

Where structured data exists in queryable form behind a custom API (such as the Flickr or Amazon Web APIs, or a local application or operatingsystem API), the situation is a little more complex, as a custom wrapper will likely need to be developed according to the specifics of the API inquestion. However, examples such as the RDF Book Mashup [29] demonstrate that such wrappers can be implemented in relatively trivialamounts of code, much of which can likely be componentised for reuse across wrappers. The wrapper pattern is described in more detail inSection 5.2.6.

From Static Structured Data to Linked Data

Źródło:


28

Konsumowanie Powiązanych Danych

•  Przeglądarki Powiązanych Danych: eksplorowanie rzeczy i zbiorów danych i nawigacja pomiędzy nimi –  Tabulator Browser, Marbles, OpenLink RDF Browser, Zitgist RDF Browser, Disco Hyperdata Browser, Fenfire

•  Mashup’y Powiązanych Danych: strony, które łączą („mieszają”) powiązane dane –  Revyu.com, DBtune Slashfacet, DBPedia Mobile, Semansc Web Pipes

•  Wyszukiwarki powiązanych danych –  Falcons, Sindice, MicroSearch, Watson, SWSE, Swoogle

TSiSS 28


Przykładowy Mashup: Revyu.com 1/2

Revyu.com -‐ strona do oceniania wszystkiego. Powiązane Dane wykorzystywane do wzbogacania ocen. Oceny zawierają linki do ocenianej “rzeczy” i linki „seeAlso”

do Wikipedii i innych zbiorów danych.

29

TSiSS 29


30

Przykładowy Mashup: Revyu.com 2/2

http://revyu.com

TSiSS 30


Przykładowa wyszukiwarka: Sindice 1/2

Wyszukiwarka Powiązanych Danych. Pozwala na wyszukiwanie treści Sieci Semantycznej na bazie:

-‐ słów kluczowych -‐ URI (identyfikujących obiekty, pojęcia, lub dokumenty).

31

TSiSS 31


32

Przykładowa wyszukiwarka: Sindice 2/2

TSiSS 32


Inne inicjatywy Open*

Open Source Open Content Open Science (Open Notebook Science) Open Access Open CourseWare Open Society Foundaions Open Health

TSiSS 33

Otwarte dane – przykład aplikacji


!"##$%&'(()$%21 million American households can now download their home or business energy use data from their local utility Then use apps to manage their energy use to save money and go green More at Energy.Data.gov

21

Green BuHon • 21 milionów amerykańskich gospodarstw domowych może ściągnąć dane dot. zużycia energii w ich domu • Następnie wykorzystać aplikacje, które zarządzają ich zużyciem energii i zaoszczędzić pieniądze (i być bardziej ekologicznym) • Więcej: Energy.Data.gov

Źródło: Driving Innovason with Open Data and Interoperability Jeanne Holm Evangelist, Data.gov Listopad 14, 2012

Otwarte dane to ekosystem


Wspólna wizja

1. Wizja: Co będzie łączyć społeczność, jak współpraca będzie wyglądać w przyszłości?

2. Liderzy: Kto będzie przewodzić społeczności? 3. Uczestnicy: Kto będzie uczestniczyć? 4. Wyniki: Jakie są oczekiwane wyniki, miary ich osiągnięcia? 5. Funckcjonalność: Jakie typy aktywności będą funkjonować

(fora, blogi, wiki, rankingi konkursy, aplikacje)? 6. Treść: Jaka treść będzie pokazywana? 7. Interakcyjność: Jak społeczność będzie komunikować się z

liderami i z zewnętrznymi osobami, jednostkami?



37

Co to są mikroformaty?

-‐  sposób nadania znaczenia elementom HTML i jawnego pokazania struktur danych na stronach HTML

-‐  zaprojektowane dla ludzi w pierwszej kolejności, w drugiej dla maszyn

-‐  zbiór prostych, otwartych formatów danych, zbudowanych w oparciu o istniejące i szeroko zaadaptowane standardy (np. (X)HTML)

-‐  rozwiazują pojedynczy, specyficzny problem (np. reprezentację informacji geograficznej, kalendarzowej)

TSiSS 37


38

Ilustracja microformatów

TSiSS 38


39

Rodzaje mikroformatów

• Elementarne mikroformaty (jeden znacznik) – Rel-home (strona domowa) <link href="http://technorati.com" rel="home" />

– Rel-License (licencja) <a href="http://creativecommons.org/licenses/by/2.0/" rel="license">cc by2.0</a>

– Inne: rel-tag, rel-encluse, xfn-tags • Złożone mikroformaty

– Często oparte na istniejącym standardzie – np. hCard, hCalendar, hEvent, hReview

TSiSS 39


Składnia

Mikroformaty wykorzystują istniejące atrybuty HTML do osadzenia strukturalnych typów danych w dokumencie HTML i do wskazania obecności metadanych

•  Atrybut rel/rev – wykorzystanie w elementarnych mikroformatach. Przykład: <a href=“http://www.cs.put.poznan.pl” rel=“tag”>instytut</a>

•  Atrybut class – wykorzystanie w złożonych mikroformatach. Przykład: <span class=“geo”><span class=“latitude”>28.42</span><span class=“longitude”>37.10</span><span>

40

TSiSS 40


Ekspresywność mikroformatów

Mikroformaty rozszerzją siłę wyrażania (ekspresywność) języka HTML

Ekspresywność jest ograniczona tym, że mikroformaty są zaprojektowane do wykorzystywania tylko pre-‐definiowanych słowników.

41

TSiSS 41


42

Przykład: złożony mikroformat hCard 1/2

hCard – prosty format do reprezentacji danych ludzi, firm, organizacji i miejsc wykorzystujący 1:1 reprezentację własności i wartości standardu vCard (RFC2426) BEGIN: VCARD VERSION: 3 FN: Agnieszka Lawrynowicz ORG: Politechnika Poznanska … URL: h]p://www.put.poznan.pl TEL: +48 61 8790 790 END: VCARD

TSiSS 42


43

Przykład: złożony mikroformat hCard 2/2

<div class="vcard“> <span class="fn">Agnieszka Lawrynowicz</span> <a class="org url” href="http://www.put.poznan.pl">Politechnika Poznanska</a> <a class="email” href="mailto:[email protected]">mail me</a> Phone: <div class="tel">+48 61 8790790</div>

</div>

Example on this slide by Alexander Graf TSiSS 43


44

Wady mikroformatów

•  Istnieje jedynie ustalony zbiór mikroformatów •  Nie ma możliwości łączenia elementów danych •  Ustalony słownik, nie-‐rozszerzalny, trudny do dostosowania do konkretnych potrzeb

•  Osobne reguły parsowania potrzebne dla każdego mikroformatu

TSiSS 44


RDFa

RDFa = RDF w atrybutach •  rekomendacja W3C •  zbiór nowych atrybutów (X)HTML do wyrażenia metadanych wewnątrz (X)HTML

•  format serializacji RDF, gdzie trójki RDF są "osadzone" w (X)HTML

•  niezależne od dziedziny (w przeciwieństwie do dedykowanych dla danej dziedziny mikroformatów)

TSiSS 45


Składnia: wykorzystanie RDFa w XHTML

•  Odpowienie atrybuty XHTML: @rel, @rev, @content, @href, @src

•  Nowe atrybuty, specyficzne dla RDFa: @about, @property, @resource, @datatype, @typeof

46

TSiSS 46


Opis podstawowych atrybutów RDFa

• @about, @src – URI, które specyfikuje zasób opisywany przez metadane

• @rel, @rev – określają relację (relację odwrotną) z innym zasobem

• @href, @resource – określają stowarzyszony zasób • @property – określa własność dla zawartości (‘content’)

elementu • @content – opcjonalny atrybut, który nadpisuje zawartość

elementu, używając atrybutu ‘property’ • @datatype – opcjonalny atrybut, który określa typ danych

tekstu do wykorzystania z atrybutem ‘property’ • @typeof – opcjonalny atrybut, który określa typ(y) RDF

podmiotu (zasobu opisywanego przez metadane)

TSiSS 47


Wykorzystanie RDFa w XHTML

<html xmlns:foaf="h]p://xmlns.com/foaf/0.1/"> <head> <itle>Profil Jana Kochanowskiego</itle> <link rel="foaf:primaryTopic foaf:maker" href="#me"/> </head> <body> <div about="#me" typeof="foaf:Person"> <span property="foaf:name">Jan Kochanowski</span> ma strone

domowa <a rel="foaf:homepage" href="h]p://pl.wikipedia.org/wiki/Jan_Kochanowski">Strona Jana Kochanowskiego</a>. Zna:

<a rel="foaf:knows" href="h]p://pl.wikipedia.org/wiki/Zygmunt_II_August#me">Zygmunt II August</a>. <span

rel="foaf:img"> <img src=h]p://upload.wikimedia.org/wikipedia/commons/4/42/Jan_Kochanowski.png

alt="Jan"/> </span> </div> </body> </html>

TSiSS 48


Ekspresywność RDFa

•  Specyfikacja RDFa definiuje składnię do osadzania RDF w dokumentach w dowolnym języku opartym o język XML.

•  Dlatego RDFa zyskuje swoją ekspresywność z siły wyrażania RDF

49

TSiSS 49


GRDDL

GRDDL (“Gleaning Resource Descripions from Dialects of Languages”)

Specyfikacja GRDDL wprowadza znaczniki w oparciu o istniejące standardy deklaracji, że dokument XML zawiera dane kompatybilne z RDF i do łączenia z algorytmami (typowo reprezentowanymi w XSLT) do ekstrakcji tych danych z dokumentu.

50

TSiSS 50


51

Transformacje GRDDL

Transformacje GRDDL są stosowane w 3 krokach:

(1)  Deklaracja dokumentu jako źródła.

(2)  Połaczenie z jednym lub większą liczbą ekstraktorów.

(3) Agent GRDDL ekstrahuje RDF z dokumentu.

TSiSS 51

Inicjatywy „gigantów”

•  h]p://schema.org (współpraca Google, Microso� i Yahoo!)

schemat znaczników danych strukturalnych wspieranych przez najważniejsze wyszukiwarki internetowe, mikrodane

•  Google knowledge graph hzp://www.youtube.com/watch?feature=player_embedded&v=mmQl6VGvX-‐c

•  Facebook Graph API, Open API hzps://www.youtube.com/watch?v=lh-‐YNvdJk8k


Jeopardy!

Jeopardy! to amerykański quiz show (odpowiednik polskiego Va Banque!)

1964 – do dzisiaj format odpowiedź-‐i-‐pytanie Przykład:

Kategoria: Nauka ogólnie Wskazówka: W zderzeniu z elektronami, fosfor wydziela energię elektromagnetyczną w tej formie

Odpowiedź: Czym jest światło?

dla ludzi, wyzwaniem jest znajomość odpowiedzi dla maszyn, wyzwaniem jest zrozumienie pytania

© 2011 IBM Corporation

What is Jeopardy?

Jeopardy! is an American quiz show

1964 Today

answer-and-question format contestants are presented with clues in the form of answers must phrase their responses in question form.

Example Category: General Science Clue: When hit by electrons, a phosphor gives off electromagnetic energy in this form Answer: What is light?

IBM Watson

Watson – system komputerowy stworzony przez IBM do odpowiadania na pytania zadawane w języku naturalnym

Watson wystąpił w Jeopardy! w trzydniowej rozgrywce (2011) …

h]p://www.youtube.com/watch?v=Puhs2LuO3Zc

IBM Watson

… przeciwnikami IBM Watsona byli:

Brad Ruzer – do tej pory wygrał najwięcej pieniędzy,

Ken Jennings – był najdłużej niepokonanym mistrzem

IBM Watson zajął pierwsze miejsce

Problem automatycznego i niezależnego od dziedziny odpowiadania na pytania (QA)

Mając dane „treściwe” pytania w języku naturalnym dot. szerokiej dziedziny wiedzy

Dostarcz (w czasie < 3s): precyzyjnych odpowiedzi: określ czego dotyczy pytanie & daj precyzyjną odpowiedź

dokładnie wyliczoną pewność odpowiedzi strawne wyjaśnienia co do poprawności odpowiedzi

IBM Watson – „trójząb”*

Nowy paradygmat oprogramowania coraz więcej zadań obliczeniowych wymaga rozwiązań niedokładnych, które łączą wiele metod w nieprzewidziany sposób

Wiedza nie jest celem (o tym za chwilę) Inteligencja maszynowa nie jest inteligencją ludzką

Różnica jest najbardziej znaczna w przypadku pomyłek

*Wg Chrisa Welty z IBM Research

IBM Watson – wiedza nie jest celem

Klasyczne podejście QA Od zarania SI zakładano, że odpowiadanie na pytania będzie działać na bazie procesu, który całkowicie przekłada język naturalny na jednoznaczną (logiczną) reprezentację; proces wnioskowania będzie działać na tej reprezentacji aby wyprodukować odpowiedzi.

JĘZYK NATURALNY WIEDZA

NLP precyzja

pokrycie

akwizycja

technologie semantyczne

skala


Klasyczne podejście QA Od zarania SI zakładano, że odpowiadanie na pytania będzie działać na bazie procesu, który całkowicie przekłada język naturalny na jednoznaczną (logiczną) reprezentację; proces wnioskowania będzie działać na tej reprezentacji aby wyprodukować odpowiedzi.

PORAŻKA! JĘZYK NATURALNY WIEDZA

NLP precyzja

pokrycie

akwizycja


skala


DeepQA (Watson) generuje i ocenia wiele hipotez wykorzystując kolekcję metod z dziedziny przetwarzania języka naturalnego, uczenia maszynowego, reprezentacji wiedzy i wnioskowania;

gromadzą one i ważą dowody pochodzące ze źródeł danych niestrukturalnych i strukturalnych (np. otwartych powiązanych danych) aby ustalić odpowiedź o najwyższej pewności na podstawie odpowiedzi wielu (setek) metod

JĘZYK NATURALNY ZADANIE parsowanie

NER wyszukiwanie informacji


uczenie maszynowe

crowd

IBM Watson – jak to działa

The science behind an answer h]p://www.youtube.com/watch?v=DywO4zksfXw


Google: Graf Wiedzy

semantyczne wyszukiwanie maj 2012: baza wiedzy wykorzystywana przez Google do

rozszerzenia wyników wyszukiwania wiele źródeł wiedzy: CIA World Factbook, Freebase, Wikipedia

sieć semantyczna zawiera ponad 570 mln obiektów i ponad 18 mld faktów

maj 2013: polska wersja językowa; zadawanie pytań raczej niż wyszukiwanie, informacje i powiązania między nimi raczej niż zestaw linków system poszukujący nie fraz kluczowych, lecz "bytów” stojących za wpisanymi w wyszukiwarkę słowami

Dwa główne sposoby działania Grafu Wiedzy

dopasowywanie odpowiedzi do kontekstu; w przypadku dwuznacznych haseł prezentacja różnych wersji odpowiedzi

podsumowania najbardziej istotnych informacji: -‐ biogramy, wyróżnione najważniejsze elementy, powiązania między kluczowymi hasłami, odnośniki do kolejnych informacji

Graf Wiedzy: przykład


65

Bibliografia

[1] C. Bizer, T. Heath, and T. Berners-‐lee “Linked Data – The Story So Far” Internasonal Journal on Semansc Web and Informason Systems (IJSWIS) (2009)

[2] T. Heath, and C. Bizer (2011) Linked Data: Evolving the Web into a Global Data Space (1st edison). Synthesis Lectures on the Semansc Web: Theory and Technology, 1:1, 1-‐136. Morgan & Claypool.

[3] RDFa Primer, hzp://www.w3.org/TR/xhtml-‐rdfa-‐primer/ (last accessed on 18.03.2009)


Wykorzystanie RDFa w XHTML – przykład 1/7

Krok 1 – tworzenie obiektu osoby -‐  wykorzystany atrybut @typeof i element słownictwa FOAF

(Person)

<html xmlns:foaf="http://xmlns.com/foaf/0.1/"> <head> <title>Profil Jana Kochanowskiego</title> </head> <body> <div typeof="foaf:Person"> ... </div> </body> </html>

TSiSS 66



Krok 2 – dodanie informacji personalnej -‐  wykorzystana własność foaf:name, ustawiona za pomocą

atrybutu RDFa @property

<div typeof="foaf:Person"> <span property="foaf:name">Jan Kochanowski</span> </div>

TSiSS 67



Krok 3 – dodanie strony domowej -‐  wykorzystana własność foaf:homepage i atrybut HTML @rel

(dodajemy URL)

<div typeof="foaf:Person"> <span property="foaf:name">Jan Kochanowski</span> <a rel="foaf:homepage" href="http://pl.wikipedia.org/wiki/

Jan_Kochanowski">Strona Jana Kochanowskiego</a> </div>

TSiSS 68



Krok 4 – dodanie przyjaciół/kolegów -‐  wykorzystana własność foaf:knows i atrybut HTML @rel

<div typeof="foaf:Person"> <span property="foaf:name">Jan Kochanowski</span> <a rel="foaf:homepage" href="h]p://pl.wikipedia.org/wiki/

Jan_Kochanowski">Strona Jana Kochanowskiego</a> <a rel="foaf:knows" href="h]p://pl.wikipedia.org/wiki/

Zygmunt_II_August#me">Zygmunt II August</a> </div>

TSiSS 69



Krok 5 – dodanie zdjęcia -‐  wykorzystana własność foaf:img

<div about="#me" typeof="foaf:Person"> <span property="foaf:name">Jan Kochanowski</span> <a rel="foaf:homepage" href="http://pl.wikipedia.org/wiki/

Jan_Kochanowski">Strona Jana Kochanowskiego</a> <a rel="foaf:knows" href="http://pl.wikipedia.org/wiki/

Zygmunt_II_August#me">Zygmunt II August</a> <span rel="foaf:img"> <img src=" http://upload.wikimedia.org/wikipedia/commons/4/42/

Jan_Kochanowski.png" alt="Jan"/> </span> </div>

TSiSS 70



Krok 6 – ostateczna wersja (łącznie z prezentacją)

<html xmlns:foaf="h]p://xmlns.com/foaf/0.1/"> <head> <itle>Profil Jana Kochanowskiego</itle> <link rel="foaf:primaryTopic foaf:maker" href="#me"/> </head> <body> <div about="#me" typeof="foaf:Person"> <span property="foaf:name">Jan Kochanowski</span> ma strone

domowa <a rel="foaf:homepage" href="h]p://pl.wikipedia.org/wiki/Jan_Kochanowski">Strona Jana Kochanowskiego</a>. Zna:

<a rel="foaf:knows" href="h]p://pl.wikipedia.org/wiki/Zygmunt_II_August#me">Zygmunt II August</a>. <span

rel="foaf:img"> <img src=h]p://upload.wikimedia.org/wikipedia/commons/4/42/Jan_Kochanowski.png

alt="Jan"/> </span> </div> </body> </html>

TSiSS 71



Trójki RDF wyrenderowane z dokumentu XHTML –  np. za pomocą parsera i walidators RDfa Sindice Inspector hzp://inspector.sindice.com/

TSiSS 72


Przykładowa przeglądarka: Marbles 1/2

Wskazuje źródło wyświetlanych danych za pomocą kolorowych ikonek

Wsparcie dla różnych widoków: Pełen widok: wyświetlone wszystkie dostępne dane. Widok podsumowujący: krótkie tekstowe streszczenie na temat

zasobu. Widok „zdjęcie”: zdjęcie danego zasobu.

Pobiera dane z wielu źródeł poprzez (a) wysyłanie równoległych zapytań do wielu wyszukiwarek Powiązanych Danych (b) podążając za linkami owl:sameAs i rdfs:seeAlso.

73

TSiSS 73


74

Przykładowa przeglądarka: Marbles 2/2

http://marbles.sourceforge.net/

TSiSS 74

Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident...

Documents

Transcript of Mikroformaty, RDFa, Inicjatywy Open* · –„linkowanie”ident...