Datavisualisatie: design > relationeel visualiseren: semantisch web minor I research Crosslab
semantiek, metadata, interoperabiliteit, semantisch web...
Transcript of semantiek, metadata, interoperabiliteit, semantisch web...
Eric Sieverts
semantiek, metadata, interoperabiliteit, semantisch web & linked data
VOGIN – HAN / juni 2013
semantisch zoeken
globaal 3 soorten toepassingen1. inschatten van de intentie van de zoeker
bijv.: zoekt mobiel in buurt van de Rozengracht naar “pizza”>> adres van pizzeria in de buurt
2. bepalen van betekenis van woorden/tekst in documentenvooraf bij indexeren of achteraf in zoekresultaat;van eenvoudige herkenning van entiteiten of meegegeven metadata, tot complexe kennis van de wereld, zodat automatisch conceptenworden toegekend of relevante aanvullende informatie verschijnt
3. automatisch aanpassen van zoekactiesbijv.: zoekactie uitbreiden met gerelateerde zoekwoorden,
zoekwoorden vervangen door betere zoekwoorden,(ook) in andere systemen zoeken
eric sieverts, juni 20132
1. intentie van de zoeker
intentie of context van vraag kan worden bepaald:• uit lokatie van de zoeker
– globaal: op basis van ip-adres van gebruikerprecies: op basis van bekende gps- of gsm-gegevens (mobiel)
• door analyse van gestelde vraag– naam van persoon, bedrijf, product, gebeurtenis, … >> feiten– naam van gewoon persoon >> facebook / linked-in gegevens– iets geavanceerder: vaste combinaties van woorden– geavanceerd: natuurlijke taal techniek / statistiek op eerdere vragen
• op basis van eerder zoekgedrag van de zoeker– eerdere zoekvragen / eerder bekeken resultaten daaruit
ook bij dubbelzinnige zoekwoorden?
eric sieverts, juni 20133
4
Wie op “Bach” zoekt, vindt vermoedelijk lievergegevens over hem dan websites over hem.Google's Knowledge Graph kent 500 miljoenobjecten met 3,5 miljard kenmerken(maar nog niet in het Nederlands)
5
6
2. bepalen van betekenis
betekenis herkennen van woorden en gegevens in teindexeren tekst en/of in al gevonden resultaten• herkennen van "entiteiten" in tekst
(herkennen van woorden/samenstellingen behorend tot categorieën als plaats, persoon, bedrijf, product, ...)
• betekenis die herkenbaar aanwezig is in "embedded metadata"(bijvoorbeeld binnen XML of (X)HTML coderingen)
• tekstanalyse zoals bij automatische classificatie
• tekstanalyse en koppeling met geselecteerde andere bronnen(bijvoorbeeld via "linked data")
• ...
eric sieverts, juni 20137
example:article from NYTimesanalysed by….. >>
herkennen van "entiteiten"
8
example:article from NYTimesanalysed by"Open Calais"http://viewer.opencalais.com/zie vb Powerhouse museum
example:article from NYTimesanalysed by "Zemanta"http://www.zemanta.com/demo/
10
eric sieverts, juni 2013
gebruik semantische codering
gestandaardiseerde markering van kenmerken in webpagina's
voorbeelden van “embedded metadata”:– recipe search bij Google en Yahoo– toepassing e-commerce ontology
daarbij gebruikte standaarden:– microformats / rich snippet markup (Google, Yahoo)
onder andere voor: recepten, recencies, personen, producten, organisaties, gebeurtenissen, muziek
– RDFa– microdata
11
12
in huidige Google-
interface minder
handig en makkelijk
te gebruiken; ook
alleen in google.com
bij Yahoo nu beter
browser extensies omembedded metadatauit pagina's te pikken
standaardisatie van kenmerken van producten
met "GR-ontologie" volgens "RDFa“ in “XHTML”
nieuwe standaard van de zoekmachinegiganten: microdata hiërarchie van kenmerken voor embeddable metadata in webpagina’s
16
de concepten uit degood relations ontology zijn recent ook in schema.org geïncorporeerd
microformats en RDFa
• toepassing van deze technieken is vaak "SEO-driven"
zie blogpost op SearchEngineLand
http://searchengineland.com/how-to-use-rich-snippets-semantic-markup-to-send-rich-signals-139886
eric sieverts, juni 201318
wat heeft zoeker hieraan?
• zoeker kan gerichter zoeken en filteren(zoals in Google's receptenzoeker)
• zoeker krijgt duidelijker informatie over gevonden items(zoals Google's rich snippets)
eric sieverts, juni 2013
3. aanpassen van zoekactie
aanpassen / verbeteren van zoekactiesvooraf (automatisch) bewerken van zoekvraag
• variaties op zoekwoord meenemen in query– spelling verbeterd (statistiek?) [veilgheid >> veiligheid]– zoeken op woordstam (enkel/meervoud, vervoegingen, ….)
[vaccination >> vaccinations, vaccine, vaccinate, vaccinated, …]– spellingsvariaties [immunisation <> immunization]– samenstellingen opbreken (en omgekeerd)
[catfood <> cat food ; maatregel + veiligheid <> veiligheidsmaatregelen]• synoniemen, acroniemen aan query toevoegen
(uit woordenlijst, semantisch netwerk, ontologie)[vaccination <> immunization ; jfk <> john f kennedy]
• verwante en specifiekere begrippen aan query toevoegen(uit semantisch netwerk, thesaurus, ontologie)
heeft nog niet zo veel met
"semantiek" te maken;
Google doet dat wel al allemaal
21
eric sieverts, juni 2013
3. aanpassen van zoekactie
aanpassen / verbeteren van zoekactiesachteraf bewerken van zoekresultaat
• zoekresultaten clusteren op basis van inhoud– meestal op basis van woordstatistiek (voorbeeld Clusty, Polymeta)– soms op basis van automatische classificatie
• in gevonden document alinea(s) tonen die antwoord op vraag geeft– KWIC display van zoekmachines is eenvoudige vorm daarvan
– zie bijv. Sensebot
• uit meer zoekresultaten samenvatting genereren van belangrijkstebevindingen / antwoorden
– zie bijv. Factbites
22
in semantisch web wordt van "alles" betekenis vastgelegd
eric sieverts, juni 2013
semantisch web
om betekenis ook tebegrijpen heeft men"ontologieën" nodig
23
ontologieën
eric sieverts, juni 2013
definitie:een strikt en uitputtend schema voor een bepaald onderwerpsdomein, meestal in een hiërarchische structuur, die alle relevante grootheden en hun relaties bevat, alsmede de regels waaraan die grootheden en relaties binnen dat domein voldoen
filosofie kunstmatigeintelligentie
computerleesbare kennisrepresentatie
24
ontologieën
• "kennis-representatie“ waarin kennis over (klein stukje van) de wereld in geformaliseerde vorm is weergegeven
• meestal niet rechtstreeks gebruikt voor ontsluiting• maakt vollediger en meer complexe representaties van de
werkelijkheid mogelijk dan met een thesaurus• veel mogelijke soorten relaties tussen concepten• vastgelegde rollen en eigenschappen van die concepten• biedt mogelijkheid tot redenaties / gevolgtrekkingen• vaak voor een beperkt onderwerpsdomein (“wijn ontologie”)• soms breder in een zogenaamde “core ontology”
bijvoorbeeld: CIDOC-CRM (conceptual reference model) voorconcepten, relaties en eigenschappen op gebied van cultureel erfgoed
eric sieverts, juni 201325
relaties tussen enkele conceptenin een eenvoudige "wijn-ontologie"
Château Lafitte Rothschild {is een} wijnhuisChâteau Lafitte Rothschild {produceert} Château Lafitte Rothschild PauillacBordeaux {heeft als beste wijnhuizen} Château Lafitte RothschildChâteau Lafitte Rothschild Pauillac {wordt gemaakt door} Château Lafitte Rothschild Château Lafitte Rothschild Pauillac {is een} PauillacBordeaux {is een} wijnstreek....
veel meer soorten relaties mogelijk dan alleen BT, NT, RT, Use, Used for
26
hiërarchische structuur vanconcepten van één soort ineen eenvoudige "wijn-ontologie"
klassen-hiërarchie vanDBpedia-ontologie
27
voorbeeld van de relatiestussen concepten m.b.t.het standbeeld van Balzacdoor Rodin [CIDOC-CRM]28
ontologieën
“ontologieën” in kader van het semantisch web• in meer algemene zin :
algemene naam voor allerlei soorten onderwerpsontsluiting(thesauri, classificaties, taxonomieën, namenlijsten, .....)
en ook voor concordanties tussen dergelijke systemen
• essentiële vereisten : ontologie moet beschikbaar zijn in een vorm waarin hij door
een computerprogramma kan worden gelezen, verwerkten geïnterpreteerd
→ vereist gestandaardiseerde notaties en formele talenom ze te beschrijven
eric sieverts, juni 201329
ontologie-notatie
RDF resource description frameworkstandaard om relaties tussen een object en zijnmetadata te beschrijven
OWL web ontology languagestandaard voor computer-leesbaar beschrijven van ontologieën
RDFS RDF-schemastandaard voor het beschrijven van metadata-modellenin RDF
SKOS simple knowledge organization systemstandaard voor het beschrijven van thesauri, classificaties en hun onderlinge relaties in RDF
eric sieverts, juni 201330
resource description framework
eric sieverts, juni 2013
RDF = resource description framework• RDF is een standaard voor het beschrijven van de relatie
tussen een resource (of een object) en zijn metadata • RDF verwijst naar daarbij gebruikte metadatastandaard(en)• RDF gebruikt “namespaces” om naar computer-leesbare
beschrijving van die standaarden te verwijzen (link via URL) • RDF is bedoeld om bestaande semantische systemen te
(her)gebruiken en te combineren• RDF-beschrijvingen worden meestal in XML-notatie
weergegeven• RDFa = “RDF in attributes” , standaard om metadata in de
inhoud van (X)HTML webpagina’s te verwerken
31
resource description framework
eric sieverts, juni 2013
RDF = resource description framework• resources moeten een URI hebben (een uniform resource
identifier, zoals een URL) om ernaar te kunnen verwijzen• eigenschappen (metadata) worden vastgelegd in
zogenaamde tripels: subject <predicaat> object (wat je ook zou kunnen weergeven als : ding <eigenschap> waarde )
• liefst ook via een URI verwijzen naar definities van die eigenschappen
• RDF-tripels worden ook gebruikt in "linked data"
32
rdf (en linked data)
eric sieverts, juni 2013
• computerleesbare beschrijvingen van metadata in zogenaamde RDF triple stores
• waarbij – te beschrijven ding een webadres (URI) heeft– eigenschap van dat ding liefst ook een URI heeft– "waarde" van die eigenschap liefst ook een URI heeft
• voorbeeld:– boek (heeft een webadres: URI)– heeft auteur (betekenis van eigenschap ergens beschreven: URI)– persoon (gegevens van persoon ergens op web te vinden: URI)
33
rdf tripels
eric sieverts, juni 2013
subject <predicaat> objectdoc1 <heeft auteur> auth1auth1 <heeft naam> john smithauth1 <heeft affiliatie> home inc.auth1 <heeft email> [email protected]
grafische representatie vansimpel netwerk van 4 RDF-tripels
34
rdf - weergave in xml
eric sieverts, juni 2013
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"xmlns="http://www.john.smith.net/rdfexample/">
<rdf:Description rdf:about="http://www.xxx.com/yyy/doc1.xml"><author><rdf:Description rdf:about="http://www.xxx.com/autId/7801"><name>John Smith</name><affiliation>Home Inc.</affiliation><email>[email protected]</email>
</rdf:Description></author>
</rdf:Description></rdf:RDF>
namespaces
URI's van beschreven resources
35
rdf tripels
eric sieverts, juni 201336
= "resource" met URI
= "literal" (gegeven)
getypeerde(en op het web gedefinieerde) relaties tussenresources engegevens
voorbeeld van via RDF combineren van diverse semantische standaarden (ontologieën)
enkele van de gebruikte standaarden voor beschrijvingselementen:• v: vcard• mo: music ontology• foaf: friend of a friend• owl: web ontology language• geo
37
38
39
interoperabiliteit en SKOS
om interoperabiliteit tussen systemen “automatisch” tekunnen laten verlopen is een standaard nodig omcomputerleesbaar te beschrijven:
– hoe een bepaald ontsluitingssysteem in elkaar zit – hoe relaties tussen begrippen moeten worden geïnterpreteerd
(bijv.: of iets een BT is, een scope note of .... )– hoe begrippen zich verhouden tot die in een ander systeem,– ...
om dat makkelijk en gestandaardiseerd te kunnen doen is SKOS ontwikkeld
SKOS: Simple Knowledge Organisation System
eric sieverts, juni 201340
grafische weergave vanSKOS-representatie vanthesaurustermen & relaties:netwerk van RDF-tripels
Term: Economic cooperation Used For: Economic co-operation Broader terms: Economic policy Narrower terms: Economic integration, European economic cooperation, European industrial cooperation, Industrial cooperation Related terms: Interdependence Scope Note: Includes cooperative measures in banking, trade, industry etc., between and among countries.
41
SKOS representatie in RDF<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:skos="http://www.w3.org/2004/02/skos/core#"><skos:Concept>
<skos:prefLabel>Economic cooperation</skos:prefLabel><skos:altLabel>Economic co-operation</skos:altLabel><skos:scopeNote>Includes cooperative measures in banking, trade,industry etc., between and among countries. </skos:scopeNote><skos:broader>
<skos:Concept><skos:prefLabel>Economic policy</skos:prefLabel>
</skos:Concept></skos:broader><skos:related>
<skos:Concept><skos:prefLabel>Interdependence</skos:prefLabel>
</skos:Concept></skos:related><skos:narrower>
<skos:Concept><skos:prefLabel>Economic integration</skos:prefLabel>
</skos:Concept></skos:narrower><!-- ...more narrower terms omitted ... -->
</skos:Concept></rdf:RDF>
computerleesbareweergave - in xml
eric sieverts, juni 201342
SKOS relaties
in dit voorbeeld zagen we standaard thesaurusrelaties:<skos:prefLabel> voorkeursterm voor concept<skos:altLabel> synoniemen<skos:scopeNote> omschrijving van concept<skos:broader> algemener concept<skos:narrower> specifieker concept
ook beschrijving in hoeverre termen uit verschillendethesauri inhoudelijk overeenkomen (concordantie) :<skos:mappingRelation> overeenkomst met term uit ander systeem<skos:exactMatch> term heeft zelfde betekenis<skos:closeMatch> term heeft bijna zelfde betekenis<skos:broadMatch> term is ruimer<skos:narrowMatch> term is specifieker
zo kunnen zoekacties worden uitgebreid,ook met termen uit andere systemen
eric sieverts, juni 201343
semantisch web
• ultieme toepassing van interoperabiliteit• gebruikt combinatie van
– RDF(S) – ontologieën (ook thesauri, taxonomieën, semantisch netwerken, …) – formele talen (zoals SKOS en OWL)– annotatie van resources/objecten (=onderwerpsontsluiting)
• als vanuit allerlei systemen maar naar dergelijkecomputerleesbare "databases" met semantische kennisgelinkt wordt, kan programmatuur allerlei termen met elkaar in verband brengen ten behoeve van zoeken (en andere functionaliteit)
• dat wordt bijvoorbeeld in Europeana toegepast• en met "linked data" moet dat nog makkelijker worden
eric sieverts, juni 201344
RDF en "linked data"
er is momenteel veel publiciteit rond "linked (open) data"• dat zijn in principe RDF-tripels
zodat die data computer-leesbaar zijn
• ze staan op internet zodat het "open" is
• ze zijn bedoeld om te worden hergebruiktzodat ze een belangrijk ingrediënt voor het semantisch web zijn
• ze zijn gestandaardiseerdzodat ze makkelijk hergebruikt kunnen worden
• iedereen kan (en moet!) data bijdragenwaardoor het toch nog wel een beetje een rommeltje is
eric sieverts, juni 201345
Tim Berners Lee:1989: "invented" the World Wide Web
2004: proposed the "semantic web"
2006: designed "linked data" as a step towardsrealisation of the semantic web
eric sieverts, juni 201346
dbpedia: data from Wikipedia
last.fm: artists
geonames:6.2 M toponyms
BBC: wildlifefinder
project GutenbergIMDB
music brainz
Reuters:openCalais
viaf: virtual internationalauthority file
LCSH
NY times
Flickr
"linked open data cloud" - 31 miljard data online – 504 miljoen links daartussendoor standaardisering van dataformats en metadata,
kunnen computers betekenis van die data "begrijpen" en die data gebruiken
rechtspraak.nl
sept 2011
fragment uit het linked dataVIAF-record voorLewis Carrollviaf.org/viaf/66462036/rdf.xml
50
fragment uit het linked dataVIAF-record voorHugo Brandt Corstiusviaf.org/viaf/94439179/rdf.xml
51
embedded linked data in worldcat
eric sieverts, juni 201352
embedded linked data in worldcat
eric sieverts, juni 201353
semantische zoekmachinesvaak genoemd in overzichten van semantisch zoeken:• Hakia enterprise search; webresultaten nogal middelmatig• DuckDuckGo niet semantischer dan google• Wolfram|Alpha "computational knowledge engine", feitelijke gegevens• Sensebot vat ook inhoud van meer documenten samen• Cognition voor specifieke databases, bijv. voor Medline• Factbites samengevatte informatie uit geselecteerde bronnen• Cluuz analyseert resultaten en geeft relaties• Kngine is alleen nog een app voor smartphones• Swoogle RDF ontology search engine• Sindice zoekmachine voor sites met RDF metadata
• Powerset is opgekocht door (en geïntegreerd in) Bing • Kosmix• Evri bestaan niet meer als (web)zoekachine• Truevert
54 eric sieverts, juni 2013
the end
eric sieverts, juni 201355