Vyhľadávanie najbližších a najlepších objektov nad paralelnými viacrozmernými indexmi
SemSets Model pre sémantické vyhľadávanie zoznamov entít
description
Transcript of SemSets Model pre sémantické vyhľadávanie zoznamov entít
![Page 1: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/1.jpg)
SemSets Model pre sémantické vyhľadávanie zoznamov entít
Marek CiglanÚstav informatiky
SAV
![Page 2: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/2.jpg)
Obsah
• Sémantické vyhľadávanie – úvod• Klasifikácia sémantických dopytov• Sémantické vyhľadávanie množín• Graf s atribútmi ako znalostná báza• SemSets Model
– Vyhľadávanie v dokumentoch entít– Šírenie aktivácie po topológii znalostnej bázy– Identifikácia (sémantických množín) SemSets
• Vyhodnotenie– Dátová množina - SemSearch 2011 – Hodnotenie relevancie odpovedí– Výsledky
21 November 2011 2
![Page 3: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/3.jpg)
Sémantické vyhľadávanie – úvod
• Sémantické dáta– Zväčša trojice (RDF)
• Vyhľadávanie v sémantických dátach – - dopytovacie jazyky (napr. SPARQL)
21 November 2011 3
<http://dbpedia.org/resource/Aristotle> <http://dbpedia.org/ontology/birthYear> "-0384"^^<http://www.w3.org/2001/XMLSchema#gYear> .
<http://dbpedia.org/resource/Aristotle> <http://dbpedia.org/ontology/influenced> <http://dbpedia.org/resource/Western_philosophy>
SELECT ?abstractFROM NAMED <http://dbpedia.org>WHERE {{ <http://dbpedia.org/resource/Civil_engineering> <http://dbpedia.org/ontology/abstract> ?abstract.
FILTER langMatches( lang(?abstract), 'en') }}
![Page 4: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/4.jpg)
Ad-hoc vyhľadávanie v sémantických dátach
• ad-hoc vyhľadávanie = vyhľadávanie pomocou kľúčových slov• Cieľ: použiť dopyty formulované pomocou kľúčových slov (jednoduché
pre užívateľa) na získavanie informácií zo sémantických dát
• Vstup: neštruktúrovaný dopyt zložený z kľúčových slov• Výstup: zoznam entít zo sémantickej databázy usporiadaný podľa
relevancie k dopytu• Vyhodnotenie: všetky odpovede sú ohodnotené nezávislým
posudzovateľom, so znalosťou o dopyte a očakávaných výsledkoch
21 November 2011 4
![Page 5: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/5.jpg)
Ad-hoc vyhľadávanie v sémantických dátach
• ad-hoc vyhľadávanie = vyhľadávanie pomocou kľúčových slov• Cieľ: použiť dopyty formulované pomocou kľúčových slov (jednoduché
pre užívateľa) na získavanie informácií zo sémantických dát
• Vstup: neštruktúrovaný dopyt zložený z kľúčových slov• Výstup: zoznam entít zo sémantickej databázy usporiadaný podľa
relevancie k dopytu• Vyhodnotenie: všetky odpovede sú ohodnotené nezávislým
posudzovateľom, so znalosťou o dopyte a očakávaných výsledkoch
21 November 2011 5
SELECT ?abstractFROM NAMED <http://dbpedia.org>WHERE {{ <http://dbpedia.org/resource/Civil_engineering> <http://dbpedia.org/ontology/abstract> ?abstract.
FILTER langMatches( lang(?abstract), 'en') }}
![Page 6: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/6.jpg)
Ad-hoc vyhľadávanie v sémantických dátach
• ad-hoc vyhľadávanie = vyhľadávanie pomocou kľúčových slov• Cieľ: použiť dopyty formulované pomocou kľúčových slov (jednoduché
pre užívateľa) na získavanie informácií zo sémantických dát
• Vstup: neštruktúrovaný dopyt zložený z kľúčových slov• Výstup: zoznam entít zo sémantickej databázy usporiadaný podľa
relevancie k dopytu• Vyhodnotenie: všetky odpovede sú ohodnotené nezávislým
posudzovateľom, so znalosťou o dopyte a očakávaných výsledkoch
21 November 2011 6
SELECT ?abstractFROM NAMED <http://dbpedia.org>WHERE {{ <http://dbpedia.org/resource/Civil_engineering> <http://dbpedia.org/ontology/abstract> ?abstract.
FILTER langMatches( lang(?abstract), 'en') }}
Give me english abstrat for Civil engineering
![Page 7: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/7.jpg)
Klasifikácia ad-hoc dopytov zo sémantických
1. Dopyty na entity– Príklad: 1978 cj5 jeep, KARL BENZ, MIT
2. Dopyty na množiny entít– Príklad: republics of the former Yugoslavia, astronauts who walked
on the Moon3. Dopyty na vzťah medzi entitami
– Príklad: • what is the relation between X and Y
4. Dopyty na atribúty entít– Príklad:
• zip code waterville Maine, • height of Kriváň
5. Iné ad-hoc dopyty
[J. Pound, P. Mika, and H. Zaragoza. Ad-hoc object retrieval in the web of data. In Proceedings of WWW’10, 2010. ]
21 November 2011 7
![Page 8: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/8.jpg)
Klasifikácia ad-hoc dopytov zo sémantických
1. Dopyty na entity– Príklad: 1978 cj5 jeep, KARL BENZ, MIT
2. Dopyty na množiny entít– Príklad: republics of the former Yugoslavia, astronauts who walked
on the Moon3. Dopyty na vzťah medzi entitami
– Príklad: • what is the relation between X and Y
4. Dopyty na atribúty entít– Príklad:
• zip code waterville Maine, • height of Kriváň
5. Iné ad-hoc dopyty
[J. Pound, P. Mika, and H. Zaragoza. Ad-hoc object retrieval in the web of data. In Proceedings of WWW’10, 2010. ]
21 November 2011 8
![Page 9: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/9.jpg)
Sémantické vyhľadávanie množín
• Príklad dopytu: astronauts who walked on the Moon
21 November 2011 9
![Page 10: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/10.jpg)
Sémantické vyhľadávanie množín
• Príklad dopytu: astronauts who walked on the Moon
21 November 2011 10
![Page 11: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/11.jpg)
Sémantické vyhľadávanie množín
• Príklad dopytu: astronauts who walked on the Moon
1. Armstrong, Neil Alden 2. Aldrin, Edwin Eugene, Jr. 3. Conrad, Charles Peter, Jr. 4. Bean, Alan Lavern 5. Shepard, Alan Bartlett, Jr. 6. Mitchell, Edgar Dean 7. Scott, David Randolph 8. Irwin, James Benson 9. Young, John Watts 10. Duke, Charles Moss, Jr. 11. Cernan, Eugene Andrew 12. Schmitt, Harrison Hagan
21 November 2011 11
![Page 12: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/12.jpg)
Graf s atribútmi ako znalostná báza
• Sémantické dáta ako množina trojíc:
• Sémantické dáta ako atribútový graf:
21 November 2011 12
<http://dbpedia.org/resource/Aristotle> <http://dbpedia.org/ontology/birthYear> "-0384"^^<http://www.w3.org/2001/XMLSchema#gYear> .
<http://dbpedia.org/resource/Aristotle> <http://dbpedia.org/ontology/influenced> <http://dbpedia.org/resource/Western_philosophy>
Emtita K1 Attr I1: val Attr I2: val Attr I2: val Emtita K1
Attr I1: val Attr I2: val Attr I2: val
Emtita K1 Attr I1: val Attr I2: val Attr I2: val
Emtita K1 Attr I1: val Attr I2: val Attr I2: val
L1 L3
L2L1
![Page 13: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/13.jpg)
Graf s atribútmi ako znalostná báza
• Sémantické dáta ako množina trojíc:
• Sémantické dáta ako atribútový graf:
21 November 2011
<http://dbpedia.org/resource/Aristotle> <http://dbpedia.org/ontology/birthYear> "-0384"^^<http://www.w3.org/2001/XMLSchema#gYear> .
<http://dbpedia.org/resource/Aristotle> <http://dbpedia.org/ontology/influenced> <http://dbpedia.org/resource/Western_philosophy>
AristotlebirthYear:-0384
Western_philosophyinfluenced
![Page 14: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/14.jpg)
SemSets model
• SemSets model je model pre vyhľadávanie sémantických množín• Odpovedať na otázky ako: „republics of the former Yugoslavia“ ,
„astronauts who walked on the Moon“• Využíva:
– Metódy získavania informácií– Grafovú štruktúru znalostnej bázy– Informácie o sémantických množinách znalostnej bázy
21 November 2011 14
![Page 15: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/15.jpg)
DBpedia
• Projekt s cieľom extrahovať štruktúrované informácie z Wikipédie
21 November 2011 15
http://wiki.dbpedia.org/
![Page 16: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/16.jpg)
SemSets – vyhľadávanie v dokumentoch entít
• Využiť štandardné metódy získavania infomácií• Namiesto dokumentov máme atribútový graf• Nutnosť transformovať vrcholy atribútového grafu na dokumenty
21 November 2011 16
Emtita K1 Attr I1: val Attr I2: val Attr I2: val Emtita K1
Attr I1: val Attr I2: val Attr I2: val
Emtita K1 Attr I1: val Attr I2: val Attr I2: val
Emtita K1 Attr I1: val Attr I2: val Attr I2: val
L1 L3
L2L1
![Page 17: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/17.jpg)
SemSets – vyhľadávanie v dokumentoch entít
• Využiť štandardné metódy získavania infomácií• Namiesto dokumentov máme atribútový graf• Nutnosť transformovať vrcholy atribútového grafu na dokumenty
21 November 2011 17
Emtita K1 Attr I1: val Attr I2: val Attr I2: val Emtita K1
Attr I1: val Attr I2: val Attr I2: val
Emtita K1 Attr I1: val Attr I2: val Attr I2: val
Emtita K1 Attr I1: val Attr I2: val Attr I2: val
L1 L3
L2L1
![Page 18: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/18.jpg)
SemSets – vyhľadávanie v dokumentoch entítt
• Príklad: „astronauts who walked on the Moon“
• Medzivýsledok:1. The Wonder of It All (2007 film) 2. List of spacewalkers, 3. Moon Landing (music drama), 4. List of Apollo astronauts, 5. Harrison Schmitt
21 November 2011 18
![Page 19: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/19.jpg)
SemSets – šírenie aktivácie
21 November 2011 19
![Page 20: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/20.jpg)
SemSets – šírenie aktivácie
21 November 2011 20
![Page 21: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/21.jpg)
SemSets – šírenie aktivácie
21 November 2011 21
![Page 22: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/22.jpg)
SemSets – šírenie aktivácie
21 November 2011 22
![Page 23: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/23.jpg)
SemSets – šírenie aktivácie
21 November 2011 23
![Page 24: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/24.jpg)
SemSets – šírenie aktivácie
• Príklad: „astronauts who walked on the Moon“
• Medzivýsledok:1. Astronaut, 2. NASA, 3. Moon, 4. Apollo 15, 5. Apollo 12, 6. Apollo 11, 7. List of Apollo astronauts, 8. Apollo program, 9. Buzz Aldrin, 10.Apollo 17, 11. Eugene Cernan
21 November 2011 24
![Page 25: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/25.jpg)
SemSets – skóre sémantických množín
• Predpokladáme existenciu sémantických množín obsahujúcich sémanticky podobné/príbuzné entity
• Príklad pre DBpediu: entity patriace do jednej kategórie vo Wikipédii tvoria sémantickú množinu
• Proces:– Kandidátsku množinu entít porovnáme so sémantickými množinami– Spočítame zlomok členov sémantických množín v kandidátskej
množine– Vyberieme sémantické množiny, ktoré pravdepodobne obsahujú
odpoveď na danú otázku
21 November 2011 25
![Page 26: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/26.jpg)
SemSets – skóre sémantických množín
21 November 2011 26
![Page 27: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/27.jpg)
SemSets – skóre sémantických množín
21 November 2011 27
SemSet 1Card: 24P: 0.125
![Page 28: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/28.jpg)
SemSets – skóre sémantických množín
21 November 2011 28
SemSet 1Card: 24P: 0.125
SemSet 2Card: 5P: 0.6
![Page 29: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/29.jpg)
SemSets – skóre sémantických množín
21 November 2011 29
SemSet 1Card: 24P: 0.125
SemSet 2Card: 5P: 0.6
SemSet 1Card: 4P: 0.75
![Page 30: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/30.jpg)
SemSets – skóre sémantických množín
• Príklad: „astronauts who walked on the Moon“
• Medzivýsledok:– Category: People who have walked on the Moon,– Category: Skylab program
• Váhovanie skóre podľa textovej podobnosti dopytu a dokumentov jednotlivých sémantických množín
21 November 2011 30
![Page 31: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/31.jpg)
SemSets – skóre sémantických množín
• Príklad: „astronauts who walked on the Moon“
• Medzivýsledok:1. Armstrong, Neil Alden 2. Aldrin, Edwin Eugene, Jr. 3. Conrad, Charles Peter, Jr. 4. Bean, Alan Lavern 5. Shepard, Alan Bartlett, Jr. 6. Mitchell, Edgar Dean 7. Scott, David Randolph 8. Irwin, James Benson 9. Young, John Watts 10. Duke, Charles Moss, Jr. 11. Cernan, Eugene Andrew 12. Schmitt, Harrison Hagan
21 November 2011 31
![Page 32: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/32.jpg)
Konštrukcia sémantických množín
• 2 prístupy:– Množiny definuje expert– Automatcky detekovať zo znalostnej bázy
21 November 2011 32
![Page 33: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/33.jpg)
Vyhodnotenie
• Dátová množina – Yahoo! SemSearch 2011 challenge• Dopyty:
– 50 dopytov na zoznamy entít– Vybraných z logov webového vyhľadávača– Vyhodnotenie odpovedí:
• Amazon’s Mechanical Turk• Cloudsourcing solution• Prostredie pre human intelligance computation• Ľudia (za finančnú odmenu) vykoávajú zadanú úlohu• Odpovede hodnotené 3 stuňami
21 November 2011 33
![Page 34: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/34.jpg)
Vyhodnotenie
21 November 2011 34
![Page 35: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/35.jpg)
Vyhodnotenie
• Čiastočné funkcie SemSets modelu
21 November 2011 35
![Page 36: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/36.jpg)
Vyhodnotenie
• Vplyv použitého modelu na získavanie informácií
21 November 2011 36
![Page 37: SemSets Model pre sémantické vyhľadávanie zoznamov entít](https://reader036.fdocument.pub/reader036/viewer/2022081421/568164c3550346895dd6d96a/html5/thumbnails/37.jpg)
Zhrnutie
• Predstavili sme úlohu ad-hoc vyhľadávania v sémantických dátach• Predstavili sme SemSets model pre vyhľadávanie zoznamu entít zo
sémantických dát• SemSets model využíva:
– Štandardné metódy vyhľadávania informácií– Šírenie aktivácie v topológii grafu definovaného znalostnou bázou– Informácie o sémantických množinách v znalostnej bázy
• Vyhodnotenie: metóda má state-of-the-art presnosť na SemSearch 2011 data sete
21 November 2011 37