Linked Open...
-
Upload
taku-yamaguchi -
Category
Documents
-
view
759 -
download
2
description
Transcript of Linked Open...
Linked Open Data(LOD)による データ連携アプリケーション構築の課題と
クエリー生成言語の試作
v1.1 2013-‐06-‐22 ◎山口琢、大場みち子、高橋修
公立はこだて未来大学
1 2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室
アジェンダ
• Pinpoint Reminderの概要 • 背景 • 目的 • アプローチ • 結果 • 考察 • 今後
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 2
2012年(昨年)7月のIS研究会@函館
• 新規観光客を獲得する推薦システムを提案
• エンドユーザーが, – 情報Aを,直接は探していない – 情報AとWebページB,それぞれの関連情報に興味アリ
• WebページBを参照しているときに, • 情報Aを推薦する.
– 関連情報をたどることで,情報AとWebページBは関係づけられる
→ 地域情報システムにおける LODによる住民参加型データ構築手法の提案 h'p://www.slideshare.net/yamahige/lod-‐13699592
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 3
例
新規観光客を獲得する推薦システムを提案
• エンドユーザーが, – 函館の「香雪園」を探してるわけではないが… – 「函館」に観光に行く予定で,かつ「名勝」好き
• 東京の「六義園」に関するWebページを参照しているときに,
• 函館の「香雪園」を推薦する。
– 「六義園」は,「名勝」つながりで,函館の「香雪園」と関係がある
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 4
Pinpoint Reminder
昨年の提案システムのプロトタイプ
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 5
「函館」に観光に行く予定で,かつ「名勝」好き
オプションで指定
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 6
名勝に興味アリ
函館旅行を予定
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 7
六義園
東京の「六義園」に関するWebページを 参照しているときに
Google Chrome: Webブラウザー
問合せ中…
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 8
六義園
…函館の「香雪園」を推薦する。
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 9
六義園
香雪園を紹介するページ
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 10
香雪園
Pinpoint Reminder
データの流れ
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 11
Pinpoint Reminder プラグイン ハブ
香雪園
六義園
問合せ(SPARQL)
Webページ (六義園)
日本国指定名勝
「函館の観光地」 問合せ(SPARQL)
結果
結果
六義園
神威岬 後楽園
思い出し対象
立待岬 香雪園
x x
x
x
x
香雪園
神威岬 後楽園
香雪園
Webページ (香雪園)
Webブラウザー Pinpoint Reminder サーバー 外部のデータ(サーバー)
x
元町配水池
香雪園
Pinpoint Reminder
LODによるリンクアプリケーション構築基盤
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 12
Pinpoint Reminder プラグイン ハブ
香雪園
六義園
問合せ(SPARQL)
Webページ (六義園)
日本国指定名勝
「函館の観光地」 問合せ(SPARQL)
結果
結果
六義園
神威岬 後楽園
思い出し対象
立待岬 香雪園
x x
x
x
x
香雪園
神威岬 後楽園
香雪園
Webページ (香雪園)
Webブラウザー Pinpoint Reminder サーバー 外部のデータ(サーバー)
x
元町配水池
香雪園
Pinpoint Reminderによる○○アプリ とは…
• ハブ + 推薦対象 → アプリ – 組み合わせ方によって,様々な推薦アプリ – Pinpoint Reminder上に構築可能
• 観光案内 – 「名勝」+「観光地」 – 「大河ドラマ」+「史跡」 – 「朝ドラ」+「ロケ地」
• 読書案内 • システム開発 – 「依存関係」+「ドキュメント,コード,…」
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 13
「函館」に観光に行く予定で,かつ「名勝」好き
→ 使用する外部データの選択 – ハブ – 思い出し対象
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 14
Pinpoint Reminder プラグイン ハブ
香雪園
六義園
問合せ(SPARQL)
Webページ (六義園)
日本国指定名勝
「函館の観光地」 問合せ(SPARQL)
結果
結果
六義園
神威岬 後楽園
思い出し対象
立待岬 香雪園
x x
x
x
x
香雪園
神威岬 後楽園
香雪園
Webページ (香雪園)
Webブラウザー Pinpoint Reminder サーバー 外部のデータ(サーバー)
x
元町配水池
香雪園
名勝に興味アリ
函館旅行を予定
Pinpoint Reminderによる 「日本の名勝案内」アプリ
• 外部のデータ(LOD)を利用 – ハブ: DBpedia Japanese ← 固定 – 思い出し対象: FUNTourismInforma]on,などなどの登録されたデータ
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 15
Pinpoint Reminder プラグイン ハブ
香雪園
六義園
問合せ (SPARQL)
Webページ (六義園)
日本国指定名勝
「函館の観光地」
問合せ
結果
結果
六義園
神威岬 後楽園
思い出し対象
立待岬
香雪園
x x
x
x
x
香雪園
神威岬 後楽園
香雪園
Webページ (香雪園)
Webブラウザー Pinpoint Reminder サーバー
FUNTourismInforma]on
x
元町配水池
香雪園
DBpedia Japanese
Pinpoint Reminderによる 「日本の名勝案内」アプリ
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 16
Pinpoint Reminder プラグイン ハブ
香雪園
六義園
問合せ (SPARQL)
Webページ (六義園)
日本国指定名勝
「函館の観光地」
問合せ
結果
結果
六義園
神威岬 後楽園
思い出し対象
立待岬
香雪園
x x
x
x
x
香雪園
神威岬 後楽園
香雪園
Webページ (香雪園)
Webブラウザー Pinpoint Reminder サーバー
FUNTourismInforma]on
x
元町配水池
香雪園
DBpedia Japanese
詳しく!
Pinpoint Reminderによる「日本の名勝案内」アプリ
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 17
ハブ 六義園
神威岬 後楽園
香雪園
Pinpoint Reminder サーバー DBpedia Japanese
問合せ (SPARQL)
日本国指定名勝
結果
x x
x
x
x
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 18
ハブ 六義園
襟裳岬 後楽園
香雪園
Pinpoint Reminder サーバー
DBpedia Japanese h^p://ja.dbpedia.org/sparql
select dis]nct ?o where { <h^p://ja.dbpedia.org/resource/六義園> ?p <h^p://ja.dbpedia.org/resource/日本国指定名勝の一覧>. <h^p://ja.dbpedia.org/resource/日本国指定名勝の一覧> ?q ?o . }
問合せ (SPARQL)
日本国指定名勝の一覧
結果(?o)
x x
x
x
x
{ "o": "h^p://ja.dbpedia.org/resource/香雪園" }, { "o": "h^p://ja.dbpedia.org/resource/後楽園" }, { "o": "h^p://ja.dbpedia.org/resource/襟裳岬" }, …
SPARQL
背景
• ビッグデータ • オープンデータ – 従うべき条件が,最大でも,作者のクレジットを表
記する,あるいは条件を継承するという程度であるようなデータ
h^p://opendefini]on.org/
• 政府レベルのオープンデータへの取り組み – 電子行政オープンデータ戦略 – 産官学が共同で取り組むコンソーシアム
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 19
Linked Open Data(LOD)
• オープンデータを活用する方法として注目 • 「文書のWeb」でのリンクの意義 – 人: Webサイトや国や言語を越えて,大量の文書(HTML文書)これらにたどり着く
– 検索エンジン: リンクをたどって文書を収集,インデックスを作成
• 「データのWeb」 – オープンデータの間にリンク – データセットの垣根を越えて情報を活用
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 20
クエリーから見るLOD
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 21
select dis]nct ?o where { <h^p://ja.dbpedia.org/resource/六義園> ?p <h^p://ja.dbpedia.org/resource/日本国指定名勝の一覧>. <h^p://ja.dbpedia.org/resource/日本国指定名勝の一覧> ?q ?o . }
SPARQL
主語
述語: ?p,?q
目的語: ?o
h^p://ja.dbpedia.org/resource/六義園
h^p://ja.dbpedia.org/resource/日本国指定名勝の一覧
h^p://dbpedia.org/ontology/wikiPageWikiLink
六義園 日本国指定名勝の一覧
Wikipediaのページでリンクがはってある…
Linked Open Data (LOD)
• 主語-‐述語-‐目的語というトリプルの集まり • 目的語をリンク(URI,IRI)としましょう
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 22
主語
述語: ?p,?q
目的語: ?o
h^p://ja.dbpedia.org/resource/六義園
h^p://ja.dbpedia.org/resource/日本国指定名勝の一覧
h^p://dbpedia.org/ontology/wikiPageWikiLink
日本国指定名勝の一覧 六義園
Wikipediaのページでリンクがはってある…
Linked Open Data (LOD)
• 目的語をリンク(URI,IRI)としましょう
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 23
主語
述語: ?p,?q
目的語: ?o
h^p://ja.dbpedia.org/resource/六義園
h^p://ja.dbpedia.org/resource/日本国指定名勝の一覧
h^p://dbpedia.org/ontology/wikiPageWikiLink
日本国指定名勝の一覧 六義園
Wikipediaのページでリンクがはってある…
六義園 ○ リテラル
◎ リンク
「同じ」
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 24
h^p://ja.dbpedia.org/resource/日本国指定名勝の一覧
六義園 日本国指定名勝の一覧
DBpedia Japanese
LODデータセット A
LODデータセット B
h^p://ja.dbpedia.org/resource/日本国指定名勝の一覧
おきにいり 日本国指定名勝の一覧
h^p://ja.dbpedia.org/resource/日本国指定名勝の一覧
日本国指定名勝の一覧 香雪園
目的
• 普及のための課題を前倒しにして抽出 • 対策を考案
↓ • LODアプリケーションの増加に寄与
↑ • 文書のWebの発展 – 様々な欠陥を指摘されながらも – 面白かった,役にたった
• スコープ外: 規格やデータセットの点検・提案 – データセット作成ガイドライン,など
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 25
関連技術
従来のLODアプリケーション構築支援 • クエリー記述支援 – SQLに似たSPARQLによるクエリー • どのようなクエリーを記述すれば所望のデータが得ら
れるのか? – データ抽出の集合演算をビジュアルに確認,など
• データセットのディレクトリー • データセットのキャッシュ ↓ 他にあるのではないか? 2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 26
アプローチ
SPARQLでクエリー +α を書くだけで,新たなハブや思いだし対象を,Pinpoint Reminderに追加できるように…しようと試みる,という実験
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 27
アプローチ
• SPARQLでクエリー + α だけで – このαがどの程度のものか?
• 新たなハブや思いだし対象を – LODチャレンジJapan 2012への応募作品 – 自分も参加する
• Pinpoint Reminderに追加できるように…しようと試みる – そうできるようにPinpoint Reminderを開発しようと試みる
• 結果の評価基準 – α = 0 → 課題を見つけられなかった
– αが適度 → 課題を抽出できた
– αが大きすぎ,不定 or などなど → 課題が大きすぎて捉えきれなかった
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 28
結果
• 課題が2種類あることが分かった。 #1: リテラル値の目的語をリンクとして扱いたい #2: リンクのIRI値のブレ
• SPARQLでクエリー + α
= クエリー生成言語
• LODチャレンジ Japan 2012 – 他の応募作品を利用することができた
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 29
#1 リテラルだけどリンクとして…
• 目的語の値がリテラルだけど…
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 30
主語
述語: ?p,?q
目的語: ?o
h^p://ja.dbpedia.org/resource/六義園
h^p://ja.dbpedia.org/resource/日本国指定名勝の一覧
h^p://dbpedia.org/ontology/wikiPageWikiLink
日本国指定名勝の一覧 六義園
Wikipediaのページでリンクがはってある…
六義園 ○ リテラル
◎ リンク
#1 リテラル as リンク
この場合でも, アプリ設計者の判断で, そのデータセットについては「同じ」と判定したい …場合がある.
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 31
「ハブ」から取り出した結果 函館市
↓ 「思い出し対象」への問合せ
h^p://ja.dbpedia.org/resource/函館市
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 32
「ハブ」から取り出した結果 h^p://ja.dbpedia.org/resource/函館市
↓ 「思い出し対象」への問合せ
函館市
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 33
#2 リンクのIRI値のブレ
• IRI: URLを拡張して国際化した表記法 – Interna]onalized Resource Iden]fier
• URL – × h^p://ja.dbpedia.org/resource/函館市 – ○ h^p://ja.dbpedia.org/resource/%e5%87%bd%e9%a4%a8%e5%b8%82
• IRI – ○ h^p://ja.dbpedia.org/resource/函館市 – ○ h^p://ja.dbpedia.org/resource/%e5%87%bd%e9%a4%a8%e5%b8%82
• SPARQLではIRIを用いるが… – 「函館市」を「%e5%87%bd%e9%a4%a8%e5%b8%82」と記述するデータセットが
ある – SPARQL処理系は,かならずしも
「h^p://ja.dbpedia.org/resource/函館市 と h^p://ja.dbpedia.org/resource/%e5%87%bd%e9%a4%a8%e5%b8%82 を同一視しない
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 34
「ハブ」から取り出した結果 h^p://ja.dbpedia.org/resource/函館市
↓ 「思い出し対象」への問合せ
h^p://ja.dbpedia.org/resource/%e5%87%bd%e9%a4%a8%e5%b8%82
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 35
「ハブ」から取り出した結果 h^p://ja.dbpedia.org/resource/%e5%87%bd%e9%a4%a8%e5%b8%82
↓ 「思い出し対象」への問合せ
h^p://ja.dbpedia.org/resource/函館市
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 36
クエリー生成言語
• 書式文字列の要領でクエリーを生成する仕組み – データセットの仕様に応じて,書式文字列を使い
分けて,適切なSPARQLクエリーを生成させる – クエリー結果から,所望の値を取り出す
• 前記2つの課題をクリア
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 37
• 名前空間: h^p://ja.dbpedia.org/resource/ • 変数term = "六義園" • 3つの書式文字列がクエリーで利用できる
– %(term)s // 六義園 – %(term_q)s // h^p://ja.dbpedia.org/resource/六義園 – %(term_q_enc)s // h^p://ja.dbpedia.org/resource/%E5%85%AD%E7%BE
%A9%E5%9C%92 • クエリー…のもと
– select dis]nct ?o where { <%(term_q)s> ?p <h^p://ja.dbpedia.org/resource/新選組!> . <h^p://ja.dbpedia.org/resource/新選組!> ?q ?o . }
• クエリー – select dis]nct ?o
where { <h^p://ja.dbpedia.org/resource/六義園> ?p <h^p://ja.dbpedia.org/resource/新選組!> . <h^p://ja.dbpedia.org/resource/新選組!> ?q ?o . }
• 「出力の加工」オプション ✓ ?o から名前空間を取り除く ✓ ?o はパーセントエンコードされている
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 38
考察
本研究会のテーマに即して… (電気学会第55回情報システム研究会) • テーマ「知的情報システム」 • セッションテーマ「学習支援」
– ハンズオンゼミ: 手を動かす体験型ゼミ – 相互運用型ハッカソン
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 39
研究会テーマ「知的情報システム」
• データのWebを知識として利用するシステム – 複数の知識を使う「知的情報システム」 – ボトムアップに立ち上がる在野の知識
• リンクする知識 – 2つの知識で使われている2つの事柄を,「同じ」と言
える仕組み – 「同じ」が,複数の知識を利用する手がかりになる
• 構築支援 – 「同じ」ものを指していると,設計者が「見なせる」 – 「見なせる」ことによって,利用できる知識が増える
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 40
セッションテーマ「学習支援」 1/2 ハンズオンゼミ
• リンク – リンクの応用は,まだイメージしづらいようだ – v.s. オープンデータ,ビッグデータ • 比較的イメージしやすい: 串刺し検索、分析
• ハンズオン – 体験するための実験台 → Pinpoint Reminder – 大学でハンズオン実施中 • 情報のモデリング学習
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 41
セッションテーマ「学習支援2」 2/2 相互運用型ハッカソン
相互運用型ハッカソン 参加者のデータを、相互に利用して競う
理解が,より深まる ex. LODチャレンジジャパン
v.s. スター型ハッカソン
与えられたデータを、参加者が利用して競う
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 42
課題 データ #1
課題 データ #2
参加者 #2
参加者 #4
参加者 #1
参加者 #3
参加者 #2
参加者 #4
参加者 #1
参加者 #3
参加者 #1
データ
参加者 #4
データ
データ参加 アプリ参加
アプリ参加
今後
• 今回,構築を試みたアプリケーションは観光案内や読書案内など,比較的,時間に余裕のあるアプリケーションであった
• 今後は,違うタイプのアプリケーションを検討したい – 防災など – 時間的に切迫したアプリケーションであれば,異
なる課題を抽出できるかもしれない.
2013-‐06-‐22、@広島工大 山口琢@はこだて未来大学 高橋修研究室 43