日本におけるLinked Dataの課題とその解決への試み

42
Hideaki Takeda / National Institute of Informatics 日日日日日日 Linked Data 日日日日 日日日日日日日日 武武武武 [email protected] @takechan2000 武武武武武武武武 JEITA 武武武武武武武武武武武武武武武武武武 2011 武 3 武 1 武 武武武武武武武武武武武武武武武武武武武 「、」 LODAC project team 武武 武武 武武武武武 武武武武武 武武武武 武武武 一、、、、

description

JEITA 知識情報処理技術に関するシンポジウム 2011年3月1日 「リンクするデータ、リンクするサービス」

Transcript of 日本におけるLinked Dataの課題とその解決への試み

Page 1: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

日本における Linked Data の課題とその解決への試み

武田英明[email protected] @takechan2000

国立情報学研究所

JEITA 知識情報処理技術に関するシンポジウム  2011 年 3 月 1 日「リンクするデータ、リンクするサービス」

LODAC project team大向一輝、加藤文彦、嘉村哲郎、高橋徹、上田洋

Page 2: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

あらまし 情報循環 Linked Data Linked Data の日本における課題 LODAC Museum

Page 3: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

情報循環

&

共有

収集

利用

公開

創造

情報は過去の情報を利用して作られる 無から生じない 収集 -> 利用・創造

情報の価値は利用されてこそ生じる 使われない情報には意味がない 利用・創造 -> 公開

情報の共有は社会の基盤 情報流通は社会の健全性の源 公開 -> 共有 -> 収集

Page 4: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

情報循環

&

共有

収集

利用

公開

創造

グーテンベルグ以前 手段

手書き口伝

情報循環のスケール遅く少量わずかな人々

印刷革命、通信革命以後

Page 5: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

マスメディア時代の情報循環2 つの層の断絶

共有

収集

利用

公開

創造

作家、学者、芸術家新聞記者、 TV 局政府…

創造一般市民

Page 6: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

WebWeb 時代の情報循環

共有

収集

利用

公開

HTML  エディタ

Web サーバ

インターネット

検索エンジン

創造Web ブラウザ

情報循環のスケール 高速 大量 大人数(分け隔てなく)

Page 7: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

セマンティック Web人による循環から人と機械による循環へ

&

共有

収集

利用

公開

創造

Semantic Web

Page 8: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

セマンティック Web

これまでの Web ( HTML) 人による理解のための情報として記述 コンピュータによる処理は苦手

セマンティック Web 人とコンピュータ双方が利用できる情報として記述 方法

メタデータによる記述オントロジーによるメタデータの構造化

Page 9: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

セマンティック Web の階梯 Web を“知的”にしていく階梯

URI :情報の一意性の確保 RDF :メタデータの記述言語 RDFS/OWL: オントロジーの記述言語 推論 ・・・

Tim Berners-Lee   http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/

クラスに関する記述

インスタンスに関する記述

オントロジー

Linked Data

Page 10: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

Linked Data Linked Data とは “ Web of Data”

RDF で公開されるデータ 外部から参照可能

Linked Data のための 4 条件 事柄の名前に URI を使うこと

すべてのモノ,コトに URIを! 名前の参照が HTTP URI でできること

DOIとかいった URNは使わないでね URI を参照したときに関連情報が手に入るように

理解可能なデータを提供してね. 外部へのリンクも含めよう

Webのようにリンクでつながるデータを作ろう

Linked Data, TBL, http://www.w3.org/DesignIssues/LinkedData.html

Page 11: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

LOD Cloud(Linking Open Data)

Page 12: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

セマンティック Web人による循環から人と機械による循環へ

&

共有

収集

利用

公開

創造

Linked Data

Page 13: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

Linked Data における公的機関のデータの重要性 もともと共有すべき情報 我々の社会の知識基盤

様々な公的機関 図書館 美術館・博物館 文書館 政府

&

共有

収集

利用

公開

創造

Linked Data

Page 14: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

Linked Data の日本での課題 共有文化の欠如 Linked Data コミュニティの未発達中心的データの欠如 日本語の取り扱い

Page 15: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

共有文化の欠如 公共性に関する意識の薄さ

公開と共有の文化 公共性の違い

官 vs. 民由らしむべし知らしむべからず

“ 共有地”

共有の文化の普及の必要性

Page 16: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

Linked Data コミュニティの未発達 文理共同の必要性

技術系のコミュニティ 文化系のコミュニティ 両者を交えたコミュニティ

TAKE ACTOIN! / 行動しよう LODAC project

Page 17: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

中心的データの欠如 Dbpedia は Linked Data の中心

とにかく Dbpedia につなげば LOD に入れる

日本語版 dbpedia を準備中!

Page 18: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

日本語の問題 日本語を使うときの問題 コード

IRI を使えば文字コードとしては原理的は OKだが、特殊文字や各種ツールの対応が問題になることがある IRI (Internationalized Resource Identifier)

Page 19: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

日本語の問題 メタデータは日本語 ? 英語 ?

日本語なら利点

( 日本人には ) 理解しやすい翻訳しないので簡単にデータが作れる

欠点 日英混交 日本人のみ理解

英語なら利点

国際的に流通 コードがクリーンで扱いやすい

欠点翻訳が必要、翻訳時の揺らぎ

目的でわけよう

Page 20: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

LODAC Project

学術リソースのためのオープン・ソーシャル・セマンティック Web 基盤の構築 2010 年 4 月開始 Linked Data の基盤をつくる 実際にデータを集め利用可能にする

現在興味をもっている分野 美術館・博物館情報 地理・地名情報 ローカル情報 …

Page 21: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

LODAC-Museum (仮 )

日本の美術館・博物館情報の現状 分散

各館で維持孤立

透明性がない各館それぞれで設計ばらばら

美術館・博物館情報を集めて関係づける LODAC-Museum (仮 )

Page 22: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

Page 23: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

20102008

13 million objects28 data aggregators1500 participating institutions200 partners35 FTE’s21 projects1 million visits in 201030,000 My Europeana signeeStable portalOpen Source Code EuropeanaLabsPublic Domain Charter

prototype operational service

Jill Cousins, Europeana Overview, Europeana Open Culture 2010 http://version1.europeana.eu/web/europeana-plenary-2010/presentations

Page 24: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

http://lod.ac/ (2010 年 12 月 11 日オープン )

Page 25: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

LODAC Museum – 主たる作業 データの収集

シソーラス、博物館・美術館情報など データの標準化

異なる情報源からのデータを統一的なフォーマットで表現 データの集約

データの同定 同一データの統合

公開

Page 26: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

情報源 横断的データ

日本美術シソーラス DB絵画編 国指定文化財データベース 文化遺産オンライン(美術館情報のみ)

美術館・博物館 (現在 14 館 ) 国立美術館所蔵作品総合目録検

索システム ( 国立国際美術館,京都国立近代美術館,東京国立近代美術館 )

国立西洋美術館 京都国立博物館 奈良国立博物館 福島県立美術館

それ以外のデータ DBPedia Japan

栃木県立美術館 秋田県立近代美術館 岩手県立美術館 徳島県立近代美術館 山梨県立美術館 東京都現代美術館 香川県立東山魁夷せとうち

美術館

Page 27: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

メタデータ設計 基本構造

作品 – 作者 – 収蔵館 専門的正確さより相互運用可能性、簡便性を優先

DC> DCTerm> FOAF> iCal >SKOS>NDLSH> RDA> CIDOC CRM

Keep it flat as long as possiblePREFIX URI crm http://purl.org/NET/cidoc-crm/core#

dc http://purl.org/dc/terms/

dc11 http://purl.org/dc/elements/1.1/

foaf http://xmlns.com/foaf/0.1/

skos http://www.w3.org/2004/02/skos/core#

rdfs http://www.w3.org/2000/01/rdf-schema#

ical http://www.w3.org/2002/12/cal/ical#

rda2 http://RDVocab.info/ElementsGr2

lodac http://lod.ac/ns/lodac#

lodac:Work Property( 一部項目省略 )資料分類 lodac:genre文化財 lodac:culturalAssets制作者 dc:creator / dc11:creator国籍 crm:P7_took_place_at作品名 dc:title / skos:prefLabel作品名読み dc:title @ja-hrkt / skos:altLabel作品名英語 dc:title @en / skos:altLabel銘文 crm:P62I_is_depicted_by印章 crm:P65_shows_visual_item員数 crm:P57_has_number_of_partsコレクション dc:isPartOf制作年 dc:created推定始年 lodac:estimatedStartYear材質 dc:medium / crm:P45_consists_of

メタデータ要素作品 :   46作者 :   23組織:  13書誌:  12

Page 28: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

統合のポリシー どうやって異なる情報源の情報を統合するか

責任の分担各情報源はその情報に対する責任

LODAC は単に ID を同定して管理。LODAC は統合の部分だけの責任

LODAC ID を各情報源 ID に関連づけるData from Source B

28

Integrated data

dc:references dc:references

dc:references dc:references

dc:references dc:references

dc:creatordc:creator

crm:P55_has_current_location crm:P55_has_current_location

crm:P55_has_current_location dc:creator

Data from Source A

Work

Museum

Creator

Page 29: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

例:作者情報の統合 作者情報統合の手順

統合元:日本美術シソーラス絵画編 統合対象:各情報源データ中の作者情報 統合元:文字列マッチング 作品情報中の作者と作者ノードを関連づける

LODAC data

Link to Work

DBpedia

Basic Information for Creators

Links

Page 30: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

Page 31: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

統合情報( 作品 )

一覧

Page 32: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

WikiPedia の解説分を引用!

Page 33: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

日本美術シソーラスの情報,専門性が高い

Page 34: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

徳島県立美術館

Page 35: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

東京近代美術館 

Page 36: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

国指定文化財データベース 

Page 37: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

徳島県立美術館 日本美術シソーラス 国指定文化財データベース 

国立東京近代美術館 福井県立美術館

Page 38: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

38

LODAC Museum のデータ

情報源 情報種別 データ数

国立美術館 (西美を除く 3 館 ) 作品 25180

国立西洋美術館 作品 4373

京都国立博物館 作品 5819

奈良国立博物館 作品 431

福島県立美術館 作品 20

栃木県立美術館 作品 32

秋田県立近代美術館 作品 22

岩手県立美術館 作品 1558

徳島県立近代美術館 作品 18482

山梨県立美術館 作品 262

東京都現代美術館 作品 5416

香川県立東山魁夷せとうち美術館 作品 266

日本美術シソーラス DB 作品 3800

日本美術シソーラス DB 人物 1332

日本美術シソーラス DB グループ 289

日本美術シソーラス DB 所蔵館情報 648

文化遺産オンライン 所蔵館情報 915

国指定文化財データベース 作品 10115

合計 103096

総データ数 特定項目キーの単純文字列統合実験結果

統合項目 情報源 データ数 統合数

所蔵館名 日本美術シソーラス 648 77

文化遺産オンライン 915

国宝・重文資料タイトル

日本美術シソーラス ( 作品 )

3800 74

国指定文化財 DB( 作品 ) 10115

作者名による資料タイトル

日本美術シソーラス ( 人物 )

1332 15020

各館 ( 作品 ) 61861

作者名 日本美術シソーラス ( 人物 )

1332 615

各館 ( 作品 ) 61861

「国宝・重文」日本美術シソーラスに略称のタイトル表記が多く,

単純文字列マッチでは少ない値となった

「機械処理による可能性」複合的な項目に対して複数アルゴリズムによる抽出

Page 39: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

39

LOD の発展の方向 様々な分野のデータがつながるこ

とでデータの新しい価値

一つの主題に関わる情報集約 例)作者↔作品↔各地の所蔵館↔地域情報

一つの場所に関わる情報集約 例)地名↔地図↔観測データ↔論文 例)地名↔地理↔古地図↔古文献

様々なコミュニティからの情報の集約 例) Wikpedia ↔ 論文↔ データサイ

集合知とのつながり

ミュージアム LOD

地域情報 LOD 学術論文、データ

地理LOD

Page 40: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

40

LOD応用例 (地域情報 +ミュージアム )

 地域情報 LOD  観光情報 LOD   +  ミュージアムLOD 地図情報 LOD

関連資料を巡る日本縦断ツアー

地域とイベント情報による展覧会 +α の情報

資料に登場する歴史メニューが食べられる食情報 +資料情報 +地域情報

ゲームやドラマに使用された資料軌跡( 新たなターゲット層の獲得 )

Page 41: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

LOD応用例 : ミュージアム 2.0

ユーザによるコメントとコレクション関係の発見 学芸員ではない一般ユーザによる資料コメント

ex. 仏像フェチ 資料にある情報だけを見るのではなく様々な情報とつ

なげてコレクションを作る → 元資料に興味を持つ可能性も

1.弁財天像 2.了法寺 (八王子 )

 

例えば・・・1. 仏像への個人的解釈2. お寺にある弁財天像3. 動画サイトの動画4. 周辺情報の発信

3.了法寺テーマソング 4. イベント

Page 42: 日本におけるLinked Dataの課題とその解決への試み

Hideaki Takeda / National Institute of Informatics

まとめ Linked Data は情報共有の新しい方法 Metadata はより重要になっている いま行動するチャンス