Bh13.13 sagace 1

25
生命科学分野の横断検索サービス とメタデータの活用 医薬基盤研究所 伊藤真和吏

description

国内版バイオハッカソン BH13.13 - http://wiki.lifesciencedb.jp/mw/index.php/BH13.13 内で発表した資料(抜粋)です。

Transcript of Bh13.13 sagace 1

Page 1: Bh13.13 sagace 1

生命科学分野の横断検索サービスとメタデータの活用

医薬基盤研究所 伊藤真和吏

Page 2: Bh13.13 sagace 1

Sagace

創薬・疾患研究のための生命科学分野の データベースの横断検索サービス

http://sagace.nibio.go.jp/

2

Page 3: Bh13.13 sagace 1

3

h"p://integbio.jp/ja/

Page 4: Bh13.13 sagace 1

NIBIO

MEDALS

JCGGDB  

NBDC  /  DBCLS

AgriTogo  

Collaborate by using P2P

architecture

Search System

4

Page 5: Bh13.13 sagace 1

5

悪性リンパ腫での検索結果 Google 対 Sagace

Page 6: Bh13.13 sagace 1

広告

一般的な説明やブログが  

ヒット

Page 7: Bh13.13 sagace 1

悪性リンパ腫での検索結果

7

同義語展開

研究関連の信頼  出来るデータベース

からの情報

Page 8: Bh13.13 sagace 1

8

ファセット分類を  使った効率的な絞り込み

例:生物資源で動物のデータを調べたい場合

Page 9: Bh13.13 sagace 1

メタデータの活用

•  メタデータ:データの情報を示したデータ。

疾患:アルツハイマー病 生物種:ヒト 最終更新日:2012-10-24 文献:PubMed ID 23110816 関連するエントリ:OMIM 134400

9

Page 10: Bh13.13 sagace 1

検索結果への反映

•  ユーザーが何に関するデータなのかを見つけやすくなり,データベースへのアクセスがされやすくなる。

10

Page 11: Bh13.13 sagace 1

メタデータを活用した検索結果例

11

Page 12: Bh13.13 sagace 1

メタデータを活用した検索結果例

12

Page 13: Bh13.13 sagace 1

横断検索サービスはDBとの 出会いを支援するサービス

13

•  ユーザー – 検索結果を見てそのエントリーが自分が探してい

るものか否かを瞬時に判断可能に。  

•  データベース管理者 – より多くの人にデータベースを発見してもらいや

すくなる。アクセス増加に繋がる。  

•  横断検索サービス – クローラーが1つで良い。  

Page 14: Bh13.13 sagace 1

どうメタデータを入れるのか?

•  htmlタグにメタデータを追記するだけ

14

http://schema.org/BiologicalDatabaseEntry/dateModified

ウェブページ 2013-1-24

<div  itemscope=“”  itemtype=“h"p://schema.org/BiologicalDatabaseEntry”>  <span  itemprop=“dateModified”>2013-­‐1-­‐24</span>  </div>  

Page 15: Bh13.13 sagace 1

どうメタデータを入れるのか?

•  htmlタグにメタデータを追記するだけ

15

<div  itemscope=“”  itemtype=“h"p://schema.org/BiologicalDatabaseEntry”>  <span  itemprop=“dateModified”>2013-­‐1-­‐24</span>  </div>  

Page 16: Bh13.13 sagace 1

8つのDBが採用

•  DoBISCUIT(Database Of BIoSynthesis clusters CUrated and InTegrated)

•  JCRB細胞バンク •  Functional Glycomics with KO mice database •  Glyco-Disease Genes Database •  JCGGDB Report •  MEDALS •  Integbio データベースカタログ •  LSDBアーカイブ

16

Page 17: Bh13.13 sagace 1

これまでのBioHackathonにて

•  Biological Database (Entry)に特化したSchema.org 用の語彙を策定,宣伝 –  Proposal  :  h"p://www.w3.org/wiki/WebSchemas/BioDatabases  

–  独自のプロパティを策定  •  entryID,  isEntryOf,  taxon,  seeAlso,  reference  

•  Schema.org –  大手検索エンジン(Google,Yahoo!,Bingなど)が共通で使

用することを宣言している横断検索用の語彙体系  •  Microdata

–  htmlにメタデータを付与するための方法。Schema.orgの語彙を使用してマークアップをする。

17

Page 18: Bh13.13 sagace 1

HTMLをマークアップするための方法

•  Microdata – 書き方がシンプル。大手検索エンジンの採用。  

•  RDFa – マークアップ方法が複雑。書き方がひと通りでは

ない。  

•  Microformats – 書き方はシンプルだが,マークアップ定義が曖昧

で機械的処理がしにくい。  

18

Page 19: Bh13.13 sagace 1

現状の問題点

•  提案した語彙をSchema.orgに追加させるには,より多くのDBの協力が必要。(by Schema.org オーガナイザー)

•  Microdataだと(原則)Schema.orgの語彙しか使えない。

•  MicrodataはW3C Working GroupでありRecommendationではない。

19

Page 20: Bh13.13 sagace 1

RDFa Lite

•  Schema.orgやMicrodataの普及にともない,W3CがRDFaをかなり単純化させて制定した形式 – W3C  recommenda\on  

•  schema.orgの語彙体系を基本としながら,外部のRDFの語彙も柔軟に適用可能。

•  マークアップが簡単

20

Page 21: Bh13.13 sagace 1

RDFa Liteのマークアップ方法

21

<div  vocab=“h"p://schema.org/”  typeof=“BiologicalDatabaseEntry”>  <span  property=“dateModified”>2013-­‐1-­‐24</span>  </div>  

Page 22: Bh13.13 sagace 1

RDFの語彙を使う場合 (検索結果はイメージ)

22

<div prefix="PDBo : http://rdf.wwpdb.org/schema/pdbx-v40.owl#"> <span property="PDBo:exptl.method">X-RAY DIFFRACTION</span> </div>

Page 23: Bh13.13 sagace 1

Sagaceが検索結果に 反映するプロパティ

•  image  (画像) •  isEntryOf  (どのデータベース由来か) •  entryID (エントリーID) •  taxon(生物種) •  disease (疾患名) •  seeAlso (他の参考となるデータベースのエントリ) •  dateModified (最終更新日) •  reference (文献)

23

Page 24: Bh13.13 sagace 1

•  現在対応しているマークアップ方法について詳しくはこちら –  h"p://sagace.nibio.go.jp/press/metadata/markup/    

•  外部のRDF用の語彙も検索結果への反映を予定 •  複数の語彙でのマークアップにおいて混乱がないよ

うに,検索結果に反映させる語彙とプロパティはSagaceのページに掲載予定。

24

Page 25: Bh13.13 sagace 1

大募集

•  皆さんのデータベースにもぜひマークアップを! •  ライフサイエンス系のDBであれば,検索結果に

マークアップされたプロパティを反映 – NBDC横断検索,MEDALS横断検索の検索結果にも

反映予定  •  RDFa Liteの活用方法についても相談したいで

す!

•  マークアップされたデータベースが増えれば,大手の検索エンジンにも反映されるかも...

25