Cross search and_semantic_web_mbsj2013

50
生命科学分野の横断検索 サービスとセマンティック・ウェブ 医薬基盤研究所 伊藤真和吏 1

description

第36回日本分子生物学会年会のワークショップ"データベースを使い倒した新しい研究スタイルによる分子生物学"での発表資料を公開します。

Transcript of Cross search and_semantic_web_mbsj2013

Page 1: Cross search and_semantic_web_mbsj2013

生命科学分野の横断検索 サービスとセマンティック・ウェブ

医薬基盤研究所 伊藤真和吏

1

Page 2: Cross search and_semantic_web_mbsj2013

インターネット上での情報収集

2

Page 3: Cross search and_semantic_web_mbsj2013

Sagace 創薬・疾患研究のための生命科学分野のデータベースの横断検索サービス

http://sagace.nibio.go.jp/

3

Page 4: Cross search and_semantic_web_mbsj2013

4

h"p://integbio.jp/ja/

Page 5: Cross search and_semantic_web_mbsj2013

横断検索エンジンの仕組み

1.  CRAWLING 2.  INDEXING 3. QUERY PROCESSING

4. SCORING

5

Page 6: Cross search and_semantic_web_mbsj2013

CRAWLING

6

データベース

クローラー

Page 7: Cross search and_semantic_web_mbsj2013

INDEXING

•  データを便利なサイズに分割し,サーバー上へ保存

サーバー

Indexing Data

7

Page 8: Cross search and_semantic_web_mbsj2013

QUERY PROCESSING AND SCORING

8

Page 9: Cross search and_semantic_web_mbsj2013

NIBIO

MEDALS

JCGGDB  

NBDC  /  DBCLS

AgriTogo  

Collaborate by using P2P

architecture

SEARCH SYSTEM

9

Page 10: Cross search and_semantic_web_mbsj2013

横断検索サービス にとって

重要な事は何か

Page 11: Cross search and_semantic_web_mbsj2013

11

速さと正確さ

Page 12: Cross search and_semantic_web_mbsj2013

生命科学分野の 横断検索サービス

にとって 重要な事は何か

Page 13: Cross search and_semantic_web_mbsj2013

13

速さと正確さ

Page 14: Cross search and_semantic_web_mbsj2013

14

1日700名程度の利用

ログ解析を実施

Page 15: Cross search and_semantic_web_mbsj2013

どんなデータベースの 需要があるのか (Sagaceの場合)

•  ログを解析した結果,上位のデータベースは大体同じだった。 •  神8

–  特許  –  ゲノムネット医薬品データベース  –  医学・薬学予稿集全文データベース  –  お薬110番(ハイパー薬辞典)  –  「健康食品」の素材情報データベース  –  メルクマニュアル  –  医療情報サービスMINDS  –  ここカラダ お薬辞典  

15

Page 16: Cross search and_semantic_web_mbsj2013

ログの解析による データベース間の比較

•  人気のあるデータベースは医薬に関する“文字情報の多い”データベース

•  上位のデータベースに人気は集中 •  半分以上のデータベースはサービス開

始時(2012年3月)からクリックされていなかった。

16

Page 17: Cross search and_semantic_web_mbsj2013

Sagaceの取り組み

•  ログのデータを検索結果のランキングに反映

•  一度も検索されていないデータベースは検索対象から排除(272DB → 122DB)

17

速さと正確さが向上

Page 18: Cross search and_semantic_web_mbsj2013

18

しかし

Page 19: Cross search and_semantic_web_mbsj2013

19

生命科学分野の データベースは

文字情報が 少ないことも多い

Page 20: Cross search and_semantic_web_mbsj2013

20

どうするか?

Page 21: Cross search and_semantic_web_mbsj2013

21

セマンティックウェブ!

Page 22: Cross search and_semantic_web_mbsj2013

22

セマンティックウェブ?

Page 23: Cross search and_semantic_web_mbsj2013

セマンティックウェブとは

コンピュータが理解できる 意味付けされた データのウェブ

23

Page 24: Cross search and_semantic_web_mbsj2013

文書のウェブからデータのウェブへ

24 h"p://cellbank.nibio.go.jp/~cellbank/cgi-­‐bin/search_res_det.cgi?ID=3267

Page 25: Cross search and_semantic_web_mbsj2013

横断検索の検索結果

25

Page 26: Cross search and_semantic_web_mbsj2013

文書のウェブからデータのウェブへ

26 h"p://cellbank.nibio.go.jp/~cellbank/cgi-­‐bin/search_res_det.cgi?ID=3267

データ

データ

データ

データ

データ

データ

データ

データ

データ

データ

データ

データ データ

データ データ データ

データ

データ

データ

データ

データ

Page 27: Cross search and_semantic_web_mbsj2013

データのウェブ

27

ウェブページA ウェブページB

論文

細胞名

エントリーID

細胞名

疾患名

生物種

生物種 論文

エントリーID 疾患名

Page 28: Cross search and_semantic_web_mbsj2013

データのウェブ

28

ウェブページA ウェブページB

細胞名

生物種

ウェブページC ウェブページD

論文

細胞名

エントリーID

疾患名

生物種

論文

エントリーID

疾患名

疾患名

タンパク質名

データベース名

論文

データベース名

疾患名

論文

研究者名

論文

所属

Page 29: Cross search and_semantic_web_mbsj2013

Q. の疾患の掲載されているウェブページは?

29

ウェブページA ウェブページB

細胞名

生物種

ウェブページC ウェブページD

論文

細胞名

エントリーID

疾患名

生物種

論文

エントリーID

疾患名

疾患名

タンパク質名

データベース名

論文

データベース名

疾患名

論文

研究者名

論文

所属

A.ウェブページA,B,C,D

Page 30: Cross search and_semantic_web_mbsj2013

Q. の論文が掲載されているウェブページ数とそのデータベース名は?

30

ウェブページA ウェブページB

細胞名

生物種

ウェブページC ウェブページD

論文

細胞名

エントリーID

疾患名

生物種

論文

エントリーID

疾患名

疾患名

タンパク質名

データベース名

論文

データベース名

疾患名

論文

研究者名

論文

データベース名

A.2つ(ウェブページC,D),

Page 31: Cross search and_semantic_web_mbsj2013

31

どう書くのか?

Page 32: Cross search and_semantic_web_mbsj2013

32

A(の1つ).メタデータによる マークアップ

Page 33: Cross search and_semantic_web_mbsj2013

メタデータとは?

•  データの情報を示したデータ。

疾患:アルツハイマー病 生物種:ヒト 最終更新日:2012-10-24 文献:PubMed ID 23110816 関連するエントリ:OMIM 134400

33

Page 34: Cross search and_semantic_web_mbsj2013

検索結果への反映

•  文字情報が少なくても,何に関するデータなのかが推測できる。

34

Page 35: Cross search and_semantic_web_mbsj2013

どうメタデータを入れるのか?

•  HTMLタグにメタデータを追記するだけ

35

http://schema.org/BiologicalDatabaseEntry/dateModified

サンプルページ 2012-10-24

Page 36: Cross search and_semantic_web_mbsj2013

反映方法

•  クローラーはメタデータの目印を発見して

•  インデックスに導入し

•  検索結果に反映させることが出来ます

36

Page 37: Cross search and_semantic_web_mbsj2013

幸せ > 面倒 

•  データベース開発者 – 検索結果により多くの情報を掲載できるように  – データベースはそのままでメタデータが追記できる  

•  ユーザー – より有用な情報を簡単に得られるように  – 基礎研究と応用例を同時に比較しやすくなる  

•  クローラー – メタデータの検出のプログラムは1つで済む  

37

Page 38: Cross search and_semantic_web_mbsj2013

幸せ > 面倒 

•  データベース開発者 – メタデータを埋め込むのが面倒  

•  ユーザー – わざわざSagaceなんか使わなくとも良いデータ

ベースを知っている。  •  クローラー

– 幸せにしかなりません。すみません。  –  (DB開発者の皆さんに負担を強いるのが心苦しい)  

38

Page 39: Cross search and_semantic_web_mbsj2013

Sagaceだけの話?

•  いいえ。 •  Sagaceでサポートしているメタデータのマークアップ方式は

Microdata(とRDFa Lite) •  MicrodataはBing, Google, Yahoo!など大手検索サービ

ス提供企業が検索エンジンに利用をすることを協定しているマークアップ方式です。

•  例えSagaceが無くなっても •  頑張り次第で,大手の検索エンジンの検索結果にも先ほど

のようなデータが表示されます。

39

Page 40: Cross search and_semantic_web_mbsj2013

頑張り次第?

40

schema.orgへの 追加候補

schema.org

検索表示対象

イマココ

Page 41: Cross search and_semantic_web_mbsj2013

schema.orgとは

•  “schema.orgは、検索エンジン大手の Google、Microsoft、Yahoo! がウェブの改善を目的として共同で進めている、構造化データマークアップの共通仕様を策定する取り組み。”(https://support.google.com/webmasters/answer/1211158?hl=ja)

•  生命科学のメタデータが大手の検索エンジンの検索対象となるためには,ここに登録されることが必要条件。

41

Page 42: Cross search and_semantic_web_mbsj2013

現状

•  生命科学用のプロパティを策定しました。

– entryID,  isEntryOf,  taxon,  seeAlso,  reference  •  http://www.w3.org/wiki/WebSchemas/BioDatabases •  以下のプロパティも利用できます

–  image,disease,dateModified  •  Sagaceの検索結果には反映できるようにしています。 •  マークアップ方法は

•  h"p://sagace.nibio.go.jp/press/metadata/markup/ •  をご参照ください。

42

Page 43: Cross search and_semantic_web_mbsj2013

8つのDBが採用

•  DoBISCUIT(Database Of BIoSynthesis clusters CUrated and InTegrated)

•  JCRB細胞バンク •  Functional Glycomics with KO mice database •  Glyco-Disease Genes Database •  JCGGDB Report •  MEDALS •  Integbio データベースカタログ •  LSDBアーカイブ

43

Page 44: Cross search and_semantic_web_mbsj2013

検索結果例

44

Page 45: Cross search and_semantic_web_mbsj2013

検索結果例

45

Page 46: Cross search and_semantic_web_mbsj2013

希望

46

schema.orgへの 追加候補

schema.org

大手検索エンジン 検索表示対象

まずはここに行きたい

Page 47: Cross search and_semantic_web_mbsj2013

Schema.orgに正式に採用されるために

•  “NEED MORE PEOPLE WHO THINK IT IS A GOOD IDEA.” (BY ORGANIZERS @ SCHEMA.ORG)

– PUBLIC-­‐[email protected]  (<-­‐  ML  LET’S  JOIN  !)  

• より多くのデータベースのご協力が必要です。

47

Page 48: Cross search and_semantic_web_mbsj2013

microdata and RDFa Lite

•  microdata •  大手の検索エンジンへの採用をプッシュしたい。 •  とりあえず,メタデータを入れてみたい。

•  RDFa Lite •  既にRDFを多く利用している。 •  今後,RDFを積極的に作る予定がある。

Sagaceはどちらもサポートします。

48

Page 49: Cross search and_semantic_web_mbsj2013

Future Perspective

•  創薬疾患関連のデータベースを検索対象に追加 •  メタデータに文献データの追加 •  検索結果へのRDFa Liteの活用

49

Page 50: Cross search and_semantic_web_mbsj2013

謝辞

•  医薬基盤研究所 –  水口 賢司

–  森田 瑞樹

–  五十嵐 芳暢

–  坂手 龍一

–  長尾 知生子

–  陳 怡安

–  深川 明子

–  増井 徹  –  Johan  Nystrom-­‐Persson  

50

•  本プロジェクトはNBDCとの共同研究「医薬基盤研究所データベースの 統合化と外部連携」における支援を受けています。

•  バイオサイエンスデータベースセンター (NBDC)

•  農業生物資源研究所 (NIAS) •  産業技術総合研究所 創薬分

子プロファイリング研究センター (molprof)

•  産業技術総合研究所 糖鎖医工学研究センター (JCGGDB)