Cross search and_semantic_web_mbsj2013
-
Upload
maori-ito -
Category
Health & Medicine
-
view
598 -
download
6
description
Transcript of Cross search and_semantic_web_mbsj2013
生命科学分野の横断検索 サービスとセマンティック・ウェブ
医薬基盤研究所 伊藤真和吏
1
インターネット上での情報収集
2
Sagace 創薬・疾患研究のための生命科学分野のデータベースの横断検索サービス
http://sagace.nibio.go.jp/
3
4
h"p://integbio.jp/ja/
横断検索エンジンの仕組み
1. CRAWLING 2. INDEXING 3. QUERY PROCESSING
4. SCORING
5
CRAWLING
6
データベース
クローラー
INDEXING
• データを便利なサイズに分割し,サーバー上へ保存
サーバー
Indexing Data
7
QUERY PROCESSING AND SCORING
8
NIBIO
MEDALS
JCGGDB
NBDC / DBCLS
AgriTogo
Collaborate by using P2P
architecture
SEARCH SYSTEM
9
横断検索サービス にとって
重要な事は何か
11
速さと正確さ
生命科学分野の 横断検索サービス
にとって 重要な事は何か
13
速さと正確さ
14
1日700名程度の利用
ログ解析を実施
どんなデータベースの 需要があるのか (Sagaceの場合)
• ログを解析した結果,上位のデータベースは大体同じだった。 • 神8
– 特許 – ゲノムネット医薬品データベース – 医学・薬学予稿集全文データベース – お薬110番(ハイパー薬辞典) – 「健康食品」の素材情報データベース – メルクマニュアル – 医療情報サービスMINDS – ここカラダ お薬辞典
15
ログの解析による データベース間の比較
• 人気のあるデータベースは医薬に関する“文字情報の多い”データベース
• 上位のデータベースに人気は集中 • 半分以上のデータベースはサービス開
始時(2012年3月)からクリックされていなかった。
16
Sagaceの取り組み
• ログのデータを検索結果のランキングに反映
• 一度も検索されていないデータベースは検索対象から排除(272DB → 122DB)
17
速さと正確さが向上
18
しかし
19
生命科学分野の データベースは
文字情報が 少ないことも多い
20
どうするか?
21
セマンティックウェブ!
22
セマンティックウェブ?
セマンティックウェブとは
コンピュータが理解できる 意味付けされた データのウェブ
23
文書のウェブからデータのウェブへ
24 h"p://cellbank.nibio.go.jp/~cellbank/cgi-‐bin/search_res_det.cgi?ID=3267
横断検索の検索結果
25
文書のウェブからデータのウェブへ
26 h"p://cellbank.nibio.go.jp/~cellbank/cgi-‐bin/search_res_det.cgi?ID=3267
データ
データ
データ
データ
データ
データ
データ
データ
データ
データ
データ
データ データ
データ データ データ
データ
データ
データ
データ
データ
データのウェブ
27
ウェブページA ウェブページB
論文
細胞名
エントリーID
細胞名
疾患名
生物種
生物種 論文
エントリーID 疾患名
データのウェブ
28
ウェブページA ウェブページB
細胞名
生物種
ウェブページC ウェブページD
論文
細胞名
エントリーID
疾患名
生物種
論文
エントリーID
疾患名
疾患名
タンパク質名
データベース名
論文
データベース名
疾患名
論文
研究者名
論文
所属
Q. の疾患の掲載されているウェブページは?
29
ウェブページA ウェブページB
細胞名
生物種
ウェブページC ウェブページD
論文
細胞名
エントリーID
疾患名
生物種
論文
エントリーID
疾患名
疾患名
タンパク質名
データベース名
論文
データベース名
疾患名
論文
研究者名
論文
所属
A.ウェブページA,B,C,D
Q. の論文が掲載されているウェブページ数とそのデータベース名は?
30
ウェブページA ウェブページB
細胞名
生物種
ウェブページC ウェブページD
論文
細胞名
エントリーID
疾患名
生物種
論文
エントリーID
疾患名
疾患名
タンパク質名
データベース名
論文
データベース名
疾患名
論文
研究者名
論文
データベース名
A.2つ(ウェブページC,D),
31
どう書くのか?
32
A(の1つ).メタデータによる マークアップ
メタデータとは?
• データの情報を示したデータ。
疾患:アルツハイマー病 生物種:ヒト 最終更新日:2012-10-24 文献:PubMed ID 23110816 関連するエントリ:OMIM 134400
33
検索結果への反映
• 文字情報が少なくても,何に関するデータなのかが推測できる。
34
どうメタデータを入れるのか?
• HTMLタグにメタデータを追記するだけ
35
http://schema.org/BiologicalDatabaseEntry/dateModified
サンプルページ 2012-10-24
反映方法
• クローラーはメタデータの目印を発見して
• インデックスに導入し
• 検索結果に反映させることが出来ます
36
幸せ > 面倒
• データベース開発者 – 検索結果により多くの情報を掲載できるように – データベースはそのままでメタデータが追記できる
• ユーザー – より有用な情報を簡単に得られるように – 基礎研究と応用例を同時に比較しやすくなる
• クローラー – メタデータの検出のプログラムは1つで済む
37
幸せ > 面倒
• データベース開発者 – メタデータを埋め込むのが面倒
• ユーザー – わざわざSagaceなんか使わなくとも良いデータ
ベースを知っている。 • クローラー
– 幸せにしかなりません。すみません。 – (DB開発者の皆さんに負担を強いるのが心苦しい)
38
Sagaceだけの話?
• いいえ。 • Sagaceでサポートしているメタデータのマークアップ方式は
Microdata(とRDFa Lite) • MicrodataはBing, Google, Yahoo!など大手検索サービ
ス提供企業が検索エンジンに利用をすることを協定しているマークアップ方式です。
• 例えSagaceが無くなっても • 頑張り次第で,大手の検索エンジンの検索結果にも先ほど
のようなデータが表示されます。
39
頑張り次第?
40
schema.orgへの 追加候補
schema.org
検索表示対象
イマココ
schema.orgとは
• “schema.orgは、検索エンジン大手の Google、Microsoft、Yahoo! がウェブの改善を目的として共同で進めている、構造化データマークアップの共通仕様を策定する取り組み。”(https://support.google.com/webmasters/answer/1211158?hl=ja)
• 生命科学のメタデータが大手の検索エンジンの検索対象となるためには,ここに登録されることが必要条件。
41
現状
• 生命科学用のプロパティを策定しました。
– entryID, isEntryOf, taxon, seeAlso, reference • http://www.w3.org/wiki/WebSchemas/BioDatabases • 以下のプロパティも利用できます
– image,disease,dateModified • Sagaceの検索結果には反映できるようにしています。 • マークアップ方法は
• h"p://sagace.nibio.go.jp/press/metadata/markup/ • をご参照ください。
42
8つのDBが採用
• DoBISCUIT(Database Of BIoSynthesis clusters CUrated and InTegrated)
• JCRB細胞バンク • Functional Glycomics with KO mice database • Glyco-Disease Genes Database • JCGGDB Report • MEDALS • Integbio データベースカタログ • LSDBアーカイブ
43
検索結果例
44
検索結果例
45
希望
46
schema.orgへの 追加候補
schema.org
大手検索エンジン 検索表示対象
まずはここに行きたい
Schema.orgに正式に採用されるために
• “NEED MORE PEOPLE WHO THINK IT IS A GOOD IDEA.” (BY ORGANIZERS @ SCHEMA.ORG)
– PUBLIC-‐[email protected] (<-‐ ML LET’S JOIN !)
• より多くのデータベースのご協力が必要です。
47
microdata and RDFa Lite
• microdata • 大手の検索エンジンへの採用をプッシュしたい。 • とりあえず,メタデータを入れてみたい。
• RDFa Lite • 既にRDFを多く利用している。 • 今後,RDFを積極的に作る予定がある。
Sagaceはどちらもサポートします。
48
Future Perspective
• 創薬疾患関連のデータベースを検索対象に追加 • メタデータに文献データの追加 • 検索結果へのRDFa Liteの活用
49
謝辞
• 医薬基盤研究所 – 水口 賢司
– 森田 瑞樹
– 五十嵐 芳暢
– 坂手 龍一
– 長尾 知生子
– 陳 怡安
– 深川 明子
– 増井 徹 – Johan Nystrom-‐Persson
50
• 本プロジェクトはNBDCとの共同研究「医薬基盤研究所データベースの 統合化と外部連携」における支援を受けています。
• バイオサイエンスデータベースセンター (NBDC)
• 農業生物資源研究所 (NIAS) • 産業技術総合研究所 創薬分
子プロファイリング研究センター (molprof)
• 産業技術総合研究所 糖鎖医工学研究センター (JCGGDB)