28th mtg

20
2014/1/23 第28回統合DBミーティング Integrated MTG in NIBIO

Transcript of 28th mtg

2014/1/23

第28回統合DBミーティング Integrated MTG in NIBIO

2

本日の予定 •  Sagace

‒  アクセス解析 ‒  進捗報告 ‒  Sagaceに追加するDBについて ‒  アンケート項目について

・医薬基盤研内のデータのRDF化 ‒  進捗報告

•  今後の予定 

3

アクセス解析(12月)

Sagaceに追加するDBについて

4

ファセット分類/ データベース名

NBDCヒトデータベース

データベースの種類 その他のデータベース

生物種 ヒト

生体の階層 ゲノム・遺伝子,個体

分類 B

進捗報告(近況)

•  JAPICから使用許可 ‒ 添付文書検索 ‒ 臨床試験情報検索

• 山中さんに基盤研のトップページにSagaceのリンクを貼って頂く

• BRC 細胞 リソースからメタデータの取り出しを交渉(OWLからのデータの取り出し)

5

進捗報告(開発版)

• DBを固定して検索する機能の追加

6

進捗報告

• MEDALS(DB)にmicrodataが導入 ‒ 論文のポップアップに対応

• http://sagace.nibio.go.jp/cgi-bin/sagace/search.cgi?action=search&keyword=forte

7

進捗報告 • Apache Solrについて

‒ Sagaceで実装している機能は実装可能 ‒ 分散検索(サーバーの分散した場合の検索) ‒ データベース毎の結果表記(件数の表記)も可能

‒ 全体的に速度も速い印象 ‒ NBDCと協力して数個のデータベースでの横断検索サービスのテストの提案をしたらどうか。

8

アンケートの実施について

• 昨年度と同様にウェブ上でのアンケートを実施予定

•  2月,3月開始。 • 対象者:創薬・疾患研究に関わる方。 • 人数:100人程度 • 目的:Sagaceの機能改善(別紙参照)

9

医薬基盤研内のデータのRDF化

•  実験動物研究資源バンク ‒  RDF化開始 ‒  8割程度は理研の動物バンクのデータと類似 ‒  purl(Persistent Uniform Resource Locator)を多用しているため,書き方などについてBH13.13で理研桝屋さんと相談することに。 •  purl.jpはNBDCが中心となってURL設計を行っている。http://bit.ly/1ecGCUk

•  NBDCが進めるDB統合推進事業に該当するプ  ロジェクトはドメイン/bio/以下のURIを使用 •  cf.http://purl.jp/bio/グループ番号/識別番号・記号

10

参考

•  理研で公開している  RDF形式のデータの  利用方法 •  biolod.orgにアクセス •  Mouse Strainをクリック

11

参考 •  http://ja.biolod.org/class/

cria315s1i/Mouse_Strain

•  ページ下部のDownload LOD filesから使用する形式のファイルをダウンロード

•  ここでは,semantic_web.ttl.txtを選択

12

もとのウェブサイト上の情報 (例:RBRC01389)

13

Turtle形式のファイルの中身

• ページ上部 •  prefixで使用している語の定義

14

@prefix BioLOD_property_pria315s15i: <http://purl.jp/bio/13/property/pria315s15i/> . @prefix BioLOD_class_crib158s72i: <http://purl.jp/bio/13/class/crib158s72i/> . @prefix BioLOD_property_pria315s6i: <http://purl.jp/bio/13/property/pria315s6i/> . @prefix BioLOD_class_crib139u1i: <http://purl.jp/bio/13/class/crib139u1i/> . @prefix BioLOD_class_crib23s57i: <http://purl.jp/bio/13/class/crib23s57i/> . @prefix BioLOD_class_cria111s1i: <http://purl.jp/bio/13/class/cria111s1i/> . ・・・・・

Turtle形式のファイルの中身(例:RBRC01389)

15

<http://purl.jp/bio/13/RBRC01389/cria315s1ria315u100000001389i> rdf:type BioLOD_class_cria315s1i:Mouse_Strain ; rdfs:label "Human AhR knock in mouse"@en ; cc:attributionURL <http://www2.brc.riken.jp/lab/animal/detail.php?brc_no=RBRC01389> ; BioLOD_property_pria315s13i:taxon <http://purl.jp/bio/13/10090/crib166u26rib166u10090i> ; BioLOD_property_pria315s14i:BRC_ID "RBRC01389"@en ; BioLOD_property_pria315s15i:Depositor "Masayuki YAMAMOTO"@en ; BioLOD_property_pria315s16i:Institute_Depositor <http://purl.jp/bio/13/Univ._Tsukuba/crio2046s1rio2046u615i> ; BioLOD_property_pria315s18i:Japanese_description "human AhR がノックインされたマウス"@en ; BioLOD_property_pria315s3i:BRC_Strain_Type <http://purl.jp/bio/13/Targeted_Knock-in/cria314s1ria314s15i> .

タイプ ラベル もとのURL

生物種

ID

保管者

保管所

説明

系統

RDF化をしていく上での問題点 •  (前提:RDFの要素はURLを持っていたほうが良い。) •  NIBIOのデータのSubjectをどうすべきか。NIBIOのみで使用しているpredicateに該当する情報はどう表記すべきか。 ‒  独自のURL or purl

•  predicateやobjectに理研で使用しているURLが該当しない場合にはどうするのか。 ‒  機関名や実験動物の提供までの時間については,理研に条件を追加してもらうほうが素直

•  公開方法,データの共有方法

16

参考: purlのメリット

• こちらでurlの設計を悩む必要が無い。 • RDF内のurlが変更されても,参照のpurlを変更してしまえば,RDFを変更する必要がない。

• NBDCが進めている4省連携に協力していることが示せる。

17

参考: purlのデメリット

• URIの設計を柔軟にできない。 • 参照箇所増加に寄る処理速度の低下の懸念

• 文科省系の機関に管理を任せるということが厚労省系のデータとしてどうなのか。

18

今後の予定 •  1月,2月

‒ 実験動物バンクのRDF化 ‒ 外部データベースとの連携 ‒  BioHackathon 国内版(1月27日~31日) ‒ アンケートの実施と集計

次回

•  2月21日(金)or 28日(金)? • 予定

‒ 実験動物研究資源バンクのRDF化の進捗 ‒ BioHackathon 国内版の報告

20