Swc2013 yamamoto

25
生命科学分野におけるデータベースの 統合化を目指したLODの構築 ライフサイエンス統合データベースセンター 山本泰智 ( @yayamamo ) 1337日木曜日

Transcript of Swc2013 yamamoto

Page 1: Swc2013 yamamoto

生命科学分野におけるデータベースの統合化を目指したLODの構築

ライフサイエンス統合データベースセンター山本泰智 ( @yayamamo )

13年3月7日木曜日

Page 2: Swc2013 yamamoto

ライフサイエンス統合データベースセンター

生命科学分野のデータベースを使いやすくするために

2007年4月に誕生

現在、2期目のプロジェクトを遂行

13年3月7日木曜日

Page 3: Swc2013 yamamoto

組織体系

DBCLS: ライフサイエンス統合データベースセンター

文部科学省

情報・システム研究機構

遺伝学研究所 DBCLS 情報学研究所 極地研 統計数理研究所

新領域融合研究センター

大学共同利用機関法人

We are heregpatague online porfolio

13年3月7日木曜日

Page 4: Swc2013 yamamoto

生物関連情報の多様性

CK-12 Foundation© DBCLS Licensed under CC 表示 2.1 日本

© DBCLS Licensed under CC 表示 2.1 日本

13年3月7日木曜日

Page 5: Swc2013 yamamoto

生命科学研究の対象としてのヒト

BodyParts3D © DBCLSlicensed under CC BY-SA 2.1 (数字は主にNCBIデータを参照)

=膨大

ヒトゲノム: 30億塩基対遺伝子:   2万数千個タンパク質 :10万以上SNP:    3千万個その他の生体分子(糖鎖, 脂質, 低分子)        X細胞:200-300種類疾患:7000 (遺伝子の関係するもの)時間:発生, 発達, 概日周期, 老化 環境:生活習慣, 居住地        X 個人レベルの解析

13年3月7日木曜日

Page 6: Swc2013 yamamoto

1994

2013

http://www.ncbi.nlm.nih.gov/sites/gquery

NCBI TaxonomyDatabase

GenBankEMBLDDBJdbESTdbSTSLANLPatent

4,000 biomedical journalsindexed at NLM

SWISSPROTPIRPRFPDBGenBankEMBLDDBJLANLPatent

4 DBs

37 DBs

3442 Nucleic Acids Research, 1994, Vol. 22, No. 17

13年3月7日木曜日

Page 7: Swc2013 yamamoto

dullhunk

1078

1170

1230

1330

2008 2009 2010 2011

1100

1200

1300

1400

Source: Oxford University Press

2012

1380

93

92 databases added every year

NAR Database Issue

13年3月7日木曜日

Page 8: Swc2013 yamamoto

生命科学研究の新たな転換期

生命科学の情報爆発

仮説検証型からデータ駆動型の科学への転換

多種多様なデータの標準化が鍵

13年3月7日木曜日

Page 9: Swc2013 yamamoto

日本のライフサイエンスDBの問題点

● 複数主体によるバラバラのDB構築・管理

最適DBを見つける困難

利用法を把握する困難

信頼性を把握する困難

● 大型プロジェクトの成果公開が不十分

DBを用いた研究が困難

13年3月7日木曜日

Page 10: Swc2013 yamamoto

多様なDBの統合化へ

第1段階DBを網羅的に収集しメタデータを付与する

第2段階DB毎にフォーマットと用語の統一を行う

第3段階複数のDBを再構築し、使いやすいインターフェースにまとめあげる

山口敦子(ライフサイエンス統合データベースセンター)、片山俊明(東京大学医科学研究所)

13年3月7日木曜日

Page 11: Swc2013 yamamoto

http://lifesciencedb.jp/

13年3月7日木曜日

Page 12: Swc2013 yamamoto

セマンティックウェブ技術を用いた統合へ

各DBをRDFを用いて(再)構築

オントロジーを関連組織と意見交換しつつ開発

BioHackathon、SPARQLthon

繋がる分散DB空間の構築を目指す

13年3月7日木曜日

Page 13: Swc2013 yamamoto

略語DBや辞書のRDF化、LODへ開発事例

下記言語資源について行った

Allie: 生命科学分野の略語に関するDB

LSD: 生命科学分野の日英対訳辞書*

オントロジー構築とRDF化、DBpediaへのリンク付与

SPARQLエンドポイントの設置

* ライフサイエンス辞書プロジェクトによる編纂

13年3月7日木曜日

Page 14: Swc2013 yamamoto

SPF

specific pathogen-free

特定病原体除去の

allie:LongForm

http://purl.org/allie/id/longform/1528191

http://purl.org/allie/id/pair/1547869

allie:EachPairhttp://purl.org/allie/id/pair/1547869

allie:ShortForm

"特定病原体除去の"@ja

"specific pathogen-free"@en

"SPF"@en

rdf:type

rdf:type

rdf:typerdfs:label

rdfs:label

rdfs:label

allie:hasLongFormOf

allie:hasShortFormOf

English

Japanese

Abbreviation

Long form

RDFデータの一部

13年3月7日木曜日

Page 15: Swc2013 yamamoto

トリプル数圧縮後ファイルサイズ

Allie 2億1700万 1G程度

LSD 560万 39M

UniProt (参考) 50億 -

13年3月7日木曜日

Page 16: Swc2013 yamamoto

LOD構築にまつわる課題

URIの設計

既存オントロジーの検索と選択

既存オントロジーのライセンス

適切なデータモデルの選択

13年3月7日木曜日

Page 17: Swc2013 yamamoto

http://patterns.dataincubator.org/book/

RDFデータを構築し公開する際に参考となる資料

13年3月7日木曜日

Page 18: Swc2013 yamamoto

RDFデータを利用する際に参考となる資料

13年3月7日木曜日

Page 19: Swc2013 yamamoto

LOD構築周辺

作る良いエディタ

置く良いレポジトリ

探す良い検索サービス

使う良いライセンス

13年3月7日木曜日

Page 20: Swc2013 yamamoto

レポジトリ (トリプルストア) 現状

実装の未成熟

スケールしにくい

非効率なSPARQLクエリ処理

UTF8処理の不備

SPARQL1.1への未対応

頑健性を欠く動作

13年3月7日木曜日

Page 21: Swc2013 yamamoto

効率よく必要な開発を行うための集まり

関係者を一堂に集めて期間中に集中開発

BioHackathonは世界各地から開発者を招待

2013年は6月下旬にDBCLSにて開催

BioHackathon / SPARQLthon

13年3月7日木曜日

Page 22: Swc2013 yamamoto

13年3月7日木曜日

Page 23: Swc2013 yamamoto

ReduceReuseRecycle

Knowledge

”BodyParts3D, © ライフサイエンス統合データベースセンター licensed under CC表示 継承2.1 日本”

LOD

LOD

LODLOD

LOD

LOD

13年3月7日木曜日

Page 24: Swc2013 yamamoto

LINKED DATA STANDARDS

13年3月7日木曜日

Page 25: Swc2013 yamamoto

謝辞

川本祥子JSTライフサイエンスデータベース統合推進事業

13年3月7日木曜日