Swc2013 yamamoto
-
Upload
yayamamo-dbcls-kashiwanoha -
Category
Technology
-
view
4.839 -
download
0
Transcript of Swc2013 yamamoto
生命科学分野におけるデータベースの統合化を目指したLODの構築
ライフサイエンス統合データベースセンター山本泰智 ( @yayamamo )
13年3月7日木曜日
ライフサイエンス統合データベースセンター
生命科学分野のデータベースを使いやすくするために
2007年4月に誕生
現在、2期目のプロジェクトを遂行
13年3月7日木曜日
組織体系
DBCLS: ライフサイエンス統合データベースセンター
文部科学省
情報・システム研究機構
遺伝学研究所 DBCLS 情報学研究所 極地研 統計数理研究所
新領域融合研究センター
大学共同利用機関法人
We are heregpatague online porfolio
13年3月7日木曜日
生物関連情報の多様性
CK-12 Foundation© DBCLS Licensed under CC 表示 2.1 日本
© DBCLS Licensed under CC 表示 2.1 日本
13年3月7日木曜日
生命科学研究の対象としてのヒト
BodyParts3D © DBCLSlicensed under CC BY-SA 2.1 (数字は主にNCBIデータを参照)
=膨大
ヒトゲノム: 30億塩基対遺伝子: 2万数千個タンパク質 :10万以上SNP: 3千万個その他の生体分子(糖鎖, 脂質, 低分子) X細胞:200-300種類疾患:7000 (遺伝子の関係するもの)時間:発生, 発達, 概日周期, 老化 環境:生活習慣, 居住地 X 個人レベルの解析
13年3月7日木曜日
1994
2013
http://www.ncbi.nlm.nih.gov/sites/gquery
NCBI TaxonomyDatabase
GenBankEMBLDDBJdbESTdbSTSLANLPatent
4,000 biomedical journalsindexed at NLM
SWISSPROTPIRPRFPDBGenBankEMBLDDBJLANLPatent
4 DBs
37 DBs
3442 Nucleic Acids Research, 1994, Vol. 22, No. 17
13年3月7日木曜日
dullhunk
1078
1170
1230
1330
2008 2009 2010 2011
1100
1200
1300
1400
Source: Oxford University Press
2012
1380
93
92 databases added every year
NAR Database Issue
13年3月7日木曜日
生命科学研究の新たな転換期
生命科学の情報爆発
仮説検証型からデータ駆動型の科学への転換
多種多様なデータの標準化が鍵
13年3月7日木曜日
日本のライフサイエンスDBの問題点
● 複数主体によるバラバラのDB構築・管理
最適DBを見つける困難
利用法を把握する困難
信頼性を把握する困難
● 大型プロジェクトの成果公開が不十分
DBを用いた研究が困難
13年3月7日木曜日
多様なDBの統合化へ
第1段階DBを網羅的に収集しメタデータを付与する
第2段階DB毎にフォーマットと用語の統一を行う
第3段階複数のDBを再構築し、使いやすいインターフェースにまとめあげる
山口敦子(ライフサイエンス統合データベースセンター)、片山俊明(東京大学医科学研究所)
13年3月7日木曜日
http://lifesciencedb.jp/
13年3月7日木曜日
セマンティックウェブ技術を用いた統合へ
各DBをRDFを用いて(再)構築
オントロジーを関連組織と意見交換しつつ開発
BioHackathon、SPARQLthon
繋がる分散DB空間の構築を目指す
13年3月7日木曜日
略語DBや辞書のRDF化、LODへ開発事例
下記言語資源について行った
Allie: 生命科学分野の略語に関するDB
LSD: 生命科学分野の日英対訳辞書*
オントロジー構築とRDF化、DBpediaへのリンク付与
SPARQLエンドポイントの設置
* ライフサイエンス辞書プロジェクトによる編纂
13年3月7日木曜日
SPF
specific pathogen-free
特定病原体除去の
allie:LongForm
http://purl.org/allie/id/longform/1528191
http://purl.org/allie/id/pair/1547869
allie:EachPairhttp://purl.org/allie/id/pair/1547869
allie:ShortForm
"特定病原体除去の"@ja
"specific pathogen-free"@en
"SPF"@en
rdf:type
rdf:type
rdf:typerdfs:label
rdfs:label
rdfs:label
allie:hasLongFormOf
allie:hasShortFormOf
English
Japanese
Abbreviation
Long form
RDFデータの一部
13年3月7日木曜日
トリプル数圧縮後ファイルサイズ
Allie 2億1700万 1G程度
LSD 560万 39M
UniProt (参考) 50億 -
13年3月7日木曜日
LOD構築にまつわる課題
URIの設計
既存オントロジーの検索と選択
既存オントロジーのライセンス
適切なデータモデルの選択
13年3月7日木曜日
http://patterns.dataincubator.org/book/
RDFデータを構築し公開する際に参考となる資料
13年3月7日木曜日
RDFデータを利用する際に参考となる資料
13年3月7日木曜日
LOD構築周辺
作る良いエディタ
置く良いレポジトリ
探す良い検索サービス
使う良いライセンス
13年3月7日木曜日
レポジトリ (トリプルストア) 現状
実装の未成熟
スケールしにくい
非効率なSPARQLクエリ処理
UTF8処理の不備
SPARQL1.1への未対応
頑健性を欠く動作
13年3月7日木曜日
効率よく必要な開発を行うための集まり
関係者を一堂に集めて期間中に集中開発
BioHackathonは世界各地から開発者を招待
2013年は6月下旬にDBCLSにて開催
BioHackathon / SPARQLthon
13年3月7日木曜日
13年3月7日木曜日
ReduceReuseRecycle
Knowledge
”BodyParts3D, © ライフサイエンス統合データベースセンター licensed under CC表示 継承2.1 日本”
LOD
LOD
LODLOD
LOD
LOD
13年3月7日木曜日
LINKED DATA STANDARDS
13年3月7日木曜日
謝辞
川本祥子JSTライフサイエンスデータベース統合推進事業
13年3月7日木曜日