150304 science council of japan-kawaji

12
ゲノミクス分野でのデータ共有状況と、 その再利用を促進するScientific Data川路英哉 (理化学研究所) KAWAJI, Hideya (RIKEN) <[email protected]> Data sharing in genomics and the "Scientific Data” journal driving reproducible science

Transcript of 150304 science council of japan-kawaji

Page 1: 150304 science council of japan-kawaji

ゲノミクス分野でのデータ共有状況と、 その再利用を促進するScientific Data誌

川路英哉 (理化学研究所) KAWAJI, Hideya (RIKEN) <[email protected]>

Data sharing in genomics and the "Scientific Data” journal driving reproducible science

Page 2: 150304 science council of japan-kawaji

Genomics

遺伝形質、リスク因子

環境応答、細胞機能、病状

Medical care

http://www.allvectors.com/

ゲノム配列 DNA塩基対の並び

受け継いだ情報

遺伝子発現 エピジェネティクス

細胞毎の個性

Page 3: 150304 science council of japan-kawaji

Genomics

ゲノム配列 DNA塩基対の並び

受け継いだ情報

遺伝子発現 エピジェネティクス

細胞毎の個性

Page 4: 150304 science council of japan-kawaji

Genomics

論文

公共レポジトリGenBank/EMBL/DDBJ SRA/ERA/DRA

Page 5: 150304 science council of japan-kawaji

• 大規模にデータを取ったが、革新的な発見はなかった   (そのため、データの品質としては良いのに出版されなかった)

• データが整理されていなかった (解釈は論文にきちんと示されているけれど…)

• 論文にアクセスできなかった (「円安で、購読できなくなった」「研究費減額と共に、図書予算も減額」等)

• データにアクセスできなかった            (「検体提供者の同意が無いため、登録できない」「知財権の共有を含む共同研究」 等)

データ再利用を阻む要素

Page 6: 150304 science council of japan-kawaji

Genomics

論文

公共レポジトリGenBank/EMBL/DDBJ GEO/ArrayExpress SRA/ERA/DRA

データの詳細!(半)構造化メタデータ

data descriptor

Page 7: 150304 science council of japan-kawaji

Get Credit for Sharing Your Data Publications will be indexed and citeable. 引用可能な形で、査読を経た論文としてデータを公開できるため、研究データの登録や共有に対するクレジットが得られる

Open-access Creative Commons licenses (CC-BY/CC-BY-NC) for the main Data Descriptor. Each publication supported by CCO metadata. 全てのユーザーが出版されたデータ記述とデータセットを利用可能 !Focused on Data Reuse All the information others need to reuse the data; no interpretative analysis, or hypothesis testing 他者がデータを再利用するのに必要な情報のみ出版;分析や仮説検証などを含まない

!Peer-reviewed Rigorous peer-review focused on technical data quality and reuse valueデータが該当する研究コミュニティーで標準的な形式・内容かどうかに焦点を当て、データの品質と再利用性について厳格な査読を行う !Promoting Community Data Repositories Not a new data repository; data stored in community data repositories 本誌は新しいデータリポジトリではなく、データセット自体は各研究コミュニティーに認知されたリポジトリを利用 するので、リポジトリ活用も促進する

Page 8: 150304 science council of japan-kawaji

Sections: • Title • Abstract • Background & Summary • Methods • Technical Validation • Data Records • Usage Notes • Figures & Tables • References • Data Citations

The ‘Data Descriptor’ articleDetailed descriptions of the methods and technical analyses supporting the quality of the measurements. Does not contain tests of new scientific hypotheses 実験やデータ収集の質を保障する技術的分析や方法の詳細な記述。新たな科学的仮説の検証は含まない。

Get credit.

Page 9: 150304 science council of japan-kawaji

!!!

Article  type:Peer-­‐reviewed  “Data  Descriptor”.    Editorial  teamManaging  Editor  (Andrew  Hufton) Editorial  Curator  (Varsha  Khodiyar) Honorary  Academic  Editor  (Susanna  Sansone,  Oxford) Advisory  Panel  and  Editorial  Board  Open  access  article  processing  charge $1,350  USD  /  £890  GBP  /  ¥145,500  for  each  accepted  article

Scientific Data – launched May 2014Open  access.

Page 10: 150304 science council of japan-kawaji

!!!Experimental metadata or

structured component (in-house curated, machine-readable metadata with each

article)

Article or narrative

component (PDF and HTML)

Narrative description coupled with meta data

Data reuse

Page 11: 150304 science council of japan-kawaji

Peer review at Scientific Data

Focuses on:

• Completeness (can others reproduce?) 完全性(データを他者が再現し再利用できるか?)

• Consistency (were community standards followed?) 一貫性(コミュニティーの報告基準に従っているか?)

• Integrity (are data in the best repository?) 整合性(データは適切なリポジトリに登録されているか?)

• Experimental rigour and technical quality(were the methods sound?) 実験の厳密さと技術的品質(実験方法は有効か?)

Does not focus on: • Perceived impact/importance 予測されるインパクトや重要性

• Size/complexity of data データの規模や複雑さ

Peer-reviewed

with community.

Page 12: 150304 science council of japan-kawaji

• 「インセンティブ」を機能させる • 重要な(、しかし評価されにくい)ネガティブデータの評価 • 質の高い共有の評価

!• 「ピアレビュー」を機能させる

• 研究はそもそも、標準化しづらい                 (新しいことをやるのが研究)

• 形式的な標準化に加え、詳細を理解できる記述 (“Narrative” )

• Dual publicationを避ける - ヒトによって定義が曖昧

!• “フリーミアム” データの継続性 !

• 臨床データを扱う仕組みづくり • プライバシーと有用性のバランスが必要。 制限アクセスレポジトリの強化・拡充そして義務化。

!• 競争的資金、人材評価、ポジション

• データ生産者でないと、分野で評価されにくい • メソッド開発者でないと、情報科学として評価されにくい • データを確実に扱い、解釈する地に足のついた研究者は…

2014年春、!スタートした!ばかり。

ジャーナルだけでは!解決できない課題も