Spotfire_8

Post on 06-May-2015

510 views 3 download

Transcript of Spotfire_8

次世代シークエンサから得られる大規模データにおける

Spotfireを用いた解析手法

第8回スポットファイアーユーザ総会

ライフサイエンス統合データベースセンター リサーチアシスタント  奥田裕樹

今日お話すること

大量のデータを

Spotfireで

どのように処理するのか

次世代シークエンサから出る

自己紹介• 奥田裕樹

• DBCLS リサーチアシスタント

• 新世代DNA塩基配列解析技術の開発

http://g86.dbcls.jp/~yag/wordpress/twitter id : yag_ays

自己紹介• Spotfireとの関わり

• Spotfire 3.0から

• 個人的な解析のみ

• これまで第7回ユーザ総会および第9回ユーザ会ワークショップに参加

次世代シークエンサ• サンガー法などの従来の方法とは異なるゲノム解読装置

• 短い塩基配列を大量に読む• 利用方法・de novoアセンブリ・RNA-Seq

・ChIP-Seq

・エピゲノム・SNP探索

次世代シークエンサのスペック

read length(base)

day / run base/run(Gb)

Solexa (50bp)

SOLiD3

454 FLX Ti (330bp)

75 9.5 20.5 - 25

50 6 - 7 20 - 30

400 0.4 0.4 - 0.6

http://spreadsheets.google.com/pub?key=tQ5PDSBsSTkLXhDQFugandg&output=html

遺伝子発現解析発現量

発現領域

• 発現量の絶対定量• わずかな発現量も検出できる

• 発現領域決定(高解像度)

http://g86.dbcls.jp/mtblm/b/NM_133977

Cell

RNA fragments

mRNAAAAAA

AAAAAAAAAA

Mapping

ORF

gt ag ag

or

発現領域・発現量の推定• 読んだ配列をマッピング

• エキソン・イントロン領域を推定

• FPKM (Fragments Per Kilobase of exon model per Million mapped fragments)  で正規化

遺伝子ID発現領域発現量

今回使用するデータRefseq id diff FPKM...etc

Reference

Analyzed data

diff

Spotfire解析画面

組織1

組織2

組織3

発現量が高く発現領域の差が大きい

外部データベースの活用• 大量のデータから絞り込んだ特定の 遺伝子の特徴などを外部データベースで検索する

Spotfireからブラウザへ• レンダラーの設定

http://g86.dbcls.jp/mtblm/

今後の予定• 次世代シークエンサの解析パイプラインを作成し,Spotfire側で用意したフレームワークと連携

http://g86.dbcls.jp/~yag/spotfire.pdfスライド