HP ProLiant ML350 G6サーバー ユーザー ガイドh20628. ProLiant ML350 G6サーバー ユーザー ガイド 摘要 このガイドは、サーバーおよびストレージ
有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23...
Transcript of 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23...
本日の講義に当たって
• 質問がありましたら、いつでも途中で止めてください。
• メディカルゲノムの学生の方へ–講義の最後にアンケートに記入して下さい。 → 出席とみなします。
本日の流れ
1配列の解析
・BLASTからのリンク
・Genome browser
・InterProScan
・PSORT
転写制御解析
・DBTSS
・Seqlogo
・JASPAR
・Melina II
大量データ解析
・大量データの照会
・Panther
・Babelomics
・+@
introduction
スタート:cDNA配列を得た
>cDNA_testCCCCTGCCCTCAACAAGATGTTTTGCCAACTGGCCAAGACCTGCCCTGTGCAGCTGTGGGTTGATTCCACACCCCCGCCCGGCACCCGCGTCCGCGCCATGGCCATCTACAAGCAGTCACAGCACATGACGGAGGTTGTGAGGCGCTGCCCCCACCATGAGCGCTGCTCAGATAGCGATGGTCTGGCCCCTCCTCAGCATCTTATCCGAGTGGAAGGAAATTTGCGTGTGGAGTATTTGGATGACAGAAACACTTTTCGACATAGTGTGGTGGTGCCCTATGAGCCGCCTGAGGTTGGCTCTGACTGTACCACCATCCACTACAACTACATGTGTAACAGTTCCTGCATGGGCGGCATGAACCGGAGGCCCATCCTCACCATCATCACACTGGAAGACTCCAGTGGTAATCTACTGGGACGGAACAGCTTTGAGGTGCGTGTTTGTGCCTGTCCTGGGAGAGACCGGCGCACAGAGGAAGAGAATCTCCGCAAGAAAGGGGAGCCTCACCACGAGCTGCCCCCAGGGAGCACTAAGCGAGCACTGCCCAACAACACCAGCTCCTCTCCCCAGCCAAAGAAGAAACCACTGGATGGAGAATATTTCACCCTTCAGATCCGTGGGCGTGAGC
クローニング
シークエンス
実験データから
NCBIでBLASTをかける• NCBI(http://www.ncbi.nlm.nih.gov/)
BLASTsearch
BLASTresult
各データベースへのリンク*UniGene
ESTを含めたcDNAを機械的にクラスタリングした物
*GEO
マイクロアレイによる発現データ (大林先生)
*Gene
Entrez Geneによる遺伝子のアノテーション
*Structure
立体構造(木下先生)
*Map viewer
ゲノム上での位置
EntrezGene
EntrezGene詳細1
EntrezGene:GO
遺伝子の機能を大まかに見積もることができる
遺伝子機能のデジタルな分類が可能
GeneOntology(GO)とはhttp://www.geneontology.org/
生物学用語の階層構造を表記
遺伝子のアノテーションとして使われる
GeneOntologyの例
似ている配列が発見できない・・・
• 1.その前に– その配列は、ゴミではありませんか?
• AAAAAAAA・・・・・等、クオリティに問題はありませんか?– 大腸菌の一部ではないですか?
• 大腸菌・ベクターをクローニングしてしまった・・・。
– 他の生物種は試してみましたか?• (トマトではないですか?)
• 2.ゲノムに当ててみよう。
GenomeBrowser
• NCBI– http://www.ncbi.nlm.nih.gov/Genomes/
• Ensembl– http://www.ensembl.org/index.html
• UCSC Genome browser– http://genome.ucsc.edu/
UCSCGenomebrowserhttp://genome.ucsc.edu/ ゲノムの総合的なデータベース
BLAT:ゲノムへのマッピング
Browser
detail
Genome browserの内側:download
自前のデータの追加
ゲノム配列
refGene.txt
26250行
ゲノムにマッピングの結果・・・
• 1.ゲノムにマッピングできた。– 報告されているESTはありますか?– その領域の保存はどうですか?
• 2.ゲノムにマッピングできない– 意味のある配列だと思いますか?
アミノ酸に翻訳して考えてみましょう
InterProScanによる機能推定http://www.ebi.ac.uk/Tools/InterProScan/タンパク質の機能モチーフ・ドメイン等の統合検索システム
InterProScan結果
InterProScan詳細
タンパク質の局在予測(PSORT)
http://psort.ims.u-tokyo.ac.jp/
WoLFPSORT
Paul Horton先生
WoLF PSORT結果
特徴の似ているタンパク質の局在を元に多数決を取る
本日の流れ
1配列の解析
・BLASTからのリンク
・Genome browser
・InterProScan
・PSORT
転写制御解析
・DBTSS
・Seqlogo
・JASPAR
・Melina II
大量データ解析
・大量データの照会
・Panther
・Babelomics
・+@
さて・・・
それで満足ですか?
転写制御(プロモータ)を調べてみよう
目的のcDNAの同定・あるいは類似配列がわかった。CDSのアノテーションはできた。ゲノム上のどこにあるか分かった
genome
mRNA(full) AAAA
転写開始領域の解析には5’端が保証された配列が不可欠
TTTTTTTTGenbankTTTT
Refseq cDNA TTTT
転写開始点はどこ?
5’端配列
プロモータ同定に必要な配列転写
TTTT完全長cDNA5’端が保証
転写開始点データベースDBTSS
http://dbtss.hgc.jp
• 5’端の保証された多量のcDNA配列– Oligo-capping法(東大医科研、かずさDNA研)– CAP-Trapper法(理研)
ゲノム
5’端配列
転写開始点 転写開始点
DBTSS:DataBaseofTranscritptionStartSites
!"#$ %#$!&# '()!$#* '&+""#, '-. '/!(0*/1$2 %#$!&# '()!$#* '&+""#, '-. '/!(0*/1$2
3#456 78869#"5 :%; 76;<87 666=>7 ;>>? @ @ @ @ @ @
3#457 7887.+45 :%66 <8877A 6>=><A ?==B @ &&6 ==<>7 6<B8B 7;>? @
3#45= 788=.+C5 :%6= <8877A 6?8?B< 667=< ?<;8 &&7 A>878? 6?A<<B ;A7< B>;A
3#45< 788<-!3 :%6B <8877A 7;;;?< 6AA=B 67;>8 &&= A>878? 7?8;6< 6666B 68?==
3#45A 788A9#" :%6; 6;>87?A 6=A?888 6?;A= 6A7B7 &&A A>878? =B<<>; 6<;<B 6<6B7
:0&+$ &!0*#
DBTSSデータ数
DBTSS登録遺伝子数
ヒト・マウス遺伝子の9割近い遺伝子について転写開始点情報がある
Ver. 5では
ヒト 19753 / 22682(87.1%)
マウス 14746 / 17213(85.7%)
Ver. 6 (2007 Sep)では、SOLEXAのデータを導入
DBTSS検索と結果
プロモータ配列の入手
比較ゲノム例
比較ゲノムによるプロモータ解析が可能
human
mouse
アライメントTSS付近詳細
局所アライメント
転写開始点の多様性
一つの遺伝子の転写開始点は一つとは限らない
そろっている 揺らぎがある
選択的
甲状腺
その他
代表転写開始点の決定
Case 1
Case 2
ignored
ignored
ORF5’UTR
TSS with max number ofclones
Median locus ofTSS
代表転写開始点をもとにしたプロモータ配列はダウンロード可能
fixedTSSsの定義
TSS>=50%,#clones>=10 ↓fixedTSS
425117TSSs(15262遺伝子)↓
#clones>=10408341TSSs(10578遺伝子)
925fixedTSS(925遺伝子)
DBTSS ver. 5を使用
Sequencelogo
Weblogohttp://weblogo.berkeley.edu/
Weblogoのホームページより引用
SEQLOGOhttp://www.bioinf.ebc.ee/EP/EP/
Sequencelogo
Ribosomal proteinのmRNATSS付近-10~+10 45種
SEQLOGO入力
配列
マトリックスも可
SEQLOGO結果
Ribosome protein遺伝子(45種)
それ以外の遺伝子(880種)
miRNAのdatabase
http://microrna.sanger.ac.uk/
miRBase::Targets入力
miRBase::Targets結果
miRBase::Sequences
miRBase::Sequences詳細1
pre-matureな配列
miRBase::Sequences詳細2
matureな配列
Motif検索の必要性• 同じように発現する遺伝子は、同じ転写因子によって制御されている?
遺伝子領域A
遺伝子領域B
遺伝子領域C
遺伝子領域D
プロモータ
モチーフ
どうやって、モチーフ、プロモータを求めるか
既知Motifの探索
• TRANSFAC– Publicは無償だが、有償の方がデータ多い– 重複がある。– DBTSSにLinkがある– http://www.biobase.de/
• JASPAR– 無償– 重複なし– http://jaspar.genereg.net
JASPAR:Toppage
JASPAR:入力画面
JASPAR:結果
FANTOM4
FunctionalAnnotationoftheMouse
FunctionalAnnotationoftheMammalianGenome
http://fantom.gsc.riken.jp/4/
未知Motifの探索の限界
確率的手法
・MEME、Gibbs、CONSENSUS….
! " # ! $ ! " ! #
" % & % % % % & % %
# % % & % % % % % &
! & % % & % & % & %
$ % % % % & % % % %
# % % & % % % % % &
$ % % % % & % % % %
" % & % % % % & % %
! & % % & % & % & %
# % % & % % % % % &
! " # ! $ ! " ! #
" % & % % % % & % %
# % % & % % % % % &
! & % % & % & % & %
$ % % % % & % % % %
# % % & % % % % % &
$ % % % % & % % % %
" % & % % % % & % %
! & % % & % & % & %
# % % & % % % % % &
! " # ! $ ! " ! #
" % & % % % % & % %
# % % ' % % % % % &
! & % % ( % & % & %
$ % % % % ) % % % %
# % % & % % % % % &
$ % % % % & % % % %
" % & % % % % & % %
! & % % & % & % ' %
# % % & % % % % % (
配列が3つだったら・・・・→ 3次元配列がnだったら ・・・・→ n次元!!!
既存の確率的手法の問題点• 得られたモチーフが最適解とは限らない• パラメータ調整の必要性• プログラム間での結果比較が難しい
Motif 1 sites sorted by position p-value--------------------------------------------------------------------------------Sequence name Start P-value Site ------------- ----- --------- ---------------SEQ8; 172 9.57e-10 CCCGGAGTAT CTCAATCGTAGATGA ATACCACTTTSEQ3; 112 9.57e-10 GTTATATTGG CTCAATCGTAGATGA AACCAGACTCSEQ5; 185 1.96e-09 ACGGGCAAGC CTCAATCGTAGAGGA T SEQ6; 105 2.82e-09 GTCAGCCGGT CTCAATCGTAGATCA GAGGCGAGAASEQ4; 173 4.67e-09 GTTCGAGAGC CTCAATCGTAGATAA CCTCTCTGGCSEQ2; 172 4.67e-09 AAGCGTCGTG CTCAATCGTAGATAA CAGAGGTCGGSEQ10; 3 7.52e-09 TT CTCAATCGTAGAGTA TGCTTAGAGGSEQ9; 93 7.52e-09 CGCCTAGAAA CTCAATCGTAGAGTA TCACGCACCGSEQ1; 52 9.33e-09 CTTTACTCGG CTCAATCGTAGAGGC GGTGCCGCGASEQ7; 177 1.95e-08 AAGTCTTTGA CTCAATCGTAGACCC AACACTTGA --------------------------------------------------------------------------------
MEME
MOTIF A
1-1 53 tttactcggc TCAATCGTAG aggcggtgcc 62 2-1 173 agcgtcgtgc TCAATCGTAG ataacagagg 182 3-1 113 ttatattggc TCAATCGTAG atgaaaccag 122 4-1 174 ttcgagagcc TCAATCGTAG ataacctctc 183 5-1 186 cgggcaagcc TCAATCGTAG aggat 195 6-1 106 tcagccggtc TCAATCGTAG atcagaggcg 115 7-1 178 agtctttgac TCAATCGTAG acccaacact 187 8-1 173 ccggagtatc TCAATCGTAG atgaatacca 182 9-1 94 gcctagaaac TCAATCGTAG agtatcacgc 10310-1 4 ttc TCAATCGTAG agtatgctta 13
Gibbs
モチーフ発見ツール Melina2
2.パラメータ、プログラムを設定
3.submit
1.配列をFASTAフォーマットで入力
Melina2結果画面
3.既知の類似モチーフ検索
2.sequence logo
1.モチーフを選択
Melina2結果画面
3.既知の類似モチーフ検索
2.sequence logo
1.モチーフを選択
4.プロモータ上の探索
本日の流れ
1配列の解析
・BLASTからのリンク
・Genome browser
・InterProScan
・PSORT
転写制御解析
・DBTSS
・Seqlogo
・JASPAR
・Melina II
大量データ解析
・大量データの照会
・Panther
・Babelomics
・+@
現代のニーズ = 大規模データの処理• 大規模データ技術の出現(microarray, 次世代シークエンサー・・・)• 研究では、大規模データを取り扱うこともある
• あるデータセットを与えたときに有意な情報を得たい
どんな情報が濃縮?
・GO
・regulation
全ての遺伝子
癌で高発現の遺伝子群
Pantherhttp://www.pantherdb.org/取り出した遺伝子群の特徴を解析できる
Panther
補正が必要
Babelomics
http://www.babelomics.org/
遅い!!
取り出した遺伝子群のや転写因子結合部位の推定
次世代シークエンサーとにかく今までのシーケンサーとは桁が違う
454: 500 bp * 1,000,000 reads
Solid, SOLEXA: 25~50(70bp) * 100,000,000~
1 runで出てくる画像ファイルは1T以上
次世代シークエンサーデータの解析
Web経由でできるツールは、現状はない
いくつかのソフトウェアは使用可能
Mapping: Maq, SOAP, BowTie, TopHat
Assemble: velvet, GSassembly
別途ご相談下さい。。。
mapping
assemble
参考文献
Database issue
Web server issue
少しだけコンピュータの宣伝
• 便利なツールがあるので、できるだけそれを利用
• 大量に処理したいときには向いていないこともある・・・
ほんの少しのコンピュータの知識でも、かなりのことができます。
1.UNIX
2.R (http://www.r-project.org/)
3.Perl, ruby, python, C++, C・・・
例えば
問 refGene.txtを利用して、染色体ごとの遺伝子数を求めよ。
cut -f 3 refGene.txt | sort |uniq -c
Mac OSXであればすぐにできます。1.アプリケーション
ー ユーティリティ
ー ターミナルを立ち上げる
2.refGene.txtをデスクトップに置く
3. cd ~/Desktop
4. cut -f 3 refGene.txt | sort |uniq -c
HGCスーパーコンピュータwebページhttps://supcom.hgc.jp/japanese/
申請書を
ダウンロード
HGCスーパーコンピュータ
メモリ 2T
最後に
• 本日のスライドは– http://www.hgc.jp/~ryamasi/othersに置いておきます。
• 何かご質問等ありましたらお気軽に[email protected]までメール下さい。