バイオインフォマティクス演習 スクリプトプログラミン …bioruby.org/archive/doc/Japanese/BR040716-k.pdf様々なプログラミング言語 プログラムの作成と実行
2019 第4回バイオインフォマティクス実習€¦ ·...
Transcript of 2019 第4回バイオインフォマティクス実習€¦ ·...
![Page 1: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/1.jpg)
2019年度第4回バイオインフォマティクス実習
先端医科学研究センター バイオインフォマティクス解析室中林潤
![Page 2: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/2.jpg)
ATAC‐seqデータ解析• bed formatピークファイルをUCSC genome browserにアップロード
•ピーク領域の配列をTable Browserで取得
• MEME Suiteでピーク領域配列のモチーフ検索
![Page 3: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/3.jpg)
カバー率 = (N × L) / G : 1塩基当りの断⽚数リード数 : Nリード数 : Lゲノム⻑ : G
…AGGTGCATGCCGCATCGATCGAGC…
AGGTGCATGGCATGCCGCAT
GCATCGATCGAGC
paired endsingle end
ゲノム
リード
Next Generation Sequencer (NGS)
DNAを断⽚化して配列を読む→参照ゲノムにマッピング→配列を再構成する
カバー率が⼗分でないと正確な配列情報が得られない。
![Page 4: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/4.jpg)
ChIP‐seq
![Page 5: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/5.jpg)
ATAC‐seq
Tn5 transposase
insertion
insertion sequence as a primerPCR amplification
NGSmapped onto reference genome
![Page 6: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/6.jpg)
⽂字の羅列︖
thoughyetofhamletourdearbrothersdeaththememorybegreenandthatitusbefittedtobearourheartsingriefandourwholekingdomtobecontractedinonebrowofwoeyetsofarhathdiscretionfoughtwithnaturethatwewithwisestsorrowthinkonhimtogetherwithremembranceofourselvesthereforeoursometimesisternowourqueentheimperialjointresstothiswarlikestatehaveweastwerewithadefeatedjoywithanauspiciousandadroppingeyewithmirthinfuneralandwithdirgeinmarriageinequalscaleweighingdelightanddoletakentowifenorhavewehereinbarrdyourbetterwisdomswhichhavefreelygone15withthisaffairalongforallourthanks
![Page 7: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/7.jpg)
ハムレットのせりふ
thoughyetofhamletourdearbrothersdeaththememorybegreenandthatitusbefittedtobearourheartsingriefandourwholekingdomtobecontractedinonebrowofwoeyetsofarhathdiscretionfoughtwithnaturethatwewithwisestsorrowthinkonhimtogetherwithremembranceofourselvesthereforeoursometimesisternowourqueentheimperialjointresstothiswarlikestatehaveweastwerewithadefeatedjoywithanauspiciousandadroppingeyewithmirthinfuneralandwithdirgeinmarriageinequalscaleweighingdelightanddoletakentowifenorhavewehereinbarrdyourbetterwisdomswhichhavefreelygone15withthisaffairalongforallourthanks
![Page 8: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/8.jpg)
Motif
#1 GACAGAAAGGGCAAAGAGGAAGTGAAAGCTAAGAAGACT#2 GTCCCCTGAAAGTAAGAGGAAGTGAAAGCTGTCTGCTGG#3 TGCCAAACATGGAAAGGGGAAGTGAAAGAGACAGACGTA#4 GGTCTCATGGGAAAACAGGAAGTGAAAGCACAACTAAGA#5 TGGCCTGGCTGAAAGGGGGAAGTGAAAGCGAGGTGAACT#6 TCTTAACCTGACAAACAGGAAGTGAAAGTACCTTTCGGG
specific sequence repeatedly observed in genome DNA↓
functionally and biologically significant region↓
motif
![Page 9: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/9.jpg)
モチーフ解析
• 30億塩基対の配列から特定の配列を⾒つける• 総当り計算時間→ 30億の2乗不可能
• MEME Suiteを⽤いたモチーフ検索
![Page 10: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/10.jpg)
データのダウンロードGEOデータベースGSM2937018GSM2937018_ATAseq‐EGFP‐1_peaks.narrowPeak.gz
http://ncbi.nlm.nih.gov/geo
![Page 11: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/11.jpg)
Bed file format
染色体番号 スタートポジション エンドポジション ID 数値 ストランド
chr1 191423 191584 EGFP1_peak_1 71 +
chr1 629825 630062 EGFP1_peak_2 763 +
chr1 633909 634155 EGFP1_peak_3 764 +
・・・
ピークの位置を記述するフォーマット
![Page 12: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/12.jpg)
UCSC genome browser
http://genome.ucsc.edu
Genomes項⽬から該当する参照ゲノムを選択する今回はhg38
add custom tracksボタンをクリック
![Page 13: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/13.jpg)
custom trackのアップロード
ファイルを選択をクリックbedファイルを選択submitボタンをクリック
![Page 14: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/14.jpg)
custom trackのアップロード
goをクリックして表⽰
![Page 15: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/15.jpg)
custom trackの表⽰
custom track
![Page 16: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/16.jpg)
Table BrowserTools項⽬からTable Browserを選択
![Page 17: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/17.jpg)
ピーク領域の配列を取得
group:Custom TracksTracks:User Track
output format:sequenceoutput file:ファイル名
get outputボタンをクリック
![Page 18: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/18.jpg)
Table Browser
get sequenceをクリック
![Page 19: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/19.jpg)
FASTA file format
>配列名、説明など配列
>hg38_ct_UserTrack_3545_EGFP1_peak_270 range=chr1:36306876‐36307119 5'pad=0 3'pad=0 strand=+ repeatMasking=noneCGCGGAGGCCGCGCTGTGCGCGCCGCCGAGGTGAGCGCAAGGGCGGGGAC
>hg38_ct_UserTrack_3545_EGFP1_peak_578 range=chr1:93847167‐93847655 5'pad=0 3'pad=0 strand=+ repeatMasking=noneGCCTGGGCCTGCAACTCTGGGGTCCCGGCCGGGCTGGAGCGGCCGCCGGA
![Page 20: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/20.jpg)
MEME Suite
https://meme‐suite.org/index.html
MEMEをクリック
![Page 21: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/21.jpg)
MEME Suite
upload sequenceのファイルを選択をクリックしてFASTAファイルを選択
Start Searchをクリック
![Page 22: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/22.jpg)
MEME Suite
Recent Jobsに⾃分のjobが表⽰される
![Page 23: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/23.jpg)
MEME Suite
MEME HTML outputをクリックして結果を表⽰
![Page 24: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/24.jpg)
MEME Suite
検出された配列のロゴが表⽰される
得られた結果を他の解析へサブミットできる
![Page 25: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/25.jpg)
MEME SuiteTOMTOMで既知のモチーフのどれに該当するか検索
![Page 26: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/26.jpg)
MEME Suite
Start Searchをクリック
![Page 27: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/27.jpg)
MEME Suite
TOMTOM HTML outputをクリック
![Page 28: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/28.jpg)
MEME Suiteデータベースに登録されているモチーフの中から⼀致するものを検索してくれる
![Page 29: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/29.jpg)
モンテカルロシミュレーションで円の⾯積を求める⽅法
⾯積=半径×半径× 3.14
⾯積=(円内の点 /点の総数)×四⾓の⾯積10cm
円の⾯積
10 cm
![Page 30: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/30.jpg)
#1 GTAAAATCCGTCGTG#2 GTTGTTCCCAAAAGC#3 GTCTGTAAAAGGCTC#4 GAAAATTGCCTCCGT
#1 AAAAAAAAAAAAAAA#2 AAAAAAAAAAAAAAA#3 AAAAAAAAAAAAAAA#4 AAAAAAAAAAAAAAA
配列“AAAA”の持つ情報量
#1 GTCACATCAGTCGTG#2 GTTGTTCACAGAAGC#3 GTCTGTACATGGCAC#4 GTAGATAGCCTCCGT
情報量+
情報量なし
情報量なし
![Page 31: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/31.jpg)
#1 GTAAGTACAGATAGCCACAG#2 GTATGTTCCCGATAAGTTTA#3 GTATGTTCATGTCTGATACT#4 GCATGATAGCTGCCCAAGTT#5 GTATGTTGACGATATTACTT#6 GTAAGTATCCAGATATTACT
問題20塩基 6配列中に4塩基のモチーフ
![Page 32: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/32.jpg)
Step 1
#1 GTAAGTACAGATAGCCACAG#2 GTATGTTCCCGATAAGTTTA#3 GTATGTTCATGTCTGATACT#4 GCATGATAGCTGCCCAAGTT#5 GTATGTTGACGATATTACTT#6 GTAAGTATCCAGATATTACT
配列を⼀つランダムに選択
![Page 33: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/33.jpg)
Step 2
1 2 3 4A G T AT C C CT G T CC C A AA T C C
GTAAGTACAGATAGCCACAGGTATGTTCCCGATAAGTTTA
GTATGTTCATGTCTGATACTGCATGATAGCTGCCCAAGTT
GTAAGTATCCAGATATTACT
#1#2#3#4#6
1 2 3 4
A 2 0 1 2T 2 1 2 0G 0 2 0 0C 1 2 2 3
4塩基配列をランダムに選択
![Page 34: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/34.jpg)
1 2 3 4A 0.4 0 0.2 0.4T 0.4 0.2 0.4 0G 0 0.4 0 0C 0.2 0.4 0.4 0.6
塩基の確率最初の塩基がAの確率
TGC
⼆番⽬の塩基がAの確率TGC
![Page 35: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/35.jpg)
Step 3
#5 GTATGTTGACGATATTACTT
K
i
M
j i
ij
pp
F1 1
2log4
最初に選んだ配列中の4塩基配列の確率
GTAT : ‐∞TATG : ‐∞
…TGAC : 4log2(0.4/0.342)+4log2(0.4/0.208)+4log2(0.2/0.283)+4log2(0.6/0.167)=10.055
1 2 3 4A 0.4 0 0.2 0.4T 0.4 0.2 0.4 0G 0 0.4 0 0C 0.2 0.4 0.4 0.6
pi34/120=0.283
41/120=0.342
25/120=0.208
20/120=0.167
![Page 36: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/36.jpg)
position‐specific scoring matrix (PSSMs)
L
j CGTA
jCGTA
PP
1 },,,{
},,,,{2logPSSMs
pij : probability that jth bases is {A, T, G, C}pi : frequency of {A,T,G,C}
⻑さLの塩基配列の確率
L base motif1 2 3 4 … LA G G C T
![Page 37: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/37.jpg)
Step4
GTAAGTACAGATAGCCACAGGTATGTTCCCGATAAGTTTA
GTATGTTCATGTCTGATACTGCATGATAGCTGCCCAAGTT
GTAAGTATCCAGATATTACT
#1#2#3#4#5#6
GTATGTTGACGATATTACTT
PSSMsが最⼤となる4塩基を選択
![Page 38: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/38.jpg)
1 2 3 4
A 0 0.8 0.4 0.8T 0 0 0.6 0.2G 0.6 0.2 0 0C 0.4 0 0 0
GTAAGTACAGATAGCCACAGGTATGTTCCCGATAAGTTTA
GTATGTTCATGTCTGATACTGCATGATAGCTGCCCAAGTT
GTATGTTGACGATATTACTTGTAAGTATCCAGATATTACT
#1#2#3#4#5#6
pi
34/120=0.28341/120=0.342
25/120=0.20820/120=0.167
PSSM最⼤となる配列を選択
![Page 39: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/39.jpg)
GTAAGTACAGATAGCCACAGGTATGTTCCCGATAAGTTTA
GTATGTTCATGTCTGATACTGCATGATAGCTGCCCAAGTT
GTAAGTATCCAGATATTACT
モチーフが⾒つかる
![Page 40: 2019 第4回バイオインフォマティクス実習€¦ · 第4回バイオインフォマティクス実習 先端医科学研究センター バイオインフォマティクス解析室](https://reader036.fdocument.pub/reader036/viewer/2022071217/60494f9106e1545a1953b3c7/html5/thumbnails/40.jpg)
•宿題GEOデータベースからGSM4073848のデータを取得し、モチーフ解析を⾏ってみてください
•アンケートにご協⼒ください。 「先端研 バイオインフォマティクス解析室」ホームページまたはQRコードにアクセスし回答してください。
https://www.yokohama‐cu.ac.jp/amedrc/section/support/bioinfomatics2.html