Post on 13-Oct-2020
2019年度第4回バイオインフォマティクス実習
先端医科学研究センター バイオインフォマティクス解析室中林潤
ATAC‐seqデータ解析• bed formatピークファイルをUCSC genome browserにアップロード
•ピーク領域の配列をTable Browserで取得
• MEME Suiteでピーク領域配列のモチーフ検索
カバー率 = (N × L) / G : 1塩基当りの断⽚数リード数 : Nリード数 : Lゲノム⻑ : G
…AGGTGCATGCCGCATCGATCGAGC…
AGGTGCATGGCATGCCGCAT
GCATCGATCGAGC
paired endsingle end
ゲノム
リード
Next Generation Sequencer (NGS)
DNAを断⽚化して配列を読む→参照ゲノムにマッピング→配列を再構成する
カバー率が⼗分でないと正確な配列情報が得られない。
ChIP‐seq
ATAC‐seq
Tn5 transposase
insertion
insertion sequence as a primerPCR amplification
NGSmapped onto reference genome
⽂字の羅列︖
thoughyetofhamletourdearbrothersdeaththememorybegreenandthatitusbefittedtobearourheartsingriefandourwholekingdomtobecontractedinonebrowofwoeyetsofarhathdiscretionfoughtwithnaturethatwewithwisestsorrowthinkonhimtogetherwithremembranceofourselvesthereforeoursometimesisternowourqueentheimperialjointresstothiswarlikestatehaveweastwerewithadefeatedjoywithanauspiciousandadroppingeyewithmirthinfuneralandwithdirgeinmarriageinequalscaleweighingdelightanddoletakentowifenorhavewehereinbarrdyourbetterwisdomswhichhavefreelygone15withthisaffairalongforallourthanks
ハムレットのせりふ
thoughyetofhamletourdearbrothersdeaththememorybegreenandthatitusbefittedtobearourheartsingriefandourwholekingdomtobecontractedinonebrowofwoeyetsofarhathdiscretionfoughtwithnaturethatwewithwisestsorrowthinkonhimtogetherwithremembranceofourselvesthereforeoursometimesisternowourqueentheimperialjointresstothiswarlikestatehaveweastwerewithadefeatedjoywithanauspiciousandadroppingeyewithmirthinfuneralandwithdirgeinmarriageinequalscaleweighingdelightanddoletakentowifenorhavewehereinbarrdyourbetterwisdomswhichhavefreelygone15withthisaffairalongforallourthanks
Motif
#1 GACAGAAAGGGCAAAGAGGAAGTGAAAGCTAAGAAGACT#2 GTCCCCTGAAAGTAAGAGGAAGTGAAAGCTGTCTGCTGG#3 TGCCAAACATGGAAAGGGGAAGTGAAAGAGACAGACGTA#4 GGTCTCATGGGAAAACAGGAAGTGAAAGCACAACTAAGA#5 TGGCCTGGCTGAAAGGGGGAAGTGAAAGCGAGGTGAACT#6 TCTTAACCTGACAAACAGGAAGTGAAAGTACCTTTCGGG
specific sequence repeatedly observed in genome DNA↓
functionally and biologically significant region↓
motif
モチーフ解析
• 30億塩基対の配列から特定の配列を⾒つける• 総当り計算時間→ 30億の2乗不可能
• MEME Suiteを⽤いたモチーフ検索
データのダウンロードGEOデータベースGSM2937018GSM2937018_ATAseq‐EGFP‐1_peaks.narrowPeak.gz
http://ncbi.nlm.nih.gov/geo
Bed file format
染色体番号 スタートポジション エンドポジション ID 数値 ストランド
chr1 191423 191584 EGFP1_peak_1 71 +
chr1 629825 630062 EGFP1_peak_2 763 +
chr1 633909 634155 EGFP1_peak_3 764 +
・・・
ピークの位置を記述するフォーマット
UCSC genome browser
http://genome.ucsc.edu
Genomes項⽬から該当する参照ゲノムを選択する今回はhg38
add custom tracksボタンをクリック
custom trackのアップロード
ファイルを選択をクリックbedファイルを選択submitボタンをクリック
custom trackのアップロード
goをクリックして表⽰
custom trackの表⽰
custom track
Table BrowserTools項⽬からTable Browserを選択
ピーク領域の配列を取得
group:Custom TracksTracks:User Track
output format:sequenceoutput file:ファイル名
get outputボタンをクリック
Table Browser
get sequenceをクリック
FASTA file format
>配列名、説明など配列
>hg38_ct_UserTrack_3545_EGFP1_peak_270 range=chr1:36306876‐36307119 5'pad=0 3'pad=0 strand=+ repeatMasking=noneCGCGGAGGCCGCGCTGTGCGCGCCGCCGAGGTGAGCGCAAGGGCGGGGAC
>hg38_ct_UserTrack_3545_EGFP1_peak_578 range=chr1:93847167‐93847655 5'pad=0 3'pad=0 strand=+ repeatMasking=noneGCCTGGGCCTGCAACTCTGGGGTCCCGGCCGGGCTGGAGCGGCCGCCGGA
MEME Suite
https://meme‐suite.org/index.html
MEMEをクリック
MEME Suite
upload sequenceのファイルを選択をクリックしてFASTAファイルを選択
Start Searchをクリック
MEME Suite
Recent Jobsに⾃分のjobが表⽰される
MEME Suite
MEME HTML outputをクリックして結果を表⽰
MEME Suite
検出された配列のロゴが表⽰される
得られた結果を他の解析へサブミットできる
MEME SuiteTOMTOMで既知のモチーフのどれに該当するか検索
MEME Suite
Start Searchをクリック
MEME Suite
TOMTOM HTML outputをクリック
MEME Suiteデータベースに登録されているモチーフの中から⼀致するものを検索してくれる
モンテカルロシミュレーションで円の⾯積を求める⽅法
⾯積=半径×半径× 3.14
⾯積=(円内の点 /点の総数)×四⾓の⾯積10cm
円の⾯積
10 cm
#1 GTAAAATCCGTCGTG#2 GTTGTTCCCAAAAGC#3 GTCTGTAAAAGGCTC#4 GAAAATTGCCTCCGT
#1 AAAAAAAAAAAAAAA#2 AAAAAAAAAAAAAAA#3 AAAAAAAAAAAAAAA#4 AAAAAAAAAAAAAAA
配列“AAAA”の持つ情報量
#1 GTCACATCAGTCGTG#2 GTTGTTCACAGAAGC#3 GTCTGTACATGGCAC#4 GTAGATAGCCTCCGT
情報量+
情報量なし
情報量なし
#1 GTAAGTACAGATAGCCACAG#2 GTATGTTCCCGATAAGTTTA#3 GTATGTTCATGTCTGATACT#4 GCATGATAGCTGCCCAAGTT#5 GTATGTTGACGATATTACTT#6 GTAAGTATCCAGATATTACT
問題20塩基 6配列中に4塩基のモチーフ
Step 1
#1 GTAAGTACAGATAGCCACAG#2 GTATGTTCCCGATAAGTTTA#3 GTATGTTCATGTCTGATACT#4 GCATGATAGCTGCCCAAGTT#5 GTATGTTGACGATATTACTT#6 GTAAGTATCCAGATATTACT
配列を⼀つランダムに選択
Step 2
1 2 3 4A G T AT C C CT G T CC C A AA T C C
GTAAGTACAGATAGCCACAGGTATGTTCCCGATAAGTTTA
GTATGTTCATGTCTGATACTGCATGATAGCTGCCCAAGTT
GTAAGTATCCAGATATTACT
#1#2#3#4#6
1 2 3 4
A 2 0 1 2T 2 1 2 0G 0 2 0 0C 1 2 2 3
4塩基配列をランダムに選択
1 2 3 4A 0.4 0 0.2 0.4T 0.4 0.2 0.4 0G 0 0.4 0 0C 0.2 0.4 0.4 0.6
塩基の確率最初の塩基がAの確率
TGC
⼆番⽬の塩基がAの確率TGC
Step 3
#5 GTATGTTGACGATATTACTT
K
i
M
j i
ij
pp
F1 1
2log4
最初に選んだ配列中の4塩基配列の確率
GTAT : ‐∞TATG : ‐∞
…TGAC : 4log2(0.4/0.342)+4log2(0.4/0.208)+4log2(0.2/0.283)+4log2(0.6/0.167)=10.055
1 2 3 4A 0.4 0 0.2 0.4T 0.4 0.2 0.4 0G 0 0.4 0 0C 0.2 0.4 0.4 0.6
pi34/120=0.283
41/120=0.342
25/120=0.208
20/120=0.167
position‐specific scoring matrix (PSSMs)
L
j CGTA
jCGTA
PP
1 },,,{
},,,,{2logPSSMs
pij : probability that jth bases is {A, T, G, C}pi : frequency of {A,T,G,C}
⻑さLの塩基配列の確率
L base motif1 2 3 4 … LA G G C T
Step4
GTAAGTACAGATAGCCACAGGTATGTTCCCGATAAGTTTA
GTATGTTCATGTCTGATACTGCATGATAGCTGCCCAAGTT
GTAAGTATCCAGATATTACT
#1#2#3#4#5#6
GTATGTTGACGATATTACTT
PSSMsが最⼤となる4塩基を選択
1 2 3 4
A 0 0.8 0.4 0.8T 0 0 0.6 0.2G 0.6 0.2 0 0C 0.4 0 0 0
GTAAGTACAGATAGCCACAGGTATGTTCCCGATAAGTTTA
GTATGTTCATGTCTGATACTGCATGATAGCTGCCCAAGTT
GTATGTTGACGATATTACTTGTAAGTATCCAGATATTACT
#1#2#3#4#5#6
pi
34/120=0.28341/120=0.342
25/120=0.20820/120=0.167
PSSM最⼤となる配列を選択
GTAAGTACAGATAGCCACAGGTATGTTCCCGATAAGTTTA
GTATGTTCATGTCTGATACTGCATGATAGCTGCCCAAGTT
GTAAGTATCCAGATATTACT
モチーフが⾒つかる
•宿題GEOデータベースからGSM4073848のデータを取得し、モチーフ解析を⾏ってみてください
•アンケートにご協⼒ください。 「先端研 バイオインフォマティクス解析室」ホームページまたはQRコードにアクセスし回答してください。
https://www.yokohama‐cu.ac.jp/amedrc/section/support/bioinfomatics2.html