分子系統樹推定に適した配列データセットの作成 講義編

72
分子系統樹推定に適した 配列データセットの作成 田辺晶史 講義編

Transcript of 分子系統樹推定に適した配列データセットの作成 講義編

Page 1: 分子系統樹推定に適した配列データセットの作成 講義編

分子系統樹推定に適した    配列データセットの作成

田辺晶史

講義編

Page 2: 分子系統樹推定に適した配列データセットの作成 講義編
Page 3: 分子系統樹推定に適した配列データセットの作成 講義編

系統樹推定に利用可能なデータ

Page 4: 分子系統樹推定に適した配列データセットの作成 講義編

系統樹推定に利用可能なデータ

● binary data

Page 5: 分子系統樹推定に適した配列データセットの作成 講義編

系統樹推定に利用可能なデータ

● binary data● 形質がある場合を 1 、ない場合を0 とする

Page 6: 分子系統樹推定に適した配列データセットの作成 講義編

系統樹推定に利用可能なデータ

● binary data● 形質がある場合を 1 、ない場合を0 とする● 異なる座位の 0 が同じ意味を持つ

Page 7: 分子系統樹推定に適した配列データセットの作成 講義編

系統樹推定に利用可能なデータ

● binary data● 形質がある場合を 1 、ない場合を0 とする● 異なる座位の 0 が同じ意味を持つ

● multistate/ordered data

Page 8: 分子系統樹推定に適した配列データセットの作成 講義編

系統樹推定に利用可能なデータ

● binary data● 形質がある場合を 1 、ない場合を0 とする● 異なる座位の 0 が同じ意味を持つ

● multistate/ordered data● 形質状態 0 ・ 1 ・ 2… のそれぞれを 0 ・ 1 ・ 2… とする

Page 9: 分子系統樹推定に適した配列データセットの作成 講義編

系統樹推定に利用可能なデータ

● binary data● 形質がある場合を 1 、ない場合を0 とする● 異なる座位の 0 が同じ意味を持つ

● multistate/ordered data● 形質状態 0 ・ 1 ・ 2… のそれぞれを 0 ・ 1 ・ 2… とする● ordered では数値が量を表す

Page 10: 分子系統樹推定に適した配列データセットの作成 講義編

系統樹推定に利用可能なデータ

● binary data● 形質がある場合を 1 、ない場合を0 とする● 異なる座位の 0 が同じ意味を持つ

● multistate/ordered data● 形質状態 0 ・ 1 ・ 2… のそれぞれを 0 ・ 1 ・ 2… とする● ordered では数値が量を表す● 異なる座位の 0 は同じ意味を持たない

Page 11: 分子系統樹推定に適した配列データセットの作成 講義編

系統樹推定に利用可能なデータ

● binary data● 形質がある場合を 1 、ない場合を0 とする● 異なる座位の 0 が同じ意味を持つ

● multistate/ordered data● 形質状態 0 ・ 1 ・ 2… のそれぞれを 0 ・ 1 ・ 2… とする● ordered では数値が量を表す● 異なる座位の 0 は同じ意味を持たない

● nucleotide/amino-acid data

Page 12: 分子系統樹推定に適した配列データセットの作成 講義編

系統樹推定に利用可能なデータ

● binary data● 形質がある場合を 1 、ない場合を0 とする● 異なる座位の 0 が同じ意味を持つ

● multistate/ordered data● 形質状態 0 ・ 1 ・ 2… のそれぞれを 0 ・ 1 ・ 2… とする● ordered では数値が量を表す● 異なる座位の 0 は同じ意味を持たない

● nucleotide/amino-acid data● 4 形質状態または 20 形質状態のデータ

Page 13: 分子系統樹推定に適した配列データセットの作成 講義編

系統樹推定に利用可能なデータ

● binary data● 形質がある場合を 1 、ない場合を0 とする● 異なる座位の 0 が同じ意味を持つ

● multistate/ordered data● 形質状態 0 ・ 1 ・ 2… のそれぞれを 0 ・ 1 ・ 2… とする● ordered では数値が量を表す● 異なる座位の 0 は同じ意味を持たない

● nucleotide/amino-acid data● 4 形質状態または 20 形質状態のデータ● 異なる座位の A が同じ意味を持つ

Page 14: 分子系統樹推定に適した配列データセットの作成 講義編

系統樹推定に利用可能なデータ

● binary data● 形質がある場合を 1 、ない場合を0 とする● 異なる座位の 0 が同じ意味を持つ

● multistate/ordered data● 形質状態 0 ・ 1 ・ 2… のそれぞれを 0 ・ 1 ・ 2… とする● ordered では数値が量を表す● 異なる座位の 0 は同じ意味を持たない

● nucleotide/amino-acid data● 4 形質状態または 20 形質状態のデータ● 異なる座位の A が同じ意味を持つ

● rRNA/tRNA data with secondary structure information

Page 15: 分子系統樹推定に適した配列データセットの作成 講義編

系統樹推定に利用可能なデータ

● binary data● 形質がある場合を 1 、ない場合を0 とする● 異なる座位の 0 が同じ意味を持つ

● multistate/ordered data● 形質状態 0 ・ 1 ・ 2… のそれぞれを 0 ・ 1 ・ 2… とする● ordered では数値が量を表す● 異なる座位の 0 は同じ意味を持たない

● nucleotide/amino-acid data● 4 形質状態または 20 形質状態のデータ● 異なる座位の A が同じ意味を持つ

● rRNA/tRNA data with secondary structure information● rRNA/tRNA の stem 部に専用モデルを適用するためのもの

Page 16: 分子系統樹推定に適した配列データセットの作成 講義編

データサンプリングのバイアスについて

Page 17: 分子系統樹推定に適した配列データセットの作成 講義編

データサンプリングのバイアスについて

● SNP や制限酵素座位の有無、形態は

変異がある形質だけがサンプリングされるので、偏っている

Page 18: 分子系統樹推定に適した配列データセットの作成 講義編

データサンプリングのバイアスについて

● SNP や制限酵素座位の有無、形態は

変異がある形質だけがサンプリングされるので、偏っている

● これを ascertainment bias とか coding bias という

Page 19: 分子系統樹推定に適した配列データセットの作成 講義編

データサンプリングのバイアスについて

● SNP や制限酵素座位の有無、形態は

変異がある形質だけがサンプリングされるので、偏っている

● これを ascertainment bias とか coding bias という● 最尤法やベイズ法では、バイアスを補正するモデルを適用する

必要がある (RAxML ・ MrBayes などが対応 )

Page 20: 分子系統樹推定に適した配列データセットの作成 講義編

データサンプリングのバイアスについて

● SNP や制限酵素座位の有無、形態は

変異がある形質だけがサンプリングされるので、偏っている

● これを ascertainment bias とか coding bias という● 最尤法やベイズ法では、バイアスを補正するモデルを適用する

必要がある (RAxML ・ MrBayes などが対応 )● 最節約法では気にしなくてよい

Page 21: 分子系統樹推定に適した配列データセットの作成 講義編

分子系統樹の

とは?推定に適している

Page 22: 分子系統樹推定に適した配列データセットの作成 講義編

相同である

Page 23: 分子系統樹推定に適した配列データセットの作成 講義編
Page 24: 分子系統樹推定に適した配列データセットの作成 講義編
Page 25: 分子系統樹推定に適した配列データセットの作成 講義編

相同

Page 26: 分子系統樹推定に適した配列データセットの作成 講義編
Page 27: 分子系統樹推定に適した配列データセットの作成 講義編
Page 28: 分子系統樹推定に適した配列データセットの作成 講義編

非相同

Page 29: 分子系統樹推定に適した配列データセットの作成 講義編

相同

Page 30: 分子系統樹推定に適した配列データセットの作成 講義編

同一の祖先形質に由来する

相同||

Page 31: 分子系統樹推定に適した配列データセットの作成 講義編

TaxonA AAGTGTGACTGGGATTaxonB TGTGACTGCATTaxonC AATGTGGCTGCGATTaxonD TCTGACTG

Page 32: 分子系統樹推定に適した配列データセットの作成 講義編

TaxonA AAGTGTGACTGGGATTaxonB TGTGACTGCATTaxonC AATGTGGCTGCGATTaxonD TCTGACTG

TaxonA AAGTGTGACTGGGATTaxonB ---TGTGACTGC-ATTaxonC AA-TGTGGCTGCGATTaxonD ---TCTGACTG----

多重配列整列

Page 33: 分子系統樹推定に適した配列データセットの作成 講義編

TaxonA AAGTGTGACTGGGATTaxonB TGTGACTGCATTaxonC AATGTGGCTGCGATTaxonD TCTGACTG

TaxonA AAGTGTGACTGGGATTaxonB ---TGTGACTGC-ATTaxonC AA-TGTGGCTGCGATTaxonD ---TCTGACTG----

多重配列整列

多重配列整列

Page 34: 分子系統樹推定に適した配列データセットの作成 講義編

TaxonA AAGTGTGACTGGGATTaxonB TGTGACTGCATTaxonC AATGTGGCTGCGATTaxonD TCTGACTG

TaxonA AAGTGTGACTGGGATTaxonB ---TGTGACTGC-ATTaxonC AA-TGTGGCTGCGATTaxonD ---TCTGACTG----

多重配列整列

多重配列整列||

相同形質の同定

Page 35: 分子系統樹推定に適した配列データセットの作成 講義編

整列が怪しいとき~

Page 36: 分子系統樹推定に適した配列データセットの作成 講義編

捨てればいいじゃない

Page 37: 分子系統樹推定に適した配列データセットの作成 講義編

TaxonA AAGTGTGACTGGGATTaxonB ---TGTGACTGC-ATTaxonC AA-TGTGGCTGCGATTaxonD ---TCTGACTG----

Page 38: 分子系統樹推定に適した配列データセットの作成 講義編

TaxonA AAGTGTGACTGGGATTaxonB ---TGTGACTGC-ATTaxonC AA-TGTGGCTGCGATTaxonD ---TCTGACTG----

TaxonA TGTGACTGTaxonB TGTGACTGTaxonC TGTGGCTGTaxonD TCTGACTG

トリミング

Page 39: 分子系統樹推定に適した配列データセットの作成 講義編
Page 40: 分子系統樹推定に適した配列データセットの作成 講義編

分子系統樹の

推定に適していない

とは?

Page 41: 分子系統樹推定に適した配列データセットの作成 講義編

仮定に反する

Page 42: 分子系統樹推定に適した配列データセットの作成 講義編

TaxonA GGGTTTGGTA-TAATTTCTTaxonB GGATTTGGCA-TAATCAGGTaxonC GGATT-GGTACTAATTAGTTaxonD GGATT-GGAACTAATTAGA

Page 43: 分子系統樹推定に適した配列データセットの作成 講義編

TaxonA GGGTTTGGTA-TAATTTCTTaxonB GGATTTGGCA-TAATCAGGTaxonC GGATT-GGTACTAATTAGTTaxonD GGATT-GGAACTAATTAGA

TaxonA G F G M I STaxonB G F G M I STaxonC G L V L I STaxonD G L E L I S

翻訳

Page 44: 分子系統樹推定に適した配列データセットの作成 講義編

TaxonA GGGTTTGGTA-TAATTTCTTaxonB GGATTTGGCA-TAATCAGGTaxonC GGATT-GGTACTAATTAGTTaxonD GGATT-GGAACTAATTAGA

TaxonA G F G M I STaxonB G F G M I STaxonC G L V L I STaxonD G L E L I S

翻訳

Page 45: 分子系統樹推定に適した配列データセットの作成 講義編

TaxonA GGGTTTGGTA-TAATTTCTTaxonB GGATTTGGCA-TAATCAGGTaxonC GGATT-GGTACTAATTAGTTaxonD GGATT-GGAACTAATTAGA

TaxonA G F G M I STaxonB G F G M I STaxonC G L V L I STaxonD G L E L I S

翻訳多数のアミノ酸が一度に置換

Page 46: 分子系統樹推定に適した配列データセットの作成 講義編

TaxonA GGGTTTGGTA-TAATTTCTTaxonB GGATTTGGCA-TAATCAGGTaxonC GGATT-GGTACTAATTAGTTaxonD GGATT-GGAACTAATTAGA

TaxonA G F G M I STaxonB G F G M I STaxonC G L V L I STaxonD G L E L I S

翻訳多数のアミノ酸が一度に置換

Page 47: 分子系統樹推定に適した配列データセットの作成 講義編

TaxonA GGGTTTGGTA-TAATTTCTTaxonB GGATTTGGCA-TAATCAGGTaxonC GGATT-GGTACTAATTAGTTaxonD GGATT-GGAACTAATTAGA

TaxonA G F G M I STaxonB G F G M I STaxonC G L V L I STaxonD G L E L I S

翻訳多数のアミノ酸が一度に置換

Page 48: 分子系統樹推定に適した配列データセットの作成 講義編

TaxonA GGGTTTGGTTTAATTTaxonB GGATTTGGCTTAATCTaxonC GGATTTGGTTAAATTTaxonD GGATTTGGATAATTA

Page 49: 分子系統樹推定に適した配列データセットの作成 講義編

翻訳

TaxonA GGGTTTGGTTTAATTTaxonB GGATTTGGCTTAATCTaxonC GGATTTGGTTAAATTTaxonD GGATTTGGATAATTA

TaxonA G F G L ITaxonB G F G L ITaxonC G F G *TaxonD G F G *

Page 50: 分子系統樹推定に適した配列データセットの作成 講義編

翻訳

TaxonA GGGTTTGGTTTAATTTaxonB GGATTTGGCTTAATCTaxonC GGATTTGGTTAAATTTaxonD GGATTTGGATAATTA

TaxonA G F G L ITaxonB G F G L ITaxonC G F G *TaxonD G F G *

Page 51: 分子系統樹推定に適した配列データセットの作成 講義編

翻訳

TaxonA GGGTTTGGTTTAATTTaxonB GGATTTGGCTTAATCTaxonC GGATTTGGTTAAATTTaxonD GGATTTGGATAATTA

TaxonA G F G L ITaxonB G F G L ITaxonC G F G *TaxonD G F G *

多数のアミノ酸が消滅

Page 52: 分子系統樹推定に適した配列データセットの作成 講義編

翻訳

TaxonA GGGTTTGGTTTAATTTaxonB GGATTTGGCTTAATCTaxonC GGATTTGGTTAAATTTaxonD GGATTTGGATAATTA

TaxonA G F G L ITaxonB G F G L ITaxonC G F G *TaxonD G F G *

多数のアミノ酸が消滅

Page 53: 分子系統樹推定に適した配列データセットの作成 講義編

翻訳

TaxonA GGGTTTGGTTTAATTTaxonB GGATTTGGCTTAATCTaxonC GGATTTGGTTAAATTTaxonD GGATTTGGATAATTA

TaxonA G F G L ITaxonB G F G L ITaxonC G F G *TaxonD G F G *

多数のアミノ酸が消滅

Page 54: 分子系統樹推定に適した配列データセットの作成 講義編

分子系統樹に適したデータセットとは ?

Page 55: 分子系統樹推定に適した配列データセットの作成 講義編

分子系統樹に適したデータセットとは ?

● 「仮定」から明らかに逸脱した部分を含まない

Page 56: 分子系統樹推定に適した配列データセットの作成 講義編

分子系統樹に適したデータセットとは ?

● 「仮定」から明らかに逸脱した部分を含まない● 分子進化モデルは 1 形質から 1 形質への変異を仮定している.以

下の変異はこの仮定に反する

Page 57: 分子系統樹推定に適した配列データセットの作成 講義編

分子系統樹に適したデータセットとは ?

● 「仮定」から明らかに逸脱した部分を含まない● 分子進化モデルは 1 形質から 1 形質への変異を仮定している.以

下の変異はこの仮定に反する– フレームシフト突然変異や逆位– 開始・終始コドンの変異やイントロンのスプライセオソーム認識配

列の変異– 挿入・欠失

Page 58: 分子系統樹推定に適した配列データセットの作成 講義編

分子系統樹に適したデータセットとは ?

● 「仮定」から明らかに逸脱した部分を含まない● 分子進化モデルは 1 形質から 1 形質への変異を仮定している.以

下の変異はこの仮定に反する– フレームシフト突然変異や逆位– 開始・終始コドンの変異やイントロンのスプライセオソーム認識配

列の変異– 挿入・欠失

● → 整列が信頼できるならギャップを ? にすることである程度対応可能

Page 59: 分子系統樹推定に適した配列データセットの作成 講義編

分子系統樹に適したデータセットとは ?

● 「仮定」から明らかに逸脱した部分を含まない● 分子進化モデルは 1 形質から 1 形質への変異を仮定している.以

下の変異はこの仮定に反する– フレームシフト突然変異や逆位– 開始・終始コドンの変異やイントロンのスプライセオソーム認識配

列の変異– 挿入・欠失

● → 整列が信頼できるならギャップを ? にすることである程度対応可能● 系統樹上で分子進化モデルは共通と仮定している.以下のデータ

はこの仮定に反する可能性が高い

Page 60: 分子系統樹推定に適した配列データセットの作成 講義編

分子系統樹に適したデータセットとは ?

● 「仮定」から明らかに逸脱した部分を含まない● 分子進化モデルは 1 形質から 1 形質への変異を仮定している.以

下の変異はこの仮定に反する– フレームシフト突然変異や逆位– 開始・終始コドンの変異やイントロンのスプライセオソーム認識配

列の変異– 挿入・欠失

● → 整列が信頼できるならギャップを ? にすることである程度対応可能● 系統樹上で分子進化モデルは共通と仮定している.以下のデータ

はこの仮定に反する可能性が高い– タンパクコード塩基配列なのに遺伝暗号が共通でない– タンパクコード塩基配列でコドン使用頻度が共通でない– 塩基・アミノ酸配列で塩基頻度・アミノ酸頻度が共通でない

Page 61: 分子系統樹推定に適した配列データセットの作成 講義編

分子系統樹に適したデータセットとは ?

Page 62: 分子系統樹推定に適した配列データセットの作成 講義編

分子系統樹に適したデータセットとは ?

● 明らかに選択圧の異なる部分を含まない

Page 63: 分子系統樹推定に適した配列データセットの作成 講義編

分子系統樹に適したデータセットとは ?

● 明らかに選択圧の異なる部分を含まない● 異なる分子進化モデルを適用可能であれば問題無し

Page 64: 分子系統樹推定に適した配列データセットの作成 講義編

分子系統樹に適したデータセットとは ?

● 明らかに選択圧の異なる部分を含まない● 異なる分子進化モデルを適用可能であれば問題無し● あまりに局所的だと個別の分子進化モデルを適用してまで使う価

値=情報量は無い

Page 65: 分子系統樹推定に適した配列データセットの作成 講義編

分子系統樹に適したデータセットとは ?

● 明らかに選択圧の異なる部分を含まない● 異なる分子進化モデルを適用可能であれば問題無し● あまりに局所的だと個別の分子進化モデルを適用してまで使う価

値=情報量は無い– フレームシフト突然変異や逆位– 開始・終止コドンの変異やイントロンのスプライセオソーム認識配

列の変異– 開始コドン– 終止コドン– 複数の遺伝子に共用されている部位

Page 66: 分子系統樹推定に適した配列データセットの作成 講義編

その他の注意点

Page 67: 分子系統樹推定に適した配列データセットの作成 講義編

その他の注意点

● 波形データが怪しければ縮重コードを用いる

Page 68: 分子系統樹推定に適した配列データセットの作成 講義編

その他の注意点

● 波形データが怪しければ縮重コードを用いる● もちろん除去するのがベスト

Page 69: 分子系統樹推定に適した配列データセットの作成 講義編

その他の注意点

● 波形データが怪しければ縮重コードを用いる● もちろん除去するのがベスト

● ギャップは「ー」に,ギャップかどうかすら不明は「? 」に,ギャップではないがどの塩基・アミノ酸か不明は「N/X 」にして区別する

Page 70: 分子系統樹推定に適した配列データセットの作成 講義編

その他の注意点

● 波形データが怪しければ縮重コードを用いる● もちろん除去するのがベスト

● ギャップは「ー」に,ギャップかどうかすら不明は「? 」に,ギャップではないがどの塩基・アミノ酸か不明は「N/X 」にして区別する● もちろん除去するのがベスト

Page 71: 分子系統樹推定に適した配列データセットの作成 講義編

その他の注意点

● 波形データが怪しければ縮重コードを用いる● もちろん除去するのがベスト

● ギャップは「ー」に,ギャップかどうかすら不明は「? 」に,ギャップではないがどの塩基・アミノ酸か不明は「N/X 」にして区別する● もちろん除去するのがベスト

● タンパクコード塩基配列では読み枠が変化しないように編集する

Page 72: 分子系統樹推定に適した配列データセットの作成 講義編

その他の注意点

● 波形データが怪しければ縮重コードを用いる● もちろん除去するのがベスト

● ギャップは「ー」に,ギャップかどうかすら不明は「? 」に,ギャップではないがどの塩基・アミノ酸か不明は「N/X 」にして区別する● もちろん除去するのがベスト

● タンパクコード塩基配列では読み枠が変化しないように編集する

● 削除した位置とその配列がすぐわかるようにする