分子系統樹推定に適した 配列データセットの作成 -...

74
分子系統樹推定に適した   配列データセットの作成

Transcript of 分子系統樹推定に適した 配列データセットの作成 -...

Page 1: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

分子系統樹推定に適した    配列データセットの作成

田辺晶史

講義編

Page 2: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする
Page 3: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

系統樹推定に利用可能なデータ

Page 4: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

系統樹推定に利用可能なデータ● binary data

Page 5: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

系統樹推定に利用可能なデータ● binary data

– 形質がある場合を 1 、ない場合を0 とする

Page 6: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

系統樹推定に利用可能なデータ● binary data

– 形質がある場合を 1 、ない場合を0 とする– 異なる座位の 0 が同じ意味を持つ

Page 7: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

系統樹推定に利用可能なデータ● binary data

– 形質がある場合を 1 、ない場合を0 とする– 異なる座位の 0 が同じ意味を持つ

● multistate/ordered data

Page 8: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

系統樹推定に利用可能なデータ● binary data

– 形質がある場合を 1 、ない場合を0 とする– 異なる座位の 0 が同じ意味を持つ

● multistate/ordered data– 形質状態 0 ・ 1 ・ 2… のそれぞれを 0 ・ 1 ・ 2… とする

Page 9: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

系統樹推定に利用可能なデータ● binary data

– 形質がある場合を 1 、ない場合を0 とする– 異なる座位の 0 が同じ意味を持つ

● multistate/ordered data– 形質状態 0 ・ 1 ・ 2… のそれぞれを 0 ・ 1 ・ 2… とする– ordered では数値が量を表す

Page 10: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

系統樹推定に利用可能なデータ● binary data

– 形質がある場合を 1 、ない場合を0 とする– 異なる座位の 0 が同じ意味を持つ

● multistate/ordered data– 形質状態 0 ・ 1 ・ 2… のそれぞれを 0 ・ 1 ・ 2… とする– ordered では数値が量を表す– 異なる座位の 0 は同じ意味を持たない

Page 11: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

系統樹推定に利用可能なデータ● binary data

– 形質がある場合を 1 、ない場合を0 とする– 異なる座位の 0 が同じ意味を持つ

● multistate/ordered data– 形質状態 0 ・ 1 ・ 2… のそれぞれを 0 ・ 1 ・ 2… とする– ordered では数値が量を表す– 異なる座位の 0 は同じ意味を持たない

● nucleotide/amino-acid data

Page 12: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

系統樹推定に利用可能なデータ● binary data

– 形質がある場合を 1 、ない場合を0 とする– 異なる座位の 0 が同じ意味を持つ

● multistate/ordered data– 形質状態 0 ・ 1 ・ 2… のそれぞれを 0 ・ 1 ・ 2… とする– ordered では数値が量を表す– 異なる座位の 0 は同じ意味を持たない

● nucleotide/amino-acid data– 4 形質状態または 20 形質状態のデータ

Page 13: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

系統樹推定に利用可能なデータ● binary data

– 形質がある場合を 1 、ない場合を0 とする– 異なる座位の 0 が同じ意味を持つ

● multistate/ordered data– 形質状態 0 ・ 1 ・ 2… のそれぞれを 0 ・ 1 ・ 2… とする– ordered では数値が量を表す– 異なる座位の 0 は同じ意味を持たない

● nucleotide/amino-acid data– 4 形質状態または 20 形質状態のデータ– 異なる座位の A が同じ意味を持つ

Page 14: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

系統樹推定に利用可能なデータ● binary data

– 形質がある場合を 1 、ない場合を0 とする– 異なる座位の 0 が同じ意味を持つ

● multistate/ordered data– 形質状態 0 ・ 1 ・ 2… のそれぞれを 0 ・ 1 ・ 2… とする– ordered では数値が量を表す– 異なる座位の 0 は同じ意味を持たない

● nucleotide/amino-acid data– 4 形質状態または 20 形質状態のデータ– 異なる座位の A が同じ意味を持つ

● rRNA/tRNA data with secondary structure information

Page 15: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

系統樹推定に利用可能なデータ● binary data

– 形質がある場合を 1 、ない場合を0 とする– 異なる座位の 0 が同じ意味を持つ

● multistate/ordered data– 形質状態 0 ・ 1 ・ 2… のそれぞれを 0 ・ 1 ・ 2… とする– ordered では数値が量を表す– 異なる座位の 0 は同じ意味を持たない

● nucleotide/amino-acid data– 4 形質状態または 20 形質状態のデータ– 異なる座位の A が同じ意味を持つ

● rRNA/tRNA data with secondary structure information– rRNA/tRNA の stem 部に専用モデルを適用するためのもの

Page 16: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

データサンプリングのバイアスについて

Page 17: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

データサンプリングのバイアスについて● SNP や制限酵素座位の有無、形態は

変異がある形質だけがサンプリングされるので、偏っている

Page 18: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

データサンプリングのバイアスについて● SNP や制限酵素座位の有無、形態は

変異がある形質だけがサンプリングされるので、偏っている

● これを ascertainment bias とか coding bias という

Page 19: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

データサンプリングのバイアスについて● SNP や制限酵素座位の有無、形態は

変異がある形質だけがサンプリングされるので、偏っている

● これを ascertainment bias とか coding bias という● 最尤法やベイズ法では、バイアスを補正するモデルを適用する

必要がある (RAxML ・ MrBayes などが対応 )

Page 20: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

データサンプリングのバイアスについて● SNP や制限酵素座位の有無、形態は

変異がある形質だけがサンプリングされるので、偏っている

● これを ascertainment bias とか coding bias という● 最尤法やベイズ法では、バイアスを補正するモデルを適用する

必要がある (RAxML ・ MrBayes などが対応 )● 最節約法では気にしなくてよい

Page 21: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

分子系統樹の

とは?推定に適している

Page 22: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

相同である

Page 23: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする
Page 24: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする
Page 25: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

相同

Page 26: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする
Page 27: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする
Page 28: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

非相同

Page 29: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

相同

Page 30: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

同一の祖先形質に由来する

相同||

Page 31: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

TaxonA AAGTGTGACTGGGATTaxonB TGTGACTGCATTaxonC AATGTGGCTGCGATTaxonD TCTGACTG

Page 32: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

TaxonA AAGTGTGACTGGGATTaxonB TGTGACTGCATTaxonC AATGTGGCTGCGATTaxonD TCTGACTG

TaxonA AAGTGTGACTGGGATTaxonB ---TGTGACTGC-ATTaxonC AA-TGTGGCTGCGATTaxonD ---TCTGACTG----

多重配列整列

Page 33: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

TaxonA AAGTGTGACTGGGATTaxonB TGTGACTGCATTaxonC AATGTGGCTGCGATTaxonD TCTGACTG

TaxonA AAGTGTGACTGGGATTaxonB ---TGTGACTGC-ATTaxonC AA-TGTGGCTGCGATTaxonD ---TCTGACTG----

多重配列整列

多重配列整列

Page 34: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

TaxonA AAGTGTGACTGGGATTaxonB TGTGACTGCATTaxonC AATGTGGCTGCGATTaxonD TCTGACTG

TaxonA AAGTGTGACTGGGATTaxonB ---TGTGACTGC-ATTaxonC AA-TGTGGCTGCGATTaxonD ---TCTGACTG----

多重配列整列

多重配列整列||

相同形質の同定

Page 35: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

整列が怪しいとき~

Page 36: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

捨てればいいじゃない

Page 37: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

TaxonA AAGTGTGACTGGGATTaxonB ---TGTGACTGC-ATTaxonC AA-TGTGGCTGCGATTaxonD ---TCTGACTG----

Page 38: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

TaxonA AAGTGTGACTGGGATTaxonB ---TGTGACTGC-ATTaxonC AA-TGTGGCTGCGATTaxonD ---TCTGACTG----

TaxonA TGTGACTGTaxonB TGTGACTGTaxonC TGTGGCTGTaxonD TCTGACTG

トリミング

Page 39: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする
Page 40: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

分子系統樹の

推定に適していない

とは?

Page 41: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

仮定に反する

Page 42: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

TaxonA GGGTTTGGTA-TAATTTCTTaxonB GGATTTGGCA-TAATCAGGTaxonC GGATT-GGTACTAATTAGTTaxonD GGATT-GGAACTAATTAGA

Page 43: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

TaxonA GGGTTTGGTA-TAATTTCTTaxonB GGATTTGGCA-TAATCAGGTaxonC GGATT-GGTACTAATTAGTTaxonD GGATT-GGAACTAATTAGA

TaxonA G F G M I STaxonB G F G M I STaxonC G L V L I STaxonD G L E L I S

翻訳

Page 44: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

TaxonA GGGTTTGGTA-TAATTTCTTaxonB GGATTTGGCA-TAATCAGGTaxonC GGATT-GGTACTAATTAGTTaxonD GGATT-GGAACTAATTAGA

TaxonA G F G M I STaxonB G F G M I STaxonC G L V L I STaxonD G L E L I S

翻訳

Page 45: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

TaxonA GGGTTTGGTA-TAATTTCTTaxonB GGATTTGGCA-TAATCAGGTaxonC GGATT-GGTACTAATTAGTTaxonD GGATT-GGAACTAATTAGA

TaxonA G F G M I STaxonB G F G M I STaxonC G L V L I STaxonD G L E L I S

翻訳多数のアミノ酸が一度に置換

Page 46: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

TaxonA GGGTTTGGTA-TAATTTCTTaxonB GGATTTGGCA-TAATCAGGTaxonC GGATT-GGTACTAATTAGTTaxonD GGATT-GGAACTAATTAGA

TaxonA G F G M I STaxonB G F G M I STaxonC G L V L I STaxonD G L E L I S

翻訳多数のアミノ酸が一度に置換

Page 47: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

TaxonA GGGTTTGGTA-TAATTTCTTaxonB GGATTTGGCA-TAATCAGGTaxonC GGATT-GGTACTAATTAGTTaxonD GGATT-GGAACTAATTAGA

TaxonA G F G M I STaxonB G F G M I STaxonC G L V L I STaxonD G L E L I S

翻訳多数のアミノ酸が一度に置換

Page 48: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

TaxonA GGGTTTGGTTTAATTTaxonB GGATTTGGCTTAATCTaxonC GGATTTGGTTAAATTTaxonD GGATTTGGATAATTA

Page 49: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

翻訳

TaxonA GGGTTTGGTTTAATTTaxonB GGATTTGGCTTAATCTaxonC GGATTTGGTTAAATTTaxonD GGATTTGGATAATTA

TaxonA G F G L ITaxonB G F G L ITaxonC G F G *TaxonD G F G *

Page 50: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

翻訳

TaxonA GGGTTTGGTTTAATTTaxonB GGATTTGGCTTAATCTaxonC GGATTTGGTTAAATTTaxonD GGATTTGGATAATTA

TaxonA G F G L ITaxonB G F G L ITaxonC G F G *TaxonD G F G *

Page 51: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

翻訳

TaxonA GGGTTTGGTTTAATTTaxonB GGATTTGGCTTAATCTaxonC GGATTTGGTTAAATTTaxonD GGATTTGGATAATTA

TaxonA G F G L ITaxonB G F G L ITaxonC G F G *TaxonD G F G *

多数のアミノ酸が消滅

Page 52: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

翻訳

TaxonA GGGTTTGGTTTAATTTaxonB GGATTTGGCTTAATCTaxonC GGATTTGGTTAAATTTaxonD GGATTTGGATAATTA

TaxonA G F G L ITaxonB G F G L ITaxonC G F G *TaxonD G F G *

多数のアミノ酸が消滅

Page 53: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

翻訳

TaxonA GGGTTTGGTTTAATTTaxonB GGATTTGGCTTAATCTaxonC GGATTTGGTTAAATTTaxonD GGATTTGGATAATTA

TaxonA G F G L ITaxonB G F G L ITaxonC G F G *TaxonD G F G *

多数のアミノ酸が消滅

Page 54: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

分子系統樹に適したデータセットとは ?

Page 55: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

分子系統樹に適したデータセットとは ?● 「仮定」から明らかに逸脱した部分を含まない

Page 56: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

分子系統樹に適したデータセットとは ?● 「仮定」から明らかに逸脱した部分を含まない

– 分子進化モデルは 1 形質から 1 形質への変異を仮定している.以下の変異はこの仮定に反する

Page 57: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

分子系統樹に適したデータセットとは ?● 「仮定」から明らかに逸脱した部分を含まない

– 分子進化モデルは 1 形質から 1 形質への変異を仮定している.以下の変異はこの仮定に反する● フレームシフト突然変異や逆位

Page 58: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

分子系統樹に適したデータセットとは ?● 「仮定」から明らかに逸脱した部分を含まない

– 分子進化モデルは 1 形質から 1 形質への変異を仮定している.以下の変異はこの仮定に反する● フレームシフト突然変異や逆位● 開始・終始コドンの変異やイントロンのスプライセオソーム認識配

列の変異

Page 59: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

分子系統樹に適したデータセットとは ?● 「仮定」から明らかに逸脱した部分を含まない

– 分子進化モデルは 1 形質から 1 形質への変異を仮定している.以下の変異はこの仮定に反する● フレームシフト突然変異や逆位● 開始・終始コドンの変異やイントロンのスプライセオソーム認識配

列の変異● 挿入・欠失

Page 60: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

分子系統樹に適したデータセットとは ?● 「仮定」から明らかに逸脱した部分を含まない

– 分子進化モデルは 1 形質から 1 形質への変異を仮定している.以下の変異はこの仮定に反する● フレームシフト突然変異や逆位● 開始・終始コドンの変異やイントロンのスプライセオソーム認識配

列の変異● 挿入・欠失

– → 整列が信頼できるならギャップを - にすることである程度対応可能

Page 61: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

分子系統樹に適したデータセットとは ?● 「仮定」から明らかに逸脱した部分を含まない

– 分子進化モデルは 1 形質から 1 形質への変異を仮定している.以下の変異はこの仮定に反する● フレームシフト突然変異や逆位● 開始・終始コドンの変異やイントロンのスプライセオソーム認識配

列の変異● 挿入・欠失

– → 整列が信頼できるならギャップを - にすることである程度対応可能

– 系統樹上で分子進化モデルは共通と仮定している.以下のデータはこの仮定に反する可能性が高い

Page 62: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

分子系統樹に適したデータセットとは ?● 「仮定」から明らかに逸脱した部分を含まない

– 分子進化モデルは 1 形質から 1 形質への変異を仮定している.以下の変異はこの仮定に反する● フレームシフト突然変異や逆位● 開始・終始コドンの変異やイントロンのスプライセオソーム認識配

列の変異● 挿入・欠失

– → 整列が信頼できるならギャップを - にすることである程度対応可能

– 系統樹上で分子進化モデルは共通と仮定している.以下のデータはこの仮定に反する可能性が高い● タンパクコード塩基配列なのに遺伝暗号が共通でない● タンパクコード塩基配列でコドン使用頻度が共通でない● 塩基・アミノ酸配列で塩基頻度・アミノ酸頻度が共通でない

Page 63: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

分子系統樹に適したデータセットとは ?

Page 64: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

分子系統樹に適したデータセットとは ?

● 明らかに選択圧の異なる部分を含まない

Page 65: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

分子系統樹に適したデータセットとは ?

● 明らかに選択圧の異なる部分を含まない– 異なる分子進化モデルを適用可能であれば問題無し

Page 66: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

分子系統樹に適したデータセットとは ?

● 明らかに選択圧の異なる部分を含まない– 異なる分子進化モデルを適用可能であれば問題無し– あまりに局所的だと個別の分子進化モデルを適用してまで使う価

値=情報量は無い

Page 67: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

分子系統樹に適したデータセットとは ?

● 明らかに選択圧の異なる部分を含まない– 異なる分子進化モデルを適用可能であれば問題無し– あまりに局所的だと個別の分子進化モデルを適用してまで使う価

値=情報量は無い● フレームシフト突然変異や逆位● 開始・終止コドンの変異やイントロンのスプライセオソーム認識配

列の変異● 開始コドン● 終止コドン● 複数の遺伝子に共用されている部位

Page 68: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

その他の注意点

Page 69: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

その他の注意点● 波形データが怪しければ縮重コードを用いる

Page 70: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

その他の注意点● 波形データが怪しければ縮重コードを用いる

– もちろん除去するのがベスト

Page 71: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

その他の注意点● 波形データが怪しければ縮重コードを用いる

– もちろん除去するのがベスト● ギャップは「ー」に,ギャップかどうかすら不明は「? 」に,

ギャップではないがどの塩基・アミノ酸か不明は「N/X 」にして区別する

Page 72: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

その他の注意点● 波形データが怪しければ縮重コードを用いる

– もちろん除去するのがベスト● ギャップは「ー」に,ギャップかどうかすら不明は「? 」に,

ギャップではないがどの塩基・アミノ酸か不明は「N/X 」にして区別する– もちろん除去するのがベスト

Page 73: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

その他の注意点● 波形データが怪しければ縮重コードを用いる

– もちろん除去するのがベスト● ギャップは「ー」に,ギャップかどうかすら不明は「? 」に,

ギャップではないがどの塩基・アミノ酸か不明は「N/X 」にして区別する– もちろん除去するのがベスト

● タンパクコード塩基配列では読み枠が変化しないように編集する

Page 74: 分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

その他の注意点● 波形データが怪しければ縮重コードを用いる

– もちろん除去するのがベスト● ギャップは「ー」に,ギャップかどうかすら不明は「? 」に,

ギャップではないがどの塩基・アミノ酸か不明は「N/X 」にして区別する– もちろん除去するのがベスト

● タンパクコード塩基配列では読み枠が変化しないように編集する

● 削除した位置とその配列がすぐわかるようにする