分子系統樹推定に適した配列データセットの作成講義編

分子系統樹推定に適した　　　　配列データセットの作成

田辺晶史

講義編

系統樹推定に利用可能なデータ

● binary data

● binary data● 形質がある場合を 1 、ない場合を0 とする

● binary data● 形質がある場合を 1 、ない場合を0 とする● 異なる座位の 0 が同じ意味を持つ

● multistate/ordered data

● multistate/ordered data● 形質状態 0 ・ 1 ・ 2… のそれぞれを 0 ・ 1 ・ 2… とする

● multistate/ordered data● 形質状態 0 ・ 1 ・ 2… のそれぞれを 0 ・ 1 ・ 2… とする● ordered では数値が量を表す

● multistate/ordered data● 形質状態 0 ・ 1 ・ 2… のそれぞれを 0 ・ 1 ・ 2… とする● ordered では数値が量を表す● 異なる座位の 0 は同じ意味を持たない

● nucleotide/amino-acid data

● nucleotide/amino-acid data● 4 形質状態または 20 形質状態のデータ

● nucleotide/amino-acid data● 4 形質状態または 20 形質状態のデータ● 異なる座位の A が同じ意味を持つ

● rRNA/tRNA data with secondary structure information

● rRNA/tRNA data with secondary structure information● rRNA/tRNA の stem 部に専用モデルを適用するためのもの

データサンプリングのバイアスについて

● SNP や制限酵素座位の有無、形態は

変異がある形質だけがサンプリングされるので、偏っている

● これを ascertainment bias とか coding bias という

● これを ascertainment bias とか coding bias という● 最尤法やベイズ法では、バイアスを補正するモデルを適用する

必要がある (RAxML ・ MrBayes などが対応 )

● これを ascertainment bias とか coding bias という● 最尤法やベイズ法では、バイアスを補正するモデルを適用する

必要がある (RAxML ・ MrBayes などが対応 )● 最節約法では気にしなくてよい

分子系統樹の

とは？推定に適している

相同である

相同

非相同

相同

同一の祖先形質に由来する

相同||

TaxonA AAGTGTGACTGGGATTaxonB TGTGACTGCATTaxonC AATGTGGCTGCGATTaxonD TCTGACTG

TaxonA AAGTGTGACTGGGATTaxonB ---TGTGACTGC-ATTaxonC AA-TGTGGCTGCGATTaxonD ---TCTGACTG----

多重配列整列

多重配列整列||

相同形質の同定

整列が怪しいとき～

捨てればいいじゃない

TaxonA TGTGACTGTaxonB TGTGACTGTaxonC TGTGGCTGTaxonD TCTGACTG

トリミング

分子系統樹の

推定に適していない

とは？

仮定に反する

TaxonA GGGTTTGGTA-TAATTTCTTaxonB GGATTTGGCA-TAATCAGGTaxonC GGATT-GGTACTAATTAGTTaxonD GGATT-GGAACTAATTAGA

TaxonA G F G M I STaxonB G F G M I STaxonC G L V L I STaxonD G L E L I S

翻訳

翻訳多数のアミノ酸が一度に置換

TaxonA GGGTTTGGTTTAATTTaxonB GGATTTGGCTTAATCTaxonC GGATTTGGTTAAATTTaxonD GGATTTGGATAATTA

翻訳

TaxonA G F G L ITaxonB G F G L ITaxonC G F G *TaxonD G F G *

翻訳

多数のアミノ酸が消滅

翻訳

分子系統樹に適したデータセットとは ?

● 「仮定」から明らかに逸脱した部分を含まない

● 「仮定」から明らかに逸脱した部分を含まない● 分子進化モデルは 1 形質から 1 形質への変異を仮定している．以

下の変異はこの仮定に反する

下の変異はこの仮定に反する– フレームシフト突然変異や逆位– 開始・終始コドンの変異やイントロンのスプライセオソーム認識配

列の変異– 挿入・欠失

● → 整列が信頼できるならギャップを ? にすることである程度対応可能

● → 整列が信頼できるならギャップを ? にすることである程度対応可能● 系統樹上で分子進化モデルは共通と仮定している．以下のデータ

はこの仮定に反する可能性が高い

● → 整列が信頼できるならギャップを ? にすることである程度対応可能● 系統樹上で分子進化モデルは共通と仮定している．以下のデータ

はこの仮定に反する可能性が高い– タンパクコード塩基配列なのに遺伝暗号が共通でない– タンパクコード塩基配列でコドン使用頻度が共通でない– 塩基・アミノ酸配列で塩基頻度・アミノ酸頻度が共通でない

● 明らかに選択圧の異なる部分を含まない

● 明らかに選択圧の異なる部分を含まない● 異なる分子進化モデルを適用可能であれば問題無し

● 明らかに選択圧の異なる部分を含まない● 異なる分子進化モデルを適用可能であれば問題無し● あまりに局所的だと個別の分子進化モデルを適用してまで使う価

値＝情報量は無い

● 明らかに選択圧の異なる部分を含まない● 異なる分子進化モデルを適用可能であれば問題無し● あまりに局所的だと個別の分子進化モデルを適用してまで使う価

値＝情報量は無い– フレームシフト突然変異や逆位– 開始・終止コドンの変異やイントロンのスプライセオソーム認識配

列の変異– 開始コドン– 終止コドン– 複数の遺伝子に共用されている部位

その他の注意点

● 波形データが怪しければ縮重コードを用いる

● 波形データが怪しければ縮重コードを用いる● もちろん除去するのがベスト

● ギャップは「ｰ」に，ギャップかどうかすら不明は「? 」に，ギャップではないがどの塩基・アミノ酸か不明は「N/X 」にして区別する

● ギャップは「ｰ」に，ギャップかどうかすら不明は「? 」に，ギャップではないがどの塩基・アミノ酸か不明は「N/X 」にして区別する● もちろん除去するのがベスト

● タンパクコード塩基配列では読み枠が変化しないように編集する

● 削除した位置とその配列がすぐわかるようにする

分子系統樹推定に適した配列データセットの作成 講義編

Science

Transcript of 分子系統樹推定に適した配列データセットの作成 講義編

銀河データセット 早見表

主な落葉広葉樹樹幹流の酸性度とヤマナラシ樹幹流 …主な落葉広葉樹樹幹流の酸性度とヤマナラシ樹幹流による 土壌酸性化抑制機能

NASA のデータセットで遊ぶ

営業データと Einstein Analytics 連携 Success Cloud シアター...2019/09/26 · 既存のデータセットのい ずれかを元に、値の計 算や他データセットとの

ガウス混合モデルによる軌道データセットを用いる …lab.cntl.kyutech.ac.jp/~nishida/paper/2017/2P2-F03.pdfガウス混合モデルによる軌道データセットを用いる

国土交通省関東運輸局...東京都足立区南花畑5-12-1 樹種一覧表（広葉樹・常緑） 樹種一覧表（広葉樹・落葉） 樹種一覧表（針葉樹・寄植）

SDTMデータセットに「日本語データ」を 含む場合 …...SDTMデータセットに「日本語データ」を 含む場合のDefine-XML作成方法 CDISC技術チーム（エーザイ株式会社）

2013年冬二期 A 級陳列指引 （按系列陳列）

vÊb êRÕc§R6gPe L - 按鈕開關|警示燈|近接開關|光電開 … · NF 系列 NV DC 系列 系列 系列 其 他 認證表 系列 BH 系列 NVB 系列 NF 系列 NV DC 系列

圧力タンクPT4A、B形 PT6B形 取扱説明書1 4K 2 6K 3 4K 4 6K 5 3.5K 6 4K 塗装 アルキド樹脂 ラッカー アルキド樹脂 ウレタン樹脂 エポキシ樹脂 ウレタン樹脂

第 6 章 佇列（ Queues ） 6-1 佇列的基礎 6-1 佇列的基礎 6-2 佇列的表示法 6-2 佇列的表示法 6-3 環狀佇列 6-3 環狀佇列 6-4 雙佇列 6-4 雙佇列.

WARPとデータセット - NDLラボ...2016.7.30 NDL データ利活用ワークショップ ～ウェブ・アーカイブの自治体サイトを可視化しよう～ WARP とデータセット

分子系統樹推定に適した 配列データセットの作成 · 分子系統樹推定に適した 配列データセットの作成 田辺晶史 実習編. 演習 ncbiから

付 EZRメニュー - 中外医学社498-10901 373 ファイル 新しいデータセットを作成する（直接入力） 既存のデータセットを読み込む データをインポートする

Excelで始めるオープンデータ ～LinkData.orgを使った データセット・アプリ公開～

1列-2 1列-3 1列-4 1列-5 1列-6 1列-7 1列-8 1列-9 1列-101列 …sic-hall.com/pdf/docs/kouban.pdf6列-216列-226列-236列-24 6列-256列-266列-276列-28 7列-1 7列-2 7列-3

7 $×^5 /%§îÅ« û Ûj Ë«ºÉÛ¡¸...合するので、データセットを Analytics Cloud で作成しやすくなります。データセットの作成で節約した時間を有効

ZDDを用いたパスの列挙と索引生成 - NAISTjkawahara/frontier/enumpath.pdfZDDを用いたパスの列挙と索引生成 川原 純 (JST ERATO 斎藤 (JST ERATO寿樹 湊

推奨データセットの活用が 見込まれるアプリ例 › jp › singi › it2 › senmon_bunka › ... · 推奨データセットの活用が見込まれるアプリ一覧

分子系統樹推定に適した 配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする

分子系統樹推定に適した配列データセットの作成講義編

Transcript of 分子系統樹推定に適した配列データセットの作成講義編

銀河データセット早見表

主な落葉広葉樹樹幹流の酸性度とヤマナラシ樹幹流 …主な落葉広葉樹樹幹流の酸性度とヤマナラシ樹幹流による土壌酸性化抑制機能

営業データと Einstein Analytics 連携 Success Cloud シアター...2019/09/26 · 既存のデータセットのいずれかを元に、値の計算や他データセットとの

国土交通省関東運輸局...東京都足立区南花畑5-12-1 樹種一覧表（広葉樹・常緑）樹種一覧表（広葉樹・落葉）樹種一覧表（針葉樹・寄植）

SDTMデータセットに「日本語データ」を含む場合 …...SDTMデータセットに「日本語データ」を含む場合のDefine-XML作成方法 CDISC技術チーム（エーザイ株式会社）

2013年冬二期 A 級陳列指引（按系列陳列）

vÊb êRÕc§R6gPe L - 按鈕開關|警示燈|近接開關|光電開 … · NF 系列 NV DC 系列系列系列其他認證表系列 BH 系列 NVB 系列 NF 系列 NV DC 系列

圧力タンクPT4A、B形 PT6B形取扱説明書1 4K 2 6K 3 4K 4 6K 5 3.5K 6 4K 塗装アルキド樹脂ラッカーアルキド樹脂ウレタン樹脂エポキシ樹脂ウレタン樹脂

第 6 章佇列（ Queues ） 6-1 佇列的基礎 6-1 佇列的基礎 6-2 佇列的表示法 6-2 佇列的表示法 6-3 環狀佇列 6-3 環狀佇列 6-4 雙佇列 6-4 雙佇列.

WARPとデータセット - NDLラボ...2016.7.30 NDL データ利活用ワークショップ～ウェブ・アーカイブの自治体サイトを可視化しよう～ WARP とデータセット

分子系統樹推定に適した配列データセットの作成 · 分子系統樹推定に適した配列データセットの作成田辺晶史実習編. 演習 ncbiから

付 EZRメニュー - 中外医学社498-10901 373 ファイル新しいデータセットを作成する（直接入力）既存のデータセットを読み込むデータをインポートする

Excelで始めるオープンデータ～LinkData.orgを使ったデータセット・アプリ公開～

ZDDを用いたパスの列挙と索引生成 - NAISTjkawahara/frontier/enumpath.pdfZDDを用いたパスの列挙と索引生成川原純 (JST ERATO 斎藤 (JST ERATO寿樹湊

推奨データセットの活用が見込まれるアプリ例 › jp › singi › it2 › senmon_bunka › ... · 推奨データセットの活用が見込まれるアプリ一覧

分子系統樹推定に適した配列データセットの作成 - …...系統樹推定に利用可能なデータ binary data – 形質がある場合を1、ない場合を0とする