メタバーコーディングのフレームワークとアルゴリズム

132
日本プランクトン学会 2014 年度春季シンポジウム 遺伝子解析と プランクトン 研究

Transcript of メタバーコーディングのフレームワークとアルゴリズム

日本プランクトン学会2014 年度春季シンポジウム

遺伝子解析とプランクトン研究

メタバーコーディングのフレームワークと

アルゴリズム

水産総合研究センター中央水産研究所

田辺 晶史

メタバーコーディングって何?

土壌海水淡水

未消化物糞

遺骸生物体など

メタバーコーディングって何?

土壌海水淡水

未消化物糞

遺骸生物体など

メタゲノム

メタバーコーディングって何?

土壌海水淡水

未消化物糞

遺骸生物体など

メタゲノム 塩基配列

メタバーコーディングって何?

土壌海水淡水

未消化物糞

遺骸生物体など

メタゲノム 塩基配列 生物種名

メタバーコーディングって何?

土壌海水淡水

未消化物糞

遺骸生物体など

メタゲノム 塩基配列 生物種名

メタバーコーディングって何?

生物相の把握

土壌海水淡水

未消化物糞

遺骸生物体など

メタゲノム 塩基配列 生物種名

メタバーコーディングって何?

生物相の把握

(Thomsen et al. 2012)

海水に溶け出た魚類の DNAから、魚類相を把握できる

土壌海水淡水

未消化物糞

遺骸生物体など

メタゲノム 塩基配列 生物種名

メタバーコーディングって何?

生物相の把握

(Toju et al. 2013)

植物の根に共生する真菌相を把握できる

メタバーコーディングのポジティブスパイラル

メタバーコーディングのポジティブスパイラル

メタバーコーディング

メタバーコーディングのポジティブスパイラル

メタバーコーディング

未知生物発見

メタバーコーディングのポジティブスパイラル

メタバーコーディング

未知生物発見

従来法による記載分類

メタバーコーディングのポジティブスパイラル

メタバーコーディング

未知生物発見

従来法による記載分類

DNA データベース充実

メタバーコーディングのポジティブスパイラル

メタバーコーディング

未知生物発見

従来法による記載分類

DNA データベース充実

新種探索生物相把握能力向上

メタバーコーディングのポジティブスパイラル

メタバーコーディング

未知生物発見

従来法による記載分類

DNA データベース充実

容易にコピー・検索できる DNA 情報に基づいているため、記載が進み、

データベースが充実するほど新種探索・生物相把握能力が向上する

新種探索生物相把握能力向上

土壌海水淡水

未消化物糞

遺骸生物体など

メタゲノム 塩基配列 生物種名

メタバーコーディングのプロセス

土壌海水淡水

未消化物糞

遺骸生物体など

メタゲノム 塩基配列 生物種名

メタバーコーディングのプロセス

PCRで特定の遺伝子座を増幅サンガー法で塩基配列解読

ちょっと前

土壌海水淡水

未消化物糞

遺骸生物体など

メタゲノム 塩基配列 生物種名

メタバーコーディングのプロセス

PCRで特定の遺伝子座を増幅同時にサンプル識別用タグ配列付加多サンプルを混合してNGSで解読

最近

土壌海水淡水

未消化物糞

遺骸生物体など

メタゲノム 塩基配列 生物種名

メタバーコーディングのプロセス

近縁既知配列と多重整列分子系統樹推定

ちょっと前

土壌海水淡水

未消化物糞

遺骸生物体など

メタゲノム 塩基配列 生物種名

メタバーコーディングのプロセス

タグ配列に基いて由来サンプルを特定配列から低品質な部位を除去

低品質な配列を除去ノイズの多そうな配列を除去キメラと思われる配列を除去

類似度n%以上の配列をまとめる類似する既知配列からホスト生物を推定

     … demultiplexing   ……… quality-trimming …………… quality-filtering   ……… denoising   ……… chimera removal    …… clustering     … barcoding

最近

土壌海水淡水

未消化物糞

遺骸生物体など

メタゲノム 塩基配列 生物種名

メタバーコーディングのプロセス

タグ配列に基いて由来サンプルを特定配列から低品質な部位を除去

低品質な配列を除去ノイズの多そうな配列を除去キメラと思われる配列を除去

類似度n%以上の配列をまとめる類似する既知配列からホスト生物を推定

     … demultiplexing   ……… quality-trimming …………… quality-filtering   ……… denoising   ……… chimera removal    …… clustering     … barcoding

Claidenthttp://www.claident.org/

最近

mothurQIIMEがよく使われている

土壌海水淡水

未消化物糞

遺骸生物体など

メタゲノム 塩基配列 生物種名

メタバーコーディングのプロセス

タグ配列に基いて由来サンプルを特定配列から低品質な部位を除去

低品質な配列を除去ノイズの多そうな配列を除去キメラと思われる配列を除去

類似度n%以上の配列をまとめる類似する既知配列からホスト生物を推定

     … demultiplexing   ……… quality-trimming …………… quality-filtering   ……… denoising   ……… chimera removal    …… clustering     … barcoding

Claidenthttp://www.claident.org/

最近

mothurQIIMEがよく使われている

クラスタリング

single-linkage と complete-linkage

single-linkage と complete-linkage

single-linkage clustering

single-linkage clustering

single-linkage と complete-linkage

閾値より類似度が高い配列の組が同じクラスタにまとまる

single-linkage clustering

single-linkage と complete-linkage

閾値より類似度が高い配列の組が同じクラスタにまとまる

閾値より類似度が低い配列の組が含まれていても構わない

single-linkage と complete-linkage

single-linkage clustering complete-linkage clustering

single-linkage と complete-linkage

single-linkage clustering complete-linkage clustering

閾値より類似度が高い配列の組が同じクラスタにまとまるが、閾値より類似度が低い配列の組が含まれないように分割される

95% の閾値では、 90% 一致でもまとまることがある(complete-linkage の場合。 single-linkage なら 0% ですらあり得る )

95% の閾値では、 90% 一致でもまとまることがある(complete-linkage の場合。 single-linkage なら 0% ですらあり得る )

95% の閾値では、 90% 一致でもまとまることがある(complete-linkage の場合。 single-linkage なら 0% ですらあり得る )

5%5%

95% の閾値では、 90% 一致でもまとまることがある(complete-linkage の場合。 single-linkage なら 0% ですらあり得る )

5%5%

代表配列を中心とする半径 5% 距離内の

配列がまとめられる

読み間違いの除去

読み間違いのパターンは無数だが、完璧な読み取りは一通り

読み間違いのパターンは無数だが、完璧な読み取りは一通り

真の配列読み間違いがない配列

読み間違いがある配列 1読み間違いがある配列 2読み間違いがある配列 3

ATAGCTATCGGCTCTATATATATCGGCTA.......................................-.....................................T..................................-...

読み間違いのパターンは無数だが、完璧な読み取りは一通り

真の配列読み間違いがない配列

読み間違いがある配列 1読み間違いがある配列 2読み間違いがある配列 3

ATAGCTATCGGCTCTATATATATCGGCTA.......................................-.....................................T..................................-...

読み間違いがない配列のリード数

読み間違いがある配列のうちの 1 種類のリード数

読み間違いのパターンは無数だが、完璧な読み取りは一通り

真の配列読み間違いがない配列

読み間違いがある配列 1読み間違いがある配列 2読み間違いがある配列 3

ATAGCTATCGGCTCTATATATATCGGCTA.......................................-.....................................T..................................-...

≫ 配列は似ている読み間違いがない配列のリード数

読み間違いがある配列のうちの 1 種類のリード数

読み間違いのパターンは無数だが、完璧な読み取りは一通り

たくさんある配列に非常によく似たまれな配列を読み間違いがある配列とみなして除去 (Li et al. 2012)

≫ 配列は似ている読み間違いがない配列のリード数

読み間違いがある配列のうちの 1 種類のリード数

読み間違いのパターンは無数だが、完璧な読み取りは一通り

たくさんある配列に非常によく似たまれな配列を読み間違いがある配列とみなして除去 (Li et al. 2012)

≫ 配列は似ている読み間違いがない配列のリード数

読み間違いがある配列のうちの 1 種類のリード数

100% 除去できるわけではない

キメラ除去

キメラは PCR の 2 サイクル目以降に生成される

キメラは PCR の 2 サイクル目以降に生成される

熱変性 アニーリング 伸長

熱変性 アニーリング 伸長

1 サイクル目

2 サイクル目以降

キメラは PCR の 2 サイクル目以降に生成される

熱変性 アニーリング 伸長

熱変性 アニーリング 伸長

1 サイクル目

2 サイクル目以降

非キメラのみ

キメラは PCR の 2 サイクル目以降に生成される

熱変性 アニーリング 伸長

熱変性 アニーリング 伸長

1 サイクル目

2 サイクル目以降

非キメラのみ

キメラ生成

キメラは PCR の 2 サイクル目以降に生成される

キメラ配列の親配列のリード数

キメラ配列のうちの 1 種類のリード数

キメラは PCR の 2 サイクル目以降に生成される

親配列 1親配列 2

キメラ配列 1

キメラ配列の親配列のリード数

キメラ配列のうちの 1 種類のリード数

> キメラは親配列の継ぎ接ぎ

キメラは PCR の 2 サイクル目以降に生成される

親配列 1親配列 2

キメラ配列 1

キメラ配列の親配列のリード数

キメラ配列のうちの 1 種類のリード数

> キメラは親配列の継ぎ接ぎ

上の条件を満たす配列をキメラとみなして除去

(Edgar et al. 2011)

キメラは PCR の 2 サイクル目以降に生成される

親配列 1親配列 2

キメラ配列 1

キメラ配列の親配列のリード数

キメラ配列のうちの 1 種類のリード数

> キメラは親配列の継ぎ接ぎ

上の条件を満たす配列をキメラとみなして除去

(Edgar et al. 2011)

100% 除去できるわけではないおそらく読み間違いの除去より困難

DNA→ 分類情報

DNA バーコーディングの 2 つのシチュエーション

DNA バーコーディングの 2 つのシチュエーション

● 候補の種は全種記載済

DNA バーコーディングの 2 つのシチュエーション

● 候補の種は全種記載済● 候補の種は全種バーコード配

列をデータベースに登録済

DNA バーコーディングの 2 つのシチュエーション

● 候補の種は全種記載済● 候補の種は全種バーコード配

列をデータベースに登録済

● 候補の種に新種含む可能性

DNA バーコーディングの 2 つのシチュエーション

● 候補の種は全種記載済● 候補の種は全種バーコード配

列をデータベースに登録済

● 候補の種に新種含む可能性● 候補の種の一部でバーコード

配列がデータベースに未登録

DNA バーコーディングの 2 つのシチュエーション

● 候補の種は全種記載済● 候補の種は全種バーコード配

列をデータベースに登録済

● 候補の種に新種含む可能性● 候補の種の一部でバーコード

配列がデータベースに未登録

必ず既知のいずれかの種

と同定される

DNA バーコーディングの 2 つのシチュエーション

● 候補の種は全種記載済● 候補の種は全種バーコード配

列をデータベースに登録済

● 候補の種に新種含む可能性● 候補の種の一部でバーコード

配列がデータベースに未登録

必ず既知のいずれかの種

と同定される

既知のいずれでもない既知のいずれか不明

があり得る

DNA バーコーディングの 2 つのシチュエーション

● 候補の種は全種記載済● 候補の種は全種バーコード配

列をデータベースに登録済

● 候補の種に新種含む可能性● 候補の種の一部でバーコード

配列がデータベースに未登録

必ず既知のいずれかの種

と同定される

既知のいずれでもない既知のいずれか不明

があり得る

データベース内の最も似ている配列の持ち主と同種と判定すればよい

DNA バーコーディングの 2 つのシチュエーション

● 候補の種は全種記載済● 候補の種は全種バーコード配

列をデータベースに登録済

● 候補の種に新種含む可能性● 候補の種の一部でバーコード

配列がデータベースに未登録

必ず既知のいずれかの種

と同定される

既知のいずれでもない既知のいずれか不明

があり得る

データベース内の最も似ている配列の持ち主と同種と判定すればよい

新規準 (Tanabe and Toju 2013)

新規準

問い合わせ配列と最近隣配列間の変異量

(Tanabe and Toju 2013)

新規準

問い合わせ配列と最近隣配列間の変異量

同定結果分類群内の最大変異量<

(Tanabe and Toju 2013)

イメージ図

既知配列 B

既知配列 A

問い合わせ配列

配列空間

イメージ図

既知配列 B

既知配列 A

問い合わせ配列

属 genus Ω種 species α

属 genus Ω種 species β

配列空間

イメージ図

既知配列 B

既知配列 A

問い合わせ配列属Ω の変異

の範囲

配列空間

イメージ図

既知配列 B

既知配列 A

問い合わせ配列属Ω の変異

の範囲

属 genus Ω種 species ?

配列空間

Query-centric auto-k-NN (QCauto) method

問い合わせ配列

配列空間

Query-centric auto-k-NN (QCauto) method1.最近隣配列 (A) を探し出して変異量 (DQA) を算出

問い合わせ配列A

DQA

配列空間

Query-centric auto-k-NN (QCauto) method1.最近隣配列 (A) を探し出して変異量 (DQA) を算出2.DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る

A

DQA問い合わせ配列

配列空間

B

Query-centric auto-k-NN (QCauto) method1.最近隣配列 (A) を探し出して変異量 (DQA) を算出2.DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3.DQN≤DQBを満たすすべての配列 (N) を得る

A

DQB

N

N

N

問い合わせ配列

配列空間

B

Query-centric auto-k-NN (QCauto) method1.最近隣配列 (A) を探し出して変異量 (DQA) を算出2.DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3.DQN≤DQBを満たすすべての配列 (N) を得る4. A, B, N の全配列で共通する分類群を採用

A

DQB

N

N

N

問い合わせ配列

配列空間

B

Query-centric auto-k-NN (QCauto) method1.最近隣配列 (A) を探し出して変異量 (DQA) を算出2.DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3.DQN≤DQBを満たすすべての配列 (N) を得る4. A, B, N の全配列で共通する分類群を採用

A

DQB

N

N

N

問い合わせ配列

配列空間

B

配列空間

問い合わせ配列と最近隣配列間の変異量

DQA

DQB

同定結果分類群内の最大変異量

<≤

従来法との比較 Leave-One-Out Cross-Validation

DNA データベース

human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…

従来法との比較 Leave-One-Out Cross-Validation

human ACATAGC…

無作為に1 本抜く

human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…

DNA データベース

従来法との比較 Leave-One-Out Cross-Validation

human ACATAGC…

無作為に1 本抜く

human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…

chimp ACATTCT…cow TACGTCT…cat GCTGTGT…

1 配列欠損した DNA データベースDNA データベース

従来法との比較 Leave-One-Out Cross-Validation

human ACATAGC…

human の DNA を右のデータベースを使ってプログラムで同定して正解かどうかを調べる

無作為に1 本抜く

human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…

chimp ACATTCT…cow TACGTCT…cat GCTGTGT…

DNA データベース 1 配列欠損した DNA データベース

従来法との比較 Leave-One-Out Cross-Validation

human ACATAGC…

human の DNA を右のデータベースを使ってプログラムで同定して正解かどうかを調べる

無作為に1 本抜く

human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…

chimp ACATTCT…cow TACGTCT…cat GCTGTGT…

抜き取った DNA はプログラムからは未知のものになる

DNA データベース 1 配列欠損した DNA データベース

動物・植物・真菌・細菌での LOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

動物・植物・真菌・細菌での LOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

1NN は種レベルでもよく同定できるが誤同定多数

動物・植物・真菌・細菌での LOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

NNC, QC は門~科までは1NN に次ぐ程度には同定可能

動物・植物・真菌・細菌での LOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

我々はまだまだ属や種レベルの多様性は把握できていない

QCauto 法で種同定するには 1 種当たり何個体のバーコード配列が必要か推定してみた

QCauto 法で種同定するには 1 種当たり何個体のバーコード配列が必要か推定してみた

● 50個体以上のバーコード配列がある種を 50 種抽出

QCauto 法で種同定するには 1 種当たり何個体のバーコード配列が必要か推定してみた

● 50個体以上のバーコード配列がある種を 50 種抽出● 選ばれた種で、以下を 10回試行し、種同定成功率を計算

QCauto 法で種同定するには 1 種当たり何個体のバーコード配列が必要か推定してみた

● 50個体以上のバーコード配列がある種を 50 種抽出● 選ばれた種で、以下を 10回試行し、種同定成功率を計算

1.無作為に 1本配列を抽出 ( 重複なし )

QCauto 法で種同定するには 1 種当たり何個体のバーコード配列が必要か推定してみた

● 50個体以上のバーコード配列がある種を 50 種抽出● 選ばれた種で、以下を 10回試行し、種同定成功率を計算

1.無作為に 1本配列を抽出 ( 重複なし )2.選ばれなかった配列から x本を無作為抽出し、それ以外をデータ

ベースから抹消

QCauto 法で種同定するには 1 種当たり何個体のバーコード配列が必要か推定してみた

● 50個体以上のバーコード配列がある種を 50 種抽出● 選ばれた種で、以下を 10回試行し、種同定成功率を計算

1.無作為に 1本配列を抽出 ( 重複なし )2.選ばれなかった配列から x本を無作為抽出し、それ以外をデータ

ベースから抹消3. 1 の配列を 2 のデータベースを用いて QCauto 法で同定

QCauto 法で種同定するには 1 種当たり何個体のバーコード配列が必要か推定してみた

● 50個体以上のバーコード配列がある種を 50 種抽出● 選ばれた種で、以下を 10回試行し、種同定成功率を計算

1.無作為に 1本配列を抽出 ( 重複なし )2.選ばれなかった配列から x本を無作為抽出し、それ以外をデータ

ベースから抹消3. 1 の配列を 2 のデータベースを用いて QCauto 法で同定

x 個体のバーコード配列がデータベースにある状況をシミュレート

昆虫の種同定には 1 種当たり 15 個体の配列登録が必要

昆虫の種同定には 1 種当たり 15 個体の配列登録が必要

昆虫の全種記載・全種登録は遠いので、 1 種当たり 15個体以上の

登録が望ましい

脊椎動物の種同定には 1 種当たり 20 個体でも足りない ?

脊椎動物の種同定には 1 種当たり 20 個体でも足りない ?

脊椎動物なら、全種記載・全種登録

は昆虫よりずっと近いので、 1 種当たり 1個体で全種登録を目指す方がよい

まとめ

● メタバーコーディングで水中の生物相把握が簡単になる…多分● メタバーコーディングで新種探索が迅速化できる● 配列クラスタリングのアルゴリズムに注意が必要● 読み間違いやキメラはプログラムでは完全には除去できない● 配列未登録種がある場合は QCauto 法で同定するのが安全● 分子同定用配列データベースは極めて不十分● 昆虫では 1 種当たり 15個体の登録が必要● 脊椎動物は全種記載の上で全種各 1個体の登録がよい● 動植物プランクトンに関しては未検討

NN-centric auto-k-NN method

問い合わせ配列

配列空間

NN-centric auto-k-NN method1.最近隣配列 (A) を探し出して変異量 (DQA) を算出

問い合わせ配列A

DQA

配列空間

NN-centric auto-k-NN method1.最近隣配列 (A) を探し出して変異量 (DQA) を算出2.DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る

A

DQA問い合わせ配列

配列空間

B

NN-centric auto-k-NN method1.最近隣配列 (A) を探し出して変異量 (DQA) を算出2.DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3.DAN≤DABを満たす全ての配列 (N) を得る

A

DAB

B

N

N

N問い合わせ配列

配列空間

NN-centric auto-k-NN method1.最近隣配列 (A) を探し出して変異量 (DQA) を算出2.DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3.DAN≤DABを満たす全ての配列 (N) を得る4. A, B, N の全配列で共通する分類群を採用

A

DAB

B

N

N

N問い合わせ配列

配列空間

NN-centric auto-k-NN method1.最近隣配列 (A) を探し出して変異量 (DQA) を算出2.DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3.DAN≤DABを満たす全ての配列 (N) を得る4. A, B, N の全配列で共通する分類群を採用

A

DAB

B

N

N

N問い合わせ配列

配列空間

問い合わせ配列と最近隣配列間の変異量

DQA

DAB

同定結果分類群内の最大変異量<

≤=

誤同定の要因

● 見かけ上の誤同定● 問い合わせ配列の同定情報が間違っている● 既知配列の同定情報が間違っている● 分類体系が系統関係を反映していない

● 本当の誤同定● バーコード領域が incomplete lineage sorting や浸透交雑・水平伝播によって種の系統関係を反映していない

● 変異量の指標 (BLAST raw score) が不適● 規準が不適

全分類群全遺伝子座での LOOCV 結果

correctly identified incorrectly identified cannot identified but incorrectly identified at higher-level cannot identified

属レベルが最も誤同定が多い

属レベルで誤同定が多いのは何故か ?

● 種を記載するとき、無理にでも属は指定する必要がある

● 系統関係と整合的でない分類群が属で設立されやすいのでは ?● 正しくない属に入れられてしまう種も多いのでは ?

誤同定の要因

● 見かけ上の誤同定● 問い合わせ配列の同定情報が間違っている● 既知配列の同定情報が間違っている● 分類体系が系統関係を反映していない

● 本当の誤同定● バーコード領域が incomplete lineage sorting や浸透交雑・水平伝播によって種の系統関係を反映していない

● 変異量の指標 (BLAST raw score) が不適● 規準が不適

「属レベルが最も誤同定が多い」のは、これが多いことを示している ?

複数の同定結果を優先順位を付けて統合する

● 複数の既知配列データベースでの同定結果● 種以下まで情報がある既知配列のみのデータベースでの同定結果● 科以下まで情報がある既知配列のみのデータベースでの同定結果

● 厳しい制約下の同定結果と制約を緩めた同定結果● 類似配列の厳密一致分類群を採用した同定結果● 類似配列の 90% 多数決合意分類群を採用した同定結果

● 複数の遺伝子座での同定結果● 遺伝子座 A の配列での同定結果● 遺伝子座 Bの配列での同定結果

優先度 綱 目 科 属 種

高 哺乳綱 霊長目 ヒト科

低 哺乳綱 霊長目 ヒト科 ヒト属 ヒト

複数の同定結果を優先順位を付けて統合する

綱 目 科 属 種

統合結果 哺乳綱 霊長目 ヒト科 ヒト属 ヒト

優先度 綱 目 科 属 種

高 哺乳綱 霊長目 ヒト科 ゴリラ属 ゴリラ

低 哺乳綱 霊長目 ヒト科 ヒト属 ヒト

複数の同定結果を優先順位を付けて統合する

綱 目 科 属 種

統合結果 哺乳綱 霊長目 ヒト科 ゴリラ属 ゴリラ

優先度 綱 目 科 属 種

同 哺乳綱 霊長目 ヒト科 ゴリラ属 ゴリラ

同 哺乳綱 霊長目 ヒト科 ヒト属 ヒト

複数の同定結果を優先順位を付けて統合する

綱 目 科 属 種

統合結果 哺乳綱 霊長目 ヒト科

優先度 綱 目 科 属 種

同 哺乳綱 霊長目 ヒト科 ゴリラ属 ゴリラ

同 哺乳綱 霊長目 ヒト科 ヒト属

複数の同定結果を優先順位を付けて統合する

綱 目 科 属 種

統合結果 哺乳綱 霊長目 ヒト科 ゴリラ属 ゴリラ

動物 COX1 での no-LOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

動物 COX1 での LOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

細菌 16S での no-LOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

細菌 16S での LOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

真菌 ITS での no-LOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

真菌 ITS での LOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

植物 matK での no-LOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

植物 matK での LOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

植物 rbcL での no-LOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

植物 rbcL での LOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

植物 trnH-psbA での no-LOOCV 結果

植物 trnH-psbA での LOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

従来法との比較 2 Leave-One-Order-Out CV

human ACATAGC…

無作為に1 本抜く

human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…

DNA データベース

従来法との比較 2 Leave-One-Order-Out CV

human ACATAGC…

無作為に1 本抜く

human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…

cow TACGTCT…cat GCTGTGT…

DNA データベース 1目の全配列欠損した DNA データベース

従来法との比較 2 Leave-One-Order-Out CV

human ACATAGC…

human の DNA を右のデータベースを使ってプログラムで同定して正解かどうかを調べる

無作為に1 本抜く

human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…

cow TACGTCT…cat GCTGTGT…

DNA データベース 1目の全配列欠損した DNA データベース

従来法との比較 2 Leave-One-Order-Out CV

human ACATAGC…

human の DNA を右のデータベースを使ってプログラムで同定して正解かどうかを調べる

無作為に1 本抜く

human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…

cow TACGTCT…cat GCTGTGT…

抜き取った DNA の「目」はプログラムからは未知のものになる

DNA データベース 1目の全配列欠損した DNA データベース

動物・植物・真菌・細菌での LOOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

動物・植物・真菌・細菌での LOOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentifiedphylum, class では5NN, NNC, QCはよく似た結果

動物・植物・真菌・細菌での LOOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

「既知の綱の未知の目」と正しく判定できた件数は

QC>>NNC>>5NN

QCauto 法の性質

● 多重整列が不要● 既知系統樹が不要● どの遺伝子座でも適用可能● どの分類群にも適用可能● 前処理に時間がかからない● 同定処理に時間がかからない● 理論的背景がある● 「既知の綱の未知の目」といった答えを正しく出す