メタバーコーディングが拓く新種探索の新時代

Thewildmushroomchase2013

Thelast

presentation

Presenter

発表者

水産総合研究センター

中央水産研究所

田辺晶史Akifumi S. TanabeNational Research Institute of Fisheries Science,

Fisheries Research Agency

メタバーコーディングが拓く新種探索の新時代

Metabarcoding marks a new erafor exploring new taxa

未知の生物を

探すExploring new taxa

どうやって？

How?

目で見るobserve by eyes

遅いToo slow

そんなときにメタバーコーディングMetabarcoding isable to solve this problem

メタバーコーディングって何？What is “metabarcoding”?

土壌海水淡水

未消化物糞

遺骸生物体など


soilssea waterfresh waterundigested materialsfecesdead bodiesliving bodiesetc.

土壌海水淡水

未消化物糞


メタゲノム


metagenomes


土壌海水淡水

未消化物糞


メタゲノム塩基配列



metagenomes nucleotidesequences

土壌海水淡水

未消化物糞


メタゲノム塩基配列生物種名




biologicaltaxa

メタバーコーディングのポジティブスパイラル

メタバーコーディング

未知生物発見

従来法による記載分類

DNA データベース充実

メタバーコーディング能力向上

A positive spiral of metabarcoding

metabarcoding

discovera new taxon

describe the new taxonby existing method

expand the DNA database

improvemetabarcoding

土壌海水淡水

未消化物糞



メタバーコーディングって何？

ＰＣＲで特定の遺伝子座を増幅サンガー法で塩基配列解読


biologicaltaxa

amplify a barcode locussequence by Sanger method

What is “metabarcoding”?

an oldmethod

土壌海水淡水

未消化物糞




ＰＣＲで特定の遺伝子座を増幅同時にサンプル識別用タグ配列付加多サンプルを混合してＮＧＳで解読


biologicaltaxa

amplify a barcode locusadd multiplex identifier sequence

mix and sequence by NGS


a newmethod

土壌海水淡水

未消化物糞




近縁既知配列と多重整列分子系統樹推定



biologicaltaxa

multiple alignment with known relativesmolecular phylogenetic inference

an oldmethod


biologicaltaxa

土壌海水淡水

未消化物糞




タグ配列に基いて由来サンプルを特定配列から低品質な部位を除去

低品質な配列を除去ノイズの多そうな配列を除去キメラと思われる配列を除去

類似度ｎ％以上の配列をまとめる類似する既知配列からホスト生物を推定

　　　　　… demultiplexing　　　……… quality-trimming　…………… quality-filtering　　　……… denoising　　　……… chimera removal　　　　…… clustering　　　　　… barcoding


a newmethod


biologicaltaxa

土壌海水淡水

未消化物糞




タグ配列に基いて由来サンプルを特定配列から低品質な部位を除去

低品質な配列を除去ノイズの多そうな配列を除去キメラと思われる配列を除去

類似度ｎ％以上の配列をまとめる類似する既知配列からホスト生物を推定

　　　　　… demultiplexing　　　……… quality-trimming　…………… quality-filtering　　　……… denoising　　　……… chimera removal　　　　…… clustering　　　　　… barcoding

Claidenthttp://www.claident.org/


a newmethod

植物菌根のメタバーコーディング例An example of metabarcoding

of mycorrhizae

(Toju et al. 2013)

interludestart

生物の分類は階層的に体系化されているBiological taxonomy is hierarchically systematized

生物の分類は階層的に体系化されている

界 kingdom

Biological taxonomy is hierarchically systematized


界 kingdom

門 phylum



界 kingdom

門 phylum

綱 class



界 kingdom

門 phylum

綱 class

目 order



界 kingdom

門 phylum

綱 class

目 order

科 family



界 kingdom

門 phylum

綱 class

目 order

科 family

属 genus



界 kingdom

門 phylum

綱 class

目 order

科 family

属 genus

種 species


生物の所属分類群を特定＝同定すると、様々なことがわかるTaxonomic identification gives us

a lot of information

生物の所属分類群を特定＝同定すると、様々なことがわかる

● 生態

Taxonomic identification gives us a lot of information

Ecology


● 生態

● 寿命，最大・平均・最小サイズ，生息環境，分布域， etc.


Ecology

life history, body size, habitat, distribution, etc.


● 生態


● 近縁の分類群


Ecology

Closely related taxa



● 生態


● 近縁の分類群

● ヒトであればチンパンジー，ライオンであればネコ， etc.


Ecology

Closely related taxa


chimps for humans, lions for cats, etc.

より下位の階層まで同じ分類群は、より似ているOrganisms which belong same lower taxa

are more similar

より下位の階層まで同じ分類群は、より似ている

● 既知生物に似ているほど下位の階層まで同定可能

Organisms which belong same lower taxaare more similar

An organism which is more similar to known organismsis identifiable to lower taxa

より下位の階層まで同じ分類群は、より似ている

● 既知生物に似ているほど下位の階層まで同定可能

● より下位の階層（種とか）まで同定できるとより詳細にわかる

Organisms which belong same lower taxaare more similar

An organism which is more similar to known organismsis identifiable to lower taxa

Lower taxonomic information providesmore detailed ecological information

interludeend

DNA→ 分類情報

Translating DNA intotaxonomic information

どうやって？

How?

新規準A new criterion for molecular identification

新規準

問い合わせ配列と最近隣配列間の変異量

A new criterion for molecular identification

distance between query and nearest-neighbor

新規準


同定結果分類群内の最大変異量<

A new criterion for molecular identification


maximum distance within resulting taxon

イメージ図

既知配列 B

既知配列 A

問い合わせ配列

配列空間

A schematic illustrationsequence space

known sequence A

known sequence B

query sequence

イメージ図

既知配列 B

既知配列 A


属 genus Ω種 species α

属 genus Ω種 species β

配列空間


known sequence A

known sequence B

query sequence

known sequence B

イメージ図

既知配列 B

既知配列 A

問い合わせ配列属

Ω の変異の範囲

配列空間


known sequence A

query sequenceva

riable

range o

f gen

us Ω

known sequence A

known sequence B

query sequence

イメージ図

既知配列 B

既知配列 A

問い合わせ配列属

Ω の変異の範囲

属 genus Ω種 species ?

配列空間


varia

ble ran

ge of g

enus Ω

NN-centric auto-k-NN method


配列空間 sequence space

query sequence

NN-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出

問い合わせ配列A

DQA


query sequence

Retrieve nearest-neighbor (A), and calculate distance from query (DQA)

NN-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出2. DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る

A

DQA問い合わせ配列

配列空間

B

sequence space

query sequence

Retrieve borderline (B),which is nearest to A in the sequences farther from A than Q

NN-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出2. DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3. DAN≤DAB を満たす全ての配列 (N) を得る

A

DAB

B

N

N

N問い合わせ配列


query sequence

Retrieve all sequences (Ns) filling DAN≤DAB

NN-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出2. DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3. DAN≤DAB を満たす全ての配列 (N) を得る4. A, B, N の全配列で共通する分類群を採用

A

DAB

B

N

N



query sequence

Accept a taxon common to A, B, and Ns

sequence space

NN-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出2. DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3. DAN≤DAB を満たす全ての配列 (N) を得る4. A, B, N の全配列で共通する分類群を採用

A

DAB

B

N

N


配列空間


DQA

DAB

同定結果分類群内の最大変異量＜

≤＝

query sequence



Query-centric auto-k-NN method



query sequence

Query-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出

問い合わせ配列A

DQA


query sequence

Retrieve nearest-neighbor (A), and calculate distance from query (DQA)

Query-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出2. DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る

A

DQA問い合わせ配列

配列空間

B

sequence space

query sequence

Retrieve borderline (B),which is nearest to A in the sequences farther from A than Q

Query-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出2. DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3. DQN≤DQB を満たすすべての配列 (N) を得る

A

DQB

N

N

N


配列空間

B

sequence space

query sequence

Retrieve all sequences (Ns) filling DQN≤DQB

Query-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出2. DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3. DQN≤DQB を満たすすべての配列 (N) を得る4. A, B, N の全配列で共通する分類群を採用

A

DQB

N

N

N


配列空間

B

sequence space

query sequence

Accept a taxon common to A, B, and Ns

sequence space

Query-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出2. DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3. DQN≤DQB を満たすすべての配列 (N) を得る4. A, B, N の全配列で共通する分類群を採用

A

DQB

N

N

N


配列空間

B

配列空間


DQA

DQB

同定結果分類群内の最大変異量

＜≤

＝query sequence



従来法との比較 1

DNA database

Comparing with existing methods 1

human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…


DNA database

human ACATAGC…

無作為に1 本抜く



picka sequence


DNA database

human ACATAGC…




chimp ACATTCT…cow TACGTCT…cat GCTGTGT…

DNA database lacking 1 sequence

picka sequence


DNA database

human ACATAGC…

human の DNA を右のデータベースを使ってプログラムで同定して正解かどうかを調べる






picka sequence

identify human DNA by programswith DNA database lacking human DNA


DNA database

human ACATAGC…







picka sequence

identify human DNA by programswith DNA database lacking human DNA

抜き取った DNA はプログラムからは未知のものになる

Picked DNA seems to be“unknown sequence”from programs

Results of leave-one-out cross-validation

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified



1NNはよく落ちるが誤同定多数

Too many misidentificationswere produced by 1NN method



97%NN, 99%NN,Barcoder, ConstrainedNJは、門レベルすら落とせない

ことが頻繁にある97%NN, 99%NN, Barcoder, ConstrainedNJ werenot able to identify the sequences even at phylum-level


correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentifiedNNC, QC は門～科まではよく落とせている

NNC and QC frequently produced correct identificationat phylum-, class-, order-, and family-level.



5NNは NNC, QCとよく似た結果

5NN produced similar results to NNC and QC


DNA database

human ACATAGC…




picka sequence


DNA database

human ACATAGC…




cow TACGTCT…cat GCTGTGT…

DNA database lacking all seqs of a order

picka sequence


DNA database

human ACATAGC…







picka sequence

identify human DNA by programswith DNA database lacking all DNA of a order


DNA database

human ACATAGC…







picka sequence

identify human DNA by programswith DNA database lacking all DNA of a order

抜き取った DNA の「目」はプログラムからは未知のものになる

Picked DNA seems to be“unknown order”from programs

Results of leave-one-order-out cross-validation



correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentifiedphylum, class では5NN, NNC, QCはよく似た結果



order の誤同定は5NN > NNC > QC



family でも5NN > NNC > QC

Results of leave-one-family-out cross-validation


Results of leave-one-genus-out cross-validation


まとめ

● QCauto method...● 多重整列が不要● 既知系統樹が不要● どの遺伝子座でも適用可能● どの分類群にも適用可能● 前処理に時間がかからない● 同定処理に時間がかからない● 理論的背景がある● 「既知の綱の未知の目」といった答えを正しく出す

is multiple alignment free

is phylogenetic tree free

is locus independent

is taxon independent

is fast in preprocess

is fast in identification process

has theoretical background

can find unknown order of existing class

Conclusion

QCauto 法はポジティブスパイラルを加速する


未知生物発見




QCauto method accelerates positive spiral

metabarcoding

discovera new taxon




QCauto 法はポジティブスパイラルを加速する


未知生物発見




QCauto method accelerates positive spiral

metabarcoding

discovera new taxon




Bottleneck

誤同定の要因

● 見かけ上の誤同定● 問い合わせ配列の同定情報が間違っている● 既知配列の同定情報が間違っている● 分類体系が系統関係を反映していない

● 本当の誤同定● バーコード領域が incomplete lineage sorting や浸透交雑・水平

伝播によって種の系統関係を反映していない● 変異量の指標 (BLAST raw score)が不適● 規準が不適

全分類群全遺伝子座での LOOCV 結果

correctly identified incorrectly identified cannot identified but incorrectly identified at higher-level cannot identified

属レベルが最も誤同定が多い

属レベルで誤同定が多いのは何故か ?

● 種を記載するとき、無理にでも属は指定する必要がある

● 系統関係と整合的でない分類群が属で設立されやすいのでは ?● 正しくない属に入れられてしまう種も多いのでは ?

誤同定の要因

● 見かけ上の誤同定● 問い合わせ配列の同定情報が間違っている● 既知配列の同定情報が間違っている● 分類体系が系統関係を反映していない

● 本当の誤同定● バーコード領域が incomplete lineage sorting や浸透交雑・水平

伝播によって種の系統関係を反映していない● 変異量の指標 (BLAST raw score)が不適● 規準が不適

「属レベルが最も誤同定が多い」のは、これが多いことを示している ?

複数の同定結果を優先順位を付けて統合する

● 複数の既知配列データベースでの同定結果● 種以下まで情報がある既知配列のみのデータベースでの同定結果● 科以下まで情報がある既知配列のみのデータベースでの同定結果

● 厳しい制約下の同定結果と制約を緩めた同定結果● 類似配列の厳密一致分類群を採用した同定結果● 類似配列の 90%多数決合意分類群を採用した同定結果

● 複数の遺伝子座での同定結果● 遺伝子座 A の配列での同定結果● 遺伝子座 B の配列での同定結果

優先度綱目科属種

高哺乳綱霊長目ヒト科

低哺乳綱霊長目ヒト科ヒト属ヒト


綱目科属種

統合結果哺乳綱霊長目ヒト科ヒト属ヒト


高哺乳綱霊長目ヒト科ゴリラ属ゴリラ

低哺乳綱霊長目ヒト科ヒト属ヒト


綱目科属種

統合結果哺乳綱霊長目ヒト科ゴリラ属ゴリラ


同哺乳綱霊長目ヒト科ゴリラ属ゴリラ

同哺乳綱霊長目ヒト科ヒト属ヒト


綱目科属種

統合結果哺乳綱霊長目ヒト科


同哺乳綱霊長目ヒト科ゴリラ属ゴリラ

同哺乳綱霊長目ヒト科ヒト属


綱目科属種

統合結果哺乳綱霊長目ヒト科ゴリラ属ゴリラ

動物 COX1 での no-LOOCV 結果


動物 COX1 での LOOCV 結果


細菌 16S での no-LOOCV 結果


細菌 16S での LOOCV 結果


真菌 ITS での no-LOOCV 結果


真菌 ITS での LOOCV 結果


植物 matK での no-LOOCV 結果


植物 matK での LOOCV 結果


植物 rbcL での no-LOOCV 結果


植物 rbcL での LOOCV 結果


植物 trnH-psbA での no-LOOCV 結果

植物 trnH-psbA での LOOCV 結果


メタバーコーディングが拓く新種探索の新時代

Science

Transcript of メタバーコーディングが拓く新種探索の新時代