メタバーコーディングが拓く新種探索の新時代

Post on 03-Aug-2015

268 views 5 download

Transcript of メタバーコーディングが拓く新種探索の新時代

Thewildmushroomchase2013

Thelast

presentation

Presenter

発表者

水産総合研究センター

中央水産研究所

田辺 晶史Akifumi S. TanabeNational Research Institute of Fisheries Science,

Fisheries Research Agency

メタバーコーディング が拓く新種探索の新時代

Metabarcoding marks a new erafor exploring new taxa

未知の生物を

探すExploring new taxa

どうやって?

How?

目で見るobserve by eyes

遅いToo slow

そんなときにメタバーコーディングMetabarcoding isable to solve this problem

メタバーコーディングって何?What is “metabarcoding”?

土壌海水淡水

未消化物糞

遺骸生物体など

メタバーコーディングって何?What is “metabarcoding”?

soilssea waterfresh waterundigested materialsfecesdead bodiesliving bodiesetc.

土壌海水淡水

未消化物糞

遺骸生物体など

メタゲノム

メタバーコーディングって何?What is “metabarcoding”?

metagenomes

soilssea waterfresh waterundigested materialsfecesdead bodiesliving bodiesetc.

土壌海水淡水

未消化物糞

遺骸生物体など

メタゲノム 塩基配列

メタバーコーディングって何?What is “metabarcoding”?

soilssea waterfresh waterundigested materialsfecesdead bodiesliving bodiesetc.

metagenomes nucleotidesequences

土壌海水淡水

未消化物糞

遺骸生物体など

メタゲノム 塩基配列 生物種名

メタバーコーディングって何?What is “metabarcoding”?

soilssea waterfresh waterundigested materialsfecesdead bodiesliving bodiesetc.

metagenomes nucleotidesequences

biologicaltaxa

メタバーコーディングのポジティブスパイラル

メタバーコーディング

未知生物発見

従来法による記載分類

DNA データベース充実

メタバーコーディング能力向上

A positive spiral of metabarcoding

metabarcoding

discovera new taxon

describe the new taxonby existing method

expand the DNA database

improvemetabarcoding

土壌海水淡水

未消化物糞

遺骸生物体など

メタゲノム 塩基配列 生物種名

メタバーコーディングって何?

PCRで特定の遺伝子座を増幅サンガー法で塩基配列解読

metagenomes nucleotidesequences

biologicaltaxa

amplify a barcode locussequence by Sanger method

What is “metabarcoding”?

an oldmethod

土壌海水淡水

未消化物糞

遺骸生物体など

メタゲノム 塩基配列 生物種名

メタバーコーディングって何?

PCRで特定の遺伝子座を増幅同時にサンプル識別用タグ配列付加多サンプルを混合してNGSで解読

metagenomes nucleotidesequences

biologicaltaxa

amplify a barcode locusadd multiplex identifier sequence

mix and sequence by NGS

What is “metabarcoding”?

a newmethod

土壌海水淡水

未消化物糞

遺骸生物体など

メタゲノム 塩基配列 生物種名

メタバーコーディングって何?

近縁既知配列と多重整列分子系統樹推定

What is “metabarcoding”?

metagenomes nucleotidesequences

biologicaltaxa

multiple alignment with known relativesmolecular phylogenetic inference

an oldmethod

metagenomes nucleotidesequences

biologicaltaxa

土壌海水淡水

未消化物糞

遺骸生物体など

メタゲノム 塩基配列 生物種名

メタバーコーディングって何?

タグ配列に基いて由来サンプルを特定配列から低品質な部位を除去

低品質な配列を除去ノイズの多そうな配列を除去キメラと思われる配列を除去

類似度n%以上の配列をまとめる類似する既知配列からホスト生物を推定

     … demultiplexing   ……… quality-trimming …………… quality-filtering   ……… denoising   ……… chimera removal    …… clustering     … barcoding

What is “metabarcoding”?

a newmethod

metagenomes nucleotidesequences

biologicaltaxa

土壌海水淡水

未消化物糞

遺骸生物体など

メタゲノム 塩基配列 生物種名

メタバーコーディングって何?

タグ配列に基いて由来サンプルを特定配列から低品質な部位を除去

低品質な配列を除去ノイズの多そうな配列を除去キメラと思われる配列を除去

類似度n%以上の配列をまとめる類似する既知配列からホスト生物を推定

     … demultiplexing   ……… quality-trimming …………… quality-filtering   ……… denoising   ……… chimera removal    …… clustering     … barcoding

Claidenthttp://www.claident.org/

What is “metabarcoding”?

a newmethod

metagenomes nucleotidesequences

biologicaltaxa

土壌海水淡水

未消化物糞

遺骸生物体など

メタゲノム 塩基配列 生物種名

メタバーコーディングって何?

タグ配列に基いて由来サンプルを特定配列から低品質な部位を除去

低品質な配列を除去ノイズの多そうな配列を除去キメラと思われる配列を除去

類似度n%以上の配列をまとめる類似する既知配列からホスト生物を推定

     … demultiplexing   ……… quality-trimming …………… quality-filtering   ……… denoising   ……… chimera removal    …… clustering     … barcoding

Claidenthttp://www.claident.org/

What is “metabarcoding”?

a newmethod

植物菌根のメタバーコーディング例An example of metabarcoding

of mycorrhizae

(Toju et al. 2013)

interludestart

生物の分類は階層的に体系化されているBiological taxonomy is hierarchically systematized

生物の分類は階層的に体系化されている

界 kingdom

Biological taxonomy is hierarchically systematized

生物の分類は階層的に体系化されている

界 kingdom

門 phylum

Biological taxonomy is hierarchically systematized

生物の分類は階層的に体系化されている

界 kingdom

門 phylum

綱 class

Biological taxonomy is hierarchically systematized

生物の分類は階層的に体系化されている

界 kingdom

門 phylum

綱 class

目 order

Biological taxonomy is hierarchically systematized

生物の分類は階層的に体系化されている

界 kingdom

門 phylum

綱 class

目 order

科 family

Biological taxonomy is hierarchically systematized

生物の分類は階層的に体系化されている

界 kingdom

門 phylum

綱 class

目 order

科 family

属 genus

Biological taxonomy is hierarchically systematized

生物の分類は階層的に体系化されている

界 kingdom

門 phylum

綱 class

目 order

科 family

属 genus

種 species

Biological taxonomy is hierarchically systematized

生物の所属分類群を特定=同定すると、様々なことがわかるTaxonomic identification gives us

a lot of information

生物の所属分類群を特定=同定すると、様々なことがわかる

● 生態

Taxonomic identification gives us a lot of information

Ecology

生物の所属分類群を特定=同定すると、様々なことがわかる

● 生態

● 寿命,最大・平均・最小サイズ,生息環境,分布域, etc.

Taxonomic identification gives us a lot of information

Ecology

life history, body size, habitat, distribution, etc.

生物の所属分類群を特定=同定すると、様々なことがわかる

● 生態

● 寿命,最大・平均・最小サイズ,生息環境,分布域, etc.

● 近縁の分類群

Taxonomic identification gives us a lot of information

Ecology

Closely related taxa

life history, body size, habitat, distribution, etc.

生物の所属分類群を特定=同定すると、様々なことがわかる

● 生態

● 寿命,最大・平均・最小サイズ,生息環境,分布域, etc.

● 近縁の分類群

● ヒトであればチンパンジー,ライオンであればネコ, etc.

Taxonomic identification gives us a lot of information

Ecology

Closely related taxa

life history, body size, habitat, distribution, etc.

chimps for humans, lions for cats, etc.

より下位の階層まで同じ分類群は、より似ているOrganisms which belong same lower taxa

are more similar

より下位の階層まで同じ分類群は、より似ている

● 既知生物に似ているほど下位の階層まで同定可能

Organisms which belong same lower taxaare more similar

An organism which is more similar to known organismsis identifiable to lower taxa

より下位の階層まで同じ分類群は、より似ている

● 既知生物に似ているほど下位の階層まで同定可能

● より下位の階層(種とか)まで同定できるとより詳細にわかる

Organisms which belong same lower taxaare more similar

An organism which is more similar to known organismsis identifiable to lower taxa

Lower taxonomic information providesmore detailed ecological information

interludeend

DNA→ 分類情報

Translating DNA intotaxonomic information

どうやって?

How?

新規準A new criterion for molecular identification

新規準

問い合わせ配列と最近隣配列間の変異量

A new criterion for molecular identification

distance between query and nearest-neighbor

新規準

問い合わせ配列と最近隣配列間の変異量

同定結果分類群内の最大変異量<

A new criterion for molecular identification

distance between query and nearest-neighbor

maximum distance within resulting taxon

イメージ図

既知配列 B

既知配列 A

問い合わせ配列

配列空間

A schematic illustrationsequence space

known sequence A

known sequence B

query sequence

イメージ図

既知配列 B

既知配列 A

問い合わせ配列

属 genus Ω種 species α

属 genus Ω種 species β

配列空間

A schematic illustrationsequence space

known sequence A

known sequence B

query sequence

known sequence B

イメージ図

既知配列 B

既知配列 A

問い合わせ配列属

Ω の変異の範囲

配列空間

A schematic illustrationsequence space

known sequence A

query sequenceva

riable

range o

f gen

us Ω

known sequence A

known sequence B

query sequence

イメージ図

既知配列 B

既知配列 A

問い合わせ配列属

Ω の変異の範囲

属 genus Ω種 species ?

配列空間

A schematic illustrationsequence space

varia

ble ran

ge of g

enus Ω

NN-centric auto-k-NN method

問い合わせ配列

配列空間 sequence space

query sequence

NN-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出

問い合わせ配列A

DQA

配列空間 sequence space

query sequence

Retrieve nearest-neighbor (A), and calculate distance from query (DQA)

NN-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出2. DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る

A

DQA問い合わせ配列

配列空間

B

sequence space

query sequence

Retrieve borderline (B),which is nearest to A in the sequences farther from A than Q

NN-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出2. DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3. DAN≤DAB を満たす全ての配列 (N) を得る

A

DAB

B

N

N

N問い合わせ配列

配列空間 sequence space

query sequence

Retrieve all sequences (Ns) filling DAN≤DAB

NN-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出2. DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3. DAN≤DAB を満たす全ての配列 (N) を得る4. A, B, N の全配列で共通する分類群を採用

A

DAB

B

N

N

N問い合わせ配列

配列空間 sequence space

query sequence

Accept a taxon common to A, B, and Ns

sequence space

NN-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出2. DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3. DAN≤DAB を満たす全ての配列 (N) を得る4. A, B, N の全配列で共通する分類群を採用

A

DAB

B

N

N

N問い合わせ配列

配列空間

問い合わせ配列と最近隣配列間の変異量

DQA

DAB

同定結果分類群内の最大変異量<

≤=

query sequence

distance between query and nearest-neighbor

maximum distance within resulting taxon

Query-centric auto-k-NN method

問い合わせ配列

配列空間 sequence space

query sequence

Query-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出

問い合わせ配列A

DQA

配列空間 sequence space

query sequence

Retrieve nearest-neighbor (A), and calculate distance from query (DQA)

Query-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出2. DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る

A

DQA問い合わせ配列

配列空間

B

sequence space

query sequence

Retrieve borderline (B),which is nearest to A in the sequences farther from A than Q

Query-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出2. DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3. DQN≤DQB を満たすすべての配列 (N) を得る

A

DQB

N

N

N

問い合わせ配列

配列空間

B

sequence space

query sequence

Retrieve all sequences (Ns) filling DQN≤DQB

Query-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出2. DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3. DQN≤DQB を満たすすべての配列 (N) を得る4. A, B, N の全配列で共通する分類群を採用

A

DQB

N

N

N

問い合わせ配列

配列空間

B

sequence space

query sequence

Accept a taxon common to A, B, and Ns

sequence space

Query-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出2. DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3. DQN≤DQB を満たすすべての配列 (N) を得る4. A, B, N の全配列で共通する分類群を採用

A

DQB

N

N

N

問い合わせ配列

配列空間

B

配列空間

問い合わせ配列と最近隣配列間の変異量

DQA

DQB

同定結果分類群内の最大変異量

<≤

=query sequence

distance between query and nearest-neighbor

maximum distance within resulting taxon

従来法との比較 1

DNA database

Comparing with existing methods 1

human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…

従来法との比較 1

DNA database

human ACATAGC…

無作為に1 本抜く

Comparing with existing methods 1

human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…

picka sequence

従来法との比較 1

DNA database

human ACATAGC…

無作為に1 本抜く

Comparing with existing methods 1

human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…

chimp ACATTCT…cow TACGTCT…cat GCTGTGT…

DNA database lacking 1 sequence

picka sequence

従来法との比較 1

DNA database

human ACATAGC…

human の DNA を右のデータベースを使ってプログラムで同定して正解かどうかを調べる

無作為に1 本抜く

Comparing with existing methods 1

human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…

chimp ACATTCT…cow TACGTCT…cat GCTGTGT…

DNA database lacking 1 sequence

picka sequence

identify human DNA by programswith DNA database lacking human DNA

従来法との比較 1

DNA database

human ACATAGC…

human の DNA を右のデータベースを使ってプログラムで同定して正解かどうかを調べる

無作為に1 本抜く

Comparing with existing methods 1

human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…

chimp ACATTCT…cow TACGTCT…cat GCTGTGT…

DNA database lacking 1 sequence

picka sequence

identify human DNA by programswith DNA database lacking human DNA

抜き取った DNA はプログラムからは未知のものになる

Picked DNA seems to be“unknown sequence”from programs

Results of leave-one-out cross-validation

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

Results of leave-one-out cross-validation

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

1NNはよく落ちるが誤同定多数

Too many misidentificationswere produced by 1NN method

Results of leave-one-out cross-validation

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

97%NN, 99%NN,Barcoder, ConstrainedNJは、門レベルすら落とせない

ことが頻繁にある97%NN, 99%NN, Barcoder, ConstrainedNJ werenot able to identify the sequences even at phylum-level

Results of leave-one-out cross-validation

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentifiedNNC, QC は門~科まではよく落とせている

NNC and QC frequently produced correct identificationat phylum-, class-, order-, and family-level.

Results of leave-one-out cross-validation

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

5NNは NNC, QCとよく似た結果

5NN produced similar results to NNC and QC

従来法との比較 2

DNA database

human ACATAGC…

無作為に1 本抜く

Comparing with existing methods 2

human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…

picka sequence

従来法との比較 2

DNA database

human ACATAGC…

無作為に1 本抜く

Comparing with existing methods 2

human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…

cow TACGTCT…cat GCTGTGT…

DNA database lacking all seqs of a order

picka sequence

従来法との比較 2

DNA database

human ACATAGC…

human の DNA を右のデータベースを使ってプログラムで同定して正解かどうかを調べる

無作為に1 本抜く

Comparing with existing methods 2

human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…

cow TACGTCT…cat GCTGTGT…

DNA database lacking all seqs of a order

picka sequence

identify human DNA by programswith DNA database lacking all DNA of a order

従来法との比較 2

DNA database

human ACATAGC…

human の DNA を右のデータベースを使ってプログラムで同定して正解かどうかを調べる

無作為に1 本抜く

Comparing with existing methods 2

human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…

cow TACGTCT…cat GCTGTGT…

DNA database lacking all seqs of a order

picka sequence

identify human DNA by programswith DNA database lacking all DNA of a order

抜き取った DNA の「目」はプログラムからは未知のものになる

Picked DNA seems to be“unknown order”from programs

Results of leave-one-order-out cross-validation

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

Results of leave-one-order-out cross-validation

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentifiedphylum, class では5NN, NNC, QCはよく似た結果

Results of leave-one-order-out cross-validation

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

order の誤同定は5NN > NNC > QC

Results of leave-one-order-out cross-validation

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

family でも5NN > NNC > QC

Results of leave-one-family-out cross-validation

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

Results of leave-one-genus-out cross-validation

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

まとめ

● QCauto method...● 多重整列が不要● 既知系統樹が不要● どの遺伝子座でも適用可能● どの分類群にも適用可能● 前処理に時間がかからない● 同定処理に時間がかからない● 理論的背景がある● 「既知の綱の未知の目」といった答えを正しく出す

is multiple alignment free

is phylogenetic tree free

is locus independent

is taxon independent

is fast in preprocess

is fast in identification process

has theoretical background

can find unknown order of existing class

Conclusion

QCauto 法はポジティブスパイラルを加速する

メタバーコーディング

未知生物発見

従来法による記載分類

DNA データベース充実

メタバーコーディング能力向上

QCauto method accelerates positive spiral

metabarcoding

discovera new taxon

describe the new taxonby existing method

expand the DNA database

improvemetabarcoding

QCauto 法はポジティブスパイラルを加速する

メタバーコーディング

未知生物発見

従来法による記載分類

DNA データベース充実

メタバーコーディング能力向上

QCauto method accelerates positive spiral

metabarcoding

discovera new taxon

describe the new taxonby existing method

expand the DNA database

improvemetabarcoding

Bottleneck

誤同定の要因

● 見かけ上の誤同定● 問い合わせ配列の同定情報が間違っている● 既知配列の同定情報が間違っている● 分類体系が系統関係を反映していない

● 本当の誤同定● バーコード領域が incomplete lineage sorting や浸透交雑・水平

伝播によって種の系統関係を反映していない● 変異量の指標 (BLAST raw score)が不適● 規準が不適

全分類群全遺伝子座での LOOCV 結果

correctly identified incorrectly identified cannot identified but incorrectly identified at higher-level cannot identified

属レベルが最も誤同定が多い

属レベルで誤同定が多いのは何故か ?

● 種を記載するとき、無理にでも属は指定する必要がある

● 系統関係と整合的でない分類群が属で設立されやすいのでは ?● 正しくない属に入れられてしまう種も多いのでは ?

誤同定の要因

● 見かけ上の誤同定● 問い合わせ配列の同定情報が間違っている● 既知配列の同定情報が間違っている● 分類体系が系統関係を反映していない

● 本当の誤同定● バーコード領域が incomplete lineage sorting や浸透交雑・水平

伝播によって種の系統関係を反映していない● 変異量の指標 (BLAST raw score)が不適● 規準が不適

「属レベルが最も誤同定が多い」のは、これが多いことを示している ?

複数の同定結果を優先順位を付けて統合する

● 複数の既知配列データベースでの同定結果● 種以下まで情報がある既知配列のみのデータベースでの同定結果● 科以下まで情報がある既知配列のみのデータベースでの同定結果

● 厳しい制約下の同定結果と制約を緩めた同定結果● 類似配列の厳密一致分類群を採用した同定結果● 類似配列の 90%多数決合意分類群を採用した同定結果

● 複数の遺伝子座での同定結果● 遺伝子座 A の配列での同定結果● 遺伝子座 B の配列での同定結果

優先度 綱 目 科 属 種

高 哺乳綱 霊長目 ヒト科

低 哺乳綱 霊長目 ヒト科 ヒト属 ヒト

複数の同定結果を優先順位を付けて統合する

綱 目 科 属 種

統合結果 哺乳綱 霊長目 ヒト科 ヒト属 ヒト

優先度 綱 目 科 属 種

高 哺乳綱 霊長目 ヒト科 ゴリラ属 ゴリラ

低 哺乳綱 霊長目 ヒト科 ヒト属 ヒト

複数の同定結果を優先順位を付けて統合する

綱 目 科 属 種

統合結果 哺乳綱 霊長目 ヒト科 ゴリラ属 ゴリラ

優先度 綱 目 科 属 種

同 哺乳綱 霊長目 ヒト科 ゴリラ属 ゴリラ

同 哺乳綱 霊長目 ヒト科 ヒト属 ヒト

複数の同定結果を優先順位を付けて統合する

綱 目 科 属 種

統合結果 哺乳綱 霊長目 ヒト科

優先度 綱 目 科 属 種

同 哺乳綱 霊長目 ヒト科 ゴリラ属 ゴリラ

同 哺乳綱 霊長目 ヒト科 ヒト属

複数の同定結果を優先順位を付けて統合する

綱 目 科 属 種

統合結果 哺乳綱 霊長目 ヒト科 ゴリラ属 ゴリラ

動物 COX1 での no-LOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

動物 COX1 での LOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

細菌 16S での no-LOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

細菌 16S での LOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

真菌 ITS での no-LOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

真菌 ITS での LOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

植物 matK での no-LOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

植物 matK での LOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

植物 rbcL での no-LOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

植物 rbcL での LOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified

植物 trnH-psbA での no-LOOCV 結果

植物 trnH-psbA での LOOCV 結果

correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified