超小型衛星が拓く 新しい宇宙惑星探査shw/pse2013/20130426_Kurihara.pdf2013/04/26 · 超小型衛星が拓く 新しい宇宙惑星探査 大学院理学研究院宇宙理学専攻
メタバーコーディングが拓く新種探索の新時代
Transcript of メタバーコーディングが拓く新種探索の新時代
Thewildmushroomchase2013
Thelast
presentation
Presenter
発表者
水産総合研究センター
中央水産研究所
田辺 晶史Akifumi S. TanabeNational Research Institute of Fisheries Science,
Fisheries Research Agency
メタバーコーディング が拓く新種探索の新時代
Metabarcoding marks a new erafor exploring new taxa
未知の生物を
探すExploring new taxa
どうやって?
How?
目で見るobserve by eyes
遅いToo slow
そんなときにメタバーコーディングMetabarcoding isable to solve this problem
メタバーコーディングって何?What is “metabarcoding”?
土壌海水淡水
未消化物糞
遺骸生物体など
メタバーコーディングって何?What is “metabarcoding”?
soilssea waterfresh waterundigested materialsfecesdead bodiesliving bodiesetc.
土壌海水淡水
未消化物糞
遺骸生物体など
メタゲノム
メタバーコーディングって何?What is “metabarcoding”?
metagenomes
soilssea waterfresh waterundigested materialsfecesdead bodiesliving bodiesetc.
土壌海水淡水
未消化物糞
遺骸生物体など
メタゲノム 塩基配列
メタバーコーディングって何?What is “metabarcoding”?
soilssea waterfresh waterundigested materialsfecesdead bodiesliving bodiesetc.
metagenomes nucleotidesequences
土壌海水淡水
未消化物糞
遺骸生物体など
メタゲノム 塩基配列 生物種名
メタバーコーディングって何?What is “metabarcoding”?
soilssea waterfresh waterundigested materialsfecesdead bodiesliving bodiesetc.
metagenomes nucleotidesequences
biologicaltaxa
メタバーコーディングのポジティブスパイラル
メタバーコーディング
未知生物発見
従来法による記載分類
DNA データベース充実
メタバーコーディング能力向上
A positive spiral of metabarcoding
metabarcoding
discovera new taxon
describe the new taxonby existing method
expand the DNA database
improvemetabarcoding
土壌海水淡水
未消化物糞
遺骸生物体など
メタゲノム 塩基配列 生物種名
メタバーコーディングって何?
PCRで特定の遺伝子座を増幅サンガー法で塩基配列解読
metagenomes nucleotidesequences
biologicaltaxa
amplify a barcode locussequence by Sanger method
What is “metabarcoding”?
an oldmethod
土壌海水淡水
未消化物糞
遺骸生物体など
メタゲノム 塩基配列 生物種名
メタバーコーディングって何?
PCRで特定の遺伝子座を増幅同時にサンプル識別用タグ配列付加多サンプルを混合してNGSで解読
metagenomes nucleotidesequences
biologicaltaxa
amplify a barcode locusadd multiplex identifier sequence
mix and sequence by NGS
What is “metabarcoding”?
a newmethod
土壌海水淡水
未消化物糞
遺骸生物体など
メタゲノム 塩基配列 生物種名
メタバーコーディングって何?
近縁既知配列と多重整列分子系統樹推定
What is “metabarcoding”?
metagenomes nucleotidesequences
biologicaltaxa
multiple alignment with known relativesmolecular phylogenetic inference
an oldmethod
metagenomes nucleotidesequences
biologicaltaxa
土壌海水淡水
未消化物糞
遺骸生物体など
メタゲノム 塩基配列 生物種名
メタバーコーディングって何?
タグ配列に基いて由来サンプルを特定配列から低品質な部位を除去
低品質な配列を除去ノイズの多そうな配列を除去キメラと思われる配列を除去
類似度n%以上の配列をまとめる類似する既知配列からホスト生物を推定
… demultiplexing ……… quality-trimming …………… quality-filtering ……… denoising ……… chimera removal …… clustering … barcoding
What is “metabarcoding”?
a newmethod
metagenomes nucleotidesequences
biologicaltaxa
土壌海水淡水
未消化物糞
遺骸生物体など
メタゲノム 塩基配列 生物種名
メタバーコーディングって何?
タグ配列に基いて由来サンプルを特定配列から低品質な部位を除去
低品質な配列を除去ノイズの多そうな配列を除去キメラと思われる配列を除去
類似度n%以上の配列をまとめる類似する既知配列からホスト生物を推定
… demultiplexing ……… quality-trimming …………… quality-filtering ……… denoising ……… chimera removal …… clustering … barcoding
Claidenthttp://www.claident.org/
What is “metabarcoding”?
a newmethod
metagenomes nucleotidesequences
biologicaltaxa
土壌海水淡水
未消化物糞
遺骸生物体など
メタゲノム 塩基配列 生物種名
メタバーコーディングって何?
タグ配列に基いて由来サンプルを特定配列から低品質な部位を除去
低品質な配列を除去ノイズの多そうな配列を除去キメラと思われる配列を除去
類似度n%以上の配列をまとめる類似する既知配列からホスト生物を推定
… demultiplexing ……… quality-trimming …………… quality-filtering ……… denoising ……… chimera removal …… clustering … barcoding
Claidenthttp://www.claident.org/
What is “metabarcoding”?
a newmethod
植物菌根のメタバーコーディング例An example of metabarcoding
of mycorrhizae
(Toju et al. 2013)
interludestart
生物の分類は階層的に体系化されているBiological taxonomy is hierarchically systematized
生物の分類は階層的に体系化されている
界 kingdom
Biological taxonomy is hierarchically systematized
生物の分類は階層的に体系化されている
界 kingdom
門 phylum
Biological taxonomy is hierarchically systematized
生物の分類は階層的に体系化されている
界 kingdom
門 phylum
綱 class
Biological taxonomy is hierarchically systematized
生物の分類は階層的に体系化されている
界 kingdom
門 phylum
綱 class
目 order
Biological taxonomy is hierarchically systematized
生物の分類は階層的に体系化されている
界 kingdom
門 phylum
綱 class
目 order
科 family
Biological taxonomy is hierarchically systematized
生物の分類は階層的に体系化されている
界 kingdom
門 phylum
綱 class
目 order
科 family
属 genus
Biological taxonomy is hierarchically systematized
生物の分類は階層的に体系化されている
界 kingdom
門 phylum
綱 class
目 order
科 family
属 genus
種 species
Biological taxonomy is hierarchically systematized
生物の所属分類群を特定=同定すると、様々なことがわかるTaxonomic identification gives us
a lot of information
生物の所属分類群を特定=同定すると、様々なことがわかる
● 生態
Taxonomic identification gives us a lot of information
Ecology
生物の所属分類群を特定=同定すると、様々なことがわかる
● 生態
● 寿命,最大・平均・最小サイズ,生息環境,分布域, etc.
Taxonomic identification gives us a lot of information
Ecology
life history, body size, habitat, distribution, etc.
生物の所属分類群を特定=同定すると、様々なことがわかる
● 生態
● 寿命,最大・平均・最小サイズ,生息環境,分布域, etc.
● 近縁の分類群
Taxonomic identification gives us a lot of information
Ecology
Closely related taxa
life history, body size, habitat, distribution, etc.
生物の所属分類群を特定=同定すると、様々なことがわかる
● 生態
● 寿命,最大・平均・最小サイズ,生息環境,分布域, etc.
● 近縁の分類群
● ヒトであればチンパンジー,ライオンであればネコ, etc.
Taxonomic identification gives us a lot of information
Ecology
Closely related taxa
life history, body size, habitat, distribution, etc.
chimps for humans, lions for cats, etc.
より下位の階層まで同じ分類群は、より似ているOrganisms which belong same lower taxa
are more similar
より下位の階層まで同じ分類群は、より似ている
● 既知生物に似ているほど下位の階層まで同定可能
Organisms which belong same lower taxaare more similar
An organism which is more similar to known organismsis identifiable to lower taxa
より下位の階層まで同じ分類群は、より似ている
● 既知生物に似ているほど下位の階層まで同定可能
● より下位の階層(種とか)まで同定できるとより詳細にわかる
Organisms which belong same lower taxaare more similar
An organism which is more similar to known organismsis identifiable to lower taxa
Lower taxonomic information providesmore detailed ecological information
interludeend
DNA→ 分類情報
Translating DNA intotaxonomic information
どうやって?
How?
新規準A new criterion for molecular identification
新規準
問い合わせ配列と最近隣配列間の変異量
A new criterion for molecular identification
distance between query and nearest-neighbor
新規準
問い合わせ配列と最近隣配列間の変異量
同定結果分類群内の最大変異量<
A new criterion for molecular identification
distance between query and nearest-neighbor
maximum distance within resulting taxon
イメージ図
既知配列 B
既知配列 A
問い合わせ配列
配列空間
A schematic illustrationsequence space
known sequence A
known sequence B
query sequence
イメージ図
既知配列 B
既知配列 A
問い合わせ配列
属 genus Ω種 species α
属 genus Ω種 species β
配列空間
A schematic illustrationsequence space
known sequence A
known sequence B
query sequence
known sequence B
イメージ図
既知配列 B
既知配列 A
問い合わせ配列属
Ω の変異の範囲
配列空間
A schematic illustrationsequence space
known sequence A
query sequenceva
riable
range o
f gen
us Ω
known sequence A
known sequence B
query sequence
イメージ図
既知配列 B
既知配列 A
問い合わせ配列属
Ω の変異の範囲
属 genus Ω種 species ?
配列空間
A schematic illustrationsequence space
varia
ble ran
ge of g
enus Ω
NN-centric auto-k-NN method
問い合わせ配列
配列空間 sequence space
query sequence
NN-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出
問い合わせ配列A
DQA
配列空間 sequence space
query sequence
Retrieve nearest-neighbor (A), and calculate distance from query (DQA)
NN-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出2. DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る
A
DQA問い合わせ配列
配列空間
B
sequence space
query sequence
Retrieve borderline (B),which is nearest to A in the sequences farther from A than Q
NN-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出2. DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3. DAN≤DAB を満たす全ての配列 (N) を得る
A
DAB
B
N
N
N問い合わせ配列
配列空間 sequence space
query sequence
Retrieve all sequences (Ns) filling DAN≤DAB
NN-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出2. DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3. DAN≤DAB を満たす全ての配列 (N) を得る4. A, B, N の全配列で共通する分類群を採用
A
DAB
B
N
N
N問い合わせ配列
配列空間 sequence space
query sequence
Accept a taxon common to A, B, and Ns
sequence space
NN-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出2. DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3. DAN≤DAB を満たす全ての配列 (N) を得る4. A, B, N の全配列で共通する分類群を採用
A
DAB
B
N
N
N問い合わせ配列
配列空間
問い合わせ配列と最近隣配列間の変異量
DQA
DAB
同定結果分類群内の最大変異量<
≤=
query sequence
distance between query and nearest-neighbor
maximum distance within resulting taxon
Query-centric auto-k-NN method
問い合わせ配列
配列空間 sequence space
query sequence
Query-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出
問い合わせ配列A
DQA
配列空間 sequence space
query sequence
Retrieve nearest-neighbor (A), and calculate distance from query (DQA)
Query-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出2. DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る
A
DQA問い合わせ配列
配列空間
B
sequence space
query sequence
Retrieve borderline (B),which is nearest to A in the sequences farther from A than Q
Query-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出2. DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3. DQN≤DQB を満たすすべての配列 (N) を得る
A
DQB
N
N
N
問い合わせ配列
配列空間
B
sequence space
query sequence
Retrieve all sequences (Ns) filling DQN≤DQB
Query-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出2. DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3. DQN≤DQB を満たすすべての配列 (N) を得る4. A, B, N の全配列で共通する分類群を採用
A
DQB
N
N
N
問い合わせ配列
配列空間
B
sequence space
query sequence
Accept a taxon common to A, B, and Ns
sequence space
Query-centric auto-k-NN method1. 最近隣配列 (A) を探し出して変異量 (DQA) を算出2. DAB>DQA を満たす配列のうち最も A に近い配列 (B) を得る3. DQN≤DQB を満たすすべての配列 (N) を得る4. A, B, N の全配列で共通する分類群を採用
A
DQB
N
N
N
問い合わせ配列
配列空間
B
配列空間
問い合わせ配列と最近隣配列間の変異量
DQA
DQB
同定結果分類群内の最大変異量
<≤
=query sequence
distance between query and nearest-neighbor
maximum distance within resulting taxon
従来法との比較 1
DNA database
Comparing with existing methods 1
human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…
従来法との比較 1
DNA database
human ACATAGC…
無作為に1 本抜く
Comparing with existing methods 1
human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…
picka sequence
従来法との比較 1
DNA database
human ACATAGC…
無作為に1 本抜く
Comparing with existing methods 1
human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…
chimp ACATTCT…cow TACGTCT…cat GCTGTGT…
DNA database lacking 1 sequence
picka sequence
従来法との比較 1
DNA database
human ACATAGC…
human の DNA を右のデータベースを使ってプログラムで同定して正解かどうかを調べる
無作為に1 本抜く
Comparing with existing methods 1
human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…
chimp ACATTCT…cow TACGTCT…cat GCTGTGT…
DNA database lacking 1 sequence
picka sequence
identify human DNA by programswith DNA database lacking human DNA
従来法との比較 1
DNA database
human ACATAGC…
human の DNA を右のデータベースを使ってプログラムで同定して正解かどうかを調べる
無作為に1 本抜く
Comparing with existing methods 1
human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…
chimp ACATTCT…cow TACGTCT…cat GCTGTGT…
DNA database lacking 1 sequence
picka sequence
identify human DNA by programswith DNA database lacking human DNA
抜き取った DNA はプログラムからは未知のものになる
Picked DNA seems to be“unknown sequence”from programs
Results of leave-one-out cross-validation
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
Results of leave-one-out cross-validation
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
1NNはよく落ちるが誤同定多数
Too many misidentificationswere produced by 1NN method
Results of leave-one-out cross-validation
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
97%NN, 99%NN,Barcoder, ConstrainedNJは、門レベルすら落とせない
ことが頻繁にある97%NN, 99%NN, Barcoder, ConstrainedNJ werenot able to identify the sequences even at phylum-level
Results of leave-one-out cross-validation
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentifiedNNC, QC は門~科まではよく落とせている
NNC and QC frequently produced correct identificationat phylum-, class-, order-, and family-level.
Results of leave-one-out cross-validation
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
5NNは NNC, QCとよく似た結果
5NN produced similar results to NNC and QC
従来法との比較 2
DNA database
human ACATAGC…
無作為に1 本抜く
Comparing with existing methods 2
human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…
picka sequence
従来法との比較 2
DNA database
human ACATAGC…
無作為に1 本抜く
Comparing with existing methods 2
human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…
cow TACGTCT…cat GCTGTGT…
DNA database lacking all seqs of a order
picka sequence
従来法との比較 2
DNA database
human ACATAGC…
human の DNA を右のデータベースを使ってプログラムで同定して正解かどうかを調べる
無作為に1 本抜く
Comparing with existing methods 2
human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…
cow TACGTCT…cat GCTGTGT…
DNA database lacking all seqs of a order
picka sequence
identify human DNA by programswith DNA database lacking all DNA of a order
従来法との比較 2
DNA database
human ACATAGC…
human の DNA を右のデータベースを使ってプログラムで同定して正解かどうかを調べる
無作為に1 本抜く
Comparing with existing methods 2
human ACATAGC…chimp ACATTCT…cow TACGTCT…cat GCTGTGT…
cow TACGTCT…cat GCTGTGT…
DNA database lacking all seqs of a order
picka sequence
identify human DNA by programswith DNA database lacking all DNA of a order
抜き取った DNA の「目」はプログラムからは未知のものになる
Picked DNA seems to be“unknown order”from programs
Results of leave-one-order-out cross-validation
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
Results of leave-one-order-out cross-validation
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentifiedphylum, class では5NN, NNC, QCはよく似た結果
Results of leave-one-order-out cross-validation
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
order の誤同定は5NN > NNC > QC
Results of leave-one-order-out cross-validation
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
family でも5NN > NNC > QC
Results of leave-one-family-out cross-validation
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
Results of leave-one-genus-out cross-validation
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
まとめ
● QCauto method...● 多重整列が不要● 既知系統樹が不要● どの遺伝子座でも適用可能● どの分類群にも適用可能● 前処理に時間がかからない● 同定処理に時間がかからない● 理論的背景がある● 「既知の綱の未知の目」といった答えを正しく出す
is multiple alignment free
is phylogenetic tree free
is locus independent
is taxon independent
is fast in preprocess
is fast in identification process
has theoretical background
can find unknown order of existing class
Conclusion
QCauto 法はポジティブスパイラルを加速する
メタバーコーディング
未知生物発見
従来法による記載分類
DNA データベース充実
メタバーコーディング能力向上
QCauto method accelerates positive spiral
metabarcoding
discovera new taxon
describe the new taxonby existing method
expand the DNA database
improvemetabarcoding
QCauto 法はポジティブスパイラルを加速する
メタバーコーディング
未知生物発見
従来法による記載分類
DNA データベース充実
メタバーコーディング能力向上
QCauto method accelerates positive spiral
metabarcoding
discovera new taxon
describe the new taxonby existing method
expand the DNA database
improvemetabarcoding
Bottleneck
誤同定の要因
● 見かけ上の誤同定● 問い合わせ配列の同定情報が間違っている● 既知配列の同定情報が間違っている● 分類体系が系統関係を反映していない
● 本当の誤同定● バーコード領域が incomplete lineage sorting や浸透交雑・水平
伝播によって種の系統関係を反映していない● 変異量の指標 (BLAST raw score)が不適● 規準が不適
全分類群全遺伝子座での LOOCV 結果
correctly identified incorrectly identified cannot identified but incorrectly identified at higher-level cannot identified
属レベルが最も誤同定が多い
属レベルで誤同定が多いのは何故か ?
● 種を記載するとき、無理にでも属は指定する必要がある
● 系統関係と整合的でない分類群が属で設立されやすいのでは ?● 正しくない属に入れられてしまう種も多いのでは ?
誤同定の要因
● 見かけ上の誤同定● 問い合わせ配列の同定情報が間違っている● 既知配列の同定情報が間違っている● 分類体系が系統関係を反映していない
● 本当の誤同定● バーコード領域が incomplete lineage sorting や浸透交雑・水平
伝播によって種の系統関係を反映していない● 変異量の指標 (BLAST raw score)が不適● 規準が不適
「属レベルが最も誤同定が多い」のは、これが多いことを示している ?
複数の同定結果を優先順位を付けて統合する
● 複数の既知配列データベースでの同定結果● 種以下まで情報がある既知配列のみのデータベースでの同定結果● 科以下まで情報がある既知配列のみのデータベースでの同定結果
● 厳しい制約下の同定結果と制約を緩めた同定結果● 類似配列の厳密一致分類群を採用した同定結果● 類似配列の 90%多数決合意分類群を採用した同定結果
● 複数の遺伝子座での同定結果● 遺伝子座 A の配列での同定結果● 遺伝子座 B の配列での同定結果
優先度 綱 目 科 属 種
高 哺乳綱 霊長目 ヒト科
低 哺乳綱 霊長目 ヒト科 ヒト属 ヒト
複数の同定結果を優先順位を付けて統合する
綱 目 科 属 種
統合結果 哺乳綱 霊長目 ヒト科 ヒト属 ヒト
優先度 綱 目 科 属 種
高 哺乳綱 霊長目 ヒト科 ゴリラ属 ゴリラ
低 哺乳綱 霊長目 ヒト科 ヒト属 ヒト
複数の同定結果を優先順位を付けて統合する
綱 目 科 属 種
統合結果 哺乳綱 霊長目 ヒト科 ゴリラ属 ゴリラ
優先度 綱 目 科 属 種
同 哺乳綱 霊長目 ヒト科 ゴリラ属 ゴリラ
同 哺乳綱 霊長目 ヒト科 ヒト属 ヒト
複数の同定結果を優先順位を付けて統合する
綱 目 科 属 種
統合結果 哺乳綱 霊長目 ヒト科
優先度 綱 目 科 属 種
同 哺乳綱 霊長目 ヒト科 ゴリラ属 ゴリラ
同 哺乳綱 霊長目 ヒト科 ヒト属
複数の同定結果を優先順位を付けて統合する
綱 目 科 属 種
統合結果 哺乳綱 霊長目 ヒト科 ゴリラ属 ゴリラ
動物 COX1 での no-LOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
動物 COX1 での LOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
細菌 16S での no-LOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
細菌 16S での LOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
真菌 ITS での no-LOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
真菌 ITS での LOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
植物 matK での no-LOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
植物 matK での LOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
植物 rbcL での no-LOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
植物 rbcL での LOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified
植物 trnH-psbA での no-LOOCV 結果
植物 trnH-psbA での LOOCV 結果
correctly identified incorrectly identified unidentified but incorrectly identified at higher-level unidentified