第五章 种群历史和动态

Post on 23-Feb-2016

288 views 0 download

description

第五章 种群历史和动态. 统计量. Statistic is anything that can be calculated from the data. 溯祖模拟和置信区间. 除了估计参数外,还需要给出置信区间。. A 95% confidence interval is an interval that contains the true value of the parameter With 95% probability. 进化树. 最大简约法 距离法 最大似然法和贝叶斯法. 最大简约法. 能够用最小突变来解释 DNA 序列差异。. 距离法. - PowerPoint PPT Presentation

Transcript of 第五章 种群历史和动态

第五章 种群历史和动态

统计量 Statistic is anything that can be

calculated from the data.

AEST NHF ,,,

溯祖模拟和置信区间 除了估计参数外,还需要给出置信区间。

AA Aa aasample1 12 22 6sample2 32 6 2

A 95% confidence interval is an interval that contains the true value of the parameterWith 95% probability.

进化树 最大简约法 距离法 最大似然法和贝叶斯法

最大简约法 能够用最小突变来解释 DNA 序列差异。

距离法不需要推出所有的树,然后找到最好的树。

最大似然法 XPr 给定模型参数的条件下,得到数据的概率。

如果数据量够大,且模型正确,似然法可首选。

假设:无限位点模型,两条序列,三个核苷酸变异θ 似然方程?

贝叶斯法 目标:估测某一个溯祖树是正确的概率。 似然方程和先验分布 The probability of the

parameter given the data 贝叶斯系统发育,最好的树一般是后验概率最高的树。

XPr

贝叶斯原理 贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1763

) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A) 。按照乘法法则: P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B) ,可以立刻导出: P(B|A)=P(A|B)*P(B)/P(A)

Pr(A) 是 A 的先验概率或边缘概率。之所以称为 " 先验 " 是因为它不考虑任何 B 方面的因素。

Pr(A|B) 是已知 B 发生后 A 的条件概率,也由于得自 B 的取值而被称作 A的后验概率。

Pr(B|A) 是已知 A 发生后 B 的条件概率,也由于得自 A 的取值而被称作 B的后验概率。 Pr(B) 是 B 的先验概率或边缘概率,也作标准化常量( normalized

constant )。

实例 1 如果一个人的基因型是 A1A2 ,那么他把 A1 基因传给后代的概率?

如果一个人向后代传递 A1 ,那么他的基因型是A1A2 的概率?

5.0

2PrPrPr

Pr21

1211211

pqpq

AAAAAA

AAA

q

ppq

AAAAAA

AAA

5.02

PrPrPr

Pr1

21121121

实例 2 溯祖模型,无限位点模型,如果两条基因序列相同,共祖时间的后验分布?

11

110Pr

0PrPr0Pr t

tt

eeeS

tTStSt

基因树和物种树

如果分化时间很长,祖先有效群体较小

分化时间约等于共祖时间

如果分化时间很短,祖先有效群体较大

分化时间小于共祖时间

Incomplete lineage sorting

Reciprocal monophyly

如果内部支系小于祖先有效群体大小,基因树与物种树不等。

基因树≠物种树 Incomplete lineage sorting Estimation uncertainty Horizontal gene transfer Gene duplication or loss

解读树

似然值和 Felsenstein equationCoalescence trees

the probability of the data given a particular tree

The distribution of coalescence treesGiven the parameters.

MCMC 和 Bayesian 法 模拟的方法评价所有的树,前提是这些树穷尽了所有可能性。 似然方程的求解:直接 Ewens sampling

formula; 贝叶斯法。 Approximate Bayesian computation: 只利用一部分数据信息。

重组 不同位点之间发生重组,不同位点间的溯祖树会不同。 意味着目前的理论和方法是不适合核基因的任何区段,但线粒体和 Y 染色体除外。 以建树为基础的分析方法不适合诸如 SNP 等数据,可以利用一些不用假设“所有位点共有一个溯祖树”的方法,如 SFS.

Population assignment, clustering and admixture

Match probability 如果一个体在某位点的基因型 AA ,种群 1 中

match probability , 种群 2 中

计算这个个体来自种群 1 或种群 2 的概率?

当有多个位点参与,即便位点间等位基因频率差别很小,也可以很准确的对个体分组。 如果个体的遗传组成来源多个种群,称为

admixed.

Chloroplast fragment

sequrncing length

sequrncing length(no

gap)variation

sitestrnHGUG-psbA 237-332 228 9rpL16 875-892 872 12

trnLUAA-trnFGAA 796-809 795 10trnSGCU-trnGUUC 689-779 682 11

sum:2577 sum:42

主成分分析 (Principle Component Analysis)

Principal Coordinates (PCoA)

Pop1Pop2Pop3

Coord. 1

Coor

d. 2