Automated Exploration of Bioinformatics Spaces Simon Colton Computational Bioinformatics Laboratory.
何淼 PhD 改编自 Prof. Chun-Ting Zhang Center of Bioinformatics Tianjin University
description
Transcript of 何淼 PhD 改编自 Prof. Chun-Ting Zhang Center of Bioinformatics Tianjin University
何淼 PhD改编自 Prof. Chun-Ting Zhang
Center of Bioinformatics Tianjin University
http://tubic.tju.edu.cn
基因发现算法的比较和分析基因发现算法的比较和分析Lecture 14:
1994: 3 亿美元测定一个人类基因组 (1:10)
1984: 30亿美元测定一个人类基因组
未来目标: 1000/100 美元测定一个人类基因组
2004 : 3 千万美元测定一个人类基因组 (1:100)
2006 : 1 百 50万美元测定一个人类基因组 (1:2000)
2008 : 50万美元测定一个人类基因组 (1:6000)
人类基因组研究正在推向纵深不可或缺的三个基本主线
人类基因组计划
人类基因组单倍体型图计划
特定群体基因组单倍型体图
比较基因组计划
个体化基因组单倍体图
灵长类哺乳类脊椎动物脊索动物 多细胞
单细胞
癌症基因组计划
05
10
15
00
时间
病原体基因组计划多发疾病基因组计划常见疾病基因组计划
环境疾病基因组计划
我国从参与到独立启动
1
10
100
老龄疾病基因组计划
1.介绍
什么是计算机辅助基因发现什么是计算机辅助基因发现 ?? Mathematical algorithms Core; Computer Tool; Finding genes in un-annotated genomic sequence
什么类型的基因需要发现什么类型的基因需要发现 ?? 两类 : protein coding genes , RNA genes
在完整的蛋白质编码基因发现过程中包含哪些任在完整的蛋白质编码基因发现过程中包含哪些任务务 ?? 两个任务 : 找到 CDS 和基因的其他部分,包括 promoter等
5
有多少种 有多少种 CDSCDS 发现工作 发现工作 ??
两种 :
原核生物原核生物 ORFs (Open Reading Frames)
真核生物真核生物 introns , exons , 剪切位点
基因发现研究的三种基本途径是什么基因发现研究的三种基本途径是什么 ??
组成组成 信号 相似性的原理
1.介绍
6
1. 密码子选择密码子选择 编码区中的密码子使用频率表非编码区中的“密码子”使用频率
S = AGGACGGGATCA …S = AGGACGGGATCA …PS(AGG) = 0.01209; PS(ACG) = 0.00680, …
PS = PS(AGG) PS(ACG) …
P0(AGG) = 1/64 = 0.056; P0(ACG) =1/64 = 0.056
P0 = P0(AGG) P0(ACG) …
定义似然率的算法 :
LP = ln (PS/P0)如果 LP > 0 编码区如果 LP < 0 非编码区 滑移窗口 ( 具有重叠 ) 技术 例如 : 窗口长度 = 120 bp 重叠长度 = 10 bp
参考文献 Staden, R. & McLachlan, A. (1982) Nucleic Acids Res. 10, 141-156.
2. 算法 I基于数据库和字统计的算法
似然率似然率 (likelihood ratio(likelihood ratio ,, LR)LR)是反映真实性的一种指标,属于同时反映灵敏度和特异度的复合指标。即有病者中得出某一筛检试验结果的概率与无病者得出这一概率的比值。该指标全面反映筛检试验的诊断价值,且非常稳定。似然比的计算只涉及到灵敏度与特异度,不受患病率的影响。
7
人类密码子使用频率表
Gly GGG 17.08 0.23 Arg AGG 12.09 0.22 Trp TGG 14.74 1.00 Arg CGG 10.40 0.19Gly GGA 19.31 0.26 Arg AGA 11.73 0.21 End TGA 2.64 0.61 Arg CGA 5.63 0.10Gly GGT 13.66 0.18 Ser AGT 10.18 0.14 Cys TGT 9.99 0.42 Arg CGT 5.16 0.09Gly GGC 24.94 0.33 Ser AGC 18.54 0.25 CyS TGC 13.86 0.58 Arg CGC 10.82 0.19
Glu GAG 38.82 0.59 Lys AAG 33.79 0.60 End TAG 0.73 0.17 Gln CAG 32.95 0.73Glu GAA 27.51 0.41 Lys AAA 22.32 0.40 End TAA 0.95 0.22 Gln CAA 11.94 0.27Asp GAT 21.45 0.44 Asn AAT 16.43 0.44 Tyr TAT 11.80 0.42 His CAT 9.56 0.41Asp GAC 27.06 0.56 Asn AAC 21.30 0.56 Tyr TAC 16.48 0.58 His CAC 14.00 0.59
Val GTG 28.60 0.48 Met ATG 21.86 1.00 Leu TTG 11.43 0.12 Leu CTG 39.93 0.43Val GTA 6.09 0.10 Ile ATA 6.05 0.14 Leu TTA 5.55 0.06 Leu CTA 6.42 0.07Val GTT 10.30 0.17 Ile ATT 15.03 0.35 Phe TTT 15.36 0.43 Leu CTT 11.24 0.12Val GTC 15.01 0.25 Ile ATC 22.47 0.52 Phe TTC 20.72 0.57 Leu CTC 19.14 0.20
Ala GCG 7.27 0.10 Thr ACG 6.80 0.12 Ser TCG 4.38 0.06 Pro CCG 7.02 0.11Ala GCA 15.50 0.22 Thr ACA 15.04 0.27 Ser TCA 10.96 0.15 Pro CCA 17.11 0.27Ala GCT 20.23 0.28 Thr ACT 13.24 0.23 Ser TCT 13.51 0.18 Pro CCT 18.03 0.29Ala GCC 28.43 0.40 Thr ACC 21.52 0.38 Ser TCC 17.37 0.23 Pro CCC 20.51 0.33
2. 算法 I
8
2. 氨基酸使用频率在 CDS 中和在非编码区中分别发生的平均氨基酸频率
S = AGGACGGGATCA …S = AGGACGGGATCA … AGG Arg, ACG Thr, …
PS(Arg) = 0.056; PS(Thr) = 0.075, …
PS = PS(Arg) PS(Thr) …
P0(Arg) = Nd/61 = 6/61; P0(Thr) =Nd/64 = 4/61, ...
P0 = P0(AGG) P0(ACG) …
定义似然率算法为 :
LP = ln (PS/P0)
如果 LP > 0 coding;
如果 LP < 0 non-coding
参考文献 MaCaldon, P. & Argos, P. (1988) Proteins 4, 99-122.
2. 算法 I基于数据库和字统计的算法
10
3. 密码子偏好性 基于同义密码子的相对使用频率 .
例如 ,
PS(GGG) = 0.23; PS(GGA) = 0.26;
PS(GGT) = 0.18; PS(GGC) = 0.33.
P0 = 1/Nd = 1/4 (for Gly)
参考文献参考文献 Glibskov, M. et al. (1984) Nucleic Acids Res. 12, 539.
4. 六聚物使用频率六聚物使用频率 (6-mers= 6-nucleotides) 444444 = 4096 frequencies of 6-mers
1 6, 7 12, …..
P0 = 1/4096
参考文献参考文献 Claverie, J.-M., et al. (1990) Meth. Enzymol. 183, 237.
2. 算法 I基于数据库和字统计的算法
13
5. 密码子原型 Shepherd (1981) —— RYN code
Trifinov (1987) —— G-nonG-N code
Zhang (1991-1994) —— R-nonG-S/W code
在第一密码子位置的 R-dominant 原则 , 适用于所有物种 在第二密码子位置的 G-least dominant 原则 , 适用于所有物种 在所有物种中存在 S/W- 相关性参考文献参考文献Shepherd, J.C. (1981) PNAS, USA 78,1596-1600.
Trifonov, E. (1987) J. Mol. Biol. 194, 643-692.
Zhang, C.T. & Zhang, R. (1991) Nucleic Acids Res. 19, 6313-6317.
Zhang, C.T. & Chou, K.C. (1994) J. Mol. Biol. 238, 1-8.
2. 算法 I基于数据库和字统计的算法
14
S = AGGACGGGATCA …S = AGGACGGGATCA …
PS(AGG) = p(A1)p(G2)P(G3) = 0.270.200.29;
PS(ACG) = P(A1)P(C2)p(G3) = 0.270.240.29; …
PS = PS(AGG) PS(ACG) …
P0(codon) = (1/4)(1/4)(1/4) = 1/64;
P0 = P0(AGG) P0(ACG) …
定义似然率算法为 :
LP = ln (PS/P0) 如果 LP > 0 coding;
如果 LP < 0 non-coding
2. 算法 I基于数据库和字统计的算法
BaseBase 11 22 33
AA 0.270.27 0.310.31 0.180.18
CC 0.240.24 0.240.24 0.310.31
GG 0.320.32 0.200.20 0.290.29
TT 0.170.17 0.260.26 0.220.22
15
6.Markov 模型 (1-8 阶 ) 关键词关键词 :: 马尔可夫链( Markov chain ) ; 阶( order ) ; 转移概率( transition probabilities ) ; 转移矩阵( transition matrix )
S = AGGACGGGATCA …S = AGGACGGGATCA …
PS = p(A1)p1(GA)p2(GG)p3(AG)p1(CA)p2(GC)…
p0 = 0.250.250.250.250.250.25….
定义似然率算法为 :
LP = ln (PS/P0) 如果 LP > 0 coding; 如果 LP < 0 non-coding
参数的数目 :
1 阶 : 44 + 3(44) = 16 + 48 = 64;
2 阶 : 416 + 3(416) = 256;
… …
5 阶 : 4096 (34096 = 12288, GeneMark)
参考文献参考文献 Zhang, C.T. (1990) J. Theor. Biol. 142, 281-284.
Borodovsky, M. & McIninch, J. (1993) Comp. Chem. 17, 123-130. (GeneMark)
Salzberg, S. L. et al. (1998) Nucleic Acids Res. 26, 544-548. (GLIMMER)
2. 算法 I基于数据库和字统计的算法
16
A C G TCodon position 1 Codon position 3 A 0.22 0.33 0.24 0.13 C 0.21 0.29 0.27 0.21 G 0.44 0.15 0.37 0.53 T 0.13 0.22 0.12 0.13
Codon position 2 Codon position 1 A 0.36 0.27 0.35 0.18 C 0.21 0.23 0.24 0.27 G 0.19 0.14 0.23 0.23 T 0.24 0.35 0.19 0.31
Codon position 3 Codon position 2 A 0.16 0.19 0.15 0.07 C 0.28 0.44 0.41 0.33 G 0.40 0.12 0.27 0.45 T 0.16 0.25 0.17 0.16
当临近密码子位置核苷酸已知条件下,四个核苷酸在不同密码子位置的概率
2. 算法 I基于数据库和字统计的算法
17
1. 位置的不对称性 pS (base)= (pS(base-1)+pS(base-2)+pS(base-3))/3
asym(base) = i:1-3[pS (base-i) - pS(base)]2
PAS = asym(A) + asym(C) + asym(G) + asym(T)
参考文献 Fickett, J.W. (1982) Nucleic Acids Res. 10, 5303-5308.
Staden, R. (1984) Nucleic Acids Res. 12, 551-567.
2. 周期不对称性指数( Periodic Asymmetry Index ) 考虑一个重要的统计量 : Nij(k)
S = AGGACGGGATCAS = AGGACGGGATCA
NGA(1) = 2; NAT(0) = 1; NGG(0) = 3; NAA(7) = 2, ……
相同核苷酸 (AA, CC, GG, TT) 的概率 at
k = 2, 5, 8, … p1 k = 0, 3, 6, … p2 k = 1, 4, 7, … p3
PAIS = max (p1, p2, p3)/min (p1, p2, p3)
参考文献 Konopka, A.K. (1994) In Structure and Methods: VI. Human Genome Initiative and DNA Recombination. (eds. R. H. Sarma, et al.) Adenine Press, pp. 113-125.
2. 算法 II基于公理和字统计的算法
20
3. 平均相互信息( Average Mutual Information ) Mutual information I (k) (Shannon, 1948)
I(k) = Sigma Pijlog[Pij/(pipj)], i, j A, C, G, T
I(k) at k = 2, 5, 8, … Iin
I(k) at k = 4, 7, 10, … Iout
AMIS = (Iin + Iout + Iout)/3
参考文献 Herzel, H. & Grosse, I. (1995) Physica A 216, 518-542.
4. 傅立叶能谱( Fourier Power Spectrum ) 基本事实 : 3-base 周期周期参考文献 Tiwari, S., et al. (1997) Comp. Appl. Biosci. (CABIOS) 13, 263-270. (GeneScan)
Zhang, C.T. et al. (1998) Bioinformatics 14, 685-690.
2. 算法 II基于公理和字统计的算法
21
Z Curve
令 An , Cn , Gn ,Tn 为研究的 DNA 序列中子序列由第一个碱基开始至第 n 个碱基结束碱基 A, C, G , 和 T 的累积数 .
DNA 序列的 Z 变换为xn = (An + Gn) – (Cn + Tn) = Rn – Yn ,
yn = (An + Cn) – (Gn + Tn) = Mn – Kn ,
zn = (An + Tn) – (Gn + Cn) = Wn – Sn ,
xn , yn , zn [-N, N].
则 (xn , yn , zn), 其中 n = 0, 1, 2, 3, … 被称为用于研究 DNA 序列的 Z
curve.
Z curves 用于基因组研究的例子 Z curves 的简化
利用 Z curve 终止位点的简化 利用直线的简化 利用高阶多项式的简化 利用剪切功能的简化
2. 算法 III基于 Z curve 原理的算法
24
基于 Z Curve 理论的基因发现方法 特定相位( Phase-specific ) Z curve
Bases at 1, 4, 7, phase-1 curve, xn(1) , yn(1) , zn(1);
Bases at 2, 5, 8, phase-2 curve, xn(2) , yn(2) , zn(2);
Bases at 3, 6, 9, phase-3 curve, xn(3) , yn(3) , zn(3).
用直线拟合 9 个组分的曲线 :
xn(1) = u1n, yn(1) = u2n, zn(1) = u3n ;
xn(2) = u4n, yn(2) = u5n, zn(2) = u6n ;
xn(3) = u7n, yn(3) = u8n, zn(3) = u9n .
用 (u1, u2, …, u9) 生成了一个 9-D 空间。 Fisher 线性判别算法 结果 : 对于原核生物和一些真核生物的基因组来说,两者的敏感度和特异性 指标介于:
95.0 % - 99.8 % 参考文献 Zhang, C.T. & Wang, J. (2000) Nucleic Acids Res. 28, 2804-2814.
Guo, F.B., Ou, H.Y. & Zhang, C.T. (2003) Nucleic Acids Res. 31, 1780-1780
2. 算法 III基于 Z curve 原理的算法
26
v3
v2
v1
(x3,y
3,z
3)
(x2,y
2,z
2)
(x1,y
1,z
1)
Coding
Noncoding
v2
(x2,y
2,z
2)
v3
(x3,y
3,z
3)
v1(x
1,y
1,z
1)
27
不同算法的比较不同算法的比较
信号搜索信号搜索 (SIGNAL)(SIGNAL)
组成识别 组成识别 (CONTENT)(CONTENT)
序列比对序列比对
(HOMOLOGY(HOMOLOGY))
Gene FindingApproaches
(给位)
(受位)
30
• 基因识别算法的核心是建立一个衡量序列编码能力的标准尺度 (coding measures) ,通常是借助于对任意窗口的序列计算出的一个数或矢量来衡量序列的编码能力。常见的例子包括密码子使用矢量,碱基组成矢量和对序列进行的某些类型的傅立叶变换。
• Fickett 和 Tung 在 1992 年发表的综述文章中列出了当时关于基因识别的二十种算法,并认为六核苷酸频率法 (hexamer usage) 是描述编码区的最好方法。
• 自 Fickett 和 Tung 在 1992 年发表综述文章以来的十余年间,又出现了许多新的基因识别算法,有必要进行重新的评价和比较。
基因识别算法的评估与比较基因识别算法的评估与比较研究背景研究背景
参考文献参考文献Fickett, J.W. and Tung, C.S. (1992) Nucleic Acids Res., 20, 6441-6450.31
FN)TP/(TP ns FP)TN/(TN ps 2/)( pn ssa
数据库 1 :人类基因编码 / 非编码序列数据库(Length = 192, 162, 129, 108, 87, 63 and 42 bp)
数据库数据库
评估基因识别算法评估基因识别算法ZZ 曲线方法,密码子使用,六核苷酸频率法,码的偏好,氨基曲线方法,密码子使用,六核苷酸频率法,码的偏好,氨基酸使用,码的原型,延长打乱快速傅立叶变换 ,马尔科夫模型酸使用,码的原型,延长打乱快速傅立叶变换 ,马尔科夫模型
评价指标:灵敏度、特异度和准确率 评价指标:灵敏度、特异度和准确率
数据库 2 :通过已知 mRNA 验证的人类基因数据库 (Length = 192, 162, 129, 108, 87, 63 and 42 bp)
参考文献参考文献 F. Gao and C.T. Zhang (2004). Bioinformatics, 20(5), 673-681.
32
TP ( true positive ):实际编码区的核酸中被成功预测的核酸数目;TN ( true negative ):实际非编码区的核酸中被成功预测的核酸数目;FN ( false negative ):实际编码区的核酸中被误测为非编码的核酸数目;FP ( false positive ):实际非编码区的核酸中被误测为编码的核酸数目。
TP
TNFN
FP
REALITY
coding noncoding
codi
ng
nonc
odin
g
PR
ED
ICT
ION
TP+FN FP+TN
TP+FP
FN+TN
33
基于 TP 、 TN 、 FP 、 FN ,主要引进四个参数:Sn 、 Sp 、 CC、 AC。敏感性( sensitivity , Sn ):
特异性( specificity , Sp ):
Sn :实际编码区核酸序列中被成功预测的比例;Sp :预测编码核酸序列中被成功预测的比例。
FNTP
TPSn
FPTP
TPSp
34
描述编码区特征所采用的描述编码区特征所采用的 ZZ 曲线变量曲线变量
.
( ) ( ),
( ) ( ), , , [ 1, 1], 1, 2, 3
( ) ( ).
x a g c ti i i i iy a c g t x y z ii i i i i i i iz a t g ci i i i i
( (XA) (XG)) ( (XC) (XT)),
( (XA) (XC)) ( (XG) (XT)), X A,C,G,T, 12,23,
( (XA) (XT)) ( (XG) (XC)).
Xk k k k k
Xk k k k k
Xk k k k k
x p p p p
y p p p p k
z p p p p
( 1 )
( 2)
用 Z 曲线表示相位特异单核苷酸频率 (9)
用 Z 曲线表示相位特异双核苷酸频率 (36)
DNA 序列的 Z 曲线理论The Z curve theory of DNA sequence
35
( 4)
用 Z 曲线表示非相位特异双核苷酸频率 (12)
用 Z 曲线表示非相位特异三核苷酸频率 (48)
( 5)
,
)].XC()XG([)]XT()XA([
TG,C,A,X )],XT()XG([)]XC()XA([
)],XT()XC([)]XG()XA([
ppppz
ppppy
ppppx
X
X
X
)].XYC()XYG([)]XYT()XYA([
T.G,C,A,YT,G,C,A,X)],XYT()XYG([)]XYC()XYA([
)],XYT()XYC([)]XYG()XYA([
ppppz
ppppy
ppppx
XY
XY
XY
用 Z 曲线表示相位特异三核苷酸频率 (144)
.3,2
)].XC()XG([)]XT()XA([
,1,TG,C,A,X)],XT()XG([)]XC()XA([
)],XT()XC([)]XG()XA([
kkkkkX
kkkkkX
kkkkkX
ppppz
kppppy
ppppx
( 3)
36
Z curve变量个数 符号 变量描述
9 Mp Phase-specific parameters of mononucleotide (9)
21 MpDp1 Phase-specific parameters of mononucleotide (9) + phase-specific parameters (k = 1) of di-nucleotides (12)
21’ MpD Phase-specific parameters of mononucleotide (9) + phase-independent parameters of di-nucleotides (12)
45 MpDp Phase-specific parameters of mononucleotide (9) + phase-specific parameters of di-nucleotides (36)
69 MpDp1Tp1
Phase-specific parameters of mononucleotide (9) + phase-specific parameters (k = 1) of di-nucleotides (12) + phase-specific parameters (k = 1) of tri-nucleotides (48)
69’ MpDT Phase-specific parameters of mononucleotide (9) + phase-independent parameters of di-nucleotides (12) + phase-independent parameters of tri-nucleotides (48)
93 MpDpT Phase-specific parameters of mononucleotide (9) + phase-specific parameters of di-nucleotides (36) + phase-independent parameters of tri-nucleotides (48)
189 MpDpTp
Phase-specific parameters of mononucleotide (9) + phase-specific parameters of di-nucleotides (36) + phase-specific parameters of tri-nucleotides (144)
Z 曲线方法不同变量描述曲线方法不同变量描述
37
计算任一 DNA 序列片断的 Z 曲线的 n 个参数,将其
映射为 n 维空间 V 中一点,利用 Fisher 判别函数对正负样本进行判定。
Fisher 判别的判别方程代表 n 维空间 V 中的一个超平面,用一个有 n 个分量分别为 c1, c2, … ,cn 的矢量 c 表示。利用训练集 ( 包括正负样本 ) 中的数据,确定判别编码 / 非编码的阈值 c0 。
判断任一 DNA 序列片断编码 / 非编码的准则如下 : Z(u)>0 / Z(u)<0 这里 Z(u)=cu-c0 ,称之为 Z 分数或 Z 指数。
FisherFisher 判别判别
38
Z curve 方法的变量个数 结果 (%)
片段长度 (bp)
192 162 129 108 87 63 42
9
88.65 87.10 84.82 83.62 83.37 81.05 77.90
87.95 86.46 84.11 83.10 82.86 80.42 77.72
88.30 86.78 84.46 83.36 83.12 80.74 77.81
21
90.83 89.44 87.47 86.08 85.01 82.80 80.25
90.12 89.12 87.07 86.07 84.73 82.44 80.19
90.47 89.28 87.27 86.08 84.87 82.62 80.22
21’
90.12 89.15 86.85 85.43 84.98 82.36 79.65
89.31 88.43 86.17 84.98 84.36 81.88 79.37
89.71 88.79 86.51 85.20 84.67 82.12 79.51
45
91.95 90.58 88.52 87.07 85.71 83.24 80.76
91.03 89.91 88.11 86.94 85.34 82.89 80.23
91.49 90.25 88.31 87.01 85.53 83.06 80.50
69
96.28 94.88 93.03 91.52 89.40 86.71 82.51
96.20 94.81 92.97 91.26 89.76 86.40 82.47
96.24 94.85 93.00 91.39 89.58 86.55 82.49
69’
93.01 91.58 89.86 88.11 86.60 84.44 81.53
92.81 91.40 89.19 87.84 86.58 84.43 81.49
92.91 91.49 89.52 87.98 86.59 84.43 81.51
93
94.26 93.07 91.36 89.63 87.98 85.59 82.28
93.98 92.86 91.15 89.31 87.61 85.69 82.47
94.12 92.97 91.25 89.47 87.79 85.64 82.37
189
96.05 94.98 93.57 91.69 89.63 86.82 82.99
96.37 95.15 93.24 92.04 90.08 87.48 83.83
96.21 95.06 93.41 91.87 89.85 87.15 83.41
nsps
ansps
ansps
ansps
ansps
ansps
a
nsps
ans
ps
a
Z 曲线方法对数据库曲线方法对数据库 II 进行十重交叉检验的平均灵敏度、特异度和准确率进行十重交叉检验的平均灵敏度、特异度和准确率
39
ProgramsResults
(%)
Fragment length (bp) 参数数目
192 162 129 108 87 63 42
Codon usage83.97 83.77 83.41 82.84 81.76 79.27 72.86
6493.29 91.65 88.91 86.34 83.66 78.88 74.1788.63 87.71 86.16 84.59 82.71 79.07 73.51
Hexamer usage90.08 89.26 87.57 84.70 81.79 74.62 57.13
4,09692.91 91.67 89.74 86.81 84.97 81.20 75.3891.50 90.46 88.66 85.76 83.38 77.91 66.25
Codon preference68.78 69.58 70.46 70.31 71.02 70.51 66.19
6494.30 92.62 90.79 87.81 85.03 80.12 72.6181.54 81.10 80.63 79.06 78.03 75.31 69.40
Amino acid usage93.54 92.25 89.57 86.56 81.95 73.99 61.27
2191.12 87.81 82.40 78.51 72.13 63.10 56.4992.33 90.03 85.99 82.53 77.04 68.54 58.88
Codon prototype76.46 76.61 76.43 76.04 74.86 71.75 65.68
1276.60 75.64 74.03 73.27 71.41 69.35 66.9476.53 76.12 75.23 74.66 73.13 70.55 66.31
Lengthen- shuffling FFT
78.77 77.54 75.15 73.71 71.97 69.47 65.92379.90 77.98 76.17 74.14 72.55 69.88 66.18
79.34 77.76 75.66 73.92 72.26 69.67 66.05
nsps
ans
psans
ps
ansps
ansps
ansps
a
密码子使用,六核苷酸频率法,码的偏好,氨基酸使用,码的原型,延长打乱密码子使用,六核苷酸频率法,码的偏好,氨基酸使用,码的原型,延长打乱快速傅立叶变换,对数据库快速傅立叶变换,对数据库 11 进行十重交叉检验平均灵敏度、特异度和准确率进行十重交叉检验平均灵敏度、特异度和准确率
40
Programs Results (%) Fragment length (bp) 参数数目 .
192 162 129 108 87 63 42
Markov modelk = 1
78.39 78.59 78.53 78.33 77.53 75.63 70.25
4881.43 81.08 79.34 77.89 76.75 74.06 71.25
79.91 79.83 78.93 78.11 77.14 74.85 70.75
Markov modelk = 2
85.42 84.91 84.72 83.78 82.63 80.41 74.61
19294.50 93.53 91.36 88.84 86.08 81.86 77.42
89.96 89.22 88.04 86.31 84.36 81.14 76.01
Markov modelk = 3
89.20 88.22 87.40 85.70 84.34 81.36 74.95
76895.45 94.35 92.91 91.39 89.32 86.35 81.05
92.32 91.29 90.16 88.54 86.83 83.86 78.00
Markov modelk = 4
91.95 90.96 89.32 87.69 86.30 83.36 76.98
3,07295.63 94.69 93.25 92.02 90.33 87.25 83.18
93.79 92.83 91.29 89.85 88.31 85.30 80.08
Markov modelk = 5
92.58 92.14 90.99 89.59 88.43 85.30 79.94
12,28895.79 94.79 93.45 92.14 90.46 87.71 83.61
94.18 93.46 92.22 90.87 89.44 86.50 81.78
马尔科夫模型对数据库马尔科夫模型对数据库 11 进行十重交叉检验的平均灵敏度、特异度和准确进行十重交叉检验的平均灵敏度、特异度和准确率率
ns
ps
a
ns
ps
a
ns
ps
a
ns
ps
a
ns
ps
a41
Z curve方法的变量个数 结果 (%)
片段长度 (bp)
192 162 129 108 87 63 42
9
89.61 87.58 85.41 83.53 81.61 79.12 74.98
89.62 86.79 85.30 83.71 82.53 78.95 74.04
89.62 87.18 85.35 83.62 82.07 79.04 74.51
21
91.63 90.42 88.93 86.02 84.17 81.20 77.91
91.28 89.30 88.86 87.26 84.38 80.86 78.44
91.45 89.86 88.90 86.64 84.27 81.03 78.18
21’
90.78 90.13 87.69 86.21 84.44 81.19 77.52
91.29 89.24 87.90 86.11 83.11 81.47 76.70
91.04 89.68 87.80 86.16 83.78 81.33 77.11
45
92.93 91.87 89.86 87.69 85.82 81.69 77.79
92.73 90.99 89.48 87.31 85.32 82.10 78.67
92.83 91.43 89.67 87.50 85.57 81.90 78.23
69
96.36 95.90 93.95 92.76 89.23 86.06 80.84
96.74 95.27 94.07 92.00 89.79 86.49 80.74
96.55 95.59 94.01 92.38 89.51 86.27 80.79
69’
93.58 92.66 90.95 89.31 86.45 83.66 80.06
93.48 92.48 90.99 89.64 87.19 83.85 79.24
93.53 92.57 90.97 89.47 86.82 83.76 79.65
93
94.99 94.43 92.36 90.88 87.92 84.44 81.05
95.08 93.36 92.59 91.05 87.75 83.92 79.84
95.04 93.90 92.47 90.97 87.84 84.18 80.44
189
96.09 95.52 94.57 92.54 89.33 86.46 80.18
96.99 95.68 94.54 92.75 91.10 87.30 81.50
96.54 95.60 94.56 92.64 90.22 86.88 80.84
nsps
ansps
ansps
ansps
ansps
ansps
a
nsps
ans
ps
a
Z 曲线方法对数据库曲线方法对数据库 22 进行十重交叉检验的平均灵敏度、特异度和准确率进行十重交叉检验的平均灵敏度、特异度和准确率
42
程序程序 Results (%)Fragment length (bp)
参数数目192 162 129 108 87 63 42
Markov modelk = 1
80.13 78.50 78.81 76.43 74.51 70.99 62.64
4881.87 79.97 78.52 76.01 74.06 70.73 69.00
81.00 79.24 78.67 76.22 74.28 70.86 65.82
Markov modelk = 2
84.27 85.12 84.65 82.04 82.02 78.94 72.40
19294.42 93.36 91.80 88.33 85.72 79.84 75.35
89.35 89.24 88.22 85.18 83.87 79.39 73.87
Markov modelk = 3
86.51 88.31 87.06 84.99 83.23 79.72 69.04
76895.40 94.73 93.68 91.61 89.69 84.89 79.51
90.96 91.52 90.37 88.30 86.46 82.31 74.27
Codon usage
83.05 82.82 82.90 80.51 79.09 75.29 67.85
6493.20 91.58 89.35 86.04 83.36 76.79 71.02
88.12 87.20 86.13 83.27 81.22 76.04 69.44
Codon preference
73.78 70.57 70.44 68.14 62.96 60.78 51.11
6494.52 92.64 89.47 86.54 82.25 76.26 69.16
84.15 81.61 79.95 77.34 72.60 68.52 60.13
Amino acid usage
95.33 94.62 90.62 87.06 80.69 74.28 62.42
2190.83 87.87 83.28 77.84 73.10 63.95 57.40
93.08 91.25 86.95 82.45 76.90 69.12 59.91
Codon prototype
79.13 75.66 75.18 73.42 70.20 65.22 56.02
1278.46 75.67 73.66 72.44 69.22 66.65 64.71
78.79 75.66 74.42 72.93 69.71 65.94 60.37
Lengthen- shuffling FFT
82.25 80.29 78.58 78.23 74.63 70.22 67.09
383.64 81.29 79.63 78.21 74.27 71.33 68.36
82.95 80.79 79.10 78.22 74.45 70.78 67.73
nsps
ansps
ansps
ansps
ansps
ansps
a
nsps
ans
ps
a
其他各种算法对数据库其他各种算法对数据库 22 进行十重交叉检验的平均灵敏度、特异度和准确率进行十重交叉检验的平均灵敏度、特异度和准确率
43
HU Cpre AAU CPro MM-1 MM-2 MM-5LS-FFT
ZC-9 ZC-69 ZC-189
CU 0.942 0.756 0.347 0.891 0.908 0.943 0.859 0.425 0.751 0.554 0.525
HU 0.683 0.369 0.850 0.879 0.926 0.928 0.424 0.710 0.505 0.493
Cpre -0.351 0.659 0.666 0.734 0.599 0.399 0.568 0.439 0.412
AAU 0.330 0.344 0.297 0.371 0.036 0.260 0.164 0.161
Cpro 0.817 0.815 0.783 0.466 0.855 0.605 0.564
MM-1 0.953 0.802 0.394 0.733 0.507 0.485
MM-2 0.867 0.402 0.700 0.500 0.492
MM-5 0.437 0.651 0.465 0.466
LS-FFT 0.532 0.371 0.343
ZC-9 0.714 0.665ZC-69 0.925
1212 种算法中任意两算法间的相关系数种算法中任意两算法间的相关系数
45
CU, Codon Usage; HU, Hexamer Usage; Cpre, Codon Preference; AAU, Amino Acid Usage; Cpro,Codon Prototype; MM-1, Markov Model k = 1; MM-2, Markov Model k = 2; MM-5, Markov Model k = 5; LS-FFT, lengthen-shuffling FFT; ZC-9, ZC-69 and ZC-189, the Z
curve methods with 9, 69 and 189 parameters, respectively.
缩略词 :
46
算法分析算法分析
基因识别算法初步的分析
Local <=> globalLocal <=> global
Statistical <Statistical <=> => non-statistical non-statistical
48
Metatool
YACOP = (Critica (Glimmer ∪ ∩ ZCURVE)) GeneDB = (Glimmer Critica)∪
Glimmer-Z = (Glimmer ∩ ZCURVE)
参考文献参考文献A.C.Mchardy et al. (2004) Bioinformatics, 20, 1623-1631 M. Tech & R. Merkl (2003) In Silico Biol. 3, 441-451
52
真核基因识别的主要软件真核基因识别的主要软件• FGENES• Genscan• GeneMark.hmm• Geneie• HMMgene• Morgan• MZEF 主流算法: Hidden Markov model
55
真核基因预测主要问题真核基因预测主要问题• 基因太长, 2.3 Mb, 79 exons• 内含子太长 , 99% 是 introns• 外显子太短,短至 3 bp 甚至1 bp• 重叠基因• 多顺反子排列基因• 相移问题(测序的 error)• 非典型 splice sites• 可变剪切预测• ………………………………………..
56
基于基于 ZZ-curve-curve 方法的软件方法的软件
• ZCURVE_B 细菌和古细菌全基因组 ab initio 基因识别
• ZCURVE_CoV 冠状病毒基因识别软件 • ZCURVE_Y 酿酒酵母基因识别软件 • ZCURVE_C 细菌和古细菌基因识别软件 • ZCURVE_V 病毒基因识别软件 • ZCURVE_E 真核生物识别软件
57
细菌和古细菌基因识别 ab initio 算法
ZCURVE 1.0 的流程选取种子 ORFs
排除重叠 ORFs
确定基因起始位点
建立数学模型和训练 Fisher系数
对所有候选 ORFs 进行判定
训练阶段
识别阶段
58
all non-overlapping,long ORFs (>500 bp)
one Fisher discriminantfunction
Bacterialgenome
seedORFs
Training Phase
Identification Phase
DNA Sequence
G+C content< 56%
nine-dimensionalsuper-sphere
Yes No
seedORFs
Extract all ORFs(>= 90 bp)
multiple Fisherdiscriminant functions
the Z score
Z score > 0
Yes
Deal with overlapping ORFs
Relocategene starts
ExcludeNo
Putativeprotein-coding
genes
▲▲“9 维超球法”选取种子 ORFs
▲▲ 多次 Fisher 判别法
59
ZCURVE 1.0 的识别成绩的识别成绩
参考文献 F.B. Guo, H.Y. Ou and C.T. Zhang (2003) Nucleic Acids Res. 31, 1780-1789.
基因组数目
ZCURVE 1.0 Glimmer 2.02
识别率( % ) 附加率 (%)识别率( % ) 附加率 (%)
14 98.64 15.03 98.44 18.92
4 97.93 26.70 97.58 59.35
18 98.48 17.62 98.24 27.91
http://tubic.tju.edu.cn/Zcurve_B/http://tubic.tju.edu.cn/Zcurve_B/
60
序号 物种名称ZCURVE 1.0 Glimmer 2.02
识别率 附加预测率 识别率 附加预测率
1 Buchnera 99.8% 14.9% 100% 15.1%
2 R. prowazekii 99.0% 14.9% 99.5% 26.3%
3 C. acetobutylicum 98.9% 9.0% 98.6% 15.0%
4 R. conorii 96.9% 16.1% 96.7% 31.2%
5 L. lactis 99.1% 15.1% 98.2% 17.1%
6 L. monocytogenes 99.6% 9.3% 99.4% 8.0%
7 C. pneumoniae 98.4% 13.1% 98.5% 23.6%
8 C. trachomatis 98.8% 13.9% 99.2% 21.7%
9 A. aeolicus 99.5% 20.4% 99.3% 17.1%
10 B. subtilis 98.4% 19.5% 98.2% 26.6%
11 *T. acidophilum 97.2% 20.1% 97.3% 21.2%
12 S ynechocystis 98.3% 23.2% 98.5% 32.6%
13 *M. ther 97.6% 15.8% 97.1% 12.6%
14 E. coli 98.2% 23.6% 96.9% 23.4%
15 S. meliloti 99.3% 37.1% 98.4% 62.2%
16 P. aeruginosa 98.2% 21.7% 98.9% 56.5%
17 R. solanacearum 97.4% 29.7% 97.3% 59.8%
18 S. coelicolor 96.8% 18.3% 95.7% 58.9%61
ZCURVE 1.0 和和 Glimmer 2.02 联合使用联合使用
物种名称 枯草芽胞杆菌 B. subtilis
大肠杆菌E. coli
根瘤菌S. meliloti
绿脓杆菌P. aeruginosa
识别率 98.4% 98.2% 99.3% 98.2
附加预测率 19.5% 23.6% 37.1% 21.7%
识别率 98.2% 96.9% 98.4% 98.9%
附加预测率 26.6% 23.4% 62.2 % 56.5%
识别率 97.5% 96.2% 97.8% 97.5%
附加预测率8.5% 6.1% 14.5% 7.1%
62
冠状病毒基因识别及冠状病毒基因识别及 SARSSARS 基因组分析基因组分析(ZCURVE_CoV )
参考文献L.L. Chen, H.Y. Ou, R. Zhang and C.T. Zhang (2003).
Biochem. Biophys. Res. Commun. 307, 382-388.F.Gao, H.Y. Ou, L.L. Chen, W.X. Zheng and C.T. Zhang
(2003). FEBS Letters, 553, 451-456 63
Genes annotated Genes predicted by ZCURVE_CoV
Start Stop bp a.a. Feature Start Stop bp a.a. Feature
265 13398 13134 4377 Orf 1a 265 13398a 13134 4377 Orf 1a13398 21485 8088 2695 Orf 1b 13398a 21485 8088 2695 Orf 1b21492 25259 3768 1255 S protein 21492 25259 3768 1255 S protein25268 26092 825 274 Orf 3 25268 26092 825 274 Sars274
25689 26153 465 154 Orf 4
26117 26347 231 76 E protein 26117 26347 231 76 E protein26398 27063 666 221 M protein 26398 27063 666 221 M protein
27074 27265 192 63 Orf 7 27074 27265 192 63 Sars63
27273 27641 369 122 Orf 8 27273 27641 369 122 Sars12227638 27772 135 44 Orf 9 27638 27772 135 44 Sars4427779 27898 120 39 Orf 10 27779 27898 120 39 Sars3927864 28118 255 84 Orf 11 27864 28118 255 84 Sars8428120 29388 1269 422 N protein 28120 29388 1269 422 N protein
28130 28426 297 98 Orf 13
28583 28795 213 70 Orf 14
GenBankGenBank 注释和注释和 ZCURVE_CoVZCURVE_CoV 预测基因预测基因 (SARS
TOR2)
64
迄今为止,已有数万家研究机构或个人访问 ZCURVE_CoV网站,其中,包括世界卫生组织、斯坦福大学、约翰霍普金斯大学、巴斯德研究所、香港大学等著名科研机构和大学。发表的论文被 Nature medicine, Bioinformatics等杂志的文章引用近百次。
http://tubic.tju.edu.cn/sars/http://tubic.tju.edu.cn/sars/
66