何淼 PhD 改编自 Prof. Chun-Ting Zhang Center of Bioinformatics Tianjin University

68
何何 PhD 何何何 Prof. Chun-Ting Zhang Center of Bioinformatics Tianjin University http://tubic.tju.edu.cn 基基基基基基基基基基基基 基基基基基基基基基基基基 Lecture 14:

description

Lecture 14:. 基因发现算法的比较和分析. 何淼 PhD 改编自 Prof. Chun-Ting Zhang Center of Bioinformatics Tianjin University http://tubic.tju.edu.cn. 内容. 基因发现算法简介 不同算法比较 算法分析 基于 Z-curve 算法的基因发现软件 结语. 1984 : 30 亿美元测定一个人类基因组. 1994 : 3 亿美元测定一个人类基因组 (1:10). 2004 : 3 千万美元测定一个人类基因组 (1:100). - PowerPoint PPT Presentation

Transcript of 何淼 PhD 改编自 Prof. Chun-Ting Zhang Center of Bioinformatics Tianjin University

何淼 PhD改编自 Prof. Chun-Ting Zhang

Center of Bioinformatics Tianjin University

http://tubic.tju.edu.cn

基因发现算法的比较和分析基因发现算法的比较和分析Lecture 14:

内容

1. 基因发现算法简介

2. 不同算法比较

3. 算法分析

4. 基于 Z-curve 算法的基因发现软件

5. 结语2

1994: 3 亿美元测定一个人类基因组 (1:10)

1984: 30亿美元测定一个人类基因组

未来目标: 1000/100 美元测定一个人类基因组

2004 : 3 千万美元测定一个人类基因组 (1:100)

2006 : 1 百 50万美元测定一个人类基因组 (1:2000)

2008 : 50万美元测定一个人类基因组 (1:6000)

人类基因组研究正在推向纵深不可或缺的三个基本主线

人类基因组计划

人类基因组单倍体型图计划

特定群体基因组单倍型体图

比较基因组计划

个体化基因组单倍体图

灵长类哺乳类脊椎动物脊索动物 多细胞

单细胞

癌症基因组计划

05

10

15

00

时间

病原体基因组计划多发疾病基因组计划常见疾病基因组计划

环境疾病基因组计划

我国从参与到独立启动

1

10

100

老龄疾病基因组计划

1.介绍

什么是计算机辅助基因发现什么是计算机辅助基因发现 ?? Mathematical algorithms Core; Computer Tool; Finding genes in un-annotated genomic sequence

什么类型的基因需要发现什么类型的基因需要发现 ?? 两类 : protein coding genes , RNA genes

在完整的蛋白质编码基因发现过程中包含哪些任在完整的蛋白质编码基因发现过程中包含哪些任务务 ?? 两个任务 : 找到 CDS 和基因的其他部分,包括 promoter等

5

有多少种 有多少种 CDSCDS 发现工作 发现工作 ??

两种 :

原核生物原核生物 ORFs (Open Reading Frames)

真核生物真核生物 introns , exons , 剪切位点

基因发现研究的三种基本途径是什么基因发现研究的三种基本途径是什么 ??

组成组成 信号 相似性的原理

1.介绍

6

1. 密码子选择密码子选择 编码区中的密码子使用频率表非编码区中的“密码子”使用频率

S = AGGACGGGATCA …S = AGGACGGGATCA …PS(AGG) = 0.01209; PS(ACG) = 0.00680, …

PS = PS(AGG) PS(ACG) …

P0(AGG) = 1/64 = 0.056; P0(ACG) =1/64 = 0.056

P0 = P0(AGG) P0(ACG) …

定义似然率的算法 :

LP = ln (PS/P0)如果 LP > 0 编码区如果 LP < 0 非编码区 滑移窗口 ( 具有重叠 ) 技术 例如 : 窗口长度 = 120 bp 重叠长度 = 10 bp

参考文献 Staden, R. & McLachlan, A. (1982) Nucleic Acids Res. 10, 141-156.

2. 算法 I基于数据库和字统计的算法

似然率似然率 (likelihood  ratio(likelihood  ratio ,, LR)LR)是反映真实性的一种指标,属于同时反映灵敏度和特异度的复合指标。即有病者中得出某一筛检试验结果的概率与无病者得出这一概率的比值。该指标全面反映筛检试验的诊断价值,且非常稳定。似然比的计算只涉及到灵敏度与特异度,不受患病率的影响。

7

人类密码子使用频率表

Gly GGG 17.08 0.23 Arg AGG 12.09 0.22 Trp TGG 14.74 1.00 Arg CGG 10.40 0.19Gly GGA 19.31 0.26 Arg AGA 11.73 0.21 End TGA 2.64 0.61 Arg CGA 5.63 0.10Gly GGT 13.66 0.18 Ser AGT 10.18 0.14 Cys TGT 9.99 0.42 Arg CGT 5.16 0.09Gly GGC 24.94 0.33 Ser AGC 18.54 0.25 CyS TGC 13.86 0.58 Arg CGC 10.82 0.19

Glu GAG 38.82 0.59 Lys AAG 33.79 0.60 End TAG 0.73 0.17 Gln CAG 32.95 0.73Glu GAA 27.51 0.41 Lys AAA 22.32 0.40 End TAA 0.95 0.22 Gln CAA 11.94 0.27Asp GAT 21.45 0.44 Asn AAT 16.43 0.44 Tyr TAT 11.80 0.42 His CAT 9.56 0.41Asp GAC 27.06 0.56 Asn AAC 21.30 0.56 Tyr TAC 16.48 0.58 His CAC 14.00 0.59

Val GTG 28.60 0.48 Met ATG 21.86 1.00 Leu TTG 11.43 0.12 Leu CTG 39.93 0.43Val GTA 6.09 0.10 Ile ATA 6.05 0.14 Leu TTA 5.55 0.06 Leu CTA 6.42 0.07Val GTT 10.30 0.17 Ile ATT 15.03 0.35 Phe TTT 15.36 0.43 Leu CTT 11.24 0.12Val GTC 15.01 0.25 Ile ATC 22.47 0.52 Phe TTC 20.72 0.57 Leu CTC 19.14 0.20

Ala GCG 7.27 0.10 Thr ACG 6.80 0.12 Ser TCG 4.38 0.06 Pro CCG 7.02 0.11Ala GCA 15.50 0.22 Thr ACA 15.04 0.27 Ser TCA 10.96 0.15 Pro CCA 17.11 0.27Ala GCT 20.23 0.28 Thr ACT 13.24 0.23 Ser TCT 13.51 0.18 Pro CCT 18.03 0.29Ala GCC 28.43 0.40 Thr ACC 21.52 0.38 Ser TCC 17.37 0.23 Pro CCC 20.51 0.33

2. 算法 I

8

9

2. 氨基酸使用频率在 CDS 中和在非编码区中分别发生的平均氨基酸频率

S = AGGACGGGATCA …S = AGGACGGGATCA … AGG Arg, ACG Thr, …

PS(Arg) = 0.056; PS(Thr) = 0.075, …

PS = PS(Arg) PS(Thr) …

P0(Arg) = Nd/61 = 6/61; P0(Thr) =Nd/64 = 4/61, ...

P0 = P0(AGG) P0(ACG) …

定义似然率算法为 :

LP = ln (PS/P0)

如果 LP > 0 coding;

如果 LP < 0 non-coding

参考文献 MaCaldon, P. & Argos, P. (1988) Proteins 4, 99-122.

2. 算法 I基于数据库和字统计的算法

10

mRNAmRNA 编码氨基酸编码氨基酸

11

氨基酸及其属性氨基酸及其属性

12

3.  密码子偏好性 基于同义密码子的相对使用频率 .

例如 ,

PS(GGG) = 0.23; PS(GGA) = 0.26;

PS(GGT) = 0.18; PS(GGC) = 0.33.

P0 = 1/Nd = 1/4 (for Gly)

参考文献参考文献 Glibskov, M. et al. (1984) Nucleic Acids Res. 12, 539.

4.  六聚物使用频率六聚物使用频率 (6-mers= 6-nucleotides) 444444 = 4096 frequencies of 6-mers

1 6, 7 12, …..

P0 = 1/4096

参考文献参考文献 Claverie, J.-M., et al. (1990) Meth. Enzymol. 183, 237.

2. 算法 I基于数据库和字统计的算法

13

5.  密码子原型 Shepherd (1981) —— RYN code

Trifinov (1987) —— G-nonG-N code

Zhang (1991-1994) —— R-nonG-S/W code

在第一密码子位置的 R-dominant 原则 , 适用于所有物种 在第二密码子位置的 G-least dominant 原则 , 适用于所有物种 在所有物种中存在 S/W- 相关性参考文献参考文献Shepherd, J.C. (1981) PNAS, USA 78,1596-1600.

Trifonov, E. (1987) J. Mol. Biol. 194, 643-692.

Zhang, C.T. & Zhang, R. (1991) Nucleic Acids Res. 19, 6313-6317.

Zhang, C.T. & Chou, K.C. (1994) J. Mol. Biol. 238, 1-8.

2. 算法 I基于数据库和字统计的算法

14

S = AGGACGGGATCA …S = AGGACGGGATCA …

PS(AGG) = p(A1)p(G2)P(G3) = 0.270.200.29;

PS(ACG) = P(A1)P(C2)p(G3) = 0.270.240.29; …

PS = PS(AGG) PS(ACG) …

P0(codon) = (1/4)(1/4)(1/4) = 1/64;

P0 = P0(AGG) P0(ACG) …

定义似然率算法为 :

LP = ln (PS/P0) 如果 LP > 0 coding;

如果 LP < 0 non-coding

2. 算法 I基于数据库和字统计的算法

BaseBase 11 22 33

AA 0.270.27 0.310.31 0.180.18

CC 0.240.24 0.240.24 0.310.31

GG 0.320.32 0.200.20 0.290.29

TT 0.170.17 0.260.26 0.220.22

15

6.Markov 模型 (1-8 阶 ) 关键词关键词 :: 马尔可夫链( Markov chain ) ; 阶( order ) ; 转移概率( transition probabilities ) ; 转移矩阵( transition matrix )

S = AGGACGGGATCA …S = AGGACGGGATCA …

PS = p(A1)p1(GA)p2(GG)p3(AG)p1(CA)p2(GC)…

p0 = 0.250.250.250.250.250.25….

定义似然率算法为 :

LP = ln (PS/P0) 如果 LP > 0 coding; 如果 LP < 0 non-coding

参数的数目 :

1 阶 : 44 + 3(44) = 16 + 48 = 64;

2 阶 : 416 + 3(416) = 256;

… …

5 阶 : 4096 (34096 = 12288, GeneMark)

参考文献参考文献 Zhang, C.T. (1990) J. Theor. Biol. 142, 281-284.

Borodovsky, M. & McIninch, J. (1993) Comp. Chem. 17, 123-130. (GeneMark)

Salzberg, S. L. et al. (1998) Nucleic Acids Res. 26, 544-548. (GLIMMER)

2. 算法 I基于数据库和字统计的算法

16

A C G TCodon position 1 Codon position 3 A 0.22 0.33 0.24 0.13 C 0.21 0.29 0.27 0.21 G 0.44 0.15 0.37 0.53 T 0.13 0.22 0.12 0.13

Codon position 2 Codon position 1 A 0.36 0.27 0.35 0.18 C 0.21 0.23 0.24 0.27 G 0.19 0.14 0.23 0.23 T 0.24 0.35 0.19 0.31

Codon position 3 Codon position 2 A 0.16 0.19 0.15 0.07 C 0.28 0.44 0.41 0.33 G 0.40 0.12 0.27 0.45 T 0.16 0.25 0.17 0.16

当临近密码子位置核苷酸已知条件下,四个核苷酸在不同密码子位置的概率

2. 算法 I基于数据库和字统计的算法

17

18

19

1. 位置的不对称性 pS (base)= (pS(base-1)+pS(base-2)+pS(base-3))/3

asym(base) = i:1-3[pS (base-i) - pS(base)]2

PAS = asym(A) + asym(C) + asym(G) + asym(T)

参考文献 Fickett, J.W. (1982) Nucleic Acids Res. 10, 5303-5308.

Staden, R. (1984) Nucleic Acids Res. 12, 551-567.

2. 周期不对称性指数( Periodic Asymmetry Index ) 考虑一个重要的统计量 : Nij(k)

S = AGGACGGGATCAS = AGGACGGGATCA

NGA(1) = 2; NAT(0) = 1; NGG(0) = 3; NAA(7) = 2, ……

相同核苷酸 (AA, CC, GG, TT) 的概率 at

k = 2, 5, 8, … p1 k = 0, 3, 6, … p2 k = 1, 4, 7, … p3

PAIS = max (p1, p2, p3)/min (p1, p2, p3)

参考文献 Konopka, A.K. (1994) In Structure and Methods: VI. Human Genome Initiative and DNA Recombination. (eds. R. H. Sarma, et al.) Adenine Press, pp. 113-125.

2. 算法 II基于公理和字统计的算法

20

3. 平均相互信息( Average Mutual Information ) Mutual information I (k) (Shannon, 1948)

I(k) = Sigma Pijlog[Pij/(pipj)], i, j A, C, G, T

I(k) at k = 2, 5, 8, … Iin

I(k) at k = 4, 7, 10, … Iout

AMIS = (Iin + Iout + Iout)/3

参考文献 Herzel, H. & Grosse, I. (1995) Physica A 216, 518-542.

4. 傅立叶能谱( Fourier Power Spectrum ) 基本事实 : 3-base 周期周期参考文献 Tiwari, S., et al. (1997) Comp. Appl. Biosci. (CABIOS) 13, 263-270. (GeneScan)

Zhang, C.T. et al. (1998) Bioinformatics 14, 685-690.

2. 算法 II基于公理和字统计的算法

21

22

23

Z Curve

  令 An , Cn , Gn ,Tn 为研究的 DNA 序列中子序列由第一个碱基开始至第 n 个碱基结束碱基 A, C, G , 和 T 的累积数 .

DNA 序列的 Z 变换为xn = (An + Gn) – (Cn + Tn) = Rn – Yn ,

yn = (An + Cn) – (Gn + Tn) = Mn – Kn ,

zn = (An + Tn) – (Gn + Cn) = Wn – Sn ,

xn , yn , zn [-N, N].

则 (xn , yn , zn), 其中 n = 0, 1, 2, 3, … 被称为用于研究 DNA 序列的 Z

curve.

Z curves 用于基因组研究的例子 Z curves 的简化

利用 Z curve 终止位点的简化 利用直线的简化 利用高阶多项式的简化 利用剪切功能的简化

2. 算法 III基于 Z curve 原理的算法

24

Z Curve 计算示例

25

基于 Z Curve 理论的基因发现方法 特定相位( Phase-specific ) Z curve

Bases at 1, 4, 7, phase-1 curve, xn(1) , yn(1) , zn(1);

Bases at 2, 5, 8, phase-2 curve, xn(2) , yn(2) , zn(2);

Bases at 3, 6, 9, phase-3 curve, xn(3) , yn(3) , zn(3).

用直线拟合 9 个组分的曲线 :

xn(1) = u1n, yn(1) = u2n, zn(1) = u3n ;

xn(2) = u4n, yn(2) = u5n, zn(2) = u6n ;

xn(3) = u7n, yn(3) = u8n, zn(3) = u9n .

用 (u1, u2, …, u9) 生成了一个 9-D 空间。 Fisher 线性判别算法 结果 : 对于原核生物和一些真核生物的基因组来说,两者的敏感度和特异性 指标介于:

95.0 % - 99.8 % 参考文献 Zhang, C.T. & Wang, J. (2000) Nucleic Acids Res. 28, 2804-2814.

Guo, F.B., Ou, H.Y. & Zhang, C.T. (2003) Nucleic Acids Res. 31, 1780-1780

2. 算法 III基于 Z curve 原理的算法

26

v3

v2

v1

(x3,y

3,z

3)

(x2,y

2,z

2)

(x1,y

1,z

1)

Coding

Noncoding

v2

(x2,y

2,z

2)

v3

(x3,y

3,z

3)

v1(x

1,y

1,z

1)

27

Noncoding

Coding

28

霍乱弧菌 霍乱弧菌

29

不同算法的比较不同算法的比较

信号搜索信号搜索 (SIGNAL)(SIGNAL)

组成识别 组成识别 (CONTENT)(CONTENT)

序列比对序列比对

(HOMOLOGY(HOMOLOGY))

Gene FindingApproaches

(给位)

(受位)

30

• 基因识别算法的核心是建立一个衡量序列编码能力的标准尺度 (coding measures) ,通常是借助于对任意窗口的序列计算出的一个数或矢量来衡量序列的编码能力。常见的例子包括密码子使用矢量,碱基组成矢量和对序列进行的某些类型的傅立叶变换。

• Fickett 和 Tung 在 1992 年发表的综述文章中列出了当时关于基因识别的二十种算法,并认为六核苷酸频率法 (hexamer usage) 是描述编码区的最好方法。

• 自 Fickett 和 Tung 在 1992 年发表综述文章以来的十余年间,又出现了许多新的基因识别算法,有必要进行重新的评价和比较。

基因识别算法的评估与比较基因识别算法的评估与比较研究背景研究背景

参考文献参考文献Fickett, J.W. and Tung, C.S. (1992) Nucleic Acids Res., 20, 6441-6450.31

FN)TP/(TP ns FP)TN/(TN ps 2/)( pn ssa

数据库 1 :人类基因编码 / 非编码序列数据库(Length = 192, 162, 129, 108, 87, 63 and 42 bp)

数据库数据库

评估基因识别算法评估基因识别算法ZZ 曲线方法,密码子使用,六核苷酸频率法,码的偏好,氨基曲线方法,密码子使用,六核苷酸频率法,码的偏好,氨基酸使用,码的原型,延长打乱快速傅立叶变换 ,马尔科夫模型酸使用,码的原型,延长打乱快速傅立叶变换 ,马尔科夫模型

评价指标:灵敏度、特异度和准确率 评价指标:灵敏度、特异度和准确率

数据库 2 :通过已知 mRNA 验证的人类基因数据库 (Length = 192, 162, 129, 108, 87, 63 and 42 bp)

参考文献参考文献 F. Gao and C.T. Zhang (2004). Bioinformatics, 20(5), 673-681.

32

TP ( true positive ):实际编码区的核酸中被成功预测的核酸数目;TN ( true negative ):实际非编码区的核酸中被成功预测的核酸数目;FN ( false negative ):实际编码区的核酸中被误测为非编码的核酸数目;FP ( false positive ):实际非编码区的核酸中被误测为编码的核酸数目。

TP

TNFN

FP

REALITY

coding noncoding

codi

ng

nonc

odin

g

PR

ED

ICT

ION

TP+FN FP+TN

TP+FP

FN+TN

33

基于 TP 、 TN 、 FP 、 FN ,主要引进四个参数:Sn 、 Sp 、 CC、 AC。敏感性( sensitivity , Sn ):

特异性( specificity , Sp ):

Sn :实际编码区核酸序列中被成功预测的比例;Sp :预测编码核酸序列中被成功预测的比例。

FNTP

TPSn

FPTP

TPSp

34

描述编码区特征所采用的描述编码区特征所采用的 ZZ 曲线变量曲线变量

.

( ) ( ),

( ) ( ), , , [ 1, 1], 1, 2, 3

( ) ( ).

x a g c ti i i i iy a c g t x y z ii i i i i i i iz a t g ci i i i i

( (XA) (XG)) ( (XC) (XT)),

( (XA) (XC)) ( (XG) (XT)), X A,C,G,T, 12,23,

( (XA) (XT)) ( (XG) (XC)).

Xk k k k k

Xk k k k k

Xk k k k k

x p p p p

y p p p p k

z p p p p

( 1 )

( 2)

用 Z 曲线表示相位特异单核苷酸频率 (9)

用 Z 曲线表示相位特异双核苷酸频率 (36)

DNA 序列的 Z 曲线理论The Z curve theory of DNA sequence

35

( 4)

用 Z 曲线表示非相位特异双核苷酸频率 (12)

用 Z 曲线表示非相位特异三核苷酸频率 (48)

( 5)

,

)].XC()XG([)]XT()XA([

TG,C,A,X )],XT()XG([)]XC()XA([

)],XT()XC([)]XG()XA([

ppppz

ppppy

ppppx

X

X

X

)].XYC()XYG([)]XYT()XYA([

T.G,C,A,YT,G,C,A,X)],XYT()XYG([)]XYC()XYA([

)],XYT()XYC([)]XYG()XYA([

ppppz

ppppy

ppppx

XY

XY

XY

用 Z 曲线表示相位特异三核苷酸频率 (144)

.3,2

)].XC()XG([)]XT()XA([

,1,TG,C,A,X)],XT()XG([)]XC()XA([

)],XT()XC([)]XG()XA([

kkkkkX

kkkkkX

kkkkkX

ppppz

kppppy

ppppx

( 3)

36

Z curve变量个数 符号 变量描述

9 Mp Phase-specific parameters of mononucleotide (9)

21 MpDp1 Phase-specific parameters of mononucleotide (9) + phase-specific parameters (k = 1) of di-nucleotides (12)

21’ MpD Phase-specific parameters of mononucleotide (9) + phase-independent parameters of di-nucleotides (12)

45 MpDp Phase-specific parameters of mononucleotide (9) + phase-specific parameters of di-nucleotides (36)

69 MpDp1Tp1

Phase-specific parameters of mononucleotide (9) + phase-specific parameters (k = 1) of di-nucleotides (12) + phase-specific parameters (k = 1) of tri-nucleotides (48)

69’ MpDT Phase-specific parameters of mononucleotide (9) + phase-independent parameters of di-nucleotides (12) + phase-independent parameters of tri-nucleotides (48)

93 MpDpT Phase-specific parameters of mononucleotide (9) + phase-specific parameters of di-nucleotides (36) + phase-independent parameters of tri-nucleotides (48)

189 MpDpTp

Phase-specific parameters of mononucleotide (9) + phase-specific parameters of di-nucleotides (36) + phase-specific parameters of tri-nucleotides (144)

Z 曲线方法不同变量描述曲线方法不同变量描述

37

计算任一 DNA 序列片断的 Z 曲线的 n 个参数,将其

映射为 n 维空间 V 中一点,利用 Fisher 判别函数对正负样本进行判定。

Fisher 判别的判别方程代表 n 维空间 V 中的一个超平面,用一个有 n 个分量分别为 c1, c2, … ,cn 的矢量 c 表示。利用训练集 ( 包括正负样本 ) 中的数据,确定判别编码 / 非编码的阈值 c0 。

判断任一 DNA 序列片断编码 / 非编码的准则如下 : Z(u)>0 / Z(u)<0 这里 Z(u)=cu-c0 ,称之为 Z 分数或 Z 指数。

FisherFisher 判别判别

38

Z curve 方法的变量个数 结果 (%)

片段长度 (bp)

192 162 129 108 87 63 42

9

88.65 87.10 84.82 83.62 83.37 81.05 77.90

87.95 86.46 84.11 83.10 82.86 80.42 77.72

88.30 86.78 84.46 83.36 83.12 80.74 77.81

21

90.83 89.44 87.47 86.08 85.01 82.80 80.25

90.12 89.12 87.07 86.07 84.73 82.44 80.19

90.47 89.28 87.27 86.08 84.87 82.62 80.22

21’

90.12 89.15 86.85 85.43 84.98 82.36 79.65

89.31 88.43 86.17 84.98 84.36 81.88 79.37

89.71 88.79 86.51 85.20 84.67 82.12 79.51

45

91.95 90.58 88.52 87.07 85.71 83.24 80.76

91.03 89.91 88.11 86.94 85.34 82.89 80.23

91.49 90.25 88.31 87.01 85.53 83.06 80.50

69

96.28 94.88 93.03 91.52 89.40 86.71 82.51

96.20 94.81 92.97 91.26 89.76 86.40 82.47

96.24 94.85 93.00 91.39 89.58 86.55 82.49

69’

93.01 91.58 89.86 88.11 86.60 84.44 81.53

92.81 91.40 89.19 87.84 86.58 84.43 81.49

92.91 91.49 89.52 87.98 86.59 84.43 81.51

93

94.26 93.07 91.36 89.63 87.98 85.59 82.28

93.98 92.86 91.15 89.31 87.61 85.69 82.47

94.12 92.97 91.25 89.47 87.79 85.64 82.37

189

96.05 94.98 93.57 91.69 89.63 86.82 82.99

96.37 95.15 93.24 92.04 90.08 87.48 83.83

96.21 95.06 93.41 91.87 89.85 87.15 83.41

nsps

ansps

ansps

ansps

ansps

ansps

a

nsps

ans

ps

a

Z 曲线方法对数据库曲线方法对数据库 II 进行十重交叉检验的平均灵敏度、特异度和准确率进行十重交叉检验的平均灵敏度、特异度和准确率

39

ProgramsResults

(%)

Fragment length (bp) 参数数目

192 162 129 108 87 63 42

Codon usage83.97 83.77 83.41 82.84 81.76 79.27 72.86

6493.29 91.65 88.91 86.34 83.66 78.88 74.1788.63 87.71 86.16 84.59 82.71 79.07 73.51

Hexamer usage90.08 89.26 87.57 84.70 81.79 74.62 57.13

4,09692.91 91.67 89.74 86.81 84.97 81.20 75.3891.50 90.46 88.66 85.76 83.38 77.91 66.25

Codon preference68.78 69.58 70.46 70.31 71.02 70.51 66.19

6494.30 92.62 90.79 87.81 85.03 80.12 72.6181.54 81.10 80.63 79.06 78.03 75.31 69.40

Amino acid usage93.54 92.25 89.57 86.56 81.95 73.99 61.27

2191.12 87.81 82.40 78.51 72.13 63.10 56.4992.33 90.03 85.99 82.53 77.04 68.54 58.88

Codon prototype76.46 76.61 76.43 76.04 74.86 71.75 65.68

1276.60 75.64 74.03 73.27 71.41 69.35 66.9476.53 76.12 75.23 74.66 73.13 70.55 66.31

Lengthen- shuffling FFT

78.77 77.54 75.15 73.71 71.97 69.47 65.92379.90 77.98 76.17 74.14 72.55 69.88 66.18

79.34 77.76 75.66 73.92 72.26 69.67 66.05

nsps

ans

psans

ps

ansps

ansps

ansps

a

密码子使用,六核苷酸频率法,码的偏好,氨基酸使用,码的原型,延长打乱密码子使用,六核苷酸频率法,码的偏好,氨基酸使用,码的原型,延长打乱快速傅立叶变换,对数据库快速傅立叶变换,对数据库 11 进行十重交叉检验平均灵敏度、特异度和准确率进行十重交叉检验平均灵敏度、特异度和准确率

40

Programs Results (%) Fragment length (bp) 参数数目 .

192 162 129 108 87 63 42

Markov modelk = 1

78.39 78.59 78.53 78.33 77.53 75.63 70.25

4881.43 81.08 79.34 77.89 76.75 74.06 71.25

79.91 79.83 78.93 78.11 77.14 74.85 70.75

Markov modelk = 2

85.42 84.91 84.72 83.78 82.63 80.41 74.61

19294.50 93.53 91.36 88.84 86.08 81.86 77.42

89.96 89.22 88.04 86.31 84.36 81.14 76.01

Markov modelk = 3

89.20 88.22 87.40 85.70 84.34 81.36 74.95

76895.45 94.35 92.91 91.39 89.32 86.35 81.05

92.32 91.29 90.16 88.54 86.83 83.86 78.00

Markov modelk = 4

91.95 90.96 89.32 87.69 86.30 83.36 76.98

3,07295.63 94.69 93.25 92.02 90.33 87.25 83.18

93.79 92.83 91.29 89.85 88.31 85.30 80.08

Markov modelk = 5

92.58 92.14 90.99 89.59 88.43 85.30 79.94

12,28895.79 94.79 93.45 92.14 90.46 87.71 83.61

94.18 93.46 92.22 90.87 89.44 86.50 81.78

马尔科夫模型对数据库马尔科夫模型对数据库 11 进行十重交叉检验的平均灵敏度、特异度和准确进行十重交叉检验的平均灵敏度、特异度和准确率率

ns

ps

a

ns

ps

a

ns

ps

a

ns

ps

a

ns

ps

a41

Z curve方法的变量个数 结果 (%)

片段长度 (bp)

192 162 129 108 87 63 42

9

89.61 87.58 85.41 83.53 81.61 79.12 74.98

89.62 86.79 85.30 83.71 82.53 78.95 74.04

89.62 87.18 85.35 83.62 82.07 79.04 74.51

21

91.63 90.42 88.93 86.02 84.17 81.20 77.91

91.28 89.30 88.86 87.26 84.38 80.86 78.44

91.45 89.86 88.90 86.64 84.27 81.03 78.18

21’

90.78 90.13 87.69 86.21 84.44 81.19 77.52

91.29 89.24 87.90 86.11 83.11 81.47 76.70

91.04 89.68 87.80 86.16 83.78 81.33 77.11

45

92.93 91.87 89.86 87.69 85.82 81.69 77.79

92.73 90.99 89.48 87.31 85.32 82.10 78.67

92.83 91.43 89.67 87.50 85.57 81.90 78.23

69

96.36 95.90 93.95 92.76 89.23 86.06 80.84

96.74 95.27 94.07 92.00 89.79 86.49 80.74

96.55 95.59 94.01 92.38 89.51 86.27 80.79

69’

93.58 92.66 90.95 89.31 86.45 83.66 80.06

93.48 92.48 90.99 89.64 87.19 83.85 79.24

93.53 92.57 90.97 89.47 86.82 83.76 79.65

93

94.99 94.43 92.36 90.88 87.92 84.44 81.05

95.08 93.36 92.59 91.05 87.75 83.92 79.84

95.04 93.90 92.47 90.97 87.84 84.18 80.44

189

96.09 95.52 94.57 92.54 89.33 86.46 80.18

96.99 95.68 94.54 92.75 91.10 87.30 81.50

96.54 95.60 94.56 92.64 90.22 86.88 80.84

nsps

ansps

ansps

ansps

ansps

ansps

a

nsps

ans

ps

a

Z 曲线方法对数据库曲线方法对数据库 22 进行十重交叉检验的平均灵敏度、特异度和准确率进行十重交叉检验的平均灵敏度、特异度和准确率

42

程序程序 Results (%)Fragment length (bp)

参数数目192 162 129 108 87 63 42

Markov modelk = 1

80.13 78.50 78.81 76.43 74.51 70.99 62.64

4881.87 79.97 78.52 76.01 74.06 70.73 69.00

81.00 79.24 78.67 76.22 74.28 70.86 65.82

Markov modelk = 2

84.27 85.12 84.65 82.04 82.02 78.94 72.40

19294.42 93.36 91.80 88.33 85.72 79.84 75.35

89.35 89.24 88.22 85.18 83.87 79.39 73.87

Markov modelk = 3

86.51 88.31 87.06 84.99 83.23 79.72 69.04

76895.40 94.73 93.68 91.61 89.69 84.89 79.51

90.96 91.52 90.37 88.30 86.46 82.31 74.27

Codon usage

83.05 82.82 82.90 80.51 79.09 75.29 67.85

6493.20 91.58 89.35 86.04 83.36 76.79 71.02

88.12 87.20 86.13 83.27 81.22 76.04 69.44

Codon preference

73.78 70.57 70.44 68.14 62.96 60.78 51.11

6494.52 92.64 89.47 86.54 82.25 76.26 69.16

84.15 81.61 79.95 77.34 72.60 68.52 60.13

Amino acid usage

95.33 94.62 90.62 87.06 80.69 74.28 62.42

2190.83 87.87 83.28 77.84 73.10 63.95 57.40

93.08 91.25 86.95 82.45 76.90 69.12 59.91

Codon prototype

79.13 75.66 75.18 73.42 70.20 65.22 56.02

1278.46 75.67 73.66 72.44 69.22 66.65 64.71

78.79 75.66 74.42 72.93 69.71 65.94 60.37

Lengthen- shuffling FFT

82.25 80.29 78.58 78.23 74.63 70.22 67.09

383.64 81.29 79.63 78.21 74.27 71.33 68.36

82.95 80.79 79.10 78.22 74.45 70.78 67.73

nsps

ansps

ansps

ansps

ansps

ansps

a

nsps

ans

ps

a

其他各种算法对数据库其他各种算法对数据库 22 进行十重交叉检验的平均灵敏度、特异度和准确率进行十重交叉检验的平均灵敏度、特异度和准确率

43

利用利用 ZZ 曲线方法识别人类曲线方法识别人类 ββ 球蛋白基因中的外显子球蛋白基因中的外显子 44

HU Cpre AAU CPro MM-1 MM-2 MM-5LS-FFT

ZC-9 ZC-69 ZC-189

CU 0.942 0.756 0.347 0.891 0.908 0.943 0.859 0.425 0.751 0.554 0.525

HU 0.683 0.369 0.850 0.879 0.926 0.928 0.424 0.710 0.505 0.493

Cpre -0.351 0.659 0.666 0.734 0.599 0.399 0.568 0.439 0.412

AAU 0.330 0.344 0.297 0.371 0.036 0.260 0.164 0.161

Cpro 0.817 0.815 0.783 0.466 0.855 0.605 0.564

MM-1 0.953 0.802 0.394 0.733 0.507 0.485

MM-2 0.867 0.402 0.700 0.500 0.492

MM-5 0.437 0.651 0.465 0.466

LS-FFT 0.532 0.371 0.343

ZC-9 0.714 0.665ZC-69 0.925

1212 种算法中任意两算法间的相关系数种算法中任意两算法间的相关系数

45

CU, Codon Usage; HU, Hexamer Usage; Cpre, Codon Preference; AAU, Amino Acid Usage; Cpro,Codon Prototype; MM-1, Markov Model k = 1; MM-2, Markov Model k = 2; MM-5, Markov Model k = 5; LS-FFT, lengthen-shuffling FFT; ZC-9, ZC-69 and ZC-189, the Z

curve methods with 9, 69 and 189 parameters, respectively.

缩略词 :

46

采用采用 SINGLESINGLE 聚类方法得到的聚类方法得到的算法关系聚类树算法关系聚类树

47

算法分析算法分析

基因识别算法初步的分析

Local <=> globalLocal <=> global

Statistical <Statistical <=> => non-statistical non-statistical

48

Local == Global

GeneMark ZCURVE

Glimmer

(Markov chain model)

49

Statistical == Non-statistical

GeneMark ORPHEUS

Glimmer CRITICA

ZCURVE

50

现有算法及软件(原核)现有算法及软件(原核)

不完全统计,共有 17 种,主要有 5 种GeneMark ORPHEUS

Glimmer CRITICA

ZCURVE

51

Metatool

YACOP = (Critica (Glimmer ∪ ∩ ZCURVE)) GeneDB = (Glimmer Critica)∪

Glimmer-Z = (Glimmer ∩ ZCURVE)

参考文献参考文献A.C.Mchardy et al. (2004) Bioinformatics, 20, 1623-1631 M. Tech & R. Merkl (2003) In Silico Biol. 3, 441-451

52

原核生物基因识别存在的三大问题原核生物基因识别存在的三大问题

• 短基因识别(小于 300 bp)

• 起始位点预测

• 重叠基因识别

53

进一步的任务进一步的任务• 水平转移基因识别

• Essential gene 预测

• Promoter 及操纵子 (operon) 预测

• 基因功能预测

• 网络分析

54

真核基因识别的主要软件真核基因识别的主要软件• FGENES• Genscan• GeneMark.hmm• Geneie• HMMgene• Morgan• MZEF 主流算法: Hidden Markov model

55

真核基因预测主要问题真核基因预测主要问题• 基因太长, 2.3 Mb, 79 exons• 内含子太长 , 99% 是 introns• 外显子太短,短至 3 bp 甚至1 bp• 重叠基因• 多顺反子排列基因• 相移问题(测序的 error)• 非典型 splice sites• 可变剪切预测• ………………………………………..

56

基于基于 ZZ-curve-curve 方法的软件方法的软件

• ZCURVE_B 细菌和古细菌全基因组 ab initio 基因识别

• ZCURVE_CoV 冠状病毒基因识别软件 • ZCURVE_Y 酿酒酵母基因识别软件 • ZCURVE_C 细菌和古细菌基因识别软件 • ZCURVE_V 病毒基因识别软件 • ZCURVE_E 真核生物识别软件

57

细菌和古细菌基因识别 ab initio 算法 

ZCURVE 1.0 的流程选取种子 ORFs

排除重叠 ORFs

确定基因起始位点

建立数学模型和训练 Fisher系数

对所有候选 ORFs 进行判定

训练阶段

识别阶段

58

all non-overlapping,long ORFs (>500 bp)

one Fisher discriminantfunction

Bacterialgenome

seedORFs

Training Phase

Identification Phase

DNA Sequence

G+C content< 56%

nine-dimensionalsuper-sphere

Yes No

seedORFs

Extract all ORFs(>= 90 bp)

multiple Fisherdiscriminant functions

the Z score

Z score > 0

Yes

Deal with overlapping ORFs

Relocategene starts

ExcludeNo

Putativeprotein-coding

genes

▲▲“9 维超球法”选取种子 ORFs

▲▲ 多次 Fisher 判别法

59

ZCURVE 1.0 的识别成绩的识别成绩

参考文献 F.B. Guo, H.Y. Ou and C.T. Zhang (2003) Nucleic Acids Res. 31, 1780-1789.

基因组数目

ZCURVE 1.0 Glimmer 2.02

识别率( % ) 附加率 (%)识别率( % ) 附加率 (%)

14 98.64 15.03 98.44 18.92

4 97.93 26.70 97.58 59.35

18 98.48 17.62 98.24 27.91

http://tubic.tju.edu.cn/Zcurve_B/http://tubic.tju.edu.cn/Zcurve_B/

60

序号 物种名称ZCURVE 1.0 Glimmer 2.02

识别率 附加预测率 识别率 附加预测率

1 Buchnera 99.8% 14.9% 100% 15.1%

2 R. prowazekii 99.0% 14.9% 99.5% 26.3%

3 C. acetobutylicum 98.9% 9.0% 98.6% 15.0%

4 R. conorii 96.9% 16.1% 96.7% 31.2%

5 L. lactis 99.1% 15.1% 98.2% 17.1%

6 L. monocytogenes 99.6% 9.3% 99.4% 8.0%

7 C. pneumoniae 98.4% 13.1% 98.5% 23.6%

8 C. trachomatis 98.8% 13.9% 99.2% 21.7%

9 A. aeolicus 99.5% 20.4% 99.3% 17.1%

10 B. subtilis 98.4% 19.5% 98.2% 26.6%

11 *T. acidophilum 97.2% 20.1% 97.3% 21.2%

12 S ynechocystis 98.3% 23.2% 98.5% 32.6%

13 *M. ther 97.6% 15.8% 97.1% 12.6%

14 E. coli 98.2% 23.6% 96.9% 23.4%

15 S. meliloti 99.3% 37.1% 98.4% 62.2%

16 P. aeruginosa 98.2% 21.7% 98.9% 56.5%

17 R. solanacearum 97.4% 29.7% 97.3% 59.8%

18 S. coelicolor 96.8% 18.3% 95.7% 58.9%61

ZCURVE 1.0 和和 Glimmer 2.02 联合使用联合使用

物种名称 枯草芽胞杆菌 B. subtilis

大肠杆菌E. coli

根瘤菌S. meliloti

绿脓杆菌P. aeruginosa

识别率 98.4% 98.2% 99.3% 98.2

附加预测率 19.5% 23.6% 37.1% 21.7%

识别率 98.2% 96.9% 98.4% 98.9%

附加预测率 26.6% 23.4% 62.2 % 56.5%

识别率 97.5% 96.2% 97.8% 97.5%

附加预测率8.5% 6.1% 14.5% 7.1%

62

冠状病毒基因识别及冠状病毒基因识别及 SARSSARS 基因组分析基因组分析(ZCURVE_CoV )

参考文献L.L. Chen, H.Y. Ou, R. Zhang and C.T. Zhang (2003).

Biochem. Biophys. Res. Commun. 307, 382-388.F.Gao, H.Y. Ou, L.L. Chen, W.X. Zheng and C.T. Zhang

(2003). FEBS Letters, 553, 451-456 63

Genes annotated Genes predicted by ZCURVE_CoV

Start Stop bp a.a. Feature Start Stop bp a.a. Feature

265 13398 13134 4377 Orf 1a 265 13398a 13134 4377 Orf 1a13398 21485 8088 2695 Orf 1b 13398a 21485 8088 2695 Orf 1b21492 25259 3768 1255 S protein 21492 25259 3768 1255 S protein25268 26092 825 274 Orf 3 25268 26092 825 274 Sars274

25689 26153 465 154 Orf 4

26117 26347 231 76 E protein 26117 26347 231 76 E protein26398 27063 666 221 M protein 26398 27063 666 221 M protein

27074 27265 192 63 Orf 7 27074 27265 192 63 Sars63

27273 27641 369 122 Orf 8 27273 27641 369 122 Sars12227638 27772 135 44 Orf 9 27638 27772 135 44 Sars4427779 27898 120 39 Orf 10 27779 27898 120 39 Sars3927864 28118 255 84 Orf 11 27864 28118 255 84 Sars8428120 29388 1269 422 N protein 28120 29388 1269 422 N protein

28130 28426 297 98 Orf 13

28583 28795 213 70 Orf 14

GenBankGenBank 注释和注释和 ZCURVE_CoVZCURVE_CoV 预测基因预测基因 (SARS

TOR2)

64

正负训练样本、 ZCURVE_CoV 预测基因及 ORF4 , ORF13 , ORF14 PCA图

65

迄今为止,已有数万家研究机构或个人访问 ZCURVE_CoV网站,其中,包括世界卫生组织、斯坦福大学、约翰霍普金斯大学、巴斯德研究所、香港大学等著名科研机构和大学。发表的论文被 Nature medicine, Bioinformatics等杂志的文章引用近百次。

http://tubic.tju.edu.cn/sars/http://tubic.tju.edu.cn/sars/

66

ZCURVE_Y

参考文献参考文献 Zhang CT and Wang J, Nucleic Acids Research,28, 2804-2814.

67

68