第五章 多序列对位排列

Post on 15-Jan-2016

103 views 0 download

description

生物信息学. 第五章 多序列对位排列. 多序列对位排列. Multiple Sequence Alignment (MSA). chicken PLVSS---PLRGEAGVLPFQQEEYEKVKRGIVEQCCHNTCSLYQLENYCN xenopus ALVSG---PQDNELDGMQLQPQEYQKMKRGIVEQCCHSTCSLFQLESYCN human LQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN - PowerPoint PPT Presentation

Transcript of 第五章 多序列对位排列

第五章

多序列对位排列

生物信息学

chicken PLVSS---PLRGEAGVLPFQQEEYEKVKRGIVEQCCHNTCSLYQLENYCN

xenopus ALVSG---PQDNELDGMQLQPQEYQKMKRGIVEQCCHSTCSLFQLESYCN

human LQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN

monkey PQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN

dog LQVRDVELAGAPGEGGLQPLALEGALQKRGIVEQCCTSICSLYQLENYCN

hamster PQVAQLELGGGPGADDLQTLALEVAQQKRGIVDQCCTSICSLYQLENYCN

bovine PQVGALELAGGPGAGG-----LEGPPQKRGIVEQCCASVCSLYQLENYCN

guinea pig PQVEQTELGMGLGAGGLQPLALEMALQKRGIVDQCCTGTCTRHQLQSYCN

Bring the greatest number of similar characters into the same column of the alignment

Multiple Sequence Alignment (MSA)

多序列对位排列

Find out which parts “do the same thing”

为什么要做MSA?用于描述一组序列之间的相似性关系,以便了解一个基因家族的基本特征,寻找motif,保守区域等。用于预测新序列的二级和三级结构,进而推测其生物学功能。

用于描述同源序列之间的亲缘关系的远近,应用到分子进化分析中。是构建分子进化树的基础。

为什么要做MSA?

a

b

c

Gene treeA

B

C

Species tree

We often assume that gene trees give us species trees

为什么要做MSA?

Contig assembly

怎么做MSA? 动态规划算法( dynamic programming ): MSA

改进算法( heuristic algorithm ): 1. 渐进法( progressive methods ): Clustal, T-Coffee,

MUSCLE

2. 迭代法( iterative methods ): PRRP, DIALIGN

3. 其它算法: Partial Order Algorithm 、 profile HMM 、 meta-methods (MAFFT)…

http://www.ebi.ac.uk/Tools/msa/

Current Opinion in Structural Biology 2006, 16:368–373

Clustal :目前应用最广泛的 MSA 方法 可在线分析

可在本地计算机运行

Clustal使用方法

序列输入、输出格式

FASTANBRF/PIR EMBL/SWISSPROT

ALNGCG/MSFGCG9/RSF

GDE

ALNNBRF/PIRGCG/MSFPHYLIPNEXUS

GDE/FASTA

Input Output>sequence1ATTGCAGTTCGCA ……>sequence2ATAGCACATCGCA……>sequence3ATGCCACTCCGCC……

http://www.clustal.org/

两两比对构建距离矩阵

构建指导树( guide tree )

将距离最近的两条序列用动态规划的算法进行比对;

“渐进”的加上其他的序列

Clustal W/X算法基础

Clustal在线分析方法( ClustalW)

多序列对位排列结果

粘贴或上载序列

EBI 的 ClustalW 分析网页 http://www.ebi.ac.uk/Tools/msa/clustalw2/

调整参数

http://www.ebi.ac.uk/Tools/msa/clustalw/help/

AlignmentsResult Summary

自带 Help 文件Using ClustalX for multiple sequence alignment by Jarno Tuimala

两种工作模式 : Multiple Alignment

Profile Alignment

Clustal离线分析方法( ClustalX)

下载安装

第一步:输入序列

File

Load sequences1、序列为多重 fasta格式(可进行编辑,保存为 txt文件)

2、序列文件所在路径不能有空格和中文字符(如放在系统桌面),否则 ClustalX无法载入

3、为便于识别每条序列,可在 >后输入物种名称,并用空格和其它描述内容分开,如:

>Human gi|301129180|ref|NP_001180303.1| resistin [Homo sapiens]

第二步:设定比对参数

第三步:进行序列比对,得到结果

第四步:评价比对质量

打开比对结果 : 1、可在 ClustalX中直接输出打印

2、可用写字板打开 aln文件3、可将 aln文件以图形展示,更直观

更改参数、手动编辑,使之具有生物学意义

可进一步对排列好的序列进行修饰( 1) Boxshade 突出相同或相似位点( http://www.ch.embnet.org/software/BOX_form.html )

在 EBI ClustalW 结果网页复制序列比对结果

在“ Boxshade” 网页粘贴序列,在“ Input sequence format” 栏目选择“ ALN” ,在“ Output format” 栏目选择“RTF_new”

修饰过的排列结果

在结果网页点击“ here is your output number 1”

可进一步对排列好的序列进行修饰( 2) ESPript 多种修饰 功能,突出相同或相似位点

在 ESPript 分析网页“ Aligned Sequences” 栏上载 Alignments 文件

在“ Output layout” 和“ Output file or device” 栏选择

修饰后的比对结果

http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi

在 EBI ClustalW 结果网页下载“ Alignments”(CLUSTALW format)

GeneDochttp://www.nrbsc.org/gfx/genedoc

File – Import

修饰排列结果

选择输入文件的格式(如 ALN )

可进一步对排列好的序列进行修饰( 3)

ClustalW

ClustalX

Clustal工作界面

Clustal部分参数定义

Gap opening penalty :增大数值使 gap 数目减少 Gap extension penalty :增大数值使 gap 长度变短 Weight transition : A - G 转换或 C - T 转换( multiple DNA sequence al

ignment ) Hydrophilic gap :选择“ on” 将增加形成 gap 的机会( multiple protein s

equence alignment ) Residue-specific gap penalties :选择“ on” 将增加在某些氨基酸残基处形

成 gap 的机会,而减少在另一些氨基酸残基处形成 gap 的机会( multiple protein sequence alignment )

http://espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi