Alignement de séquences biologiques Laurent Duret Pôle Bioinformatique Lyonnais...
-
Upload
paschal-durant -
Category
Documents
-
view
109 -
download
2
Transcript of Alignement de séquences biologiques Laurent Duret Pôle Bioinformatique Lyonnais...
Alignement de séquences Alignement de séquences biologiquesbiologiques
Laurent DuretLaurent Duret
Pôle Bioinformatique LyonnaisPôle Bioinformatique Lyonnais
htt://pbil.univ-lyon1.fr/alignment.htmlhtt://pbil.univ-lyon1.fr/alignment.html
Objectifs poursuivisObjectifs poursuivis
Les alignements permettent de comparer des séquences biologiques. Cette comparaison est nécessaire dans différents types d’études :
Identification de gènes homologues Recherche de contraintes fonctionnelles communes à un ensemble
de gènes ou de protéines. Prédiction de fonction Prédiction de structure (ARN, protéine) (Cf Deléage, Gaspin) Reconstitution des relations évolutives entre séquences
(phylogénie) (Cf Gouy). Choix d'amorces PCR ...
Alignement: représentationAlignement: représentation
Les résidus (nucléotides, acides-aminés) sont superposés de façon à maximiser la similarité entre les séquences.
G T T A A G G C G – G G A A A
G T T – – – G C G A G G A C A
* * * * * * * * * * Mutations :
Substitution (mismatch) Insertion Délétion
Insertions ou délétions : indels (gap).
Quel est le bon alignement ?Quel est le bon alignement ?G T T A C G A G T T A C G A
G T T - G G A G T T G - G A
* * * * * * * * * *
OU
G T T A C - G A
G T T - - G G A
* * * * *
Pour le biologiste, généralement, le bon alignement est celui qui représente le scénario évolutif le plus probable
Fonction de score de similaritéFonction de score de similarité
G T T A A G G C G – G G A A A
G T T – – – G C G A G G A C A
* * * * * * * * * *
Score =
Exemple: identité = 1 mismatch = 0 gap = -1
Score = 10 - 4 = 6
pondération_ substitution− pénalité_gapdébut
fin
∑début
fin
∑
Modèle d'évolution (ADN) Modèle d'évolution (ADN)
Transition: A <-> G T <-> C Transversions : autres substitutions p(transition) > p(transversion)
G T T A C G A G T T A C G A
G T T - G G A G T T G - G A
* * * * * * * * . * *
ACGT
Modèle d'évolution (protéines) Modèle d'évolution (protéines) Code génétique
Asp (GAC, GAU) Tyr (UAC, UAU) : 1 mutation Asp (GAC, GAU) Cys (UGC, UGU) : 2 mutations Asp (GAC, GAU) Trp (UGG) : 3 mutations
Propriétés physico-chimiques des acides-aminés (acidité, hydrophobicité, encombrement stérique, etc.)
Matrices de Dayhoff (PAM), BLOSUM: mesures des fréquences de substitutions dans des alignements de protéines homologues
PAM 60, PAM 120, PAM 250 (extrapolations à partir de PAM 15) BLOSUM 80, BLOSUM 62, BLOSUM 40 (basé sur des alignements de blocs)
ValIleHCCOOHHCCH3CH3NH2HCCOOHHCCH3CH2NH2CH3
Substitutions Substitutions conservatricesconservatrices
Pondération des gapsPondération des gaps
TGATATCGCCA TGATATCGCCA
TGAT---TCCA TGAT-T--CCA
**** *** **** * ***
Gap de longueur k: Pénalités linéaires: w = o + e k o : pénalité pour l'ouverture d'un gap
e : pénalité pour l'extension d'un gap
0
10
20
30
40
50
0 5 10 15 20k
Pondération des gaps (plus réaliste)Pondération des gaps (plus réaliste) Estimation des paramètres sur des alignements "vrais" (par exemple basés sur
l'alignement de structures connues) Gap de longueur k:
Pénalités logarithmiques: w = o + e log(k)
w = f(log(k), log(PAM), résidus, structure)– PAM: la probabilité d'un gap augmente avec la distance évolutive– Résidus, structure: la probabilité d'un gap est plus forte dans une boucle
(hydrophile) que dans le cœur hydrophobe des protéines
0
10
20
30
40
0 5 10 15 20k
Similarité globale, locale Similarité globale, locale
ARNmgènedomaineprotéine Aprotéine Bprotéine Aprotéine Bsimilarité globalesimilarité locale
Similarité, homologie Similarité, homologie
Deux séquences sont homologues ssi elles dérivent d'un ancêtre commun
30% d'identité entre deux protéines => homologie, sauf si Fragment similaire court (< 100 aa)
Biais compositionnel (régions de faible complexité, par exemple riche en Pro, Ala)
Algorithmes d'alignement de deux Algorithmes d'alignement de deux séquencesséquences
Algorithme de programmation dynamique : Alignement global: Needleman & Wunsh Alignement local: Smith & Waterman
Heuristiques : FASTA BLAST
Alignement multiple: programmation dynamiqueAlignement multiple: programmation dynamique
La généralisation de l’algorithme N&W au traitement simultané de plus de deux séquences est théoriquement possible mais inexploitable en pratique.
Pour un alignement de n séquences le nombre de chemins possibles pour chaque case est de 2n – 1.
On a une croissance exponentielle du temps de calcul et de l'espace mémoire requis en fonction du nombre de séquences.
Utilisation de méthodes heuristiques.
Alignement de deuxséquences : trois choix
Alignement de troisséquences : sept choix
Alignement progressifAlignement progressif
Approche consistant à construire itérativement l’alignement multiple en groupant des alignements de paires de séquences.
Ce genre de méthodes comporte trois étapes : L’alignement des paires de séquences. Le groupement des séquences. Le groupement des alignements (alignement progressif).
CLUSTAL (Higgins, Sharp 1988, Thompson et al., 1994), le programme d’alignements multiples le plus utilisé à l’heure actuelle utilise cette approche.
MULTALIN, PILEUP, T-Coffee
Pénalités en fonction de la positionPénalités en fonction de la position CLUSTAL introduit des pondérations qui sont dépendantes de la
position des gaps.
Diminution de la pénalité à l’emplacement de gaps préexistants. Augmentation de la pénalité au voisinage (8 résidus) de gaps préexistants. Réduction de la pénalité au niveau de régions contenant des suites
d’acides aminés hydrophiles (≥ 5 résidus). Modification spécifiques en fonction des acides aminés présents
(e.g., la pénalité est plus faible avec Gly, Asn, Pro).
Ces pondérations sont prises en compte au moment du groupement des alignements.
Alignement progressif: pas toujours Alignement progressif: pas toujours optimaloptimal
Un seul des ces trois alignements est optimal
Alignement de trois séquences
x ...ACTTA...y ...AGTA...z ...ACGTA...
Arbre guide
Etape 1: alignement xy
x ACTTA x ACTTA x ACTTAy A-GTA y AGT-A y AG-TA
Etape 2: alignement xyz
x ACTTA x ACTTA x ACTTAy A-GTA y AGT-A y AG-TAz ACGTA z ACGTA z ACGTA
xyz
T-CoffeeT-CoffeeNotredame, Higgins, Heringa (2000) JMB 302:205 Notredame, Higgins, Heringa (2000) JMB 302:205
SeqA GARFIELD THE LAST FAT CAT
SeqB GARFIELD THE FAST CAT
SeqC GARFIELD THE VERY FAST CAT
SeqD THE FAT CAT
SeqA GARFIELD THE LAST FA-T CATSeqB GARFIELD THE FAST CA-T ---SeqC GARFIELD THE VERY FAST CATSeqD ---------THE ---- FA-T CAT
SeqA GARFIELD THE LAST FAT CATSeqB GARFIELD THE FAST CAT ---
SeqA GARFIELD THE LAST FA-T CATSeqC GARFIELD THE VERY FAST CAT
SeqA GARFIELD THE LAST FAT CATSeqD ---------THE ---- FAT CAT
SeqB GARFIELD THE ---- FAST CAT SeqC GARFIELD THE VERY FAST CAT
SeqB GARFIELD THE FAST CATSeqD ---------THE FA-T CAT
SeqC GARFIELD THE VERY FAST CATSeqD ---------THE ---- FA-T CAT
Alignements par paireAlignement progressif
T-CoffeeT-CoffeeNotredame, Higgins, Heringa (2000) JMB 302:205 Notredame, Higgins, Heringa (2000) JMB 302:205
http://igs-server.cnrs-mrs.fr/~cnotred/http://igs-server.cnrs-mrs.fr/~cnotred/
Alignement progressif Lors des alignements intermédiaire, prise en compte de
tous les alignements deux à deux (globaux et locaux) Possibilité d'incorporer d'autres informations (structure,
etc.)
Alignements globaux, Alignements globaux, alignements par blocalignements par bloc
1234 5123 51234 5134 5 123 123 123 123a) b)
DialignDialignMorgenstern et al. 1996 PNAS 93:12098Morgenstern et al. 1996 PNAS 93:12098
Recherche de blocs similaires (≠ exact) sans gap entre les séquences
Sélection de la meilleure combinaison possible de blocs similaires (uniformes ou non) consistents : heuristique (Abdeddaim 1997)
Alignement ancré sur les blocs Plus lent que alignement progressif, mais meilleur alignement quand
les séquences contiennent de grands indels; ne cherche pas à aligner des régions non-alignables
A G A G T C A C T A G T C AA G T G T C A C A T A A T C A A T C A C A T A A T C A A C G T A A C T G A A T C A G A G T
Exact blockUniform block
Alignements locauxAlignements locaux
MEME MATCH-BOX PIMA
1341234122241234
BilanBilan
ClustalW
Dialign T-coffee
MEME
1234 5123 51234 5134 5 123 123 123 1231341234122241234
Éditeur d ’alignement multipleÉditeur d ’alignement multiple
Cas particuliersCas particuliers Alignement de séquences ADN codantes
L F L F
CTT TTC CTT TTC
CTC --- --- CTC
L - - L
alignement des séquences protéiques traduction-inverse de l'alignement protéique en alignement
nucléique
Alignement cDNA / génomique: SIM4 Alignement protéine / génomique: WISE2
Limitation des comparaisons deux à deux (BLAST, Limitation des comparaisons deux à deux (BLAST, FASTA, ...)FASTA, ...)
Seq A CGRRLILFMLATCGECDTDSSE … HICCIKQCDVQDIIRVCC
:: : ::: :: : :
Insuline CGSHLVEALYLVCGERGFFYTP … EQCCTSICSLYQLENYCN
::: : : : :: : :
Seq B YQSHLLIVLLAITLECFFSDRK … KRQWISIFDLQTLRPMTA
Comparaisons 2 à 2:
Insuline / Seq A : 25% d'identité
Insuline / Seq B : 25% d'identité
Alignement de séquences de la famille des insulinesAlignement de séquences de la famille des insulines
B-chain A-chain
INSL4 Q14641 ELRGCGPRFGKHLLSYCPMPEKTFTTTPGG...[x]58 ....SGRHRFDPFCCEVICDDGTSVKLCT
INSL3 P51460 REKLCGHHFVRALVRVCGGPRWSTEA.......[x]51 ....AAATNPARYCCLSGCTQQDLLTLCPY
RLN1 P04808 VIKLCGRELVRAQIAICGMSTWS..........[x]109 ....PYVALFEKCCLIGCTKRSLAKYC
BBXA P26732 VHTYCGRHLARTLADLCWEAGVD..........[x]25 ........GIVDECCLRPCSVDVLLSYC
BBXB P26733 ARTYCGRHLADTLADLCF--GVE..........[x]23 ........GVVDECCFRPCTLDVLLSYCG
BBXC P26735 SQFYCGDFLARTMSILCWPDMP...........[x]25 ........GIVDECCYRPCTTDVLKLYCDKQI
BBXD P26736 GHIYCGRYLAYKMADLCWRAGFE..........[x]25 ........GIADECCLQPCTNDVLLSYC
LIRP P15131 VARYCGEKLSNALKLVCRGNYNTMF........[x]58 ........GVFDECCRKSCSISELQTYCGRR
MIP I P07223 RRGVCGSALADLVDFACSSSNQPAMV.......[x]29 ....QGTTNIVCECCMKPCTLSELRQYCP
MIP II P25289 PRGICGSNLAGFRAFICSNQNSPSMV.......[x]44 ....QRTTNLVCECCFNYCTPDVVRKYCY
MIP III P80090 PRGLCGSTLANMVQWLCSTYTTSSKV.......[x]30 ....ESRPSIVCECCFNQCTVQELLAYC
MIP V P31241 PRGICGSDLADLRAFICSRRNQPAMV.......[x]44 ....QRTTNLVCECCYNVCTVDVFYEYCY
MIP VII P91797 PRGLCGNRLARAHANLCFLLRNTYPDIFPR...[x]86 ..EVMAEPSLVCDCCYNECSVRKLATYC
ILP P22334 AEYLCGSTLADVLSFVCGNRGYNSQP.......[x]31 ........GLVEECCYNVCDYSQLESYCNPYS
INS P01308 NQHLCGSHLVEALYLVCGERGFFYTPKT.....[x]35 ........GIVEQCCTSICSLYQLENYCN
IGF1 P01343 PETLCGAELVDALQFVCGDRGFYF.........[x]12 ........GIVDECCFRSCDLRRLEMYCAPLK
IGF2 P01344 SETLCGGELVDTLQFVCGDRGFYF.........[x]12 ........GIVEECCFRSCDLALLETYCATPA
*. .* ** * . *
Représentation d ’un motif par une Représentation d ’un motif par une matrice de matrice de fréquences (exemple)fréquences (exemple)
Site donneur d ’épissage (vertébrés)
Matrice de fréquence (pourcentage):
Base Position
-3 -2 -1 +1 +2 +3 +4 +5 +6
A 33 60 8 0 0 49 71 6 15
C 37 13 4 0 0 3 7 5 19
G 18 14 81 100 0 45 12 84 20
T 12 13 7 0 100 3 9 5 46
Cons. M A G G T R A G T
PSI-BLASTPSI-BLAST
Position-Specific Iterated BLAST 1-recherche BLAST classique 2-construction d'une matrice de pondération (profil) avec les séquences
similaires détectées 3-recherche BLAST à partir de ce nouveau profil 4-itération des étapes 2-3 jusqu'à convergence
plus sensible que Smith-Waterman 40 fois plus rapide