Alignement de séquences biologiques Laurent Duret Pôle Bioinformatique Lyonnais...

Alignement de séquences Alignement de séquences biologiquesbiologiques

Laurent DuretLaurent Duret

Pôle Bioinformatique LyonnaisPôle Bioinformatique Lyonnais

htt://pbil.univ-lyon1.fr/alignment.htmlhtt://pbil.univ-lyon1.fr/alignment.html

Objectifs poursuivisObjectifs poursuivis

Les alignements permettent de comparer des séquences biologiques. Cette comparaison est nécessaire dans différents types d’études :

Identification de gènes homologues Recherche de contraintes fonctionnelles communes à un ensemble

de gènes ou de protéines. Prédiction de fonction Prédiction de structure (ARN, protéine) (Cf Deléage, Gaspin) Reconstitution des relations évolutives entre séquences

(phylogénie) (Cf Gouy). Choix d'amorces PCR ...

Alignement: représentationAlignement: représentation

Les résidus (nucléotides, acides-aminés) sont superposés de façon à maximiser la similarité entre les séquences.

G T T A A G G C G – G G A A A

G T T – – – G C G A G G A C A

* * * * * * * * * * Mutations :

Substitution (mismatch) Insertion Délétion

Insertions ou délétions : indels (gap).

Quel est le bon alignement ?Quel est le bon alignement ?G T T A C G A G T T A C G A

G T T - G G A G T T G - G A

* * * * * * * * * *

OU

G T T A C - G A

G T T - - G G A

* * * * *

Pour le biologiste, généralement, le bon alignement est celui qui représente le scénario évolutif le plus probable

Fonction de score de similaritéFonction de score de similarité

G T T A A G G C G – G G A A A

G T T – – – G C G A G G A C A

* * * * * * * * * *

Score =

Exemple: identité = 1 mismatch = 0 gap = -1

Score = 10 - 4 = 6

pondération_ substitution− pénalité_gapdébut

fin

∑début

fin

∑

Modèle d'évolution (ADN) Modèle d'évolution (ADN)

Transition: A <-> G T <-> C Transversions : autres substitutions p(transition) > p(transversion)

G T T A C G A G T T A C G A

G T T - G G A G T T G - G A

* * * * * * * * . * *

ACGT

Modèle d'évolution (protéines) Modèle d'évolution (protéines) Code génétique

Asp (GAC, GAU) Tyr (UAC, UAU) : 1 mutation Asp (GAC, GAU) Cys (UGC, UGU) : 2 mutations Asp (GAC, GAU) Trp (UGG) : 3 mutations

Propriétés physico-chimiques des acides-aminés (acidité, hydrophobicité, encombrement stérique, etc.)

Matrices de Dayhoff (PAM), BLOSUM: mesures des fréquences de substitutions dans des alignements de protéines homologues

PAM 60, PAM 120, PAM 250 (extrapolations à partir de PAM 15) BLOSUM 80, BLOSUM 62, BLOSUM 40 (basé sur des alignements de blocs)

ValIleHCCOOHHCCH3CH3NH2HCCOOHHCCH3CH2NH2CH3

Substitutions Substitutions conservatricesconservatrices

Pondération des gapsPondération des gaps

TGATATCGCCA TGATATCGCCA

TGAT---TCCA TGAT-T--CCA

**** *** **** * ***

Gap de longueur k: Pénalités linéaires: w = o + e k o : pénalité pour l'ouverture d'un gap

e : pénalité pour l'extension d'un gap

0

10

20

30

40

50

0 5 10 15 20k

Pondération des gaps (plus réaliste)Pondération des gaps (plus réaliste) Estimation des paramètres sur des alignements "vrais" (par exemple basés sur

l'alignement de structures connues) Gap de longueur k:

Pénalités logarithmiques: w = o + e log(k)

w = f(log(k), log(PAM), résidus, structure)– PAM: la probabilité d'un gap augmente avec la distance évolutive– Résidus, structure: la probabilité d'un gap est plus forte dans une boucle

(hydrophile) que dans le cœur hydrophobe des protéines

0

10

20

30

40

0 5 10 15 20k

Similarité globale, locale Similarité globale, locale

ARNmgènedomaineprotéine Aprotéine Bprotéine Aprotéine Bsimilarité globalesimilarité locale

Similarité, homologie Similarité, homologie

Deux séquences sont homologues ssi elles dérivent d'un ancêtre commun

30% d'identité entre deux protéines => homologie, sauf si Fragment similaire court (< 100 aa)

Biais compositionnel (régions de faible complexité, par exemple riche en Pro, Ala)

Algorithmes d'alignement de deux Algorithmes d'alignement de deux séquencesséquences

Algorithme de programmation dynamique : Alignement global: Needleman & Wunsh Alignement local: Smith & Waterman

Heuristiques : FASTA BLAST

Alignement multiple: programmation dynamiqueAlignement multiple: programmation dynamique

La généralisation de l’algorithme N&W au traitement simultané de plus de deux séquences est théoriquement possible mais inexploitable en pratique.

Pour un alignement de n séquences le nombre de chemins possibles pour chaque case est de 2n – 1.

On a une croissance exponentielle du temps de calcul et de l'espace mémoire requis en fonction du nombre de séquences.

Utilisation de méthodes heuristiques.

Alignement de deuxséquences : trois choix

Alignement de troisséquences : sept choix

Alignement progressifAlignement progressif

Approche consistant à construire itérativement l’alignement multiple en groupant des alignements de paires de séquences.

Ce genre de méthodes comporte trois étapes : L’alignement des paires de séquences. Le groupement des séquences. Le groupement des alignements (alignement progressif).

CLUSTAL (Higgins, Sharp 1988, Thompson et al., 1994), le programme d’alignements multiples le plus utilisé à l’heure actuelle utilise cette approche.

MULTALIN, PILEUP, T-Coffee

Pénalités en fonction de la positionPénalités en fonction de la position CLUSTAL introduit des pondérations qui sont dépendantes de la

position des gaps.

Diminution de la pénalité à l’emplacement de gaps préexistants. Augmentation de la pénalité au voisinage (8 résidus) de gaps préexistants. Réduction de la pénalité au niveau de régions contenant des suites

d’acides aminés hydrophiles (≥ 5 résidus). Modification spécifiques en fonction des acides aminés présents

(e.g., la pénalité est plus faible avec Gly, Asn, Pro).

Ces pondérations sont prises en compte au moment du groupement des alignements.

Alignement progressif: pas toujours Alignement progressif: pas toujours optimaloptimal

Un seul des ces trois alignements est optimal

Alignement de trois séquences

x ...ACTTA...y ...AGTA...z ...ACGTA...

Arbre guide

Etape 1: alignement xy

x ACTTA x ACTTA x ACTTAy A-GTA y AGT-A y AG-TA

Etape 2: alignement xyz

x ACTTA x ACTTA x ACTTAy A-GTA y AGT-A y AG-TAz ACGTA z ACGTA z ACGTA

xyz

T-CoffeeT-CoffeeNotredame, Higgins, Heringa (2000) JMB 302:205 Notredame, Higgins, Heringa (2000) JMB 302:205

SeqA GARFIELD THE LAST FAT CAT

SeqB GARFIELD THE FAST CAT

SeqC GARFIELD THE VERY FAST CAT

SeqD THE FAT CAT

SeqA GARFIELD THE LAST FA-T CATSeqB GARFIELD THE FAST CA-T ---SeqC GARFIELD THE VERY FAST CATSeqD ---------THE ---- FA-T CAT

SeqA GARFIELD THE LAST FAT CATSeqB GARFIELD THE FAST CAT ---

SeqA GARFIELD THE LAST FA-T CATSeqC GARFIELD THE VERY FAST CAT

SeqA GARFIELD THE LAST FAT CATSeqD ---------THE ---- FAT CAT

SeqB GARFIELD THE ---- FAST CAT SeqC GARFIELD THE VERY FAST CAT

SeqB GARFIELD THE FAST CATSeqD ---------THE FA-T CAT

SeqC GARFIELD THE VERY FAST CATSeqD ---------THE ---- FA-T CAT

Alignements par paireAlignement progressif

T-CoffeeT-CoffeeNotredame, Higgins, Heringa (2000) JMB 302:205 Notredame, Higgins, Heringa (2000) JMB 302:205

http://igs-server.cnrs-mrs.fr/~cnotred/http://igs-server.cnrs-mrs.fr/~cnotred/

Alignement progressif Lors des alignements intermédiaire, prise en compte de

tous les alignements deux à deux (globaux et locaux) Possibilité d'incorporer d'autres informations (structure,

etc.)

Alignements globaux, Alignements globaux, alignements par blocalignements par bloc

1234 5123 51234 5134 5 123 123 123 123a) b)

DialignDialignMorgenstern et al. 1996 PNAS 93:12098Morgenstern et al. 1996 PNAS 93:12098

Recherche de blocs similaires (≠ exact) sans gap entre les séquences

Sélection de la meilleure combinaison possible de blocs similaires (uniformes ou non) consistents : heuristique (Abdeddaim 1997)

Alignement ancré sur les blocs Plus lent que alignement progressif, mais meilleur alignement quand

les séquences contiennent de grands indels; ne cherche pas à aligner des régions non-alignables

A G A G T C A C T A G T C AA G T G T C A C A T A A T C A A T C A C A T A A T C A A C G T A A C T G A A T C A G A G T

Exact blockUniform block

Alignements locauxAlignements locaux

MEME MATCH-BOX PIMA

1341234122241234

BilanBilan

ClustalW

Dialign T-coffee

MEME

1234 5123 51234 5134 5 123 123 123 1231341234122241234

Éditeur d ’alignement multipleÉditeur d ’alignement multiple

Cas particuliersCas particuliers Alignement de séquences ADN codantes

L F L F

CTT TTC CTT TTC

CTC --- --- CTC

L - - L

alignement des séquences protéiques traduction-inverse de l'alignement protéique en alignement

nucléique

Alignement cDNA / génomique: SIM4 Alignement protéine / génomique: WISE2

Limitation des comparaisons deux à deux (BLAST, Limitation des comparaisons deux à deux (BLAST, FASTA, ...)FASTA, ...)

Seq A CGRRLILFMLATCGECDTDSSE … HICCIKQCDVQDIIRVCC

:: : ::: :: : :

Insuline CGSHLVEALYLVCGERGFFYTP … EQCCTSICSLYQLENYCN

::: : : : :: : :

Seq B YQSHLLIVLLAITLECFFSDRK … KRQWISIFDLQTLRPMTA

Comparaisons 2 à 2:

Insuline / Seq A : 25% d'identité

Insuline / Seq B : 25% d'identité

Alignement de séquences de la famille des insulinesAlignement de séquences de la famille des insulines

B-chain A-chain

INSL4 Q14641 ELRGCGPRFGKHLLSYCPMPEKTFTTTPGG...[x]58 ....SGRHRFDPFCCEVICDDGTSVKLCT

INSL3 P51460 REKLCGHHFVRALVRVCGGPRWSTEA.......[x]51 ....AAATNPARYCCLSGCTQQDLLTLCPY

RLN1 P04808 VIKLCGRELVRAQIAICGMSTWS..........[x]109 ....PYVALFEKCCLIGCTKRSLAKYC

BBXA P26732 VHTYCGRHLARTLADLCWEAGVD..........[x]25 ........GIVDECCLRPCSVDVLLSYC

BBXB P26733 ARTYCGRHLADTLADLCF--GVE..........[x]23 ........GVVDECCFRPCTLDVLLSYCG

BBXC P26735 SQFYCGDFLARTMSILCWPDMP...........[x]25 ........GIVDECCYRPCTTDVLKLYCDKQI

BBXD P26736 GHIYCGRYLAYKMADLCWRAGFE..........[x]25 ........GIADECCLQPCTNDVLLSYC

LIRP P15131 VARYCGEKLSNALKLVCRGNYNTMF........[x]58 ........GVFDECCRKSCSISELQTYCGRR

MIP I P07223 RRGVCGSALADLVDFACSSSNQPAMV.......[x]29 ....QGTTNIVCECCMKPCTLSELRQYCP

MIP II P25289 PRGICGSNLAGFRAFICSNQNSPSMV.......[x]44 ....QRTTNLVCECCFNYCTPDVVRKYCY

MIP III P80090 PRGLCGSTLANMVQWLCSTYTTSSKV.......[x]30 ....ESRPSIVCECCFNQCTVQELLAYC

MIP V P31241 PRGICGSDLADLRAFICSRRNQPAMV.......[x]44 ....QRTTNLVCECCYNVCTVDVFYEYCY

MIP VII P91797 PRGLCGNRLARAHANLCFLLRNTYPDIFPR...[x]86 ..EVMAEPSLVCDCCYNECSVRKLATYC

ILP P22334 AEYLCGSTLADVLSFVCGNRGYNSQP.......[x]31 ........GLVEECCYNVCDYSQLESYCNPYS

INS P01308 NQHLCGSHLVEALYLVCGERGFFYTPKT.....[x]35 ........GIVEQCCTSICSLYQLENYCN

IGF1 P01343 PETLCGAELVDALQFVCGDRGFYF.........[x]12 ........GIVDECCFRSCDLRRLEMYCAPLK

IGF2 P01344 SETLCGGELVDTLQFVCGDRGFYF.........[x]12 ........GIVEECCFRSCDLALLETYCATPA

*. .* ** * . *

Représentation d ’un motif par une Représentation d ’un motif par une matrice de matrice de fréquences (exemple)fréquences (exemple)

Site donneur d ’épissage (vertébrés)

Matrice de fréquence (pourcentage):

Base Position

-3 -2 -1 +1 +2 +3 +4 +5 +6

A 33 60 8 0 0 49 71 6 15

C 37 13 4 0 0 3 7 5 19

G 18 14 81 100 0 45 12 84 20

T 12 13 7 0 100 3 9 5 46

Cons. M A G G T R A G T

PSI-BLASTPSI-BLAST

Position-Specific Iterated BLAST 1-recherche BLAST classique 2-construction d'une matrice de pondération (profil) avec les séquences

similaires détectées 3-recherche BLAST à partir de ce nouveau profil 4-itération des étapes 2-3 jusqu'à convergence

plus sensible que Smith-Waterman 40 fois plus rapide

Alignement de séquences biologiques Laurent Duret Pôle Bioinformatique Lyonnais...

Documents

Transcript of Alignement de séquences biologiques Laurent Duret Pôle Bioinformatique Lyonnais...