As aminotransferases são enzimas essenciais envolvidas no ...
Bases d’analyse de séquences in...
Transcript of Bases d’analyse de séquences in...
![Page 1: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/1.jpg)
Bases d’analyse de séquences in silico
Comparaison de séquences avec Blast Comparaison multiple / analyse des domaines Arbres phylogénétiques / reconstruction de
l’évolution d’une famille de gènes
1
![Page 2: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/2.jpg)
Comparaison de séquences / Blast
2
![Page 3: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/3.jpg)
Blast (Lipman, Karlin, Altschul, 1990)
Le plus utilisé des programmes d’alignement local • k-mots également, mots approchés permis au dessus d'un certain
score. • Pré-codage de la base de données et de la requête pour recherche
plus rapide des k-mots. Points forts
• Rapidité • Calcul de la valeur statistique des scores.
![Page 4: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/4.jpg)
Comment savoir si un alignement est significatif?
Score = distance entre les deux séquences Nécessite une matrice de substitution
4
![Page 5: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/5.jpg)
Matrices de Substitution • Matrice 4X4 (nt) ou 20x20 (aa) décrivant la distance ou la similitude
entre résidus. • Estiment le coût ou le taux de remplacement d'1 résidu par un autre
(distance). • Le choix d'une matrice affecte fortement le résultat de l'analyse.
Chaque matrice de score représente implicitement une théorie évolutive donnée
Matrices DNA
0
A C G T A 1 0 0 0 C 0 1 0 0 G 0 1 0 T 0 0 0 1
Matrice identité
0
A C G T A 3 0 1 0 C 0 3 0 1 G 1 3 0 T 0 1 0 3
Matrice transition/transversion
![Page 6: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/6.jpg)
A B C D E F G H I K L M N P Q R S T V W Y Z 0.4 0.0 -0.4 0.0 0.0 -0.8 0.2 -0.2 -0.2 -0.2 -0.4 -0.2 0.0 0.2 0.0 -0.4 0.2 0.2 0.0 -1.2 -0.6 0.0 A 0.5 -0.9 0.6 0.4 -1.0 0.1 0.3 -0.4 0.1 -0.7 -0.5 0.4 -0.2 0.3 -0.1 0.1 0.0 -0.4 -1.1 -0.6 0.4 B 2.4 -1.0 -1.0 -0.8 -0.6 -0.6 -0.4 -1.0 -1.2 -1.0 -0.8 -0.6 -1.0 -0.8 0.0 -0.4 -0.4 -1.6 0.0 -1.0 C 0.8 0.6 -1.2 0.2 0.2 -0.4 0.0 -0.8 -0.6 0.4 -0.2 0.4 -0.2 0.0 0.0 -0.4 -1.4 -0.8 0.5 D 0.8 -1.0 0.0 0.2 -0.4 0.0 -0.6 -0.4 0.2 -0.2 0.4 -0.2 0.0 0.0 -0.4 -1.4 -0.8 0.6 E 1.8 -1.0 -0.4 0.2 -1.0 0.4 0.0 -0.8 -1.0 -1.0 -0.8 -0.6 -0.6 -0.2 0.0 1.4 -1.0 F 1.0 -0.4 -0.6 -0.4 -0.8 -0.6 0.0 -0.2 -0.2 -0.6 0.2 0.0 -0.2 -1.4 -1.0 -0.1 G 1.2 -0.4 0.0 -0.4 -0.4 0.4 0.0 0.6 0.4 -0.2 -0.2 -0.4 -0.6 0.0 -0.4 H 1.0 -0.4 0.4 0.4 -0.4 -0.4 -0.4 -0.4 -0.2 0.0 0.8 -1.0 -0.2 -0.4 I 1.0 -0.6 0.0 0.2 -0.2 0.2 0.6 0.0 0.0 -0.4 -0.6 -0.8 0.1 K 1.2 0.8 -0.6 -0.6 -0.4 -0.6 -0.6 -0.4 0.4 -0.4 -0.2 -0.5 L 1.2 -0.4 -0.4 -0.2 0.0 -0.4 -0.2 0.4 -0.8 -0.4 -0.3 M 0.4 -0.2 0.2 0.0 0.2 0.0 -0.4 -0.8 -0.4 0.2 N 1.2 0.0 0.0 0.2 0.0 -0.2 -1.2 -1.0 -0.1 P 0.8 0.2 -0.2 -0.2 -0.4 -1.0 -0.8 0.6 Q 1.2 0.0 -0.2 -0.4 0.4 -0.8 0.6 R 0.4 0.2 -0.2 -0.4 -0.6 -0.1 S 0.6 0.0 -1.0 -0.6 -0.1 T 0.8 -1.2 -0.4 -0.4 V 3.4 0.0 -1.2 W 2.0 -0.8 Y 0.6 Z
Matrice de Dayoff (1979)
University of Nijmegen
![Page 7: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/7.jpg)
Statistiques de Blast Expectation value (E-value)
Nombre de fois qu’un tel score est attendu par hasard dans une base de même taille
Blast recherche les plus grands segments pouvant s'aligner sans que le score puisse être amélioré par extension ou coupure. Ces segments s'appellent des HSP (High Scoring Segment Pairs). Les scores des HSP ne suivent pas une distribution normale, mais une distribution des valeurs extrêmes.
![Page 8: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/8.jpg)
![Page 9: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/9.jpg)
Sortie de Blast
![Page 10: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/10.jpg)
Sortie de Blast
A connaître: Score Identities Expect Query Subject
![Page 11: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/11.jpg)
Vaut-il mieux comparer les protéines ou l'ADN pour rechercher des homologues d’une séquence?
La meilleure façon de détecter des similitudes entre séquences est
généralement la comparaison au niveau protéique. 1. Il existe 20 aa contre 4 bases. La probabilité de trouver une "lettre" donnée par
hasard est donc plus importante pour les bases. 2. Plusieurs codons produisent le même aa. 134 / 549 substitutions de bases sont
synonymes. Les séquences protéiques sont plus informatives. 3. La raison principale est en fait l'existence d'outils de comparaison plus puissants
pour les aa: utilisation des propriétés physicochimiques ou des substitutions observées dans l'évolution. Même lorsque les aa sont différents, on est capable de retrouver des similitudes. On en est tout à fait incapable au niveau des bases.
Il existe en fait des cas où la séquence d'ADN est plus conservée que la séquence protéique, ce qui enlève du poids à l'argument 1
Les comparaisons avec les séquences protéiques ne permettent de détecter que les régions codantes. Evidemment, on utilisera toujours la séquence ADN/ARN pour analyser ce qui n'est pas traduit!
![Page 12: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/12.jpg)
L’analyse des domaines et de l’alignement multiple
12
![Page 13: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/13.jpg)
Alignement multiple
Pourquoi réaliser un alignement multiple? L'alignement multiple révèle des fonctions que l'on ne
pouvait pas visualiser en comparant 2 séquences Identifier les positions et les acides aminés importants. Visualiser les domaines Distinguer paralogues et orthologues Etablir la phylogénie des séquences, et même parfois des organismes Comme une aide à la modelisation: Les algorithmes de prediction de
structures secondaires exploitent beaucoup mieux les alignements multiples. Connaitre les aminoacides permis à telle ou telle position facilite l'inférence 3D.
![Page 14: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/14.jpg)
Exemple d’analyse d’alignement multiple: les Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001
catalases
thiJ protease domain
Glutamine amidotransferase
Uncharacterized protein domain
Triade catalytique
1, Escherichia coli HPII catalase; 2, D. radiodurans HPII catalase; 3, Danio rerioES1; 4, Homo sapiensKNP-I a; 5, Rattus norvegicusSP22; 6, S. coelicolorAraC; 7, D. radioduransprotease I; 8, P. furiosusPfpI protease I; 9, S. coelicolor CobB; 10, Bacilis subtilisFGAM synthase I; 11, Mycobacterium leprae amidotransferase hisH; 12, A. fulgidus imidazole glycerol-phosphate synthase subunit H; 13, Saccharomyces cerevisiaeCTP synthetase; 14, Acinetobacter sp. aniline dioxygenase; 15, Arabidopsis thaliana glutamine amidotransferase; 16, A. thaliana g-glutamyl hydrolase precursor; 17, E. coli carbamoyl phosphate synthetase; 18, E. coliGMP synthase, P. aureofaciens AntS, S. sulfataricus AntS.
Asp/asn/gln cap of Rossmann crossover
helix B
![Page 15: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/15.jpg)
Mobilité des domaines entre protéines différentes Exemple des Glutamine Aminotransferases (GAT):
… de l’importance de séparer les domaines pour l’analyse
![Page 16: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/16.jpg)
Banques de domaines Prosite
PFAM
16
HMM logo
Expression régulière
![Page 17: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/17.jpg)
Informations précieuses présentes dans les banques de domaines
17
Exemple d’annotation de domaine dans PFAM
![Page 18: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/18.jpg)
Interpro: la banque de domaines intégrée de l’EBI
18
![Page 19: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/19.jpg)
Interpro: la banque de domaines intégrée de l’EBI
19
Chaque rectangle coloré: un domaine identifié par une des banques (par exemple: banque SCOP)
![Page 20: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/20.jpg)
20
Fondements de l’annotation par homologie
![Page 21: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/21.jpg)
Comment les gènes apparaissent?
Duplications Duplication du génome entier ou polyploïdisation (plusieurs cas chez les
eucaryotes, par exemple chez les téleostéens, principale classe de poissons)
Duplication d’un gène ou d’un groupe de gènes (fréquent) Duplication d’un chromosome ou d’une partie (rare car délétère) La duplication est suivie le plus fréquemment de la perte de gènes: 90%
des gènes dupliqués à l’origine des vertébrés auraient été perdus depuis.
Transferts horizontaux Très important entre génomes procaryotes Survient parfois de procaryote à eucaryote
21
![Page 22: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/22.jpg)
22
Vertébré marin
Tem
ps (M
a)
spéciation
Reptile ancestral
Mammifère ancestral
lézard singe
Evolution d’un gène
800
600
400
Tetrapode terrestre
![Page 23: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/23.jpg)
23
Apparition de nouveaux gènes par duplication
tem
ps
duplication
spéciation
Vertébré marin
Tetrapode terrestre
Reptile ancestral
Mammifère ancestral
lézard singe
![Page 24: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/24.jpg)
24
Paralogues et orthologues (Fitsh, 1970) Homologues: gènes provenant d’un ancêtre commun Paralogues: gènes homologues issus d'un phénomène de duplication Orthologues: gènes homologues issus de la spéciation Transfert horizontal: par endosymbiontes, etc. Fitsch a aussi introduit
"xénologue" pour évoquer ce cas.
Orthologues
lézard singe
Paralogues
![Page 25: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/25.jpg)
25
Fonction et homologie
Homologie n’implique pas même fonction: par exemple l’aile de l’oiseau et le bras humain n’ont pas la même fonction
Des orthologues rapprochés (p. ex. homme/souris) ont le plus souvent la même fonction dans l’organisme.
Des orthologues distants (p. ex. homme/mouche) ont plus rarement le même rôle phénotypique, mais peuvent exercer le même rôle dans une voie donnée.
Les paralogues acquièrent rapidement des fonctions différentes
![Page 26: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/26.jpg)
26
Exemple: les gènes de globine humains
Les gènes se trouvent maintenant sur differents chromosomes: le gène de myoglobine est sur le chromosome 22, les gènes de α-globines sont sur le chromosome 16 et les gènes de β-globine sont sur le chromosome 11.
In « Genomes 2 », ©BIOS Scientific Publishers Ltd, 1999
Tous paralogues
![Page 27: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/27.jpg)
27
Arbres avec paralogues et orthologues
Etant donné que la duplication (ayant produit les paralogues) a eu lieu AVANT la spéciation (ayant produit les orthologues), les orthologues devraient être plus proches entre eux que les paralogues. L'arbre devrait donc ressembler à ceci:
ancêtre duplication
homme poulet
spéciation
homme poulet homme poulet
A B
B2 A1 B1 A2 B2 A1 B1 A2
Admettons le schéma évolutif suivant (à gauche) ayant produit deux gènes paralogues présents chez tous les vertébrés.
![Page 28: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/28.jpg)
28
Les gènes de globine chez # espèces
© 2002 by Bruce Alberts, Alexander Johnson, Julian Lewis, Martin Raff, Keith Roberts, and Peter Walter in Molecular Biology of the Cell
Globines epsilon homme et poulet non orthologues. => Deux évènements de duplication
Myoglobines toutes orthologues.
« Outgroup » = groupe extérieur. Indispensable pour placer la racine.
![Page 29: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/29.jpg)
29
Importance de la phylogénie
![Page 30: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/30.jpg)
Exercice
30
s1 singe
s2 singe
s3 cheval s4 poulet
s6 poulet
s5 cheval
![Page 31: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/31.jpg)
D’abord faire l’arbre des espèces
31
cheval
singe
poulet
![Page 32: Bases d’analyse de séquences in silicorssf.i2bc.paris-saclay.fr/gautheret/cours/part1/bases-Bioinfo-2011.pdfles Glutamine Aminotransferases (GAT) Horvath & Grishin, Proteins, 2001](https://reader033.fdocument.pub/reader033/viewer/2022043023/5f3ee740fcd040732853d830/html5/thumbnails/32.jpg)
s1 singe
s2 singe
s3 cheval
s4 poulet
s6 poulet
s5 cheval
Puis placer les évènements
32
cheval
singe
poulet
1
4
1 3
3
1 Apparition du gène ancestral P+C+S
Perte d’une copie chez le singe
2 Duplication chez ancêtre mamm+oiseaux
2
2
2
4 Duplication « récente » chez le singe
3
4