Annotation de protéines - FIL Lille 1varre/enseignement/...Les modi cations post-traductionnelles I...
Transcript of Annotation de protéines - FIL Lille 1varre/enseignement/...Les modi cations post-traductionnelles I...
-
Annotation de protéines
JS Varré
Université Lille 1
http://www.lifl.fr/~varre
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 1 /
36
-
Pourquoi faire de l’annotation automatique de protéines ?
Il est difficile de trouver expérimentalement la fonction d’une protéinesans connaissance préalable
I Besoin de nombreuses expériences dans diverses conditionsexpérimentales
Long et coûteuxI Pas garantie de résultats
⇒Besoin de points de départ pour orienter les recherches
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 2 /
36
-
Que peut-on prédire de façon automatique ?
La fonction de la protéine (pas finement)I C’est un transporteur de sucre, mais duquel ?
Certains domaines fonctionnelsI Cette partie de la protéine se lie à l’ATP (molécule énergétique)
Les modifications post-traductionnellesI C’est une protéine O-glycosylée sur tel acide aminé
Les structures 2D et 3D des protéines
La localisation cellulaire de la protéineI C’est une protéine membranaire
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 3 /
36
-
Limite des connaissances
En général, plus de 30% des gènes d’un génome sont de fonction inconnue
Exemple d’une bactérie, Bacillus subtilisI 16% des gènes similaires à d’autres gènes de fonction inconnueI 26% des gènes sans similarité
Exemple de la levureI 6400 gènes dont 2.500 (39%) de fonction complètement inconnue.I Il s’agit de l’un des organismes les plus étudiés du point de vue
expérimental (génétique et biologie moléculaire).I Son génome complet est disponible depuis 1996.
Pour le génome humain, 60% des gènes sont complètement inconnus.
⇒ Beaucoup de fonctions cellulaires sont encore à découvrir !
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 4 /
36
-
Prédiction de la fonction
Comparaison de séquenceI Utilisation de BlastI Pb : si la (les) région(s) trouvée(s) ne couvre(nt) pas toute la protéine,
est-ce qu’il s’agit de la (les) régions importante(s) pour la fonction ?
Prédiction de domainesI Des banques contiennent uniquement les régions importantes pour la
fonction des protéines (domaines/motifs protéiques)I Pb : comment définir ces domaines ?I Pb : comment identifier ces domaines sur une protéine inconnue ?
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 5 /
36
-
Motifs et domaines protéiques
Motifs protéiquesI Résidus essentiels à une fonction conservée (site actif)I Résidus pas nécessairement consécutifs sur la séquence primaire, mais
proches dans la structure 3DI Ne se replient pas indépendamment
Domaines protéiquesI Fragments de séquence contigus conservés dans une ou plusieurs
famillesI Se replient indépendamment
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 6 /
36
-
Prosite, une banque de motifs protéiques
Créée en 1988 (http://www.expasy.ch/prosite/)
Motifs protéiques ayant une signification biologique particulière +documentation complète
Deux représentations des motifs
Pseudo-expression régulière (”pattern”)
Matrice de poids (profil)
Construite manuellement
But : aide à l’annotation protéique
Recherche la présence de motifs dans une séquence
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 7 /
36
-
Construction d’un pattern Prosite
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 8 /
36
-
Etapes de construction d’un pattern
Construction :I Etude d’un article de revueI Recherche d’autres séquences qui possèdent le motifI Construction d’un alignement multiple (correction à la main)I Recherche de sites pertinents biologiquementI Recherche d’une séquence courte conservée (max. 5 résidus)I Vérification de la qualité du pattern et correction éventuelle
Bon pattern :I Aussi court que possibleI Détecte toutes (ou presque) les séquences qui ont le motifI Ne détecte pas trop de faux positifs
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 9 /
36
-
Exemple de motif protéique
Basic-leucine zipper (bZIP)
Site trouvé dans des facteursde transcription eucaryotes
Fonction :I Fixation à l’ADN
(reconnaissance d’unpalindrome de 6 nt)
I Dimérisation entrefacteurs
N◦ Acc : PS00036,PDOC00036, PS50217
PFAM : PF00170
InterPro : IPR004827
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 10 /
36
-
Construction du pattern de bZIP
TOXE_COCCA/19-34 RrklQNrvAQrKyRtRFOS_MESAU/143-157 Rr.eRNkmAAaKcRnRFOS_MOUSE/143-157 Rr.eRNkmAAaKcRnRFOS_MSVFB/143-157 Rr.eRNkmAAaKcRnRYA82_SCHPO/128-141 Ka..RNrqAAqKcRiKYDC3_SCHPO/270-284 Kr.rRNtaASaRfRiKYEN5_YEAST/389-404 RlleRNriAAsKcRqRYHA9_YEAST/149-164 KkkaQNraAQkAfReR
[KR]-x(1,3)-[RKSAQ]-N-x(2)-[SAQ](2)-x-[RKTAENQ]-x-R-x-[RK]
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 11 /
36
-
Vérification de la qualité du pattern
Trouvé dans 149 séquencesI 131 vrais positifs (avec bZIP et pattern)I 18 faux positifs (sans bZIP, avec pattern)
62 faux négatifs (bZIP, sans pattern) (3 seq tronquées)
Sélectivité : 87,92 %I Vrais positifs / (vrais positifs + faux positifs)I Aptitude de la méthode à éviter les faux positifs
Sensibilité : 68,95 %I Vrais positifs / (vrais positifs + faux négatifs)I Aptitude de la méthode à trouver tous les vrais positifs
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 12 /
36
-
Construction d’une matrice de poids (profil)
Même point de départ : alignement multiple
Calcul du poids de chaque acide aminé pour chaque positionpertinente
I Fréquence de chaque acide aminé de la colonneI Equivalence entre acides aminés
Recherche d’un profil dans une séquence :I Fréquence de l’acide aminé présent dans la séquence étudiéeI Somme des fréquences trouvée à chaque positionI Profil trouvé si la somme est supérieure à un seuil propre au profil
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 13 /
36
-
La qualité du profil bZIP
Trouvé dans 180 séquences (tous vrais positifs)
13 faux négatifs (dont 2 séquences tronquées)
Sélectivité : 100 %I Vrais positifs / (vrais positifs + faux positifs)I Aptitude de la méthode à éviter les faux positifs
Sensibilité : 94,24 %I Vrais positifs / (vrais positifs + faux négatifs)I Aptitude de la méthode à trouver tous les vrais positifs
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 14 /
36
-
PFAM, une autre banque de motifs et domaines
Gérée par le Sanger (http://www.sanger.ac.uk/Software/Pfam/)
Construction et annotation automatiques des entrées
Motifs et domaines représentés par des châınes de Markov cachées(HMM)
I Permettent la modélisation des insertions-délétions
Etapes de constructionI Mise en place à partir de séquences similairesI Extension à des séquences de plus en plus éloignées
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 15 /
36
-
Construction du HMM de bZIP
RrklQNrvAQrKyRtRRr.eRNkmAAaKcRnRRr.eRNkmAAaKcRnRRr.eRNkmAAaKcRnRKa..RNrqAAqKcRiKKr.rRNtaASaRfRiKRlleRNriAAsKcRqRKkkaQNraAQkAfReR
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 16 /
36
-
Exemples de banques de domaines
BlocksI Segments multiples alignés sans insertions-délétionsI Régions les plus conservées des protéinesI Calibrage contre la banque SwissProtI Description du domaine : alignement
ProdomI Recherche de blocs par comparaison de toutes les séquences de
SwissProt deux à deuxI Annotation automatiqueI Description du domaine : consensus (acide aminé le plus fréquent)
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 17 /
36
-
InterPro
Gérée par l’EBI (http://www.ebi.ac.uk/interpro/)
ContenuI Superfamilles, familles, domaines, motifs, sites fonctionnels,
modifications post-traductionnelles, structures 3D
Regroupe plusieurs banques existantesI Prosite, PFAM, Blocks, Prodom, Smart, Prints, TIGRFams,
Superfamilly, SCOP, CATH, MSD
Une entréeI Description biologique détailléeI Représentation de l’objet par les différentes banques
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 18 /
36
-
Prédiction de la localisation cellulaire
Prédiction de domaines transmembranairesI Programmes basés sur l’apprentissage à partir de protéines dont les
domaines transmembranaires sont connusI Critère principal : hydrophobicité des acides aminés
Prédiction de peptide signalI Peptide signal : suite d’acides aminés située au début d’une protéine et
indiquant à la machinerie cellulaire vers quel compartiment adresser laprotéine
I Aussi basé sur l’apprentissageI Les jeux d’apprentissage sont spécifiques à un compartiment cellulaire
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 19 /
36
-
Part I
Etude des structures 2D et 3D
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 20 /
36
-
Structures 3D de protéines
1958 : détermination de la première structure 3D de protéine parKendrew et Perutz
I Découverte de la complexité de la structure 3D d’une protéine
Hypothèses de l’époque :I Deux protéines avec des séquences proches se replient de façon
semblableI Deux protéines ayant des structures 3D proches ont des séquences
proches
La structure 3D des protéines est déterminante pour leur fonction
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 21 /
36
-
wwPDB : la banque de structures 3D
worldwilde Protein Data Bank
Seule banque de structures 3D de protéines, acides aminés et grossesmolécules biologiques
1971 : le RSCB (Research Collaboratory for StructuralBioinformatics) créé la banque PDB
2003 : regroupement des 3 banques de structures 3D en une seuleI RSCB (Research Collaboratory for Structural Bioinformatics)I MSD (Macromolecular Structure Database)I PDBj (Protein Data Bank Japan)
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 22 /
36
-
PDB, nombre d’entrées
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 23 /
36
-
Structure d’une partie de AP1 human
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 24 /
36
-
Classification structurale des protéines
Classification des protéines basée sur leurs structures 2D, 3D et leurfonction
I Construction manuelle aidée d’outils de comparaison de structures etde séquences
2 banques :I SCOPI CATH
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 25 /
36
-
SCOP, hiérarchie principaleStructural Classification of Proteins
Fold (similarités structurales majeures)I Mêmes éléments 2D, dans le même ordre et avec la même topologie
Superfamilly (possibilité d’un ancêtre commun)I Faible conservation de séquenceI Mais caractéristiques structurelles et fonctionnelles liées
Familly (lien dans l’évolution clairement démontré)I Souvent > 30% identité
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 26 /
36
-
SCOP, les classes (haut de la hiérarchie)
Protéines tout α
Protéines tout β
Protéines α/β (éléments α et β mélangés)
Protéines α+β (éléments α et β séparés)
Protéines multi-domaine
Peptides et protéines de membrane et de surface
Petites protéines
Protéines ”coiled-coil”
Peptides
Protéines artificielles
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 27 /
36
-
Hiérarchie de AP1 human dans SCOP
1 Root: scop
2 Class: Coiled coil proteins [57942] Not a true class
3 Fold: Parallel coiled-coil [57943] this is not a true fold; includesoligomers of shorter identical helices
4 Superfamily: Leucine zipper domain [57959]
5 Family: Leucine zipper domain [57960]
6 Protein: C-jun [57975]
7 Species: Human (Homo sapiens) [57976]
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 28 /
36
-
CATH, hiérarchie principaleClass(C), Architecture(A), Topology(T) and Homologous superfamily (H).
Class
Architecture
Topology
Homologous Superfamily
Sequence Family (S35)
Non-identical (S95)
Identical (S100)
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 29 /
36
-
Hiérarchie de AP1 human dans CATH
1.20.5.170.8.1.1
Class : Mainly Alpha
Architecture : Up-down Bundle
Topology : Single alpha-helices involved in coiled-coils or otherhelix-helix interfaces
Homologous Superfamily : TRANSCRIPTION/DNA
Sequence Family (S35) : TRANSCRIPTION/DNA
Non-identical (S95) : TRANSCRIPTION/DNA
Identical (S100) : TRANSCRIPTION/DNA
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 30 /
36
-
Prédiction de la structure des protéines
Nbre protéines dans les banques (UniProt : 2.299.834) >> Nbrestructures 3D expérimentales (PDB : 33.367 )
I Besoin de logiciels de prédictionI Efforts pour déterminer expérimentalement plus de structures 3D
Difficultés de prédiction :I Pas de règle simple d’interactions entre acides aminésI Des homologues distants peuvent avoir des structures prochesI Grande variété de structures
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 31 /
36
-
Prédiction de structure 2D
Localisation des éléments de base de structure 2DI Hélices α, feuillets β, boucles
Reconnaissance de motifsI Basée sur des règles de construction des éléments de base et
l’enchâınement de ces éléments dans les protéines
Méthodes statistiquesI Apprentissage à partir d’alignements multiples de séquences impliquées
dans une hélice ou un feuillet (protéines de structure 3D connue)
Résultats : en moyenne 70% des aa bien prédits
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 32 /
36
-
Exemple de prédiction 2D (site NPSA)
KAERKRMRNRIAASKSRKRKLERIARLEEKVKTLReel HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHDSC hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhMLRC hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhPHD hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhConsensus hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhh
KAQNSELASTANMLREQVAQLKQKVMNHHHHHHHHHHHHHHHHHHHHHTThhcchhhhhhhhhhhhhhhhhhhhhhhhhhchhhhhhhhhhhhhhhhhhhhhhhhh AP1_human (254..315)hhcchhhhhhhhhhhhhhhhhhhhhhhhhhcchhhhhhhhhhhhhhhhhhhhhhhh
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 33 /
36
-
Exemple de prédiction 2D (PSIPRED)
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 34 /
36
-
Prédiction de structure 3D
Modélisation 3D à partir d’un homologueI Recherche des séquences proches dans PDBI Repliement de la seq inconnue à l’aide de la structure connue
Enfilage (threading)I Banques représentatives des topologies de baseI Repliement de la seq dans chaque structure et sélection de la structure
la plus probable
Qualité de la prédictionI Très variable selon la séquence étudiéeI Maximum entre 60 et 70% de bonne prédiction
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 35 /
36
-
Format des fichiers de structure 3D
Ce sont des fichiers textes
Format PDB (Brookhaven) :I En-tête avec des informations générales sur les molécules modélisées
(éventuellement leur structure 2D)I Coordonnées des atomes qui composent la structureI ATOM = atome de la protéineI HETATM = HETeroAToM = atome des cofacteurs, substrats, ions, ...
liés par une liaison covalente à la protéine)
mmCIF (macromolecular Crystallographic Information Format)
JS Varré (Univ. Lille 1) Annotation de proté[email protected] 36 /
36
Etude des structures 2D et 3D