Annotation de protéines - FIL Lille 1varre/enseignement/...Les modi cations post-traductionnelles I...

Annotation de protéines

JS Varré

Université Lille 1

[email protected]

http://www.lifl.fr/~varre

JS Varré (Univ. Lille 1) Annotation de proté[email protected] 1 /

36

Pourquoi faire de l’annotation automatique de protéines ?

Il est difficile de trouver expérimentalement la fonction d’une protéinesans connaissance préalable

I Besoin de nombreuses expériences dans diverses conditionsexpérimentales

Long et coûteuxI Pas garantie de résultats

⇒Besoin de points de départ pour orienter les recherches


36

Que peut-on prédire de façon automatique ?

La fonction de la protéine (pas finement)I C’est un transporteur de sucre, mais duquel ?

Certains domaines fonctionnelsI Cette partie de la protéine se lie à l’ATP (molécule énergétique)

Les modifications post-traductionnellesI C’est une protéine O-glycosylée sur tel acide aminé

Les structures 2D et 3D des protéines

La localisation cellulaire de la protéineI C’est une protéine membranaire


36

Limite des connaissances

En général, plus de 30% des gènes d’un génome sont de fonction inconnue

Exemple d’une bactérie, Bacillus subtilisI 16% des gènes similaires à d’autres gènes de fonction inconnueI 26% des gènes sans similarité

Exemple de la levureI 6400 gènes dont 2.500 (39%) de fonction complètement inconnue.I Il s’agit de l’un des organismes les plus étudiés du point de vue

expérimental (génétique et biologie moléculaire).I Son génome complet est disponible depuis 1996.

Pour le génome humain, 60% des gènes sont complètement inconnus.

⇒ Beaucoup de fonctions cellulaires sont encore à découvrir !


36

Prédiction de la fonction

Comparaison de séquenceI Utilisation de BlastI Pb : si la (les) région(s) trouvée(s) ne couvre(nt) pas toute la protéine,

est-ce qu’il s’agit de la (les) régions importante(s) pour la fonction ?

Prédiction de domainesI Des banques contiennent uniquement les régions importantes pour la

fonction des protéines (domaines/motifs protéiques)I Pb : comment définir ces domaines ?I Pb : comment identifier ces domaines sur une protéine inconnue ?


36

Motifs et domaines protéiques

Motifs protéiquesI Résidus essentiels à une fonction conservée (site actif)I Résidus pas nécessairement consécutifs sur la séquence primaire, mais

proches dans la structure 3DI Ne se replient pas indépendamment

Domaines protéiquesI Fragments de séquence contigus conservés dans une ou plusieurs

famillesI Se replient indépendamment


36

Prosite, une banque de motifs protéiques

Créée en 1988 (http://www.expasy.ch/prosite/)

Motifs protéiques ayant une signification biologique particulière +documentation complète

Deux représentations des motifs

Pseudo-expression régulière (”pattern”)

Matrice de poids (profil)

Construite manuellement

But : aide à l’annotation protéique

Recherche la présence de motifs dans une séquence


36

Construction d’un pattern Prosite


36

Etapes de construction d’un pattern

Construction :I Etude d’un article de revueI Recherche d’autres séquences qui possèdent le motifI Construction d’un alignement multiple (correction à la main)I Recherche de sites pertinents biologiquementI Recherche d’une séquence courte conservée (max. 5 résidus)I Vérification de la qualité du pattern et correction éventuelle

Bon pattern :I Aussi court que possibleI Détecte toutes (ou presque) les séquences qui ont le motifI Ne détecte pas trop de faux positifs


36

Exemple de motif protéique

Basic-leucine zipper (bZIP)

Site trouvé dans des facteursde transcription eucaryotes

Fonction :I Fixation à l’ADN

(reconnaissance d’unpalindrome de 6 nt)

I Dimérisation entrefacteurs

N◦ Acc : PS00036,PDOC00036, PS50217

PFAM : PF00170

InterPro : IPR004827


36

Construction du pattern de bZIP

TOXE_COCCA/19-34 RrklQNrvAQrKyRtRFOS_MESAU/143-157 Rr.eRNkmAAaKcRnRFOS_MOUSE/143-157 Rr.eRNkmAAaKcRnRFOS_MSVFB/143-157 Rr.eRNkmAAaKcRnRYA82_SCHPO/128-141 Ka..RNrqAAqKcRiKYDC3_SCHPO/270-284 Kr.rRNtaASaRfRiKYEN5_YEAST/389-404 RlleRNriAAsKcRqRYHA9_YEAST/149-164 KkkaQNraAQkAfReR

[KR]-x(1,3)-[RKSAQ]-N-x(2)-[SAQ](2)-x-[RKTAENQ]-x-R-x-[RK]


36

Vérification de la qualité du pattern

Trouvé dans 149 séquencesI 131 vrais positifs (avec bZIP et pattern)I 18 faux positifs (sans bZIP, avec pattern)

62 faux négatifs (bZIP, sans pattern) (3 seq tronquées)

Sélectivité : 87,92 %I Vrais positifs / (vrais positifs + faux positifs)I Aptitude de la méthode à éviter les faux positifs

Sensibilité : 68,95 %I Vrais positifs / (vrais positifs + faux négatifs)I Aptitude de la méthode à trouver tous les vrais positifs


36

Construction d’une matrice de poids (profil)

Même point de départ : alignement multiple

Calcul du poids de chaque acide aminé pour chaque positionpertinente

I Fréquence de chaque acide aminé de la colonneI Equivalence entre acides aminés

Recherche d’un profil dans une séquence :I Fréquence de l’acide aminé présent dans la séquence étudiéeI Somme des fréquences trouvée à chaque positionI Profil trouvé si la somme est supérieure à un seuil propre au profil


36

La qualité du profil bZIP

Trouvé dans 180 séquences (tous vrais positifs)

13 faux négatifs (dont 2 séquences tronquées)

Sélectivité : 100 %I Vrais positifs / (vrais positifs + faux positifs)I Aptitude de la méthode à éviter les faux positifs

Sensibilité : 94,24 %I Vrais positifs / (vrais positifs + faux négatifs)I Aptitude de la méthode à trouver tous les vrais positifs


36

PFAM, une autre banque de motifs et domaines

Gérée par le Sanger (http://www.sanger.ac.uk/Software/Pfam/)

Construction et annotation automatiques des entrées

Motifs et domaines représentés par des châınes de Markov cachées(HMM)

I Permettent la modélisation des insertions-délétions

Etapes de constructionI Mise en place à partir de séquences similairesI Extension à des séquences de plus en plus éloignées


36

Construction du HMM de bZIP

RrklQNrvAQrKyRtRRr.eRNkmAAaKcRnRRr.eRNkmAAaKcRnRRr.eRNkmAAaKcRnRKa..RNrqAAqKcRiKKr.rRNtaASaRfRiKRlleRNriAAsKcRqRKkkaQNraAQkAfReR


36

Exemples de banques de domaines

BlocksI Segments multiples alignés sans insertions-délétionsI Régions les plus conservées des protéinesI Calibrage contre la banque SwissProtI Description du domaine : alignement

ProdomI Recherche de blocs par comparaison de toutes les séquences de

SwissProt deux à deuxI Annotation automatiqueI Description du domaine : consensus (acide aminé le plus fréquent)


36

InterPro

Gérée par l’EBI (http://www.ebi.ac.uk/interpro/)

ContenuI Superfamilles, familles, domaines, motifs, sites fonctionnels,

modifications post-traductionnelles, structures 3D

Regroupe plusieurs banques existantesI Prosite, PFAM, Blocks, Prodom, Smart, Prints, TIGRFams,

Superfamilly, SCOP, CATH, MSD

Une entréeI Description biologique détailléeI Représentation de l’objet par les différentes banques


36

Prédiction de la localisation cellulaire

Prédiction de domaines transmembranairesI Programmes basés sur l’apprentissage à partir de protéines dont les

domaines transmembranaires sont connusI Critère principal : hydrophobicité des acides aminés

Prédiction de peptide signalI Peptide signal : suite d’acides aminés située au début d’une protéine et

indiquant à la machinerie cellulaire vers quel compartiment adresser laprotéine

I Aussi basé sur l’apprentissageI Les jeux d’apprentissage sont spécifiques à un compartiment cellulaire


36

Part I

Etude des structures 2D et 3D


36

Structures 3D de protéines

1958 : détermination de la première structure 3D de protéine parKendrew et Perutz

I Découverte de la complexité de la structure 3D d’une protéine

Hypothèses de l’époque :I Deux protéines avec des séquences proches se replient de façon

semblableI Deux protéines ayant des structures 3D proches ont des séquences

proches

La structure 3D des protéines est déterminante pour leur fonction


36

wwPDB : la banque de structures 3D

worldwilde Protein Data Bank

Seule banque de structures 3D de protéines, acides aminés et grossesmolécules biologiques

1971 : le RSCB (Research Collaboratory for StructuralBioinformatics) créé la banque PDB

2003 : regroupement des 3 banques de structures 3D en une seuleI RSCB (Research Collaboratory for Structural Bioinformatics)I MSD (Macromolecular Structure Database)I PDBj (Protein Data Bank Japan)


36

PDB, nombre d’entrées


36

Structure d’une partie de AP1 human


36

Classification structurale des protéines

Classification des protéines basée sur leurs structures 2D, 3D et leurfonction

I Construction manuelle aidée d’outils de comparaison de structures etde séquences

2 banques :I SCOPI CATH


36

SCOP, hiérarchie principaleStructural Classification of Proteins

Fold (similarités structurales majeures)I Mêmes éléments 2D, dans le même ordre et avec la même topologie

Superfamilly (possibilité d’un ancêtre commun)I Faible conservation de séquenceI Mais caractéristiques structurelles et fonctionnelles liées

Familly (lien dans l’évolution clairement démontré)I Souvent > 30% identité


36

SCOP, les classes (haut de la hiérarchie)

Protéines tout α

Protéines tout β

Protéines α/β (éléments α et β mélangés)

Protéines α+β (éléments α et β séparés)

Protéines multi-domaine

Peptides et protéines de membrane et de surface

Petites protéines

Protéines ”coiled-coil”

Peptides

Protéines artificielles


36

Hiérarchie de AP1 human dans SCOP

1 Root: scop

2 Class: Coiled coil proteins [57942] Not a true class

3 Fold: Parallel coiled-coil [57943] this is not a true fold; includesoligomers of shorter identical helices

4 Superfamily: Leucine zipper domain [57959]

5 Family: Leucine zipper domain [57960]

6 Protein: C-jun [57975]

7 Species: Human (Homo sapiens) [57976]


36

CATH, hiérarchie principaleClass(C), Architecture(A), Topology(T) and Homologous superfamily (H).

Class

Architecture

Topology

Homologous Superfamily

Sequence Family (S35)

Non-identical (S95)

Identical (S100)


36

Hiérarchie de AP1 human dans CATH

1.20.5.170.8.1.1

Class : Mainly Alpha

Architecture : Up-down Bundle

Topology : Single alpha-helices involved in coiled-coils or otherhelix-helix interfaces

Homologous Superfamily : TRANSCRIPTION/DNA

Sequence Family (S35) : TRANSCRIPTION/DNA

Non-identical (S95) : TRANSCRIPTION/DNA

Identical (S100) : TRANSCRIPTION/DNA


36

Prédiction de la structure des protéines

Nbre protéines dans les banques (UniProt : 2.299.834) >> Nbrestructures 3D expérimentales (PDB : 33.367 )

I Besoin de logiciels de prédictionI Efforts pour déterminer expérimentalement plus de structures 3D

Difficultés de prédiction :I Pas de règle simple d’interactions entre acides aminésI Des homologues distants peuvent avoir des structures prochesI Grande variété de structures


36

Prédiction de structure 2D

Localisation des éléments de base de structure 2DI Hélices α, feuillets β, boucles

Reconnaissance de motifsI Basée sur des règles de construction des éléments de base et

l’enchâınement de ces éléments dans les protéines

Méthodes statistiquesI Apprentissage à partir d’alignements multiples de séquences impliquées

dans une hélice ou un feuillet (protéines de structure 3D connue)

Résultats : en moyenne 70% des aa bien prédits


36

Exemple de prédiction 2D (site NPSA)

KAERKRMRNRIAASKSRKRKLERIARLEEKVKTLReel HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHDSC hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhMLRC hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhPHD hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhConsensus hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhh

KAQNSELASTANMLREQVAQLKQKVMNHHHHHHHHHHHHHHHHHHHHHTThhcchhhhhhhhhhhhhhhhhhhhhhhhhhchhhhhhhhhhhhhhhhhhhhhhhhh AP1_human (254..315)hhcchhhhhhhhhhhhhhhhhhhhhhhhhhcchhhhhhhhhhhhhhhhhhhhhhhh


36

Exemple de prédiction 2D (PSIPRED)


36

Prédiction de structure 3D

Modélisation 3D à partir d’un homologueI Recherche des séquences proches dans PDBI Repliement de la seq inconnue à l’aide de la structure connue

Enfilage (threading)I Banques représentatives des topologies de baseI Repliement de la seq dans chaque structure et sélection de la structure

la plus probable

Qualité de la prédictionI Très variable selon la séquence étudiéeI Maximum entre 60 et 70% de bonne prédiction


36

Format des fichiers de structure 3D

Ce sont des fichiers textes

Format PDB (Brookhaven) :I En-tête avec des informations générales sur les molécules modélisées

(éventuellement leur structure 2D)I Coordonnées des atomes qui composent la structureI ATOM = atome de la protéineI HETATM = HETeroAToM = atome des cofacteurs, substrats, ions, ...

liés par une liaison covalente à la protéine)

mmCIF (macromolecular Crystallographic Information Format)


36

Etude des structures 2D et 3D

Annotation de protéines - FIL Lille 1varre/enseignement/...Les modi cations post-traductionnelles I...

Documents

Transcript of Annotation de protéines - FIL Lille 1varre/enseignement/...Les modi cations post-traductionnelles I...