BIOINFORMATIQUE La bioinformatique : stocker, analyser et visualiser pour découvrir Lexemple du...
-
Upload
gysbert-honore -
Category
Documents
-
view
107 -
download
1
Transcript of BIOINFORMATIQUE La bioinformatique : stocker, analyser et visualiser pour découvrir Lexemple du...
BIOINFORMATIQUE
La bioinformatique : stocker, analyser et visualiser pour découvrir
L’exemple du séquençage d’un génome
Les banques de donnéesLes banques de séquences nucléiques et protéiques
Les banques d’alignements, de motifs et de sites
La recherche dans les banques de données
Analyser l’information
La comparaison de séquences
l’alignement multiple
la phylogénie
I La bioinformatique : stocker, analyser et visualiser pour découvrir
• Les progrès de la biotechnologie permettent aux chercheurs d’accéder à la séquence de plus en plus de gènes ou même de génomes complets.
• Chaque année, le nombre de nouvelles séquences double.
• Des systèmes efficaces de stockage de l’information doivent être mis en œuvre.
I La bioinformatique : stocker et analyser pour découvrir
I La bioinformatique : stocker et analyser pour découvrir• La production de ces séquences se fait de plus en plus
dans le cadre de séquençages de génomes complets ou de banques d’EST (Expressed Sequence Tag)– L’Homme (Homo sapiens)
– La mouche du vinaigre (Drosophila melanogaster)
– Un ver (Coenorhabditis elegans)
– Une plante (Arabidopsis thaliana)
– La levure (Saccharomyces cerevisiae)
– Une bactérie lactique (Bacillus subtilis)
– …
I La bioinformatique : stocker et analyser pour découvrir• Le séquençage des génomes est une tache complexe et
gigantesque qui réclame la mise au point de logiciels capables d’automatiser la plupart des étapes
– Exemple du séquençage d’un génome complet• I Production d’une banque BAC (Bacterial Artificial Chromosome)
• II Ordonnancement des BAC
• III Séquençage des BAC en « shot gun »
• IV Assemblage des séquences de BAC en chromosome
• V Annotation de la séquence du génome
chromosome
Fragments chromosomiques
BAC
BACBAC
BAC
BAC
BAC
Banque BACInserts : ~100-150 kpb
Construction d’une banque BAC
BAC
BACBAC
BAC
BAC
BAC
Ordonnancement de la banque BAC
1
24
6
5
3
Plusieurs méthodes - séquençage des extrémités - « fingerprinting »
BAC 1
BAC 2
Logiciels (Sanger Centre):-IMAGE : lecture des gels-FCP : assemblage
Technique du « fingerprinting »
Analyse du profil de restriction des BAC
BAC
BACBAC
BAC
BAC
BAC
1
24
6
5
3
Ordonnancement de la banque BAC
Plusieurs méthodes - séquençage des extrémités - « fingerprinting »
1
Amorces PCR aléatoires
Séquençage « shot gun »
Visualisation et édition des chromatogrammes« base calling »
Lecture et nettoyage des séquences : PHRED
lecture des chromatogrammesélimination des bases de mauvaise qualité
élimination des séquences contaminantes (BAC)
assemblage des séquences : PHRAP, CAP3recherche des séquences chevauchantesproduction d’une séquence consensus
séquence consensus (contig)
Les difficultés de l’assemblage
Présence de séquences répétées
Assemblage erroné
CAP3 : règles et contraintes Intervention humaine
annotationsprédiction de gènes : intelligence artificielle (Eugène,…)
prédiction de la fonction des gènes : comparaison de séquences (BLAST)
Annotation structurale
invertase I inconnu
Annotation fonctionnelle
Banques et bases de données
I La bioinformatique : stocker et analyser pour découvrir
La bioinformatique a pour objet de mettre en œuvre les moyens informatiques (bases de données, algorithmes) utiles au stockage et à l’analyse des données biologiques
I La bioinformatique : stocker et analyser pour découvrir
………………gaaa gaaactcgaa aacgagaaaa aaccatggcg aagtctgacg ctctcttgccaatctccgcc agagaagaag atcctctatt atccgacggg tcaagatccg acccaaatgccgaaacccat ggccgtagaa gacccgtgaa aggtctcctc gccgtctcat ttgggcttttctttatcgcc ttctacgtcg ctctcatcgc cacacacgac ggatctagat ccaacgacgttaagatcgaa agcgatggaa cagcgaccaa agcgtcacgt gcccatctcg ccggcgtctcggagaaaagc aatgatcagt tgtggaagct ttccggtgac aggaatacgg tggcgttctcatggaa…………
…………… cgaa tccgaatgca gatggacagt agacattgca gatacccaga ttagacagggtgtaagcgat ggaaatgaac agattgacag tagacaggat aacaagatac cagctcgataCagataccgc tagacataga caccatgcag atgttcatta gataccagat agggacagatGacagataga ggacatagcg ctgcgtacac agatactcgg ataggacata tatagacagaCagatataga ctcagataga cgctcgacat cgctagacag ctctcgccgt gcatagaccaGatgacagat ggcgtgcgtc gtagtactgc atcgtcatcg aatgccggta ttcgatcgaaCgtgca…………
L’une de ses séquences est artificielle. Laquelle ?
I La bioinformatique : stocker et analyser pour découvrir• La composition des génomes
– Le rapport (G+C)/(A+T) ou le pourcentage de GC• Escherichia coli 51 %
• Plasmodium falciparum 18 %
• Thermus thermophilus 68 %
• Vertébrés 40-45% (et présence d’isochores)
– Le pourcentage de GC varie entre 15 et 75 %.
– L’origine de ces variations est encore mal comprise.
I La bioinformatique : stocker et analyser pour découvrir
• La composition des protéines– Relativement constante a travers le vivant.
Alanine (A) 83‰ Cysteine (C) 17‰
Méthionine (M) 24‰ Asparagine (N) 44‰
Proline (P) 51‰ Aspartate (D) 53‰
Glutamate (E) 62‰ Glutamine (Q) 40‰
Phénylalanine (F) 39‰ Arginine (R) 57‰
Glycine (G) 72‰ Sérine (S) 69‰
Histidine (H) 22‰ Thréonine (T) 58‰
Isoleucine (I) 52‰ Valine (V) 66‰
Lysine (K) 57% Tryptophane (W) 13‰
Leucine (L) 90‰ Tyrosine (Y) 32‰
Cette distribution moyenne peut être considérée comme une signature
I La bioinformatique : stocker et analyser pour découvrir
• Etude des fréquences n-uplets– Comparaison de la fréquence d’apparition d’un n-uplet fB1B2…Bn
au produit des fréquences d’apparition des bases individuelles fB1.fB2….fBn
– Si fB1B2…Bn > fB1.fB2….fBn le n-uplet est sur-représenté
– Si fB1B2…Bn < fB1.fB2….fBn le n-uplet est sous-représenté
– Exemple :• Chez E. coli, f CTAG = 3,6 10-4 << fCfTfAfG = 3,9 10-3
– Les palindromes sont en général sous-représentés dans les génomes bactériens, les palindromes sont souvent des sites de restriction.
• Chez les vertébrés, le dinucléotide GC est rare. Il s’agit d’un signal de méthylation de la cytosine. La 5-méthyl-cytosine peut ensuite être transformée en T. Ainsi CG se raréfie au profit de TG.
I La bioinformatique : stocker et analyser pour découvrir• Un n-uplet particulier le codon
– La distribution des codons doit suivre celle des acides aminés qui leurs correspondent dans les protéines ainsi :
fW = fTGG
– Etude de l’usage des codons synonymes
– Il existe donc des codons privilégiés. Ces codons ne sont pas les mêmes d’une espèce à l’autre.
lysine E. Coli H. Sapiens
AAA 60 % 38 %
AAG 40 % 62 %
I La bioinformatique : stocker et analyser pour découvrir
• En étudiant un grand nombre de gènes on peut construire, pour l’organisme auquel ces gènes appartiennent une table d’usage des codons.
• Cette table diffère de celles construites pour d’autre organismes, mais on observe une conservation évolutive : des espèces proches possèdent des tables d’usage des codons proches.
I La bioinformatique : stocker et analyser pour découvrir• Un n-uplet particulier le codon
Homo sapiens [gbpri]: 50031 CDS's (21930294 codons) --------------------------------------------------------------------------------fields: [triplet] [amino acid] [fraction] [frequency: per thousand] ([number]) --------------------------------------------------------------------------------
UUU F 0.46 17.1 (374332) UCU S 0.18 14.7 (323470) UAU Y 0.44 12.1 (264652) UGU C 0.45 10.1 (221863)UUC F 0.54 20.4 (448127) UCC S 0.22 17.5 (384476) UAC Y 0.56 15.5 (339473) UGC C 0.55 12.4 (271056)UUA L 0.07 7.3 (160731) UCA S 0.15 11.9 (260418) UAA * 0.28 0.8 ( 16884) UGA * 0.50 1.4 ( 30111)UUG L 0.13 12.7 (277774) UCG S 0.06 4.5 ( 98166) UAG * 0.22 0.6 ( 12911) UGG W 1.00 13.0 (284246)
CUU L 0.13 12.9 (283480) CCU P 0.28 17.3 (380219) CAU H 0.41 10.6 (231860) CGU R 0.08 4.7 (102673)CUC L 0.20 19.5 (428574) CCC P 0.33 20.0 (439256) CAC H 0.59 15.0 (329569) CGC R 0.19 10.8 (236986)CUA L 0.07 7.0 (153837) CCA P 0.27 16.7 (367297) CAA Q 0.26 11.9 (261063) CGA R 0.11 6.3 (138297)CUG L 0.40 40.1 (880072) CCG P 0.11 7.0 (154028) CAG Q 0.74 34.4 (755209) CGG R 0.21 11.8 (257761)
AUU I 0.36 15.8 (346233) ACU T 0.24 12.9 (283671) AAU N 0.46 16.7 (365457) AGU S 0.15 12.0 (263279)AUC I 0.48 21.3 (466577) ACC T 0.36 19.1 (419213) AAC N 0.54 19.3 (422697) AGC S 0.24 19.4 (424788)AUA I 0.16 7.2 (157385) ACA T 0.28 14.9 (325763) AAA K 0.42 24.0 (526117) AGA R 0.21 11.7 (255681)AUG M 1.00 22.3 (489160) ACG T 0.12 6.2 (135294) AAG K 0.58 32.5 (713826) AGG R 0.20 11.6 (254743)
GUU V 0.18 10.9 (239795) GCU A 0.26 18.6 (408931) GAU D 0.46 22.1 (484271) GGU G 0.16 10.8 (237026)GUC V 0.24 14.6 (320190) GCC A 0.40 28.4 (622538) GAC D 0.54 25.7 (563848) GGC G 0.34 22.6 (495700)GUA V 0.11 7.0 (154102) GCA A 0.23 16.0 (350382) GAA E 0.42 29.0 (634985) GGA G 0.25 16.4 (358824)GUG V 0.47 28.7 (630151) GCG A 0.11 7.6 (165700) GAG E 0.58 40.3 (884368) GGG G 0.25 16.4 (360728)
--------------------------------------------------------------------------------Coding GC 52.58% 1st letter GC 56.14% 2nd letter GC 42.46% 3rd letter GC 59.13%Genetic code 1: Standard
I La bioinformatique : stocker et analyser pour découvrir
H.sapiens UGG W 1.00 13.0A thaliana UGG W 1.00 12.5 T aquaticus UGG W 1.00 11.6
H. sapiensGGU G 0.16 10.8GGC G 0.34 22.6 GGA G 0.25 16.4 GGG G 0.25 16.4
A. thalianaGGU G 0.34 22.4GGC G 0.14 9.1GGA G 0.37 24.2GGG G 0.15 10.2
T. AquaticusGGU G 0.04 3.6GGC G 0.48 41.2GGA G 0.06 5.3GGG G 0.42 36.4
I La bioinformatique : stocker et analyser pour découvrir
• Effet de la composition en base du génome sur l’usage des codons :– Les organismes riches en GC auront une préférence
significative pour les codons possédant un G ou un C comme troisième base.
– C’est l’inverse pour les organismes riches en AT– Pour les autres organismes, le choix de la troisième base reste
fortement biaisé.
I La bioinformatique : stocker et analyser pour découvrir
• L’effet de contexte :– Si deux codons synonymes ont un usage proche, alors le choix
peut être influencé par le contexte, c’est à dire par les nucléotides présents immédiatement en amont ou en aval du codon.
– Exemple : Chez E. coli, pour la lysine, on trouve plus fréquemment AAA lorsque le codon suivant commence par G et AAG est préféré si un C est le nucléotide en aval.
• L’usage des codons et l’expression des gènes.– Chez la levure (Saccharomyces cerevisiae) et E. coli, la
fréquence d’usage des codons est directement proportionnelle à la concentration cellulaire de l’ARNt correspondant.
– Il s’agit d’une adaptation qui permet d’ajuster la quantité d’ARNt aux besoins de la machinerie de biosynthèse protéique.
– Les gènes le plus exprimés sont ceux qui utilisent le plus de codons privilégiés.
– L’utilisation de codons rares permet d’introduire des poses dans la traduction.
I La bioinformatique : stocker et analyser pour découvrir
• Ces résultats statistiques peuvent permettre d’analyser les nouvelles séquences pour rechercher les phases codantes, les limites intron/exon, les erreurs de séquençage.
• Tous ces éléments combinés permettent de prédire la position de gènes.
• C’est l’annotation structurale.– Prediction des zones introniques et exoniques au moyen de méthodes
statistiques.– Recherche des motifs accepteurs et donneurs d’épissage– Combinaison des deux infos précédentes pour prédire précisément les limites
des introns/exons– Assemblage des exons prédits et confrontation avec les banques d’EST de
l’organisme considéré– Si échec, confronter les protéines prédites aux protéines existantes dans les
bases de données (pour d’autres organismes)
– Il existe des logiciels qui combinent toutes ces approches tel GenScan qui a été utilisé lors du séquençage du génome humain
I La bioinformatique : stocker et analyser pour découvrir
II Les banques de données
• L’ensemble des séquences nucléiques ou protéiques connues sont regroupées dans des banques de données– GENBANK au NCBI (National Centre for Biotechnology
Information, USA)– EMBL à l’EBI (European Molecular Biology Laboratory,
European Bioinformatics Institute, UK)– DDBJ au Japon (DNA Data Bank of Japan)
• Certaines banques ne contiennent que des séquences protéiques– UNIPROT (Swissprot) à l’ISB/EBI (Institut Suisse de
bioinformatique)– PIR , Georgetown University, USA (Protein Information
Resource)
II.1 L’organisation de l’information :– Banque de données : l’information est stockée sous la forme
d’une collection de fichiers structurés. Une séquence correspond à un fichier.
– Base de données : l’information est stockée dans les champs d’un SGBD (Système de Gestion de Base de Données). Un langage particulier permet de formuler des requêtes pour interroger la base (SQL, Structured Query Langage)
II Les banques de données
II.2 Les banques de séquences nucléiques– GENBANK, EMBL et DDBJ sont associées et diffusent les
mêmes informations, mais sous des formats légèrement différents.
– Ces banques sont toutes accessibles via Internet à quiconque et sans restriction
– Elles gèrent les plus de 10 millions de séquences connues à ce jour, quel que soit leur organisme d’origine
II Les banques de données
II.2.a GENBANK http://www.ncbi.nlm.nih.gov/– Les séquences sont pour une large part obtenues par soumission
directe des chercheurs ou via les grands programmes de séquençage.
– Pour simplifier les recherches des utilisateurs, Genbank, EMBL et DDBJ s’échangent régulièrement leurs données de sorte que les trois banques disposent en permanence des mêmes séquences
– Par commodité les séquences sont classées en divisions selon leur type (EST, séquençage massif,…) ou leur organisme d’origine. Il existe une vingtaine de ces divisions
II Les banques de données
DIVISIONS Utilisées par quelles banques ?
BCT Bacteries DDBJ, GenBankPRO Procaryotes EMBLFUN Champignons EMBLHUMHumain DDBJ, EMBLPRI Primates DDBJ, EMBL, GenBankROD Rongeurs DDBJ, EMBL, GenBankMAMAutre mammifères DDBJ, EMBL, GenBankVRT Autres vertébrés DDBJ, EMBL, GenBankINV Invertébrés DDBJ, EMBL, GenBankPLN Plantes DDBJ, EMBL, GenBankORG Organelles EMBLVRL Virus DDBJ, EMBL, GenBankPHG Phages DDBJ, EMBL, GenBankRNA ARN de tructure DDBJ, EMBL, GenBankSYN Synthétiques et chimériques DDBJ, EMBL, GenBankUNA Non annotées DDBJ, GenBankUNC Non classifiées EMBL
II Les banques de donnéesII.2.a GENBANK
Divisions fonctionnelles Utilisées par quelles banques ?
EST Expressed sequence tags DDBJ, EMBL, GenBankSTS Sequence tagged sites DDBJ, EMBL, GenBankGSS Genome survey sequences DDBJ, EMBL, GenBankHTG High throughput genomic sequences DDBJ, EMBL, GenBankPAT Patent sequences DDBJ, EMBL, GenBankCON* Virtual contigs of segmented sequences DDBJ, EMBL, GenBank
II Les banques de donnéesII.2.a GENBANK
• Chaque séquence possède une « entrée » qui rassemble toute l’information la concernant. Cette information peut-être visualisée sous forme d’une « fiche »
• Exemple : l’ARNm de l’invertase acide de Brassica oleracea
II Les banques de donnéesII.2.a GENBANK
LOCUS AF274299 2251 bp mRNA PLN 26-NOV-2001
DEFINITION Brassica oleracea clone BoINV2 acid invertase mRNA, complete cds.
ACCESSION AF274299
VERSION AF274299.1 GI:11527242
KEYWORDS .
SOURCE Brassica oleracea.
ORGANISM Brassica oleracea
Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots;
Rosidae; eurosids II; Brassicales; Brassicaceae; Brassica.
REFERENCE 1 (bases 1 to 2251)
AUTHORS Coupe,S.A., Sinclair,B.K., Greer,L. and Hurst,P.L.
TITLE Characterization of acid invertase gene expression during
senescence of broccoli (Brassica oleracea) florets
JOURNAL Unpublished
REFERENCE 2 (bases 1 to 2251)
AUTHORS Coupe,S.A.
TITLE Direct Submission
JOURNAL Submitted (02-JUN-2000) Crop and Food Research, Private Bag 11 600,
Palmerston North, Manawatu 5301, New Zealand
II Les banques de donnéesII.2.a GENBANK
LOCUS AF274299 2251 bp mRNA PLN 26-NOV-2001
DEFINITION Brassica oleracea clone BoINV2 acid invertase mRNA, complete cds.
ACCESSION AF274299
VERSION AF274299.1 GI:11527242
KEYWORDS .
SOURCE Brassica oleracea.
ORGANISM Brassica oleracea
Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots;
Rosidae; eurosids II; Brassicales; Brassicaceae; Brassica.
REFERENCE 1 (bases 1 to 2251)
AUTHORS Coupe,S.A., Sinclair,B.K., Greer,L. and Hurst,P.L.
TITLE Characterization of acid invertase gene expression during
senescence of broccoli (Brassica oleracea) florets
JOURNAL Unpublished
REFERENCE 2 (bases 1 to 2251)
AUTHORS Coupe,S.A.
TITLE Direct Submission
JOURNAL Submitted (02-JUN-2000) Crop and Food Research, Private Bag 11 600,
Palmerston North, Manawatu 5301, New Zealand
Nom de laséquence taille molécule division
II Les banques de donnéesII.2.a GENBANK
LOCUS AF274299 2251 bp mRNA PLN 26-NOV-2001
DEFINITION Brassica oleracea clone BoINV2 acid invertase mRNA, complete cds.
ACCESSION AF274299
VERSION AF274299.1 GI:11527242
KEYWORDS .
SOURCE Brassica oleracea.
ORGANISM Brassica oleracea
Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots;
Rosidae; eurosids II; Brassicales; Brassicaceae; Brassica.
REFERENCE 1 (bases 1 to 2251)
AUTHORS Coupe,S.A., Sinclair,B.K., Greer,L. and Hurst,P.L.
TITLE Characterization of acid invertase gene expression during
senescence of broccoli (Brassica oleracea) florets
JOURNAL Unpublished
REFERENCE 2 (bases 1 to 2251)
AUTHORS Coupe,S.A.
TITLE Direct Submission
JOURNAL Submitted (02-JUN-2000) Crop and Food Research, Private Bag 11 600,
Palmerston North, Manawatu 5301, New Zealand
Description de la séquence : origine, type, fonction, … Champ texte libre
II Les banques de donnéesII.2.a GENBANK
LOCUS AF274299 2251 bp mRNA PLN 26-NOV-2001
DEFINITION Brassica oleracea clone BoINV2 acid invertase mRNA, complete cds.
ACCESSION AF274299
VERSION AF274299.1 GI:11527242
KEYWORDS .
SOURCE Brassica oleracea.
ORGANISM Brassica oleracea
Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots;
Rosidae; eurosids II; Brassicales; Brassicaceae; Brassica.
REFERENCE 1 (bases 1 to 2251)
AUTHORS Coupe,S.A., Sinclair,B.K., Greer,L. and Hurst,P.L.
TITLE Characterization of acid invertase gene expression during
senescence of broccoli (Brassica oleracea) florets
JOURNAL Unpublished
REFERENCE 2 (bases 1 to 2251)
AUTHORS Coupe,S.A.
TITLE Direct Submission
JOURNAL Submitted (02-JUN-2000) Crop and Food Research, Private Bag 11 600,
Palmerston North, Manawatu 5301, New Zealand
Numéro d’accession primaire. Ne change jamais. En cas de fusion ou de scissiond’une entrée, des numéros secondaires peuventapparaître.
II Les banques de donnéesII.2.a GENBANK
LOCUS AF274299 2251 bp mRNA PLN 26-NOV-2001
DEFINITION Brassica oleracea clone BoINV2 acid invertase mRNA, complete cds.
ACCESSION AF274299
VERSION AF274299.1 GI:11527242
KEYWORDS .
SOURCE Brassica oleracea.
ORGANISM Brassica oleracea
Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots;
Rosidae; eurosids II; Brassicales; Brassicaceae; Brassica.
REFERENCE 1 (bases 1 to 2251)
AUTHORS Coupe,S.A., Sinclair,B.K., Greer,L. and Hurst,P.L.
TITLE Characterization of acid invertase gene expression during
senescence of broccoli (Brassica oleracea) florets
JOURNAL Unpublished
REFERENCE 2 (bases 1 to 2251)
AUTHORS Coupe,S.A.
TITLE Direct Submission
JOURNAL Submitted (02-JUN-2000) Crop and Food Research, Private Bag 11 600,
Palmerston North, Manawatu 5301, New Zealand
Numéro de version. Il est incrémenté à chaque modification.Seule la dernière version est accessible directement.Le deuxième numéro GI permet de satisfaire à des contraintestechniques.
II Les banques de donnéesII.2.a GENBANK
LOCUS AF274299 2251 bp mRNA PLN 26-NOV-2001
DEFINITION Brassica oleracea clone BoINV2 acid invertase mRNA, complete cds.
ACCESSION AF274299
VERSION AF274299.1 GI:11527242
KEYWORDS .
SOURCE Brassica oleracea.
ORGANISM Brassica oleracea
Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots;
Rosidae; eurosids II; Brassicales; Brassicaceae; Brassica.
REFERENCE 1 (bases 1 to 2251)
AUTHORS Coupe,S.A., Sinclair,B.K., Greer,L. and Hurst,P.L.
TITLE Characterization of acid invertase gene expression during
senescence of broccoli (Brassica oleracea) florets
JOURNAL Unpublished
REFERENCE 2 (bases 1 to 2251)
AUTHORS Coupe,S.A.
TITLE Direct Submission
JOURNAL Submitted (02-JUN-2000) Crop and Food Research, Private Bag 11 600,
Palmerston North, Manawatu 5301, New Zealand
Mots-clés : un mot ou une courte phrase, Les mots-clés sont séparés par une « , »Les mots-clés sont librement choisis par les auteurs.
II Les banques de donnéesII.2.a GENBANK
LOCUS AF274299 2251 bp mRNA PLN 26-NOV-2001
DEFINITION Brassica oleracea clone BoINV2 acid invertase mRNA, complete cds.
ACCESSION AF274299
VERSION AF274299.1 GI:11527242
KEYWORDS .
SOURCE Brassica oleracea.
ORGANISM Brassica oleracea
Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots;
Rosidae; eurosids II; Brassicales; Brassicaceae; Brassica.
REFERENCE 1 (bases 1 to 2251)
AUTHORS Coupe,S.A., Sinclair,B.K., Greer,L. and Hurst,P.L.
TITLE Characterization of acid invertase gene expression during
senescence of broccoli (Brassica oleracea) florets
JOURNAL Unpublished
REFERENCE 2 (bases 1 to 2251)
AUTHORS Coupe,S.A.
TITLE Direct Submission
JOURNAL Submitted (02-JUN-2000) Crop and Food Research, Private Bag 11 600,
Palmerston North, Manawatu 5301, New Zealand
Organisme et éventuellement type de molécule
II Les banques de donnéesII.2.a GENBANK
LOCUS AF274299 2251 bp mRNA PLN 26-NOV-2001
DEFINITION Brassica oleracea clone BoINV2 acid invertase mRNA, complete cds.
ACCESSION AF274299
VERSION AF274299.1 GI:11527242
KEYWORDS .
SOURCE Brassica oleracea.
ORGANISM Brassica oleracea
Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots;
Rosidae; eurosids II; Brassicales; Brassicaceae; Brassica.
REFERENCE 1 (bases 1 to 2251)
AUTHORS Coupe,S.A., Sinclair,B.K., Greer,L. and Hurst,P.L.
TITLE Characterization of acid invertase gene expression during
senescence of broccoli (Brassica oleracea) florets
JOURNAL Unpublished
REFERENCE 2 (bases 1 to 2251)
AUTHORS Coupe,S.A.
TITLE Direct Submission
JOURNAL Submitted (02-JUN-2000) Crop and Food Research, Private Bag 11 600,
Palmerston North, Manawatu 5301, New Zealand
II Les banques de donnéesII.2.a GENBANK
LOCUS AF274299 2251 bp mRNA PLN 26-NOV-2001
DEFINITION Brassica oleracea clone BoINV2 acid invertase mRNA, complete cds.
ACCESSION AF274299
VERSION AF274299.1 GI:11527242
KEYWORDS .
SOURCE Brassica oleracea.
ORGANISM Brassica oleracea
Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots;
Rosidae; eurosids II; Brassicales; Brassicaceae; Brassica.
REFERENCE 1 (bases 1 to 2251)
AUTHORS Coupe,S.A., Sinclair,B.K., Greer,L. and Hurst,P.L.
TITLE Characterization of acid invertase gene expression during
senescence of broccoli (Brassica oleracea) florets
JOURNAL Unpublished
REFERENCE 2 (bases 1 to 2251)
AUTHORS Coupe,S.A.
TITLE Direct Submission
JOURNAL Submitted (02-JUN-2000) Crop and Food Research, Private Bag 11 600,
Palmerston North, Manawatu 5301, New Zealand
II Les banques de donnéesII.2.a GENBANK
FEATURES Location/Qualifiers
source 1..2251
/organism="Brassica oleracea"
/cultivar="Shogun"
/db_xref="taxon:3712"
/clone="BoINV2"
CDS 35..2023
/EC_number="3.2.1.26"
/function="cleaves sucrose into glucose and fructose at acid pH optima"
/note="sucrose hydrolysing enzyme; beta-fructofuranosidase"
/codon_start=1
/product="acid invertase"
/protein_id="AAG36943.1"
/db_xref="GI:11527243"
/translation="MAKSDALLPISAREEDPLLSDGSRSDPNAETHGRRRPVKGLLAV
SFGLFFIAFYVALIATHDGSRSNDVKIESDGTATKASRAHLAGVSEKSNDQLWKLSGD
RNTVAFSWNNSMLSWQRTAFHFQPEQNWMNDPNGPLFYKGWYHFFYQYNPNAAVWGDI
VWGHAVSKDLIHWVHLPLAMAADQWYDANGVWTGSATFLEDGSIVMLYTGSTDKSVQV
QNLAYPEDLNDPLLLKWVKFPGNPVLVPPPGILPKDFRDPTTAWKTSAGKWRITIGSK
INRTGISLVYDTTDFKTYEKLETLLHKVPNTGMWECVDFYPVSKTLVKGLDTSVNGPD
VKHIVKASMDDTRIDHYAIGTYFDSNGTWTPDDPTIDVGISTSLRYDYGKFYASKTFY
DQNKGRRILWGWIGESDSESADVQKGWSSLQGIPRTVVLDTKTGKNLVQWPVEEVKSL
RLSSKKFDMEVGPGSLVHIDVGSAAQLDIEAEFEIKKESLEKILGDASAAAEAEEFSC
QKSGGSTVRGALGPFGFSVLAHESLSEKTPVYFYVAKGKDSKLITFFCTDSSRSSFAN
DVVKPIYGSSVPVLKGEKLTMRILVDHSIVEAFGQGGRTCITSRVYPTKAIYGAAKLF
LFNNAIDATITASFKVWQMNSAFIQPYSEEAVRALSRT"
FEATURES Location/Qualifiers
source 1..2251
/organism="Brassica oleracea"
/cultivar="Shogun"
/db_xref="taxon:3712"
/clone="BoINV2"
CDS 35..2023
/EC_number="3.2.1.26"
/function="cleaves sucrose into glucose and fructose at acid pH optima"
/note="sucrose hydrolysing enzyme; beta-fructofuranosidase"
/codon_start=1
/product="acid invertase"
/protein_id="AAG36943.1"
/db_xref="GI:11527243"
/translation="MAKSDALLPISAREEDPLLSDGSRSDPNAETHGRRRPVKGLLAV
SFGLFFIAFYVALIATHDGSRSNDVKIESDGTATKASRAHLAGVSEKSNDQLWKLSGD
RNTVAFSWNNSMLSWQRTAFHFQPEQNWMNDPNGPLFYKGWYHFFYQYNPNAAVWGDI
VWGHAVSKDLIHWVHLPLAMAADQWYDANGVWTGSATFLEDGSIVMLYTGSTDKSVQV
QNLAYPEDLNDPLLLKWVKFPGNPVLVPPPGILPKDFRDPTTAWKTSAGKWRITIGSK
INRTGISLVYDTTDFKTYEKLETLLHKVPNTGMWECVDFYPVSKTLVKGLDTSVNGPD
VKHIVKASMDDTRIDHYAIGTYFDSNGTWTPDDPTIDVGISTSLRYDYGKFYASKTFY
DQNKGRRILWGWIGESDSESADVQKGWSSLQGIPRTVVLDTKTGKNLVQWPVEEVKSL
RLSSKKFDMEVGPGSLVHIDVGSAAQLDIEAEFEIKKESLEKILGDASAAAEAEEFSC
QKSGGSTVRGALGPFGFSVLAHESLSEKTPVYFYVAKGKDSKLITFFCTDSSRSSFAN
DVVKPIYGSSVPVLKGEKLTMRILVDHSIVEAFGQGGRTCITSRVYPTKAIYGAAKLF
LFNNAIDATITASFKVWQMNSAFIQPYSEEAVRALSRT"
Table des « features » :Mis en place par GenBank, EMBL et DDBJContient des informations sur les gènes et leurs produits ainsi que sur les régions d’intérêt biologique des séquences.On y trouve aussi des informations sur les différences entre les versions d’une même séquence. Des liens sur d’autres bases ou banques de données peuvent également être présents.Chaque clé répond à une nomenclature.
FEATURES Location/Qualifiers
source 1..2251
/organism="Brassica oleracea"
/cultivar="Shogun"
/db_xref="taxon:3712"
/clone="BoINV2"
CDS 35..2023
/EC_number="3.2.1.26"
/function="cleaves sucrose into glucose and fructose at acid pH optima"
/note="sucrose hydrolysing enzyme; beta-fructofuranosidase"
/codon_start=1
/product="acid invertase"
/protein_id="AAG36943.1"
/db_xref="GI:11527243"
/translation="MAKSDALLPISAREEDPLLSDGSRSDPNAETHGRRRPVKGLLAV
SFGLFFIAFYVALIATHDGSRSNDVKIESDGTATKASRAHLAGVSEKSNDQLWKLSGD
RNTVAFSWNNSMLSWQRTAFHFQPEQNWMNDPNGPLFYKGWYHFFYQYNPNAAVWGDI
VWGHAVSKDLIHWVHLPLAMAADQWYDANGVWTGSATFLEDGSIVMLYTGSTDKSVQV
QNLAYPEDLNDPLLLKWVKFPGNPVLVPPPGILPKDFRDPTTAWKTSAGKWRITIGSK
INRTGISLVYDTTDFKTYEKLETLLHKVPNTGMWECVDFYPVSKTLVKGLDTSVNGPD
VKHIVKASMDDTRIDHYAIGTYFDSNGTWTPDDPTIDVGISTSLRYDYGKFYASKTFY
DQNKGRRILWGWIGESDSESADVQKGWSSLQGIPRTVVLDTKTGKNLVQWPVEEVKSL
RLSSKKFDMEVGPGSLVHIDVGSAAQLDIEAEFEIKKESLEKILGDASAAAEAEEFSC
QKSGGSTVRGALGPFGFSVLAHESLSEKTPVYFYVAKGKDSKLITFFCTDSSRSSFAN
DVVKPIYGSSVPVLKGEKLTMRILVDHSIVEAFGQGGRTCITSRVYPTKAIYGAAKLF
LFNNAIDATITASFKVWQMNSAFIQPYSEEAVRALSRT"
Lien vers la base Taxon du NCBI
Lien vers la base Enzyme
Lien vers la fiche de la protéine dans Genbank
BASE COUNT 632 a 489 c 532 g 598 t
ORIGIN
1 caaaaagaaa gaaactcgaa aacgagaaaa aaccatggcg aagtctgacg ctctcttgcc
61 aatctccgcc agagaagaag atcctctatt atccgacggg tcaagatccg acccaaatgc
121 cgaaacccat ggccgtagaa gacccgtgaa aggtctcctc gccgtctcat ttgggctttt
181 ctttatcgcc ttctacgtcg ctctcatcgc cacacacgac ggatctagat ccaacgacgt
241 taagatcgaa agcgatggaa cagcgaccaa agcgtcacgt gcccatctcg ccggcgtctc
301 ggagaaaagc aatgatcagt tgtggaagct ttccggtgac aggaatacgg tggcgttctc
361 atggaacaac agtatgttgt cgtggcaacg aacggcgttt catttccaac ctgaacagaa
421 ctggatgaac gatcctaatg gtccattgtt ctacaaagga tggtaccatt tcttctacca
481 gtacaaccca aacgcagcag tatggggtga cattgtttgg ggtcatgccg tgtctaagga
/../
1861 aagggtatat ccaacaaagg ccatctatgg agcagcgaag cttttcttgt tcaacaatgc
1921 cattgatgcg actattacgg catcgtttaa ggtgtggcag atgaacagtg cttttattca
1981 gccttactct gaggaggctg ttcgtgctct ctcccgcaca tgattataca cccatctcca
2041 gcaaattctt tttttttttt ttttgtagat ttacttatta aaacttataa atatcgttct
2101 gttattcttc caatttagct cgttcaatta ttctattggg gttcaatttg attcatcata
2161 tgtaagaaaa atgggttact tgagaaattt tttttctcat tatctttaat aaaattttgg
2221 tgaaaaaaaa aaaaaaaaaa aaaaaaaaaa a
//
II Les banques de donnéesII.2.a GENBANK
0,00E+00
1,00E+06
2,00E+06
3,00E+06
4,00E+06
5,00E+06
6,00E+06
Homo s
apie
ns
Mus
musc
ulus
Droso
phila m
elan
ogaste
r
Rattu
s norv
egic
us
Oryza
sat
iva
Arabid
opsis
thal
iana
Caenorh
abditi
s el
egan
s
Tetra
odon nig
rovi
ridis
Bos ta
urus
Glyci
ne m
ax
Danio
rerio
Lycoper
sico
n esc
ulentu
m
Med
icag
o trunca
tula
Entam
oeba
histo
lytic
a
Xenopus
laev
is
Chlam
ydom
onas re
inhar
dtii
Zea m
ays
Strongyl
ocentro
tus
purpura
tus
Sus sc
rofa
Trypan
osom
a bru
cei
0,00E+00
1,00E+09
2,00E+09
3,00E+09
4,00E+09
5,00E+09
6,00E+09
7,00E+09
8,00E+09
9,00E+09
Entrées
BasesContenu de Genbank
II Les banques de donnéesII.2.a GENBANK
• EMBL et DDBJ stockent les même séquences sous un format très similaire
• Devant la complexité croissante des fiches et notamment avec l’arrivée des tables de « features », de nouveaux outils ont été développés pour visualiser ces fiches.– ARTEMIS est l’un d’entre-eux
• Développé en langage JAVA (multiplateforme)
• Logiciel libre (gratuit)
• Visualise toute fiche GenBank/EMBL
• Permet d’éditer ces fiches et de créer de nouvelles annotations
II Les banques de donnéesII.2.b Visualisation des séquences nucléiques
II.3 Les banques de séquences protéiques– PIR / NRL-3D
• PIR – littérature, soumissions, traductions de Genbank, EMBL et DDBJ
– annotations automatiques, classification en familles (50% d’identité), superfamilles, domaines
– annotations bibliographiques et vérifications (PIR1 et PIR2). 170 000 entrées classifiées mais d’annotation pauvre
• NRL-3D – séquences et annotations issues de la PDB. 23 000 entrées
II Les banques de données
– II.3.a SWISS-PROT / TREMBL• SWISS-PROT
– Origine des séquences : littérature, soumissions – Annotations manuelles (littérature, experts) 100 000 entrées (10/01)
• TREMBL– Traduction des CDS de EMBL par le programme trembl
ORF (Open Reading Frame) : Phase ouverte de lecture; séquence nucléique comprise entre deux codons stop
CDS (coding sequence) : sequence nucléique codant pour une protéine. Elle est contenue dans une phase ouverte de lecture et débute par un codon start.
– Annotations automatiques SP-TREMBL 300 192 entrées
– Après expertise les fiches TREMBL validée sont transférées dans SWISS-PROT
II Les banques de données II.3 Les banques de séquences protéiques
ID HXK1_ARATH STANDARD; PRT; 496 AA.
AC Q42525; Q42535;
DT 01-NOV-1997 (Rel. 35, Created)
DT 16-OCT-2001 (Rel. 40, Last sequence update)
DT 16-OCT-2001 (Rel. 40, Last annotation update)
DE Hexokinase 1 (EC 2.7.1.1).
GN HXK1 OR AT4G29130 OR F19B15.160.
OS Arabidopsis thaliana (Mouse-ear cress).
OC Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
OC Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots; Rosidae;
OC eurosids II; Brassicales; Brassicaceae; Arabidopsis.
OX NCBI_TaxID=3702;
ID line : toujours la première ligne, elle contient le nom de la séquence au format X_Y
X = nom de la protéine ( mnémonique de 4 lettres)
Y = code espèce (5 lettres genre (3) espèce (2))Classe :
Standard/preliminary taille
II.3.a SWISS-PROT / TREMBL
ID HXK1_ARATH STANDARD; PRT; 496 AA.
AC Q42525; Q42535;
DT 01-NOV-1997 (Rel. 35, Created)
DT 16-OCT-2001 (Rel. 40, Last sequence update)
DT 16-OCT-2001 (Rel. 40, Last annotation update)
DE Hexokinase 1 (EC 2.7.1.1).
GN HXK1 OR AT4G29130 OR F19B15.160.
OS Arabidopsis thaliana (Mouse-ear cress).
OC Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
OC Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots; Rosidae;
OC eurosids II; Brassicales; Brassicaceae; Arabidopsis.
OX NCBI_TaxID=3702;
Numéros d’accession primaire et secondaire(s)
II.3.a SWISS-PROT / TREMBL
ID HXK1_ARATH STANDARD; PRT; 496 AA.
AC Q42525; Q42535;
DT 01-NOV-1997 (Rel. 35, Created)
DT 16-OCT-2001 (Rel. 40, Last sequence update)
DT 16-OCT-2001 (Rel. 40, Last annotation update)
DE Hexokinase 1 (EC 2.7.1.1).
GN HXK1 OR AT4G29130 OR F19B15.160.
OS Arabidopsis thaliana (Mouse-ear cress).
OC Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
OC Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots; Rosidae;
OC eurosids II; Brassicales; Brassicaceae; Arabidopsis.
OX NCBI_TaxID=3702;
Description : champ texte
II.3.a SWISS-PROT / TREMBL
DE Corticotropin-lipotropin precursor (Pro-opiomelanocortin) (POMC)
DE [Contains: NPP; Melanotropin gamma (Gamma-MSH); Corticotropin
DE (Adrenocorticotropic hormone) (ACTH); Melanotropin alpha (Alpha-MSH);
DE Corticotropin-like intermediary peptide (CLIP); Lipotropin beta (Beta-
DE LPH); Lipotropin gamma (Gamma-LPH); Melanotropin beta (Beta-MSH);
DE Beta-endorphin; Met-enkephalin].
synonyme
II.3.a SWISS-PROT / TREMBL
DE Corticotropin-lipotropin precursor (Pro-opiomelanocortin) (POMC)
DE [Contains: NPP; Melanotropin gamma (Gamma-MSH); Corticotropin
DE (Adrenocorticotropic hormone) (ACTH); Melanotropin alpha (Alpha-MSH);
DE Corticotropin-like intermediary peptide (CLIP); Lipotropin beta (Beta-
DE LPH); Lipotropin gamma (Gamma-LPH); Melanotropin beta (Beta-MSH);
DE Beta-endorphin; Met-enkephalin].
Liste des peptides produits après clivage de la protéine initiale
II.3.a SWISS-PROT / TREMBL
ID HXK1_ARATH STANDARD; PRT; 496 AA.
AC Q42525; Q42535;
DT 01-NOV-1997 (Rel. 35, Created)
DT 16-OCT-2001 (Rel. 40, Last sequence update)
DT 16-OCT-2001 (Rel. 40, Last annotation update)
DE Hexokinase 1 (EC 2.7.1.1).
GN HXK1 OR AT4G29130 OR F19B15.160.
OS Arabidopsis thaliana (Mouse-ear cress).
OC Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
OC Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots; Rosidae;
OC eurosids II; Brassicales; Brassicaceae; Arabidopsis.
OX NCBI_TaxID=3702;
gènes
II.3.a SWISS-PROT / TREMBL
RN [1]
RP SEQUENCE FROM N.A.
RC STRAIN=CV. LANDSBERG ERECTA;
RX MEDLINE=95334527; PubMed=7610198;
RA Dai N., Schaffer A.A., Petreikov M., Granot D.;
RT "Arabidopsis thaliana hexokinase cDNA isolated by complementation of
RT yeast cells.";
RL Plant Physiol. 108:879-880(1995).
Travaux pratiqués sur la séquence par les auteurs. Ici, le commentaire indique que seule la séquence nucléique est expérimentalepar conséquent la séquence protéique est
conceptuelle
II.3.a SWISS-PROT / TREMBL
RN [1]
RP SEQUENCE FROM N.A.
RC STRAIN=CV. LANDSBERG ERECTA;
RX MEDLINE=95334527; PubMed=7610198;
RA Dai N., Schaffer A.A., Petreikov M., Granot D.;
RT "Arabidopsis thaliana hexokinase cDNA isolated by complementation of
RT yeast cells.";
RL Plant Physiol. 108:879-880(1995).
Reference comment : origine biologiquede la séquence (organisme, plasmide, tissu)
II.3.a SWISS-PROT / TREMBL
CC -!- CATALYTIC ACTIVITY: ATP + D-hexose = ADP + D-hexose 6-phosphate.
CC -!- SUBCELLULAR LOCATION: CHLOROPLAST OUTER ENVELOPE; CYTOPLASMIC SIDE (BY SIMILARITY).
CC -!- SIMILARITY: BELONGS TO THE HEXOKINASE FAMILY.
DR EMBL; U28214; AAB49908.1; -.
DR InterPro; IPR001312; Hexokinase.
DR Pfam; PF00349; hexokinase; 1.
DR PROSITE; PS00378; HEXOKINASES; 1.
KW Transferase; Kinase; Glycolysis; ATP-binding; Transmembrane; Chloroplast.
FT TRANSMEM 4 24 POTENTIAL.
FT NP_BIND 101 106 ATP (POTENTIAL).
FT DOMAIN 171 197 GLUCOSE-BINDING (POTENTIAL).
SQ SEQUENCE 496 AA; 53707 MW; 6DC81CE114E0B52B CRC64;
MGKVAVGATV VCTAAVCAVA VLVVRRRMQS SGKWGRVLAI LKAFEEDCAT PISKLRQVAD
TLDFESLNPG EQILEKIISG MYLGEILRRV/…../ LLKMAEDAAF FGDTVPSKLR IPFIIRTPHM
SAMHNDTSPD LKIVGSKIKD ILEVPTTSLK MRKVVISLCN IIATRGARLS AAGIYGILKK
LGRDTTKDEE VQKSVIAMDG GLFEHYTQFS ECMESSLKEL LGDEASGSVE VTHSNDGSGI
GAALLAASHS LYLEDS
//
Blocs de commentaires
II.3.a SWISS-PROT / TREMBL
Topic Description ALTERNATIVE PRODUCTS Description of the existence of related protein sequence(s) produced by alternative splicing of the same gene or
by the use of alternative initiation codons
BIOTECHNOLOGY Description of the use of a specific protein in a biotechnological process
CATALYTIC ACTIVITY Description of the reaction(s) catalyzed by an enzyme [1]
CAUTION This topic warns you about possible errors and/or grounds for confusion
COFACTOR Description of an enzyme cofactor
DATABASE Description of a cross-reference to a network database/resource for a specific protein [2]
DEVELOPMENTAL STAGE Description of the developmental specific expression of a protein
DISEASE Description of the disease(s) associated with a deficiency of a protein
DOMAIN Description of the domain structure of a protein
ENZYME REGULATION Description of an enzyme regulatory mechanism
FUNCTION General description of the function(s) of a protein
INDUCTION Description of the compound(s) which stimulate the synthesis of a protein
MASS SPECTROMETRY Reports the exact molecular weight of a protein or part of a protein as determined by mass spectrometric methods [3]
MISCELLANEOUS Any comment which does not belong to any of the other defined topics
PATHWAY Description of the metabolic pathway(s) with which a protein is associated
PHARMACEUTICAL Description of the use of a specific protein as a pharmaceutical drug
POLYMORPHISM Description of polymorphism(s)
PTM Description of a posttranslational modification
SIMILARITY Description of the similaritie(s) (sequence or structural) of a protein with other proteins
SUBCELLULAR LOCATION Description of the subcellular location of the mature protein
SUBUNIT Description of the quaternary structure of a protein
TISSUE SPECIFICITY Description of the tissue specificity of a protein
CC -!- CATALYTIC ACTIVITY: ATP + D-hexose = ADP + D-hexose 6-phosphate.
CC -!- SUBCELLULAR LOCATION: CHLOROPLAST OUTER ENVELOPE; CYTOPLASMIC SIDE (BY SIMILARITY).
CC -!- SIMILARITY: BELONGS TO THE HEXOKINASE FAMILY.
DR EMBL; U28214; AAB49908.1; -.
DR InterPro; IPR001312; Hexokinase.
DR Pfam; PF00349; hexokinase; 1.
DR PROSITE; PS00378; HEXOKINASES; 1.
KW Transferase; Kinase; Glycolysis; ATP-binding; Transmembrane; Chloroplast.
FT TRANSMEM 4 24 POTENTIAL.
FT NP_BIND 101 106 ATP (POTENTIAL).
FT DOMAIN 171 197 GLUCOSE-BINDING (POTENTIAL).
SQ SEQUENCE 496 AA; 53707 MW; 6DC81CE114E0B52B CRC64;
MGKVAVGATV VCTAAVCAVA VLVVRRRMQS SGKWGRVLAI LKAFEEDCAT PISKLRQVAD
TLDFESLNPG EQILEKIISG MYLGEILRRV/…../ LLKMAEDAAF FGDTVPSKLR IPFIIRTPHM
SAMHNDTSPD LKIVGSKIKD ILEVPTTSLK MRKVVISLCN IIATRGARLS AAGIYGILKK
LGRDTTKDEE VQKSVIAMDG GLFEHYTQFS ECMESSLKEL LGDEASGSVE VTHSNDGSGI
GAALLAASHS LYLEDS
//
Data base cross-reference
II.3.a SWISS-PROT / TREMBL
CC -!- CATALYTIC ACTIVITY: ATP + D-hexose = ADP + D-hexose 6-phosphate.
CC -!- SUBCELLULAR LOCATION: CHLOROPLAST OUTER ENVELOPE; CYTOPLASMIC SIDE (BY SIMILARITY).
CC -!- SIMILARITY: BELONGS TO THE HEXOKINASE FAMILY.
DR EMBL; U28214; AAB49908.1; -.
DR InterPro; IPR001312; Hexokinase.
DR Pfam; PF00349; hexokinase; 1.
DR PROSITE; PS00378; HEXOKINASES; 1.
KW Transferase; Kinase; Glycolysis; ATP-binding; Transmembrane; Chloroplast.
FT TRANSMEM 4 24 POTENTIAL.
FT NP_BIND 101 106 ATP (POTENTIAL).
FT DOMAIN 171 197 GLUCOSE-BINDING (POTENTIAL).
SQ SEQUENCE 496 AA; 53707 MW; 6DC81CE114E0B52B CRC64;
MGKVAVGATV VCTAAVCAVA VLVVRRRMQS SGKWGRVLAI LKAFEEDCAT PISKLRQVAD
TLDFESLNPG EQILEKIISG MYLGEILRRV/…../ LLKMAEDAAF FGDTVPSKLR IPFIIRTPHM
SAMHNDTSPD LKIVGSKIKD ILEVPTTSLK MRKVVISLCN IIATRGARLS AAGIYGILKK
LGRDTTKDEE VQKSVIAMDG GLFEHYTQFS ECMESSLKEL LGDEASGSVE VTHSNDGSGI
GAALLAASHS LYLEDS
//
II.3.a SWISS-PROT / TREMBL
CC -!- CATALYTIC ACTIVITY: ATP + D-hexose = ADP + D-hexose 6-phosphate.
CC -!- SUBCELLULAR LOCATION: CHLOROPLAST OUTER ENVELOPE; CYTOPLASMIC SIDE (BY SIMILARITY).
CC -!- SIMILARITY: BELONGS TO THE HEXOKINASE FAMILY.
DR EMBL; U28214; AAB49908.1; -.
DR InterPro; IPR001312; Hexokinase.
DR Pfam; PF00349; hexokinase; 1.
DR PROSITE; PS00378; HEXOKINASES; 1.
KW Transferase; Kinase; Glycolysis; ATP-binding; Transmembrane; Chloroplast.
FT TRANSMEM 4 24 POTENTIAL.
FT NP_BIND 101 106 ATP (POTENTIAL).
FT DOMAIN 171 197 GLUCOSE-BINDING (POTENTIAL).
SQ SEQUENCE 496 AA; 53707 MW; 6DC81CE114E0B52B CRC64;
MGKVAVGATV VCTAAVCAVA VLVVRRRMQS SGKWGRVLAI LKAFEEDCAT PISKLRQVAD
TLDFESLNPG EQILEKIISG MYLGEILRRV/…../ LLKMAEDAAF FGDTVPSKLR IPFIIRTPHM
SAMHNDTSPD LKIVGSKIKD ILEVPTTSLK MRKVVISLCN IIATRGARLS AAGIYGILKK
LGRDTTKDEE VQKSVIAMDG GLFEHYTQFS ECMESSLKEL LGDEASGSVE VTHSNDGSGI
GAALLAASHS LYLEDS
//
II.3.a SWISS-PROT / TREMBL
CC -!- CATALYTIC ACTIVITY: ATP + D-hexose = ADP + D-hexose 6-phosphate.
CC -!- SUBCELLULAR LOCATION: CHLOROPLAST OUTER ENVELOPE; CYTOPLASMIC SIDE (BY SIMILARITY).
CC -!- SIMILARITY: BELONGS TO THE HEXOKINASE FAMILY.
DR EMBL; U28214; AAB49908.1; -.
DR InterPro; IPR001312; Hexokinase.
DR Pfam; PF00349; hexokinase; 1.
DR PROSITE; PS00378; HEXOKINASES; 1.
KW Transferase; Kinase; Glycolysis; ATP-binding; Transmembrane; Chloroplast.
FT TRANSMEM 4 24 POTENTIAL.
FT NP_BIND 101 106 ATP (POTENTIAL).
FT DOMAIN 171 197 GLUCOSE-BINDING (POTENTIAL).
SQ SEQUENCE 496 AA; 53707 MW; 6DC81CE114E0B52B CRC64;
MGKVAVGATV VCTAAVCAVA VLVVRRRMQS SGKWGRVLAI LKAFEEDCAT PISKLRQVAD
TLDFESLNPG EQILEKIISG MYLGEILRRV/…../ LLKMAEDAAF FGDTVPSKLR IPFIIRTPHM
SAMHNDTSPD LKIVGSKIKD ILEVPTTSLK MRKVVISLCN IIATRGARLS AAGIYGILKK
LGRDTTKDEE VQKSVIAMDG GLFEHYTQFS ECMESSLKEL LGDEASGSVE VTHSNDGSGI
GAALLAASHS LYLEDS
//
II.3.a SWISS-PROT / TREMBL
II.3.b Annotations des séquences de Swiss-Prot– Elles concernent les points suivants :
• Fonction(s) de la protéine• Modifications post-traductionnelles (acétylation, phosphorylation,…)• Domaines et sites (liaison au calcium, à l’ATP, doigts de zinc, …)• Structure secondaire• Structure quaternaire (homodimère, hétérotrimère, …)• Similitudes avec d’autres protéines• Maladies associées à une protéine• Conflits sur la séquence, existence de variants, …
– Sources de l’information• Articles concernant une nouvelle séquence• Article de synthèse sur les familles de protéines• Groupe d’experts
– Les mises à jour sont régulières• La redondance est limitée au mieux
II.3.c Quelques statistiques sur Swiss-Prot
II.3.c Quelques statistiques sur Swiss-Prot
II.3.c Quelques statistiques sur Swiss-Prot
II.3.c Quelques statistiques sur Swiss-Prot
II Les banques de données
II.4 Les banques d’alignements et de motifs
• Définitions– Domaine : portion d'une protéine supposée avoir un repliement indépendant du
reste de la protéine, et posséder une fonction spécifique. – Motif : segment court et conservé d'une séquence nucléique ou protéique. Les
motifs sont fréquemment des parties hautement conservées des domaines.
• Tout commence par des alignements multiples– Alignement : Processus par lequel deux séquences sont comparées afin
d'obtenir le plus de correspondances (identités ou substitutions ) possibles entre les nucléotides ou acides aminés qui les composent.
• Alignement global : alignement des deux séquences sur toute leur longueur. (Gap)• Alignement local : alignement des deux séquences sur une portion de leur
longueur. (Fasta et Blast) • Alignement optimal : alignement de deux séquences de façon à obtenir le plus haut
score possible. (Needleman et Wunsch) • Alignement multiple : alignement global de trois ou plus de trois séquences.
(ClustalW)
II.4 Les banques d’alignements et de motifs
• Il existe de nombreuses banques d’alignements et de motifs
• PROSITE : SIB, Dictionnaire de sites et motifs protéiques (expressions régulières)
• Profiles : ISREC, Lausanne, matrices pondérées (profils)
• PRINTS : UCL London, (Protein Motif Fingerprint Database). Une empreinte (fingerprint) est un groupe conservé de motifs utilisé pour caractériser une famille de protéines
• Pfam : Sanger centre, Collection de familles alignées de protéines, générées automatiquement ou semi-automatiquement par la méthode "Hidden Markov Models" (HMMs).
• BLOCKS : FHCRC Seattle, « blocks », alignements multiples de segments sans insertions, correspondant aux régions les mieux conservées de Prosite
• ProDom : (PROtein DOMain Database) INRA, Toulouse, compilation automatisée des domaines homologues (alignements multiples et consensus) détectés dans Swiss-prot
II.4 Les banques d’alignements et de motifs
Alignement multiple de séquences homologues issues de Swiss-Prot
Détermination manuelle d’une expression consensus
Affinage du consensus contre Swiss-Prot :Le consensus doit permettre de récupérer les séquences
qui ont servi à le construire. Il y a des faux positifs ainsi que des faux négatifs.
« pattern / profile »C-x(3)-[LIVMFY]-x(5)-[LIVMFY]-x(3)-[DENQ]-[LIVMFY]-x(10)- C-x(3)-C-T-x(4)-C-x-[LIVMFY]-F-x-[FY]-x(13,14)-C-x-
[LIVMFY]-[RK]-x-[ST]-x(14,15)-S-G-x-[ST]-[LIVMFY]-x(2)-C
Version 16.53, of 06-Dec-2001 (contient 1104 fiches documentation décrivant 1494 « patterns », règles et profils/matrices).
II.4 Les banques d’alignements et de motifs II.4.a PROSITE / PROFILES: SIB, expressions régulières
Alignement local
Identification manuelle d’un « Fingerprint » : ensemble de 1 à n motifs
Affinage contre OWL
« Fingerprint » composé d’un jeu de motifs
Version 32.0 de PRINTS contient 1600 entrées, codant 9800 motifs.
II.4 Les banques d’alignements et de motifs II.4.b PRINTS : UCL London, empreintes (fingerprints)
Alignement multiple édité manuellement
Un profil « HMM » en est dérivéProgression aléatoire estimant la probabilité de transition à chaque étape et utilisant la technique d'apprentissage
Alignement pleine longueur final
Pfam A : Alignements précis vérifiés, annotés (3071 familles, 267598 séquences)Pfam B : Clustering automatique de Swiss Prot / Trembl, non annoté (57477, 126378)
II.4 Les banques d’alignements et de motifs II.4.c Pfam : Sanger centre, HMMs profiles
Transition 1 -> 2Prob(C->G) 2 0.4Prob(C->C) 2 0.4Prob(G->C) 1 0.2Prob(G->G) 0 0
C0.8
G0.2
C0.6
G0.4
début fin
début fin
0.2
0.8 0.4
0.4
0.2
0
P(CG) = 0.8 * 0.8 * 0.4 * 0.4 = 0.102P(GC) = 0.2 * 0.2 * 0.2 * 0.6 = 0.004P(GA) = 0.2 * 0.2 * 0 * 0 = 0
Modèle de Markov
transitionémission
Pfam entry: Glyco_hydro_68Accession number: PF02435 Definition: Levansucrase/Invertase Author: Mian N, Bateman A Alignment method of seed: Clustalw Source of seed members: Pfam-B_2011 (release 5.4) Gathering cutoffs: 25 25 Trusted cutoffs: 825.60 825.60 Noise cutoffs: -256.10 -256.10 HMM build command line: hmmbuild -F HMM SEED HMM build command line: hmmcalibrate --seed 0 HMM Reference Number: [1] Reference Medline: 98394981 Reference Title: Cloning, nucleotide sequence, and expression in Escherichia Reference Title: coli of levansucrase genes from the plant pathogens Reference Title: Pseudomonas syringae pv. glycinea and P. syringae pv. Reference Title: phaseolicola. Reference Author: Hettwer U, Jaeckel FR, Boch J, Meyer M, Rudolph K, Ullrich Reference Author: MS;Reference Location: Appl Environ Microbiol 1998;64:3180-3187. Database Reference INTERPRO; IPR003469; Comment: This Pfam family consists of the glycosyl hydrolase 68 family, Comment: including several bacterial levansucrase enzymes, and invertase from Comment: zymomonas. Number of members: 14
II.4 Les banques d’alignements et de motifs II.4.c Pfam : Sanger centre, HMMs profiles
Swiss Prot + Trembl
PSI-BLAST récursifs
Domaines, consensus
•Proteines utilisées pour ProDom 2001.2: (SwissProt /TREMBL – Mai 2001)•domaines avec au moins 2 sequences•domaines
339763101957283772
II.4 Les banques d’alignements et de motifs II.4.d PRODOM
Prosite (4034) ProDom (1066) Pfam(2258) Domo(306)
Groupes de protéines
Alignement local sans gap avec un germe de trois acides aminés
BLOCKS Calibration contre Swiss Prot
Version 13.0 (08/001): 8656 blocks représentant 2101 groupes
II.4 Les banques d’alignements et de motifs II.4.e BLOCKS : FHCRC Seattle, « blocks »
Recherche des membres de super-familles très divergentesProfiles, Pfam
Recherche des membres de sous-famillesPrints
Recherche de motifs courtsProsite, Blocks
II.4 Les banques d’alignements et de motifs II.4.f Quelle banque pour quel résultat ?
INTERPRO : Pfam, Prints, Prosite, Swiss Prot / Trembl sont intégrées dans une hiérarchie formant des familles.
II.4 Les banques d’alignements et de motifs II.4.f INTERPRO la base intégrative
Mots-clés et critères– Numéro d’accession
– Nom de séquence
– Organisme
– Définition
– Taille d’une séquence
Séquence– Recherche de séquences homologues
– Recherche de domaines ou de motifs
II.5 La recherche dans les banques
II.5 La recherche dans les banques II.5.a ENTREZ
II.5 La recherche dans les banques II.5.b SRS (Sequence Retrieval System)
Recherche de similarités entre séquences biologiques
• Objectifs
– Recherche d’informations sur la fonction biologique
– Etude de la structure (motifs, domaines, …)
– Informations sur l’évolution des séquences (phylogénie)
Constitue en générale la première étape
de l’étude d’une séquence nouvelle
La recherche de similarités permet de mettre en évidence les régions proches de deux séquences
Similarité et homologie :
Deux gènes sont homologues s’ils ont un gène ancêtre en commun
On doit donc parler de recherche de similarités.
Si une protéine partage 25 % d’identité sur une longueur de 100 acides aminés avec une autre, on pourra parler d’homologie
Recherche de similarités entre séquences biologiques
• On peut comparer des séquences nucléiques ou des séquences protéiques– La probabilité est plus forte de trouver de la similarité par
hasard dans les comparaisons ADN/ADN car on se restreint à 4 nucléotides contre 20 acides aminés
Séquence de 10 bases -> 410 séquences possibles soit 1 048 576
Les banques publiques contiennent 8.109 nucléotides à partir desquels on peut extraire environ 7.109 séquences de 10 bases. Une séquence particulière de 10 bases peut donc s’y trouver 6600 fois simplement par hasard.
Ainsi obtenir 100 % d’identité sur 10 bases peut ne pas avoir beaucoup de signification biologique et n’être que le fruit du hasard
Séquence de 10 aa -> 2010 séquences possibles soit 10,24.1012
Recherche de similarités entre séquences biologiques
• La recherche de similarités repose sur des processus évolutifs : les mutations
Recherche de similarités entre séquences biologiques
Séq. 2 G T T A G
Séq. 3 G T A G
Séq. 4 G T A T G
substitution
suppression
insertion
Séq. 1 G T C A G
• La mise en évidence de similarités réclame d’aligner des séquences.
Recherche de similarités entre séquences biologiques
Séq. 1 G T C A _ G
Séq. 4 G _ T A T G
Séq. 1 G T C A _ G
Séq. 4 G T _ A T G
3 identités, 1 substitution et 2 indels (INsertion-DELétion)
4 identités et 2 indels
• Comment évaluer un alignement : le score
Recherche de similarités entre séquences biologiques
G T C A G
G T A T G
Appariement = 1, 0 sinon
Score = S(i) = 31 1 0 0 1
1 1 –1/4 1 –1/4 1
G T C A G
G T A T G
Appariement = 1; INDEL = -0,25; 0 sinon
Score = S(i) - P(i) = 3,5
Recherche de similarités entre séquences biologiques
CGCCGGTGTACTGCA-C-TGGCGTG--TCACGCCGG-G-ACCGCAGCATGGCGGGCATCA
Cet alignement nécessite deux insertions (GAP) consécutives.Deux paramètres décrivent un gap
sa créationsa longueur
Il est possible d’imposer une pénalité résumant les deux paramètresP = A + B * L
P pénalité A pénalité d’ouverture de gapB pénalité d’extension de gapL longueur du gap
Recherche de similarités entre séquences biologiques
Si on prend A grand et B petit on favorise des alignements comportantpeu de gaps mais de taille importante.
Si on prend A petit et B grand alors les alignements avec plusieurs gapsmais de courte longueur auront de meilleurs scores que ceux de la situation précédente (moins en accord avec la réalité biologique)
• Les matrices de substitution– Pour les séquences nucléiques : la matrice unitaire
Recherche de similarités entre séquences biologiques
A T G C
A 1 0 0 0
T 0 1 0 0
G 0 0 1 0
C 0 0 0 1
D’autres matrices peuvent être utilisées basées par exemplesur les fréquences de substitution observées sur un jeu de séquences
• Pour les acides aminés on peut également imaginer une matrice unitaire. Mais une telle matrice serait trop sélective.
– En effet, remplacer une leucine par une valine doit avoir moins d’impact sur la structure et la fonction d’une protéine que de la remplacer par une proline.
– Par ailleurs, les séquences protéiques étant soumises à la pression sélective, les mutations que l’on observe entre les séquences d’une même protéine d’organismes différents sont mieux tolérées que les autres.
Ainsi, il faut imaginer d’autre matrices pour que le score associé au remplacement d’un acide aminé par un autre tienne compte des conséquences que cette substitution peut avoir sur la fonction ou la structure de la protéine.
Recherche de similarités entre séquences biologiques
• Les matrices protéiques liées à l’évolution– Elles représentent les échanges possibles ou acceptables d’un
acide aminé par un autre lors de l’évolution des protéines• Les matrices PAM (Point Accepted Mutation)
– Etude de 71 familles de protéines contenant des séquences (1300) très semblables, donc s’alignant facilement
– A partir des alignements, on calcule une matrice de probabilité ou chaque élément désigne la probabilité qu’un acide aminé A soit remplacé par un acide aminé B durant une étape d’évolution
– Cette matrice correspond à un temps d’évolution autorisant 1 mutation pour 100 sites : on parle de 1PAM ou PAM-1 (après un reformatage).
– Si l’on multiplie cette matrice par elle même X fois, on obtient une matrice PAM-X correspondant à un temps d’évolution plus long.
– La matrice PAM-250 semble la plus adaptée pour distinguer des protéines proches de celles similaires par hasard.
– Inconvénient : » tous les sites sont considérés comme équiprobables vis à vis du taux de
mutation => faux
Recherche de similarités entre séquences biologiques
– Les matrices BLOSUM (BLOcks Substitution Matrix)• Les matrices PAM sont construites à partir d’alignements globaux de
protéines très semblables. Les BLOSUM sont élaborées à partir de BLOCKS (séquence issues d’alignements multiples sans insertion délétion de courtes régions conservées)
• Ces blocs permettent de rassembler toutes les séquences ayant un taux d’identité minimum au sein de leur bloc. On en déduit, pour le taux d’identité en question, une matrice de probabilité de substitution d’un acide aminé par un autre.
• A chaque taux d’identité correspond une matrice BLOSUM particulière.– BLOSUM60 : 60 % d’identité
• Non basées sur un modèle évolutif (bien qu’implicite)
• Donnent de meilleurs résultats que PAM– Construites à partir d’un plus grand nombre de séquences
– Basées uniquement sur les régions les plus homologues (blocks)
Recherche de similarités entre séquences biologiques
• Les matrices liées aux propriétés physico-chimiques– Matrice basée sur des mesures d’énergie libre de transfert de
l’eau à l’éthanol des acides aminés (Levitt, 1976)
– Matrice de structure secondaire basée sur la propension d’un acide aminé à se trouver dans une hélice, un feuillet ou un coude (Levin, 1986)
– Matrice basée sur les structure 3D : permet de comparer des protéines assez éloignées ( la structure 3D est plus conservée que la structure primaire => deux protéines peuvent partager la même structure 3D et donc posséder des fonctions biologiques analogues tout en ayant des séquences très différentes => convergence)
Recherche de similarités entre séquences biologiques
• Le choix d’une matrice– BLOSUM élevées (80) et PAM faibles (1) permettent de
comparer des séquences proches et courtes
– BLOSUM faibles (45) et PAM élevées (250) pour les séquences plus divergentes et plus longues
– Pour démarrer une étude il faut utiliser la BLOSUM 62 ou la PAM 120
Recherche de similarités entre séquences biologiques
• Les outils d’alignement– Le « dot plot »
Recherche de similarités entre séquences biologiques
A T G C A A C A T G C
A X X X X
T X X
G X X
C X X
A X X X X
A X X X X
C X X X
A X X X
T X X
G X X
C X X X
• Les outils d’alignement– Le « dot plot »
Recherche de similarités entre séquences biologiques
A T G C A A C A T G C
A X X X X
T X X
G X X
C X X
A X X X X
A X X X X
C X X X
A X X X
T X X
G X X
C X X X
• Les outils d’alignement– Le « dot plot »
Recherche de similarités entre séquences biologiques
A T G C A A C A T G C
A X X X X
T X X
G X X
C X X
A X X X X
A X X X X
C X X X
A X X X
T X X
G X X
C X X X
• Les outils d’alignement– Le « dot plot »
Recherche de similarités entre séquences biologiques
A T G C A A C A T G C
A X X X X
T X X
G X X
T X X
G X X
A X X X X
C X X X
A X X X
C X X X
G X X
A X X X
• Les outils d’alignement– Le « dot plot »
Recherche de similarités entre séquences biologiques
A T G C A A C A T G C
A X X X X
T X X
G X X
T X X
G X X
A X X X X
C X X X
A X X X
C X X X
G X X
A X X X
• Les outils d’alignement– Le « dot plot »
Recherche de similarités entre séquences biologiques
A T G C A A C A T G C
A X X X X
T X X
G X X
T X X
G X X
A X X X X
C X X X
A X X X
C X X X
G X X
A X X X
• L’alignement optimal– Exemple : deux séquences à comparer
• ATGTAATGCATA
• TATGTGAAT– Scores identité +1
gap -1
extension -1
Recherche de similarités entre séquences biologiques
Alignement optimal par glissement score = 5 A T G T A A T G C A T GT A T G T G A A T
Alignement optimal avec insertion score = 6 A T G T - A A T G C A T GT A T G T G A A T
• L’alignement optimal
– Algorithme de Needleman et Wunsch• Alignement optimal global de deux séquences
– Algorithme de Smith et Waterman• Alignement optimal local de deux séquences
• Ces algorithmes sont les meilleurs mais ils sont très coûteux en temps de calcul. Ils ne sont donc pas utilisés pour la recherche de similarités entre une séquence et une banque de séquences
Recherche de similarités entre séquences biologiques
• La recherche de similarités dans les banques– FASTA
• Identification rapide de zone d’identité entre la séquence requête et les séquences banque.
• Bonne sensibilité car il prend en compte les INDELs
• Les « hits » ou résultats sont fournis avec un Z-score et une E-value– Z-score = (s-m)/e
» S : score observé
» M : moyenne des scores aléatoires
» E : écart type des scores aléatoires
– E-value
» Plus elle est faible et moins on a de chance d’avoir trouver par hasard l’alignement observé
» E-value < 0,01 : séquences homologues
» E-value 1-10 : séquences plus lointaines
Recherche de similarités entre séquences biologiques
• La recherche de similarités dans les banques– BLAST (Basic Local Alignment Search Tool)
• Développé au NCBI
• Basé sur un modèle statistique
• L’unité de base de l’algorithme est le HSP (High-scoring Segment Pair)– Il s’agit d’une région de similitude la plus longue possible entre deux
séquences ayant un score supérieur ou égal à un score seuil. Il peut y avoir plusieurs HSP issus de la comparaison de deux séquences.
– Un deuxième score MSP (Maximal-scoring Segment Pair) est le meilleur score obtenu parmi tous les couples possibles que peuvent produire deux séquences.
– Les méthodes statistiques sont utilisées pour évaluer la qualité des HSPs et MSPs.
Recherche de similarités entre séquences biologiques
• La recherche de similarités dans les banques– BLAST (Basic Local Alignment Search Tool)
• Il existe cinq programmes– BLASTN (séquence nucléique contre banque nucléique)
– BLASTP (séquence protéique contre banque protéique)
– BLASTX (séquence nucléique traduite en 6 phases contre banque protéique)
– TBLASTN (séquence protéique contre banque nucléique traduite en 6 phases)
– TBLASTX (séquence nucléique traduite dans les 6 phases contre banque traduite dans les 6 phases)
• Les étapes de l’algorithme– Faire une liste de tous les mots de longueur X dans la séquence
» Par défaut X = 3 pour les protéines et 11 pour les acides nucléiques, l’utilisateur peut modifier ces paramètres
– Comparer ces mots avec les séquences de la banques pour identifier les séquences identiques (les « hits »)
Recherche de similarités entre séquences biologiques
• La recherche de similarités dans les banques– BLAST (Basic Local Alignment Search Tool)
– Extension du segment identique lorsque cela est possible, dans les deux directions de manière à ce que le score cumulé puisse être amélioré.
L’extension est stoppée dans trois cas :
» Si le score cumulé descend d’une quantité x donnée par rapport à la valeur maximale qu’il avait atteint
» Si le score cumulé devient inférieur ou égal à zéro
» Si la fin de l’une des deux séquences est atteinte
Recherche de similarités entre séquences biologiques
Recherche de similarités entre séquences biologiques
Séquence requête (query)
Liste des mots de longueur l
Comparaison des mots avec lesséquences de la banque (subject)et identification des « hits » exacts
Extension des HSPs
• La recherche de similarités dans les banques– BLAST (Basic Local Alignment Search Tool)
• L’évaluation du « hit »– Le score S (bits) : Il est dérivé du score brut de l’alignement. Il a été
normalisé dans le but de pouvoir comparer des scores issus de recherches différentes.
– La E-value (Expected) : nombre d’alignements différents que l’on peut espérer trouver dans la banque avec un score supérieur ou égal à S (probabilité d’observer au hasard ce score). Plus la E-value est faible et plus l’alignement est significatif.
» La E-value tient compte de
la taille de la séquence requête
la taille de la banque
la composition de la séquence
la matrice de substitution utilisée
E-value < e-100 => même gène ou allèles ou espèces voisines
E-value e-100 e-80 => gènes très proche
Recherche de similarités entre séquences biologiques
• La recherche de similarités dans les banques– BLAST (Basic Local Alignment Search Tool)
• Paramètres– Taille du mot : plus on l’élève plus la recherche est spécifique et moins elle
est sensible
– Filtres : permet de masquer les régions de faible complexité (séquences répétées, séquences présentes dans de très nombreuses protéines, logiciels SEG et XNU)
– Matrices : choix de la matrice de score (BLOSUM, PAM, …)
– EXPECT : définition du score seuil pour la recherche, seuls les alignements dont le score est inférieur à E seront reportés. Plus E est pris faible et plus les résultats seront fiables.
– GAPS : choix des pénalités d’ouverture et d’extension de gap
Recherche de similarités entre séquences biologiques
ouverture extension
BLASTP -11 -1
BLASTN -5 -2
Recherche de similarités entre séquences biologiques
L < 35 35 < L < 50
50 < L < 85 L > 85
filtre off on on on
matrice PAM35 ou moins
PAM70 BLOSUM80 BLOSUM62
L mot 3 ou 2 3 3 3
Gap (ouv, ext) 9, 1 10, 1 10, 1 11, 1
E-value (seuil)
10000 10-100 10 10
Paramètres recommandés pour une séquence nucléique (infobiogen)
Page d’accueil duserveur BLAST
au NCBI
http://www.ncbi.nlm.nih.gov/BLAST/
• L’alignement multiple– Détecter des régions conservées dans des familles de
séquences.
– Caractériser de nouvelles familles de protéines.
– Détecter ou démontrer une homologie entre différentes séquences
– Trouver des amorces de PCR pour amplifier une famille de gènes ou un membre d’une famille de gène
– Etablir une phylogénie
– Aider à la modélisation : les algorithmes de prédiction de structure secondaire exploitent très bien les alignements multiples
Recherche de similarités entre séquences biologiques
• L’alignement multiple– Il s’agit d’un processus qui peut être coûteux en temps de calcul
– Ce temps dépend de trois paramètres• Le volume des données à traiter (taille et nombre de séquences)
• La puissance de l’ordinateur utilisé
• La puissance de l’algorithme utilisé
– Il existe deux classes d’algorithme• La première dérive de l’algorithme de Needleman et Wunsch
– On recherche l'alignement multiple qui maximise la somme des scores de chaque alignement pour chaque paire (pour n séquences, il y a n(n-1)/2 paires). Cependant, la taille du problème, en temps et en place mémoire dans l'ordinateur, est proportionnelle au produit des longueurs des séquences : si les N séquences sont de longueur L, la complexité est en LN. Cette complexité croit de façon exponentielle avec le nombre de séquences, elle est donc utilisable avec un petit nombre de séquences mais ne peut répondre à la plupart des besoins.
Recherche de similarités entre séquences biologiques
Recherche de similarités entre séquences biologiques
• L’alignement multiple• La deuxième utilise une méthode heuristique
– Heuristique : méthode donnant rapidement un bon résultat sans que l’on soit assuré que ce soit le meilleur (BLAST en fait partie)
– C'est l'approche la plus commune. Cette méthode est rapide et dans la plupart des cas, donne de bons résultats. Elle est utilisée par le programme Clustalw. Clustalw commence par aligner deux à deux les séquences et construit l'arbre des relations évolutives entre les séquences. Les nœuds entre les branches représentent les alignements deux à deux et la racine représente l'alignement complet. Une fois cet arbre construit, le programme prend les deux séquences les plus proches et commence l'alignement multiple (l'alignement des séquences les plus proches est le plus fiable). Puis il progresse vers les séquences plus distantes, et remonte ainsi l'arbre. Ce programme est rapide pour un nombre raisonnable de séquences longues et plus lent si on aligne un grand nombre de séquences courtes.
Soit 4 séquences s1, s2, s3 et s4
1) Réalisation de l'alignement deux à deux des séquences avec calcul d'un score : on obtient donc une distance pour chaque couple.
2) Construction d'une matrice de distances.
s1 s2 s3 s4
s1
s2 d3
s3 d1 d4
s4 d5 d2 d6
3) Elaboration d'un dendrogramme qui donnera l'ordre de l'alignement multiple On considère que d1 < d2 < d3 < d4 <d5 < d6
S4 S3 / \ S1 / \ / S2 / C1 \ / \ C2 \ / \ / C3
4) Construction successives de consensus permettant de remonter dans l'arbre a. -------------------------- S3 -------------------------- S1 ------------------------- C1 b. -------------------------- S2 -------------------------- S4 ------------------------- C2 c. ------------------------- C1 --------------------- ---- C3 -------------------------- C3
****** MULTIPLE ALIGNMENT MENU ****** 1. Do complete multiple alignment now (Slow/Accurate) On peut utiliser un ancien dendrogramme
pour guider l'alignement initial ou seulement produire ce dendrogramme sans aller jusqu'à l'alignement multiple
2. Produce guide tree file only 3. Do alignment using old guide tree file 4. Toggle Slow/Fast pairwise alignments = SLOW 5. Pairwise alignment parameters contrôle la vitesse et la sensibilité de l'alignement initial 6. Multiple alignment parameters contrôle les gaps dans l'alignement multiple final
Dans ce menu, on peut choisir la vitesse avec laquelle on veut que l'alignement se fasse : - Méthode lente mais précise : cette méthode est très lente pour un grand nombre (> 100) de longues séquences (>1000 résidus). - Méthode rapide mais plus approximative.
7. Reset gaps before alignment? = OFF cela permet d'effacer tous les gaps d'un alignement et de le refaire en modifiant certaines options (ON). Si cette option est OFF, les nouveaux gaps seront conservés si un second alignement est réalisé (Parfois, un deuxième passage voire un troisième améliore la qualité de l'alignement).
8. Toggle screen display = ON Les résultats sont envoyés à la fois à l'écran et dans un fichier de sortie.
********* PAIRWISE ALIGNMENT PARAMETERS ********* Slow/Accurate alignments: Si on augmente les pénalités d'ouverture et d'extension des gaps, ceux-ci seront
moins fréquents (Gap open Penalty) et plus courts (Gap Extension Penalty).
1. Gap Open Penalty :10.00 2. Gap Extension Penalty :0.10 3. Protein weight matrix :Gonnet series matrice de scores donnant la similarité des acides aminés les par
rapport aux autres. On peut choisir entre BLOSUM 30,PAM 35, Gonnet 250, la matrice identité
ou une matrice personnelle. 4. DNA weight matrix :IUB matrice de scores pour les acides nucléiques.
Fast/Approximate alignments: Si on augmente la taille des k-tuples, la vitesse augmente tandis que si on la diminue, c'est la précision qui augmente. [les maximum sont de 2 pour les protéines et 4 pour les
acides nucléiques] 5. Gap penalty :3 cela n'a que peut d'influence sur la rapidité de l'alignement sauf pour des valeurs
extrêmes.
6. K-tuple (word) size :1 7. No. of top diagonals :5 nombre de k-tuples qui matchent sur chaque diagonale (dans un dotplot imaginaire) et seuls les meilleurs sont utilisés pour l'alignement. Une diminution de ce paramètre rend l'alignement plus rapide tandis qu'une augmentation améliore la sensibilité.
8. Window size :5 9. Toggle Slow/Fast pairwise alignments = SLOW
********* MULTIPLE ALIGNMENT PARAMETERS ********* 1. Gap Opening Penalty :10.00 2. Gap Extension Penalty :0.20 3. Delay divergent sequences :30 % donne le seuil au-dessus duquel l'alignement
est retardé : ainsi, si une séquence donnée est plus de 30% différentes des autres, son alignement est remis à plus tard
4. DNA Transitions Weight :0.50 (poids des transitions A <-> G, C <-> T) : Un poids de zéro signifie que les transitions seront considérées comme des mismatches. Pour des séquences éloignées, ce poids doit être proche de zéro tandis qu'il est égal à 1 pour des séquences très proches
5. Protein weight matrix :Gonnet series 6. DNA weight matrix :IUB 7. Use negative matrix :OFF 8. Protein Gap Parameters
********* PROTEIN GAP PARAMETERS ********* 1. Toggle Residue-Specific Penalties :ON Ce sont des pénalités sur certains acides aminés.
Ces pénalités augment ou diminuent la probabilité d'ouverture d'un gap selon la position sur la séquence. Par exemple, les positions riches en glycine seront plussouvent adjacentes à un gap que les positions riches en valine
2. Toggle Hydrophilic Penalties :ON augmente la probabilité d'avoir des gaps dans les régions hydrophiles correspondant souvent à des boucles ou des coils
3. Hydrophilic Residues :GPSNDQEKR 4. Gap Separation Distance :4 ce paramètre tente de diminuer les risques d'avoir des
gaps trop proches les uns des autres. Les gaps qui sont plus proches que cette distance sont plus pénalisés que les autres. Cela n'empêche pas d'avoir des gaps très proches, cela les rend seulement moins fréquents, donnant une apparence de blocs à l'alignement.
5. Toggle End Gap Separation :OFF Si ce paramètre est sur OFF, les gaps en fin de séquences sont ignorés, ce qui est utile lorsque l'on veut aligner des fragments où les gaps terminaux n'ont pas de signification biologique.
****** PROFILE AND STRUCTURE ALIGNMENT MENU ****** 1. Input 1st. profile 2. Input 2nd. profile/sequences 3. Align 2nd. profile to 1st. profile permet d'aligner deux alignements déjà existants
(même si chacun d'eux ne contient qu'une séquence) 4. Align sequences to 1st. profile (Slow/Accurate) permet d'ajouter une (ou une série de )
nouvelle séquence à un alignement déjà existant. L'intérêt de ce choix est double :
- on peut ainsi construire un alignement de façon progressive en ajoutant de nouvelles séquences (souvent, seul un petit nombre de séquences sont à l'origine de nombreux mésappariements : on pourra les ajouter seulement à la fin). - on peut avoir un alignement de référence sur lequel on aligne les nouvelles séquences.
5. Toggle Slow/Fast pairwise alignments = SLOW 6. Pairwise alignment parameters 7. Multiple alignment parameters 8. Toggle screen display = ON 9. Output format options 0. Secondary structure options
********* SECONDARY STRUCTURE OPTIONS ********* 1. Use profile 1 secondary structure / penalty mask = YES 2. Use profile 2 secondary structure / penalty mask = YES 3. Output in alignment = Secondary Structure 4. Helix gap penalty :4 5. Strand gap penalty :4 6. Loop gap penalty :1 7. Secondary structure terminal penalty :2 8. Helix terminal positions within :3 outside :0 9. Strand terminal positions within :1 outside :1
Si une structure secondaire existe elle peut être utiliséePour guider l’alignement
****** PHYLOGENETIC TREE MENU ****** La méthode utilisée est la méthode du Neigbour-Joining (NJ) développée par Saitou et Nei : on calcule d'abord la distance (proportionnelle à la divergence) entre toutes les paires de séquences de l'alignement puis on applique la méthode de NJ sur la matrice de distance.
1. Input an alignment 2. Exclude positions with gaps? = OFF si ce paramètre est sur ON, alors
toutes les positions auxquelles n'importe laquelle des séquences possède ungaps seront ignorées : cela a pour conséquence de perdre une grande quantité d'informations si l'alignement contient de nombreux gaps.
3. Correct for multiple substitutions? = OFF pour des séquences faiblement divergentes (<10%), cette option n'a pas d'intérêt. pour des divergences plusimportante, cela corrige le fait que les distances observées sous-estiment lesdistances évolutives. Cette option à pour effet de raccourcir les longues branches d'un arbre et doit toujours être utilisée mais il faut savoir que pourdes séquences très divergentes, les distances ne peuvent pas être relier de façon convenable
4. Draw tree now 5. Bootstrap tree cette méthode statistique permet d'estimer la confiance que l'on peut
avoir dans l'arbre obtenu. Cette méthode génère un échantillonnage aléatoire à partir des données initiales puis compte combien de fois chaque regroupement de l'arbre initial se retrouve dans l'échantillonnage. 6. Output format options
• Clustalw– La comparaison simultanée de plusieurs séquences est un outil
très utile pour mieux comprendre la structure et l'évolution des protéines et des acides nucléiques mais il faut rester critique au niveau des résultats : l'alignement optimal calculé par ordinateur est rarement le meilleur au sens biologique.
– Il faut toujours vérifier un alignement avant de passer à l'étape suivante (phylogénie par exemple) et il peut être nécessaire de le corriger.
– Il faut également savoir que l'ordre des séquences dans le fichier d'entrée joue un rôle important.
Recherche de similarités entre séquences biologiques