Statistiques et séquences

Statistiques et séquences

Phase 0 Phase 1 Phase 2

p

-

Document écrit chap. 5

IntroductionUtilisation prédictive des biais statistiquesModélisation des séquences par des chaines de MarkovModèles de Markov cachés, ou “HMM”

Séquence de dinosaure

● La séquence de Jurassic Park estelle crédible? ● Comment pouvezvous, bioinformaticiens, détecter une supercherie ou une erreur?

● Comment faire pour fabriquer de toutes pièces une séquence crédible?

● Quelles sont les applications de ce type d'analyse?

Les séquences biologiques sontelles aléatoires?

● Il existe des biais dans la distribution des nucléotides ● Ces biais reflètent une histoire évolutive, mélange de pressions sélectives systématiques et de hasard

● Ils peuvent être utilisés à des fins prédictives

Les nucléotides ne sont pas équidistribués

TTATTATTATAATATTCTTTTTGCGTTATGGAAATATTTTTTGGGGGTATTTTAATATGT TTTTCTTTTTCATTATTTTTAGAGATATTTTCATCTATATTATAGTCCATAATATTTTTG TCGTTAATATTGTATATATGTTGAGAAGGTTCTTTTTGATTGTGTTCATTTATAAGATGA TTGATGTTTGAATCTTCCTTTTGATCATCTTGTTTTATAATATCTACATTTATATCATTT ATAGAAGTAATATCTTCTTTTTTATCATAATTGTTTTTCCTATTTTTTATGTTTGGCATA TAATTGTGTGATCCAAAACTGCGGCTAATTTTTATTTCTGTATTTTCAAAACTATTATGT TTTTCAAGTAGTTCACCAGTCTCTATTTTTTCATCATACA

Plasmodium falciparum

CGTAGAAGATCGCCTCGACCGGGCAGACCGGCTCACAGGCTCCGCAGTCGACGCACTCGT CCGAGTGGATGTACAAGGACCGCTGGCCCTCGTAGATGCAGTCGACGGGGCACTCCTCGA TGCAGGCCTTGTCCTTCACGTCGACACAAGGCTGCGCGATGACGTAGGTCACGCTGTCGT TCCTCCTCGGTAGGGCGTTGGCTCTGCCGCGGGAGCGCGGCGTCGTCGATGCCCGCCTCT AGTATCTCCGTTCTTGGGCACGATCCGAACAGGAGGGGCGGACAGAGCTGTGGAATTCAC CATCGGCGGACGGCTGGAAGTCAGCATTACCCCCGCTGACGTGGGCAAACGCGTGTCCGT TCGCCGCCGGACGGAGAGCGGTGGCACGGGCGCGCAGTTC

Streptomyces Griseus

Les nucléotides ne sont pas équidistribués

TTATTATTATAATATTCTTTTTGCGTTATGGAAATATTTTTTGGGGGTATTTTAATATGT TTTTCTTTTTCATTATTTTTAGAGATATTTTCATCTATATTATAGTCCATAATATTTTTG TCGTTAATATTGTATATATGTTGAGAAGGTTCTTTTTGATTGTGTTCATTTATAAGATGA TTGATGTTTGAATCTTCCTTTTGATCATCTTGTTTTATAATATCTACATTTATATCATTT ATAGAAGTAATATCTTCTTTTTTATCATAATTGTTTTTCCTATTTTTTATGTTTGGCATA TAATTGTGTGATCCAAAACTGCGGCTAATTTTTATTTCTGTATTTTCAAAACTATTATGT TTTTCAAGTAGTTCACCAGTCTCTATTTTTTCATCATACA

Plasmodium falciparum

CGTAGAAGATCGCCTCGACCGGGCAGACCGGCTCACAGGCTCCGCAGTCGACGCACTCGT CCGAGTGGATGTACAAGGACCGCTGGCCCTCGTAGATGCAGTCGACGGGGCACTCCTCGA TGCAGGCCTTGTCCTTCACGTCGACACAAGGCTGCGCGATGACGTAGGTCACGCTGTCGT TCCTCCTCGGTAGGGCGTTGGCTCTGCCGCGGGAGCGCGGCGTCGTCGATGCCCGCCTCT AGTATCTCCGTTCTTGGGCACGATCCGAACAGGAGGGGCGGACAGAGCTGTGGAATTCAC CATCGGCGGACGGCTGGAAGTCAGCATTACCCCCGCTGACGTGGGCAAACGCGTGTCCGT TCGCCGCCGGACGGAGAGCGGTGGCACGGGCGCGCAGTTC

Streptomyces griseus

Fréquence des nucléotides

Sur un génome complet, on peut calculer la fréquence dechaque nucléotide sur l'ensemble des deux brins d'ADN.

Les règles d'appariement WatsonCrick imposent :

fA = fT et fG = fC

Il y a donc une seule fréquence indépendante, par exemple fG+C = fG + fCOn parle de taux de G+C d'un génome.

Il y a équidistribution ssi fG + fC = 50%

Contenu en G+C des génomes

StreptomycesB pertussis

M lepraeE coli

H sapiensL lactis

A thalianaM genitaliumC botuliniumP falciparum

10 20 30 40 50 60 70 80

% (G+C)

Distribution des acides aminés dans les protéines

alanine 8.3 leucine 9.0asparagine 4.4 lysine 5.7aspartate 5.3 méthionine 2.4arginine 5.7 phénylalanine 3.9cystéine 1.7 proline 5.1glutamine 4.0 serine 6.9glutamate 6.2 tryptophane 1.3glycine 7.2 tyrosine 3.2histidine 2.2 thréonine 5.8isoleucine 5.2 valine 6.6

En %

Les fréquences sont à peu près les mêmes dans les différents organismes.

Biais d'ordres plus élevés

Analyse de la fréquence des nuplets

Soit un nuplet de nucléotides (consécutifs) X1X2...Xn

Si fX1X2...Xn > fX1 fX2 ... fXn nuplet surreprésenté

Si fX1X2...Xn < fX1 fX2 ... fXn nuplet sousreprésenté

Si fX1X2...Xn = fX1 fX2 ... fXn neutre

Fréquence des dinucléotides

Distribution de la fréquencedes di-nucléotides XpY dans dessegments génomiques de 50 kb.

Fréquences normalisées: fXY/fX fY

Gentles & Karlin (2001) Genome Res 11:540

Fréquence des dinucléotides

CpG est sous-représentéchez les vertébrés

Distribution de la fréquencedes di-nucléotides XpY dans dessegments génomiques de 50 kb.

Fréquences normalisées: fXY/fX fY

Gentles & Karlin (2001) Genome Res. 11:540

Un mécanisme d'élimination desséquences CpG chez les vertébrés

N

NH2

O

N

N

O

O

NH

Dans l'ADN, les cytosines sont sensibles à l'oxidation.Les désoxi-uridines résultantes sont réparées par une machinerie spécialisée.

cytosine uridine

C

G

U

G

G

C

Goxidation excision réparation

oxidation

N

NH2

O

N

N

O

O

NH

Dans les séquences CpG vertébrés, le C est souvent méthylé (70% du génome).La réparation peut alors causer une mutation; d'où une disparition progessive.

5-méthyl-cytosine thymidine

CG

GC

oxidation excision réparation

TG

GC TG

C

G

GC

TG

AC

CG

GC

Un mécanisme d'élimination desséquences CpG chez les vertébrés

Les biais les plus importantssont ceux d'ordre 3

Ils se manifestent dans les régions codantes.

Ils résultent de la structure du code génétique,qui utilise des triplets de nucléotides.

Les contraintes sur la composition des protéinesse répercutent sur les parties codantes de l'ADN

Codons STOP systématiquement évités quand ilssont dans la phase de lecture, sur le brin codant.

Fréquences particulières des différents acides aminés.

Par exemple: 1.3% de Trp 1.3% de codons TGG 2.4% de Met 2.4% de codons ATG

Le code génétique est dégénéré61 codons “sens” pour 20 acides aminés

La cellule exprime des préférencesentre les différents codons synonymes

Ces préférences sont spécifiques de chaque espèce

Fréquence des codons (0/00)

E coli

H sapiens

TTT : Phe 19 TCT : Ser 10 TAT : Tyr 15 TGT : Cys 6TTC : Phe 18 TCC : Ser 10 TAC : Tyr 14 TGC : Cys 5TTA : Leu 10 TCA : Ser 6 TAA : Stop TGA : StopTTG : Leu 11 TCG : Ser 8 TAG : Stop TGG : Trp 13CTT : Leu 10 CCT : Pro 6 CAT : His 11 CGT : Arg 25CTC : Leu 10 CCC : Pro 4 CAC : His 11 CGC : Arg 22CTA : Leu 3 CCA : Pro 8 CAA : Gln 13 CGA : Arg 3CTG : Leu 55 CCG : Pro 24 CAG : Gln 30 CGT : Arg 4ATT : Ile 27 ACT : Thr 11 AAT : Asn 16 AGT : Ser 7ATC : Ile 28 ACC : Thr 24 AAC : Asn 25 AGC : Ser 15ATA : Ile 4 ACA : Thr 6 AAA : Lys 37 AGA : Arg 2ATG : Met 27 ACG : Thr 12 AAG : Lys 12 AGG : Arg 1GTT : Val 21 GCT : Ala 18 GAT : Asp 32 GGT : Gly 29GTC : Val 14 GCC : Ala 23 GAC : Asp 23 GGC : Gly 31GTA : Val 12 GCA : Ala 20 GAA : Glu 44 GGA : Gly 7GTG : Val 25 GCG : Ala 33 GAG : Glu 20 GGG : Gly 9


L'usage du code génétique suitapproximativement l'évolution

Xénope

Hom

o sa

pie n

sRang des codons chez H sapiensvs leur rang chez le xénope


Drosophile

Hom

o sa

pie n

s


Escherichia coli

Hom

o sa

pie n

s

L'évitement du dinucléotide CpGaffecte l'usage des codons chez l'homme

NCG

NCA

NCC

NCT

0 6 12 18 24 30

Proline (CCN) Thréonine (ACN) Alanine (GCN) Sérine (TCN)

Fréquence chez H sapiens (0/00)

L'usage des codons est corrélé àl'abondance des ARNt isoaccepteurs

E coli dataJ. Mol. Biol. (1996) 260:649

croissancelente

croissancerapide

Le ribosome trouve le bon ARNt par un processus d'essai et erreur


En cas de mauvais appariement, l'ARNt est rejeté.


Le processus se répète jusqu'à l'arrivée d'un ARNt correct.

Le nombre moyen d'essais par codon dépendde l'abondance relative de l'ARNt recherché

<nessais> = [ARNt total][ARNt recherché]

En utilisant préférentiellement les codons correspondant auxARNt les plus abondants, la cellule augmente la vitesse de traduction

Les gènes les plus exprimés sont les “mieux adaptés”(i.e., ils utilisent les ARNt les plus abondants)

Fréquence d'utilisation du codon optimal

Nom

bre

de m

oléc

ules

de p

roté

ine

par c

ellu

le quelques gènesde E coli

Le biais d'usage des codons est d'autant plus marquéque le gène est fortement traduit.

(Moyenne=635)

Utilisation prédictive des biais statistiques

Exemples de prédictions statistiques

● Classification des séquences en fonction des propriétésde la distribution des nucléotides

Régions codantes / noncodantes Introns / exons Prédictions des cadres de lecture Prédictions du taux d'expression

● Détection d'erreurs Erreurs de séquençage Insertions / délétions Contaminations par de l'ADN exogène

● Etudes phylogénétiques Transfert de gènes

Une méthode de détection des régions codantes

Détection des biais de période 3

D = S S | fN,phase i fN |

N=A,C,G,T3 phases

ATGAGTAAGCTGAAAGAGTACAGAGTGAACAGACAGATAAGGGCAAAGGAGTGCAGGCTT

fA, phase 0 = 11/20 = 0.55

fA = 24/60 = 0.40


On calcule le score D sur une fenêtre de N triplets de base (N=10 à 100)

On translate progressivement la fenêtre en traçant la valeurdu score en fonction de la position du centre de la fenêtre.

D = S S | fN,phase i fN |N=A,C,G,T 3 phases

fréq

uenc

e

La distribution de probabilité de D est différentedans les régions codantes et noncodantes.


Méthode indépendante de la table d'usage des codons

Niveau d'expression d'un gène

Indice d'adaptation des codons (“CAI”) pour un gène donné:

Le CAI 1 lorsque l'usage des codons est optimal

Pour un gène donné, on considère tous ses codons, i = 1, … L, et on définitwi = fcodon i / fcodon majoritaire 1f = fréquences mesurées pour des protéines de référence fortement

exprimées

Indice = ( P wi )1/L = moyenne géométrique sur les L codons du gèneL

i

NAR '87

Exemples de CAI chez E coli

Répresseur Metbgalactosidase

phosphofructokinaseARN polymérase

ribosomelipoprotéine

Application: prédiction du niveau d'expressiond'un gène de fonction inconnue

Exemples de CAI chez la levure

Mesures précises et exhaustives de l'expression des protéines de la levure.Nature, 2003, 425:737

Modélisation des séquences d'ADNpar des chaînes de Markov

Une séquence de dinosaure?

Taux de G+C? 60.4%Fréquence de CpG? fCG/fC fG = 1.14

Pas très crédible...

Comment fabriquer une séquencede dinosaure crédible?

Fréquences des mono et dinucléotides chez les vertébrés:

fA = 0.30 fC = 0.21fT = 0.29 fG = 0.21

A C G TA 0.102 0.055 0.071 0.074C 0.077 0.057 0.010 0.069G 0.059 0.046 0.054 0.048T 0.062 0.057 0.072 0.087

3'

5'

Ajouter itérativement des nucléotides en respectant ces fréquences

Générateur de séquences aléatoires

A partir de la table de fréquences, on a les probabilités conditionnelles:

p(A | C) = = fCA fC

fCA fCA + fCC + fCG + fCT

A C G TA 34% 18% 24% 25% 100%C 36% 27% 5% 32% 100%G 28% 22% 26% 23% 100%T 22% 21% 26% 31% 100%

Y 3'

X 5'

Munis d'un générateur de nombres aléatoires, nous pouvons fabriquerune pseudoséquence respectant la distribution souhaitée.

Yp(Y|X)=1

p(Y|X)


A C G T

A

C

G

T

ATGAGTAAGCTGAAAGAGTACAGAGT


A C G T

A

C

G

T

ATGAGTAAGCTGAAAGAGTACAGAGT

Nombre tiréaléatoirement:

34


A C G T

A

C

G

T

ATGAGTAAGCTGAAAGAGTACAGAGTC


34


A C G T

A

C

G

T



A C G T

A

C

G

T



92


A C G T

A

C

G

T

ATGAGTAAGCTGAAAGAGTACAGAGTCT


92

Processus ou chaîne de Markov

Chaîne de Markov

Processus aléatoire discret:le système passe d'un état ei à un état ei+1 suivant une loi de probabilité p(ei+1| ei)

L'évolution future du système à partir de l'instant i ne dépend pas de l'histoire antérieure, mais seulement de i.

Généralisation aux biais d'ordres plus élevés:le système passe de ei à ei+1 suivant uneloi de probabilité p(ei+1| ei, ei1, ..., eik+1)

Pas demémoire

Mémoiredes k instants

antérieurs

Pour une séquence donnée, quelle est la probabilité Pqu'elle soit produite par la chaîne de Markov donnée?

P(e1e2....en) = p(e1) p(e2|e1) p(e3|e2) ... p(en|en1)

A C G TA 34% 18% 24% 25%C 36% 27% 5% 32%G 28% 22% 26% 23%T 22% 21% 26% 31%

3'

5'

P(AATG) = 0.30 × 0.34 × 0.25 × 0.26 1/151

P(CGCG) = 0.21 × 0.05 × 0.22 × 0.05 1/8658

fA = 0.30 fC = 0.21fT = 0.28 fG = 0.21

Tests d'hypothèses a posteriori

Les cellules de mammifère en culture peuvent être contaminéespar des mycoplasmes, parasites bactériens intracellulaires.

Si on extrait l'ADN decultures contaminées,on obtient un mélange.

Après séquençage, comment reconnaître l'ADNmammifère de l'ADN mycoplasmique ?

Discrimination entre deux hypothèses: exemple 1

A C G TA 34% 18% 24% 25%C 36% 27% 5% 32%G 28% 22% 26% 23%T 22% 21% 26% 31%

3'

5'

A C G TA 42% 15% 17% 26%C 40% 18% 6.5% 36%G 31% 19% 18% 32%T 26% 14% 19% 42%

3'

5'

humain mycoplasme

S = TTCAAATAATCGTGAAATATCTT

P(e1e2....en) = p(e1) p(e2|e1) p(e3|e2) ... p(en|en1)

Phumain(S)= 4.3 1015 Pmycoplasme(S) = 18.7 1015

Discrimination entre deux hypothèses: exemple 1


La table d'usage descodons n'est calculéeque pour les tripletsen phase 0 (les codons):

P0(NN'N'')

C'est insuffisant pour construire le modèle de Markov.

Exemple 2: recherche de la phase codante

Modèle de Markov d'ordre deux: pi(ek|ek1 ek2), i=phase

ATGAGTAAGCTGAAAGAGTACAGAp0p1

p2

Phase 0

Phase 2Phase 1

Fréquences des triplets

A partir des probabilités P0(NN'N'') des codons, on peut estimerles probabilités de tous les triplets dans les deux autres phases.

Exemple: TTT en phase 1: NTTTNN

probabilité = P1(TTT) = P0(NTT) x P0(TNN)= [P0(ATT)+P0(CTT)+P0(GTT)+P0(TTT)] x P0(TNN)

P1(ABC) = P0(NAB) P0(CNN)P2(ABC) = P1(NAB) P1(CNN)

ATGAGTAAGCTGAAAGAGTACAGAP0P1

P2

Phase 0

Phase 2Phase 1

Construction d'un modèle de Markovcomplexe simulant les séquences codantes

p(ek|ek1 ek2) = pi(k)(ek|ek1 ek2)


P2

Phase 0

Phase 2Phase 1

On peut maintenant construire un modèle de Markov avec une probabilité de transition ek2 ek1 e→ k

qui dépend de la phase courante i(k):

Construction d'un modèle de Markovcomplexe simulant les séquences codantes


p(ek|ek1 ek2) = pi(k)(ek|ek1 ek2)


P2

Phase 0

Phase 2Phase 1

On peut maintenant construire un modèle de Markov avec une probabilité de transition ek2 ek1 e→ k

qui dépend de la phase courante i(k):

Flèches = transitions entre états

P(e1e2....en) = p(e1) p(e2|e1) p(e3|e2,e1) p(e4|e3,e2) ... p(en|en1,en2)

ATGAGTAAGCTGAAAGAGTACAGAGTGAACAGACAGATAAGGGCAAAGGAGTGCAGGCTTP0P1P2

On peut calculer la probabilité d'une séquence sous chaque hypothèse

Exemple 2: recherche a posteriori de la phase codante

1ère hypothèse:


2ème hypothèse:


3ème hypothèse:

Exemple: un gène d'E coli

ATGAAAGGCGGAAAACGAGTTCAAACGGCGCGCCCTAACCGTATCAATGGCGAAATTCGCGCCCCAGGAAGTTCG

25 premiers codons

prob(phase 0) = 1097 prob(phase 1) = 10105 prob(phase 2) = 10104

La phase correcte obtient une probabilité 107

fois supérieure à celle des deux autres.

Prédiction indépendante de la présence de codonsde démarrage ou de codons stop

Probabilités que la séquence soit produite par le modèle en phase 0, 1, 2

S'il y a des erreurs de séquençage,le problème change de nature!

Modèles de Markov cachées, ou “HMM”

Hidden Markov Models

S'il y a des erreurs de séquençage,le problème change de nature

Les erreurs de séquençage et en particulier les insertions/délétionspeuvent fausser la détection des cadres ouverts de lecture

Décalages de phase

Evénements rares : fréquence p 1/1000

Comment repérer et corriger les erreurs de séquençage ?

Modèle de Markov de séquence codante avec erreurs:notion de modèle de Markov “caché”


L'objet: une séquence supposée codante, pouvantcontenir une petite fraction d'erreurs, sous formed'insertions ou délétions survenues lors du séquençage

Position des erreurs: inconnue

Phase de lecture: inconnue et changeante (rarement)

L'objectif: décoder la séquence, donc identifier lecadre de lecture à chaque position dans la séquence

Le modèle de Markov: doit génèrer des séquences “codantes” plus une petite fraction de décalages de phase

Modèle de séquences codantes avec erreurs de phase

Phase 0 Phase 1 Phase 2Modèle deséquencessans erreurs


On autorise des transitions correspondant aux erreurs de phase:insertions/délétions (en pointillés rouges):

Phase 0 Phase 1 Phase 2Modèle deséquencessans erreurs

Modèle deséquencesavec erreurs

p

p

Modèle de séquences codantes avec erreurs de phase

Modèle de séquences avec erreurs de phase

On autorise des transitions correspondant aux erreurs de phase (pointillés):

Ce modèle permet de générer des séquences, mais pas decalculer des probabilités a posteriori.

En effet, pour un nucléotide donné dans une séquence analysée, il y a 3 états possiblesde la chaîne de Markov (phases 0, 1, 2).

En pratique, on ne “voit” pas l'état détaillé de la chaîne de Markov,seulement le nucléotide produit...

Modèle de Markov caché ou “HMM”


p

p

Modèle de Markov caché

Connaitre la phase codante à chaque position


p

p

Ce qui intéresse la/le biologiste, pour une séquence donnée, c'est de pouvoir reconstruire le parcours correspondant dans l'automate ci-dessous:



A chaque étape du processus de Markov, on va1) changer de phase ou non2) produire un nucléotide

Vocabulaire: on dit que le nucléotide est “émis”;à chaque état du modèle correspond une distributionde probabilité pour la production (l'émission) des nucléotides


p

p


Connaitre la phase codante à chaque position

Pour une séquence de longueur n, il y a 3n parcours possibles!

Heureusement, il y a....



p

p

La programmation dynamique!

On cherchera le parcours le plus probable,avec une méthode récursive (simple).



p

p

Exemples de parcours

Séquence nucléotidique: ATGAGTAAG

phase 0

phase 1

phase 2

Un chemin qui démarre en phase 0 etavec une insertion et une délétion

ATGAGTAAG

ATGAGTAAG

Un chemin qui démarre en phase 0et sans aucune erreur de phase

Phase 0 Phase 1 Phase 2 Phase 0 etc

Exemples de parcours

Séquence nucléotidique: ATGAGTAAG

phase 0

phase 1

phase 2

Un chemin qui démarre en phase 0 etavec une insertion et une délétion

ATGAGTAAG

Un chemin qui démarre en phase 0et sans aucune erreur de phase

Lequel des deux chemins est le plus probable? Facile.Parmi les 39 = 19683 chemins possibles, quel est le plus probable?

Nettement plus difficile.

ATGAGTAAG

Recherche du chemin le plus probablepar programmation dynamique:

algorithme de Viterbi

Pour k= 1,...,n:

On calcule la probabilité P(i,k) du meilleur chemin de 1 à k se terminant dans la phase i, avec le bon nucléotide n

k émis en k:

remplissage récursif d'une table 3 x n

phase 0

phase 1

phase 2P(1,k)



Pour k= 1,...,n:On calcule la probabilité P(i,k) du meilleur chemin de 1 à k,se terminant dans la phase i (i=0, 1, ou 2):

P(i,k) = max [ P(j,k1) pj,i(ek|ek1,ek2) ]j=0,1,2

On a la relation récursive:

probabilité de transition+émission en supposant une phase j en k1 et une phase i en k:

pj,i(ek|ek1,ek2) = p(j i) → x pi(ek|ek1,ek2) transition émission ( ou 12) (dépend de i)



probabilité en supposantune phase j en k1et une phase i en k

On a la relation récursive:

i=0

i=1

i=2

k1 k

Si i = j+1 [3], transition standard;sinon, p

j,i =


Algorithme de Viterbi

Pour k = 1,...,n:On calcule la probabilité P(i,k) du meilleur chemin de 1 à k se terminant dans la phase i:

Remplissage d'une table P de dimensions 3 × n :

phase 0 p0(n

0)

phase 1 p1(n

0)

phase 2 p2(n

0)

initialisation


0 1 2 ...

ATTAAAGGCGGAAAACGAGTTCAAACGGCGCGCCCTAACCGTATCAATGG CGAAATTCGCGCCCCAGGAAGTTCGCTTAACAGGTCTGGAAGGCGAGCAG CTTGGTATTGTGAGTCTGAGAGAAGCTCTGGAGAAAGCAGAAGAAGCCGG AGTAGACTTAGTCGAGATCAGCCTAACGCCGAGCCGCCGGTTTGTCGTAT

phase 0

phase 1

phase 2

nProbabilitémaximale

sauts de phase

Algorithme de Viterbi

Pour simplifierle dessin, onne montre la

phase que pourune base sur 3.

Exemple: une portion du gène infC de E. colien gris: résultat expérimental; souligné: prédiction de Viterbi

délétion délétion

Ingrédients utilisés: la table d'utilisation des codons d'E. coli une valeur pour la probabilité p de saut de phase

Grandeurs intermédiaires: les tables de fréquence P

i des trinucléotides dans les 3 phases i possibles

les probabilités pj,i(ek|ek1,ek2)

Relation de récursion et initialisation: simples


p

p

Les HMM ont de très nombreuses applications

Cf chap 5 du livre de cours

Martin et al, BMC Struct Biol, 2006

Les HMM ont de très nombreuses applications

Pour en savoir (beaucoup) plus:Biological sequence analysis:

probabilistic models of proteins and nucleic acidsR Durbin, S Eddy, A Krogh, G Mitchison

● Alignements de séquences● Recherche de gènes● Classification de protéines● Phylogénie

Cf chap 5 du livre de cours

X

Y

M

p

q

1-p

1-2qq

1-p

p

Statistiques et séquences

Documents

Transcript of Statistiques et séquences