H idden M arkov M odel

HHidden idden MMarkov arkov MModelodel

A pozícó-specifikus mátrixok használatának A pozícó-specifikus mátrixok használatának továbbfejlesztése egy matematikai eljárás képében, továbbfejlesztése egy matematikai eljárás képében, ahol minden pozícióban külön valószínűsége van az ahol minden pozícióban külön valószínűsége van az egyes aminosavaknak, inszerciónak és deléciónakegyes aminosavaknak, inszerciónak és deléciónak

A matematkai módszer alkalmazható szekvencia-A matematkai módszer alkalmazható szekvencia-illesztésre, homológia-keresésre, gén-keresésre, stb.illesztésre, homológia-keresésre, gén-keresésre, stb.

A Hidden Markov Model általános szerkezeteA Hidden Markov Model általános szerkezete

1.1. A modellt A modellt fázisok,fázisok, átmenetekátmenetek és valószínűségek és valószínűségek alkotjákalkotják

2.2. Minden fázist sorban meglátogatunkMinden fázist sorban meglátogatunk3.3. Az egyes fázisok egy-egy Az egyes fázisok egy-egy jelet bocsátanak kijelet bocsátanak ki4.4. MindenMinden átmenetnekátmenetnek ésés kibocsátott jelkibocsátott jelnek nek

meghatározott meghatározott valószínűségevalószínűsége van van; ; ΣΣppii=1=15.5. A kibocsátott jelek láthatóak, míg a meglátogatott A kibocsátott jelek láthatóak, míg a meglátogatott

fázisok sorrendje rejtettfázisok sorrendje rejtett6.6. A felhasznált lépések valószínűségének szorzata adja A felhasznált lépések valószínűségének szorzata adja

annak a valószínűségét, hogy a modell a kibocsátott annak a valószínűségét, hogy a modell a kibocsátott jelek megfigyelhető sorrendjét szolgáltatjajelek megfigyelhető sorrendjét szolgáltatja

7.7. A valószínűségek az egyes fázisokban a többi fázistól A valószínűségek az egyes fázisokban a többi fázistól függetlenek (távoli hatásokat nem vesz figyelembe)függetlenek (távoli hatásokat nem vesz figyelembe)

1. példa1. példa:: ““Egy (végtelen) szekvencia adott része Egy (végtelen) szekvencia adott része AT-gazdag AT-gazdag vagy GC-gazdag?”vagy GC-gazdag?”

A DNS szekvenciának kétFÉLE szakasza van: A DNS szekvenciának kétFÉLE szakasza van: AT-gazdag (1) és AT-gazdag (1) és GC-gazdag (2)GC-gazdag (2)

AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.)AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.)(ezért „szakasz”)(ezért „szakasz”)

AT-gazdag szakaszban is lehet G/C (és ford.)AT-gazdag szakaszban is lehet G/C (és ford.) A GC-gazdag régiókban kicsit több a G, mint a C A GC-gazdag régiókban kicsit több a G, mint a C

(ebben a kitalált esetben, ezen DNS-nek ezen a láncán)(ebben a kitalált esetben, ezen DNS-nek ezen a láncán) A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszokA GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok

Ezek alapján három dolgot rendelünk egymáshoz:A megfigyelt szekvenciátA DNS szakasz „tulajdonságát” (1 v. 2) (AT v. GC)A modellt

(Ezek közül kettőből TÖBB KÜLÖNBÖZŐ harmadik lenne származtatható)

Megfigyeltszekvencia

Markov-lánc

Modell

Megfigyelések:

1. példa1. példa:: ““Egy (végtelen) szekvencia adott része Egy (végtelen) szekvencia adott része AT-gazdag AT-gazdag vagy GC-gazdag?”vagy GC-gazdag?”

Két fázis

A Modell

Jelek és kibocsátási valószínűségeik

Fázis-átmeneti valószínűségek

Egy lehetségesEgy lehetséges „Markov-chain”

A megfigyeltszekvencia

Ezen valószínűségek szorzata adja meg annak a valószínűségét, hogy ezez a HMM ezzelezzel a fázis-sorrenddel eztezt a szimbólum-szekvenciát generálja

Két fázis

Fázis-átmeneti valószínűségek

Jelek és kibocsátási valószínűségeik

Egy lehetségesEgy lehetséges „Markov-chain”

A Modell

A megfigyeltszekvencia

A megválaszolható kérdésekA megválaszolható kérdések

1. Az adott HMM milyen valószínűséggel generálja az adott szekvenciát? (Scoring)

2. Melyik az optimális fázis szekvencia, amit a HMM használna az adott szekvencia generálásához? (Alignment)

3. Egy nagy adathalmazt milyen paraméterekkel határozna meg legjobban az adott HMM? (Training)

Minden lehetséges út kiszámítása rendkívül időigényes lenne,Minden lehetséges út kiszámítása rendkívül időigényes lenne,emiatt itt is speciális algoritmusokat alkalmazunkemiatt itt is speciális algoritmusokat alkalmazunk

Scoring:Scoring:Forward algoritmusForward algoritmus

A megelőző valószínűségek összegeA megelőző valószínűségek összege

Alignment:Alignment:Viterbi algoritmusViterbi algoritmus

A megelőző valószínűségek legnagyobbika + back-trackingA megelőző valószínűségek legnagyobbika + back-tracking

Training Training Forward-Backward algoritmusForward-Backward algoritmus

Multiple alignment esetén lokális minimumok kivédéséreMultiple alignment esetén lokális minimumok kivédéséretovábbi módszerek („noise injection”, „simulated annealing”)további módszerek („noise injection”, „simulated annealing”)

2. példa: “5’ prime splice site”

Profile-HMM

Példa: Profile vs.HMM

Vezérelv: Több adattal és alaposabb módszerrel pontosabb eredményt lehet kapni

PROFILE

HMM

HMMER2A jelenleg talán legjobb program homológia keresésre és hasonló feladatokra

Az evolúció során fellépő mutációk a fehérje szerkezetében nem okoznak azonnal változásokat

•Bizonyos szintű homológia mellett az adott funkciót hasonló szerkezet tartja(kivétel: konvergens evolúció!!!)

•Emiatt a szerkezet felderítése segíthet a funkció megtalálásában

G=H-TS 3D szerkezet3D szerkezet

a priori fizikai-kémiai módszerekkel (még) nem tudjuk meghatározni (kiszámolni) a fehérjék szerkezetét

Hasonló funkció Hasonló szerkezet

Hogyan határozhatjuk meg a szerkezetet a szekvenciából?

VIGYÁZAT!!!A fehérje szerkezetek nem nagyon stabilakÁlt. 20-60kJ/mol (5-15kcal/mol) stabilabbak, mint a denaturált foma

(1-2 H2O-H2O H-H kötés)

Közeli homológgal nem rendelkező fehérjék funkciójának meghatározása homológia alapján

15000 protein szerkezete ismert

A hasonlóság elve alapján következtethetünk egyes sajátságokra

szekvencia

KÍSÉRLET

FASTA, BLAST PSI-BLAST, HMM

Másodlagos szerkezet Fold recognition

Vélt funkcióMol.biol, Biochem

SCOP, ...

CASP

A fehérje molekula több doménből épülhet fel

• A domének szerkezetileg és részben funkcionálisan független egységek

• Szerkezetük ill. funkciójuk külön-külön vizsgálandó• Egy domén: gyakran több motif• A domének független evoluciója következtében az egyes domének

magasabb homológiát mutathatnak, mint a teljes fehérje • A fehérjéket domének szerint csoportosíthatjuk

Conserved Domain Database (CDD) (NCBI)

Simple Modular Architecture Research Tool (SMART)

Sasisekharan-Ramakrishnan-Ramchandran plot

A peptid kötés ált. sík (ált. trans ill a prolinnál cis)Az elvileg szabadon forgatható kötések energetikailag kedvező konformációi kijelölik kedvező másodlagos szerkezetet6-20 αR konformáció: α hélixtöbb β-konformáció: „extended szerkezet” – β strand

2 v. több β strand: β sheet

Másodlagos szerkezeti elemek előrejelzése

• Hidrofil- és hidrofób oldalláncok váltakozása 2(β) ill. 3,5(α) aminoavanként– α helix hidrofil- és hidrofób oldala: Helical

wheel

• Hosszabb (15-30 aa) hidrofób régió: TM

• Az egyes aminosavaknak az egyes másodlagos szerkezetekben való eloszlási valószínűsége különbözik

• Sok egyéb

• A kicsiny energetikai különbségek miatt pontosan nem lehet megjósolni (a határokat különösen)

• A megbízhatóság növelése érdekében minden lehetséges információt fel kell használni– Új modellek, új algoritmusok

– Homológ fehérjeszekvenciák (Multiple Alignment)

– Hasonló célú programok eredményei

• JPRED– A módszerek értékelése

• CASP

Másodlagos szerkezeti elemek előrejelzése

A harmadlagos szerkezet meghatározására több független megközelítést alkalmaznak

– (Ismert szerkezetű homológ esetén: homológia modellezés)

– 3D profiles (Adott szerkezetekben az egyes aminosavak környezete nem véletlen szerű. Az oldalláncok csoportosítása 6 csoportba, és a másodlagos szerkezetek 3 csoportba sorolása lehetővé teszi az aminosavak kódolását. Ezek között ezután

„Folding Pattern” keresést lehet végezni)– Threading (készítsünk szerkezeteket a kérdéses

molekulából, majd „gap”-ek közbeiktatásával illesszük ezeket

az ismert 3D szerkezetekre)– ...

Harmadlagos szerkezetek osztályozása (egymásra kereszthivatkozó) speciális adatbázisokkal történik

• SCOP: (Structural Classification of Proteins)– Domains (a PDB adatbázisból)– Families (Homológ domének. Szekveniájuk, szerkezetük ill. funkciójuk

hasonlósága közös őst valószínűsít)– Superfamilies (Hasomló szerkezetű és funkciójú fehérjék családjai, ahol a

rokonság valószínűsíthető, de nem bizonyított)– Folds (hasonló topológiájú „Superfamilies”– CLASS (all-α; all-β; α/β; α+β, multi-domén; membrán- és sejtfelszín;

egyéb kis proteinek, peptidek;)

• CATH: protein domain szerkezetek hierarchikus osztályozása négy szinten: Class(C), Architecture(A), Topology(T) and Homologous superfamily (H).

• ...

http://www.biochem.ucl.ac.uk/bsm/cath_new/cath_info.html#C_Level

http://www.biochem.ucl.ac.uk/bsm/cath_new/cath_info.html#A_Level

http://www.biochem.ucl.ac.uk/bsm/cath_new/cath_info.html#T_Level

http://www.biochem.ucl.ac.uk/bsm/cath_new/cath_info.html#H_Level

• Protein: Flavodoxin from Anabaena• Lineage:1. Root: scop 2. Class: Alpha and beta proteins (a/b) [51349]

Mainly parallel beta sheets (beta-alpha-beta units) 3. Fold: Flavodoxin-like [52171]

3 layers, a/b/a; parallel beta-sheet of 5 strand, order 21345 4. Superfamily: Flavoproteins [52218] 5. Family: Flavodoxin-related [52219]

binds FMN 6. Protein: Flavodoxin [52220] 7. Species: Anabaena, pcc 7119 and 7120 [52223]

• PDB Entry Domains:1. 1obo

complexed with fmn, so4; mutant 1. chain a [86776] 2. chain b [86777]

2. 1rcf [31170] complexed with fmn, so4

3. 1dx9 apo form complexed with so4; mutant

1. chain a [31171] 2. chain b [31172] • chain c [31173]

http://scop.mrc-lmb.cam.ac.uk/scop/data/scop.b.html

http://scop.mrc-lmb.cam.ac.uk/scop/data/scop.b.d.html

http://scop.mrc-lmb.cam.ac.uk/scop/data/scop.b.d.ce.html

http://scop.mrc-lmb.cam.ac.uk/scop/data/scop.b.d.ce.f.html

http://scop.mrc-lmb.cam.ac.uk/scop/data/scop.b.d.ce.f.b.html

http://scop.mrc-lmb.cam.ac.uk/scop/data/scop.b.d.ce.f.b.d.html

http://scop.mrc-lmb.cam.ac.uk/scop/data/scop.b.d.ce.f.b.d.html

http://scop.mrc-lmb.cam.ac.uk/scop/pdb.cgi?pdb=1obo&sid=d1oboa_&disp=linkpdb

http://scop.mrc-lmb.cam.ac.uk/scop/rsgen.cgi?pd=1obo;pc=a

http://scop.mrc-lmb.cam.ac.uk/scop/rsgen.cgi?chime=1;pd=1obo;pc=a

http://scop.mrc-lmb.cam.ac.uk/scop/pdb.cgi?sid=d1oboa_&disp=scop

http://scop.mrc-lmb.cam.ac.uk/scop/rsgen.cgi?pd=1obo;pc=a

http://scop.mrc-lmb.cam.ac.uk/scop/rsgen.cgi?chime=1;pd=1obo;pc=a

http://scop.mrc-lmb.cam.ac.uk/scop/extlnk.cgi?&ver=1.65&sid=d1oboa_&tlev=px

http://scop.mrc-lmb.cam.ac.uk/scop/pdb.cgi?sid=d1obob_&disp=scop

http://scop.mrc-lmb.cam.ac.uk/scop/rsgen.cgi?pd=1obo;pc=b

http://scop.mrc-lmb.cam.ac.uk/scop/rsgen.cgi?chime=1;pd=1obo;pc=b

http://scop.mrc-lmb.cam.ac.uk/scop/extlnk.cgi?&ver=1.65&sid=d1obob_&tlev=px

http://scop.mrc-lmb.cam.ac.uk/scop/pdb.cgi?pdb=1rcf&sid=d1rcf__&disp=linkpdb

http://scop.mrc-lmb.cam.ac.uk/scop/rsgen.cgi?pd=1rcf

http://scop.mrc-lmb.cam.ac.uk/scop/rsgen.cgi?chime=1;pd=1rcf

http://scop.mrc-lmb.cam.ac.uk/scop/extlnk.cgi?&ver=1.65&sid=d1rcf__&tlev=px

http://scop.mrc-lmb.cam.ac.uk/scop/pdb.cgi?pdb=1dx9&sid=d1dx9a_&disp=linkpdb

http://scop.mrc-lmb.cam.ac.uk/scop/rsgen.cgi?pd=1dx9;pc=a

http://scop.mrc-lmb.cam.ac.uk/scop/rsgen.cgi?chime=1;pd=1dx9;pc=a

http://scop.mrc-lmb.cam.ac.uk/scop/pdb.cgi?sid=d1dx9a_&disp=scop

http://scop.mrc-lmb.cam.ac.uk/scop/rsgen.cgi?pd=1dx9;pc=a

http://scop.mrc-lmb.cam.ac.uk/scop/rsgen.cgi?chime=1;pd=1dx9;pc=a

http://scop.mrc-lmb.cam.ac.uk/scop/extlnk.cgi?&ver=1.65&sid=d1dx9a_&tlev=px

http://scop.mrc-lmb.cam.ac.uk/scop/pdb.cgi?sid=d1dx9b_&disp=scop

http://scop.mrc-lmb.cam.ac.uk/scop/rsgen.cgi?pd=1dx9;pc=b

A bioinformatika is kísérletes tudomány

• Kizárólag ab inito módszerekkel (energetikai minimalizálással) a teljes molekulák szerkezetének meghatározása nem megoldható

• „Knowledge-based” módszereket alkalmazunk• A „knowledge” egyre bűvül az ezen alapuló módszerek is

folyamatosan fejlődnek• A módszereket tesztelni kell (in silico KÍSÉRLET)

• CASP: Critical Assessment of Techniques for Protein Structure Prediction– 2 évente végzett „blind test”– Különböző nehézségi kategóriákban meghirdetett szekvenciák– Titokban tartott, újonnan meghatározott szerkezetekkel

CASP6 in numbers Data as of November 15, 2004

Number of human expert groups registered 201

Number of prediction servers registered 65

Number of targets released 87

Targets canceled before/after deadline 11/12

Targets assessed 64

Domains assessed 90

Accepted predictions

Prediction format Number of groups

contributing

Number of models designated as 1

for released targets (assessed targets)

Total number of models

for released targets (assessed targets)

3D coordinates 166 8686 (6992) 28965 (23119)

Alignments to PDB structures

37 1884 (1455) 5866 (4484)

Residue-residue contacts

17 1050 (830) 1776 (1397)

Structural domains assignments

24 1332 (1033) 1672 (1293)

Disordered regions 20 1429 (1144) 1769 (1420)

Function prediction 26 1067 (867) 1235 (990)

All 208 (unique) 15448 (12321) 41283 (32703)

A CASP4 eredményekkel összehasonlítva igen jó teljesítményt mutat

példa:

HMMSPECTR

Két, hasonló funkciójú de nagyon különböző szekvenciájú fehérje hasonló szerkezeti elemeinek kimutatása:

A bioinformatikában igen gyakran

több különálló programnak sok szekvenciával, sokszori futtatása során keletkező rengeteg, jellemzően szöveges file-t kell

» értelmezni, » értékelni, ezek alapján » dönteni a továbi lépésekről.

Ez a tevékenység maga is egy számítógépes felhasználásTöbbek között az ilyen feladatok ellátásának is széles körben elterjedt eszköze a

PERLPERL

Ezzel foglalkozunk a következő órán

H idden M arkov M odel

Documents

Transcript of H idden M arkov M odel