H idden M arkov M odel
description
Transcript of H idden M arkov M odel
HHidden idden MMarkov arkov MModelodel
A pozícó-specifikus mátrixok használatának A pozícó-specifikus mátrixok használatának továbbfejlesztése egy matematikai eljárás képében, továbbfejlesztése egy matematikai eljárás képében, ahol minden pozícióban külön valószínűsége van az ahol minden pozícióban külön valószínűsége van az egyes aminosavaknak, inszerciónak és deléciónakegyes aminosavaknak, inszerciónak és deléciónak
A matematkai módszer alkalmazható szekvencia-A matematkai módszer alkalmazható szekvencia-illesztésre, homológia-keresésre, gén-keresésre, stb.illesztésre, homológia-keresésre, gén-keresésre, stb.
A Hidden Markov Model általános szerkezeteA Hidden Markov Model általános szerkezete
1.1. A modellt A modellt fázisok,fázisok, átmenetekátmenetek és valószínűségek és valószínűségek alkotjákalkotják
2.2. Minden fázist sorban meglátogatunkMinden fázist sorban meglátogatunk3.3. Az egyes fázisok egy-egy Az egyes fázisok egy-egy jelet bocsátanak kijelet bocsátanak ki4.4. MindenMinden átmenetnekátmenetnek ésés kibocsátott jelkibocsátott jelnek nek
meghatározott meghatározott valószínűségevalószínűsége van van; ; ΣΣppii=1=15.5. A kibocsátott jelek láthatóak, míg a meglátogatott A kibocsátott jelek láthatóak, míg a meglátogatott
fázisok sorrendje rejtettfázisok sorrendje rejtett6.6. A felhasznált lépések valószínűségének szorzata adja A felhasznált lépések valószínűségének szorzata adja
annak a valószínűségét, hogy a modell a kibocsátott annak a valószínűségét, hogy a modell a kibocsátott jelek megfigyelhető sorrendjét szolgáltatjajelek megfigyelhető sorrendjét szolgáltatja
7.7. A valószínűségek az egyes fázisokban a többi fázistól A valószínűségek az egyes fázisokban a többi fázistól függetlenek (távoli hatásokat nem vesz figyelembe)függetlenek (távoli hatásokat nem vesz figyelembe)
1. példa1. példa:: ““Egy (végtelen) szekvencia adott része Egy (végtelen) szekvencia adott része AT-gazdag AT-gazdag vagy GC-gazdag?”vagy GC-gazdag?”
A DNS szekvenciának kétFÉLE szakasza van: A DNS szekvenciának kétFÉLE szakasza van: AT-gazdag (1) és AT-gazdag (1) és GC-gazdag (2)GC-gazdag (2)
AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.)AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.)(ezért „szakasz”)(ezért „szakasz”)
AT-gazdag szakaszban is lehet G/C (és ford.)AT-gazdag szakaszban is lehet G/C (és ford.) A GC-gazdag régiókban kicsit több a G, mint a C A GC-gazdag régiókban kicsit több a G, mint a C
(ebben a kitalált esetben, ezen DNS-nek ezen a láncán)(ebben a kitalált esetben, ezen DNS-nek ezen a láncán) A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszokA GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok
Ezek alapján három dolgot rendelünk egymáshoz:A megfigyelt szekvenciátA DNS szakasz „tulajdonságát” (1 v. 2) (AT v. GC)A modellt
(Ezek közül kettőből TÖBB KÜLÖNBÖZŐ harmadik lenne származtatható)
Megfigyeltszekvencia
Markov-lánc
Modell
Megfigyelések:
1. példa1. példa:: ““Egy (végtelen) szekvencia adott része Egy (végtelen) szekvencia adott része AT-gazdag AT-gazdag vagy GC-gazdag?”vagy GC-gazdag?”
Két fázis
A Modell
Jelek és kibocsátási valószínűségeik
Fázis-átmeneti valószínűségek
Egy lehetségesEgy lehetséges „Markov-chain”
A megfigyeltszekvencia
Ezen valószínűségek szorzata adja meg annak a valószínűségét, hogy ezez a HMM ezzelezzel a fázis-sorrenddel eztezt a szimbólum-szekvenciát generálja
Két fázis
Fázis-átmeneti valószínűségek
Jelek és kibocsátási valószínűségeik
Egy lehetségesEgy lehetséges „Markov-chain”
A Modell
A megfigyeltszekvencia
A megválaszolható kérdésekA megválaszolható kérdések
1. Az adott HMM milyen valószínűséggel generálja az adott szekvenciát? (Scoring)
2. Melyik az optimális fázis szekvencia, amit a HMM használna az adott szekvencia generálásához? (Alignment)
3. Egy nagy adathalmazt milyen paraméterekkel határozna meg legjobban az adott HMM? (Training)
Minden lehetséges út kiszámítása rendkívül időigényes lenne,Minden lehetséges út kiszámítása rendkívül időigényes lenne,emiatt itt is speciális algoritmusokat alkalmazunkemiatt itt is speciális algoritmusokat alkalmazunk
Scoring:Scoring:Forward algoritmusForward algoritmus
A megelőző valószínűségek összegeA megelőző valószínűségek összege
Alignment:Alignment:Viterbi algoritmusViterbi algoritmus
A megelőző valószínűségek legnagyobbika + back-trackingA megelőző valószínűségek legnagyobbika + back-tracking
Training Training Forward-Backward algoritmusForward-Backward algoritmus
Multiple alignment esetén lokális minimumok kivédéséreMultiple alignment esetén lokális minimumok kivédéséretovábbi módszerek („noise injection”, „simulated annealing”)további módszerek („noise injection”, „simulated annealing”)
2. példa: “5’ prime splice site”
Profile-HMM
Példa: Profile vs.HMM
Vezérelv: Több adattal és alaposabb módszerrel pontosabb eredményt lehet kapni
PROFILE
HMM
HMMER2A jelenleg talán legjobb program homológia keresésre és hasonló feladatokra
Az evolúció során fellépő mutációk a fehérje szerkezetében nem okoznak azonnal változásokat
•Bizonyos szintű homológia mellett az adott funkciót hasonló szerkezet tartja(kivétel: konvergens evolúció!!!)
•Emiatt a szerkezet felderítése segíthet a funkció megtalálásában
G=H-TS 3D szerkezet3D szerkezet
a priori fizikai-kémiai módszerekkel (még) nem tudjuk meghatározni (kiszámolni) a fehérjék szerkezetét
Hasonló funkció Hasonló szerkezet
Hogyan határozhatjuk meg a szerkezetet a szekvenciából?
VIGYÁZAT!!!A fehérje szerkezetek nem nagyon stabilakÁlt. 20-60kJ/mol (5-15kcal/mol) stabilabbak, mint a denaturált foma
(1-2 H2O-H2O H-H kötés)
Közeli homológgal nem rendelkező fehérjék funkciójának meghatározása homológia alapján
15000 protein szerkezete ismert
A hasonlóság elve alapján következtethetünk egyes sajátságokra
szekvencia
KÍSÉRLET
FASTA, BLAST PSI-BLAST, HMM
Másodlagos szerkezet Fold recognition
Vélt funkcióMol.biol, Biochem
SCOP, ...
CASP
A fehérje molekula több doménből épülhet fel
• A domének szerkezetileg és részben funkcionálisan független egységek
• Szerkezetük ill. funkciójuk külön-külön vizsgálandó• Egy domén: gyakran több motif• A domének független evoluciója következtében az egyes domének
magasabb homológiát mutathatnak, mint a teljes fehérje • A fehérjéket domének szerint csoportosíthatjuk
Conserved Domain Database (CDD) (NCBI)
Simple Modular Architecture Research Tool (SMART)
Sasisekharan-Ramakrishnan-Ramchandran plot
A peptid kötés ált. sík (ált. trans ill a prolinnál cis)Az elvileg szabadon forgatható kötések energetikailag kedvező konformációi kijelölik kedvező másodlagos szerkezetet6-20 αR konformáció: α hélixtöbb β-konformáció: „extended szerkezet” – β strand
2 v. több β strand: β sheet
Másodlagos szerkezeti elemek előrejelzése
• Hidrofil- és hidrofób oldalláncok váltakozása 2(β) ill. 3,5(α) aminoavanként– α helix hidrofil- és hidrofób oldala: Helical
wheel
• Hosszabb (15-30 aa) hidrofób régió: TM
• Az egyes aminosavaknak az egyes másodlagos szerkezetekben való eloszlási valószínűsége különbözik
• Sok egyéb
• A kicsiny energetikai különbségek miatt pontosan nem lehet megjósolni (a határokat különösen)
• A megbízhatóság növelése érdekében minden lehetséges információt fel kell használni– Új modellek, új algoritmusok
– Homológ fehérjeszekvenciák (Multiple Alignment)
– Hasonló célú programok eredményei
• JPRED– A módszerek értékelése
• CASP
Másodlagos szerkezeti elemek előrejelzése
A harmadlagos szerkezet meghatározására több független megközelítést alkalmaznak
– (Ismert szerkezetű homológ esetén: homológia modellezés)
– 3D profiles (Adott szerkezetekben az egyes aminosavak környezete nem véletlen szerű. Az oldalláncok csoportosítása 6 csoportba, és a másodlagos szerkezetek 3 csoportba sorolása lehetővé teszi az aminosavak kódolását. Ezek között ezután
„Folding Pattern” keresést lehet végezni)– Threading (készítsünk szerkezeteket a kérdéses
molekulából, majd „gap”-ek közbeiktatásával illesszük ezeket
az ismert 3D szerkezetekre)– ...
Harmadlagos szerkezetek osztályozása (egymásra kereszthivatkozó) speciális adatbázisokkal történik
• SCOP: (Structural Classification of Proteins)– Domains (a PDB adatbázisból)– Families (Homológ domének. Szekveniájuk, szerkezetük ill. funkciójuk
hasonlósága közös őst valószínűsít)– Superfamilies (Hasomló szerkezetű és funkciójú fehérjék családjai, ahol a
rokonság valószínűsíthető, de nem bizonyított)– Folds (hasonló topológiájú „Superfamilies”– CLASS (all-α; all-β; α/β; α+β, multi-domén; membrán- és sejtfelszín;
egyéb kis proteinek, peptidek;)
• CATH: protein domain szerkezetek hierarchikus osztályozása négy szinten: Class(C), Architecture(A), Topology(T) and Homologous superfamily (H).
• ...
• Protein: Flavodoxin from Anabaena• Lineage:1. Root: scop 2. Class: Alpha and beta proteins (a/b) [51349]
Mainly parallel beta sheets (beta-alpha-beta units) 3. Fold: Flavodoxin-like [52171]
3 layers, a/b/a; parallel beta-sheet of 5 strand, order 21345 4. Superfamily: Flavoproteins [52218] 5. Family: Flavodoxin-related [52219]
binds FMN 6. Protein: Flavodoxin [52220] 7. Species: Anabaena, pcc 7119 and 7120 [52223]
• PDB Entry Domains:1. 1obo
complexed with fmn, so4; mutant 1. chain a [86776] 2. chain b [86777]
2. 1rcf [31170] complexed with fmn, so4
3. 1dx9 apo form complexed with so4; mutant
1. chain a [31171] 2. chain b [31172] • chain c [31173]
A bioinformatika is kísérletes tudomány
• Kizárólag ab inito módszerekkel (energetikai minimalizálással) a teljes molekulák szerkezetének meghatározása nem megoldható
• „Knowledge-based” módszereket alkalmazunk• A „knowledge” egyre bűvül az ezen alapuló módszerek is
folyamatosan fejlődnek• A módszereket tesztelni kell (in silico KÍSÉRLET)
• CASP: Critical Assessment of Techniques for Protein Structure Prediction– 2 évente végzett „blind test”– Különböző nehézségi kategóriákban meghirdetett szekvenciák– Titokban tartott, újonnan meghatározott szerkezetekkel
CASP6 in numbers Data as of November 15, 2004
Number of human expert groups registered 201
Number of prediction servers registered 65
Number of targets released 87
Targets canceled before/after deadline 11/12
Targets assessed 64
Domains assessed 90
Accepted predictions
Prediction format Number of groups
contributing
Number of models designated as 1
for released targets (assessed targets)
Total number of models
for released targets (assessed targets)
3D coordinates 166 8686 (6992) 28965 (23119)
Alignments to PDB structures
37 1884 (1455) 5866 (4484)
Residue-residue contacts
17 1050 (830) 1776 (1397)
Structural domains assignments
24 1332 (1033) 1672 (1293)
Disordered regions 20 1429 (1144) 1769 (1420)
Function prediction 26 1067 (867) 1235 (990)
All 208 (unique) 15448 (12321) 41283 (32703)
A CASP4 eredményekkel összehasonlítva igen jó teljesítményt mutat
példa:
HMMSPECTR
Két, hasonló funkciójú de nagyon különböző szekvenciájú fehérje hasonló szerkezeti elemeinek kimutatása:
A bioinformatikában igen gyakran
több különálló programnak sok szekvenciával, sokszori futtatása során keletkező rengeteg, jellemzően szöveges file-t kell
» értelmezni, » értékelni, ezek alapján » dönteni a továbi lépésekről.
Ez a tevékenység maga is egy számítógépes felhasználásTöbbek között az ilyen feladatok ellátásának is széles körben elterjedt eszköze a
PERLPERL
Ezzel foglalkozunk a következő órán