Analýza proteinových sekvencí
description
Transcript of Analýza proteinových sekvencí
![Page 1: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/1.jpg)
Analýza proteinových sekvencí
![Page 2: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/2.jpg)
Predikce fyzikálně-chemických vlastnostíPredikce membránových regionůPredikce motivů a doménDatabáze motivů a doménProhledávání databází motivů a domén
Osnova
2/42Analýza proteinových sekvencí
![Page 3: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/3.jpg)
ExPASy (Expert Protein Analysis System)
Predikce fyzikálně-chemických vlastností
3/42Analýza proteinových sekvencí
![Page 4: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/4.jpg)
ExPASy (Expert Protein Analysis System)Molekulová hmotnost
Izoelektrický bod
Extinkční koeficient
Postranslační modifikace
Místa proteasové digesce
Poločas rozkladu
Nestabilita
Predikce fyzikálně-chemických vlastností
4/42Analýza proteinových sekvencí
![Page 5: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/5.jpg)
ExPASy (Expert Protein Analysis System)
Predikce fyzikálně-chemických vlastností
5/42Analýza proteinových sekvencí
![Page 6: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/6.jpg)
Hydrofóbní segmenty v membránových proteinech
Predikce membránových regionů
6/42Analýza proteinových sekvencí
![Page 7: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/7.jpg)
ProtScalePredikce hydrofobicitního profilu ze sekvence
Predikce membránových regionů
7/42Analýza proteinových sekvencí
![Page 8: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/8.jpg)
TMHMMPredikce pravděpodobnostní metodou Skrytých Markovových Modelů
Predikce membránových regionů
8/42Analýza proteinových sekvencí
![Page 9: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/9.jpg)
TOPCONSKonsenzuální predikce topologie membránových proteinů
Predikce membránových regionů
9/42Analýza proteinových sekvencí
![Page 10: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/10.jpg)
Konzervované vzorce sekvencí jsou spojené s konkrétní
proteinovou rodinou, biologickými vlastnostmi nebo funkcí
Predikce motivů a domén
10/42Analýza proteinových sekvencí
![Page 11: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/11.jpg)
Konzervované vzorce sekvencí jsou spojené s konkrétní
proteinovou rodinou, biologickými vlastnostmi nebo funkcí
Klasifikace proteinových sekvencí
Identifikace strukturních a evolučních vztahů
Funkční anotace nových proteinů
Identifikace vazebných míst pro ligandy
Predikce postranslačních modifikací
Predikce sub-celulární lokalizace
Predikce motivů a domén
11/42Analýza proteinových sekvencí
![Page 12: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/12.jpg)
Predikce motivů a domén
12/42Analýza proteinových sekvencí
![Page 13: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/13.jpg)
Konzervované vzorce sekvencí jsou spojené s konkrétní
proteinovou rodinou, biologickými vlastnostmi nebo funkcíMotivy
Zpravidla krátké – 10-20 aminokyselinových zbytků
CGDAEEGDACCDGA
Predikce motivů a domén
13/42Analýza proteinových sekvencí
![Page 14: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/14.jpg)
Konzervované vzorce sekvencí jsou spojené s konkrétní
proteinovou rodinou, biologickými vlastnostmi nebo funkcíMotivy Domény
Delší než motivy – 40-700 aminokyselinových zbytků
Nezávislé strukturní a funkční jednotky
Predikce motivů a domén
14/42Analýza proteinových sekvencí
![Page 15: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/15.jpg)
Vytvářeny z multinásobného přiložení příbuzných sekvencíUloženy v databázích ve formě konsenzuální sekvence
Predikce motivů a domén
15/42Analýza proteinových sekvencí
![Page 16: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/16.jpg)
Vytvářeny z multinásobného přiložení příbuzných sekvencíUloženy v databázích ve formě konsenzuální sekvence
Predikce motivů a domén
16/42Analýza proteinových sekvencí
![Page 17: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/17.jpg)
Vytvářeny z multinásobného přiložení příbuzných sekvencíUloženy v databázích ve formě konsenzuální sekvence
Predikce motivů a domén
17/42Analýza proteinových sekvencí
![Page 18: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/18.jpg)
Vytvářeny z multinásobného přiložení příbuzných sekvencíUloženy v databázích ve formě konsenzuální sekvence
Regulární výrazy
Predikce motivů a domén
18/42Analýza proteinových sekvencí
![Page 19: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/19.jpg)
Vytvářeny z multinásobného přiložení příbuzných sekvencíUloženy v databázích ve formě konsenzuální sekvence
Regulární výrazy
E-X(2)-[FHM]-X(4)-{P}-L
Predikce motivů a domén
19/42Analýza proteinových sekvencí
![Page 20: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/20.jpg)
Vytvářeny z multinásobného přiložení příbuzných sekvencíUloženy v databázích ve formě konsenzuální sekvence
Regulární výrazy
E-X(2)-[FHM]-X(4)-{P}-L
zbytek E je následován 2 libovolnými zbytky
Predikce motivů a domén
20/42Analýza proteinových sekvencí
![Page 21: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/21.jpg)
Vytvářeny z multinásobného přiložení příbuzných sekvencíUloženy v databázích ve formě konsenzuální sekvence
Regulární výrazy
E-X(2)-[FHM]-X(4)-{P}-L
zbytek E je následován 2 libovolnými zbytky
následovanými F nebo H nebo M zbytky
Predikce motivů a domén
21/42Analýza proteinových sekvencí
![Page 22: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/22.jpg)
Vytvářeny z multinásobného přiložení příbuzných sekvencíUloženy v databázích ve formě konsenzuální sekvence
Regulární výrazy
E-X(2)-[FHM]-X(4)-{P}-L
zbytek E je následován 2 libovolnými zbytky
následovanými F nebo H nebo M zbytky
následovanými 4 libovolnými zbytky
Predikce motivů a domén
22/42Analýza proteinových sekvencí
![Page 23: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/23.jpg)
Vytvářeny z multinásobného přiložení příbuzných sekvencíUloženy v databázích ve formě konsenzuální sekvence
Regulární výrazy
E-X(2)-[FHM]-X(4)-{P}-L
zbytek E je následován 2 libovolnými zbytky
následovanými F nebo H nebo M zbytky
následovanými 4 libovolnými zbytky
následovanými jakýmkoliv zbytkem kromě P
Predikce motivů a domén
23/42Analýza proteinových sekvencí
![Page 24: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/24.jpg)
Vytvářeny z multinásobného přiložení příbuzných sekvencíUloženy v databázích ve formě konsenzuální sekvence
Regulární výrazy
E-X(2)-[FHM]-X(4)-{P}-L
zbytek E je následován 2 libovolnými zbytky
následovanými F nebo H nebo M zbytky
následovanými 4 libovolnými zbytky
následovanými jakýmkoliv zbytkem kromě P
následovaným zbytkem L
Predikce motivů a domén
24/42Analýza proteinových sekvencí
![Page 25: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/25.jpg)
Vytvářeny z multinásobného přiložení příbuzných sekvencíUloženy v databázích ve formě konsenzuální sekvence
Regulární výrazy Počet přesných hitů
D-A-V-I-D 71
D-A-V-I-[DENQ] 252
[DENQ]-A-V-I-[DENQ] 925
[DENQ]-A-[VLI]-I-[DENQ] 2739
[DENQ]-[AQ]-[VLI]2-[DENQ] 51506
Predikce motivů a domén
25/42Analýza proteinových sekvencí
![Page 26: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/26.jpg)
Vytvářeny z multinásobného přiložení příbuzných sekvencíUloženy v databázích ve formě konsenzuální sekvence
Regulární výrazy
Statistické modely (profily, bloky, Skryté Markovovy Modely)
Predikce motivů a domén
26/42Analýza proteinových sekvencí
![Page 27: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/27.jpg)
ManuálníInformativní díky kvalitním anotacím
Nízký počet položek
AutomatickéMéně informativní
Vysoký počet položek
Databáze motivů a domén
27/42Analýza proteinových sekvencí
![Page 28: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/28.jpg)
Databáze motivů a domén
28/42Analýza proteinových sekvencí
![Page 29: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/29.jpg)
PROSITEMotivy navrženy manuálně kvalifikovanými odborníky
Motivy často krátké pro zvýšení specifiy
Shody nutno interpretovat opatrně!
Databáze motivů a domén
29/42Analýza proteinových sekvencí
![Page 30: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/30.jpg)
PROSITEHity versus hity s vysokým výskytem
Rozpoznání hitů = délka vzorce, informace o organismu,
identifikace
podobných vzorců, konzervovanost vzorce v přiložení
Databáze motivů a domén
30/42Analýza proteinových sekvencí
![Page 31: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/31.jpg)
Databáze motivů a domén
31/42Analýza proteinových sekvencí
BLOCKsBloky = segmenty multinásobného přiložení bez mezer
korespondující s nejkonzervovanějšími regiony v proteinech
![Page 32: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/32.jpg)
BLOCKsBloky = segmenty multinásobného přiložení bez mezer
korespondující s nejkonzervovanějšími regiony v proteinech
Databáze motivů a domén
32/42Analýza proteinových sekvencí
![Page 33: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/33.jpg)
PfamPřiložení domén vytvořené ze sekvencí databáze UniProtKB
Každá doména je reprezentována profilem Skrytých Markovových
Modelů vytvořeným z mnohonásobného přiložení
Obsahuje dvě části: Pfam-A z manuálního přiložení a Pfam-B
z automatického přiložení
Databáze motivů a domén
33/42Analýza proteinových sekvencí
![Page 34: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/34.jpg)
Pfam
Databáze motivů a domén
34/42Analýza proteinových sekvencí
![Page 35: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/35.jpg)
ProDomDatabáze proteinových domén automaticky vytvořenými ze
sekvencí databáze UniProtKB
Navržena jako vyčerpávájicí sbírka domén i bez znalosti funkce
Databáze motivů a domén
35/42Analýza proteinových sekvencí
![Page 36: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/36.jpg)
InterProŘeší problém redundance jednotlivých databází
Zahrnuje téměř všechny dostupné sekundární databáze:
PROSITE, Pfam, PRINTS, ProDom, SMART,…
Databáze motivů a domén
36/42Analýza proteinových sekvencí
![Page 37: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/37.jpg)
Simultánní prohledání několika databázíInterProScan
CD Server
Motif-Scan
Prohledávání databází motivů a domén
37/42Analýza proteinových sekvencí
![Page 38: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/38.jpg)
Simultánní prohledání několika databázíInterProScan
CD Server
Motif-Scan
Vysoké skóre a vysoká shoda = spolehlivá interpretaceZávěry téměř vždy správné
Nízké skóre nebo částečná shoda = problematická
interpretace Závěry vyžadují další podpůrná data
Prohledávání databází motivů a domén
38/42Analýza proteinových sekvencí
![Page 39: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/39.jpg)
InterProScanSrovnání prohledávané sekvence s InterPro databází
Hity a jejich umístění na sekvenci jsou vypsány přehledně
Prohledávání databází motivů a domén
39/42Analýza proteinových sekvencí
![Page 40: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/40.jpg)
CD ServerHity jsou vypsány s E-hodnotou
prohledává menší počet databází než InterProScan
Prohledávání databází motivů a domén
40/42Analýza proteinových sekvencí
![Page 41: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/41.jpg)
Motif-ScanHity jsou vypsány s E-hodnotou a normalizovaným skóre
Relevantní hity jsou označeny “!”
Prohledávání databází motivů a domén
41/42Analýza proteinových sekvencí
![Page 42: Analýza proteinových sekvencí](https://reader035.fdocument.pub/reader035/viewer/2022062218/56814d07550346895dba3783/html5/thumbnails/42.jpg)
Reference
42/42Analýza proteinových sekvencí
Claverie, J-M., & Notredame, C. (2006). Bioinformatics for Dummies (2nd ed.). Wiley Publishing, Hoboken, p. 436.
Xiong, J. (2006). Essential Bioinformatics, Cambridge University Press, New York, p. 352.
ExPASy: http://www.expasy.ch/ ProtScale: http://www.expasy.org/cgi-bin/protscale.pl TMHMM: http://www.cbs.dtu.dk/services/TMHMM-2.0/ TOPCONS: http://topcons.net/ PROSITE: http://www.expasy.org/prosite/ BLOCKs: http://blocks.fhcrc.org Pfam: http://pfam.sanger.ac.uk/ ProDom: http://prodom.prabi.fr/prodom/current/html/home.php InterPro: http://www.ebi.ac.uk/interpro/ InterProScan: http://www.ebi.ac.uk/Tools/InterProScan/ CD Search: http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi Motif-Scan: http://myhits.isb-sib.ch/cgi-bin/motif_scan