Post on 12-Jan-2016
description
Stránky praktika
http://web.natur.cuni.cz/zoologie/biodiversity/
(http://www.natur.cuni.cz/~muncling)
Kde se dozvědět více?
• Kurz Computational Genomics(Marc VanRanst)Bioinformatics bookmarks(http://www.kuleuven.ac.be/rega/mvr/bioinformatics.htm)
• Úvod do bioinformatiky/Základy bioinformatiky(F. Cvrčková)
• Molekulární ekologie(letní semestr, populační genetika, analýza paternity)
Databáze sekvencí
Primární databáze DNA sekvencíRefSeqGenomové databáze
Primární databáze DNA sekvencíInternational Nucleotide Sequence Databases (INSD)
GenBank(National Center for
Biotechnology Information)USA
DNA Data Bank of Japan (DDBJ)
(National Institute of Genetics)Japan
European Nucleotide Archive
(European Bioinformatics Institute)Europe
Your submission Your submission
Your submission
RefSeq: Databáze unikátních sekvencí
Provozována NCBI Kurátorovaná databáze založená na sekvencích získaných z
primárních databázích Unikátní sekvence genu/transkriptu/proteinu pro jednotlivé
organismy/ekomorfy/varianty
Genomové databáze
Skladují anotované assembly celých genomů + veškerá metadata asociovaná se sekvencemi nebo geny/transkripty/ proteiny: Sekvence, geny, transkripty, proteiny, proteinové rodiny, paralogy,
orthology, mezidruhové alignmenty, genové exprese, varianty (SNPs), repetitivní elementy, mikrosatelity, strukturální změny, genová regulace, fenotypy apod.
http://www.ensembl.org/
http://www.ncbi.nlm.nih.gov/
http://genome.ucsc.edu/
Genomové databáze
Veškerá data jou vzájemně propojena pomocí identifikátorů a pozic v genomech:
Sekvence Gen Transkript Exprese Funkce
http://www.ensembl.org/
http://www.ncbi.nlm.nih.gov/
http://genome.ucsc.edu/
Manipulace se sekvencemi
Uchovávání sekvencíAlignmentBLAST
Uchovávání sekvencí
• Sekvence uchovávány ve formě textu v klasickém textovém souboru (možno editovat v notepadu, textpadu, apod. nebo ve specifických programech určených k manipulaci a editaci sekvencí – např. BioEdit)
• V textových souborech uchovávány ve specifickém tvaru:
– FASTA (.fa, .fas, .fasta)
– GenBank (.gb)
• V každém souboru 1 i více sekvencí
FASTA
>gi|148832288|gb|EF443167.1| Rhinopoma hardwickei haplotype 2949 cytochrome b gene, partial cds; mitochondrial
ATGACCCACATCCGAAAATCCCACCCCTTATTCAAAATTATCAACGACTCATTCATCGACCTACCAGCTCCATCAAACATTTCCTCCTGATGAAATTTTGGGTCCCTACTAGGTATTTGTTTAGCTGTACAAATCTTAACAGGACTGTTCCTAGCAATACATTATACATCAGATACCACAACCGCCTTCTACTCTGTTACCCATATCTGCCGAGACGTAAATTACGGCTGAATCCTACGTTACCTCCATGCCAACGGAGCATCCATATTCTTCATCTGCCTATTTATACATGTAGGCCGAGGCATCTATTACGGCTCATACCTATTCACAGAAACATGAAACATTGGCATTATCCTTCTATTCGCCGTAATAGCAACAGCATTCATAGGCTATGTCCTCCCA
>gi|...
ATGA...
Pouze velmi základní informace o sekvenci – formát určen primárně k manipulaci se sekvencemi
LOCUS EF443167 402 bp DNA linear MAM 15-OCT-2007DEFINITION Rhinopoma hardwickei haplotype 2949 cytochrome b gene, partial cds; mitochondrial.ACCESSION EF443167VERSION EF443167.1 GI:148832288KEYWORDS .SOURCE mitochondrion Rhinopoma hardwickii (Lesser mouse-tailed bat) ORGANISM Rhinopoma hardwickii Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Laurasiatheria; Chiroptera; Microchiroptera; Rhinopomatidae; Rhinopoma.REFERENCE 1 (bases 1 to 402) AUTHORS Hulva,P., Horacek,I. and Benda,P. TITLE Molecules, morphometrics and new fossils provide an integrated view of the evolutionary history of Rhinopomatidae (Mammalia: Chiroptera) JOURNAL BMC Evol. Biol. 7, 165 (2007) PUBMED 17868440 REMARK Publication Status: Online-OnlyREFERENCE 2 (bases 1 to 402) AUTHORS Hulva,P. TITLE Direct Submission JOURNAL Submitted (18-FEB-2007) Zoology, Charles University, Vinicna 7, Prague, 2 12843, Czech RepublicFEATURES Location/Qualifiers source 1..402 /organism="Rhinopoma hardwickii" /organelle="mitochondrion" /mol_type="genomic DNA" /db_xref="taxon:124756" /haplotype="2949" CDS 1..>402 /codon_start=1 /transl_table=2 /product="cytochrome b" /protein_id="ABR14084.1" /db_xref="GI:148832289" /translation="MTHIRKSHPLFKIINDSFIDLPAPSNISSWWNFGSLLGICLAVQ ILTGLFLAMHYTSDTTTAFYSVTHICRDVNYGWILRYLHANGASMFFICLFMHVGRGI YYGSYLFTETWNIGIILLFAVMATAFMGYVLP"ORIGIN 1 atgacccaca tccgaaaatc ccacccctta ttcaaaatta tcaacgactc attcatcgac 61 ctaccagctc catcaaacat ttcctcctga tgaaattttg ggtccctact aggtatttgt 121 ttagctgtac aaatcttaac aggactgttc ctagcaatac attatacatc agataccaca 181 accgccttct actctgttac ccatatctgc cgagacgtaa attacggctg aatcctacgt 241 tacctccatg ccaacggagc atccatattc ttcatctgcc tatttataca tgtaggccga 301 ggcatctatt acggctcata cctattcaca gaaacatgaa acattggcat tatccttcta 361 ttcgccgtaa tagcaacagc attcataggc tatgtcctcc ca//
GenBank Formát uchovává
velmi detailní informaci o sekvenci – určen k uchovávání sekvencí vč. veškerých informací asociovaných se sekvencí
LOCUS EF443167 402 bp DNA linear MAM 15-OCT-2007DEFINITION Rhinopoma hardwickei haplotype 2949 cytochrome b gene, partial cds; mitochondrial.ACCESSION EF443167VERSION EF443167.1 GI:148832288KEYWORDS .SOURCE mitochondrion Rhinopoma hardwickii (Lesser mouse-tailed bat) ORGANISM Rhinopoma hardwickii Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Laurasiatheria; Chiroptera; Microchiroptera; Rhinopomatidae; Rhinopoma.REFERENCE 1 (bases 1 to 402) AUTHORS Hulva,P., Horacek,I. and Benda,P. TITLE Molecules, morphometrics and new fossils provide an integrated view of the evolutionary history of Rhinopomatidae (Mammalia: Chiroptera) JOURNAL BMC Evol. Biol. 7, 165 (2007) PUBMED 17868440 REMARK Publication Status: Online-OnlyREFERENCE 2 (bases 1 to 402) AUTHORS Hulva,P. TITLE Direct Submission JOURNAL Submitted (18-FEB-2007) Zoology, Charles University, Vinicna 7, Prague, 2 12843, Czech RepublicFEATURES Location/Qualifiers source 1..402 /organism="Rhinopoma hardwickii" /organelle="mitochondrion" /mol_type="genomic DNA" /db_xref="taxon:124756" /haplotype="2949" CDS 1..>402 /codon_start=1 /transl_table=2 /product="cytochrome b" /protein_id="ABR14084.1" /db_xref="GI:148832289" /translation="MTHIRKSHPLFKIINDSFIDLPAPSNISSWWNFGSLLGICLAVQ ILTGLFLAMHYTSDTTTAFYSVTHICRDVNYGWILRYLHANGASMFFICLFMHVGRGI YYGSYLFTETWNIGIILLFAVMATAFMGYVLP"ORIGIN 1 atgacccaca tccgaaaatc ccacccctta ttcaaaatta tcaacgactc attcatcgac 61 ctaccagctc catcaaacat ttcctcctga tgaaattttg ggtccctact aggtatttgt 121 ttagctgtac aaatcttaac aggactgttc ctagcaatac attatacatc agataccaca 181 accgccttct actctgttac ccatatctgc cgagacgtaa attacggctg aatcctacgt 241 tacctccatg ccaacggagc atccatattc ttcatctgcc tatttataca tgtaggccga 301 ggcatctatt acggctcata cctattcaca gaaacatgaa acattggcat tatccttcta 361 ttcgccgtaa tagcaacagc attcataggc tatgtcctcc ca//
Výpis genů v sekvenci
DEFINITION
LOCUS EF443167 402 bp DNA linear MAM 15-OCT-2007DEFINITION Rhinopoma hardwickei haplotype 2949 cytochrome b gene, partial cds; mitochondrial.ACCESSION EF443167VERSION EF443167.1 GI:148832288KEYWORDS .SOURCE mitochondrion Rhinopoma hardwickii (Lesser mouse-tailed bat) ORGANISM Rhinopoma hardwickii Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Laurasiatheria; Chiroptera; Microchiroptera; Rhinopomatidae; Rhinopoma.REFERENCE 1 (bases 1 to 402) AUTHORS Hulva,P., Horacek,I. and Benda,P. TITLE Molecules, morphometrics and new fossils provide an integrated view of the evolutionary history of Rhinopomatidae (Mammalia: Chiroptera) JOURNAL BMC Evol. Biol. 7, 165 (2007) PUBMED 17868440 REMARK Publication Status: Online-OnlyREFERENCE 2 (bases 1 to 402) AUTHORS Hulva,P. TITLE Direct Submission JOURNAL Submitted (18-FEB-2007) Zoology, Charles University, Vinicna 7, Prague, 2 12843, Czech RepublicFEATURES Location/Qualifiers source 1..402 /organism="Rhinopoma hardwickii" /organelle="mitochondrion" /mol_type="genomic DNA" /db_xref="taxon:124756" /haplotype="2949" CDS 1..>402 /codon_start=1 /transl_table=2 /product="cytochrome b" /protein_id="ABR14084.1" /db_xref="GI:148832289" /translation="MTHIRKSHPLFKIINDSFIDLPAPSNISSWWNFGSLLGICLAVQ ILTGLFLAMHYTSDTTTAFYSVTHICRDVNYGWILRYLHANGASMFFICLFMHVGRGI YYGSYLFTETWNIGIILLFAVMATAFMGYVLP"ORIGIN 1 atgacccaca tccgaaaatc ccacccctta ttcaaaatta tcaacgactc attcatcgac 61 ctaccagctc catcaaacat ttcctcctga tgaaattttg ggtccctact aggtatttgt 121 ttagctgtac aaatcttaac aggactgttc ctagcaatac attatacatc agataccaca 181 accgccttct actctgttac ccatatctgc cgagacgtaa attacggctg aatcctacgt 241 tacctccatg ccaacggagc atccatattc ttcatctgcc tatttataca tgtaggccga 301 ggcatctatt acggctcata cctattcaca gaaacatgaa acattggcat tatccttcta 361 ttcgccgtaa tagcaacagc attcataggc tatgtcctcc ca//
Databázové přístupové číslo
ACCESSION
VERSION
Verze dané sekvence
LOCUS EF443167 402 bp DNA linear MAM 15-OCT-2007DEFINITION Rhinopoma hardwickei haplotype 2949 cytochrome b gene, partial cds; mitochondrial.ACCESSION EF443167VERSION EF443167.1 GI:148832288KEYWORDS .SOURCE mitochondrion Rhinopoma hardwickii (Lesser mouse-tailed bat) ORGANISM Rhinopoma hardwickii Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Laurasiatheria; Chiroptera; Microchiroptera; Rhinopomatidae; Rhinopoma.REFERENCE 1 (bases 1 to 402) AUTHORS Hulva,P., Horacek,I. and Benda,P. TITLE Molecules, morphometrics and new fossils provide an integrated view of the evolutionary history of Rhinopomatidae (Mammalia: Chiroptera) JOURNAL BMC Evol. Biol. 7, 165 (2007) PUBMED 17868440 REMARK Publication Status: Online-OnlyREFERENCE 2 (bases 1 to 402) AUTHORS Hulva,P. TITLE Direct Submission JOURNAL Submitted (18-FEB-2007) Zoology, Charles University, Vinicna 7, Prague, 2 12843, Czech RepublicFEATURES Location/Qualifiers source 1..402 /organism="Rhinopoma hardwickii" /organelle="mitochondrion" /mol_type="genomic DNA" /db_xref="taxon:124756" /haplotype="2949" CDS 1..>402 /codon_start=1 /transl_table=2 /product="cytochrome b" /protein_id="ABR14084.1" /db_xref="GI:148832289" /translation="MTHIRKSHPLFKIINDSFIDLPAPSNISSWWNFGSLLGICLAVQ ILTGLFLAMHYTSDTTTAFYSVTHICRDVNYGWILRYLHANGASMFFICLFMHVGRGI YYGSYLFTETWNIGIILLFAVMATAFMGYVLP"ORIGIN 1 atgacccaca tccgaaaatc ccacccctta ttcaaaatta tcaacgactc attcatcgac 61 ctaccagctc catcaaacat ttcctcctga tgaaattttg ggtccctact aggtatttgt 121 ttagctgtac aaatcttaac aggactgttc ctagcaatac attatacatc agataccaca 181 accgccttct actctgttac ccatatctgc cgagacgtaa attacggctg aatcctacgt 241 tacctccatg ccaacggagc atccatattc ttcatctgcc tatttataca tgtaggccga 301 ggcatctatt acggctcata cctattcaca gaaacatgaa acattggcat tatccttcta 361 ttcgccgtaa tagcaacagc attcataggc tatgtcctcc ca//
KEYWORDS
Pod kterými klíčovými slovy ji lze najít
LOCUS EF443167 402 bp DNA linear MAM 15-OCT-2007DEFINITION Rhinopoma hardwickei haplotype 2949 cytochrome b gene, partial cds; mitochondrial.ACCESSION EF443167VERSION EF443167.1 GI:148832288KEYWORDS .SOURCE mitochondrion Rhinopoma hardwickii (Lesser mouse-tailed bat) ORGANISM Rhinopoma hardwickii Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Laurasiatheria; Chiroptera; Microchiroptera; Rhinopomatidae; Rhinopoma.REFERENCE 1 (bases 1 to 402) AUTHORS Hulva,P., Horacek,I. and Benda,P. TITLE Molecules, morphometrics and new fossils provide an integrated view of the evolutionary history of Rhinopomatidae (Mammalia: Chiroptera) JOURNAL BMC Evol. Biol. 7, 165 (2007) PUBMED 17868440 REMARK Publication Status: Online-OnlyREFERENCE 2 (bases 1 to 402) AUTHORS Hulva,P. TITLE Direct Submission JOURNAL Submitted (18-FEB-2007) Zoology, Charles University, Vinicna 7, Prague, 2 12843, Czech RepublicFEATURES Location/Qualifiers source 1..402 /organism="Rhinopoma hardwickii" /organelle="mitochondrion" /mol_type="genomic DNA" /db_xref="taxon:124756" /haplotype="2949" CDS 1..>402 /codon_start=1 /transl_table=2 /product="cytochrome b" /protein_id="ABR14084.1" /db_xref="GI:148832289" /translation="MTHIRKSHPLFKIINDSFIDLPAPSNISSWWNFGSLLGICLAVQ ILTGLFLAMHYTSDTTTAFYSVTHICRDVNYGWILRYLHANGASMFFICLFMHVGRGI YYGSYLFTETWNIGIILLFAVMATAFMGYVLP"ORIGIN 1 atgacccaca tccgaaaatc ccacccctta ttcaaaatta tcaacgactc attcatcgac 61 ctaccagctc catcaaacat ttcctcctga tgaaattttg ggtccctact aggtatttgt 121 ttagctgtac aaatcttaac aggactgttc ctagcaatac attatacatc agataccaca 181 accgccttct actctgttac ccatatctgc cgagacgtaa attacggctg aatcctacgt 241 tacctccatg ccaacggagc atccatattc ttcatctgcc tatttataca tgtaggccga 301 ggcatctatt acggctcata cctattcaca gaaacatgaa acattggcat tatccttcta 361 ttcgccgtaa tagcaacagc attcataggc tatgtcctcc ca//
SOURCE
Organismus + zařazení v systému
LOCUS EF443167 402 bp DNA linear MAM 15-OCT-2007DEFINITION Rhinopoma hardwickei haplotype 2949 cytochrome b gene, partial cds; mitochondrial.ACCESSION EF443167VERSION EF443167.1 GI:148832288KEYWORDS .SOURCE mitochondrion Rhinopoma hardwickii (Lesser mouse-tailed bat) ORGANISM Rhinopoma hardwickii Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Laurasiatheria; Chiroptera; Microchiroptera; Rhinopomatidae; Rhinopoma.REFERENCE 1 (bases 1 to 402) AUTHORS Hulva,P., Horacek,I. and Benda,P. TITLE Molecules, morphometrics and new fossils provide an integrated view of the evolutionary history of Rhinopomatidae (Mammalia: Chiroptera) JOURNAL BMC Evol. Biol. 7, 165 (2007) PUBMED 17868440 REMARK Publication Status: Online-OnlyREFERENCE 2 (bases 1 to 402) AUTHORS Hulva,P. TITLE Direct Submission JOURNAL Submitted (18-FEB-2007) Zoology, Charles University, Vinicna 7, Prague, 2 12843, Czech RepublicFEATURES Location/Qualifiers source 1..402 /organism="Rhinopoma hardwickii" /organelle="mitochondrion" /mol_type="genomic DNA" /db_xref="taxon:124756" /haplotype="2949" CDS 1..>402 /codon_start=1 /transl_table=2 /product="cytochrome b" /protein_id="ABR14084.1" /db_xref="GI:148832289" /translation="MTHIRKSHPLFKIINDSFIDLPAPSNISSWWNFGSLLGICLAVQ ILTGLFLAMHYTSDTTTAFYSVTHICRDVNYGWILRYLHANGASMFFICLFMHVGRGI YYGSYLFTETWNIGIILLFAVMATAFMGYVLP"ORIGIN 1 atgacccaca tccgaaaatc ccacccctta ttcaaaatta tcaacgactc attcatcgac 61 ctaccagctc catcaaacat ttcctcctga tgaaattttg ggtccctact aggtatttgt 121 ttagctgtac aaatcttaac aggactgttc ctagcaatac attatacatc agataccaca 181 accgccttct actctgttac ccatatctgc cgagacgtaa attacggctg aatcctacgt 241 tacctccatg ccaacggagc atccatattc ttcatctgcc tatttataca tgtaggccga 301 ggcatctatt acggctcata cctattcaca gaaacatgaa acattggcat tatccttcta 361 ttcgccgtaa tagcaacagc attcataggc tatgtcctcc ca//
REFERENCE
Článek(y), kde byla daná sekvence publikována + autoři
LOCUS EF443167 402 bp DNA linear MAM 15-OCT-2007DEFINITION Rhinopoma hardwickei haplotype 2949 cytochrome b gene, partial cds; mitochondrial.ACCESSION EF443167VERSION EF443167.1 GI:148832288KEYWORDS .SOURCE mitochondrion Rhinopoma hardwickii (Lesser mouse-tailed bat) ORGANISM Rhinopoma hardwickii Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Laurasiatheria; Chiroptera; Microchiroptera; Rhinopomatidae; Rhinopoma.REFERENCE 1 (bases 1 to 402) AUTHORS Hulva,P., Horacek,I. and Benda,P. TITLE Molecules, morphometrics and new fossils provide an integrated view of the evolutionary history of Rhinopomatidae (Mammalia: Chiroptera) JOURNAL BMC Evol. Biol. 7, 165 (2007) PUBMED 17868440 REMARK Publication Status: Online-OnlyREFERENCE 2 (bases 1 to 402) AUTHORS Hulva,P. TITLE Direct Submission JOURNAL Submitted (18-FEB-2007) Zoology, Charles University, Vinicna 7, Prague, 2 12843, Czech RepublicFEATURES Location/Qualifiers source 1..402 /organism="Rhinopoma hardwickii" /organelle="mitochondrion" /mol_type="genomic DNA" /db_xref="taxon:124756" /haplotype="2949" CDS 1..>402 /codon_start=1 /transl_table=2 /product="cytochrome b" /protein_id="ABR14084.1" /db_xref="GI:148832289" /translation="MTHIRKSHPLFKIINDSFIDLPAPSNISSWWNFGSLLGICLAVQ ILTGLFLAMHYTSDTTTAFYSVTHICRDVNYGWILRYLHANGASMFFICLFMHVGRGI YYGSYLFTETWNIGIILLFAVMATAFMGYVLP"ORIGIN 1 atgacccaca tccgaaaatc ccacccctta ttcaaaatta tcaacgactc attcatcgac 61 ctaccagctc catcaaacat ttcctcctga tgaaattttg ggtccctact aggtatttgt 121 ttagctgtac aaatcttaac aggactgttc ctagcaatac attatacatc agataccaca 181 accgccttct actctgttac ccatatctgc cgagacgtaa attacggctg aatcctacgt 241 tacctccatg ccaacggagc atccatattc ttcatctgcc tatttataca tgtaggccga 301 ggcatctatt acggctcata cctattcaca gaaacatgaa acattggcat tatccttcta 361 ttcgccgtaa tagcaacagc attcataggc tatgtcctcc ca//
FEATURES
Podrobný popis jednotlivých genů včetně jejich pozic – např. počátek a konec kódující sekvence, sekvence proteinu + XREFS
Pozice genu v rámci sekvence
LOCUS EF443167 402 bp DNA linear MAM 15-OCT-2007DEFINITION Rhinopoma hardwickei haplotype 2949 cytochrome b gene, partial cds; mitochondrial.ACCESSION EF443167VERSION EF443167.1 GI:148832288KEYWORDS .SOURCE mitochondrion Rhinopoma hardwickii (Lesser mouse-tailed bat) ORGANISM Rhinopoma hardwickii Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Laurasiatheria; Chiroptera; Microchiroptera; Rhinopomatidae; Rhinopoma.REFERENCE 1 (bases 1 to 402) AUTHORS Hulva,P., Horacek,I. and Benda,P. TITLE Molecules, morphometrics and new fossils provide an integrated view of the evolutionary history of Rhinopomatidae (Mammalia: Chiroptera) JOURNAL BMC Evol. Biol. 7, 165 (2007) PUBMED 17868440 REMARK Publication Status: Online-OnlyREFERENCE 2 (bases 1 to 402) AUTHORS Hulva,P. TITLE Direct Submission JOURNAL Submitted (18-FEB-2007) Zoology, Charles University, Vinicna 7, Prague, 2 12843, Czech RepublicFEATURES Location/Qualifiers source 1..402 /organism="Rhinopoma hardwickii" /organelle="mitochondrion" /mol_type="genomic DNA" /db_xref="taxon:124756" /haplotype="2949" CDS 1..>402 /codon_start=1 /transl_table=2 /product="cytochrome b" /protein_id="ABR14084.1" /db_xref="GI:148832289" /translation="MTHIRKSHPLFKIINDSFIDLPAPSNISSWWNFGSLLGICLAVQ ILTGLFLAMHYTSDTTTAFYSVTHICRDVNYGWILRYLHANGASMFFICLFMHVGRGI YYGSYLFTETWNIGIILLFAVMATAFMGYVLP"ORIGIN 1 atgacccaca tccgaaaatc ccacccctta ttcaaaatta tcaacgactc attcatcgac 61 ctaccagctc catcaaacat ttcctcctga tgaaattttg ggtccctact aggtatttgt 121 ttagctgtac aaatcttaac aggactgttc ctagcaatac attatacatc agataccaca 181 accgccttct actctgttac ccatatctgc cgagacgtaa attacggctg aatcctacgt 241 tacctccatg ccaacggagc atccatattc ttcatctgcc tatttataca tgtaggccga 301 ggcatctatt acggctcata cctattcaca gaaacatgaa acattggcat tatccttcta 361 ttcgccgtaa tagcaacagc attcataggc tatgtcctcc ca//
ORIGIN
Sekvence
Konec sekvence
Příklad
GenBank na stránkách NCBI – ve vyhledávání možnosti “Nucleotide” - GenBank + RefSeq
Vyhledávání podle rodového názvu “Mammuthus”
Velké množství záznamů – omezit výběr pouze na neredundantní databázi RefSeq
Celý genom – použít webový formulář k výběru pouze sekvence cytochromu b (pozice v části SOURCE – CDS)
Vyhledejte sekvence cytochromu b ze všech druhů mamutů, které byly osekvenovány (jaké druhy?)
Exportujte protein-kódující část do FASTA formátu a uložte na počítač
Postup:
Porovnání sekvencí: Alignment Porovnání/přiřazení dvou a více sekvencí Při alignmentu předpokládána homologie sekvencí Využívány různé typy algoritmů = různé předpoklady
Sekvence se shodují
Sekvence se liší
Sekvence chybí
• Pairwise Alignment (2 sekvence)– Globální (Needleman-Wunsch):
• Zhruba stejně dlouhé sekvence
• Snaží se přiřadit od začátku až do konce sekvence
– Lokální (Smith-Waterman):• Jen nejlépe shodující se místa obou sekvencí
• Sekvence různě dlouhé
Např. BioEdit http://www.ebi.ac.uk/http://www.bioinformatics.org/sms2/index.html
http://en.wikipedia.org/wiki/Sequence_alignment
Typy alignmentů
• Multiple Alignment– Více sekvencí– Hledá konzervativní místa– ClustalW, Muscle, T-coffee
Např. BioEdit,http://www.ebi.ac.uk/,http://www.bioinformatics.org/sms2/index.html
http://en.wikipedia.org/wiki/Multiple_sequence_alignment
Uchovávání alignmentů
Podobně jako v případě sekvencí – v textových souborech ve specifickém formátu
Různé formáty: nejčastěji formát programu ClustalW (.aln) lze také jako multiple FASTA Phylip (.phy), NEXUS (.nex) – odpoledne Nově SAM (Sequence Alignment/Map format) – velké
celogenomové alignmenty
BLAST
Základní BLAST – prohlédávání celé databáze pomocí
nukleotidové sekvence
Vyhledávání v jednotlivých referenčních
genomech
BLAST
Vložit sekvenci
Zvolit “Others”
Zvolit databázi, ve které chceme BLASTovat
Příklad 1
Vyhledejte sekvence nejpodobnější cytochromu b mamuta z tří jiných druhů
Vytvořte multiple FASTA soubor Proveďte multiple alignment stažených
sekvencích
BLAST na NCBI – „nucleotide blast” option - “reference genomic sequences” databáze (nonredundantní genomické sekvence)
Stáhnout protein-kódující sekvence cytochromu b Vytvořit v libovolném textovém editoru multiple FASTA soubor Provést multiple alignment (na EBI – na webu, BioEdit – na počítači)
EBI (www.ebi.ac.uk) – services – DNA & RNA – Clustal2W BioEdit – Accessory Applications – ClustalW Multiple Alignment
Postup:
Příklad 2Úloha ze života
• BLAST ke zjištění zdroje kontaminace – např. sekvenuji mamuty – nezdá se mi jedna se sekvencí
Postup:
Jedna ze dvou sekvencí na stránkách praktika
BLAST - “nucleotide blast” option
???
Navržení primerů pro PCR
Maskování repeatůDesign primerůIn Silico PCR (e-PCR)
http://www.repeatmasker.org/
Maskování repeatů: RepeatMasker
•Umožní vyhledat a „zakrýt“ oblasti, které jsou v genomu ve větším počtu (mikrosatelity, retrotranspozony a transpozony)
•Umožní nám to při navrhování primerů se vyvarovat nespecifickým amplifikacím při PCR
•Pouze ale organismy, které jsou buď již osekvenovány anebo jsou jim blízce příbuzné (retrotransposony a transposony) X mikrosatelity lze maskovat u jakýchkoliv organismů
Zamaskovaná sekvence
• Pomocí N nebo použitím malých písmen (většina programů určených pro analýzu sekvencí s nimi umí pracovat)
>MusY.1ACACTTTTTCTTTTGCATAATGCTGTGTGGAGATTTTGCAGACAGCATTGCTGTAAAATGCAGAGTAATTTCTGTAATGAGCTTGTGAAATATTGACTATTATGGCCCTCTCTAAGCATGGCTTTAATTATATTCTAGCACAGCAGCTTCTCTGGGGATACTCAGGTCAGATCACTGACTGAATGTTGTGTTCATTTGAAACNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGTCATTTGTTGGTGTGCTGAATTCTGTTTTGTTTTGCTTTTAACCTAACTAGCTAGAAATTCTGTCAATCTTTTTTCCTTCCTAGAAAGANNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGAAACACAGGCTTT
RepeatMasker
RepeatMaskerVložit nukleotidovou sekvenci
Vybrat organismus
RepeatMasker
Výstup analýzy RepeatMaskeru
RepeatMasker
Výstup analýzy RepeatMaskeru
Design primerů:Primer3, Primer3Plus
http://www.bioinformatics.nl/cgi-bin/primer3plus/primer3plus.cgi/
TCCGAAAATCCCACCAATTATCAACGACTCATTC
F
R
TGCG{CGCTAAGA<CTCCT>AA[CACACACACA]CGGAATTAGGGAAC}TT
Included RegionTargetExcluded Region
Maskování repeatů
Koncentrace Mg2+ Koncentrace dNTPs
Rozestup primerů => délka amplifikované oblasti
Elektronická PCR (e-PCR)
• Vezme dvojici primerů a zkouší, zda-li by PCR ve známém genomu amplifikovala pouze námi požadovanou oblast nebo i jiné oblasti
• Server UCSC (http://www.genome.ucsc.edu/)
• Lze i na NCBI
e-PCR
e-PCR
Organismus AssemblyF a R primery
Příklad
• Sekvence mikrosatelitů z myšího Y chromosomu na stránkách praktik (vytvořte multiple FASTA)
• Zamaskujte mikrosatelity pomocí RepeatMaskeru
• Navrhněte kolem nich primery v Primer3
• Zjistěte, které z těchto primerů jsou dále použitelné pomocí e-PCR
Pozice genů v genomu
Genomický koordinátový systém – založený na fyzické pozici nukleotidů v rámci většího celku (např. kontigu, chromozomu)
Tvoří pak tzv. fyzickou mapu (v base pairs: bp)
– např. u myši je začátek chromozomu na centromeře (pozice 1)
– např. gen SRY chrY:1,918,381-1,919,568 (přibližná pozice pak 1.9 Mb)
Jiné mapy: cytogenetická mapa, genetická mapa (cM)
Assembly
Verze koordinátového systému Počáteční verze genomu postrádají hůře sekvenovatelné
oblasti – jsou zaplněny Nky, ale postupně dochází k neustálému zpřesňování genomické sekvence = zpřesňování fyzické mapy
Rozdíl ve fyzikální pozici genů mezi různými assembly (až několik Mb)
Adh5 (Alcohol dehydrogenase 5)
chr3: 138,443,093-138,455,499chr3:138,106,057-138,118,463
GRCm38NCBIM37
Genomové prohlížeče Ensembl, UCSC, NCBI Nejvíce user-friendly asi Ensembl...
VERZE
Příklad
Najděte tyto informace o genu Adh5 v myším genomu: Počet transkriptů, typ transkriptu? Kolik exonů má kanonický transkript? Jaká proteinová rodina (ID)? Kolik druhů dostupných na Ensembl má alespoň jeden ortholog tohoto
genu? Ve kterém taxonu dostupném na Ensembl je největší počet homologů
tohoto genu? Získejte protein-kódující sekvence genu (vždy kanonický transkript) pro
všechny hlodavce na Ensemblu, exportujte je do FASTA formátu, proveďte alignment
BioMart
• Při práci s více geny – efektivní získávání dat
• Pracuje na principu filtru – lze nastavit parametry výběru tzn. filtrovat na základě:
– pozice v genomu
– ID genů (konverze ID z různých databází)
– genové rodiny
– orthology
– paralogy
– ...
• Výstup lze uložit jako .txt, .csv nebo .xls soubor
BioMart (Ensembl)
Dababáze
Dataset = organismus
Verze se aktualizuje každé cca 2-3 měsíce
Důležité: pamatovat si verzi se kterou pracuji!!!
Parametry výběru: kritéria definující set genů
Požadovaná data ve výstupu
Propojení s daty z jiných organismů (pokročilé)
Kritéria výběru: pozice v genomu
Výběr atributů ve výstupu
Seznámení s BioMartem
Na základě jakých všech kritérií je možné filtrovat?
Jaká data lze na BioMartu získat – možnosti atributů?
Příklad 1• Oblast na chromosomu 11 (23 – 25 Mb) byla asociována s
reprodukční izolací mezi dvěma druhy myši domácí. Cílem je získat seznam protein-kódujících genů v této oblasti a vybrat kandidáty pro další výzkum (předpoklad: rychle se vyvíjející se geny mají větší pravděpodobnost být zodpověné za vznik reprodukční bariéry).
• Postup:– Získejte seznam genů včetně jména a popisu spolu s pozicí v
genomu, orthologů u potkana a informace o rychlosti molekulární evoluce mezi potkanem a myší z oblasti chr11:23000000-25000000
– Exportujte data do excelové tabulky seřaďte geny nejvíce kandidátních po nejméně kandidátní, určete kandidáty
Příklad 2• Získejte protein-kódující sekvence všech genů z rodiny
tzv. hlavních močových proteinů (Major Urinary Proteins) v genomu myši a proveďte multiple alignment
• Postup:– Získejte ID rodiny MUPs
– Použijte BioMart k získání protein-kódujících sekvencí MUPů a exportujte je do FASTA souboru