Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de...

17
Bancos de Dados Natália F. Martins

Transcript of Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de...

Page 1: Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.

Bancos de Dados

Natália F. Martins

Page 2: Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.

BD de Seqüências

• Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos• Mais de 348 BD

– BD de seqüências de nucleotídeos• EMBL (http://www.ebi.ac.uk/embl)• GenBank (http://www.ncbi.nlm.nih.gov/GenBank)• DDBJ (http://www.ddbj.nig.ac.jp)• UniGene (http://www.ncbi.nlm.nih.gov/UniGene)

– BD de seqüências de proteínas• SWISS-PROT, TrEMBL (http://www.expansy.ch/sprot)• PIR (http://pir.georgetown.edu)

– BD de motivos• Pfam (http://www.sanger.ac.uk/Software/Pfam)• PROSITE (http://www.expansy.ch/prosite)

– BD de estruturas macromoleculares 3D• PDB (http://www.rcsb.org/pdb)

Page 3: Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.

Usos de BD de Seqüências

• O que se pode descobrir sobre um gene por meio de uma busca a um BD?

– Informação evolutiva: genes homólogos, freqüências dos alelos, ...– Informação genômica: localização no cromossomo, intros, UTRs,

regiões reguladoras, ...– Informação estrutural: estruturas da proteína correspondente, tipos

de folds, domínios estruturais, ...– Informação de expressão: expressão específica a um dado tecido,

fenótipos, doenças, ...– Informação funcional: função molecular/enzimática, papel em

diferentes rotas, papel em doenças, ...

Page 4: Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.

Busca de Informação

• Busca de informação sobre genes e produtos gênicos

– Gene e produtos gênicos são geralmente organizados por seqüência

• Seqüências genômicas codificam todas características de um organismo

• Produtos gênicos são descritos unicamente por sua seqüência• Seqüências similares entre biomoléculas indica tanto uma

função similar quanto um relacionamento evolutivo

– Seqüências de macromoléculas proporciona chaves biologicamente significativas para busca em BD

Page 5: Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.

Busca em BD de Seqüências

• Comece com uma seqüência, encontre informação sobre ela

• Muitos tipos de seqüências de entrada– Pode ser uma seqüência de aminoácido ou de nucleotídeo– Genômica, cDNA/mRNA, proteína– Completa ou fragmentada

• Matches exatos são raros – Em geral, o objetivo é recuperar um conjunto de

seqüências similares

Page 6: Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.

Busca em BD de Seqüências

• O que queremos saber sobre a seqüência?

– Ela é similar ao algum gene conhecido? Quão próximo é o melhor match? Significância?

– O que sabemos sobre este gene?• Genômica (localização no cromossomo, regiões reguladoras, ...)• Estrutural (estrutura conhecida? ...)• Funcional (molecular, celular e doença)

– Informação evolutiva• Este gene é encontrado em outros organismos?• Qual é sua árvore taxonômica?

Page 7: Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.

NCBI e Entrez• A mais usada interface para a recuperação de informação de BD biológicos é

o sistema Entrez do NCBI (http://www.ncbi.nlm.nih.gov/Entrez)– NCBI (National Center for Biotechnology Information)– O sistema Entrez tira vantagem do fato que há relacionamentos lógicos pré-

existentes entre as entradas indíviduas encontradas em diversos BD públicos• Por um exemplo, um artigo no PuBMed pode descrever o sequenciamento

de um gene cuja seqüência aparece no GenBank• A seqüência de nucleotídeos, por sua vez, pode codificar o produto de uma

proteína cuja seqüência está armazenada em um BD de proteínas• A estrutura 3D desta proteína pode ser conhecida - as coordenadas da

estrutura podem aparecer em um BD de estruturas• Finalmente, o gene pode ter sido mapeado para uma região específica do

cromossomo - BD de mapeamento– A existência dessas conexões naturais, levou ao desenvolvimento de um método

por meio do qual toda a informação poderia ser encontrada sem ter que visitar sequencialmente BD distintos

Page 8: Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.

O Sistema Entrez (1/2)• Para ser claro, Entrez não é um BD

– É a interface por meio da qual todos os seus BDs componentes podem ser acessados

– O espaço de informação do Entrez inclui • Registros do PubMed• Dados sobre seqüências de nucleotídeos e proteínas• Informação sobre estruturas 3D• Informação de mapeamento

– A vantagem do Entrez está no fato que toda esta informação pode ser acessada por meio de apenas uma query (consulta)

Page 9: Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.

O Sistema Entrez (2/2)

Page 10: Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.

BLAST: Busca com uma Seqüência

• O objetivo é encontrar outras seqüências que são mais similares a query (consulta) do que seria esperado por ter acontecido ao acaso

– Homologia

• Pode começar com seqüências de nucleotídeos ou aminoácidos – Pode fazer a busca por nucleotídeos/aminoácidos

Page 11: Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.

BLAST

Page 12: Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.

Mais que NCBI

• Links para anotações funcionais fora do NCBI

– Gene Ontology - nomes padrões para:

• Funções moleculares

• Localização celular

• Processos

– Links para BD de enzimas

• Funções da enzimas

– Links para o BD KEGG (vias)

Page 13: Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.

Genes Encontrar genes

Procariotos X Eucariotos

Programas Ab initioORFs, consensos, promotores, %GC, etc.

Programas de redes neurais

5-15% dos genes não são reconhecidossó 30-40% com estrutura exônica correta

Programas baseados em transcriptoma

Page 14: Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.

ProteínasDescobrir a função dos genes

Identificar grupos isofuncionais (ortologia)

Pesquisa em bancos de dados de domínios

pFAM, ProDom, Prints, Smart, BlocksINTERPRO

Pesquisa em bancos de dados curados

Swissprot, TrEMBL

Page 15: Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.

ProcessosComo os genes se relacionam

Ciclo celular, metabolismo, embriogênese

GeneOntology

Função molecularProcessos celularesComponente celular

Cluster of Ortologous Groups - COGs

Divisão em categorias de processos cel.

Kyoto Encyclopedia of Genes and Genomes

Page 16: Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.

KEGG

Page 17: Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.

Referências

• A. D. Baxevanis e B. F. Francis Ouellete (eds.). Bioinformatics: a practical guide to the analysis of genes e proteins. John Wiley & Sons. 2001.

• The Molecular Biology Database Collection: 2003 update -- Nucleic Acids Research 31(1):1-12