Filogenia molecular
Transcript of Filogenia molecular
Alinhamentos e árvores filogenéticas: Estudo evolucionário dos genomas
Classificação e nomenclatura biológica
Se baseia na idéia de que organismos vivos são divididos em espécies – grupos de organismos similares com um reservatório genético comum
Linnaeus – naturalista sueco – classificação em hierarquia:
Reino, Filo, Classe, Ordem, Familia, Gênero e Espécie
Identificação de espécie – binômio Gênero e Espécie ex. Homo sapiens
Linha Evolutiva do HomemLI NHA EVOLUTI VA DO HOMEM
Pongídeos(orangotangos)
Panídeos(Gorilas, chimpanzés)
Hominídeos(homens)
ANTROPOI DES
HOMINOI DES
CATARRI NOS
Hilobatídeos(Gibões)
PRI MATASORDEM
SUB-ORDEM
SUPERFAMÍ LI A
FAMÍLI A
GRUPO
PRÓ-SÍ MI OS
PLATI RRINOS
LI NHA EVOLUTI VA DO HOMEM
Pongídeos(orangotangos)
Panídeos(Gorilas, chimpanzés)
Hominídeos(homens)
ANTROPOI DES
HOMINOI DES
CATARRI NOS
Hilobatídeos(Gibões)
PRI MATASORDEM
SUB-ORDEM
SUPERFAMÍ LI A
FAMÍLI A
GRUPO
PRÓ-SÍ MI OS
PLATI RRINOS
Evolução FísicaPostura ereta
Liberação dos
Membros superiores
Manipulação de
objetos
Alterações físicas
Evolução cerebral
Mudanças
comportamentais
Desenvolvimento
Social (saber do fazer)
Evolução Cultural
(saber erudito)
Postura ereta
Liberação dos
Membros superiores
Manipulação de
objetos
Alterações físicas
Evolução cerebral
Mudanças
comportamentais
Desenvolvimento
Social (saber do fazer)
Evolução Cultural
(saber erudito)
Forças evolutivas
MUDANÇAS CLIMÁTICAS
FORTE PRESSÃO SELETIVA
ASSIM:
POSTURA ERETA E BIPEDALISMO
FORAM SELECIONADOS FAVORAVELMENTE
Mecanismos de evolução
Principal força de evolução
Duplicação dos genes
Susumu Ohno, 1970, Evolution by gene duplication. Berlin, SpringerVerlag
Hipótese de Ohno
“Gene duplication emerged as the major force of evolution. Only when a redundant gene locus is created by duplication is it permitted to accumulate forbidden mutations and emerge as a new gene locus with unknown function”
Duplicação gênicaDuplicação gênica
• Duplicação em tandem
• Translocação
• Transposição
• Não disjunção meiótica
• Poliploidia
Mutações não silenciosas
Mutações específicas levam a novas funções gênicas:
Sítio ativo de enzimas ou de ligantes de proteínas;
Elementos reguladores determinam expressão espaço-temporal dos genes duplicados.
Evolução do tamanho e Composição de genomas
Variedade em tamanho e organização do genoma:Bactéria marinha Brevundimonas diminuta –
1,6 MbEucariotos: Neoceratodus forsteri – mais de
50Gb [1 gigabase (Gb) = 109 pb] Variação na composição nucleotidea:
Bacteria = GC – de 20 a 70%
Complexidade organísmica e o paradoxo do valor C
Amoeba dubia – 670 Gb200 x maior que o genoma humanoMenos complexa que o ser humano
• evolução, desenvolvimento ou comportamento
Se refere ao paradoxo do valor Cquantidade característica de DNA por célula de um
organismo Eucariotos com genomas grandes não tem mais
genes do que os que tem genomas pequenos.
Consistência genômica
DNA extraSequencias repetitivasElementos transponíveisIntrons mais longos e sequencias não
codificadoras intercalam os genes Aumento do tamanho do genomas resultou do
numero efetivo da população, diminuia efeciencia da seleção para eliminar as duplicações gênicas e as inserções de elementos transponiveis
Modelo do paradoxo C
´O aumento do tamanho do genoma, não foi em si próprio adaptativo, mas o DNA extra propiciou muitas oportunidades novas para a origem de inovações genéticas mediante especialização da função de genes duplicados, evolução de sequencias reguladoras em grandes íntrons, e assim por diante´
Composição de bases do DNA genômico
Ampla variação do conteudo G+C entre organismos éa viés mutacional (Suoeka, 1988)
Significa mudança preferencial de GC para AT, ou vice-versa
Viés mutacional
Viés mutacional pró-GC empurrará gradualmente o genoma em direção a um conteudo de G+C mais alto
Viés mutacional pró-AT levará a um conteÚdo G+C mais baixo. Em regiões codificadoras, a extensão dessas mudanças é
restringida pela natureza do código genético, pois alguns aminoácidos necessitam de códons ricos em A+T, e outros ricos em G+C.
A terceira posição de muitos códons é mais flexível e as diferentes composições de bases entre organismos estão em geral refletidas em diferenças no conteúdo G+C da terceira posição do códon, o que é simbolizado por GC3
Conversão gênica enviesada
Sequencias semelhantes de DNA interagem no processo de recombinação
Fitas de DNA de uma pequena região da dupla-hélice se separam e formam pares de base com uma das fitas de outra dupla hélice no mesmo núcleo.
Pareamento se faz com parte correspondente da molécula de DNA que constitui o gene homólogo
Nessa região pareadas, as vezes há mau pareamento, são corrigidos pelo reparo de mau pareamento, o nucleotídeo malpareado é removido e substituído por um nucleotídeo correto (aleatório)
Na conversão gênica enviesada há preferência pelo par G-C ou A-T
DIFERENÇAS ENTRE ESPÉCIES
Divergência sinônima e não-sinônima Duas sequencias coficadoras alinhadas, por
exemplo, sequencias de diferentes espécies, é considerar sítio por sítio, levando em conta todas as substituições nucleotídeas possíveis em cada sitio seriam sinônimas e não sinônimas
Esses sítios não são fixos, mudam ao longo do tempo oportunidades mutacionais
Fungos mutualistas x patogênicosFungos mutualistas x patogênicos
Genômica estrutural
Contribuição para o entendimento das relações fungo-planta do ponto de vista evolutivo, o fato de que um microrganismo endofítico pode se tornar patogênico.
O que faz um fungo ser patogênico?
A capacidade de causar doenças se origina de multiplas vezes durante a evolução.
Analise genômica comparativa: evolução da fitopagenecidade
Comparações genômicas permitem
Apontar novas famílias de genes que podem ter função de virulência, permitindo sua seleção para estudos funcionais
Identificar mecanismos patogenicos conservados e inovações e adaptações patogênicas de linhagens especificas
Revelar onde eventos de transferência gênica horizontal contribuíram para aquisição de novas funções associadas a virulência
Evolução MolecularO estudo da história dos organismos através das macromoléculas...
Evolução
Alteração das freqüências gênicas
Inferências filogenéticas podem ser feitas através de:
• Caracteres Morfológicos
• Aspectos comportamentais
• Fisiologia
• Moléculas
Os organismos possuem padrões
Alinhamento múltiplo de proteínas ribossomais L36
E as moléculas também
Uso da filogenia
Historia da biogeografiaEstudar onde os organismos vivem
em seus nichosEstudar a similaridade entre os
organismos
Árvore filogenéticaÁrvore filogenética
• Diagrama constituído de nós e ramos, na qual um ramo conecta dois nós adjacentes, representando relações de ancestralidade.
•Representa a história evolutiva de um grupo de espécies ou populações (árvore de espécie).
•Árvore construída apenas com um gene par cada espécie – não representa a história evolutiva da espécie, mas sim do gene (árvore gênica)
Nó representa um unidade taxonômica (OTU), que pode ser uma espécie atual ou ancestralRamo representa a relação entre táxons em termos de descendência e ancestralidadeComprimento do ramo representa o número de mudanças que ocorreram ao longo do ramo desde sua separação do ancestral comum mais recente ea raiz, ancestral comum a todos os taxons.
raiz
nó
nó
Tempo evolucionário
Alouatta
Ateles
Lagothrix
Brachyteles
Grupos monofiléticos
Ancestral de Lagothrix e Brachyteles
raiz
nó
nó
Tempo evolucionário
Alouatta
Ateles
Lagothrix
Brachyteles
Grupos monofiléticos
Ancestral de Lagothrix e Brachyteles
Filogenia com Filogenia com características características morfológicasmorfológicas
Source: Cardini, A. 2003. The geometry of the Marmot (Rodentia: Sciuridae) mandible: phylogeny and patterns of morphological evolution. Systematic Biology, 52(2): 186-205.
Filogenia geográfica
Source: Ribas, C.C. and Miyaki, C.Y. 2004. Molecular systematics in Aratinga parakeets: species limits and historical biogeography in the ‘solstitialis’ group, and the systematic position of Nandayus nenday. Molecular Phylogenetics and Evolution, 30: 663-675.
Até ~1990, as filogenias eram baseadas na morfologia da especie
Agora temos muitas sequencias de DNA e dados genomicos disponiveis que podemos ter filogenia baseada na molecular e morfologica.
Como é feita a analise filogenética?
Inicia-se com um simples sequencia de 6 nucleotídeos a partir de 5 especies:
Observe um único carácter
A ACGTAA
B CCTTAA
C CGTCAA
D CGTCCG
E CGTCCG
Posição 1: especie A tem um A onde todos tem um C
Posição 3: especie A tem um G onde todos tem um T
Posição 2: especie A e B tem um C onde todos tem um G Continua com outras muitas posições
A ACGTAA
B CCTTAA
C CGTCAA
D CGTCCG
E CGTCCG
Análise filogenética
Dois principais métodos:
Métodos baseados em distânciasMétodos baseados em caracteres
Árvores...
Árvores Filogenéticas
A
B
D
E
F
G
HI C
OTU – Unidade Taxonômica Operacional (Nó terminal)Ramo Terminal
Nó ancestral
Ramo Ancestral
Árvores Filogenéticas
A
B B
DD
E
F
G
HI
E
CC
A
1 unidade
Tempo
2
1
1
6
22
3
2
Árvores Filogenéticas
AA
B
BD
D
EE
F
G
HI C
C
Tem po
R
Relógio Molecular
À medida que duas espécies divergem de um
ancestral comum, acumulam mutações em uma taxa regular, ficando progressivamente mais
diferentes uma da outra...
Relógio Molecular
Especiação
3 mutações
2 mutações
2 mutações
2 mutações
1 mutação
1 mutação
Acúmulo de Diferenças
A
A2A1
Homologia
Um caráter é homólogo em dois organismos se foi herdado por ambos a partir de seu ancestral comum.
Para análise de sequências: Não existe percentagem de homologia: ou uma seqüência
é homóloga, ou não é Quanto maior a similaridade entre as seqüências, maior a
probabilidade de serem homólogas No entanto, duas seqüências podem ser homólogas e não
apresentar similaridades (depende do tempo de divergência entre elas)
Homologia
Exemplos:
Órgãos homólogos – asas de morcego e mãos de humanos (mesma origem)
Órgãos similares – asas de morcego e asas de borboleta (mesma função)
HOMOLOGIA vs SIMILARIDADE
Estes conceitos tendem a ser extremamente confundidos quando aplicados a sequências de DNA e proteínas
Aplicações comuns: ‘high homology’, ‘significant homology’, ‘35% homology’.
O termo homologia se refere a uma descendência evolucionária comum, enquanto similaridade se refere a uma medida quantitativa daquilo que há em comum.
Definições Críticas
Concluir que duas (ou mais) sequências são homólogas é uma suposição/hipótese
Só é possível se pudermos explorar diretamente os ancestrais comuns e todas as suas formas intermediárias
Homologia entre dois genes Similaridade entre eles (variável observável que pode ser expressa numericamente e correlacionada com probabilidade)
Importante !!! Distinguir entre dois tipos de relação entre homólogos, as quais diferem em suas implicações evolutivas e funcionais.
Homólogos: Ortólogos e Parálogos
Parálogos: genes presentes em um mesmo organismo (geralmente famílias multigênicas) que evoluíram dentro de um mesmo genoma (antes ou depois da especiação)
Ortólogos: genes presentes em diferentes organismos que se originaram de um ancestral comum antes da especiação
Especiação
Duplicação do gene
Duplicação Gênica
Aumento da quantidade de genes nas células
Freqüente formação de pseudo-genes(genes que foram desligados)
Vantagens e Desvantagens
Vantagens:• A comparação entre organismos muito diferentes é
possível • Uso de genes diferentes para diferentes problemas• A evolução molecular é melhor compreendida que a
morfológica• Existem modelos e testes• Relógio molecular e Neutralismo - Teoricamente é
possível datar os eventos de divergência.
Vantagens e Desvantagens
Desvantagens:Técnicas mais
carasUso de produtos
cancerígenos e radioativos
Árvores de genes e não de espécies
Escolha do Gene
De acordo com a taxa de substituições nucleotídicas, levando em conta o tempo estimado de divergência dos organismos a serem comparados
Pseudogenes, regiões intergênicas e íntrons são indicados para espécies próximas ou populações
Histonas são indicadas para filogenias entre reinos.
Métodos Moleculares
Extração do DNA total do organismo
Reação de PCR com “primers” apropriados para amplificar o gene escolhido
Purificação dos fragmentos Seqüenciamento
Métodos Moleculares
Verificação da qualidade dos cromatogramas
Análise das Seqüências
BLAST (ferramenta do NCBI)Permite a comparação rápida da seqüência
obtida no laboratório com as seqüências presentes nos bancos de dados
Permite a busca por seqüências semelhantes para a construção de filogenias
Análise das Seqüências
Alinhamento de basesGarante que os sítios a serem
comparados tenham maior probabilidade de serem homólogos
G
AAA
AA
AAA
AA
CC
C AT
T TTTT T
TT
CCCC
AAA
AA
GGGGG
TTT
C
CC
CCC
AAA
AA
TTTT
TT
TN
GGGG
GGGG
T
TT
AGGGG
TTTT
CCCC
CCCC
TTTT
TTTT
T
T
CC
GGGG
TTTT
AAA
AA
GGGG
GT
TT T
TT
A
AAA
AA
A
Métodos de Reconstrução da Filogenia
Métodos que buscam, dentre todas as árvores possíveis, a que melhor represente a história evolutiva dos organismos estudados: Máxima Parcimônia
• Escolha da topologia que apresentar o menor número de substituições.
Máxima Verossimilhança• Escolha da topologia que apresentar o maior grau de adequação
a um modelo de substituição.Evolução Mínima
• Escolha da topologia que apresentar o menor tamanho dos ramos
• Problema: O número de topologias aumenta exponencialmente com o número de OTUs.
N. de OTUs N. de árvores enraizadas
N. de árvores não enraizadas
2 1 13 3 14 15 35 105 156 945 1057 10.395 9458 135.135 1.3959 2.027.025 135.13510 34.459.425 2.027.02515 2,13458 x 1014 7,90585 x 1012
20 8,20079 x 1021 2,21643 x 1020
25 1,19257 x 1030 2,53738 x 1028
30 4,9518 x 1038 8,68736 x 1036
40 1,00985 x 1057 1,31149 x 1055
50 2,75292 x 1076 2,83806 x 1074
CARACTERÍSTICAS DE UMA ÁRVORE FILOGENÉTICA
A maioria das árvores apresenta um padrão mais complexo necessidade de outros termos
Seqs. monofiléticas: derivam de um ancestral comum
Clade: grupo de seq. monofiléticas
Grupo parafilético: quando algumas seqs. da clade são excluídas
Grupo Polifilético: seqs. derivadas de diferentes ancstrais
Árvore Inferida ≠ Árvore Real
Alinhamento de Sequências
Diferenças entre sequências são pontuadas
Se forem homólogas ancestral comum = base para o estudo
Os métodos utilizados SEMPRE produzem uma árvore, mesmo com informações errôneas
Os nucleotídeos homólogos devem ser comparados
Conversão do alinhamento em uma árvore
Diversos métodos
MATRIZ DE DISTÂNCIAS
Tabela contendo as distâncias evolucionárias entre todos os pares de sequências. Distância evolucionária: n diferença de nucleotídeos = comprimento do ramo
comprimento das sequências
Conversão do alinhamento em uma árvore
NEIGHBOR-JOINING
- Usa os dados da matriz de distâncias
- Inicialmente, assume que há só um nó interno e todos os ramos que levam
às seqs. de DNA se irradiam dele.
- Um par de seqs. é escolhido ao acaso, removido do nó e anexado a um
novo nó
- O comprimento do ramo é calculado
- Este processo é repetido com todos os possíveis pares até a identificação
do ramo com o menor comprimento
- As sequências restantes passam pelos mesmos passos descritos acima até
que o ramo com o segundo menor comprimento seja identificado, e assim
sussecivamente
Conversão do alinhamento em uma árvore
MÁXIMA PARSIMÔNIA
Usa os dados de alinhamento mútiplo
Parsimônia: é a preferência pela explicação mais simples para uma observação
Estratégia que analisa diferentes árvores, identificando aquela que apresenta a menor via evolucionária = aquela que requer o menor número de mudanças de nucleotídeos para ir da seq. ancestral até as mais recentes
Árvores são construídas ao acaso e o número de mudanças nucleotídicas é calculado até todas as possíveis topologias terem sido examinadas.
•É baseado na suposição de que a árvore mais provável é a que requer o menor número de mudanças para explicar toda a variação observada na matriz de caracteres (ex. seqüencias alinhadas).
• Baseia-se no principio da homologia, ou seja, se dois táxons compartilham uma característica é porque foi herdado do ultimo ancestral comum a ambos.
Método dá máxima parcimônia (MP)Método dá máxima parcimônia (MP)
•A aplicação do princípio de máxima parcimônia nas A aplicação do princípio de máxima parcimônia nas reconstruções filogenéticas é conceitualmente muito reconstruções filogenéticas é conceitualmente muito simples: simples:
•Devemos escolher, dentre as árvores possíveis, Devemos escolher, dentre as árvores possíveis, aquela com aquela com o menor número de substituições o menor número de substituições que que seja compatível com as seqüências observadas. seja compatível com as seqüências observadas.
•Entretanto, a implementação é complexa, pois o Entretanto, a implementação é complexa, pois o número de árvores possíveis pode atingir valores número de árvores possíveis pode atingir valores muito altos. muito altos.
•
O princípio da parcimônia nas O princípio da parcimônia nas reconstruções filogenéticasreconstruções filogenéticas
Para 3 seqüências, existe apenas uma árvore possível (que sejam bifurcantes, árvores tais como A--B--C não são consideradas):
Para 4 seqüências, existem 3 árvores (bifurcantes) possíveis.
Para 5 seqüências existem 15 árvores (bifurcantes):
Avaliação da acurácia da árvore reconstruída
ANÁLISE BOOTSTRAP
Construção de um novo alinhamentoao acaso:
O novo alinhamento compreende sequências
que são diferentes do verdadeiro
Mas tem um padrão similar de variabilidade
•O número de árvores cresce muito rapidamente à O número de árvores cresce muito rapidamente à medida que aumenta o número de seqüências. medida que aumenta o número de seqüências.
•Para 10 seqüências,mais de um milhão de árvores Para 10 seqüências,mais de um milhão de árvores são possíveis. Para se atingir o número de são possíveis. Para se atingir o número de partículas elementares do Universo conhecido partículas elementares do Universo conhecido (~1080), bastam 59 seqüências! E isso contando (~1080), bastam 59 seqüências! E isso contando apenas as árvores sem raiz e estritamente apenas as árvores sem raiz e estritamente bifurcantes. bifurcantes.
Quantas árvores?