Post on 23-Jan-2016
LA IDENTIDAD DE LOS FRAGMENTOS DE DNALA IDENTIDAD DE LOS FRAGMENTOS DE DNA
Ramon Rosselló-MóraRamon Rosselló-Móra
Marine Microbiology GroupMarine Microbiology Group
Institut Mediterrani d’Estudis Avançats (CSIC-UIB)Institut Mediterrani d’Estudis Avançats (CSIC-UIB)
Aristotle (-2400 years)Aristotle (-2400 years)
genusgenus speciesspecies
Linnaeus (-300 years)Linnaeus (-300 years)
kingdomkingdom classclass orderorder genusgenus speciesspecies
Mayr & Simpson (-50 yearsMayr & Simpson (-50 years))
kingdomkingdom phylumphylum subphylumsubphylum superclasssuperclass classclass infraclassinfraclass cohortcohort superorder superorder orderorder infraorderinfraorder superfamilysuperfamily familyfamily subfamilysubfamily tribetribe subtribe subtribe genusgenus subgenussubgenus speciesspecies subspeciessubspecies
►►un solo sistema ►un solo sistema ► toda la diversidadtoda la diversidad ( (MONISMOMONISMO))
►► de categorias respuesta ade categorias respuesta a nuevas clasificaciones!nuevas clasificaciones!
► ► El sistema ES artificialEl sistema ES artificial
Rosselló-Mora 2005, J.Bacteriol. 187:6255-6257Rosselló-Mora 2005, J.Bacteriol. 187:6255-6257
La idea de unidad taxonómica surge de la suposición de una creación divinaLa idea de unidad taxonómica surge de la suposición de una creación divina
< 60’s< 60’s
Identificación fenotípicaIdentificación fenotípica
60’s60’s
Descubrimiento del DNADescubrimiento del DNAhibridaciones DNA-DNAhibridaciones DNA-DNA
Análisis del GCAnálisis del GC
90’s90’s
use del RNAr como use del RNAr como cronómetro molecularcronómetro molecular
>00’s>00’s
Genómica y Genómica y metagenómicametagenómica
(Venter)(Venter) (Bergey)(Bergey)
(Woese)(Woese) (Watson & Crieg)(Watson & Crieg)
La definición de unidad va mejorando con el desarrollo tecnológicoLa definición de unidad va mejorando con el desarrollo tecnológico
¿qué es una especie?¿qué es una especie?
El concepto de especie en TAXONOMÍAEl concepto de especie en TAXONOMÍA
¿qué es una especie?¿qué es una especie?
CONCEPTOCONCEPTO
ESPECIE (concepto ESPECIE (concepto filo-fenéticofilo-fenético))
““es una categoría que circunscribe (preferentemente) es una categoría que circunscribe (preferentemente) grupos genómicos coherentes grupos genómicos coherentes
y monofiléticosy monofiléticos de aislados/cepas individuales que comparten de aislados/cepas individuales que comparten un elevado grado de un elevado grado de
similitudsimilitud en (muchos) caracteres independientes, comparados utilizando métodos en (muchos) caracteres independientes, comparados utilizando métodos
estandarizados”estandarizados”
Rosselló-Mora & Amann 2001, FEMS Rev. Rosselló-Mora & Amann 2001, FEMS Rev. 25:39-6725:39-67
¿qué es una especie?¿qué es una especie?
DEFINICIÓNDEFINICIÓN
phylogenetic coherencephylogenetic coherence
RNAr 16SRNAr 16SGenes funcionales (MLSA)Genes funcionales (MLSA)
Análisis genómicosAnálisis genómicos
70-50%70%
genomic coherencegenomic coherence
Reasociación DNA-DNAReasociación DNA-DNAG+C, AFLP, G+C, AFLP, MLSAMLSA
Comparaciones genómicasComparaciones genómicas(ANI; AAI)(ANI; AAI)
100%100%
60%60%
70%70%
80%80%
50%50%phenotypic coherencephenotypic coherence
metabolismometabolismoquimiotaxonomíaquimiotaxonomíaEspectrometría Espectrometría
(Maldi-Tof; ICR-FT/MS)(Maldi-Tof; ICR-FT/MS)
PARÁMETROS PARA CIRCUNSCRIBIR ESPECIESPARÁMETROS PARA CIRCUNSCRIBIR ESPECIES
(no se pueden tomar como valores absolutos)(no se pueden tomar como valores absolutos)
RNAr 16S RNAr 16S ≥ 97%≥ 97%
Hibridación DNA-DNA Hibridación DNA-DNA ≥ 70%≥ 70%
ANI ANI ≥ 94%≥ 94%
MLSA ???MLSA ???
Fenotipo Fenotipo = coherencia en muchos carácteres= coherencia en muchos carácteres
El gen del El gen del RNAr 16SRNAr 16S permite reconstruir filogenias permite reconstruir filogenias
El RNAr 16S se ha convertido en la molécula de referencia paraEl RNAr 16S se ha convertido en la molécula de referencia para
reconstruir la genealogíareconstruir la genealogía
construir el sistema de clasificaciónconstruir el sistema de clasificación
indentificar diversidad ambientalindentificar diversidad ambiental
¿qué es una especie?¿qué es una especie?
Se pretende asumir el filotipo como especie basada en 16S RNAr Se pretende asumir el filotipo como especie basada en 16S RNAr
En general dos organismos con <97% identidad pertenecen a especies distintasEn general dos organismos con <97% identidad pertenecen a especies distintasLo contrario no es ciertoLo contrario no es cierto
one species with genomic and one species with genomic and phylogenetic heterogeneityphylogenetic heterogeneity
several species with identical or several species with identical or nearly identical 16S rRNAnearly identical 16S rRNA
Staphylococcus piscifermentansStaphylococcus piscifermentans Staphylococcus carnosusStaphylococcus carnosus
Staphylococcus condimentiStaphylococcus condimenti
three speciesthree speciesRBR 51 - 58% - RBR 51 - 58% - 16S rRNA 98.9 - 99.9%16S rRNA 98.9 - 99.9%
Amycolatopsis thermoflavaAmycolatopsis thermoflava Amycolatopsis methanolicaAmycolatopsis methanolica
two speciestwo speciesRBR 21% - RBR 21% - 16S rRNA 98.8%16S rRNA 98.8%
Proteus vulgarisProteus vulgaris
Rahnella aquatilisRahnella aquatilis
ArchaeaArchaea
10%10%
Mycobacterium tuberculosisMycobacterium tuberculosis
Pseudomonas stutzeriPseudomonas stutzeri
one species with 7 genomovarsone species with 7 genomovars∆∆Tm 0 - 10°C - Tm 0 - 10°C - 16S rRNA 98 - 99.9%16S rRNA 98 - 99.9%
Pseudomonas aeruginosaPseudomonas aeruginosaone species with 3 genomospeciesone species with 3 genomospecies
RBR 40 - 100% - RBR 40 - 100% - 16S rRNA 97.8 - 100%16S rRNA 97.8 - 100%
Staphylococcus aureusStaphylococcus aureus
¿qué es una especie?¿qué es una especie?
Se pretende asumir el filotipo como especie basada en 16S RNAr Se pretende asumir el filotipo como especie basada en 16S RNAr
En general dos organismos con <97% identidad pertenecen a especies distintasEn general dos organismos con <97% identidad pertenecen a especies distintasLo contrario no es ciertoLo contrario no es cierto
even extreme cases where a single even extreme cases where a single strain may contain different 16S rRNA strain may contain different 16S rRNA genes even below 97% similarity!!!!genes even below 97% similarity!!!!
a good correlation!!!a good correlation!!!
""Thermococcus litoralisThermococcus litoralis""
Thermococcus barophilusThermococcus barophilus
Haloarcula marismortuiHaloarcula marismortui
Haloferax mediterraneiHaloferax mediterranei Haloferax denitrificansHaloferax denitrificans
Natronobacterium tibetenseNatronobacterium tibetense
Natronobacterium bangenseNatronobacterium bangense
BacteriaBacteria10%10%
one strain with three 16S rRNAone strain with three 16S rRNAoperons with operons with 94%94% similarity similarity
two speciestwo speciesRBR 35% - 16S rRNA 95.2%RBR 35% - 16S rRNA 95.2%
two speciestwo speciesRBR 68% - 16S rRNA 97.3%RBR 68% - 16S rRNA 97.3%
Identificación de organismos (DNA / RNA) no cultivados Identificación de organismos (DNA / RNA) no cultivados ►►
100%100%
100% 100% reconditioningreconditioning
99%99%98%98%97%97%
Acinas et al., 2004 Nature 430:551-554Acinas et al., 2004 Nature 430:551-554
Librerías de clonesLibrerías de clones
gran variedad de filotiposgran variedad de filotipos
errores en la amplificaciónerrores en la amplificación
agrupaciones por % identidadagrupaciones por % identidad
97% por especie?97% por especie?
Filotipos Filotipos ≠ especies≠ especies
OPU (operational phylogenetic unit)OPU (operational phylogenetic unit)
Se puede determinar a Se puede determinar a
grandes rasgos la identidad grandes rasgos la identidad
de los organismos presentesde los organismos presentes
BASES DE DATOSBASES DE DATOS
1.443.326 16S rRNA1.443.326 16S rRNA
756.668 > 300 bases756.668 > 300 bases
324.342 > 900 bases324.342 > 900 bases
50% mala calidad50% mala calidad
20% buena calidad20% buena calidad
5% (10%) cultivados5% (10%) cultivados
El crecimiento de la base de datos es exponencialEl crecimiento de la base de datos es exponencial
BASES DE DATOSBASES DE DATOS
95% de las secuencias son ambientales95% de las secuencias son ambientales
5% de las secuencias son de organismos cultivados5% de las secuencias son de organismos cultivados
1% de las secuencias se corresponden con especies conocidas1% de las secuencias se corresponden con especies conocidas
La calidad de las secuencias aumenta con el tamaño de fragmento secuenciadoLa calidad de las secuencias aumenta con el tamaño de fragmento secuenciado
El gen está conservado de distinta forma en distintos sectores. El gen está conservado de distinta forma en distintos sectores.
Las secuencias cortas pierden información relevanteLas secuencias cortas pierden información relevante
Son las más abundates en la base de datosSon las más abundates en la base de datos
No es recomendable reconstruir filogeniasNo es recomendable reconstruir filogenias
rojo (secuencias totales)rojo (secuencias totales)
negro (buena calidad)negro (buena calidad)
La identidad basada en RNAr 16S ambiental, muy probablemente se limite a filotiposLa identidad basada en RNAr 16S ambiental, muy probablemente se limite a filotipos
4 filos concentran el 87% de los taxones descritos4 filos concentran el 87% de los taxones descritos
La mayor parte de origen clínicoLa mayor parte de origen clínico
Hugenholz et al. 2002 AEM 18: 4765-4774Hugenholz et al. 2002 AEM 18: 4765-4774
Yarza et al. 2008 System Appl Microbiol 31: 241-250Yarza et al. 2008 System Appl Microbiol 31: 241-250
Identificación de un DNA ambientalIdentificación de un DNA ambiental
a nivel de especie poco probablea nivel de especie poco probable
hay 4 grupos que tienen la mayoria de aisladoshay 4 grupos que tienen la mayoria de aislados
información metabólicainformación metabólica
información genéticainformación genética
otros filos => difícil especular otros filos => difícil especular
Una secuencia no garantiza identificar el metabolismo y genéticaUna secuencia no garantiza identificar el metabolismo y genética
El concepto de genoma de una especieEl concepto de genoma de una especie
Genes “core” esenciales y Genes “core” esenciales y con señal filogenéticacon señal filogenética
Genes “auxiliares” no Genes “auxiliares” no presentes en todos las presentes en todos las
poblaciones y con poca señal poblaciones y con poca señal filogenéticafilogenética
Genes “específicos” de Genes “específicos” de población y sin señal población y sin señal
filogenéticafilogenética
Lan and Reeves. 2000 TRENDS Microbiol 8: 396-401Lan and Reeves. 2000 TRENDS Microbiol 8: 396-401
Otras moléculas con señal filogenéticaOtras moléculas con señal filogenética
Características de una molecula como reloj molecularCaracterísticas de una molecula como reloj molecular
universalmente representadauniversalmente representada
Solo Solo 3434 genes ortólogos universales ( genes ortólogos universales (Huynen & Bork, PNAS, 1998. 95:5849-5856Huynen & Bork, PNAS, 1998. 95:5849-5856))
Se pueden seleccionar genes específicos de grupo (e.g. filo) y no universalesSe pueden seleccionar genes específicos de grupo (e.g. filo) y no universales
constancia funcional constancia funcional
conservación en la secuencia suficiente para la reconstrucciónconservación en la secuencia suficiente para la reconstrucción
suficiente complejidad para tener señal filogenéticasuficiente complejidad para tener señal filogenética
Ludwig and Schleifer. 2005 Microbial phylogeny and Ludwig and Schleifer. 2005 Microbial phylogeny and evolution (Sapp) 70-98. (Oxford University Press)evolution (Sapp) 70-98. (Oxford University Press)
Marcadores que dan soporte a la filogenia globalMarcadores que dan soporte a la filogenia global
RNAr 16SRNAr 16S
RNAr 23SRNAr 23S
EF-Tu (EF-Tu (algunos filos son parafiléticos e.g. algunos filos son parafiléticos e.g. Actinobacteria Actinobacteria yy Streptomyces Streptomyces))
RNA polimerasa rpoB RNA polimerasa rpoB (algunos filos (algunos filos parafiléticos e.g. parafiléticos e.g. EpsilonproteobacteriaEpsilonproteobacteria y resto y resto ProteobacteriaProteobacteria))
Heat Shock Hsp60 Heat Shock Hsp60 ((BacteriaBacteria: GroEL, : GroEL, ArchaeaArchaea: : Tf-55; tambien algunos parafiléticos)Tf-55; tambien algunos parafiléticos)
Aminoacyl tRNA sintetasasAminoacyl tRNA sintetasas
Marcadores que NO dan soporte a la filogenia globalMarcadores que NO dan soporte a la filogenia global
ATPasasATPasas
DNA girasasDNA girasas
Hsp70Hsp70
RecARecA
De todos modos, si tienen señal a niveles más De todos modos, si tienen señal a niveles más concretos y pueden dar una idea de la identidadconcretos y pueden dar una idea de la identidad
Filogenia con genes funcionales de Filogenia con genes funcionales de S. ruberS. ruber cepa M8 cepa M8
2222 ortólogos seleccionados ortólogos seleccionados ►► Filogenias individuales Filogenias individuales
((ileS, pyrG, rpsC, S5, rpoC, rpoB, gyrB, thrS, mfd, ftsY, tuf, uvrA-2ileS, pyrG, rpsC, S5, rpoC, rpoB, gyrB, thrS, mfd, ftsY, tuf, uvrA-2, , ffh, glyA, recN, ffh, glyA, recN,
ruvB, recG, rhoruvB, recG, rho, , groEL, recA, uvrA, valSgroEL, recA, uvrA, valS))
2222 secuencias concatenated secuencias concatenated ►►10.75710.757 posiciones posiciones
7474 ortólogos seleccionados automáticamente ortólogos seleccionados automáticamente ►► 17.14917.149 posiciones posiciones
Of all 22 analyzed genesOf all 22 analyzed genes::
57 % 57 % BacteroidetesBacteroidetes
27 % 27 % ChlorobiChlorobi
18 % 18 % Chlorobi- BacteroidetesChlorobi- Bacteroidetes
3 posibles filogenias
Sória-Carrasco et al. 2007. System Appl Microbiol. Sória-Carrasco et al. 2007. System Appl Microbiol. 30: 171-17930: 171-179
La filogenia de La filogenia de Salinibacter ruberSalinibacter ruber
De los 29 genes analizadosDe los 29 genes analizados::
31% 31% ChlorobiChlorobi
38% 38% BacteroidetesBacteroidetes
10% 10% Chlorobi- BacteroidetesChlorobi- Bacteroidetes
21% 21% other reconstructionsother reconstructions
Árboles concatenadosÁrboles concatenados::
misma topología que 16S rRNAmisma topología que 16S rRNA
resolución similarresolución similar
confima la divergencia tempranaconfima la divergencia temprana
mayor robustezmayor robustez
Mucho más complejo para el mismo resultadoMucho más complejo para el mismo resultado
16S 16S ►► aproximación más parsimoniosaaproximación más parsimoniosa
2222 genesgenes / / 10.75710.757 posicionesposiciones 7474 genesgenes / / 17.14917.149 posicionesposiciones
Sória-Carrasco et al. 2007. System Appl Microbiol. Sória-Carrasco et al. 2007. System Appl Microbiol. 30: 171-17930: 171-179
DDHDDH es el estándar para circunscribir especies es el estándar para circunscribir especies
50-70% genome similarity50-70% genome similarity
MLSAMLSA ( (multilocus sequence analysismultilocus sequence analysis))
5-105-10 secuencias completas/parcialessecuencias completas/parciales
house keeping geneshouse keeping genes dificultades en el diseño de cebadoresdificultades en el diseño de cebadores biases en la selección de genesbiases en la selección de genes más trabajosomás trabajoso
(Stackebrandt et al. 2002. IJSEM. 52:1043-1047)(Stackebrandt et al. 2002. IJSEM. 52:1043-1047)
0102030405060708090
100
4 8 12 16
Boot
stra
p
Number of genes
Selecciones al azar deSelecciones al azar de 2222 genesgenes ►►checking branching robustnesschecking branching robustness►►1212 genes give thegenes give the minimalminimal reliabilityreliability►►el diseño de cebadores no es siempre fácilel diseño de cebadores no es siempre fácil
DDHDDH será menos preciso peroserá menos preciso pero más parsimoniosomás parsimonioso
Sória-Carrasco et al. 2007. System Appl Microbiol. Sória-Carrasco et al. 2007. System Appl Microbiol. 30: 171-17930: 171-179
El valor de los análisis multilocus (MLSA)El valor de los análisis multilocus (MLSA)
El problema de la pérdida de identidad por transferencia horizontal de genes (HGT)El problema de la pérdida de identidad por transferencia horizontal de genes (HGT)
Kunin et al. 2005. Genome Res. 15:954-959 Kunin et al. 2005. Genome Res. 15:954-959
Las incongruencias filogenéticas Las incongruencias filogenéticas
hacen pensar en una transferencia hacen pensar en una transferencia horizontal exagerada que desdibuja la horizontal exagerada que desdibuja la
filogenia de los organismosfilogenia de los organismos
Doolittle y otros Doolittle y otros
DOS ESCUELASDOS ESCUELAS
Las incongruencias filogenéticas Las incongruencias filogenéticas
Se pueden explicar por Se pueden explicar por
►►eventos de duplicaciones (paralogías) eventos de duplicaciones (paralogías) y pérdida de genes (hidden paralogy)y pérdida de genes (hidden paralogy)
► ►
► ►
La solución es siendo más estricto en la La solución es siendo más estricto en la selección de genes y en la asignación selección de genes y en la asignación
de ortologíasde ortologías
Soria-Carrasco & Castresana, 2008. Mol. Soria-Carrasco & Castresana, 2008. Mol. Biol. Evol. 25: 2319-2329Biol. Evol. 25: 2319-2329
Kurland. 2005. Bioessays 27:741-747Kurland. 2005. Bioessays 27:741-747
El problema de la pérdida de identidad por transferencia horizontal de genes (HGT)El problema de la pérdida de identidad por transferencia horizontal de genes (HGT)
Sensory rhodopsinsSensory rhodopsins
BacteriorhodopsinsBacteriorhodopsins
HalorhodopsinsHalorhodopsins
ProteorhodopsinsProteorhodopsins
XanthorhodopsinsXanthorhodopsins
Salinibacter M8 & M31 encode for 4 rhodopsinsA medida que se van secuenciando A medida que se van secuenciando DNA ambientales aparecen más y DNA ambientales aparecen más y más proteorhodopsinas (hasta en más proteorhodopsinas (hasta en
euriarcheotas) que se atribuyen a una euriarcheotas) que se atribuyen a una enorme tasa de HGTenorme tasa de HGT
McCarren & DeLong, Environ. Microbiol. McCarren & DeLong, Environ. Microbiol. 9:846-858 (2007)9:846-858 (2007)
Si los 3 tipos de proteorhodopsinas se consideraran Si los 3 tipos de proteorhodopsinas se consideraran distintos genes (como el resto), probablemente se distintos genes (como el resto), probablemente se
hablaría de un ancestro común y no de HGThablaría de un ancestro común y no de HGT
200 l agua de mar200 l agua de mar
2 millones de secuencias (media de 800 bases)2 millones de secuencias (media de 800 bases)
1.2 millones de genes1.2 millones de genes
1400 1400 ≠ 16S rRNA≠ 16S rRNA
600 ≠ recA600 ≠ recA
800 proteorhodopsinas nuevas 800 proteorhodopsinas nuevas
Venter et al., 2004. Science 304:66-74Venter et al., 2004. Science 304:66-74
www.sorcerer2expedition.org
Rusch et al., 2007. PLoS Biol. 5:398-431Rusch et al., 2007. PLoS Biol. 5:398-431
200 l agua de mar / estación
41 puntos de muestreo
44,000 – 420,000 clones/estación
7,700,000 lecturas
total 6,250,000 genes (3,081,849 contigs)
4,125 ≠ 16S rRNA (>5000 recA!)
811 ≠ ribotipos (97%) (50% novel)
Alfaproteobacteria (SAR11) más abundante
Incremento en información entre ambos estudiosIncremento en información entre ambos estudios
41 muestras41 muestras
3.9x secuenciaciones3.9x secuenciaciones
5.1x número de genes5.1x número de genes
2.9x número de RNAr 16S 2.9x número de RNAr 16S ≠≠
La probabilidad de encontrar un gen con señal filogenéticaLa probabilidad de encontrar un gen con señal filogenética
Venter: Global Ocean Sampling (Venter: Global Ocean Sampling (Rusch et al., 2007. PLoS Biol. 5:398-431Rusch et al., 2007. PLoS Biol. 5:398-431) random sequencing) random sequencing
6,250,944 ORFs6,250,944 ORFs
6,413 16S ≠ 6,413 16S ≠ ΞΞ 0.1% (1/1000) 0.1% (1/1000)
fósmido ►100 orfs fósmido ►100 orfs ΞΞ 10% contendrá un RNAr 16S (o marcador filogenético) 10% contendrá un RNAr 16S (o marcador filogenético)
cósmido ►40 orfs cósmido ►40 orfs ΞΞ 4% contendrá un RNAr 16S (o marcador filogenético) 4% contendrá un RNAr 16S (o marcador filogenético)
Valores semejantes se obtendrán para otros genes con pocos parálogosValores semejantes se obtendrán para otros genes con pocos parálogos
Si hay 34 ortólogos universales Si hay 34 ortólogos universales ΞΞ 3.5% de los genes (29/1000) 3.5% de los genes (29/1000)
Aumentan mucho las posibilidades de encontrar un gen con señal en un fósmidoAumentan mucho las posibilidades de encontrar un gen con señal en un fósmido
Asignación por tetranucleótidos (Asignación por tetranucleótidos (Teeling et al., 2004 Environ Microbiol. 6:938-947Teeling et al., 2004 Environ Microbiol. 6:938-947 ) targeted metagenome ) targeted metagenome librarieslibraries
si un genoma tiene 4 Mbsi un genoma tiene 4 Mb fósmido ►100 orfs fósmido ►100 orfs ΞΞ 10% contendrá un RNAr 16S (o marcador filogenético) 10% contendrá un RNAr 16S (o marcador filogenético)
cósmido ►40 orfs cósmido ►40 orfs ΞΞ 4% contendrá un RNAr 16S (o marcador filogenético) 4% contendrá un RNAr 16S (o marcador filogenético)
Ambas aproximaciones concuerdan con una media de genoma de 4MbAmbas aproximaciones concuerdan con una media de genoma de 4Mb
La precisión en la identificación depende de lo extensa que sea la base de datosLa precisión en la identificación depende de lo extensa que sea la base de datos
Si el fragmento de metagenoma no contiene marcador filogenéticoSi el fragmento de metagenoma no contiene marcador filogenético
SIGNATURAS DEL GENOMASIGNATURAS DEL GENOMA
Contenido G+C Contenido G+C ►poco informativo►poco informativo
Codon usage Codon usage ► equivalente a trinucleotidos ► mayor información► equivalente a trinucleotidos ► mayor información
Tetranucleótidos (penta-, hexa-…) Tetranucleótidos (penta-, hexa-…) ►mayor información, pero mayor coste de cálculo►mayor información, pero mayor coste de cálculo
Variaciones de tetranucleótidos: 4Variaciones de tetranucleótidos: 444 = 256 = 256
Se puede realizar la regresión de las frecuencias de uso de tetranucleótidosSe puede realizar la regresión de las frecuencias de uso de tetranucleótidos
Índice de regresiónÍndice de regresión
dos genomas semejantes tienen frecuencias semejantes (buena correlación; e.g. 0.89)dos genomas semejantes tienen frecuencias semejantes (buena correlación; e.g. 0.89)
dos genomas distintos tienen frecuencias distintas (mala regresión; e.g. 0.45)dos genomas distintos tienen frecuencias distintas (mala regresión; e.g. 0.45)
Se puede realizar la regresión de las frecuencias de uso de tetranucleótidosSe puede realizar la regresión de las frecuencias de uso de tetranucleótidos
Teeling et al., 2004 Environ Microbiol. 6:938-947Teeling et al., 2004 Environ Microbiol. 6:938-947
En un grupo de clones de metagenoma se puede observar cuáles pueden ser asignados a En un grupo de clones de metagenoma se puede observar cuáles pueden ser asignados a un mismo genoma o de organismos muy semejantesun mismo genoma o de organismos muy semejantes
Probablemente de un Probablemente de un mismo genoma u mismo genoma u
organismoorganismo
Dos poblaciones de una misma especie pueden no compartir orfsDos poblaciones de una misma especie pueden no compartir orfs
Peña et al., manuscrito en preparaciónPeña et al., manuscrito en preparación
Si los fragmentos de DNA no compartidos tienen una misma frecuencia de uso, se puede Si los fragmentos de DNA no compartidos tienen una misma frecuencia de uso, se puede hipotetizar una identidad semejantehipotetizar una identidad semejante
si se encuentra un gen codificante para 16S rRNA ► buena precisión si se encuentra un gen codificante para 16S rRNA ► buena precisión > 300,000> 300,000 secuencias en bases de datos secuencias en bases de datos
otros marcadores universales:otros marcadores universales:
23S ► precisión adecuada 23S ► precisión adecuada > 12,506> 12,506 secuencias en bases de datos secuencias en bases de datos
otros genes esenciales ► poco precisa por falta de entradas en bases de datosotros genes esenciales ► poco precisa por falta de entradas en bases de datos
otros marcadores no universales:otros marcadores no universales:
depende del grupo y la exhaustividad en el estudio ► depende del grupo y la exhaustividad en el estudio ► ProteobacteriaProteobacteria vs vs AcidobacteriaAcidobacteria
no marcadores ►la signatura de tetranucleótidos puede dar una idea (depende del número de genomas no marcadores ►la signatura de tetranucleótidos puede dar una idea (depende del número de genomas secuenciados)secuenciados)
La identidad depende de haber clasificado anteriormente el organismo; sólo La identidad depende de haber clasificado anteriormente el organismo; sólo 80008000 especies descritas especies descritas
Una hipótesis sobre genética/metabolismo/ecología depende de los conocimientos previos del grupo (i.e. Una hipótesis sobre genética/metabolismo/ecología depende de los conocimientos previos del grupo (i.e. aislados estudiados, información sobre autoecología…)aislados estudiados, información sobre autoecología…)
La identidad de un fragmento de DNALa identidad de un fragmento de DNA
El problema de la pérdida de identidad por transferencia horizontal de genes (HGT)El problema de la pérdida de identidad por transferencia horizontal de genes (HGT)
aa Pedrós-Alió, 2006 TRENDS Microbiol 14:257-263 Pedrós-Alió, 2006 TRENDS Microbiol 14:257-263
Numbers of total existing Numbers of total existing species is very controversialspecies is very controversial
Some Some
Slava Epstein Slava Epstein
believe <40.000believe <40.000
Others Others
Carles Pedrós-Alió believe Carles Pedrós-Alió believe >10>1099
And even othersAnd even others
Dykhuizen Dykhuizen
believebelieve >>10101818