Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas...
Transcript of Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas...
![Page 1: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/1.jpg)
Algunos problemas computacionales enmetagenómica
Francesc Rosselló
Grupo de Biología Computacional y Bioinformática (UIB)
Técnicas Inteligentes en BioinformáticaSevilla, 16 de junio de 2014
![Page 2: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/2.jpg)
Los reyes de la Tierra?
2 / 53
![Page 3: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/3.jpg)
Los reyes de la Tierra?
2 / 53
![Page 4: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/4.jpg)
Aunque sólo sea por número
N. C. Kyrpides, Nature Biotech. 27 (2009), 627–6323 / 53
![Page 5: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/5.jpg)
Los microbios controlan la atmósfera
El ciclo del carbono
Fuente: http://www.bigelow.org/foodweb/carbon_cycle.jpg4 / 53
![Page 6: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/6.jpg)
Los microbios controlan nuestra saludNuestro zoo interior
Fuente: http://www.washingtonpost.com/national/health-science/microbes-may-play-crucial-role-in-human-health-researchers-discovering/2011/09/24/gIQAH5lFYL_story.html
5 / 53
![Page 7: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/7.jpg)
Los verdaderos amos
6 / 53
![Page 8: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/8.jpg)
Cómo se estudian los microbios?
Era pre-genómica: 1650-1975
7 / 53
![Page 9: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/9.jpg)
Cómo se estudian los microbios?
Era genómica: 1975-. . .
• 1975-1980: Primeros genomas de virus secuenciados
• 1995: Primer genoma de bacteria secuenciado H. influenziæ
• Hoy: Más de 3.000 genomas completos de microorganismossecuenciados y depositados en GenBank, 12.000 proyectos desecuenciado de microorganismos en marcha sólo en el DoE.
• Básicamente, microbios en cultivos puros o (a partir de 2005)de especies dominantes en su comunidad o de genomafácilmente separable.
8 / 53
![Page 10: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/10.jpg)
Cómo se estudian los microbios?
The new science of metagenomics. The National Academies Press (2007). Fig. 1-3
9 / 53
![Page 11: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/11.jpg)
Cómo se estudian los microbios?
The new science of metagenomics. The National Academies Press (2007). Fig. 1-3
10 / 53
![Page 12: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/12.jpg)
Metagenómica
La metagenómica (más allá del estudio genómico de un soloorganismo) analiza las colecciones de secuencias obtenidas demuestras microbianas ambientales
De moda porque:• La mayoría de los microbios no se pueden estudiar aislados enlaboratorios
• El estudio de las comunidades microbianas es más interesante
• Las nuevas técnicas de secuenciación producen cantidadesgrandes de secuencias de DNA a bajo coste
11 / 53
![Page 13: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/13.jpg)
Metagenómica
Secuenciadores de nueva generación
A. Magi et al, Genes 1 (2010), 294–307
12 / 53
![Page 14: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/14.jpg)
Oportunidades en metagenómica
13 / 53
![Page 15: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/15.jpg)
Pasos de un estudio metagenómico
The new science of metagenomics. The National Academies Press (2007). Fig. 4-114 / 53
![Page 16: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/16.jpg)
Pasos de un estudio metagenómico
1 Selección de la comunidad microbiana a estudiar, y estudioprevio
15 / 53
![Page 17: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/17.jpg)
Pasos de un estudio metagenómico
1 Selección de la comunidad microbiana a estudiar, y estudioprevio
2 Muestreo• Las muestras han de ser representativas: Cálculo de curvas de
rarefacción
S. Monira, S Nakamura et al, Front. Microbiol. 2 (2011), 228
• Elección de las condiciones de muestreo
• Metadatos (para poder reciclar los datos)
15 / 53
![Page 18: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/18.jpg)
Pasos de un estudio metagenómico
1 Selección de la comunidad microbiana a estudiar, y estudioprevio
2 Muestreo
3 Extracción de las macromoléculas que se usarán• Marcadores específicos
• Secuenciado shotgun aleatorio de DNA
15 / 53
![Page 19: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/19.jpg)
Pasos de un estudio metagenómico
1 Selección de la comunidad microbiana a estudiar, y estudioprevio
2 Muestreo
3 Extracción de las macromoléculas que se usarán
4 Procesado bioquímico de las macromoléculas (amplificacióncon PCR, secuenciado, . . . )
15 / 53
![Page 20: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/20.jpg)
Pasos de un estudio metagenómico
1 Selección de la comunidad microbiana a estudiar, y estudioprevio
2 Muestreo
3 Extracción de las macromoléculas que se usarán
4 Procesado bioquímico de las macromoléculas (amplificacióncon PCR, secuenciado, . . . )
5 Procesado computacional de las secuencias• Identificación de anomalías
• Identificación de OTU
15 / 53
![Page 21: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/21.jpg)
Pasos de un estudio metagenómico
1 Selección de la comunidad microbiana a estudiar, y estudioprevio
2 Muestreo
3 Extracción de las macromoléculas que se usarán
4 Procesado bioquímico de las macromoléculas (amplificacióncon PCR, secuenciado, . . . )
5 Procesado computacional de las secuencias
6 Análisis filogenético o taxonómico de la muestra de secuencias
15 / 53
![Page 22: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/22.jpg)
Pasos de un estudio metagenómico
1 Selección de la comunidad microbiana a estudiar, y estudioprevio
2 Muestreo
3 Extracción de las macromoléculas que se usarán
4 Procesado bioquímico de las macromoléculas (amplificacióncon PCR, secuenciado, . . . )
5 Procesado computacional de las secuencias
6 Análisis filogenético o taxonómico de la muestra de secuencias
7 Análisis de la comunidad
15 / 53
![Page 23: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/23.jpg)
rRNA
X. C. Morgan, C. Huttenhower, PLoS Comput. Biol. 8 (2012), e1002808 16 / 53
![Page 24: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/24.jpg)
rRNA
Subunidades 16S (bacterias y archaea) y 18S rRNA (hongosunicelulares)
Fuente: B. Alberts et al, Molecular biology of the cell
17 / 53
![Page 25: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/25.jpg)
rRNA
Subunidades 16S (bacterias y archaea) y18S rRNA (hongos unicelulares):
• Largas• Ubicuas• Baratas de obtener y secuenciar• Estructura y función altamenteconservadas: buen marcadorevolutivo
18 / 53
![Page 26: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/26.jpg)
rRNA
Subunidades 16S (bacterias y archaea) y18S rRNA (hongos unicelulares):
• Largas• Ubícuas• Baratas de obtener y secuenciar• Estructura y función altamenteconservadas: buen marcadorevolutivo
• Contienen pequeños trozosaltamente conservados: primersuniversales para PCR
• Contienen trozos muy variables:marcadores característicos de laespecie
19 / 53
![Page 27: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/27.jpg)
rRNA
Problemas:
• Raros en el genoma (< 0.1%)• Los trozos similares dificultan el ensamblado correcto delecturas pequeñas
• No todos los rRNA se amplifican en la misma medida con losprimers universales
• Especies con diversas copias de sus genes rRNA• No se conoce un umbral fijo de similitud que separe especies• Tendencia a producirse quimeras en la PCR
20 / 53
![Page 28: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/28.jpg)
Procesado computacional de rRNA
Etapas:
1 Filtrado
2 Eliminación de quimeras y otras anomalías
3 Formación de OTU
4 Identificación de los OTU con organismos en bases de datos
Algunos paquetes permiten llevar a cabo todo el proceso:• mothur: http://www.mothur.org
• QIIME: http://qiime.org
21 / 53
![Page 29: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/29.jpg)
Formación de quimeras en la PCR
22 / 53
![Page 30: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/30.jpg)
Formación de quimeras en la PCR
(Aunque la PCR de emulsión las reduce)23 / 53
![Page 31: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/31.jpg)
Detección computacional de quimeras: Pintail
Fuente: K. E. Ashelford, et al, Appl. Environ. Microbiol. 71 (2005), 7724–773624 / 53
![Page 32: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/32.jpg)
Detección computacional de quimeras: ChiSeqI
Fuente: A. M. Arigon, G. Perrière, M. Gouy, Biochimie 90 (2008), 609–614.25 / 53
![Page 33: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/33.jpg)
Detección computacional de quimeras: Otros
Bellerophon T. Huber et al, Bioinformatics 20 (2004), 2317–2319
Mallard K. E. Ashelford et al, Appl Environ Microbiol. 72 (2006), 5734–5741
ChimeraSlayer B. Haas et al, Genome Res. 21 (2011), 494–504.
Uchime R. Edgar et al, Bioinformatics 27 (2011), 2194-2200.
Perseus C. Quince et al, BMC Bioinformatics 12 (2011), 38.
DECIPHER E. S. Wright et al, Appl. Environ. Microbiol 78 (2012) 717–725
...
26 / 53
![Page 34: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/34.jpg)
Agrupamiento de secuencias en OTU
• Mediante comparación con secuencias consenso (QIIME)• Aceptando o descartando secuencias nuevas
• Recalculando los consensos
• Técnicas de aprendizaje automático supervisado (redesBayesianas, SVM)
• Mediante clustering no supervisado basado en distancias deedición
En todos los casos, el OTU se representa mediante una secuenciade consenso obtenida mediante alineamiento múltiple
27 / 53
![Page 35: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/35.jpg)
Agrupamiento de secuencias en OTU
Clustering no supervisado: mothur
• Alineamiento múltiple con secuencias modelo de una base dedatos (SILVA)
• Clustering jerárquico UPGMA por distancias de edición• Corte manual del árbol para producir los OTU
28 / 53
![Page 36: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/36.jpg)
Agrupamiento de secuencias en OTU
Clustering no supervisado: DBC1 Parte de diversas muestras2 Preclasificación en grupos de 90% de similitud3 Usa una combinación de distancia de edición (por alin.
múltiple) e información sobre distribución en las muestras
S. P. Preheim et al, Appl Environ Microbiol. 79 (2013), 6593–6603 29 / 53
![Page 37: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/37.jpg)
Bases de datos
• INSDC (International Nucleotide Sequence DatabaseCollaboration, http://www.insdc.org): agrupa secuenciasanotadas de DNA de diversos repositorios. Demasiado grande,lento y no cuidado para buscar sólo rRNA
• NCBI RefSeq (http://www.ncbi.nlm.nih.gov):Nomenclatura y clasificación taxonómica de los organismos enINSDC
• RDP (Ribosomal Database Project,http://rdp.cme.msu.edu/): Clasificación filogenética de16S rRNA procariota en INSDC
• Greengenes (http://greengenes.lbl.gov/): Clasificaciónfilogenética de 16S rRNA procariota en GenBank
• SILVA (http://www.arb-silva.de): Clasificaciónfilogenética de 16S y 18S rRNA de bacterias, archaea y hongosen el European Nucleotide Archive
30 / 53
![Page 38: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/38.jpg)
Bases de datos
• INSDC (International Nucleotide Sequence DatabaseCollaboration, http://www.insdc.org): agrupa secuenciasanotadas de DNA de diversos repositorios. Demasiado grande,lento y no cuidado para buscar sólo rRNA
• NCBI RefSeq (http://www.ncbi.nlm.nih.gov):Nomenclatura y clasificación taxonómica de los organismos enINSDC
• RDP (Ribosomal Database Project,http://rdp.cme.msu.edu/): Clasificación filogenética de16S rRNA procariota en INSDC
• Greengenes (http://greengenes.lbl.gov/): Clasificaciónfilogenética de 16S rRNA procariota en GenBank
• SILVA (http://www.arb-silva.de): Clasificaciónfilogenética de 16S y 18S rRNA de bacterias, archaea y hongosen el European Nucleotide Archive
30 / 53
![Page 39: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/39.jpg)
Análisis taxonómico
lecturasreferenciagenómica
estadísticas referenciataxonómica
clasificaciónno-taxonómica
clasificacióntaxonómica
mapeo
asignaciónno-taxonómica
asignacióntaxonómica
31 / 53
![Page 40: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/40.jpg)
Problema de la asignación taxonómica
Input:• Una referencia genómica S (conjunto de secuencias)
• Una referencia taxonómica T (árbol) de hojas L, cada unaetiquetada con una secuencia de S
• Un conjunto R de reads (lecturas) de rRNA
Output:• Para cada Ri ∈ R , un nodo de T que represente lo mejorposible el conjunto Mi ⊆ L de secuencias que se asignan a Ri(hits)
32 / 53
![Page 41: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/41.jpg)
MEGAN
• Filtrado de hits relevantes:• Umbral de puntuación del alineamiento entre read y hoja con
BLASTX, absoluto y en porcentaje del máximo
• Para cada read, sólo los hits de máxima puntuación
• Sólo reads con un número mínimo de hits
• . . .
• Se asigna cada Ri al LCA del Mi obtenido de esta manera
D. Huson et al, Genome Res. 17 (2007), 377–386
33 / 53
![Page 42: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/42.jpg)
TANGO
http://www.lsi.upc.edu/~valiente/tango/
D. Alonso-Alemany et al, Bioinformatics 30 (2014), 17–2334 / 53
![Page 43: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/43.jpg)
Precisión y Exhaustividad
VP: Verdaderos positivos FP: Falsos positivosVN: Verdaderos negativos FN: Falsos negativos
Precisión: P =VP
VP + FP
Exhaustividad: R =VP
VP + FN
Índice F : Media armónica de P y R , F =2
1P + 1
R=
2PRP + R
35 / 53
![Page 44: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/44.jpg)
Precisión y Exhaustividad en una asignación taxonómicaSean• k > 0 un umbral máximo de errores de alineamiento• Ri el i-ésimo read• Mi las hojas de T que contienen Ri salvo k errores• Ti el subárbol de T con raíz el LCA de Mi• Ni las hojas de Ti que no contienen Ri salvo k errores
Hojas de Ti :• VP i = Mi
• FP i = Ni
• VN i = ∅• FN i = ∅
Ti
Ni Mi
FPi VPi 36 / 53
![Page 45: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/45.jpg)
Precisión y Exhaustividad en TANGO
Sean• Tij el subárbol de Ti con raíz en el j-ésimo nodo de Ti
• Mij las hojas Tij que contienen Ri salvo k errores• Nij las hojas Tij que no contienen Ri salvo k errores
Hojas de Ti , paracada j :• VP ij = Mij
• FP ij = Nij
• VN ij = Ni \ Nij
• FN ij = Mi \Mij
Ti
Tij
Ni Nij MijMi
VNij FPij VPij FNij
37 / 53
![Page 46: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/46.jpg)
Evaluación de la asignación taxonómica
• La precisión de la asignación de Ri a la raíz de Tij es
Pij =|VP ij |
|VP ij |+ |FP ij |
• La exhaustividad de la asignación de Ri a la raíz de Tij es
Rij =|VP ij |
|VP ij |+ |FN ij |
• El índice F de la asignación de Ri a la raíz de Tij es
Fij =2PijRij
Pij + Rij
38 / 53
![Page 47: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/47.jpg)
BacteriaAquificae
AquificaeAquificales
AquificaceaeAquifex
Aquifex pyrophilusHydrogenobaculum
Hydrogenobaculum acidophilumHydrogenobacter
Hydrogenobacter subterraneusHydrogenobacter thermophilusHydrogenobacter hydrogenophilus
PersephonellaPersephonella hydrogeniphilaPersephonella marinaPersephonella guaymasensis
SulfurihydrogenibiumSulfurihydrogenibium subterraneumSulfurihydrogenibium azorenseSulfurihydrogenibium yellowstonense
ThermocrinisThermocrinis albusThermocrinis ruber
HydrogenivirgaHydrogenivirga caldilitoris
P = 6/(6+ 8) = 43%R = 6/(6+ 0) = 100%
F = 60%
P = 3/(3+ 0) = 100%R = 3/(3+ 3) = 50%
F = 67%
39 / 53
![Page 48: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/48.jpg)
Evaluación de la asignación taxonómica
• El índice F de la asignación de Ri a la raíz de Tij es
Fij =2PijRij
Pij + Rij=
2|VP ij ||FN ij |+ |FP ij |+ 2|VP ij |
• La penalización de la asignación de Ri a la raíz de Tij es
PS ij = q|FN ij ||VP ij |
+ (1− q)|FP ij ||VP ij |
Asignaremos cada Ri minimizando PS . El parámetro q ∈ [0, 1]influye en la altura de la asignaciónq = 0 Cada Ri se asigna a una hojaq = 0.5 Cada Ri se asigna a un nodo de maximiza F (Teorema)q = 1 Cada Ri se asigna al LCA de Mi
40 / 53
![Page 49: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/49.jpg)
Protocolo de asignación taxonómica
• Aplicar una herramienta de mapeo de reads a R y T paracalcular el conjunto de hits Mi para cada Ri ∈ R
• Especificar q ∈ [0, 1]
• Para cada Ri ∈ R• Si |Mi | = 0, la salida es null• Si |Mi | = 1, la salida es la hoja en Mi• Si no, la salida son los nodos j de Ti con menor PS i,j
41 / 53
![Page 50: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/50.jpg)
Protocolo de asignación taxonómica
TeoremaDados un conjunto Mi ⊆ L de hits y el subárbol Ti de T con raízsu LCA:• Todas las penalizaciones PSi ,j se pueden calcular en tiempototal O(|Ti |)
• Todas las penalizaciones PSi ,j se pueden calcular en tiempototal O((|Mi |) con un preprocesado (común) en tiempoO(|T |)
42 / 53
![Page 51: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/51.jpg)
Análisis de la comunidad
• Estudio de la biodiversidad por comunidad
• Comparación de composiciones de comunidades
• Predicción de asociación de especies con metadatos
• Análisis de correlaciones para detectar grupos demicroorganismos
43 / 53
![Page 52: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/52.jpg)
Biodiversidad
Obtenemos Ni observaciones del OTU si• Estimación de abundancias relativas
xi =Ni + 1∑i (Ni + 1)
Se puede obtener también su distribución de probabilidad (másinformativo)
P(x |N) = Dir(N + 1)
• Entropía de Shannon para estimar biodiversidad (la máspopular)
H = −∑i
xi ln(xi )
• Número efectivo de especies
neff = eH
44 / 53
![Page 53: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/53.jpg)
Distancia UniFrac entre comunidades
La distancia más popular es UniFrac: la distancia entre lacomunidad A y la comunidad B es la fracción de ramas del árbolfilogenético o taxonómico de las que cuelgan OTU de A o de Bpero no de ambos
Similar Communities Maximally Different Communities
UniFrac Distance Measure = (------) / (------ + ------)
C. Lozupone, R. Knight, Appl. Env. Microbiol. 71 (2005), 8228–8235
45 / 53
![Page 54: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/54.jpg)
Distancia UniFrac entre comunidades
Versiones con pesos según abundancias:
dW (A,B) =
∑i`i |pAi − pBi |∑
i`i (pAi + pBi )
d (α)(A,B) =
∑i`i (pAi + pBi )
α |pAi −p
Bi |
pAi +pB
i∑i`i (pAi + pBi )α
donde• `i : longitud del arco i
• pAi , pBi : abundancias relativas de OTU de A y B que cuelgan
de idW (A,B): C. Lozupone et al, Appl. Environ. Microbiol. 73 (2007), 1576–1585.
d(α): J. Chen et al, Bioinformatics 28 (2012), 2106–2113
46 / 53
![Page 55: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/55.jpg)
Distancia UniFrac entre comunidades
MDS con la distancia UniFrac
¿Qué significan los ejes?
F. Matsen IV, S. N. Evans, PLoS ONE 8 (2013): e56859
47 / 53
![Page 56: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/56.jpg)
Edge PCA
Partimos de S muestras y un árbol filogenético con E arcos.
1 Para cada muestra s y cada arco e, se calcula el número dereads en s que cuelgan del arco menos el número de los que nocuelgan del arco
2 Organizamos estas diferencias como una matriz S × E : filas,muestras, columnas, arcos
3 Se aplica el PCA. (Con suerte) Los primeros vectoresprincipales explican la mayor parte de la variabilidad de lasmuestras
4 Los vectores principales son combinaciones de arcos, y sepueden visualizar/interpretar en el árbol
5 La proyección sobre los primeros vectores principales ayuda avisualizar la similitud de las muestras
F. Matsen IV, S. N. Evans, PLoS ONE 8 (2013): e56859
48 / 53
![Page 57: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/57.jpg)
Edge PCA
Microbioma vaginal:
1er vector principal → 56% devariabilidad total
2o vector principal → 24% devariabilidad total
F. Matsen IV, S. N. Evans, PLoS ONE 8 (2013): e5685949 / 53
![Page 58: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/58.jpg)
Edge PCA
F. Matsen IV, S. N. Evans, PLoS ONE 8 (2013): e5685950 / 53
![Page 59: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/59.jpg)
Correlaciones entre grupos de microorganismos
Para cada especie xi , se estima su abundancia relativa xil en lacomunidad l :
x i = (xi1, . . . , xim)
• Usar correlación de Pearson sobre datos dependientes esincorrecto
• Se han hecho simulaciones mostrando que, en efecto, su usoen variables composiciones en metagenómica da resultadossesgados
51 / 53
![Page 60: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/60.jpg)
SparCC
Para cada especie xi , se estima su abundancia relativa xil en lacomunidad l :
x i = (xi1, . . . , xim)
• y ij = log(x i/x j) tiene información sobre abundancias absolutas
• tij = Var(y ij)
• tij = ω2i + ω2
j − 2ρijωij donde las ω son las (co)varianzas dellog de abundancias absolutas y ρij su correlación
• Se pueden aproximar las ω si suponemos ρij ≈ 0 y muchosρij = 0 (sparse correlation), y se despejan las ρij
• Se itera eliminando los pares de especies más correlacionados
L. Friedman, E. J. Alm, PLoS Comput Biol 8 (2012), e1002687
52 / 53
![Page 61: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/61.jpg)
Y éste era el enfoque fácil
Los problemas computacionales en metagenómica con secuenciadoshotgun son mucho más difíciles.
Lectura recomendada:• V. Kunin et al, “A Bioinformatician’s Guide to Metagenomics”.Microbiol. Mol. Biol. Rev. 72 (2008), 557–578
• Briefings in Bioinformatics, Special Issue on Bioinformaticsapproaches and tools for metagenomic analysis, 13 (6) 2012
53 / 53
![Page 62: Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas computacionales en metagenómica FrancescRosselló GrupodeBiologíaComputacionalyBioinformática(UIB)](https://reader034.fdocument.pub/reader034/viewer/2022042512/5f5ed675be358015970083c8/html5/thumbnails/62.jpg)