Mycobacterium tuberculosis CON FÁRMACO RESISTENCIA...

ANÁLISIS COMPARATIVO DEL GENOMA DE SEIS AISLAMIENTOS CLÍNICOS DE

Mycobacterium tuberculosis CON FÁRMACO RESISTENCIA MÚLTIPLE.

Tesista

JUAN SEBASTÍAN SOLANO GUTIERREZ

Trabajo de grado presentado como requisito parcial para optar al título de Biólogo

Director Héctor Alejandro Rodríguez Cabal Biol. M.Sc.

Investigador en Formación de la Unidad de Biotecnología Vegetal UNALMed-CIB

Codirector

François Rouzaud PhD. Coordinador de Investigación. Corporación para Investigaciones Biológicas, CIB.

Codirector Gustavo Adolfo Vallejo PhD.

Profesor Titular-Universidad del Tolima.

PROGRAMA DE BIOLOGÍA FACULTAD DE CIENCIAS BÁSICAS

UNIVERSIDAD DEL TOLIMA IBAGUE

2013

3

A mi familia, de quienes he recibido amor, apoyo y la fuerza para desarrollar los proyectos de mi vida.

4

AGRADECIMIENTOS

A Alejandro Rodríguez por ser un gran tutor, compañero y guiarme continuamente en mi desarrollo dentro de la investigación. A Diego Villanueva por otorgarme la oportunidad de pertenecer a un excelente grupo de trabajo. A François Rouzaud y Jaime Robledo por prestarme colaboración siempre que la necesite y por permitirme trabajar con ellos. A todas las personas de la CIB, por el trabajo que realizan y que permite el funcionamiento de toda la corporación.

5

ADVERTENCIA “El Programa de biología de la Universidad del Tolima, el director del trabajo de grado, el jurado calificador, no son responsables de los conceptos e ideas expuestas por el autor.” Artículo 16, Acuerdo 032 de 1976 y Artículo 29, acuerdo 064 de 1991, Consejo Académico de la Universidad del Tolima.

6

RESUMEN

Mycobacterium tuberculosis (MTB) es el agente causal de la tuberculosis (TB), una

enfermedad presente en un tercio de la población y cuyo control se ve amenazado por

la co-infección con el virus de inmunodeficiencia humana (VIH) y el surgimiento de

cepas Multidrogo-Resistentes (MDR-TB). Con el fin de aportar información que pueda

tener importancia en el control y seguimiento de la enfermedad, el análisis de

secuencias nucleotídicas es una herramienta que permite la identificación de cambios

en el genoma de distintos aislamientos con el objetivo de realizar una caracterización

completa que pueda aportar información de las propiedades patógenas de MTB y

pueda servir en estudios de transmisión de TB.

En este estudio se realizó el ensamble, anotación y comparación del genoma de seis

aislamientos MDR-TB utilizando herramientas bioinformaticas. Se estableció la

metodología para la corrección, reconstrucción, anotación y alineamiento múltiple de

los seis genomas que permitió encontrar deleciones e inserciones de cada aislamiento

en comparación con el genoma de referencia H37Rv, además, se encontraron las

regiones específicas de cada aislamiento. Deleciones de la secuencia de inserción

IS6110 presentaron número y posición diferente en cada aislamiento y una pérdida de

fragmento de 6.480 pb comprendiendo los genes Rv2271 a Rv2279 fue la deleción

más importante presente en todos los genomas. Las secuencias únicas sumaron un

total de 36 entre todos los genomas y se encontraron distribuidas principalmente en los

genes de la familia PPE y PE_PGRS y en regiones intergénicas.

Palabras clave: Mycobacterium tuberculosis, Ensamble, Alineamiento múltiple,

Genoma.

7

ABSTRAC

Mycobacterium tuberculosis (MTB) is the causative agent of tuberculosis (TB), a

disease present in a third of the population and whose control is threatened by co –

infection with HIV and the emergence of Multidrug resistance strains (MDR-TB). In

order to provide information that can be important in the control and monitoring of the

disease, the analysis of nucleotide sequences is a tool that allows identification of

changes in the genome of other isolates with the aim of realize a complete

characterization who can provide information about MTB pathogenic properties and that

may serve in studies of TB transmission.

In this study was carried out assembly, annotation and comparison of six MDR-TB

isolates using bioinformatics tools. It established the methodology for correction,

reconstruction, annotation and multiple sequence alignment of the six genomes what

allowed to find deletions and insertions of each isolate in comparison to the reference

genome H37Rv. Additional were found the unique regions of each isolate. Deletions of

the insertion sequence IS6110 presented different number and position at each isolation

and a loss of 6.480 bp fragment comprising the Rv2271 to Rv2279 genes was the most

important deletion in all genomes. The unique sequences had a total of 36 and they

were mainly distributed in the PPE and PE_PGRS family genes and intergenic regions.

Keywords: Mycobacterium tuberculosis, assembly, multiple sequence alignment,

Genoma.

8

CONTENIDO

INTRODUCCIÓN Pág.

12 1. PLANTEAMIENTO DEL PROBLEMA 14 1.2 FORMULACIÓN DEL PROBLEMA 14 1.3 JUSTIFICACIÓN 15

2 OBJETIVOS

17

2.1 OBJETIVO GENERAL 17 2.2 OBJETIVOS ESPECÍFICOS 17

3. MARCO REFERENCIAL

18 3.1 ANTECEDENTES 18 3.2 MARCO TEÓRICO 21 3.2.1 Patógeno 21 3.2.2 Situación Epidemiológica 24 3.2.3 Secuencias De Interés 25 3.2.3.1 Elemento De Inserción IS6110 25 3.2.3.2 Familia PE/PPE 26 3.2.4 Ensamble De Novo 27 3.2.5 Contigs y Scaffolds 27 3.2.6 Secuenciamiento De ADN 28 3.2.7 Herramientas Computacionales 29 3.2.7.1 SOAPdenovo 29 3.2.7.2 Quake 30 3.2.7.3 ABACAS 32 3.2.7.4 RATT 32 3.2.7.5 Artemis 33

9

3.2.7.6 Mauve 33 4. METODOLOGÍA

35

4.1 CORRECCIÓN DE LECTURAS 35 4.2 ENSAMBLE DE LECTURAS 36 4.3 ORDENAMIENTO DE SECUENCIAS 37 4.4 ANOTACIÓN 38 4.5 ALINEAMIENTO MÚLTIPLE DE GENOMAS 39 4.6 DISEÑO METODOLÓGICO 39 5. RESULTADOS

40

5.1 CORRECCIÓN DE LECTURAS 40 5.2 ENSAMBLE Y ANOTACIÓN 41 5.3 ALINEAMIENTO MÚLTIPLE 47 6. DISCUSIÓN

51

6.1 CORRECCIÓN DE SECUENCIAS 51 6.2 RECONSTRUCCIÓN DE GENOMAS 52 6.3 ANOTACIÓN 54 6.4 ALINEAMIENTO MÚLTIPLE 57 7. CONCLUSIONES

60

8. RECOMENDACIONES

62

REFERENCIAS

63

10

LISTA DE FIGURAS Figura 1. Representación de la deleción de 3.649 bp de UT205

Pág. 22

Figura 2.Protienas expresadas en respuesta al estrés oxidativo.

23

Figura 3. Distribución geográfica de los seis linajes de MTB.

24

Figura 4. Construcción de contigs y scaffolds.

29

Figura 5. Ensamble por grafos de Bruijn.

31

Figura 6. Proporción de lecturas corregidas y removidas para cada aislamiento después de la corrección.

41

Figura 7. Representación porcentual de la longitud de los gaps para cada cromosoma de los 6 aislamientos.

44

Figura 8. Porcentaje de secuencias que presentaron regiones únicas en todos los genomas.

50

Figura 9. Corrección de errores en Quake.

52

11

LISTA DE TABLAS

Tabla 1. Corrección del secuenciamiento de los 6 aislamientos de MTB.

Pág. 40

Tabla 2. Número final de Contigs y Scaffolds de los 6 ensambles de MTB.

43

Tabla 3. Medidas de los Scaffolds y N50 de los 6 aislamientos de MTB.

43

Tabla 4. Diferencias encontradas entre los aislamientos y el genoma de referencia H37Rv.

46

Tabla 5. Deleciones de las Transposasas del elemento de inserción IS6110 en cada aislamiento.

48

Tabla 6. Regiones únicas en cada aislamiento.

49

12

INTRODUCCIÓN

La tuberculosis (TB), causada por Mycobacteriun tuberculosis (MTB) sigue siendo uno

de los principales problemas de salud pública (Engström, Zardán, Strømme, Nilsson

y Herthnek, 2013) infectando a un tercio de la población mundial y reportando

anualmente alrededor de 8.8 millones de casos nuevos y 1.1 millones de muertes,

según informes de la Organización Mundial de la Salud (OMS) (WHO, 2011).

El enorme impacto que tiene MTB sobre la población mundial se debe en gran parte a

la co-infección con el virus de la inmunodeficiencia humana (VIH) y al desarrollo de

resistencia a medicamentos (Bai et al., 2013). Las cepas Multidrogo-Resistentes (MDR-

TB) son aquellas que presentan resistencia a rifampicina e isoniacida, dos de los

principales medicamentos de primera línea utilizados para el control de la Tuberculosis.

El surgimiento de esta clase de cepas dirige potencialmente a la TB a ser una de las

enfermedades incurables infecciosas más importantes (Comas et al., 2011).

Además de la resistencia a medicamentos y la co-infección con el VIH, MTB ha

desarrollado estrategias que hacen a la tuberculosis difícil de controlar. Por ejemplo, ha

tenido gran éxito al evadir la respuesta inmune del hospedero, permitiéndole sobrevivir

en el interior del fagosoma (Bai et al., 2013) y es capaz de permanecer en el interior de

los tejidos, en un estado de ninguna o muy baja replicación durante la vida de su

hospedero. En un gran número de casos, la tuberculosis aparece como una

reactivación de los bacilos en este estado de latencia (Rodríguez et al., 2013).

En los últimos años, los estudios de epidemiología molecular y la genotipificación de las

cepas de MTB, han basado sus esfuerzos en las técnicas de secuenciamiento de

genomas completos (SGC) (Kato-Maeda et al., 2013). Las tecnologías de

secuenciamiento permiten identificar la dinámica de transmisión del patógeno, la

resistencia a medicamentos, los factores de virulencia y determinar la evolución del

genoma (Roetzer et al., 2013).

13

La completa información genética que otorga el SGC (Roetzer et al., 2013) junto con la

disposición de la secuencia completa del genoma de MTB y de programas para la

búsqueda de similitud entre secuencias, puede incrementar el conocimiento de la

interacción patógeno-hospedero permitiendo la identificación de nuevos blancos de

vacunas (Bai et al., 2013; Reyes et al., 2013) así como una diferenciación entre cepas

que conduzca a reconocer el origen y los patrones de dispersión del patógeno (Ragheb

et al., 2013). El objetivo del presente estudio es realizar la comparación genómica de

seis aislamientos clínicos de Mycobacterium tuberculosis.

14

1. PLANTEAMIENTO DEL PROBLEMA

1.1 FORMULACIÓN DEL PROBLEMA.

Hoy en día, MTB representa un serio problema de salud pública ya que infecta

aproximadamente un tercio de la población mundial y es la causa de 1.1 millones de

muertes anualmente (Björkelid et al., 2013; Subbian et al., 2013). Estudios en

tipificación molecular han revelado que MTB presenta una amplia estructura

poblacional comprendida en un gran número de linajes, los cuales muestran diferencias

en su ocurrencia poblacional y también en sus propiedades patobiológicas (Tessema et

al., 2013).

Bajo las respuestas generadas por el hospedero, MTB es capaz de contrarrestar

mecanismos inmunológicos como la maduración del macrófago y de esta forma puede

sobrevivir en el interior del paciente. Sumado a estos mecanismos, el surgimiento de

cepas MDR-TB y la asociación con el VIH hacen de la TB un de los principales

problemas de salud mundial (Metcalfe et al., 2012; Nabavinia, Naderi Nasab, Meshkat,

Derakhshan y Khaje-Karamadini, 2012).

El control de la enfermedad necesita de investigaciones basadas en tipificación

molecular para el entendimiento de las características de propagación y el

conocimiento de las relaciones entre cepas de MTB (Yu et al., 2013), que junto con una

adecuada comprobación de las mutaciones, aseguren un tratamiento efectivo de la

enfermedad y por extensión, impidan la transmisión de la TB (Ahmad, Al-Mutairi y

Mokaddas, 2012). En este sentido, las tecnologías de secuenciamiento permiten la

búsqueda de contenido genético esencial en la supervivencia y patogenicidad de una

bacteria, puesto que pueden ser obtenidos distintos genomas que pueden ser

comparados y relacionados con un fenotipo determinado (Butt, Nasrullah, Tahir y Tong,

2012; Ilina et al., 2013; Thorisson, Muilu y Brookes, 2009). La disponibilidad de

genomas secuenciados y modelos computacionales han permitido el estudio de la

15

estructura del genoma y la identificación de las diferencias estructurales (Hamilton y

Reed, 2012). Por lo tanto un análisis del genoma de cepas de MTB es totalmente

adecuado para contrarrestar la propagación de la tuberculosis, analizar los

mecanismos de resistencia a medicamentos e identificar los genes esenciales para su

supervivencia (Feuerriegel et al., 2012; Hamilton y Reed, 2012).

1.2 JUSTIFICACIÓN La diversidad del genoma de MTB ha sido demostrada por la evaluación de

polimorfismos en elementos de inserción y unidades repetidas intercaladas.

Congruente con esta diversidad, distintas cepas de MTB muestran diferencia en su

velocidad de crecimiento, virulencia, inmunopatogenicidad y las respuestas inducidas al

hospedero (Chakraborty, Kulkarni, Rajan y Sainis, 2013). Específicamente, las cepas

MDR-TB muestran un fenotipo resistente a Rifanpicina e Izoniacida, producido

principalmente por mutaciones en los genes rpoB, katG y inhA. Estas cepas se

encuentran distribuidas en todo el mundo y representan una amenaza para el control

de la enfermedad (Hoffner, 2012 ; Zakham et al., 2013) ya que se han expandido

ampliamente mostrando distintos perfiles de resistencia relacionados con un grupo

particular de espoligotipo (Vellarikkal et al., 2013; Wang et al., 2013). El análisis de

genomas de cepas resistentes a medicamentos ofrecer un nuevo entendimiento de la

arquitectura del genoma y puede dar entendimientos a sus propiedades fenotípicas

(Vellarikkal et al., 2013).

La genotipificación por medio del secuenciamiento, ha permitido una completa

identificación de genes en distintos patógenos bacterianos (Zhang, Y.J et al., 2012). En

MTB, es un poderoso recurso en la epidemiología molecular y en investigaciones de

transmisión de la TB es apropiada para establecer loci (lugar físico que ocupa un gen

sobre un cromosoma (Lodish et al., 2005) con un alto poder de discriminación entre

cepas de MTB, ayudando a descubrir la fuente de una epidemia o a juzgar la

recurrencia de la enfermedad (Lu et al., 2012).

16

Adicionalmente a las ventajas mencionadas, los datos obtenidos por secuenciamiento

pueden ser utilizados para anotar todas las secuencias de genes utilizando adecuados

métodos computacionales que permitan extraer toda la información de la cadena de

nucleótidos y por lo tanto conocer cambios en la presencia de genes en las cepas

estudiadas (Mazandu y Mulder, 2012). Los cambios son encontrados y analizados

realizando estudios de genómica comparativa, los cuales otorgan una visión biológica

de los genomas al analizar la estructura de la cadena nucleotídica en relación con la

función propuesta para el producto de una secuencia (Hamilton y Reed, 2012), por

ejemplo, al identificar y estudiar genes que pueden afectar la viabilidad de los

organismos patógenos (Abadio et al., 2011).

Reconociendo los aportes generados por el secuenciamiento de genomas; es

necesario adelantar investigaciones de genómica comparativa para encontrar el

contenido de genes esenciales en la supervivencia y patogenicidad de esta bacteria

(Butt et al., 2012), además de desarrollar conocimiento en los factores de transmisión e

identificación de la propagación de cepas que permitan establecer estrategias

apropiadas con el fin de disminuir la incidencia de tuberculosis (Tessema et al., 2013;

Walker et al., 2013).

17

2. OBJETIVOS 2.1 OBJETIVO GENERAL. Analizar comparativamente la organización genómica de 6 aislamientos clínicos de

Mycobacterium tuberculosis.

2.2 OBJETIVOS ESPECÍFICOS.

Reconstrucción de novo de las secuencias genómicas de los 6 aislamientos a

partir de lecturas cortas de secuenciamiento por Illumina.

Anotación del genoma reconstruido a partir del genoma de referencia de la cepa

H37Rv.

Análisis comparativo del genoma de los 6 aislamientos basado en inserciones,

deleciones y secuencias repetidas.

18

3. MARCO REFERENCIAL 3.1 ANTECEDENTES Chavez et al. (2010) utilizaron el programa Mauve para la comparación de secuencias

de M. tuberculosis H37Rv, M. tuberculosis H37Ra, M. tuberculosis CDC1551, M.

tuberculosis F11, M. bovis BCG str. Pasteur 1173P2 y M. bovis AF2122/9. El estudio

reportó que el grado de similitud entre especies del complejo M. tuberculosis (MTC) es

cercano a 99,95%. A pesar de esta similitud, los autores lograron agrupar las especies

del complejo en 2 grupos. Uno conformado por M. tuberculosis H37Rv, M.

tuberculosis H37Ra, M. tuberculosis CDC1551 y M. tuberculosis F11 y el otro formado

por M. bovis BCG str. Pasteur 1173P2 y M. bovis AF2122/9. Para cada una de estas cepas se encontró un número de regiones únicas dentro del

genoma. 9 y 7 para M. tuberculosis H37Rv y H37Ra respectivamente. Un número más

elevado de secuencias únicas fue encontrado en las cepas M. tuberculosis CDC1551

con 21 y M. tuberculosis F11 con 40. En las cepas de M. bovis se presentaron 27

secuencias únicas para M. bovis BCG str, Pasteur 1173P2 y 20 para M. bovis

AF2122/9.

La comparación de estos genomas demostró la similitud entre M. tuberculosis H37Rv y

M. tuberculosis H37Ra, que además cuentan con el número más bajo de regiones

específicas (9 y 7 respectivamente). La anotación de estas regiones únicas demostró

la presencia de elementos de transposición, proteínas de las familias PPE y PE-PGRS

y regiones intergénicas. Las proteínas de las familias PPE y PE-PGRS se han

encontrado en la pared celular de las micobacterias y se han implicado en variación

antigénica y evasión de la respuesta inmune.

Una de las regiones exclusivas para M. tuberculosis CDC1551 contenía el elemento de

inserción IS6110 y una región CRISPR. En M. bovis AF2122 se encuentra una región

exclusiva situada entre los genes SenX3 y RegX3.

19

Cubillos-Ruiz, Morales y Zambrano (2008), alinearon los genomas de las cepas H37Rv,

H37Ra, CDC1551, F11, C y Haarlem utilizando el software MAUVE v1.3. El paquete

islandsanalyser basado en perl fue diseñado para analizar la distribución y frecuencia

de largas secuencias de polimorfismos (LSPs).

Dos categorías principales representaron el 65% del total de genes conteniendo LSPs:

1) elementos móviles como las secuencias de inserción y 2) la familia de genes

PE/PPE que contenían secuencias repetidas. Esto es consistente con la noción de que

estos elementos conducen a la generación de pequeños polimorfismos. Igualmente se

detectaron LSPs en tres genes con función de reguladores transcripcionales (Rv0823c,

Rv0792c y Rv1353c) que pueden ser importantes en el control de la expresión de

genes bajo ciertas condiciones.

Las cepas de laboratorio H37Rv y H37Ra presentaron una menor cantidad de

polimorfismo específicos con respecto a las cepas de aislamientos clínicos. Una

deleción involucrando los genes MT1800, MT1801, mmol14 y una inserción entre

Rv3185 y Rv3188 fue encontrada en la cepa H37Rv, 2 inserciones del elemento

IS6110 fueron presentes en H37Ra, una en el locus ipl y la otra entre los genes

Rv0010c y Rv0011c. Las cepas clínicas contuvieron una mayor cantidad de inserciones

o deleciones (indels); 10 deleciones y 2 inserciones en CDC1551, 12 deleciones y 6

inserciones para Haarlem, F11 presento 6 deleciones y 14 inserciones. Esto indica

que la interacción con los pacientes es importante en la generación y selección de

cambios geonómicos.

La cepa H37Ra careció de deleciones con respeto a la cepa H37Rv, lo que sugiere que

la perdida de virulencia en esta cepa no es debido a la deleción de genes. Además, se

encontró que las deleciones involucrando la familia de genes PE/PPE fueron solo

identificadas en cepas clínicas, resultado consistente con la función atribuida a estos

genes como antígenos variables de superficie.

20

Homolka et al. (2012) estudiaron el genoma de 104 cepas pertenecientes al MTC de

pacientes que vivían en Alemania, revelando una alta diversidad poblacional,

comprendiendo cepas de varios linajes filogenéticos, que comprenden las regiones del

oeste de Africa, Beijing, Ghana y Uganda. La secuencia de los datos reveló la

presencia de 61 polimorfismos de nucleótido simple (SNPs) de los cuales 41 fueron

polimorfismos non-sinónimos y 20 sinónimos. 29 de los 61 SNPs fueron previamente

encontrados como específicos de linajes o genotipos en la colección de referencia

MIRU-VNTRplus (www.MIRU-VNTRplus.org).

Ford et al. (2011) realizaron el secuenciamiento de todo el genoma de MTB para

comparar la acumulación de mutaciones en aislamientos de Macaca fascicularis con

enfermedad activa, latente y reactivada. Secuenciaron 33 aislamientos de MTB

provenientes de 9 macacos. 2 µg de DNA geonómico de cada aislamiento fueron

secuenciados con Illumina. Se realizaron single-read y paired-end reads con una

longitud de 36 o 75 bases. Para el ensamble de novo, la lecturas fueron procesadas

con Elena v2.1.1 con los parámetros por defecto para permitir la detección de

inserciones, deleciones y polimorfismos de nucleótido simple. Cada ensamble fue

analizado por parejas utilizando MUMmer.

Los aislamientos vinculados con enfermedad activa presentaron 4 SNPs en los genes

Rv0585c (C→G), Rv0594 (C→T), Rv2092c (G→T) y RV3732 (A→G) en la posición

682043, 693453, 2350697 y 4183984 respectivamente. Las cepas tomadas de

individuos con enfermedad latente mostraron cambios en los genes Rv0592 (G→C) en

la posición 690264, Rv0876c (T→C) en el nucleótido 975906 y Rv3273 (G→T) en el

nucleótido 3855598.

El estudio realizado por Isaza et al. (2012) contrastando la secuencia del genoma

completo de una cepa (UT205) aislada en Medellín contra el genoma de referencia de

H37Rv, mostró varias regiones nuevas en la cepa estudiada. Se encontraron 8

regiones repetidas IS6110, de las cuales solo 2 tuvieron similitud con las regiones

IS6110 de la cepa de referencia.

http://www.miru-vntrplus.org/

21

Los resultados de las deleciones encontradas mostraron la pérdida de 4 genes:

Rv1993c, Rv1994c, Rv1995 y Rv1996. Todos estos genes codifican para proteínas

conservadas excepto Rv1994c el cual es un regulador de proteínas.

El análisis de las regiones codificantes (CDS), las cuales son la parte de los genes que

contienen los codones que codifican para los aminoácidos específicos de un proteína

(Brown, 2002), encontró que 3271 CDS contenían una identidad del 100% con H37Rv.

un numero restante de 430 CDS mostró diferencias en al menos un codón.

Un detallado análisis del regulón DosR, reveló que 8 genes de los 48 que componen

este regulón contenían modificaciones. Las modificaciones involucraban inserciones,

deleciones completas de genes y SNPs. El caso más interesante involucró una

deleción de 3.649 bp, afectando a los genes Rv1992 a Rv1997 (Figura 1). Esta

deleción eliminó los genes Rv1993 a Rv1996.

3.2 MARCO TEÓRICO 3.2.1 Patógeno. El género Mycobacterium está dividido en dos grupos basados en su

tasa de crecimiento. El primer grupo está conformado por las bacterias con baja tasa

de crecimiento como Mycobacterium bovis, Mycobacterium leprae y MTB. El segundo

grupo incluye bacterias con rápido crecimiento como por ejemplo Mycobacterium

smegmatis (Forrellad et al., 2013).

El MTC agrupa las especies MTB, Mycobacterium bovis, Mycobacterium

microti, Mycobacterium africanum, Mycobacterium pinnipedii y Mycobacterium caprae.

micobacterias que comparten un 99% de similitud en la secuencias génicas. A pesar de

esta alta homología en la secuencias de ácidos nucleícos, los miembros de este

complejo presentan características fenotípicas y patogénicas diferentes entre cada

especies (Brosch et al., 2002; Namouchi, Karboul, Fabre, Gutierrez y Mardassi, 2013).

22

Figura 1. Representación de la deleción de 3.649 bp de UT205. Los genes Rv1993c, Rv1994c, Rv1995 y Rv1996 son perdidos.

Fuente. Isaza, 2012. MTB es un patógeno intracelular que infecta principalmente al hombre. Es un bacilo

aeróbico que no forma esporas ni presenta cápsula. Su división se realiza cada 15 a 20

horas y presenta la capacidad de permanecer dentro del hospedero en forma latente

(Lawn y Zumla, 2011) y evadir el estrés oxidativo producido por las células del

hospedero que buscan destruir las células patógenas (Forrellad et al., 2013) (Figura 2).

MTB está constituido por una pared celular con muy baja permeabilidad y una

estructura compleja, compuesta por ácidos micólicos, peptidoglicano y galactofurano

(Brennan, 2003).

La cepa H37Rv derivada de H37 es una de las cepas de laboratorio mejor

caracterizadas (Steenken, Oatway y Petroff, 1934). Su genoma, fue publicado en 1998

(Cole et al., 1998)permitiendo identificar secuencias repetidas, elementos de inserción

y 4066 genes que codifican familias de proteínas involucradas en la biosíntesis de

ácidos grasos y policétidos, regulación, bombas de flujo para medicamentos (Ioerger et

al., 2010) y las familias de genes PE/PPE, genes propios del MTC (McEvoy et al.,

2012). El genoma de MTB tiene un alto contenido GC (Sreenu, Kumar, Nagaraju y

Nagarajam, 2007) que hace difícil su manejo a la hora de secuenciar y ensamblar,

dando como resultado genomas mas fragmentados (Chen, Liu, Yu, Chiang y Hwang,

2013).

23

Figura 2.Protienas expresadas en respuesta al estrés oxidativo. Las proteínas que rodean la micobacteria (KatG, PonA2, AhpC, etc) sirven de defensa contra las especies reactivas de oxigeno y especies reactivas de nitrógeno.

Fuente. Forrellad, 2012. MTB se encuentra subdivido en siete linajes que están fuertemente vinculados a una

zona geográfica específica. Los linajes son conocidos como Linaje Indo-Oceánico,

Linaje Este de Asia, Linaje Este de África, Linaje Euro-América, Linaje África occidental

1 y Linaje Arica occidental 2 (Gagneux y Small, 2007) (Figura 3).Los linajes muestran

distintos desarrollos de la enfermedad, por ejemplo Click, Moonan, Winston, Cowan y

Oeltmann (2012) encontraron que los linajes Indo-Oceánico y Este de África provocan

TB extra pulmonar.

La infección pulmonar por MTB produce tos crónica, pérdida de peso, producción de

esputo, fiebre y hemoptisis (Lawn y Zumla, 2011). La TB puede desarrollarse de forma

extra pulmonar afectando cualquier órgano. Su ocurrencia depende del estado inmune

del paciente, genotipo de la cepa, edad y raza del paciente, produciéndose entre 10 y

42% del total de pacientes (Caws et al., 2008).

24

3.2.2 Situación Epidemiológica. La Tuberculosis representa un importante problema de

salud global. Es la causa de muerte de cerca de un millón de personas cada año y es la

segunda causa de muerte por una enfermedad infecciosa después del VIH. En 2011

hubo un estimado de 12 millones de casos de prevalencia, equivalentes a 170 casos

por cada 100 000 habitantes. La mortalidad tuvo un aproximado de 1,4 millones de

personas dentro de las cuales 0.5 millones fueron mujeres (World Health Organization,

2012).

En Colombia, durante el año 2008 se notificaron 11.342 casos nuevos, para una

incidencia de 25,6 casos por 100.000 habitantes, de los cuales 6.815 (60,08%)

ocurrieron en hombres y 4.527 en mujeres (39,91%) (Ministerio de protección social,

2009).En el 2012, el Sistema Nacional de Vigilancia en Salud Pública-SIVIGILA,

informo de 7053 casos de tuberculosis registrados hasta la semana 38 (SIVIGILA,

2012).

Figura 3. Distribución geográfica de los seis linajes de MTB. Cada punto representa un país y su color indica que linaje es predominante en esta zona.

Fuente. Gagneux, 2006a.

25

La Secretaria Distrital de Salud (2011) reporto 523 casos confirmados de Tuberculosis

en Bogotá. De los 523 casos, el 61.4% (321) fueron pulmonares, 29.8% (156) extra

pulmonares y 8.8% (46) fueron diagnosticados como TB meníngea. Se notificaron 32

casos de TB asociados a mortalidad, de los cuales el 62.5% (20) correspondieron a

casos pulmonares, el 25% (8) a extra pulmonares y el 12.5% (4) a casos meníngeos.

El análisis de la incidencia de MDR TB en Colombia muestra un incremento del 55,8%

desde el año 2001 (43 casos MDR) al 2009 (120 casos MDR), comportamiento que

obedece a factores como el aumento en el uso del cultivo, dinámica de transmisión de

la enfermedad y poco abordaje de las principales causas generadoras de resistencia a

fármacos en este periodo (INSTITUTO NACIONAL DE SALUD, 2013).

3.2.3 Secuencias De Interés 3.2.3.1 Elemento De Inserción IS6110. Los elementos de inserción IS6110 son una

importante fuente de variabilidad genómica en MTB y están distribuidos en diferentes

posiciones a través del cromosoma bacteriano. El número de copias de estos

elementos son altamente variables, aunque la mayoría de las cepas contienen entre 10

y 20 copias y en algunos casos se han identificado cepas sin regiones IS6110 (Fang,

Morrison, Watt, Doig y Forbes, 1998).

Ha sido demostrado que la transposición de IS6110 puede ser estimulada por

condiciones de estrés específicas y de esta forma contribuir a la diversidad genética.

Las inserciones IS6110 pueden afectar la expresión de genes por mediación de

eventos de recombinación que resultan en deleciones e inversiones (Reyes, A. et al.,

2012).

IS6110 ha sido utilizado como un marcador genotípico en estudios epidemiológicos. La

aplicación de RFLP sobre IS6110 en MTB ha permitido el refinamiento de la

identificación de eventos de transmisión; aislaciones de MTB involucradas en cadenas

26

de transmisión han mostrado patrones idénticos y por lo tanto constituyen un cluster

definido (Pérez-lago, Herranz y Martinez, 2011).

3.2.3.2 Familia PE/PPE. El secuenciamiento completo del genoma de MTB reveló la

existencia de la familia de genes PE/PPE, encontrada únicamente en el género

Mycobacterium. Estos genes son llamados de esta forma debido a la presencia de

señales Pro-Glu (PE) y Pro-Pro-Glu (PPE) cerca al N-terminal de su producto génico.

Esta familia de genes codifica para 107 proteínas PE y 69 PPE. La familia PE ha sido

además clasificada en dos grupos: PE y PE_PGRS. PE_PGRS tiene un dominio C-

terminal variable en tamaño y secuencia (McEvoy et al., 2012).

Los genes de la familia PE/PPE codifican para proteínas con un rango de tamaño

variable, desde péptidos pequeños como el producido por la expresión del gen

Rv3018A de 28 aminoácidos a péptidos grande como el codificado por Rv0151 de 588

amino ácidos. Son altamente polimórficos dentro del MTC e incluso dentro de

diferentes cepas de la misma especie. La mayor cantidad de los productos proteicos de

estos genes son encontrados en la superficie celular, siendo reportados como

antígenos. Juegan un rol en la regulación de patogénesis, virulencia, en la modulación

a la respuesta inmune del hospedero y en la variación de antígenos, posiblemente

debido al alto número de SNPs (Kohli et al., 2012).

Varios estudios han revelado grados de variación PE/PPE entre aislamientos clínicos

de MTB. Talarico et al. (2007) identificaron la variación genética en el gene PE-

PGRS33 de 649 aislamientos clínicos en comparación con la cepa de laboratorio

H37Rv, encontrando que 139 de estos aislamientos estudiados poseían alelos que

podían resultar en un significante cambio en la proteína, debido a las largas inserciones

y deleciones.

Comparaciones de algunos de los genes de la familia PE-PGRS (Rv0278c, Rv0279c,

Rv0746, Rv0747 y Rv1087) entres las cepas H37Rv y CDC1551 revelaron que las

regiones repetidas de los dominios PGRS son propensos a inserciones y deleciones

27

(Betts et al., 2000). Además, aislamientos clínicos de MTB exhiben variaciones en

polimorfismo de fragmentos de restricción en sus genes PE-PGRS, por lo tanto se ha

especulado que los dominios PGRS tienen un rol funcional en la generación de

diversidad antigénica para evitar el reconocimiento del hospedero (Flores y Espitia,

2003).

Cascioferro et al. (2011). Caracterizaron el dominio PE de PE-PGRS33. los autores

construyeron varias proteínas mutadas en las cuales el dominio PE fue sujeto a

deleciones o a mutaciones, confirmando que el dominio PE es esencial para establecer

la localización de PE-PGERS33 en la superficie celular y demostrando que un dominio

PE carente de sus primeros 30 aminoácidos pierde su función.

3.2.4 Ensamble De Novo. Consiste en el ensamble de lecturas dentro de largas

secuencias contiguas llamadas contigs, seguido por el proceso del ordenamiento

correcto de los contigs dentro de scaffolds (Sovic´, 2012). El ensamble de novo es un

paso fundamental en el análisis de genomas secuenciados sin una secuencia guía

(Chang, Chen, Chen y Ho, 2012). Los programas para el ensamble de novo deben lidiar con errores de secuenciamiento,

estructuras de repetición y la complejidad computacional de procesar largos volúmenes

de datos; es así como hay una urgente necesidad de ensambladores que manejen

eficientemente gran cantidad de datos de secuenciamiento (Chang et al., 2012).

Actualmente se han desarrollado nuevas técnicas pertenecientes a distintos grupos de

herramientas que apuntan a resolver el problema del ensamble de novo. Tales

herramientas son basadas sobre la asunción que si dos lecturas comparten una

longitud de secuencia, entonces ellas probablemente pertenecen a la misma

localización en el genoma (Vezzi, Narzisi y Mishra, 2012).

3.2.5 Contigs y Scaffolds. Un contig es un conjunto de lecturas que se sobrelapan en

sus extremos, de tal manera que puedan formar largas secuencias contiguas para

28

generar una secuencia consenso (Paszkiewicz y Studholme, 2010; Puiu, Xu, Alves,

Serrano y Buck, 2004) (Figura 4).

Un scaffolds es un ensamble de contigs. Este ensamble se realiza al analizar la

similitud entre los extremos de dos contigs utilizando las lecturas pareadas (Figura 4).

3.2.6 Secuenciamiento De ADN. Las tecnologías de secuenciamiento de ADN, han

ayudado a los biólogos proporcionando una amplia gama de aplicaciones, tal como

estudios de la patogenicidad de genes, estudios comparativos y estudios evolutivos. La

tecnología de secuenciamiento ideal debe ser rápida, precisa, fácil de operar y barata

(Liu et al., 2012). En los pasados veinte años, las tecnologías de secuenciamiento han sufrido un

tremendo desarrollo y han actuado como el motor de la era genómica, la cual es

caracterizada por una vasta cantidad de datos y subsecuentemente un amplio rango de

áreas de investigación (Liu et al., 2012).

La primera tecnología de secuenciamiento introducida fue el método Sanger usando

electroforesis de capilaridad. Esta tecnología ha sido aplicada en importantes proyectos

de secuenciamiento y es considera muy valiosa por la longitud y precisión de las

lecturas. Después de esta tecnología han emergido las tecnologías de secuenciamiento

de segunda generación (NGS, por sus siglas en ingles). Dentro de este grupo

encontramos Roche 454, Illumina GA y ABI SOLID, las cuales generan un número de

lecturas de 3 a 4 órdenes de magnitud más que las producidas por Sanger. Hoy en día

estas tecnologías han sido aplicadas exitosamente a la identificación del sitio de unión

de proteínas asociadas al DNA y secuenciamiento de RNA para el estudio de

transcriptomas (Harismendy et al., 2009).

29

Figura 4. Construcción de contigs y scaffolds. a) las lecturas son ensambladas en contigs y b) éstos a su vez son ensambladas en scaffolds.

Fuente: Johnson et al. (2012). 3.2.7 Herramientas Computacionales 3.2.7.1 SOAPdenovo. Es un método para el ensamble de lecturas cortas que puede

construir un ensamble de novo para genomas eucariotas. El programa es

especialmente diseñado para ensamblar las lecturas cortas de Illumina. Crea nuevas

oportunidades para construir secuencias de referencia y llevar a cabo análisis precisos

de genomas inexplorados en un modo rentable. SOAPdenovo está enfocado a largos

genomas de plantas y animales pero también trabaja sobre genomas de bacterias y

hongos. Está diseñado para correr sobre sistemas Linux y MAC OS con una memoria

mínima de 5G. Para grandes genomas como humanos 150 GB de memoria pueden ser

requeridas (SOAP, 2013). Li et al. (2010) publicaron el programa. Durante la investigación los autores

secuenciaron 200 Gb de lecturas de Illumina para individuos asiáticos. La longitud de

las lecturas estaba entre 35 y 75 bp y el tamaño inserto de las librerías paired-end fue

de 140 bp, 440 bp, 2,6 kb, 6 kb y 9,6 kb. La estructura de grafos de Bruijn (Figura 5) fue

a) Ensamble de contigs

b) Ensamble de scaffolds

30

usada para representar el sobrelapamiento entre los fragmentos. Un ensamble de

individuos africanos se realizó siguiendo los mismos parámetros que los utilizados en el

genoma asiático. Posteriormente una comparación con genomas de referencia fue

realizada.

Adoptando tamaños inserto de paired –ends entre 140 y 449 bp el N50 de los scaffolds

construidos fue de 17.3 kb. Adicionando tamaños insertos de 2.6 kb el N50 fue

mejorado a 103.5 kb. Posteriormente adicionando librerías de inserto de 6 y 9.6-kb el

N50 alcanzo 446.3 kb.

Se encontraron 3.516 y 3.339 inserciones en contigs en los genomas asiáticos y

africanos al compararlos a las referencias del NCBI. Solo trece casos fueron

potencialmente errores de ensamble, mientras los otros fueron inserciones verdaderas.

El ensamble de novo permitió la identificación de pequeñas deleciones e inserciones y

tiene la ventaja de resolver variaciones estructurales a nivel de base.

3.2.7.2 Quake. Quake es un paquete de corrección de errores de sustitución en

lecturas producidas por proyectos de secuenciamiento con una cobertura mayor a 15x.

Quake adopta el marco de corrección de errores de k-mer introducido por el

ensamblador EULER, pero a diferencia de este programa y de otros similares, Quake

utiliza un robusto modelo de distribuciones erróneas y genuinas de k-mer para

determinar donde los errores son localizados. Posteriormente Quake usa los valores de

calidad de las lecturas y busca las tasas de error nucleótido a nucleótido para

determinar qué tipo de error son más frecuentes (QUAKE, 2013).

31

Figura 5. Ensamble por grafos de Bruijn. a) dos lecturas tienen un solapamiento de 4 bases. b) las lecturas son subdivididas en longitudes más cortas que representan los nodos del grafo. c) el solapamiento entre nodos reconstruye la secuencia original.

Fuente. Miller, Koren y Sutton (2010). Quake incluye un sofisticado modelo de errores de secuenciamiento que permite

examinar conjuntos de correcciones en orden de probabilidad decreciente y de esta

forma corregir la lectura más precisamente. El modelo también ayuda a mejorar la

identificación de lecturas con múltiples correcciones del mismo valor, lo cual permite al

sistema evitar errores de corrección y crea una lectura quimérica (Kelly, Schatz y

Salzberg, 2010).

La corrección de lecturas con Quake mejora la producción de los ensambles. Se

producen largos y precisos contigs y scaffolds usando los ensambladores Velvet y

SOAPdenovo. Las mejoras se producen debido a que la corrección de errores remueve

muchos de los pasos en un grafo y ayuda al ensamblador a detectar sobrelapamientos

de lecturas que pudieron haber sido omitidos. Por otra parte la eliminación de k-mers

erróneos reduce el tamaños del grafo, lo que para genomas largos puede ser la

diferencia entre ser capaz o no, de guardar el ensamble en la memoria de un

computador (Kelly et al., 2010).

32

3.2.7.3 ABACAS. ABACAS es un programa destinado al alineamiento, ordenamiento,

orientación, visualización y diseño de primers para cerrar gaps sobre contigs

ensamblados, basado en una secuencia de referencia. Algunas de las características

de ABACAS incluyen mostrar sobrelapamiento de contigs, visualización de regiones

repetidas, consideración de la calidad de las bases de los contigs para el diseño de

cebadores y permite al usuario reordenar contigs (Assefa, Keane, Otto, Newbold y

Berriman, 2009).

ABACAS utiliza MUMmer para encontrar posiciones de alineamientos e identificar la

localización de loci de contigs ensamblados contra el genoma de referencia. El

resultado es entonces procesado para generar una pseudo molécula tomando en

cuenta el sobrelapamiento de contigs y espacios vacíos (ABACAS, 2013).

3.2.7.4 RATT. Es un programa para transferir anotaciones desde un genoma de

referencia (anotado) a un genoma ensamblado pero no anotado (Sanger Institute,

2013).

Fue el primero en desarrollarse para transferir anotaciones entre diferentes versiones

de un genoma ensamblado. Sin embargo, también puede transferir anotaciones entre

cepas e incluso entre diferentes especies (Sanger Institute, 2013).

El programa inicia comparando dos secuencias utilizando “nucmer” del programa

MUMmer para definir regiones que comparten la misma localización en el cromosoma.

Para realizar una asociación entre regiones de los cromosomas el porcentaje de

identidad es de 40%. Esta información es almacenada como bloques de secuencias de

bases en el cromosoma estudiado y su rango de secuencia asociado en el genoma de

referencia (Otto, Dillon, Degrave y Berriman, 2011)

Una vez las coordenadas dentro de las regiones similares han sido definidas, RATT

procede al paso de asignación de anotación, por el cual cada característica dentro del

33

archivo de referencia es asociada con una secuencia en el genoma que recibe la

transferencia (Otto et al., 2011).

3.2.7.5 Artemis. Es una herramienta de visualización de secuencias escrita en lenguaje

Java. Artemis puede correr sobre el sistema operativo Unix y ser usado en la

visualización de secuencias anotadas en formato EMBL (Rutherford et al., 2000).

El programa esta específicamente diseñado para la evaluación de anotaciones. De este

modo, cualquier resultado generado por un programa ajeno a Artemis puede ser

transformado a un formato que pueda leer Artemis y entonces ser cargado como

característica de la secuencia visualizada. Programas externos como BLAST pueden

ser corridos sobre secuencias específicas y lo resultados obtenidos ser visualizados en

la pantalla principal del programa (Rutherford et al., 2000).

Las propiedades de genomas, como el contenido G+C y los marcos de lectura, pueden

ser representados en cada secuencias evaluada. Además de mostrar estas

características, el programa contiene dos ventanas en las cuales se muestra la

secuencia de nucleótidos a escalas diferentes de ampliación (Rutherford et al., 2000).

3.2.7.6 Mauve. Mauve es un sistema para la construcción de un alineamiento múltiple

de genomas en la presencia de eventos evolutivos como reordenamientos e

inversiones. Mauve se diseñado con la idea de que pueda ser utilizado con recursos

computacionales modestos (GENOME EVOLUTION LABORATORY, 2013).

Mauve realiza un alineamiento en anclaje para alinear rápidamente genomas. Con el fin

de encontrar las coincidencias en la cadena de nucleótidos, Mauve utiliza un método de

extensión de semilla, donde cada semilla se ajusta de acuerdo a un patrón de

coincidencias de nucleótidos. La búsqueda de similitud en múltiples secuencias se

realiza bajo la restricción de que una semilla debe ser única en cada genoma. La

mínima longitud de coincidencia es establecida por el usuario (GENOME EVOLUTION

LABORATORY, 2013). A diferencia de otros métodos de alineamientos, Mauve permite

34

el reordenamiento de los alineamientos en cada genoma, lo que ayuda a identificar

eventos evolutivos (GENOME EVOLUTION LABORATORY, 2013).

35

4. METODOLOGÍA

El ensamble y el alineamiento múltiple se realizó sobre el genoma de 6 aislamientos

clínicos de Mycobacterium tuberculosis multidrogoresistentes (TBR019_1492,

TBR030_1493, TBR038_1494, TBR043_1495, TBR045_1496, TBR056_1497) tomados

en el departamento de Antioquia y secuenciados con Illumina (Illumina Sequencing

Technology, 2010) con lecturas pareadas de 105 pares de bases y separadas por una

longitud de 400 pares de bases. Los aislamientos fueron tomados por esputo

(TBR019_1492 y TBR043_1495), pus pulmón (TBR030_1493), líquido cefalorraquídeo

(TBR038_1494), vértebra (TBR045_1496) y lavado bronquial (TBR056_1497). Los

programas se corrieron sobre un sistema operativo Ubuntu 12.04.

4.1 CORRECCIÓN DE LECTURAS

El programa Quake inicia la corrección de las secuencias contando el número de veces

que un k-mer se repite en las lecturas que lo contengan. De acuerdo a este número, el

programa crea un valor de distribución para k-mers erróneos y verdaderos utilizando

los modelos de distribución Zeta y Gaussian. Posteriormente, el programa localiza los

sitios donde se produjeron los errores de secuenciamiento para cada lectura, si una

lectura posee k-mer erróneos, ésta lectura es sujeta a corrección. Para cada lectura

con errores de secuenciamiento el programa busca la corrección adecuada en base a

valores de probabilidad utilizando una estructura de datos heap (Kelly et al., 2010).

Las lecturas se corrigieron con el programa Quake versión 0.3.4 (Kelly et al.,

2010).descargado en la página: www.cbcb.umd.edu/software/quake/. La instalación del

programa requirió digitar el comando >make dentro de la carpeta descargada. La

corrección se realizó utilizando los parámetros por defecto y un tamaño k-mer de 17.

Para la ejecución de la corrección, se creó un archivo en formato texto que presentó el

nombre de los archivos que contienen las lecturas pareadas.

36

La línea de comandos utilizada tuvo la siguiente secuencia: quake.py -f quake_list.txt -k

17 -p 4. La opción -f indica al programa cual es el archivo que contiene la lista de los

archivos de las lecturas, -k es el tamaño de k-mer para realizar la corrección y -p es el

número de veces que se realizó la búsqueda de errores (por defecto 4).

La ejecución del Quake necesito de la instalación del programa Jellyfish (Marçais

y Kingsford, 2011) descargado de la página www.cbcb.umd.edu/software/jellyfish/. La

instalación se realizo con los comandos ./configure, >make y >makefile dentro de la

carpeta conteniendo los archivos del Jellyfish.

4.2 ENSAMBLE DE LECTURAS Las lecturas corregidas por el Quake se ensamblaron con el programa SOAPdenovo (Li

et al., 2010) versión 1.05 disponible en la página: http://soap.genomics.org.cn/. La

creación del archivo de configuración para realizar el ensamble se estableció siguiendo

las instrucciones presentes en el archivo de descarga. La opción rd_len_cutoff se

modificó a 100pb mientras que los parámetros restantes fueron corridos por defecto. El

ensamble se realizó utilizando tamaños k-mer desde 27 en adelante.

Las instrucciones nohup SOAPdenovo-31mer all -k 31 -s -R -o & fueron utilizadas para

correr el ensamble en todos los aislamientos. SOAPdenovo-31mer es el ejecutable

para realizar el ensamble, después de utilizar un k-mer mayor a 31 se corrió el

ensamble con SOAPdenovo-63mer, el cual soporta hasta un tamaño k-mer de 63. La

opción -K indicó el tamaño del k-mer, en este caso es un ejemplo para realizar el

ensamble con un tamaño de 31. La opción -s se utilizo para indicar al programa el

nombre del archivo de configuración. -R es una opción para utilizar las lecturas para

resolver pequeñas repeticiones. Por último, -o indicó el nombre de la carpeta en donde

se guardaron los resultados y el nombre con el que quisimos quedaran guardados los

archivos del ensamble; los resultados fueron nombrados con el mismo nombre del

aislamiento.

37

Los ensambles resultantes fueron evaluados según el número de scaffolds y contigs, la

longitud media de los scaffolds y el N50. Se escogieron los ensambles con el menor

número de contigs y scaffolds y con la longitud media y N50 más altos.

Una vez elegido el mejor ensamble, se procedió a utilizar el software GapCloser

(SOAP, 2013) sobre los archivos finales del ensamble para rellenar gaps dentro de

cada scaffold.

4.3 ORDENAMIENTO DE SECUENCIAS El ordenamiento y orientación de los contigs y scaffolds para obtener una única

secuencia, se realizó con el programa ABACAS (Assefa et al., 2009) versión 1.3.1

disponible en la dirección: abacas.sourceforge.net/. El ordenamiento se realizó sobre

los 6 aislamientos utilizando los parámetros por defecto que otorga el programa. La

secuencia de referencia utilizada para el alineamiento fue el genoma de la cepa H37Rv

disponible en el GenBank con número de accesión NC_000962.3.

La línea de comandos para la ejecución del programa tuvo el siguiente orden: perl

abacas.1.3.1.pl –r h37rv.fasta –q -p nucmer -o. -r h37rv.fasta es el archivo que contiene

la secuencia de referencia en formato fasta, -q indica el archivo que contiene las

secuencias a ser ordenada, -p indica que tipo de programa se utilizo para el

alineamiento de las secuencias, en este estudio utilizamos “nucmer”, un programa del

paquete MUMmer (Kurtz et al., 2004) que permite el alineamiento de nucleótidos. Por

último, –o indica el nombre con el que se guardo la secuencia ordenada; los resultados

fueron nombrados con el mismo nombre del aislamiento estudiado.

MUMmer fue descargado de la dirección mummer.sourceforge.net/. Una vez

descargado el archivo se descomprimió con el comando tar xvzf MUMmer3.23.tar.gz y

su instalación se realizó al escribir make check y make install en la carpeta de

descargada de MUMmer.

38

4.4 ANOTACIÓN

La anotación de las secuencias se llevó a cabo con el programa RATT (Otto et al.,

2011), descargado de la página http://ratt.sourceforge.net/. Se corrió el programa con

los parámetros por defecto y utilizando como secuencia objetivo el archivo producido

por el ABACAS y como secuencia de referencia la cepa anotada de MTB H37Rv con

número de acceso NC_000962.3 en el GenBank. EL archivo descargado de H37Rv fue

transformado a formato embl utilizando el visualizador Artemis (Rutherford et al., 2000)

para que pudiera ser usado en la transferencia de anotaciones.

La línea de comandos utilizada para la anotación fue start.ratt.sh ./embl 1492_ord.fasta

anotación Strain . start.ratt.sh es el programa que realiza la transferencia de

anotaciones, /embl señala la carpeta donde se encuentra el genoma de referencia,

1492_ord.fasta es el archivo resultado del ABACAS y que contiene la secuencia

objetivo, anotación es el nombre que llevó los resultados de la anotación, por último,

Strain es la opción que se utiliza cuando se va a transferir anotaciones entre cepas.

La inspección de la anotación se hizo con el software Artemis. Para cada aislamiento

se cargó el archivo con extensión .final.embl el cual contiene la secuencia anotada y el

archivo NOTTransfered.embl que indica los genes que no fueron transferidos al

genoma reconstruido debido a deleciones o por presentar muy baja similitud. Se

consideró la deleción de un gen cuando los genes flanqueando la deleción se

encontraban presentes y entre ellos no se presentaban gaps.

Las inserciones fueron buscadas con el archivo con extensión .Mutations.gff el cual da

información sobre las regiones que pueden considerarse inserciones. Para verificar la

existencia de estas inserciones, se realizó un alineamiento de cada región (inserción)

con el genoma de H37Rv utilizando el programa blastn del paquete BLAST del NCBI

corriendo las opciones por defecto.

40

5. RESULTADOS

5.1 CORRECCIÓN DE LECTURAS

Los resultados de la corrección de los 6 secuenciamientos se encuentran registrados

en la tabla 1. El número de lecturas iniciales y finales (número de lecturas después de

la corrección) fueron obtenidos utilizando el comando wc. El mayor número de lecturas

iniciales lo presentaron los aislamientos TBR019_1492 y TBR038_1494 con

19.549.161 y 13.620.488. Al igual que el número de lecturas iniciales, los aislamientos

TBR019_1492 y TBR038_1494 también obtuvieron el mayor número de lecturas

finales. La cantidad más baja de lecturas iniciales y finales las presento el aislamiento

TBR045_1496 con 7.321.480 y 5.902.984 respectivamente.

Tabla 1. Corrección del secuenciamiento de los 6 aislamientos de MTB. Medida TBR019_1492 TBR030_149

3 TBR038_1494 TBR043_1495 TBR045_1496 TBR056_1497

# inicial de lecturas

19.549.161 7.848.261 13.620.488 8.302.316 7.321.480 9.997.066

# final de lecturas

15.984.820 6.304.748 11.431.952 6.997.302 5.902.984 7.893.016

corregidas 3.320.578 1.226.540 2.288.545 1.357.007 1.257.880 1.660.009

cortadas 13.890.260 5.635.331 9.936.324 6.143.060 5.157.658 6.953.204

removidas 2.338.322 986.389 1.395.619 802.249 905.942 1.383.853

Fuente: el autor Para todos los aislamientos, el número de lecturas cortadas fue mayor que el número

de lecturas corregidas. Entre los aislamientos con el menor número de lecturas

iniciales, los resultados finales para TBR030_1493 mostraron un menor número de

lecturas corregidas que el presente en el aislamiento TBR045_1496. Concorde al

número mayor de lecturas iniciales, los aislamientos TBR019_1492 y TBR038_1494

41

son los que tienen la mayor cantidad de lecturas corregidas con respecto al resto de lo

aislamiento.

En relación con el número de lecturas iniciales, Quake removió y corrigió el 30, 4%

(Figura 6) de las lecturas iniciales en el aislamiento TBR056_1497 siendo el porcentaje

más alto seguido por el aislamiento TBR045_1496 con un 29,5% de lecturas removidas

y corregidas tras la corrección. Los resultados con el porcentaje más bajo (Figura 6)

estuvieron cercanos al 26,5 % de lecturas con baja calidad encontrado por Eren,

Vineis, Morrison y Sogin (2013) al secuenciar la región V6 de E. coli con Illumina,

mientras que el porcentaje de lecturas corregidas y removidas en todos los aislamiento

fue inferior al 31,2 % de lecturas con baja calidad analizadas por Yang, Dorman y

Aluru (2010) sobre lecturas secuenciadas con Illumina de la cepa K-12 de E. coli.

Figura 6. Proporción de lecturas corregidas y removidas para cada aislamiento después de la corrección.

Fuente. El autor

5.2 ENSAMBLE Y ANOTACIÓN Posterior a la corrección de secuencias, se utilizaron las lecturas de salida del Quake

para el ensamble de las secuencias. Las tablas 2 y 3 resumen los ensambles obtenidos

42

para los seis aislamientos. Un ensamble óptimo se obtuvo con tamaños de k-mer por

debajo de 40 excepto para el aislamiento TBR030_1493 para el cual el tamaño

adecuado de k-mer estuvo en 51. Los ensamble escogidos se desarrollaron con

tamaños de k-mer similares, un tamaño de 31 fue el mejor para el ensamble de la mitad

de los aislamiento mientras que con un k-mer de 37 se realizaron los mejores

ensambles para los aislamientos TBR019_1492 y TBR045_1496.

El menor número de contigs se presentó en el ensamble de los aislamientos

TBR019_1492 y TBR038_1494 con 800 y 848 respectivamente. A pesar de que el

aislamiento TBR019_1492 obtuvo la menor cantidad de contigs, el número más bajo de

scaffolds y la longitud media más alta de ellos (Tabla 3) la presentaron los aislamientos

TBR038_1494 y TBR056_1497 con 84 y 99 scaffolds respectivamente y una longitud

media de 50.525 para el aislamiento TBR038_1494 y 43.353 para TBR056_1497

indicando que fueron los ensambles menos fragmentados entre todos.

Al otro extremo está el ensamble producido para el aislamiento TBR030_1493, las

lecturas ensambladas resultaron en el número más alto de contigs (1.846) y scaffolds

(147) con la longitud media más baja entre los 6 aislamientos.

Dentro de las longitudes de los scaffolds más largos, el aislamiento TBR030_1493

presentó la cadena más corta con 183.777 nucleótidos. Este resultado muestra

relación directa con la longitud media más baja y el mayor número de scaffolds y

contigs. Sin embargo, el scaffold más largo no fue ensamblado en el aislamiento

TBR038_1494 el cual obtuvo la longitud media más alta, si no que estuvo presente en

el aislamiento TBR043_1495 el cual tiene la segunda longitud media de scaffold más

corta (36.671núcleotidos).

El N50 es la longitud de scaffolds en la cual la mitad de la longitud del ensamble está

representada en scaffolds con este tamaño (Hormigo, 2011). La medida más alta del

N50 resultó de los ensambles de los aislamientos TBR038_1494 y TBR056_1497.

43

Tabla 2. Número final de Contigs y Scaffolds de los 6 ensambles de MTB. Aislamiento Tamaño k-mer Scaffolds Contigs Contigs sin unir a

Scaffolds TBR019_1492 37 104 800 97

TBR030_1493 51 147 1.846 187

TBR038_1494 31 84 848 80

TBR043_1495 31 119 1.545 134

TBR045_1496 37 112 1.754 150

TBR056_1497 31 99 1.132 128

Fuente. El autor El ordenamiento de las secuencias se llevó a cabo utilizando el archivo de salida de

SOAPdenovo con extensión scafSeq. El tamaño final del cromosoma reconstruido

para cada secuencia es el siguiente: TBR019_1492 – 4.435.609 pares de bases (pb),

TBR030_1493 – 4.437.459 pb, TBR038_1494 – 4.439.206, TBR043_1495- 4.441.234

pb, TBR045_1496 – 4.434.405 pb, TBR056_1497 - .4.467.419 pb.

Las secuencias finales mostraron un número de gaps variable, la molécula con mayor

cantidad de gaps fue la del aislamiento TBR030_1493 con 150 seguido por

TBR045_1496 con 117, TBR019_1492 con 106, TBR056_1497 conteniendo 101 gaps

y por últimos TBR043_1495 y TBR038_1494 con 99 y 90 gaps respectivamente.

Tabla 3. Medidas de los Scaffolds y N50 de los 6 aislamientos de MTB.

Aislamiento Scaffold más largo longitud media de Scaffolds

N50

TBR019_1492 196.312 40.677 92.008

TBR030_1493 183.777 28.804 67.788

TBR038_1494 228.480 50.524 114.507

TBR043_1495 232.955 36.671 88.018

TBR045_1496 231.993 38.839 83.561

TBR056_1497 195.542 43.353 99.802

Fuente. El autor.

45

(codon 507 a 533) (Makadia, Jain, Patra, Sherwal y Khanna, 2012), sin embargo, todos

lo aislamientos mostraron mutaciones en codones fuera de esta región: TBR019_1492

codon 450, TBR030_1493 codon 445 y 1038, TBR038_1494 codon 452 y 692,

TBR043_1495 codon 103, 450 y 534, TBR045_1496 codon 103 y 450, TBR056_1497

codon 103 y 450. Futuras investigaciones pueden evaluar estas mutaciones y su

asociación con fenotipo multidrogoresistente.

Después de la anotación se estudiaron las deleciones e inserciones presentes en cada

genoma (Tabla 4). El gen Rv2015c anotado como proteína hipotética se encuentra

delecionado en todos los aislamientos. Las deleciones de las transposasas del

elemento de inserción IS6110 variaron en cada genoma y no hubo una deleción de

estos genes presente en todos los ensambles. La deleción de las transposasas

Rv2167c-Rv2168c, Rv2105-Rv2106 y Rv1369c-Rv1370c fueron las más frecuentes,

estando en 5 de los 6 ensambles (Tabla 5) seguidas por la deleción de Rv2479c-

Rv2480c presente en 4 aislamientos.

La molécula reconstruida del aislamiento TBR038_1494 mostró 8 (Tabla 5) deleciones

de las transposasas del elemento de inserción IS6110 siendo el mayor número entre

los cromosomas reconstruidos. Al otro extremo, está el aislamiento TBR056_1497 el

cual mostró 4 deleciones menos. La deleción de los genes Rv3427c-Rv3428c,

transposasas del elemento de inserción IS1532 se encontró en los genomas de

TBR019_1492, TBR038_1494 y TBR045_1496.

Los aislamientos TBR043_1495, TBR045_1496 y TBR056_1497 presentaron

deleciones que no se encuentran en los tres aislamientos restantes; la pérdida de los

genes Rv1354c (Proteina Hipotetica), Rv1355c (moeY) y una deleción de 6.480 pb

comprendiendo los genes Rv2271 a Rv2279 fueron pérdidas de secuencias distintivas

de estos aislamiento.

Una inserción característica en los 6 ensambles fue indicada por el programa entre los

genes Rv2023A y Rv2024c con una longitud de 4996 pb. El aislamiento TBR030_1493

presentó otra inserción entre los genes guaB1 y gnd1 con una longitud de 462 pb.

46

Tabla 4. Diferencias encontradas entre los aislamientos y el genoma de referencia H37Rv. Aislamiento Deleción Inserción TBR019_1492

Las Transposasas Rv2479c-Rv2480c, Rv2648-Rv2649, Rv3184-Rv3185, Rv3325-Rv3326, Rv3380c-Rv3381c, Rv3474-Rv3475 del elemento de inserción IS6110. Gen Rv2015c. Rv3427c-Rv3428c (Transposasas del elemento de inserción IS1532)

4996 pb entre los genes Rv2023A y Rv2024c

TBR030_1493

Gen Rv2015c. Las Transposasas Rv1369c-Rv1370c, Rv2105-Rv2106, Rv2167c-Rv2168c, Rv2278-Rv2279,Rv2479c-Rv2480c, Rv2814c-Rv2815c, Rv3184-Rv3185 del elemento de inserción IS6110.

462 pb entre los genes Rv1843c (guaB) y Rv1844c (gnd1). 4996 pb entre los genes Rv2023A y Rv2024c

TBR038_1494

Genes Rv0377, Rv0378, Rv2015 Las Transposasas Rv1369c-Rv1370c, Rv2105-Rv2106, Rv2167c-Rv2168c,Rv2278-Rv2279, Rv2479c-Rv2480c,Rv2648-Rv2649, Rv3380c-Rv3381c, Rv3474-Rv3475 del elemento de inserción IS6110. Rv3427c-Rv3428c (Transposasas del elemento de inserción IS1532)


TBR043_1495

Genes Rv1354c, Rv1355c (moeY), Rv2015c Las Transposasas Rv1369c-Rv1370c, Rv1756c-Rv1757c, Rv1763-Rv1764, Rv2105-Rv2106, Rv2167c-Rv2168c, Rv2354-Rv2355, Rv3325-Rv3326 del elemento de inserción IS6110. 6480 pb. Comprende los genes Rv2271-Rv2279 y la pérdida de los 29 pares de bases finales de Rv2270 y los 116 pb iniciales de RV2280.


TBR045_1496

Genes Rv1354c, Rv1355c (moeY), Rv2015c 6480 pb. Comprende los genes Rv2271-Rv2279 y la pérdida de los 29 pares de bases finales de Rv2270 y los 116 pb iniciales de RV2280. Rv3427c-Rv3428c (Transposasas del elemento de inserción IS1532) Las Transposasas Rv1369c-Rv1370c, Rv2105-Rv2106, Rv2167c-Rv2168c, Rv2479c-Rv2480c, Rv2648-Rv2649, Rv3184-Rv3185 del elemento de inserción IS6110.


TBR056_1497

Las Transposasas Rv0795-Rv0796, Rv1369c-Rv1370c, Rv2105-Rv2106, Rv2167c-Rv2168c del elemento de inserción IS6110. Genes Rv1047, Rv1354c, Rv1355c (moeY), Rv2015c 6480 pb. Comprende los genes Rv2271-Rv2279 y la pérdida de los 29 pares de bases finales de Rv2270 y los 116 pb iniciales de RV2280.


Fuente. El autor

47

5.3 ALINEAMIENTO MÚLTIPLE

El alineamiento de los 6 genomas reveló una translocación de 8.686 pb en el genoma

de TBR019_1492 entre los genes Rv3466 y Rv3467, la mutación contiene los genes

Rv1575 a Rv1586c (proteínas del fago phiRv1) y un elemento repetitivo de 89 pb

flanqueando al fago en el extremo 5'.

En la Tabla 6 se muestran las regiones únicas encontradas con el programa Muave en

el cromosoma de cada aislamiento. El número de regiones únicas para cada

aislamiento es el siguiente: 8 en TBR019_1492, 5 en TBR030_1493, 4 en

TBR038_1494, 7 en TBR043_1495, 7 en TBR045_1496 y 5 en TBR056_1497.

Sumando en total 36 regiones Únicas.

La mayor cantidad de regiones únicas estuvieron presentes en las secuencias de los

genes de las familias PPE y PE_PGRS (Figura 8). Un 30,55 % (11) de las secuencias

únicas totales se presentaron en las regiones intergénicas.

Los genes de las familias PPE y PE_PGRS con secuencias únicas fueron los

siguientes: wag22, pe_pgrs1, pe_pgrs2, pe_pgrs3, pe_pgrs4, pe_pgrs6, pe_pgrs7,

pe_pgrs9, pe_pgrs10,pe_pgrs18, pe_pgrs27, pe_pgrs28, pe_pgrs38, pe_pgrs43,

pe_pgrs44, pe_pgrs52, ppe6, ppe54 y ppe55, siendo los genes pe_pgrs7 y pe_pgrs10

los que presentaron regiones únicas en dos aislamientos distintos. pe_pgrs7 mostró

regiones únicas en los cromosomas de TBR038_1494 y TBR056_1497, pe_pgrs10

contiene regiones únicas en los genomas de TBR043_1495 y TBR045_1496.

48

Tabla 5. Deleciones de las Transposasas del elemento de inserción IS6110 en cada aislamiento. Deleción de las transposasas (De), genes que codifican para las Transposasas presentes (P). Transposasas TBR019_1492 TBR030_1493 TBR038_149

4 TBR043_1495 TBR045_1496 TBR056_1497

Rv0795-Rv0796 P P P P P De

,Rv1369c-Rv1370c P De De De De De

Rv1756c-Rv1757c P P P De P P

Rv1763-Rv1764 P P P De P P

Rv2105-Rv2106 P De De De De De

Rv2167c-Rv2168c P De De De De De

Rv2278-Rv2279 P De De P P P

,Rv2354-Rv2355 P P P De P P

Rv2479c-Rv2480c De De De P De P

Rv2648-Rv2649 De P De P De P

Rv2814c-Rv2815c P De P P P P

Rv3184-Rv3185 De De P P De P

Rv3325-Rv3326 De P P De P P

Rv3380c-Rv3381c De P De P P P

Rv3474-Rv3475 De P De P P P

Total deleciones 6 7 8 7 6 4

Fuente. El autor

49

Tabla 6. Regiones únicas en cada aislamiento. Cada región es propia de un genoma. Aislamiento Región Única TBR019_1492

Entre las bases 660 y 700 del gen pe_pgrs2 Entre las bases 350 y 401 del gen pe_pgrs3 Nucleótidos 518169 a 518218, entre los genes hspR y ppe8 Últimos 52 nucleótidos del gen rplD Nucleótidos 1456039 a 1456079, entre los genes glgC y pe14 Nucleótidos 1540379 a 1540402, entre los genes Rv1287 y Rv1288 Entre las bases 3959 y 4010 del gen pe_pgrs43 Entre las bases 1644 y 1672 del gen ppe55

TBR030_1493

Entre las bases 67 y 94 del gen Rv0263c Entre las bases 1393 y 1550 del gen pe_pgrs4 Entre las bases 3975 y 4005 del gen Rv0648 Entre las bases 1552 y 1596 del gen pe_pgrs27 Entre las bases 922 y 979 del gen pe_pgrs38

TBR038_1494

Entre las bases 2375 y 2404 del gen ppe6. Entre las bases 2180 y 2719 del gen pe_pgrs7. Entre las bases 913 y 1531 del gen wag22. Nucleótidos 3712862 a 3712914, entre los gens Rv3217c y Rv3218.

TBR043_1495

Entre las bases 1244 y 1299 del gen pe_pgrs1. Nucleótido 243616 a 243672, entre los genes pg_pgrs2 y pepA. Entre las bases 2029 y 2081 del gen pe_pgrs9. Entre las bases 994 y 1074 del gen pe_pgrs10 Entre las bases 1190 y 1246 del gen pe_pgrs28 Nucleótidos 2863374 a 2863396, entre los genes Rv2449c y rpfE. 115 pb iniciando a 244 base corriente arriba del codón de inicio del gen Rv3304.

TBR045_1496

Entre las bases 894 y 1007 del gen pe_pgrs6 Entre las bases 1001 y 1267 del gen pe_pgrs10 Entre las bases 645 y 744 del gen pe_pgrs18 Nucleótidos 1575563 a 1575589, entre los genes rrf y ogt Nucleótidos 1996596 a 1996619, entre los genes Rv1668c y Rv1669 Nucleótidos 2733834 a 2733866, entre los genes esxP y Rv2348c Entre las bases 282 y 321 del gen ppe54

TBR056_1497

Entre las bases 781 y 855 del gen hycE Nucleótidos 757621 a 757691, entre los genes nrdZ y Rv0571c. Entre las bases 2676 y 2729 del gen pe_pgrs7. Entre las bases 1050 y 1115 del gen pe_pgrs52. Entre las bases 285 y 353 del gen pe_pgrs44.

Fuente. El autor.

51

6. DISCUSIÓN

6.1 CORRECCIÓN DE SECUENCIAS Los errores producidos en el secuenciamiento de nucleótidos pueden llevar a

posteriores errores en el ensamble de las secuencias y por lo tanto se puede formular

datos erróneos de la cadena genómica (Macmanes y Eisen, 2013). Esta dificultad se ha

convertido en un problema en todos los proyectos de ensamble de secuencias y los

investigadores han empezado a diseñar software que corrijan estos errores en las

lecturas (Medvedev, Scott, Kakaradov y Pevzner, 2011).

En este estudio utilizamos el programa Quake, un corrector de lecturas producidas por

el secuenciamiento Illumina que ha sido utilizado en los ensambles de distintos

organismos, entre ellos el de Drosophila simulans (resecuenciamiento) (Hu, Eisen,

Thornton y Andolfatto, 2013), Salinarchaeum sp. (Dominova, Sorokin, Kublanov,

Patrushev y Toshchakov, 2013) y la actinobacteria Candidatus Microthrix parvicella

Bio17-1 (Muller et al., 2012). Nuestros resultados concuerdan con los obtenidos por los

autores del software, ya que en la corrección realizada sobre las lecturas del genoma

de la abeja Megachile rotundata secuenciado con Illumina, los investigadores

obtuvieron una mayor cantidad de lecturas cortadas. Esto puede deberse a que el

algoritmo del Quake permite cortar los extremos de las lecturas cuando k-mers

erróneos se ubican sobre esta posición (Kelly et al., 2010) (Figura 9) y a que los errores

del secuenciamiento Illumina se presentan en las últimas posiciones de la lectura como

lo evidencia Dohm, Lottaz, Borodina y Himmelbauer (2008).

Quake proporciona dos medidas que dan idea de la calidad de los datos de

secuenciamiento: la cantidad de lecturas corregidas y la cantidad de lecturas

removidas. La proporción de lecturas corregidas y removidas en los aislamientos

TBR056_1497 y TBR045_1496 (Figura 6) fue la mayor entre todas la correcciones,

indicando que estos secuenciamientos fueron de menor calidad que los demás.

52

Figura 9. Corrección de errores en Quake. El programa considera que las bases de los k-mer con errores (Rojo) que empatan con las bases de los k-mer verdaderos (Verde) no deben ser corregidas y por lo tanto corta las bases de los extremos que son las únicas que se encuentra exclusivamente en k-mers erróneos.

Fuente. Kelley, 2010. 6.2 RECONSTRUCCIÓN DE GENOMAS

Las tecnologías NGS han transformado y acelerado los estudios biológicos en aéreas

médicas. La disminución en los costos y el alto rendimiento de estas tecnologías son

las causas del incremento en proyectos de ensamble de genomas. No obstante, la

llegada de estas plataformas de secuenciamiento ha traído consigo la dificultad de

manejar secuencias cortas (Liu, Tsai, Lee y Chiang, 2013; Zhang, W. et al., 2011).

Los programas destinados al ensamble de secuencias de datos proporcionados por las

tecnologías de secuenciamiento de siguiente generación se basan en las longitudes k-

mer para encontrar los solapamientos entre lecturas. Esta secuencia k-mer es una

secuencia de un numero k de bases que hace parte de la longitud total de la lectura

(Miller et al., 2010).

SOAPdenovo utiliza grafos de de Bruijn para realizar el ensamble. En estos grafos,

cada nodo representa un k-mer y los ejes representan el solapamiento de dos k-mer

(Li et al., 2010). Nuestra evaluación de distintos tamaños k-mer mostró que los

ensambles más eficientes utilizando lecturas de 105 bases producidas por Illumina de

53

MTB se realizan con k-mer de tamaño igual o menor a 51 (Tabla 2) y que 5 de los 6

mejores ensambles se construyeron con k-mer de 31 y 37. Estas medidas pueden ser

de ayuda en futuros proyectos de ensamble de secuencias de MTB con el fin de

ahorrar tiempo en la búsqueda del mejor ensamble y reducir el uso de memoria de

almacenamiento.

Los proyectos de ensamble que utilizan lecturas cortas como las ensambladas en el

presente estudio intentan incrementar la cobertura (cantidad de lecturas que

pertenecen a un mismo fragmento del genoma) para compensar la longitud corta de las

lecturas (Schatz, Delcher y Salzberg, 2010). Por lo tanto, el ensamble de un genoma

depende de una apropiada cobertura y de la calidad del secuenciamiento de los

fragmentos (Schatz, Witkowski y McCombie, 2012). Nuestros secuenciamientos

difieren tanto en la cantidad de fragmentos secuenciados como en la calidad de sus

lecturas. La diferencia en estos parámetros se ve reflejada en la cantidad de scaffolds,

contigs (Tabla 2) y el tamaño N50 (Tabla 3).

El número de scaffolds y contigs son formas de comparar ensambles de una especie,

sin embargo, es el N50 la medida más común de evaluar la calidad de un ensamble

(Baker, 2012). Nuestros genomas ensamblados mostraron diferentes cantidades de

scaffolds y contigs (Tabla 2) así como desiguales tamaños N50 (Tabla 3) que señalan

al aislamiento TBR038_1494 como el ensamble de mejor calidad entre todos.

En comparación con genomas ensamblados de distintas cepas, el N50 de los 6

genomas (Tabla 3) PR05 (64,609 bp) (Ismail et al., 2013) mientras que 5 (excepto

TBR030_1493) de los 6 ensambles presentaron un N50 mayor a las cepas Beijing OM-

V02_005 (68,368 bp) (Tateishi et al., 2013) y UT205 (81.913 bp) (Isaza et al., 2012)

indicando que la metodología utilizada fue eficiente en ensamblar las lecturas. Nuestros

ensambles mostraron un tamaño similar al de MTB PR05 (4.410.213 bp) ya que

nuestros genomas tienen un tamaño por encima de 4,4 Mega pares de bases (Mbp).

54

La metodología estructurada en el estudio realizado con la cepa PR05 mencionada

anteriormente y la utilizada en la reconstrucción de nuestros genomas, se asemejan en

la tecnología de secuenciamiento (Illumina) pero se diferencian en los programas

utilizados en el ensamble. Los resultados del N50 y la longitud de los contigs y

scaffolds en cada genoma reafirman los resultados del proyecto GAGE en donde se

concluye que la calidad del ensamble cambia con el programa utilizado y que

SOAPdenovo funciona muy bien sobre los genomas bacterianos (Salzberg et al.,

2012). Sin embargo, nuestros genomas no están completamente reconstruidos. Los

gaps en las secuencias genómicas estuvieron por encima del 1,5 % (en el menor de los

casos) y por tanto es necesario llevar a cabo el cierre de los gaps mediante el diseño

de cebadores (Tsai, Otto y Berriman, 2010) o la utilización de distintas herramientas

informáticas para mejorar y finalizar los genomas.

6.3 ANOTACIÓN Todos los análisis de las anotaciones de los 6 aislamientos mostraron la pérdida del

gen Rv2015c (Tabla 4) que codifica una proteína hipotética (Lew, Kapopoulou, Jones y

Cole, 2011). La anotación del gen refleja una región que codifica para un motivo HNH

endonucleasa, característico de una familia de Homin endonucleasas (HE) (Stoddard,

2005) que se diferencia por poseer una secuencia de 35 aminoácidos con dos

residuos Histidina y uno Aspargina altamente conservados (Keeble, Mate y Kleanthous,

2005). Los residuos HNH están presentes en bacterias y hongos (Yusufzai y

Kadonaga, 2010) en proteínas como la encima de restricción KpnI (Saravanan,

Bujnicki, Cymerman, Rao y Nagaraja, 2004) y las endonucleasas I-PfoP3I (Kong, Liu,

Fu, Yu y An, 2012) y I-HmuI (Shen, Landthaler, Shub y Stoddard, 2004). Teniendo en

cuenta la presencia de este motivo, el gen Rv2015c podría comportarse como

elemento móvil, debido a que las HE promueven la movilidad de sí mismos y de las

secuencias génicas a su alrededor (Hafez y Hausner, 2012) sin embargo su función no

ha sido estudiada y nuestros resultados indican que su deleción no influye en la

supervivencia de MTB, resultados coherente con la literatura ya que las HE son

asociadas con secuencias egoístas (Hafez y Hausner, 2012).

55

Otras mutaciones destacadas en todos los aislamientos fueron la pérdida de las

transposasas del elemento de inserción IS6110 (Tabla 4). Cada aislamiento mostró

deleciones particulares de estos genes (Tabla 5) con respecto a los demás genomas

estudiados. En comparación con cepas estudiadas, las deleciones encontradas en

nuestros asilamientos son igualmente características en las cepas 210 y W a excepción

de las inserciones ubicadas en las posiciones Rv2105-Rv2106 y Rv2814c-Rv2815c

(Beggs, Eisenach y Cave, 2000).

Las secuencias de inserción IS6110 son ampliamente utilizadas en el diagnostico de

MTB y en los estudios epidemiológicos de distintos aislamientos debido a que son

secuencias conservadas (Sankar, Kuppanan, Balakrishnan y Nandagopal, 2011) y a

que el número de copias y la localización de estas en el genoma, es un método

adecuado por el cual se puede genotipificar distintas cepas (Coros, DeConno y

Derbyshire, 2008), por ejemplo, Green et al. (2013) caracterizaron 338 aislamientos de

MTB mediante el número de copias de IS6110. Los autores lograron agrupar 52

aislamientos con resistencia a medicamentos en 22 grupos fundamentados en el

número de copias de IS6110. Siguiendo estos resultados se identificaron eventos de

transmisión entre los pacientes. Alonso, Samper, Martín y Otal (2013) estudiaron la

distribución de la secuencia IS6110 en cepas aisladas del genotipo Beijing,

encontrando sitios de inserción con una alta frecuencia en los genes Rv1371, ctpD,

Rv2016, idsB y entre los genes esxR-esxS. Cada uno de nuestros aislamientos

presento deleciones del elemento IS6110 en su secuencia nucleotídica que lo

distinguen de los otros 5 genomas. El número y la posición de estas deleciones pueden

ser utilizados como marcadores moleculares en estudios de la prevalencia y

transmisión de cada aislamiento. De la misma manera, las deleciones e inserciones

expuestas en la Tabla 4, podrían someterse a futuros análisis con el fin de desarrollar

marcadores epidemiológicos de cada aislamiento clínico.

Por otro lado, la presencia de estos elementos puede tener un papel en la variabilidad

de la secuencia genómica de MTB y un efecto sobre el fitness bacteriano. La

transposición de la secuencia IS6110 bajo condiciones de estrés pude llegar afectar la

56

expresión de los genes mediante eventos de inserción, deleción e incremento de la

expresión de genes cercanos a la transposición debido a los promotores que llevan

consigo la secuencia transponible (Reyes et al., 2013). El efecto en el fitness de

IS6110 podría estar relacionado con el fitness reducido de las cepas con resistencia a

medicamentos (Gagneux et al., 2006b), sin embargo otros estudios han demostrado

que las cepas MDR mantienen o incluso aumentan su fitness en comparación con

cepas sensibles (Bhatter y Mistry, 2013), la transposición de IS6110 podría

desempeñar un papel sobre el fitness de las cepas con resistencia a fármacos. Una de

las limitaciones de este estudio fue la caracterización del número y localización de las

secuencias móviles IS6110 con fines de establecer su impacto sobre la variabilidad y

expresión de genes en los aislamientos estudiados, por lo tanto, futuros análisis son

necesarios para genotipificar los aislamientos, tomando como base las repeticiones y

sitios de inserción de este elemento transponible.

Una característica de los aislamientos TBR043_1495, TBR045_1496 y TBR056_1497

fue la pérdida del gen moeY (Rv1355c) (Tabla 4) anotado como proteína implicada en

la biosíntesis de molibdopterina, un importante co-factor de múltiples enzimas

implicadas en reacciones redox en los ciclos del carbono y nitrógeno (Lake, Temple,

Rajagopalan y Schindelin, 2000). Una mutación involucrando al gen moeY ya ha sido

reportada, Niobe-Eyangoh et al. (2004) encontraron una inserción de la secuencia

IS6110 dentro del marco de lectura del gen moeY en cepas de la familia Camerún de

MTB. Los autores concluyen que este gen puede estar involucrado en la virulencia de

la cepa, sin embargo su rol sigue siendo desconocido.

La deleción de los genes Rv2271-Rv2279 (Tabla 4) es la pérdida de un fragmento más

larga y las más destacada en todos los aislamientos. Los genes codifican para

proteínas hipotéticas (Rv2271, Rv2275), posibles proteínas transmembranales

(Rv2272,Rv2273), operon del sistema toxina-antitoxina (TA) mazF8 (Rv2274c-

Rv2274A), el Cytocromo P450 CYP121 (cyp121) y una posible glicerol fosfodiesterasa

(Rv2277c). La deleción de estos genes ya fue reportada por Tsolaki et al. (2004) en 5

aislamientos clínicos de San Francisco, USA, utilizando las técnicas de microarreglos,

http://www.ncbi.nlm.nih.gov/pubmed?term=Niobe-Eyangoh%20SN%5BAuthor%5D&cauthor=true&cauthor_uid=15528691

57

PCR y secuenciamiento y por Das et al. (2013) en aislamiento de TB extra pulmonar

tomados de pacientes de la India.

Los sistemas TA regulan la proliferación de la bacteria al inhibir un proceso

fundamental en el metabolismo celular (Sharp et al., 2012). En el genoma de MTB, las

toxinas mazF escinden las secuencias de RNAm inhibiendo la traducción a proteínas

(Zhang, Y. et al., 2003). La deleción de este sistema en TBR043_1495, TBR045_1496

y TBR056_1497 puede tener un efecto sobre la capacidad de la bacteria para entrar en

estado de latencia, ya que los sistemas TA son activados bajo situación de estrés como

las encontradas en macrófagos (Ramage, Connolly y Cox, 2009).

El gen cyp121 codifica un citocromo relacionado con el metabolismo de los lípidos de

MTB (Isin y Guengerich, 2007). Su función se ha relacionada con el gen Rv2275,

proponiéndose que funcionan como un operón. La relación se centra en que el

citocromo CYP121 P450 utiliza como sustratos las moléculas sintetizadas por la

expresión de Rv2275 (Belin et al., 2009). Aunque se ha postulado que el gen cyp121 es

esencial en el metabolismo de MTB (McLean et al., 2008) otros estudios han

demostrado que no es vital para el funcionamiento de MTB (Sassetti, Boyd y Rubin,

2003; Tsolaki et al., 2004). Las deleciones encontradas en los aislamientos

TBR043_1495, TBR045_1496 y TBR056_1497 apoyan la idea de que cyp121 no es un

gen indispensable en MTB.

6.4 ALINEAMIENTO MÚLTIPLE

El aislamiento TBR019_1492 presenta una posición del fago phiRv1 distinta a los

demás aislamientos. Los re-arreglos estructurales relacionados con esta secuencia se

han encontrado en comparaciones de las cepas H37Rv, H37Ra, CDC1551 y Haarlem,

la posición del fago es distinta en las cepas CDC1551 y Haarlem con respecto a la

posición ocupada en las cepas H37Rv, H37Ra (Cubillos-Ruiz et al., 2008). Así mismo

variaciones involucrando el fago fueron identificadas en la cepa de Mycobacterium

bovis AF2122/97 (Chavez et al., 2010).

http://www.ncbi.nlm.nih.gov/pubmed?term=Das%20S%5BAuthor%5D&cauthor=true&cauthor_uid=23773324

58

Las regiones únicas encontradas en los aislamientos están principalmente ubicadas en

los genes de las familias PPE/PE_PGRS (Figura 8). El rol de las proteínas expresadas

por genes de las familias PPE en MTB es desconocido, sin embargo se especula que

su alto polimorfismo las hace antígenos de gran importancia (Cuccu, Freer, Genovesi,

Garzelli y Rindi, 2011). Igualmente, la variación en los extremos c-terminal de las

proteínas PE_PGRS ha sido ligada a variación antigénica (Chaturvedi et al., 2010). El

papel de estos genes en la evasión inmune (Tiwari, Kannan, Vemu y Raghunand,

2012) y en la variación antigénica se atribuye a las sustituciones, inserciones y

deleciones presentes en los genes que cambian las propiedades de las proteínas que

codifican (Kohli et al., 2012). La gran cantidad de regiones únicas encontradas en

nuestros aislamientos concuerdan con este postulado.

Karboul et al. (2008) evaluaron el papel de la recombinación en los cambios de las

secuencias de los genes de la familia PE/PPE. Los autores concluyeron que la

variabilidad encontrada podría ser un mecanismo de adaptación en respuesta a las

condiciones inmunes del hospedero. En relación con esta idea, los estudios de Talarico

et al. (2008) sobre la variación de la secuencia de tres genes pertenecientes a la familia

PE_PGRS (PE_PGRS16, PE_PGRS26 y PE_PGRS33), encontraron que la variación

en los tres genes fue alta, apoyando la noción de estos genes como antígenos variable

de superficie, que contribuyen a la evasión inmune, por lo tanto la variabilidad de los

genes PPE y PE_PGRS de los genomas utilizados en este estudio, pueden contribuir a

la virulencia de cada aislamiento. Futuras investigaciones se pueden centrar en el

análisis funcional de los genes PPE/PE_PGRS mencionados aquí para comprender el

rol específico que tienen en MTB.

Las regiones únicas intergénicas (Tabla 6) se ubican entre genes que codifican

proteínas de choque térmico, Transferasas, proteínas de la familia PE/PPE, proteínas

de membrana, Peptidasas, Factores de resucitación, Reductasas y proteínas de la

familia ESAT-6. Estas regiones únicas pueden alterar la expresión de los genes (Zheng

et al., 2008) debido a que pueden cambiar la secuencia del promotor y por tanto la

http://www.ncbi.nlm.nih.gov/pubmed?term=Karboul%20A%5BAuthor%5D&cauthor=true&cauthor_uid=18820012

59

frecuencia intrínseca a la cual los genes son transcritos (Lodish et al., 2005). Es

necesario investigar la influencia de estas mutaciones sobre la expresión de los genes

a su alrededor y estudiar los efectos sobre el metabolismo de MTB.

Los distintos hallazgos en la estructura genómica encontrados en este estudio apoyan

los resultados de otros estudios en donde se observa que la tasa de mutación difiere

entre cepas (Ford et al., 2013; Merker et al., 2013) y que la estructura genomas entre

aislamientos es mas variable de lo que se pensaba (Fleischmann et al., 2002).

60

7. CONCLUSIONES

1. Los ensambles de los genomas reconstruidos con la metodología establecida

mostraron tamaños N50 mayor a los registrados en artículos y por tanto es una

metodología eficiente en el ensamble de secuencias de MTB.

2. El ensamble óptimo del genoma de MTB secuenciado con tecnología Illumina

con lecturas pareadas de 105 bases se realiza con tamaños k-mer menores o

iguales a 51 bases y su eficiencia depende de la cobertura y calidad del

secuenciamiento.

3. EL número y localización de las deleciones de la secuencia de inserción IS6110

es particular en cada uno de los 6 genomas y puede ser utilizada como

genotipificación en el seguimiento de la transmisión de estos aislamientos.

4. El gen cyp121 se ha señalado como esencial en el metabolismo de MTB, sin

embargo, la pérdida de esta secuencia en los aislamientos TBR043_1495,

TBR045_1496 y TBR056_1497 es evidencia de que no es un gen vital en MTB.

5. La deleción del operón del sistema TA mazF8 (Rv2274c-Rv2274A) posiblemente

afecte la capacidad de entrar en latencia de los aislamiento TBR043_1495,

TBR045_1496 y TBR056_1497 y puede ser objeto de evaluación en futuros

estudios.

6. El presente estudio identificó regiones únicas de cada aislamiento distribuidas

principalmente en los genes de la familia PPE/PE_PGRS y regiones

intergénicas. La variabilidad de los genes PPE y PE_PGRS concuerda con

evidencias sobre su función en la evasión inmune del hospedero mientras que

las regiones únicas intergénicas pueden servir de base para futuros estudios

61

sobre la expresión de los genes alrededor de esta región y su impacto en el

fenotipo del aislamiento.

7. La metodología llevada a cabo permitió asignar características a cada secuencia

genómica y realizar la comparación entre ellas. De esta forma se encontró que

cada asilamiento presenta deleciones, inserciones y regiones propias en su

secuencia.

62

8. RECOMENDACIONES

El trabajo en las secuencias debe articularse con nuevos programas o actualizaciones

de los programas utilizados en este estudio para generar ensambles de mejor calidad.

Acompañando a esta tarea, el poder computacional debe incrementarse para agilizar el

tratamiento de las secuencias e incrementar la capacidad de datos a ser utilizados.

63

REFERENCIAS

ABACAS. (2013). Algorithm Based Automatic Contiguation of Assembled Sequences.

Recuperado de: http://abacas.sourceforge.net/.

Abadio, A.K; Kioshima, E.S.; Teixeira, M.M.; Martins, N.F.; Maigret, B. & Felipe, M.S.

(2011).Comparative genomics allowed the identification of drug targets against

human fungal pathogens. BMC Genomics, 12 : 75.

Ahmad, S.; Al-Mutairi, N.M. & Mokaddas, E. (2012). Variations in the occurrence of

specific rpoB mutations in rifampicin-resistant Mycobacterium tuberculosisisolates

from patients of different ethnic groups in Kuwait. Indian J Med Res, 135(5), 756-62.

Alonso, H.; Samper, S.; Martín, C. & Otal, I. (2013). Mapping IS6110 in high-copy

number Mycobacterium tuberculosis strains shows specific insertion points in the

Beijing genotype. BMC Genomics, 14:422.

Assefa, S.; Keane, M.T.; Otto, D.T.; Newbold, C. & Berriman, M. (2009). ABACAS:

algorithm-based automatic contiguation of assembled sequences. Bioinformatics,

25 (15), 1968-1969.

Bai, X.; Feldman, N.E.; Chmura, K.; Ovrutsky, A.R.; Su, W.L.; Griffin, L…. Chan, E.D.

(2013). Inhibition of Nuclear Factor-Kappa B Activation Decreases Survival

of Mycobacterium tuberculosis in Human Macrophages. PLoS One, 8 (4), e61925.

Baker, M. (2012). De novo genome assembly: what every biologist should know.

NATURE METHODS, 9 (4), 333-337.

Beggs, M.L; Eisenach, K.D. & Cave, M.D. (2000). Mapping of IS6110 insertion sites in

two epidemic strains of Mycobacterium tuberculosis. J Clin Microbiol, 38 (8), 2923-8.

http://abacas.sourceforge.net/

http://www.ncbi.nlm.nih.gov/pubmed?term=Abadio%20AK%5BAuthor%5D&cauthor=true&cauthor_uid=21272313

http://www.ncbi.nlm.nih.gov/pubmed?term=Bai%20X%5BAuthor%5D&cauthor=true&cauthor_uid=23634218

64

Belin, P.; Le Du, M.H.; Fielding, A.; Lequin, O.; Jacquet, M.; Charbonnier, J.B….

Gondry, M. (2009). Identification and structural basis of the reaction catalyzed by

CYP121, an essential cytochrome P450 inMycobacterium tuberculosis. Proc Natl

Acad Sci U S A, 106 (18), 7426-31.

Betts, J.C.; Dodson, P.; Quan, S.; Lewis, A.P.; Thomas, P.J.; Duncan, K…. McAdam,

R.A. (2000). Comparison of the proteome of Mycobacterium tuberculosis strain

H37Rv with clinical isolate CDC 1551. Microbiology, 146 (12), 3205-16.

Bhatter, P. & Mistry, N. (2013). Fitness of acquired drug resistant Mycobacterium

tuberculosis isolates from DOTS compliant patients. Tuberculosis (Edinb), 93 (4),

418-24.

Björkelid, C.; Bergfors, T.; Raichurkar, A.K.; Mukherjee, K.; Malolanarasimhan,

K.; Bandodkar, B.... Jones, T.A. (2013). Structural and Biochemical Characterization

of Compounds Inhibiting Mycobacterium tuberculosis PanK. J Biol Chem, 288 (25),

18260-70.

Brennan, P.J. (2003). Structure, function, and biogenesis of the cell wall of

Mycobacterium tuberculosis. Tuberculosis (Edinb), 83 (1-3), 91-7.

Brosch, R.; Gordon, S. V.; Marmiesse, M.; Brodin, P.; Buchrieser, C.; Eiglmeier, K….

Cole, S.T. (2002). A new evolutionary scenario for the Mycobacterium

tuberculosis complex. Proc Natl Acad Sci U S A. 99 (6), 3684-9.

Brown, T. A. (2002). Genomes. Understanding a Genome Sequence. Recuperado de:

http://www.ncbi.nlm.nih.gov/books/NBK21136/.

Butt, A.M.; Nasrullah, I.; Tahir, S. & Tong, Y. (2012). Comparative genomics analysis of

Mycobacterium ulcerans for the identification of putative essential genes and

therapeutic candidates. PLoS One, 7 (8), e43080.

http://www.ncbi.nlm.nih.gov/pubmed?term=Belin%20P%5BAuthor%5D&cauthor=true&cauthor_uid=19416919

65

Cascioferro, A.; Daleke, M.H.; Ventura, M.; Donà, V.; Delogu, G.; Palù, G….

Manganelli, R. (2011). Functional dissection of the PE domain responsible

for translocation of PE_PGRS33 across the mycobacterialcell wall. PLoS One, 6 (11),

e27713.

Caws, M.; Thwaites, G.; Dunstan, S.; Hawn, T.R.; Lan, N.T.; Thuong, N.T…. Farrar, J.

(2008). The influence of host and bacterial genotype on the development of

disseminated disease with Mycobacterium tuberculosis. PLoS Pathog, 4 (3),

e1000034.

Chang, Y.; Chen C.C; Chen C.L. & Ho, J. (2012). A de novo next generation genomic

sequence assembler based on string graph and MapReduce cloud computing

framework. BMC Genomics, 13 (Suppl 7): S28.

Chaves, D.; Sandoval, A.; Rodríguez, L.; Garcia, J.C.; Restrepo, S. & Zambrano, M. M.

(2010). Análisis comparativo de seis genomas de Mycobacteriun tuberculosis.

Biomedica, 30 (1), 23-31.

Chakraborty, P.; Kulkarni, S.; Rajan, R. & Sainis, K. (2013). Drug Resistant Clinical

Isolates of Mycobacterium tuberculosis from Different Genotypes Exhibit Differential

Host Responses in THP-1 Cells. PLoS One, 8 (5), e62966.

Chaturvedi, R.; Bansal, K.; Narayana, Y.; Kapoor, N.; Sukumar, N.; Togarsimalemath,

S.K…. Balaji, K.N. (2010). The multifunctional PE_PGRS11 protein

from Mycobacterium tuberculosis plays a role in regulating resistance to oxidative

stress. J Biol Chem, 285 (40), 30389-403.

66

Chen, Y.C.; Liu, T.; Yu, C.H.; Chiang, T.Y. & Hwang, C.C. (2013). Effects of GC bias in

next-generation-sequencing data on de novo genome assembly. PLoS One, 8 (4),

e62856.

Click, E.S.; Moonan, P.K.; Winston, C.A.; Cowan, L.S. & Oeltmann, J.E. (2012).

Relationship between Mycobacterium tuberculosis phylogenetic lineage and clinical s

ite of tuberculosis. Clin Infect Dis, 54 (2), 211-9.

Cole, S.T.; Brosch, R.; Parkhill, J.; Garnier, T.; Churcher, C.; Harris, D.... Barrell, B.G.

(1998). Deciphering the biology of Mycobacterium tuberculosis from the complete

genome sequence. Nature, 393 (6685), 537-44.

Comas, I.; Borrell, S.; Roetzer, A.; Rose, G.; Malla, B.; Kato-Maeda, M…. Gagneux, S.

(2011). Whole-genome sequencing of rifampicin-resistant Mycobacterium

tuberculosis strains identifies compensatory mutations in RNA polymerase genes.

Nat Genet, 44 (1), 106-10.

Coros, A.; DeConno, E. & Derbyshire, K.M. (2008). IS6110, a Mycobacterium

tuberculosis complex-specific insertion sequence, is also present in the genome

ofMycobacterium smegmatis, suggestive of lateral gene transfer among

mycobacterial species. J Bacteriol, 190 (9), 3408-10.

Cubillos-Ruiz, A.; Morales, J. & Zambrano, M. M. (2008). Analysis of the genetic

variation in Mycobacterium tuberculosis strains by multiple genome alignments. BMC

Res Notes, 1, 110.

Cuccu, B.; Freer, G.; Genovesi, A.; Garzelli, C. & Rindi, L. (2011). Identification of a

human immunodominant T-cell epitope of mycobacterium tuberculosis antigen

PPE44. BMC Microbiol, 11, 167.

67

Darling, E.A.; Mau, B. & Perna, T.N. (2010). progressiveMauve: Multiple Genome

Alignment with Gene Gain, Loss, and Rearrangement. PLoS One, 5 (6), e11147.

Das, S.; Roychowdhury, T.; Kumar, P.; Kumar, A.; Kalra, P.; Singh, J…. Bhattacharya,

A. (2013). Genetic heterogeneity revealed by sequence analysis of Mycobacterium

tuberculosis isolates from extra-pulmonary tuberculosis patients. BMC Genomics, 14,

404.

Dohm, J. C.; Lottaz, C.; Borodina, T. & Himmelbauer, H. (2008). Substantial biases in

ultra-short read data sets from high-throughput DNA sequencing. Nucleic Acids Res,

36 (16), e105.

Dominova, I.N.; Sorokin, D.Y.; Kublanov, I.V.; Patrushev, M.V. & Toshchakov, S.V.

(2013). Complete Genome Sequence of Salinarchaeum sp. Strain HArcht-Bsk1T,

Isolated from Hypersaline Lake Baskunchak, Russia. Genome Announc, 1 (4),

e00505-13.

Engström, A.; Zardán Gómez de la Torre, T.; Strømme, M.; Nilsson, M. & Herthnek, D.

(2013). Detection of Rifampicin Resistance in Mycobacterium tuberculosis by

Padlock Probes and Magnetic Nanobead-Based Readout. PLoS One, 8 (4), e62015.

Eren, A.M.; Vineis, J.H.; Morrison, H.G. & Sogin, M.L. (2013). A filtering method to

generate high quality short reads using illumina paired-end technology. PLoS One,

8 (6), e66643.

Fang, Z.; Morrison, N.; Watt, B.; Doig, C. & Forbes, K.J. (1998). IS6110 Transposition

and Evolutionary Scenario of the Direct Repeat Locus in a Group of Closely

Related Mycobacterium tuberculosis Strains. J Bacteriol, 180 (8), 2102–2109.

Feuerriegel, S.; Oberhauser, B.; George, A.G.; Dafae, F.; Richter, E.; Rüsch-Gerdes,

S…. Niemann, S. (2012). Sequence analysis for detection of first-line drug resistance

68

in Mycobacterium tuberculosis strains from a high-incidence setting. BMC

Microbiol, 12:90.

Fleischmann, R.D.; Alland, D.; Eisen, J.A.; Carpenter, L.; White, O.; Peterson J....

Fraser, C.M. (2002). Whole-genome comparison of Mycobacterium tuberculosis

clinical and laboratory strains. J Bacteriol, 184 (19), 5479-90.

Flores, J. & Espitia, C. (2003). Differential expression of PE and PE_PGRS genes

in Mycobacterium tuberculosis strains. Gene. 318, 75-81.

Ford, C.B.; Lin, P.L.; Chase, M.R.; Shah, R.R.; Iartchouk, O.; Halagan, J…. Fortune,

S.M. (2011). Use of whole genome sequencing to estimate the mutation rate of

Mycobacterium tuberculosis during latent infection. Nat Genet, 43 (5), 482-6.

Ford, C.B.; Shah, R.R.; Maeda, M.K.; Gagneux, S.; Murray, M.B.; Cohen, T.... Fortune,

S.M. (2013). Mycobacterium tuberculosis mutation rate estimates from different

lineages predict substantial differences in the emergence of drug-resistant

tuberculosis. Nat Genet, 45 (7), 784-90.

Forrellad, M. A.; Klepp, L. I.; Gioffré, A.; Sabio y García, J.; Morbidoni, H. R.; de la Paz

Santangelo, M…. Bigi, F. (2013). Virulence factors of the Mycobacterium

tuberculosis complex. Virulence, 4 (1), 3-66.

Gagneux, S.; DeRiemer, K.; Van, T.; Kato-Maeda, M.; de Jong, B.C.; Narayanan, S….

Small, P.M. (2006a). Variable host-pathogen compatibility in Mycobacterium

tuberculosis. Proc Natl Acad Sci U S A. 103 (8), 2869-73.

Gagneux, S.; Long, C.D.; Small, P.M.; Van, T.; Schoolnik, G.K. & Bohannan, B.J.

(2006b). The competitive cost of antibiotic resistance in Mycobacterium tuberculosis.

Science, 312 (5782), 1944-6.

http://www.ncbi.nlm.nih.gov/pubmed/?term=Variable+host%E2%80%93pathogen+compatibility+in+Mycobacterium+tuberculosis

69

Gagneux, S. & Small, P. M. (2007). Global phylogeography of Mycobacterium

tuberculosis and implications for tuberculosis product development. Lancet Infect

Dis, 7 (5), 328-37.

GENOME EVOLUTION LABORATORY. (2013). Software. Mauve-Aligment.

Recuperado de: http://asap.ahabs.wisc.edu.

Green, E.; Obi, L. C.; Okoh, A. I.; Nchabeleng, M.; de Villiers, B. E.; Letsoalo, T….

Ndip, R.N. (2013). IS6110 restriction fragment length polymorphism typing of drug-

resistant Mycobacterium tuberculosis strains from northeast South Africa. J Health

Popul Nutr, 31 (1), 1-10.

Hafez, M. & Hausner, G. (2012). Homing endonucleases: DNA scissors on a misión.

Genome, 55 (8), 553-69.

Harismendy, O.; Nq, P.C; Strausberg, R.L.; Wang, X; Stockwell, B.; Beeson, K.Y….

Frazer, K.A. (2009). Evaluation of next generation sequencing platforms for

population targeted sequencing studies. Genome Biol, 10 (3): R32.

Hamilton, J.J. & Reed, J.L. (2012). Identification of functional differences in metabolic

networks using comparative genomics and constraint-based models. PLoS One, 7

(4), e34670.

Hillemann, D.; Rüsch-Gerdes, S. & Richter, E. (2007). Evaluation of the GenoType

MTBDRplus assay for rifampin and isoniazid susceptibility testing of Mycobacterium

tuberculosis strains and clinical specimens. J Clin Microbiol, 45 (8), 2635-40.

Hoffner, S. (2012). Unexpected high levels of multidrug-resistant tuberculosis present

new challenges for tuberculosis control. Recuperado de:

http://dx.doi.org/10.1016/S0140-6736(12)61069-1.

70

Homolka, S.; Projahn, M.; Feuerriegel, S.; Ubben, T.; Diel, R.; Nübel, U…. Niemann, S.

(2012). Discrimination of Clinical Mycobacterium tuberculosis Complex Strains Based

on Single Nucleotide Polymorphisms. PLoS ONE, 7 (7), e39855.

Hormigo Ruiz, M. (2011). ESTUDIO Y EVALUACIÓN DE ALGORITMOS Y

PROGRAMAS DE ENSAMBLAJE DE SECUENCIAS. Andalucía: Universidad

Internacional de Andalucía.

Hu, T.T.; Eisen, M.B.; Thornton, K.R. & Andolfatto, P. (2013). A second-generation

assembly of the Drosophila simulans genome provides new insights into patterns of

lineage-specific divergence. Genome Res, 23 (1), 89-98.

Illumina Sequencing Technology. (2010). Highest data accuracy, simple workflow, and

a broad range of applications. Recuperado de:

http://www.illumina.com/literature.ilmn.

INSTITUTO NACIONAL DE SALUD. (2013). LINEAMIENTOS PARA EL MANEJO

PROGRAMÁTICO DE PACIENTES CON TUBERCULOSIS

FARMACORRESISTENTE. Recuperado de: http://www.ins.gov.co/lineas-de-

accion/Subdireccion-Vigilancia/micobacterias/.

Ioerger, T.R.; Feng, Y.; Ganesula, K.; Chen, X.; Dobos, K.M.; Fortune, S…. Sacchettini,

J.C. (2010). Variation among genome sequences of H37Rv strains of Mycobacterium

tuberculosis from multiple laboratories. J Bacteriol, 192 (14), 3645-53.

Isaza, J.P; Duque ,C.; Gomez, V.; Robledo, J.; Barrera, L.F. & Alzate J.F. (2012).

Whole genome shotgun sequencing of one Colombian clinical isolate of

Mycobacterium tuberculosis reveals DosR regulon gene deletions. FEMS Microbiol

Lett, 330 (2), 113-120.

71

Isin, E.M. & Guengerich, F.P. (2007). Complex reactions catalyzed by cytochrome P450

enzymes. Biochim Biophys Acta, 1770 (3), 314-29.

Ismail, A.; Teh, L.K.; Ngeow, Y.F.; Norazmi, M.N.; Zainul, Z.F.; Tang, T.H…. Salleh,

M.Z. (2013). Draft Genome Sequence of a Clinical Isolate of Mycobacterium

tuberculosis Strain PR05. Genome Announc, 1 (3), e00397-13.

Johnson, M.T.; Carpenter, E.J.; Tian, Z.; Bruskiewich, R.; Burris, J.N.; Carrigan, C.T….

Wong, G.K. (2012). Evaluation Methods for Isolating Total RNA and Predicting the

Success of Sequencing Phylogenetically Diverse Plant Transcriptomes. PLoS One, 7

(11), e50226.

Karboul, A.; Mazza, A.; Gey van Pittius, N.C.; Ho, J.L.; Brousseau, R. & Mardassi, H.

(2008). Frequent homologous recombination events in Mycobacterium

tuberculosis PE/PPE multigene families: potential role in antigenic variability. J

Bacteriol, 190 (23), 7838-46.

Kato-Maeda, M.; Ho, C.; Passarelli, B.; Banaei, N.; Grinsdale, J.; Flores, L…. Hopewell,

P.C. (2013). Use of whole genome sequencing to determine the microevolution

of Mycobacterium tuberculosis during an outbreak. PLoS One, 8 (3), e58235.

Keeble, A.H.; Mate, M.J. & Kleanthous, C. (2005). HNH Endonucleases. Nucleic Acids

Mol Biol, 16, 49–65.

Kelly, R.D.; Schatz, C.M & Salzberg L.S. (2010). Quake: quality-aware detection and

correction of sequencing errors. Genome Biol, 11 (11), R116.

Kohli, S.; Singh, Y.; Khushbu, S.; Mittal, A.; Nasreen, Z.E. & Seyes, E.H. (2012).

Comparative genomic and proteomic analyses of PE/PPE multigene family

ofMycobacterium tuberculosis H37Rv and H37Ra reveal novel and interesting

differences with implications in virulence. Nucleic Acids Res, 40 (15), 7113–7122.

http://www.ncbi.nlm.nih.gov/pubmed/23472164

72

Kong, S.; Liu, X.; Fu, L.; Yu, X. & An, C. (2012). I-PfoP3I: a novel

nicking HNH homing endonuclease encoded in the group I intron of the DNA

polymerase gene in Phormidium foveolarum phage Pf-WMP3. PLoS One, 7 (8),

e43738.

Kurtz, S.; Phillippy, A.; Delcher, L.A.; Smoot, M.; Shumway, M.; Antonescu, C....

Salzberg, L.S. (2004). Versatile and open software for comparing large genomes.

Genome Biol, 5 (2), R12.

Lake, M.W.; Temple, C.A.; Rajagopalan, K.V. & Schindelin, H. (2000). The cristal

structure of the Escherichia coli MobA protein provides insight

into molybdopterin guanine dinucleotide biosynthesis. J Biol Chem, 275 (51), 40211-

7.

Lawn, S.D. & Zumla, A. L. (2011). Tuberculosis Seminar. Lancet, 378 (9785), 57-72.

Lew, J.M.; Kapopoulou, A.; Jones, L.M. & Cole, S.T. (2011). TubercuList--10 years

after. Tuberculosis (Edinb), 91(1), 1-7.

Li, R.; Zhu, H.; Ruan, J.; Qian, W.; Fang, X.; Shi, Z…. Wang, J. (2010). De

novo assembly of human genomes with massively parallel short read sequencing.

Genome Res, 20 (2), 265-72.

Liu, L.; Li, Y.; Li, S.; Hu, N; H , Y.; Pong, Ray…. Law, M. (2012). Comparison of Next-

Generation Sequencing Systems. J Biomed Biotechnol, 2012, 251364.

Liu, T.; Tsai, C.H.; Lee, W.B. & Chiang, J.H. (2013). Optimizing Information in Next-

Generation-Sequencing (NGS) Reads for Improving De Novo Genome Assembly.

PLoS One, 8 (7), e69503.

73

Lodish, H.; Kaiser, A.C.; Berk, A.; Krieger, M.; Matsudaira, P. & Scott, P. M. (2005).

Biología Celular y Molecular. Buenos Aires: Editorial Medica Panamericana.

Lu, B.; Dong, H.Y.; Zhao, X.Q.; Liu, Z.G.; Liu, H.C.; Zhang, Y.Y…. Wan, K.L. (2012). A

new multilocus sequence analysis scheme for Mycobacterium tuberculosis. Biomed

Environ Sci, 25 (6), 620-9.

Ilina, E.N.; Shitikov, E.A.; Ikryannikova, L.N.; Alekseev, D.G.; Kamashev, D.E.;

Malakhova, M.V…. Govorun, V.M. (2013). Comparative genomic analysis

of Mycobacterium tuberculosis drug resistant strains from Russia. PLoS One, 8 (2),

e56577.

Macmanes, M.D. & Eisen, M.B. (2013). Improving transcriptome assembly through error

correction of high-throughput sequence reads. PeerJ, 1, e113.

Marçais, G. & Kingsford, C. (2011). A fast, lock-free approach for efficient parallel

counting of occurrences of k-mers. Bioinformatics, 27 (6), 764-770.

Makadia, J.S.; Jain, A.; Patra, S.K.; Sherwal, B.L. & Khanna, A. (2012). Emerging Trend

of Mutation Profile of rpoB Gene in MDR Tuberculosis, North India. Indian J Clin

Biochem, 27 (4), 370-4.

Mazandu, G.K. & Mulder, N.J. (2012). Function Prediction and Analysis

of Mycobacterium tuberculosis Hypothetical Proteins. Int J Mol Sci, 13 (6), 7283-302.

McEvoy, C.R.; Cloete, R.; Müller, B.; Schürch, A.C.; Van Helden, P.D.; Gaqneux, S....

Gey Van Pittus, N.C. (2012). Comparative analysis of Mycobacterium tuberculosis

pe and ppe genes reveals high sequence variation and an apparent absence of

selective constraints. PLoS One, 7 (4), e30593.

McLean, K.J.; Carroll, P.; Lewis, D.G.; Dunford, A.J.; Seward, H.E.; Neeli, R…. Munro,

A.W. (2008). Characterization of active site structure in CYP121.

http://www.ncbi.nlm.nih.gov/pubmed/22837694

74

A cytochrome P450 essential for viability of Mycobacteriumtuberculosis H37Rv. J Biol

Chem, 283 (48), 33406-16.

Medvedev, P.; Scott, E.; Kakaradov, B. & Pevzner, P. (2011). Error correction of high-

throughput sequencing datasets with non-uniform coverage. Bioinformatics, 27 (13),

i137-41.

Merker, M.; Kohl, T.A.; Roetzer, A.; Truebe, L.; Richter, E.; Rüsch-Gerdes, S....

Niemann, S. (2013). Whole genome sequencing reveals complex evolution patterns

of multidrug-resistant Mycobacterium tuberculosis Beijing strains in patients. PLoS

One, 8 (12), e82551.

Metcalfe, J.Z.; Porco, T.C.; Westenhouse, J.; Damesyn, M.; Facer, M.; Hill, J…. Flood,

J. (2012). Tuberculosis and HIV Co-infection, California, USA, 1993-2008. Emerg

Infect Dis, 19 (3), 400-6.

Miller, J.R.; Koren, S. & Sutton, G. (2010). Assembly algorithms for next-generation

sequencing data. Genomics, 95 (6), 315-27.

Ministerio de protección social. (2009). Plan Estratégico Colombia Libre de

Tuberculosis 2010-2015 Para la Expansión y fortalecimiento de la Estrategia Alto a la

TB. Colombia: OPS/OMS.

Muller, E.E.; Pinel, N.; Gillece, J.D.; Schupp, J.M.; Price, L.B.; Engelthaler, D.M….

Wilmes, P. (2012). Genome sequence of "Candidatus Microthrix parvicella" Bio17-1,

a long-chain-fatty-acid-accumulating filamentous actinobacterium from a biological

wastewater treatment plant. J Bacteriol, 194 (23), 6670-1.

Nabavinia, M.S.; Naderi Nasab, M.; Meshkat, Z.; Derakhshan, M. & Khaje-Karamadini,

M. Construction of an Expression Vector Containing Mtb72F of Mycobacterium

tuberculosis. Cell J, 14 (1), 61-6.

75

Namouchi, A.; Karboul, A.; Fabre, M.; Gutierrez, M.C. & Mardassi, H. (2013).

Evolution of smooth tubercle Bacilli PE and PE_PGRS genes: evidence for a

prominent role of recombination and imprint of positive selection. PLoS One, 8 (5),

e64718.

Niobe-Eyangoh, S.N.; Kuaban, C.; Sorlin, P.; Thonnon, J.; Vincent, V. & Gutierrez,

M.C. (2004). Molecular characteristics of strains of the cameroon family, the major

group of Mycobacterium tuberculosis in acountry with a high prevalence of

tuberculosis. J Clin Microbiol, 42 (11); 5029-35.

Otto, D.T; Dillon, P.G; Degrave, S.W. & Berriman, M. (2011). RATT: Rapid Annotation

Transfer Tool. Nucleic Acids Res, 39 (9), e57.

Paszkiewicz, K. & Studholme, J.D. (2010). De novo assembly of short sequence reads.

Brief Bioinform, 11(5), 457-472.

Pérez-lago, L.; Herranz, M. & Martinez L.M. (2011). Characterization of Microevolution

Events in Mycobacterium tuberculosisStrains Involved in Recent Transmission

Clusters. J Clin Microbiol, 49 (11), 3771–3776.

Puiu, D.; Xu, P.; Alves, J.M; Serrano, M. & Buck, A.G. (2004). SUPERCONTIGS: A

Contig Scaffolding Tool. En D. Puiu, 3rd International IEEE Computer Society

Computational Systems Bioinformatics Conference (pp. 736-737). Washington DC,

USA: IEEE Computer Society Washington.

QUAKE. (2013). Overview. Recuperado de :

http://www.cbcb.umd.edu/software/quake/index.html.

76

Ragheb, M.N.; Ford, C.B.; Chase, M.R.; Lin, P.L.; Flynn, J.L. & Fortune, S.M. (2013).

The mutation rate of mycobacterial repetitive unit loci in strains of

M. tuberculosis from cynomolgus macaque infection. BMC Genomics, 14, 145.

Ramage, H.R.; Connolly, L.E. & Cox, J.S. (2009). Comprehensive functional analysis

of Mycobacterium tuberculosis toxin-antitoxin systems: implications for pathogenesis,

stress responses, and evolution. PLoS Genet, 5 (12), e1000767.

Reyes, A.; Sandoval, A.; Cubillo-Ruiz, A.; Varley, K.V.; Hernandez-Neuta, I.; Samper,

S…. Del portillo, P. (2012). IS-seq: a novel high throughput survey of in vivoIS6110

transposition in multiple Mycobacterium tuberculosis genomes. BMC Genomics, 13,

249.

Reyes, F.; Tirado, Y.; Puig A.; Borrero, R.; Reyes, G.; Fernández, S…. Acosta, A.

(2013). Immunogenicity and cross-reactivity against Mycobacterium tuberculosis of

proteoliposomes derived fromMycobacterium bovis BCG. BMC Immunol, 14 (Suppl

1), S7.

Rodríguez, J.E.; Ramírez, A.S.; Salas, L.P.; Helguera-Repetto, C.; Gonzalez-y-

Merchand, J.; Soto C.Y…. Hernández-Pando, R. (2013). Transcription of Genes

Involved in Sulfolipid and Polyacyltrehalose Biosynthesis of Mycobacterium

tuberculosis in Experimental Latent Tuberculosis Infection. PLoS One, 8 (3), e58378.

Roetzer, A.; Diel, R.; Kohl, T.A.; Rückert, C.; Nübel, U.; Blom, J…. Niemann, S. (2013).

Whole genome sequencing versus traditional genotyping for investigation of

a Mycobacterium tuberculosisoutbreak: a longitudinal molecular epidemiological

study. PLoS Med, 10 (2), e1001387.

Rutherford, K.; Parkhill, J.; Crook, J.; Horsnell, T.; Rice, P.; Rajandream, M.A….

Barrell, B. (2000). Artemis: sequence visualization and annotation. Bioinformatics, 16

(10), 944-5.

77

Salzberg, S.L.; Phillippy, A.M.; Zimin, A.; Puiu, D.; Magoc, T.; Koren, S…. Yorke, J.A.

(2012). GAGE: A critical evaluation of genome assemblies and assembly algorithms.

Genome Res, 22 (3), 557-67.

Sanger Institute. (2013). RATT: Rapid Annotation Transfer Tool. Recuperado de:

http://ratt.sourceforge.net/.

Sankar, S.; Kuppanan, S.; Balakrishnan, B. & Nandagopal, B. (2011). Analysis

of sequence diversity among IS6110 sequence of Mycobacterium tuberculosis:

possible implications for PCR based detection. Bioinformation, 6 (7), 283-5.

Saravanan, M.; Bujnicki, J.M.; Cymerman, I.A.; Rao, D.N. & Nagaraja, V. (2004). Type

II restriction endonuclease R.KpnI is a member of the HNH nuclease superfamily.

Nucleic Acids Res, 32 (20), 6129-35.

Sassetti, C.M.; Boyd, D.H. & Rubin, E.J. (2003). Genes required for mycobacterial

growth defined by high density mutagenesis. Mol Microbiol, 48 (1), 77-84.

Schatz, M.C.; Delcher, A.L. & Salzberg, S.L. (2010). Assembly of large genomes using

second-generation sequencing. Genome Res, 20 (9), 1165-73.

Schatz, M.C.; Witkowski, J. & McCombie, W.R. (2012). Current challenges in de novo

plant genome sequencing and assembly. Genome Biol, 13 (4), 243.

Secretaria Distrital de Salud. (2011). BOLETIN EPIDEMIOLOGICO DISTRITAL DE

TUBERCULOSIS. Bogota: Alcaldía mayor de Bogota.

Sharp, J.D.; Cruz, J.W.; Raman, S.; Inouye, M.; Husson, R.N. & Woychik, N.A.

(2012).Growth and translation inhibition through sequence-specific RNA binding

by Mycoba-cterium tuberculosis VapC toxin. J Biol Chem, 287 (16), 12835-47.

78

Shen, B.W.; Landthaler, M.; Shub, D.A. & Stoddard, B.L. (2004). DNA binding and

cleavage by the HNH homing endonuclease I-HmuI. J Mol Biol, 342 (1), 43-56.

SIVIGILA. (2012). semana 38. Recuperado de: http://www.ins.gov.co.

SOAP. (2013). SOAPdenovo. Recuperado de: http://soap.genomics.org.cn.

Sovic´, I. (2012). Approaches to DNA de novo Assembly. (Tesis Doctoral). Faculty of

Electrical Engineering and Computing: Ruder Boškovic Institute, Zagreb, Croacia.

Sreenu, V.B.; Kumar, P.; Nagaraju, J. & Nagarajam, H.A. (2007). Simple sequence

repeats in mycobacterial genomes. J Biosci, 32 (1), 3-15.

Steenken, W.; Oatway, W.H. & Petroff, S.A. (1934). BIOLOGICAL STUDIES OF THE

TUBERCLE BACILLUS : III. DISSOCIATION AND PATHOGENICITY OF THE R

AND S VARIANTS OF THE HUMAN TUBERCLE BACILLUS (H(37)). J Exp Med, 60

(4), 515-40.

Stoddard, B.L. (2005). Homing endonuclease structure and function. Q Rev Biophys,

38, 49–95.

Subbian, S.; O'Brien, P.; Kushner, N.L.; Yang, G.; Tsenova, L.; Peixoto, B…. Kaplan, G.

(2013). Molecular immunologic correlates of spontaneous latency in a rabbit model of

pulmonary tuberculosis. Cell Commun Signal, 11 (1), 16.

Talarico, S.; Cave, M.D.; Foxman, B.; Marrs, C.F.; Zhang, L.; Bates, J.H….Yang, Z.

(2007). Association of Mycobacterium tuberculosis PE PGRS33 polymorphism with

clinical and epidemiological characteristics. Tuberculosis (Edinb), 87 (4), 338-46.

79

Talarico, S.; Zhang, L.; Marrs, C.F.; Foxman, B.; Cave, M.D.; Brennan, M.J…. Yang, Z.

(2008). Mycobacterium tuberculosis PE_PGRS16 and PE_PGRS26 genetic

polymorphism among clinical isolates. Tuberculosis (Edinb). 88 (4), 283-94.

Tateishi, Y.; Tamaru, A.; Ogura, Y.; Niki, M.; Wada, T.; Yamamot, T…. Matsumoto, S.

(2013). Whole-Genome Sequence of the Potentially Hypertransmissible Multidrug-

Resistant Mycobacterium tuberculosis Beijing Strain OM-V02_005. Genome

Announc, 1 (4), e00608-13.

Tessema, B.; Beer, J.; Merker, M.; Emmrich, F.; Sack, U.; Rodloff, A.C....Niemann, S.

(2013). Molecular epidemiology and transmission dynamics of Mycobacterium

tuberculosis in Northwest Ethiopia: new phylogenetic lineages found in Northwest

Ethiopia. BMC Infect Dis, 13, 131.

Thorisson, G.A.; Muilu, J. & Brookes, A.J. (2009). Genotype-phenotype databases:

challenges and solutions for the post-genomic era. Nat Rev Genet, 10 (1), 9-18.

Tiwari, B.M.; Kannan, N.; Vemu, L. & Raghunand, T.R. (2012). The Mycobacterium

tuberculosis PE proteins Rv0285 and Rv1386 modulate innate immunity and mediate

bacillary survival in macrophages. PLoS One, 7 (12), e51686.

Tsai, I.J.; Otto, T.D. & Berriman, M. (2010). Improving draft assemblies by iterative

mapping and assembly of short reads to eliminate gaps. Genome Biol, 11 (4), R41.

Tsolaki, A.G.; Hirsh, A.E.; DeRiemer, K.; Enciso, J.A.; Wong, M.Z.; Hannan, M…. Small,

P.M. (2004). Functional and evolutionary genomics of Mycobacterium tuberculosis:

insights from genomic deletions in 100 strains. Proc Natl Acad Sci U S A, 101 (14),

4865-70.

Vellarikkal, S.K.; Singh, A.V.; Singh, P.K.; Garg, P.; Katoch, V.M.; Katoch, K.... Scaria,

V. (2013). Draft Genome Sequence of a Multidrug-Resistant Clinical Isolate of

80

Mycobacterium tuberculosis Belonging to a Novel Spoligotype. Genome Announc.

21, 1 (6).

Vezzi, F.; Narzisi, G. & Mishra, B. (2012). Reevaluating Assembly Evaluations with

Feature Response Curves: GAGE and Assemblathons. PLoS One, 7 (12), e52210.

Walker, T.M.; Ip, C.L.; Harrell, R.H.; Evans, J.T.; Kapatai, G.; Dedicoat, M.J…. Peto,

T.E. (2013). Whole-genome sequencing to delineate Mycobacterium

tuberculosis outbreaks: a retrospective observational study. Lancet Infect Dis, 13 (2),

137-46.

Wang, F.; Sambandan, D.; Halder, R.; Wang, J.; Batt, S.M.; Weinrick, B.... Schultz, P.G.

(2013). Identification of a small molecule with activity against drug-resistant and

persistent tuberculosis.Proc Natl Acad Sci U S A. 110 (27), E2510-7.

WHO. (2011). GLOBAL TUBERCULOSIS CONTROL 2011. Recuperado de:

http://whqlibdoc.who.int/publications/2011/9789241564380_eng.pdf

World Health Organization Global. (2012). Tuberculosis Report 2012. Recuperado de:

http://apps.who.int/iris/bitstream/10665/75938/1/9789241564502_eng.pdf.

Yang X.; Dorman, K.S. & Aluru, S. (2010). Reptile: representative tiling

for short read error correction. Bioinformatics. 26 (20), 2526-33.

Yu, Q.; Su, Y.; Lu, B.; Ma, Y.; Zhao, X.; Yang, X…. Wan, K. (2013). Genetic Diversity

of Mycobacterium tuberculosis Isolates from Inner Mongolia, China. PLoS One, 8 (5),

e57660.

Yusufzai, T. & Kadonaga, J.T. (2010). Annealing helicase 2 (AH2), a DNA-rewinding

motor with an HNH motif. Proc Natl Acad Sci U S A, 107 (49), 20970-3.

81

Zakham, F.; Chaoui, I.; Echchaoui, A.H.; Chetioui, F.; Elmessaoudi, M.D.; Ennaji, M.M.;

Abid, M. & Mzibri M.E. (2013). Direct sequencing for rapid detection of multidrug

resistant Mycobacterium tuberculosis strains in Morocco. Infect Drug Resist, 6, 207-

13.

Zhang, W.; Chen, J.; Yang, Y.; Tang, Y.; Shang, J. & Shen, B. (2011). A practical

comparison of de novo genome assembly software tools for next-generation

sequencing technologies. PLoS One, 6 (3), e17915.

Zhang, Y.; Zhang, J.; Hoeflich, K.P.; Ikura, M.; Qing, G. & Inouye, M. (2003). MazF

cleaves cellular mRNAs specifically at ACA to block protein synthesis in Escherichia

coli. Mol Cell. 12 (4), 913-23.

Zhang, Y.J.; Ioerger, T.R.; Huttenhower, C.; Long, J.E.; Sassetti, C.M.; Sacchettini,

J.C…. Rubin, E.J. (2012). Global assessment of genomic regions required for growth

in Mycobacterium tuberculosis. PLoS Pathog. 8 (9), e1002946.

Zheng, H.; Lu, L.; Wang, B.; Pu, S.; Zhang, X.; Zhu, G…. Zhang, Y. (2008).

Genetic basis of virulence attenuation revealed by comparative genomic analysis of

Mycobacterium tuberculosisstrain H37Ra versus H37Rv.PLoS One. 3 (6), e2375.

Mycobacterium tuberculosis CON FÁRMACO RESISTENCIA...

Documents

Transcript of Mycobacterium tuberculosis CON FÁRMACO RESISTENCIA...