Mycobacterium tuberculosis CON FÁRMACO RESISTENCIA...
Transcript of Mycobacterium tuberculosis CON FÁRMACO RESISTENCIA...
ANÁLISIS COMPARATIVO DEL GENOMA DE SEIS AISLAMIENTOS CLÍNICOS DE
Mycobacterium tuberculosis CON FÁRMACO RESISTENCIA MÚLTIPLE.
Tesista
JUAN SEBASTÍAN SOLANO GUTIERREZ
Trabajo de grado presentado como requisito parcial para optar al título de Biólogo
Director Héctor Alejandro Rodríguez Cabal Biol. M.Sc.
Investigador en Formación de la Unidad de Biotecnología Vegetal UNALMed-CIB
Codirector
François Rouzaud PhD. Coordinador de Investigación. Corporación para Investigaciones Biológicas, CIB.
Codirector Gustavo Adolfo Vallejo PhD.
Profesor Titular-Universidad del Tolima.
PROGRAMA DE BIOLOGÍA FACULTAD DE CIENCIAS BÁSICAS
UNIVERSIDAD DEL TOLIMA IBAGUE
2013
2
3
A mi familia, de quienes he recibido amor, apoyo y la fuerza para desarrollar los proyectos de mi vida.
4
AGRADECIMIENTOS
A Alejandro Rodríguez por ser un gran tutor, compañero y guiarme continuamente en mi desarrollo dentro de la investigación. A Diego Villanueva por otorgarme la oportunidad de pertenecer a un excelente grupo de trabajo. A François Rouzaud y Jaime Robledo por prestarme colaboración siempre que la necesite y por permitirme trabajar con ellos. A todas las personas de la CIB, por el trabajo que realizan y que permite el funcionamiento de toda la corporación.
5
ADVERTENCIA “El Programa de biología de la Universidad del Tolima, el director del trabajo de grado, el jurado calificador, no son responsables de los conceptos e ideas expuestas por el autor.” Artículo 16, Acuerdo 032 de 1976 y Artículo 29, acuerdo 064 de 1991, Consejo Académico de la Universidad del Tolima.
6
RESUMEN
Mycobacterium tuberculosis (MTB) es el agente causal de la tuberculosis (TB), una
enfermedad presente en un tercio de la población y cuyo control se ve amenazado por
la co-infección con el virus de inmunodeficiencia humana (VIH) y el surgimiento de
cepas Multidrogo-Resistentes (MDR-TB). Con el fin de aportar información que pueda
tener importancia en el control y seguimiento de la enfermedad, el análisis de
secuencias nucleotídicas es una herramienta que permite la identificación de cambios
en el genoma de distintos aislamientos con el objetivo de realizar una caracterización
completa que pueda aportar información de las propiedades patógenas de MTB y
pueda servir en estudios de transmisión de TB.
En este estudio se realizó el ensamble, anotación y comparación del genoma de seis
aislamientos MDR-TB utilizando herramientas bioinformaticas. Se estableció la
metodología para la corrección, reconstrucción, anotación y alineamiento múltiple de
los seis genomas que permitió encontrar deleciones e inserciones de cada aislamiento
en comparación con el genoma de referencia H37Rv, además, se encontraron las
regiones específicas de cada aislamiento. Deleciones de la secuencia de inserción
IS6110 presentaron número y posición diferente en cada aislamiento y una pérdida de
fragmento de 6.480 pb comprendiendo los genes Rv2271 a Rv2279 fue la deleción
más importante presente en todos los genomas. Las secuencias únicas sumaron un
total de 36 entre todos los genomas y se encontraron distribuidas principalmente en los
genes de la familia PPE y PE_PGRS y en regiones intergénicas.
Palabras clave: Mycobacterium tuberculosis, Ensamble, Alineamiento múltiple,
Genoma.
7
ABSTRAC
Mycobacterium tuberculosis (MTB) is the causative agent of tuberculosis (TB), a
disease present in a third of the population and whose control is threatened by co –
infection with HIV and the emergence of Multidrug resistance strains (MDR-TB). In
order to provide information that can be important in the control and monitoring of the
disease, the analysis of nucleotide sequences is a tool that allows identification of
changes in the genome of other isolates with the aim of realize a complete
characterization who can provide information about MTB pathogenic properties and that
may serve in studies of TB transmission.
In this study was carried out assembly, annotation and comparison of six MDR-TB
isolates using bioinformatics tools. It established the methodology for correction,
reconstruction, annotation and multiple sequence alignment of the six genomes what
allowed to find deletions and insertions of each isolate in comparison to the reference
genome H37Rv. Additional were found the unique regions of each isolate. Deletions of
the insertion sequence IS6110 presented different number and position at each isolation
and a loss of 6.480 bp fragment comprising the Rv2271 to Rv2279 genes was the most
important deletion in all genomes. The unique sequences had a total of 36 and they
were mainly distributed in the PPE and PE_PGRS family genes and intergenic regions.
Keywords: Mycobacterium tuberculosis, assembly, multiple sequence alignment,
Genoma.
8
CONTENIDO
INTRODUCCIÓN Pág.
12 1. PLANTEAMIENTO DEL PROBLEMA 14 1.2 FORMULACIÓN DEL PROBLEMA 14 1.3 JUSTIFICACIÓN 15
2 OBJETIVOS
17
2.1 OBJETIVO GENERAL 17 2.2 OBJETIVOS ESPECÍFICOS 17
3. MARCO REFERENCIAL
18 3.1 ANTECEDENTES 18 3.2 MARCO TEÓRICO 21 3.2.1 Patógeno 21 3.2.2 Situación Epidemiológica 24 3.2.3 Secuencias De Interés 25 3.2.3.1 Elemento De Inserción IS6110 25 3.2.3.2 Familia PE/PPE 26 3.2.4 Ensamble De Novo 27 3.2.5 Contigs y Scaffolds 27 3.2.6 Secuenciamiento De ADN 28 3.2.7 Herramientas Computacionales 29 3.2.7.1 SOAPdenovo 29 3.2.7.2 Quake 30 3.2.7.3 ABACAS 32 3.2.7.4 RATT 32 3.2.7.5 Artemis 33
9
3.2.7.6 Mauve 33 4. METODOLOGÍA
35
4.1 CORRECCIÓN DE LECTURAS 35 4.2 ENSAMBLE DE LECTURAS 36 4.3 ORDENAMIENTO DE SECUENCIAS 37 4.4 ANOTACIÓN 38 4.5 ALINEAMIENTO MÚLTIPLE DE GENOMAS 39 4.6 DISEÑO METODOLÓGICO 39 5. RESULTADOS
40
5.1 CORRECCIÓN DE LECTURAS 40 5.2 ENSAMBLE Y ANOTACIÓN 41 5.3 ALINEAMIENTO MÚLTIPLE 47 6. DISCUSIÓN
51
6.1 CORRECCIÓN DE SECUENCIAS 51 6.2 RECONSTRUCCIÓN DE GENOMAS 52 6.3 ANOTACIÓN 54 6.4 ALINEAMIENTO MÚLTIPLE 57 7. CONCLUSIONES
60
8. RECOMENDACIONES
62
REFERENCIAS
63
10
LISTA DE FIGURAS Figura 1. Representación de la deleción de 3.649 bp de UT205
Pág. 22
Figura 2.Protienas expresadas en respuesta al estrés oxidativo.
23
Figura 3. Distribución geográfica de los seis linajes de MTB.
24
Figura 4. Construcción de contigs y scaffolds.
29
Figura 5. Ensamble por grafos de Bruijn.
31
Figura 6. Proporción de lecturas corregidas y removidas para cada aislamiento después de la corrección.
41
Figura 7. Representación porcentual de la longitud de los gaps para cada cromosoma de los 6 aislamientos.
44
Figura 8. Porcentaje de secuencias que presentaron regiones únicas en todos los genomas.
50
Figura 9. Corrección de errores en Quake.
52
11
LISTA DE TABLAS
Tabla 1. Corrección del secuenciamiento de los 6 aislamientos de MTB.
Pág. 40
Tabla 2. Número final de Contigs y Scaffolds de los 6 ensambles de MTB.
43
Tabla 3. Medidas de los Scaffolds y N50 de los 6 aislamientos de MTB.
43
Tabla 4. Diferencias encontradas entre los aislamientos y el genoma de referencia H37Rv.
46
Tabla 5. Deleciones de las Transposasas del elemento de inserción IS6110 en cada aislamiento.
48
Tabla 6. Regiones únicas en cada aislamiento.
49
12
INTRODUCCIÓN
La tuberculosis (TB), causada por Mycobacteriun tuberculosis (MTB) sigue siendo uno
de los principales problemas de salud pública (Engström, Zardán, Strømme, Nilsson
y Herthnek, 2013) infectando a un tercio de la población mundial y reportando
anualmente alrededor de 8.8 millones de casos nuevos y 1.1 millones de muertes,
según informes de la Organización Mundial de la Salud (OMS) (WHO, 2011).
El enorme impacto que tiene MTB sobre la población mundial se debe en gran parte a
la co-infección con el virus de la inmunodeficiencia humana (VIH) y al desarrollo de
resistencia a medicamentos (Bai et al., 2013). Las cepas Multidrogo-Resistentes (MDR-
TB) son aquellas que presentan resistencia a rifampicina e isoniacida, dos de los
principales medicamentos de primera línea utilizados para el control de la Tuberculosis.
El surgimiento de esta clase de cepas dirige potencialmente a la TB a ser una de las
enfermedades incurables infecciosas más importantes (Comas et al., 2011).
Además de la resistencia a medicamentos y la co-infección con el VIH, MTB ha
desarrollado estrategias que hacen a la tuberculosis difícil de controlar. Por ejemplo, ha
tenido gran éxito al evadir la respuesta inmune del hospedero, permitiéndole sobrevivir
en el interior del fagosoma (Bai et al., 2013) y es capaz de permanecer en el interior de
los tejidos, en un estado de ninguna o muy baja replicación durante la vida de su
hospedero. En un gran número de casos, la tuberculosis aparece como una
reactivación de los bacilos en este estado de latencia (Rodríguez et al., 2013).
En los últimos años, los estudios de epidemiología molecular y la genotipificación de las
cepas de MTB, han basado sus esfuerzos en las técnicas de secuenciamiento de
genomas completos (SGC) (Kato-Maeda et al., 2013). Las tecnologías de
secuenciamiento permiten identificar la dinámica de transmisión del patógeno, la
resistencia a medicamentos, los factores de virulencia y determinar la evolución del
genoma (Roetzer et al., 2013).
13
La completa información genética que otorga el SGC (Roetzer et al., 2013) junto con la
disposición de la secuencia completa del genoma de MTB y de programas para la
búsqueda de similitud entre secuencias, puede incrementar el conocimiento de la
interacción patógeno-hospedero permitiendo la identificación de nuevos blancos de
vacunas (Bai et al., 2013; Reyes et al., 2013) así como una diferenciación entre cepas
que conduzca a reconocer el origen y los patrones de dispersión del patógeno (Ragheb
et al., 2013). El objetivo del presente estudio es realizar la comparación genómica de
seis aislamientos clínicos de Mycobacterium tuberculosis.
14
1. PLANTEAMIENTO DEL PROBLEMA
1.1 FORMULACIÓN DEL PROBLEMA.
Hoy en día, MTB representa un serio problema de salud pública ya que infecta
aproximadamente un tercio de la población mundial y es la causa de 1.1 millones de
muertes anualmente (Björkelid et al., 2013; Subbian et al., 2013). Estudios en
tipificación molecular han revelado que MTB presenta una amplia estructura
poblacional comprendida en un gran número de linajes, los cuales muestran diferencias
en su ocurrencia poblacional y también en sus propiedades patobiológicas (Tessema et
al., 2013).
Bajo las respuestas generadas por el hospedero, MTB es capaz de contrarrestar
mecanismos inmunológicos como la maduración del macrófago y de esta forma puede
sobrevivir en el interior del paciente. Sumado a estos mecanismos, el surgimiento de
cepas MDR-TB y la asociación con el VIH hacen de la TB un de los principales
problemas de salud mundial (Metcalfe et al., 2012; Nabavinia, Naderi Nasab, Meshkat,
Derakhshan y Khaje-Karamadini, 2012).
El control de la enfermedad necesita de investigaciones basadas en tipificación
molecular para el entendimiento de las características de propagación y el
conocimiento de las relaciones entre cepas de MTB (Yu et al., 2013), que junto con una
adecuada comprobación de las mutaciones, aseguren un tratamiento efectivo de la
enfermedad y por extensión, impidan la transmisión de la TB (Ahmad, Al-Mutairi y
Mokaddas, 2012). En este sentido, las tecnologías de secuenciamiento permiten la
búsqueda de contenido genético esencial en la supervivencia y patogenicidad de una
bacteria, puesto que pueden ser obtenidos distintos genomas que pueden ser
comparados y relacionados con un fenotipo determinado (Butt, Nasrullah, Tahir y Tong,
2012; Ilina et al., 2013; Thorisson, Muilu y Brookes, 2009). La disponibilidad de
genomas secuenciados y modelos computacionales han permitido el estudio de la
15
estructura del genoma y la identificación de las diferencias estructurales (Hamilton y
Reed, 2012). Por lo tanto un análisis del genoma de cepas de MTB es totalmente
adecuado para contrarrestar la propagación de la tuberculosis, analizar los
mecanismos de resistencia a medicamentos e identificar los genes esenciales para su
supervivencia (Feuerriegel et al., 2012; Hamilton y Reed, 2012).
1.2 JUSTIFICACIÓN La diversidad del genoma de MTB ha sido demostrada por la evaluación de
polimorfismos en elementos de inserción y unidades repetidas intercaladas.
Congruente con esta diversidad, distintas cepas de MTB muestran diferencia en su
velocidad de crecimiento, virulencia, inmunopatogenicidad y las respuestas inducidas al
hospedero (Chakraborty, Kulkarni, Rajan y Sainis, 2013). Específicamente, las cepas
MDR-TB muestran un fenotipo resistente a Rifanpicina e Izoniacida, producido
principalmente por mutaciones en los genes rpoB, katG y inhA. Estas cepas se
encuentran distribuidas en todo el mundo y representan una amenaza para el control
de la enfermedad (Hoffner, 2012 ; Zakham et al., 2013) ya que se han expandido
ampliamente mostrando distintos perfiles de resistencia relacionados con un grupo
particular de espoligotipo (Vellarikkal et al., 2013; Wang et al., 2013). El análisis de
genomas de cepas resistentes a medicamentos ofrecer un nuevo entendimiento de la
arquitectura del genoma y puede dar entendimientos a sus propiedades fenotípicas
(Vellarikkal et al., 2013).
La genotipificación por medio del secuenciamiento, ha permitido una completa
identificación de genes en distintos patógenos bacterianos (Zhang, Y.J et al., 2012). En
MTB, es un poderoso recurso en la epidemiología molecular y en investigaciones de
transmisión de la TB es apropiada para establecer loci (lugar físico que ocupa un gen
sobre un cromosoma (Lodish et al., 2005) con un alto poder de discriminación entre
cepas de MTB, ayudando a descubrir la fuente de una epidemia o a juzgar la
recurrencia de la enfermedad (Lu et al., 2012).
16
Adicionalmente a las ventajas mencionadas, los datos obtenidos por secuenciamiento
pueden ser utilizados para anotar todas las secuencias de genes utilizando adecuados
métodos computacionales que permitan extraer toda la información de la cadena de
nucleótidos y por lo tanto conocer cambios en la presencia de genes en las cepas
estudiadas (Mazandu y Mulder, 2012). Los cambios son encontrados y analizados
realizando estudios de genómica comparativa, los cuales otorgan una visión biológica
de los genomas al analizar la estructura de la cadena nucleotídica en relación con la
función propuesta para el producto de una secuencia (Hamilton y Reed, 2012), por
ejemplo, al identificar y estudiar genes que pueden afectar la viabilidad de los
organismos patógenos (Abadio et al., 2011).
Reconociendo los aportes generados por el secuenciamiento de genomas; es
necesario adelantar investigaciones de genómica comparativa para encontrar el
contenido de genes esenciales en la supervivencia y patogenicidad de esta bacteria
(Butt et al., 2012), además de desarrollar conocimiento en los factores de transmisión e
identificación de la propagación de cepas que permitan establecer estrategias
apropiadas con el fin de disminuir la incidencia de tuberculosis (Tessema et al., 2013;
Walker et al., 2013).
17
2. OBJETIVOS 2.1 OBJETIVO GENERAL. Analizar comparativamente la organización genómica de 6 aislamientos clínicos de
Mycobacterium tuberculosis.
2.2 OBJETIVOS ESPECÍFICOS.
Reconstrucción de novo de las secuencias genómicas de los 6 aislamientos a
partir de lecturas cortas de secuenciamiento por Illumina.
Anotación del genoma reconstruido a partir del genoma de referencia de la cepa
H37Rv.
Análisis comparativo del genoma de los 6 aislamientos basado en inserciones,
deleciones y secuencias repetidas.
18
3. MARCO REFERENCIAL 3.1 ANTECEDENTES Chavez et al. (2010) utilizaron el programa Mauve para la comparación de secuencias
de M. tuberculosis H37Rv, M. tuberculosis H37Ra, M. tuberculosis CDC1551, M.
tuberculosis F11, M. bovis BCG str. Pasteur 1173P2 y M. bovis AF2122/9. El estudio
reportó que el grado de similitud entre especies del complejo M. tuberculosis (MTC) es
cercano a 99,95%. A pesar de esta similitud, los autores lograron agrupar las especies
del complejo en 2 grupos. Uno conformado por M. tuberculosis H37Rv, M.
tuberculosis H37Ra, M. tuberculosis CDC1551 y M. tuberculosis F11 y el otro formado
por M. bovis BCG str. Pasteur 1173P2 y M. bovis AF2122/9. Para cada una de estas cepas se encontró un número de regiones únicas dentro del
genoma. 9 y 7 para M. tuberculosis H37Rv y H37Ra respectivamente. Un número más
elevado de secuencias únicas fue encontrado en las cepas M. tuberculosis CDC1551
con 21 y M. tuberculosis F11 con 40. En las cepas de M. bovis se presentaron 27
secuencias únicas para M. bovis BCG str, Pasteur 1173P2 y 20 para M. bovis
AF2122/9.
La comparación de estos genomas demostró la similitud entre M. tuberculosis H37Rv y
M. tuberculosis H37Ra, que además cuentan con el número más bajo de regiones
específicas (9 y 7 respectivamente). La anotación de estas regiones únicas demostró
la presencia de elementos de transposición, proteínas de las familias PPE y PE-PGRS
y regiones intergénicas. Las proteínas de las familias PPE y PE-PGRS se han
encontrado en la pared celular de las micobacterias y se han implicado en variación
antigénica y evasión de la respuesta inmune.
Una de las regiones exclusivas para M. tuberculosis CDC1551 contenía el elemento de
inserción IS6110 y una región CRISPR. En M. bovis AF2122 se encuentra una región
exclusiva situada entre los genes SenX3 y RegX3.
19
Cubillos-Ruiz, Morales y Zambrano (2008), alinearon los genomas de las cepas H37Rv,
H37Ra, CDC1551, F11, C y Haarlem utilizando el software MAUVE v1.3. El paquete
islandsanalyser basado en perl fue diseñado para analizar la distribución y frecuencia
de largas secuencias de polimorfismos (LSPs).
Dos categorías principales representaron el 65% del total de genes conteniendo LSPs:
1) elementos móviles como las secuencias de inserción y 2) la familia de genes
PE/PPE que contenían secuencias repetidas. Esto es consistente con la noción de que
estos elementos conducen a la generación de pequeños polimorfismos. Igualmente se
detectaron LSPs en tres genes con función de reguladores transcripcionales (Rv0823c,
Rv0792c y Rv1353c) que pueden ser importantes en el control de la expresión de
genes bajo ciertas condiciones.
Las cepas de laboratorio H37Rv y H37Ra presentaron una menor cantidad de
polimorfismo específicos con respecto a las cepas de aislamientos clínicos. Una
deleción involucrando los genes MT1800, MT1801, mmol14 y una inserción entre
Rv3185 y Rv3188 fue encontrada en la cepa H37Rv, 2 inserciones del elemento
IS6110 fueron presentes en H37Ra, una en el locus ipl y la otra entre los genes
Rv0010c y Rv0011c. Las cepas clínicas contuvieron una mayor cantidad de inserciones
o deleciones (indels); 10 deleciones y 2 inserciones en CDC1551, 12 deleciones y 6
inserciones para Haarlem, F11 presento 6 deleciones y 14 inserciones. Esto indica
que la interacción con los pacientes es importante en la generación y selección de
cambios geonómicos.
La cepa H37Ra careció de deleciones con respeto a la cepa H37Rv, lo que sugiere que
la perdida de virulencia en esta cepa no es debido a la deleción de genes. Además, se
encontró que las deleciones involucrando la familia de genes PE/PPE fueron solo
identificadas en cepas clínicas, resultado consistente con la función atribuida a estos
genes como antígenos variables de superficie.
20
Homolka et al. (2012) estudiaron el genoma de 104 cepas pertenecientes al MTC de
pacientes que vivían en Alemania, revelando una alta diversidad poblacional,
comprendiendo cepas de varios linajes filogenéticos, que comprenden las regiones del
oeste de Africa, Beijing, Ghana y Uganda. La secuencia de los datos reveló la
presencia de 61 polimorfismos de nucleótido simple (SNPs) de los cuales 41 fueron
polimorfismos non-sinónimos y 20 sinónimos. 29 de los 61 SNPs fueron previamente
encontrados como específicos de linajes o genotipos en la colección de referencia
MIRU-VNTRplus (www.MIRU-VNTRplus.org).
Ford et al. (2011) realizaron el secuenciamiento de todo el genoma de MTB para
comparar la acumulación de mutaciones en aislamientos de Macaca fascicularis con
enfermedad activa, latente y reactivada. Secuenciaron 33 aislamientos de MTB
provenientes de 9 macacos. 2 µg de DNA geonómico de cada aislamiento fueron
secuenciados con Illumina. Se realizaron single-read y paired-end reads con una
longitud de 36 o 75 bases. Para el ensamble de novo, la lecturas fueron procesadas
con Elena v2.1.1 con los parámetros por defecto para permitir la detección de
inserciones, deleciones y polimorfismos de nucleótido simple. Cada ensamble fue
analizado por parejas utilizando MUMmer.
Los aislamientos vinculados con enfermedad activa presentaron 4 SNPs en los genes
Rv0585c (C→G), Rv0594 (C→T), Rv2092c (G→T) y RV3732 (A→G) en la posición
682043, 693453, 2350697 y 4183984 respectivamente. Las cepas tomadas de
individuos con enfermedad latente mostraron cambios en los genes Rv0592 (G→C) en
la posición 690264, Rv0876c (T→C) en el nucleótido 975906 y Rv3273 (G→T) en el
nucleótido 3855598.
El estudio realizado por Isaza et al. (2012) contrastando la secuencia del genoma
completo de una cepa (UT205) aislada en Medellín contra el genoma de referencia de
H37Rv, mostró varias regiones nuevas en la cepa estudiada. Se encontraron 8
regiones repetidas IS6110, de las cuales solo 2 tuvieron similitud con las regiones
IS6110 de la cepa de referencia.
21
Los resultados de las deleciones encontradas mostraron la pérdida de 4 genes:
Rv1993c, Rv1994c, Rv1995 y Rv1996. Todos estos genes codifican para proteínas
conservadas excepto Rv1994c el cual es un regulador de proteínas.
El análisis de las regiones codificantes (CDS), las cuales son la parte de los genes que
contienen los codones que codifican para los aminoácidos específicos de un proteína
(Brown, 2002), encontró que 3271 CDS contenían una identidad del 100% con H37Rv.
un numero restante de 430 CDS mostró diferencias en al menos un codón.
Un detallado análisis del regulón DosR, reveló que 8 genes de los 48 que componen
este regulón contenían modificaciones. Las modificaciones involucraban inserciones,
deleciones completas de genes y SNPs. El caso más interesante involucró una
deleción de 3.649 bp, afectando a los genes Rv1992 a Rv1997 (Figura 1). Esta
deleción eliminó los genes Rv1993 a Rv1996.
3.2 MARCO TEÓRICO 3.2.1 Patógeno. El género Mycobacterium está dividido en dos grupos basados en su
tasa de crecimiento. El primer grupo está conformado por las bacterias con baja tasa
de crecimiento como Mycobacterium bovis, Mycobacterium leprae y MTB. El segundo
grupo incluye bacterias con rápido crecimiento como por ejemplo Mycobacterium
smegmatis (Forrellad et al., 2013).
El MTC agrupa las especies MTB, Mycobacterium bovis, Mycobacterium
microti, Mycobacterium africanum, Mycobacterium pinnipedii y Mycobacterium caprae.
micobacterias que comparten un 99% de similitud en la secuencias génicas. A pesar de
esta alta homología en la secuencias de ácidos nucleícos, los miembros de este
complejo presentan características fenotípicas y patogénicas diferentes entre cada
especies (Brosch et al., 2002; Namouchi, Karboul, Fabre, Gutierrez y Mardassi, 2013).
22
Figura 1. Representación de la deleción de 3.649 bp de UT205. Los genes Rv1993c, Rv1994c, Rv1995 y Rv1996 son perdidos.
Fuente. Isaza, 2012. MTB es un patógeno intracelular que infecta principalmente al hombre. Es un bacilo
aeróbico que no forma esporas ni presenta cápsula. Su división se realiza cada 15 a 20
horas y presenta la capacidad de permanecer dentro del hospedero en forma latente
(Lawn y Zumla, 2011) y evadir el estrés oxidativo producido por las células del
hospedero que buscan destruir las células patógenas (Forrellad et al., 2013) (Figura 2).
MTB está constituido por una pared celular con muy baja permeabilidad y una
estructura compleja, compuesta por ácidos micólicos, peptidoglicano y galactofurano
(Brennan, 2003).
La cepa H37Rv derivada de H37 es una de las cepas de laboratorio mejor
caracterizadas (Steenken, Oatway y Petroff, 1934). Su genoma, fue publicado en 1998
(Cole et al., 1998)permitiendo identificar secuencias repetidas, elementos de inserción
y 4066 genes que codifican familias de proteínas involucradas en la biosíntesis de
ácidos grasos y policétidos, regulación, bombas de flujo para medicamentos (Ioerger et
al., 2010) y las familias de genes PE/PPE, genes propios del MTC (McEvoy et al.,
2012). El genoma de MTB tiene un alto contenido GC (Sreenu, Kumar, Nagaraju y
Nagarajam, 2007) que hace difícil su manejo a la hora de secuenciar y ensamblar,
dando como resultado genomas mas fragmentados (Chen, Liu, Yu, Chiang y Hwang,
2013).
23
Figura 2.Protienas expresadas en respuesta al estrés oxidativo. Las proteínas que rodean la micobacteria (KatG, PonA2, AhpC, etc) sirven de defensa contra las especies reactivas de oxigeno y especies reactivas de nitrógeno.
Fuente. Forrellad, 2012. MTB se encuentra subdivido en siete linajes que están fuertemente vinculados a una
zona geográfica específica. Los linajes son conocidos como Linaje Indo-Oceánico,
Linaje Este de Asia, Linaje Este de África, Linaje Euro-América, Linaje África occidental
1 y Linaje Arica occidental 2 (Gagneux y Small, 2007) (Figura 3).Los linajes muestran
distintos desarrollos de la enfermedad, por ejemplo Click, Moonan, Winston, Cowan y
Oeltmann (2012) encontraron que los linajes Indo-Oceánico y Este de África provocan
TB extra pulmonar.
La infección pulmonar por MTB produce tos crónica, pérdida de peso, producción de
esputo, fiebre y hemoptisis (Lawn y Zumla, 2011). La TB puede desarrollarse de forma
extra pulmonar afectando cualquier órgano. Su ocurrencia depende del estado inmune
del paciente, genotipo de la cepa, edad y raza del paciente, produciéndose entre 10 y
42% del total de pacientes (Caws et al., 2008).
24
3.2.2 Situación Epidemiológica. La Tuberculosis representa un importante problema de
salud global. Es la causa de muerte de cerca de un millón de personas cada año y es la
segunda causa de muerte por una enfermedad infecciosa después del VIH. En 2011
hubo un estimado de 12 millones de casos de prevalencia, equivalentes a 170 casos
por cada 100 000 habitantes. La mortalidad tuvo un aproximado de 1,4 millones de
personas dentro de las cuales 0.5 millones fueron mujeres (World Health Organization,
2012).
En Colombia, durante el año 2008 se notificaron 11.342 casos nuevos, para una
incidencia de 25,6 casos por 100.000 habitantes, de los cuales 6.815 (60,08%)
ocurrieron en hombres y 4.527 en mujeres (39,91%) (Ministerio de protección social,
2009).En el 2012, el Sistema Nacional de Vigilancia en Salud Pública-SIVIGILA,
informo de 7053 casos de tuberculosis registrados hasta la semana 38 (SIVIGILA,
2012).
Figura 3. Distribución geográfica de los seis linajes de MTB. Cada punto representa un país y su color indica que linaje es predominante en esta zona.
Fuente. Gagneux, 2006a.
25
La Secretaria Distrital de Salud (2011) reporto 523 casos confirmados de Tuberculosis
en Bogotá. De los 523 casos, el 61.4% (321) fueron pulmonares, 29.8% (156) extra
pulmonares y 8.8% (46) fueron diagnosticados como TB meníngea. Se notificaron 32
casos de TB asociados a mortalidad, de los cuales el 62.5% (20) correspondieron a
casos pulmonares, el 25% (8) a extra pulmonares y el 12.5% (4) a casos meníngeos.
El análisis de la incidencia de MDR TB en Colombia muestra un incremento del 55,8%
desde el año 2001 (43 casos MDR) al 2009 (120 casos MDR), comportamiento que
obedece a factores como el aumento en el uso del cultivo, dinámica de transmisión de
la enfermedad y poco abordaje de las principales causas generadoras de resistencia a
fármacos en este periodo (INSTITUTO NACIONAL DE SALUD, 2013).
3.2.3 Secuencias De Interés 3.2.3.1 Elemento De Inserción IS6110. Los elementos de inserción IS6110 son una
importante fuente de variabilidad genómica en MTB y están distribuidos en diferentes
posiciones a través del cromosoma bacteriano. El número de copias de estos
elementos son altamente variables, aunque la mayoría de las cepas contienen entre 10
y 20 copias y en algunos casos se han identificado cepas sin regiones IS6110 (Fang,
Morrison, Watt, Doig y Forbes, 1998).
Ha sido demostrado que la transposición de IS6110 puede ser estimulada por
condiciones de estrés específicas y de esta forma contribuir a la diversidad genética.
Las inserciones IS6110 pueden afectar la expresión de genes por mediación de
eventos de recombinación que resultan en deleciones e inversiones (Reyes, A. et al.,
2012).
IS6110 ha sido utilizado como un marcador genotípico en estudios epidemiológicos. La
aplicación de RFLP sobre IS6110 en MTB ha permitido el refinamiento de la
identificación de eventos de transmisión; aislaciones de MTB involucradas en cadenas
26
de transmisión han mostrado patrones idénticos y por lo tanto constituyen un cluster
definido (Pérez-lago, Herranz y Martinez, 2011).
3.2.3.2 Familia PE/PPE. El secuenciamiento completo del genoma de MTB reveló la
existencia de la familia de genes PE/PPE, encontrada únicamente en el género
Mycobacterium. Estos genes son llamados de esta forma debido a la presencia de
señales Pro-Glu (PE) y Pro-Pro-Glu (PPE) cerca al N-terminal de su producto génico.
Esta familia de genes codifica para 107 proteínas PE y 69 PPE. La familia PE ha sido
además clasificada en dos grupos: PE y PE_PGRS. PE_PGRS tiene un dominio C-
terminal variable en tamaño y secuencia (McEvoy et al., 2012).
Los genes de la familia PE/PPE codifican para proteínas con un rango de tamaño
variable, desde péptidos pequeños como el producido por la expresión del gen
Rv3018A de 28 aminoácidos a péptidos grande como el codificado por Rv0151 de 588
amino ácidos. Son altamente polimórficos dentro del MTC e incluso dentro de
diferentes cepas de la misma especie. La mayor cantidad de los productos proteicos de
estos genes son encontrados en la superficie celular, siendo reportados como
antígenos. Juegan un rol en la regulación de patogénesis, virulencia, en la modulación
a la respuesta inmune del hospedero y en la variación de antígenos, posiblemente
debido al alto número de SNPs (Kohli et al., 2012).
Varios estudios han revelado grados de variación PE/PPE entre aislamientos clínicos
de MTB. Talarico et al. (2007) identificaron la variación genética en el gene PE-
PGRS33 de 649 aislamientos clínicos en comparación con la cepa de laboratorio
H37Rv, encontrando que 139 de estos aislamientos estudiados poseían alelos que
podían resultar en un significante cambio en la proteína, debido a las largas inserciones
y deleciones.
Comparaciones de algunos de los genes de la familia PE-PGRS (Rv0278c, Rv0279c,
Rv0746, Rv0747 y Rv1087) entres las cepas H37Rv y CDC1551 revelaron que las
regiones repetidas de los dominios PGRS son propensos a inserciones y deleciones
27
(Betts et al., 2000). Además, aislamientos clínicos de MTB exhiben variaciones en
polimorfismo de fragmentos de restricción en sus genes PE-PGRS, por lo tanto se ha
especulado que los dominios PGRS tienen un rol funcional en la generación de
diversidad antigénica para evitar el reconocimiento del hospedero (Flores y Espitia,
2003).
Cascioferro et al. (2011). Caracterizaron el dominio PE de PE-PGRS33. los autores
construyeron varias proteínas mutadas en las cuales el dominio PE fue sujeto a
deleciones o a mutaciones, confirmando que el dominio PE es esencial para establecer
la localización de PE-PGERS33 en la superficie celular y demostrando que un dominio
PE carente de sus primeros 30 aminoácidos pierde su función.
3.2.4 Ensamble De Novo. Consiste en el ensamble de lecturas dentro de largas
secuencias contiguas llamadas contigs, seguido por el proceso del ordenamiento
correcto de los contigs dentro de scaffolds (Sovic´, 2012). El ensamble de novo es un
paso fundamental en el análisis de genomas secuenciados sin una secuencia guía
(Chang, Chen, Chen y Ho, 2012). Los programas para el ensamble de novo deben lidiar con errores de secuenciamiento,
estructuras de repetición y la complejidad computacional de procesar largos volúmenes
de datos; es así como hay una urgente necesidad de ensambladores que manejen
eficientemente gran cantidad de datos de secuenciamiento (Chang et al., 2012).
Actualmente se han desarrollado nuevas técnicas pertenecientes a distintos grupos de
herramientas que apuntan a resolver el problema del ensamble de novo. Tales
herramientas son basadas sobre la asunción que si dos lecturas comparten una
longitud de secuencia, entonces ellas probablemente pertenecen a la misma
localización en el genoma (Vezzi, Narzisi y Mishra, 2012).
3.2.5 Contigs y Scaffolds. Un contig es un conjunto de lecturas que se sobrelapan en
sus extremos, de tal manera que puedan formar largas secuencias contiguas para
28
generar una secuencia consenso (Paszkiewicz y Studholme, 2010; Puiu, Xu, Alves,
Serrano y Buck, 2004) (Figura 4).
Un scaffolds es un ensamble de contigs. Este ensamble se realiza al analizar la
similitud entre los extremos de dos contigs utilizando las lecturas pareadas (Figura 4).
3.2.6 Secuenciamiento De ADN. Las tecnologías de secuenciamiento de ADN, han
ayudado a los biólogos proporcionando una amplia gama de aplicaciones, tal como
estudios de la patogenicidad de genes, estudios comparativos y estudios evolutivos. La
tecnología de secuenciamiento ideal debe ser rápida, precisa, fácil de operar y barata
(Liu et al., 2012). En los pasados veinte años, las tecnologías de secuenciamiento han sufrido un
tremendo desarrollo y han actuado como el motor de la era genómica, la cual es
caracterizada por una vasta cantidad de datos y subsecuentemente un amplio rango de
áreas de investigación (Liu et al., 2012).
La primera tecnología de secuenciamiento introducida fue el método Sanger usando
electroforesis de capilaridad. Esta tecnología ha sido aplicada en importantes proyectos
de secuenciamiento y es considera muy valiosa por la longitud y precisión de las
lecturas. Después de esta tecnología han emergido las tecnologías de secuenciamiento
de segunda generación (NGS, por sus siglas en ingles). Dentro de este grupo
encontramos Roche 454, Illumina GA y ABI SOLID, las cuales generan un número de
lecturas de 3 a 4 órdenes de magnitud más que las producidas por Sanger. Hoy en día
estas tecnologías han sido aplicadas exitosamente a la identificación del sitio de unión
de proteínas asociadas al DNA y secuenciamiento de RNA para el estudio de
transcriptomas (Harismendy et al., 2009).
29
Figura 4. Construcción de contigs y scaffolds. a) las lecturas son ensambladas en contigs y b) éstos a su vez son ensambladas en scaffolds.
Fuente: Johnson et al. (2012). 3.2.7 Herramientas Computacionales 3.2.7.1 SOAPdenovo. Es un método para el ensamble de lecturas cortas que puede
construir un ensamble de novo para genomas eucariotas. El programa es
especialmente diseñado para ensamblar las lecturas cortas de Illumina. Crea nuevas
oportunidades para construir secuencias de referencia y llevar a cabo análisis precisos
de genomas inexplorados en un modo rentable. SOAPdenovo está enfocado a largos
genomas de plantas y animales pero también trabaja sobre genomas de bacterias y
hongos. Está diseñado para correr sobre sistemas Linux y MAC OS con una memoria
mínima de 5G. Para grandes genomas como humanos 150 GB de memoria pueden ser
requeridas (SOAP, 2013). Li et al. (2010) publicaron el programa. Durante la investigación los autores
secuenciaron 200 Gb de lecturas de Illumina para individuos asiáticos. La longitud de
las lecturas estaba entre 35 y 75 bp y el tamaño inserto de las librerías paired-end fue
de 140 bp, 440 bp, 2,6 kb, 6 kb y 9,6 kb. La estructura de grafos de Bruijn (Figura 5) fue
a) Ensamble de contigs
b) Ensamble de scaffolds
30
usada para representar el sobrelapamiento entre los fragmentos. Un ensamble de
individuos africanos se realizó siguiendo los mismos parámetros que los utilizados en el
genoma asiático. Posteriormente una comparación con genomas de referencia fue
realizada.
Adoptando tamaños inserto de paired –ends entre 140 y 449 bp el N50 de los scaffolds
construidos fue de 17.3 kb. Adicionando tamaños insertos de 2.6 kb el N50 fue
mejorado a 103.5 kb. Posteriormente adicionando librerías de inserto de 6 y 9.6-kb el
N50 alcanzo 446.3 kb.
Se encontraron 3.516 y 3.339 inserciones en contigs en los genomas asiáticos y
africanos al compararlos a las referencias del NCBI. Solo trece casos fueron
potencialmente errores de ensamble, mientras los otros fueron inserciones verdaderas.
El ensamble de novo permitió la identificación de pequeñas deleciones e inserciones y
tiene la ventaja de resolver variaciones estructurales a nivel de base.
3.2.7.2 Quake. Quake es un paquete de corrección de errores de sustitución en
lecturas producidas por proyectos de secuenciamiento con una cobertura mayor a 15x.
Quake adopta el marco de corrección de errores de k-mer introducido por el
ensamblador EULER, pero a diferencia de este programa y de otros similares, Quake
utiliza un robusto modelo de distribuciones erróneas y genuinas de k-mer para
determinar donde los errores son localizados. Posteriormente Quake usa los valores de
calidad de las lecturas y busca las tasas de error nucleótido a nucleótido para
determinar qué tipo de error son más frecuentes (QUAKE, 2013).
31
Figura 5. Ensamble por grafos de Bruijn. a) dos lecturas tienen un solapamiento de 4 bases. b) las lecturas son subdivididas en longitudes más cortas que representan los nodos del grafo. c) el solapamiento entre nodos reconstruye la secuencia original.
Fuente. Miller, Koren y Sutton (2010). Quake incluye un sofisticado modelo de errores de secuenciamiento que permite
examinar conjuntos de correcciones en orden de probabilidad decreciente y de esta
forma corregir la lectura más precisamente. El modelo también ayuda a mejorar la
identificación de lecturas con múltiples correcciones del mismo valor, lo cual permite al
sistema evitar errores de corrección y crea una lectura quimérica (Kelly, Schatz y
Salzberg, 2010).
La corrección de lecturas con Quake mejora la producción de los ensambles. Se
producen largos y precisos contigs y scaffolds usando los ensambladores Velvet y
SOAPdenovo. Las mejoras se producen debido a que la corrección de errores remueve
muchos de los pasos en un grafo y ayuda al ensamblador a detectar sobrelapamientos
de lecturas que pudieron haber sido omitidos. Por otra parte la eliminación de k-mers
erróneos reduce el tamaños del grafo, lo que para genomas largos puede ser la
diferencia entre ser capaz o no, de guardar el ensamble en la memoria de un
computador (Kelly et al., 2010).
32
3.2.7.3 ABACAS. ABACAS es un programa destinado al alineamiento, ordenamiento,
orientación, visualización y diseño de primers para cerrar gaps sobre contigs
ensamblados, basado en una secuencia de referencia. Algunas de las características
de ABACAS incluyen mostrar sobrelapamiento de contigs, visualización de regiones
repetidas, consideración de la calidad de las bases de los contigs para el diseño de
cebadores y permite al usuario reordenar contigs (Assefa, Keane, Otto, Newbold y
Berriman, 2009).
ABACAS utiliza MUMmer para encontrar posiciones de alineamientos e identificar la
localización de loci de contigs ensamblados contra el genoma de referencia. El
resultado es entonces procesado para generar una pseudo molécula tomando en
cuenta el sobrelapamiento de contigs y espacios vacíos (ABACAS, 2013).
3.2.7.4 RATT. Es un programa para transferir anotaciones desde un genoma de
referencia (anotado) a un genoma ensamblado pero no anotado (Sanger Institute,
2013).
Fue el primero en desarrollarse para transferir anotaciones entre diferentes versiones
de un genoma ensamblado. Sin embargo, también puede transferir anotaciones entre
cepas e incluso entre diferentes especies (Sanger Institute, 2013).
El programa inicia comparando dos secuencias utilizando “nucmer” del programa
MUMmer para definir regiones que comparten la misma localización en el cromosoma.
Para realizar una asociación entre regiones de los cromosomas el porcentaje de
identidad es de 40%. Esta información es almacenada como bloques de secuencias de
bases en el cromosoma estudiado y su rango de secuencia asociado en el genoma de
referencia (Otto, Dillon, Degrave y Berriman, 2011)
Una vez las coordenadas dentro de las regiones similares han sido definidas, RATT
procede al paso de asignación de anotación, por el cual cada característica dentro del
33
archivo de referencia es asociada con una secuencia en el genoma que recibe la
transferencia (Otto et al., 2011).
3.2.7.5 Artemis. Es una herramienta de visualización de secuencias escrita en lenguaje
Java. Artemis puede correr sobre el sistema operativo Unix y ser usado en la
visualización de secuencias anotadas en formato EMBL (Rutherford et al., 2000).
El programa esta específicamente diseñado para la evaluación de anotaciones. De este
modo, cualquier resultado generado por un programa ajeno a Artemis puede ser
transformado a un formato que pueda leer Artemis y entonces ser cargado como
característica de la secuencia visualizada. Programas externos como BLAST pueden
ser corridos sobre secuencias específicas y lo resultados obtenidos ser visualizados en
la pantalla principal del programa (Rutherford et al., 2000).
Las propiedades de genomas, como el contenido G+C y los marcos de lectura, pueden
ser representados en cada secuencias evaluada. Además de mostrar estas
características, el programa contiene dos ventanas en las cuales se muestra la
secuencia de nucleótidos a escalas diferentes de ampliación (Rutherford et al., 2000).
3.2.7.6 Mauve. Mauve es un sistema para la construcción de un alineamiento múltiple
de genomas en la presencia de eventos evolutivos como reordenamientos e
inversiones. Mauve se diseñado con la idea de que pueda ser utilizado con recursos
computacionales modestos (GENOME EVOLUTION LABORATORY, 2013).
Mauve realiza un alineamiento en anclaje para alinear rápidamente genomas. Con el fin
de encontrar las coincidencias en la cadena de nucleótidos, Mauve utiliza un método de
extensión de semilla, donde cada semilla se ajusta de acuerdo a un patrón de
coincidencias de nucleótidos. La búsqueda de similitud en múltiples secuencias se
realiza bajo la restricción de que una semilla debe ser única en cada genoma. La
mínima longitud de coincidencia es establecida por el usuario (GENOME EVOLUTION
LABORATORY, 2013). A diferencia de otros métodos de alineamientos, Mauve permite
34
el reordenamiento de los alineamientos en cada genoma, lo que ayuda a identificar
eventos evolutivos (GENOME EVOLUTION LABORATORY, 2013).
35
4. METODOLOGÍA
El ensamble y el alineamiento múltiple se realizó sobre el genoma de 6 aislamientos
clínicos de Mycobacterium tuberculosis multidrogoresistentes (TBR019_1492,
TBR030_1493, TBR038_1494, TBR043_1495, TBR045_1496, TBR056_1497) tomados
en el departamento de Antioquia y secuenciados con Illumina (Illumina Sequencing
Technology, 2010) con lecturas pareadas de 105 pares de bases y separadas por una
longitud de 400 pares de bases. Los aislamientos fueron tomados por esputo
(TBR019_1492 y TBR043_1495), pus pulmón (TBR030_1493), líquido cefalorraquídeo
(TBR038_1494), vértebra (TBR045_1496) y lavado bronquial (TBR056_1497). Los
programas se corrieron sobre un sistema operativo Ubuntu 12.04.
4.1 CORRECCIÓN DE LECTURAS
El programa Quake inicia la corrección de las secuencias contando el número de veces
que un k-mer se repite en las lecturas que lo contengan. De acuerdo a este número, el
programa crea un valor de distribución para k-mers erróneos y verdaderos utilizando
los modelos de distribución Zeta y Gaussian. Posteriormente, el programa localiza los
sitios donde se produjeron los errores de secuenciamiento para cada lectura, si una
lectura posee k-mer erróneos, ésta lectura es sujeta a corrección. Para cada lectura
con errores de secuenciamiento el programa busca la corrección adecuada en base a
valores de probabilidad utilizando una estructura de datos heap (Kelly et al., 2010).
Las lecturas se corrigieron con el programa Quake versión 0.3.4 (Kelly et al.,
2010).descargado en la página: www.cbcb.umd.edu/software/quake/. La instalación del
programa requirió digitar el comando >make dentro de la carpeta descargada. La
corrección se realizó utilizando los parámetros por defecto y un tamaño k-mer de 17.
Para la ejecución de la corrección, se creó un archivo en formato texto que presentó el
nombre de los archivos que contienen las lecturas pareadas.
36
La línea de comandos utilizada tuvo la siguiente secuencia: quake.py -f quake_list.txt -k
17 -p 4. La opción -f indica al programa cual es el archivo que contiene la lista de los
archivos de las lecturas, -k es el tamaño de k-mer para realizar la corrección y -p es el
número de veces que se realizó la búsqueda de errores (por defecto 4).
La ejecución del Quake necesito de la instalación del programa Jellyfish (Marçais
y Kingsford, 2011) descargado de la página www.cbcb.umd.edu/software/jellyfish/. La
instalación se realizo con los comandos ./configure, >make y >makefile dentro de la
carpeta conteniendo los archivos del Jellyfish.
4.2 ENSAMBLE DE LECTURAS Las lecturas corregidas por el Quake se ensamblaron con el programa SOAPdenovo (Li
et al., 2010) versión 1.05 disponible en la página: http://soap.genomics.org.cn/. La
creación del archivo de configuración para realizar el ensamble se estableció siguiendo
las instrucciones presentes en el archivo de descarga. La opción rd_len_cutoff se
modificó a 100pb mientras que los parámetros restantes fueron corridos por defecto. El
ensamble se realizó utilizando tamaños k-mer desde 27 en adelante.
Las instrucciones nohup SOAPdenovo-31mer all -k 31 -s -R -o & fueron utilizadas para
correr el ensamble en todos los aislamientos. SOAPdenovo-31mer es el ejecutable
para realizar el ensamble, después de utilizar un k-mer mayor a 31 se corrió el
ensamble con SOAPdenovo-63mer, el cual soporta hasta un tamaño k-mer de 63. La
opción -K indicó el tamaño del k-mer, en este caso es un ejemplo para realizar el
ensamble con un tamaño de 31. La opción -s se utilizo para indicar al programa el
nombre del archivo de configuración. -R es una opción para utilizar las lecturas para
resolver pequeñas repeticiones. Por último, -o indicó el nombre de la carpeta en donde
se guardaron los resultados y el nombre con el que quisimos quedaran guardados los
archivos del ensamble; los resultados fueron nombrados con el mismo nombre del
aislamiento.
37
Los ensambles resultantes fueron evaluados según el número de scaffolds y contigs, la
longitud media de los scaffolds y el N50. Se escogieron los ensambles con el menor
número de contigs y scaffolds y con la longitud media y N50 más altos.
Una vez elegido el mejor ensamble, se procedió a utilizar el software GapCloser
(SOAP, 2013) sobre los archivos finales del ensamble para rellenar gaps dentro de
cada scaffold.
4.3 ORDENAMIENTO DE SECUENCIAS El ordenamiento y orientación de los contigs y scaffolds para obtener una única
secuencia, se realizó con el programa ABACAS (Assefa et al., 2009) versión 1.3.1
disponible en la dirección: abacas.sourceforge.net/. El ordenamiento se realizó sobre
los 6 aislamientos utilizando los parámetros por defecto que otorga el programa. La
secuencia de referencia utilizada para el alineamiento fue el genoma de la cepa H37Rv
disponible en el GenBank con número de accesión NC_000962.3.
La línea de comandos para la ejecución del programa tuvo el siguiente orden: perl
abacas.1.3.1.pl –r h37rv.fasta –q -p nucmer -o. -r h37rv.fasta es el archivo que contiene
la secuencia de referencia en formato fasta, -q indica el archivo que contiene las
secuencias a ser ordenada, -p indica que tipo de programa se utilizo para el
alineamiento de las secuencias, en este estudio utilizamos “nucmer”, un programa del
paquete MUMmer (Kurtz et al., 2004) que permite el alineamiento de nucleótidos. Por
último, –o indica el nombre con el que se guardo la secuencia ordenada; los resultados
fueron nombrados con el mismo nombre del aislamiento estudiado.
MUMmer fue descargado de la dirección mummer.sourceforge.net/. Una vez
descargado el archivo se descomprimió con el comando tar xvzf MUMmer3.23.tar.gz y
su instalación se realizó al escribir make check y make install en la carpeta de
descargada de MUMmer.
38
4.4 ANOTACIÓN
La anotación de las secuencias se llevó a cabo con el programa RATT (Otto et al.,
2011), descargado de la página http://ratt.sourceforge.net/. Se corrió el programa con
los parámetros por defecto y utilizando como secuencia objetivo el archivo producido
por el ABACAS y como secuencia de referencia la cepa anotada de MTB H37Rv con
número de acceso NC_000962.3 en el GenBank. EL archivo descargado de H37Rv fue
transformado a formato embl utilizando el visualizador Artemis (Rutherford et al., 2000)
para que pudiera ser usado en la transferencia de anotaciones.
La línea de comandos utilizada para la anotación fue start.ratt.sh ./embl 1492_ord.fasta
anotación Strain . start.ratt.sh es el programa que realiza la transferencia de
anotaciones, /embl señala la carpeta donde se encuentra el genoma de referencia,
1492_ord.fasta es el archivo resultado del ABACAS y que contiene la secuencia
objetivo, anotación es el nombre que llevó los resultados de la anotación, por último,
Strain es la opción que se utiliza cuando se va a transferir anotaciones entre cepas.
La inspección de la anotación se hizo con el software Artemis. Para cada aislamiento
se cargó el archivo con extensión .final.embl el cual contiene la secuencia anotada y el
archivo NOTTransfered.embl que indica los genes que no fueron transferidos al
genoma reconstruido debido a deleciones o por presentar muy baja similitud. Se
consideró la deleción de un gen cuando los genes flanqueando la deleción se
encontraban presentes y entre ellos no se presentaban gaps.
Las inserciones fueron buscadas con el archivo con extensión .Mutations.gff el cual da
información sobre las regiones que pueden considerarse inserciones. Para verificar la
existencia de estas inserciones, se realizó un alineamiento de cada región (inserción)
con el genoma de H37Rv utilizando el programa blastn del paquete BLAST del NCBI
corriendo las opciones por defecto.
40
5. RESULTADOS
5.1 CORRECCIÓN DE LECTURAS
Los resultados de la corrección de los 6 secuenciamientos se encuentran registrados
en la tabla 1. El número de lecturas iniciales y finales (número de lecturas después de
la corrección) fueron obtenidos utilizando el comando wc. El mayor número de lecturas
iniciales lo presentaron los aislamientos TBR019_1492 y TBR038_1494 con
19.549.161 y 13.620.488. Al igual que el número de lecturas iniciales, los aislamientos
TBR019_1492 y TBR038_1494 también obtuvieron el mayor número de lecturas
finales. La cantidad más baja de lecturas iniciales y finales las presento el aislamiento
TBR045_1496 con 7.321.480 y 5.902.984 respectivamente.
Tabla 1. Corrección del secuenciamiento de los 6 aislamientos de MTB. Medida TBR019_1492 TBR030_149
3 TBR038_1494 TBR043_1495 TBR045_1496 TBR056_1497
# inicial de lecturas
19.549.161 7.848.261 13.620.488 8.302.316 7.321.480 9.997.066
# final de lecturas
15.984.820 6.304.748 11.431.952 6.997.302 5.902.984 7.893.016
corregidas 3.320.578 1.226.540 2.288.545 1.357.007 1.257.880 1.660.009
cortadas 13.890.260 5.635.331 9.936.324 6.143.060 5.157.658 6.953.204
removidas 2.338.322 986.389 1.395.619 802.249 905.942 1.383.853
Fuente: el autor Para todos los aislamientos, el número de lecturas cortadas fue mayor que el número
de lecturas corregidas. Entre los aislamientos con el menor número de lecturas
iniciales, los resultados finales para TBR030_1493 mostraron un menor número de
lecturas corregidas que el presente en el aislamiento TBR045_1496. Concorde al
número mayor de lecturas iniciales, los aislamientos TBR019_1492 y TBR038_1494
41
son los que tienen la mayor cantidad de lecturas corregidas con respecto al resto de lo
aislamiento.
En relación con el número de lecturas iniciales, Quake removió y corrigió el 30, 4%
(Figura 6) de las lecturas iniciales en el aislamiento TBR056_1497 siendo el porcentaje
más alto seguido por el aislamiento TBR045_1496 con un 29,5% de lecturas removidas
y corregidas tras la corrección. Los resultados con el porcentaje más bajo (Figura 6)
estuvieron cercanos al 26,5 % de lecturas con baja calidad encontrado por Eren,
Vineis, Morrison y Sogin (2013) al secuenciar la región V6 de E. coli con Illumina,
mientras que el porcentaje de lecturas corregidas y removidas en todos los aislamiento
fue inferior al 31,2 % de lecturas con baja calidad analizadas por Yang, Dorman y
Aluru (2010) sobre lecturas secuenciadas con Illumina de la cepa K-12 de E. coli.
Figura 6. Proporción de lecturas corregidas y removidas para cada aislamiento después de la corrección.
Fuente. El autor
5.2 ENSAMBLE Y ANOTACIÓN Posterior a la corrección de secuencias, se utilizaron las lecturas de salida del Quake
para el ensamble de las secuencias. Las tablas 2 y 3 resumen los ensambles obtenidos
42
para los seis aislamientos. Un ensamble óptimo se obtuvo con tamaños de k-mer por
debajo de 40 excepto para el aislamiento TBR030_1493 para el cual el tamaño
adecuado de k-mer estuvo en 51. Los ensamble escogidos se desarrollaron con
tamaños de k-mer similares, un tamaño de 31 fue el mejor para el ensamble de la mitad
de los aislamiento mientras que con un k-mer de 37 se realizaron los mejores
ensambles para los aislamientos TBR019_1492 y TBR045_1496.
El menor número de contigs se presentó en el ensamble de los aislamientos
TBR019_1492 y TBR038_1494 con 800 y 848 respectivamente. A pesar de que el
aislamiento TBR019_1492 obtuvo la menor cantidad de contigs, el número más bajo de
scaffolds y la longitud media más alta de ellos (Tabla 3) la presentaron los aislamientos
TBR038_1494 y TBR056_1497 con 84 y 99 scaffolds respectivamente y una longitud
media de 50.525 para el aislamiento TBR038_1494 y 43.353 para TBR056_1497
indicando que fueron los ensambles menos fragmentados entre todos.
Al otro extremo está el ensamble producido para el aislamiento TBR030_1493, las
lecturas ensambladas resultaron en el número más alto de contigs (1.846) y scaffolds
(147) con la longitud media más baja entre los 6 aislamientos.
Dentro de las longitudes de los scaffolds más largos, el aislamiento TBR030_1493
presentó la cadena más corta con 183.777 nucleótidos. Este resultado muestra
relación directa con la longitud media más baja y el mayor número de scaffolds y
contigs. Sin embargo, el scaffold más largo no fue ensamblado en el aislamiento
TBR038_1494 el cual obtuvo la longitud media más alta, si no que estuvo presente en
el aislamiento TBR043_1495 el cual tiene la segunda longitud media de scaffold más
corta (36.671núcleotidos).
El N50 es la longitud de scaffolds en la cual la mitad de la longitud del ensamble está
representada en scaffolds con este tamaño (Hormigo, 2011). La medida más alta del
N50 resultó de los ensambles de los aislamientos TBR038_1494 y TBR056_1497.
43
Tabla 2. Número final de Contigs y Scaffolds de los 6 ensambles de MTB. Aislamiento Tamaño k-mer Scaffolds Contigs Contigs sin unir a
Scaffolds TBR019_1492 37 104 800 97
TBR030_1493 51 147 1.846 187
TBR038_1494 31 84 848 80
TBR043_1495 31 119 1.545 134
TBR045_1496 37 112 1.754 150
TBR056_1497 31 99 1.132 128
Fuente. El autor El ordenamiento de las secuencias se llevó a cabo utilizando el archivo de salida de
SOAPdenovo con extensión scafSeq. El tamaño final del cromosoma reconstruido
para cada secuencia es el siguiente: TBR019_1492 – 4.435.609 pares de bases (pb),
TBR030_1493 – 4.437.459 pb, TBR038_1494 – 4.439.206, TBR043_1495- 4.441.234
pb, TBR045_1496 – 4.434.405 pb, TBR056_1497 - .4.467.419 pb.
Las secuencias finales mostraron un número de gaps variable, la molécula con mayor
cantidad de gaps fue la del aislamiento TBR030_1493 con 150 seguido por
TBR045_1496 con 117, TBR019_1492 con 106, TBR056_1497 conteniendo 101 gaps
y por últimos TBR043_1495 y TBR038_1494 con 99 y 90 gaps respectivamente.
Tabla 3. Medidas de los Scaffolds y N50 de los 6 aislamientos de MTB.
Aislamiento Scaffold más largo longitud media de Scaffolds
N50
TBR019_1492 196.312 40.677 92.008
TBR030_1493 183.777 28.804 67.788
TBR038_1494 228.480 50.524 114.507
TBR043_1495 232.955 36.671 88.018
TBR045_1496 231.993 38.839 83.561
TBR056_1497 195.542 43.353 99.802
Fuente. El autor.
45
(codon 507 a 533) (Makadia, Jain, Patra, Sherwal y Khanna, 2012), sin embargo, todos
lo aislamientos mostraron mutaciones en codones fuera de esta región: TBR019_1492
codon 450, TBR030_1493 codon 445 y 1038, TBR038_1494 codon 452 y 692,
TBR043_1495 codon 103, 450 y 534, TBR045_1496 codon 103 y 450, TBR056_1497
codon 103 y 450. Futuras investigaciones pueden evaluar estas mutaciones y su
asociación con fenotipo multidrogoresistente.
Después de la anotación se estudiaron las deleciones e inserciones presentes en cada
genoma (Tabla 4). El gen Rv2015c anotado como proteína hipotética se encuentra
delecionado en todos los aislamientos. Las deleciones de las transposasas del
elemento de inserción IS6110 variaron en cada genoma y no hubo una deleción de
estos genes presente en todos los ensambles. La deleción de las transposasas
Rv2167c-Rv2168c, Rv2105-Rv2106 y Rv1369c-Rv1370c fueron las más frecuentes,
estando en 5 de los 6 ensambles (Tabla 5) seguidas por la deleción de Rv2479c-
Rv2480c presente en 4 aislamientos.
La molécula reconstruida del aislamiento TBR038_1494 mostró 8 (Tabla 5) deleciones
de las transposasas del elemento de inserción IS6110 siendo el mayor número entre
los cromosomas reconstruidos. Al otro extremo, está el aislamiento TBR056_1497 el
cual mostró 4 deleciones menos. La deleción de los genes Rv3427c-Rv3428c,
transposasas del elemento de inserción IS1532 se encontró en los genomas de
TBR019_1492, TBR038_1494 y TBR045_1496.
Los aislamientos TBR043_1495, TBR045_1496 y TBR056_1497 presentaron
deleciones que no se encuentran en los tres aislamientos restantes; la pérdida de los
genes Rv1354c (Proteina Hipotetica), Rv1355c (moeY) y una deleción de 6.480 pb
comprendiendo los genes Rv2271 a Rv2279 fueron pérdidas de secuencias distintivas
de estos aislamiento.
Una inserción característica en los 6 ensambles fue indicada por el programa entre los
genes Rv2023A y Rv2024c con una longitud de 4996 pb. El aislamiento TBR030_1493
presentó otra inserción entre los genes guaB1 y gnd1 con una longitud de 462 pb.
46
Tabla 4. Diferencias encontradas entre los aislamientos y el genoma de referencia H37Rv. Aislamiento Deleción Inserción TBR019_1492
Las Transposasas Rv2479c-Rv2480c, Rv2648-Rv2649, Rv3184-Rv3185, Rv3325-Rv3326, Rv3380c-Rv3381c, Rv3474-Rv3475 del elemento de inserción IS6110. Gen Rv2015c. Rv3427c-Rv3428c (Transposasas del elemento de inserción IS1532)
4996 pb entre los genes Rv2023A y Rv2024c
TBR030_1493
Gen Rv2015c. Las Transposasas Rv1369c-Rv1370c, Rv2105-Rv2106, Rv2167c-Rv2168c, Rv2278-Rv2279,Rv2479c-Rv2480c, Rv2814c-Rv2815c, Rv3184-Rv3185 del elemento de inserción IS6110.
462 pb entre los genes Rv1843c (guaB) y Rv1844c (gnd1). 4996 pb entre los genes Rv2023A y Rv2024c
TBR038_1494
Genes Rv0377, Rv0378, Rv2015 Las Transposasas Rv1369c-Rv1370c, Rv2105-Rv2106, Rv2167c-Rv2168c,Rv2278-Rv2279, Rv2479c-Rv2480c,Rv2648-Rv2649, Rv3380c-Rv3381c, Rv3474-Rv3475 del elemento de inserción IS6110. Rv3427c-Rv3428c (Transposasas del elemento de inserción IS1532)
4996 pb entre los genes Rv2023A y Rv2024c
TBR043_1495
Genes Rv1354c, Rv1355c (moeY), Rv2015c Las Transposasas Rv1369c-Rv1370c, Rv1756c-Rv1757c, Rv1763-Rv1764, Rv2105-Rv2106, Rv2167c-Rv2168c, Rv2354-Rv2355, Rv3325-Rv3326 del elemento de inserción IS6110. 6480 pb. Comprende los genes Rv2271-Rv2279 y la pérdida de los 29 pares de bases finales de Rv2270 y los 116 pb iniciales de RV2280.
4996 pb entre los genes Rv2023A y Rv2024c
TBR045_1496
Genes Rv1354c, Rv1355c (moeY), Rv2015c 6480 pb. Comprende los genes Rv2271-Rv2279 y la pérdida de los 29 pares de bases finales de Rv2270 y los 116 pb iniciales de RV2280. Rv3427c-Rv3428c (Transposasas del elemento de inserción IS1532) Las Transposasas Rv1369c-Rv1370c, Rv2105-Rv2106, Rv2167c-Rv2168c, Rv2479c-Rv2480c, Rv2648-Rv2649, Rv3184-Rv3185 del elemento de inserción IS6110.
4996 pb entre los genes Rv2023A y Rv2024c
TBR056_1497
Las Transposasas Rv0795-Rv0796, Rv1369c-Rv1370c, Rv2105-Rv2106, Rv2167c-Rv2168c del elemento de inserción IS6110. Genes Rv1047, Rv1354c, Rv1355c (moeY), Rv2015c 6480 pb. Comprende los genes Rv2271-Rv2279 y la pérdida de los 29 pares de bases finales de Rv2270 y los 116 pb iniciales de RV2280.
4996 pb entre los genes Rv2023A y Rv2024c
Fuente. El autor
47
5.3 ALINEAMIENTO MÚLTIPLE
El alineamiento de los 6 genomas reveló una translocación de 8.686 pb en el genoma
de TBR019_1492 entre los genes Rv3466 y Rv3467, la mutación contiene los genes
Rv1575 a Rv1586c (proteínas del fago phiRv1) y un elemento repetitivo de 89 pb
flanqueando al fago en el extremo 5'.
En la Tabla 6 se muestran las regiones únicas encontradas con el programa Muave en
el cromosoma de cada aislamiento. El número de regiones únicas para cada
aislamiento es el siguiente: 8 en TBR019_1492, 5 en TBR030_1493, 4 en
TBR038_1494, 7 en TBR043_1495, 7 en TBR045_1496 y 5 en TBR056_1497.
Sumando en total 36 regiones Únicas.
La mayor cantidad de regiones únicas estuvieron presentes en las secuencias de los
genes de las familias PPE y PE_PGRS (Figura 8). Un 30,55 % (11) de las secuencias
únicas totales se presentaron en las regiones intergénicas.
Los genes de las familias PPE y PE_PGRS con secuencias únicas fueron los
siguientes: wag22, pe_pgrs1, pe_pgrs2, pe_pgrs3, pe_pgrs4, pe_pgrs6, pe_pgrs7,
pe_pgrs9, pe_pgrs10,pe_pgrs18, pe_pgrs27, pe_pgrs28, pe_pgrs38, pe_pgrs43,
pe_pgrs44, pe_pgrs52, ppe6, ppe54 y ppe55, siendo los genes pe_pgrs7 y pe_pgrs10
los que presentaron regiones únicas en dos aislamientos distintos. pe_pgrs7 mostró
regiones únicas en los cromosomas de TBR038_1494 y TBR056_1497, pe_pgrs10
contiene regiones únicas en los genomas de TBR043_1495 y TBR045_1496.
48
Tabla 5. Deleciones de las Transposasas del elemento de inserción IS6110 en cada aislamiento. Deleción de las transposasas (De), genes que codifican para las Transposasas presentes (P). Transposasas TBR019_1492 TBR030_1493 TBR038_149
4 TBR043_1495 TBR045_1496 TBR056_1497
Rv0795-Rv0796 P P P P P De
,Rv1369c-Rv1370c P De De De De De
Rv1756c-Rv1757c P P P De P P
Rv1763-Rv1764 P P P De P P
Rv2105-Rv2106 P De De De De De
Rv2167c-Rv2168c P De De De De De
Rv2278-Rv2279 P De De P P P
,Rv2354-Rv2355 P P P De P P
Rv2479c-Rv2480c De De De P De P
Rv2648-Rv2649 De P De P De P
Rv2814c-Rv2815c P De P P P P
Rv3184-Rv3185 De De P P De P
Rv3325-Rv3326 De P P De P P
Rv3380c-Rv3381c De P De P P P
Rv3474-Rv3475 De P De P P P
Total deleciones 6 7 8 7 6 4
Fuente. El autor
49
Tabla 6. Regiones únicas en cada aislamiento. Cada región es propia de un genoma. Aislamiento Región Única TBR019_1492
Entre las bases 660 y 700 del gen pe_pgrs2 Entre las bases 350 y 401 del gen pe_pgrs3 Nucleótidos 518169 a 518218, entre los genes hspR y ppe8 Últimos 52 nucleótidos del gen rplD Nucleótidos 1456039 a 1456079, entre los genes glgC y pe14 Nucleótidos 1540379 a 1540402, entre los genes Rv1287 y Rv1288 Entre las bases 3959 y 4010 del gen pe_pgrs43 Entre las bases 1644 y 1672 del gen ppe55
TBR030_1493
Entre las bases 67 y 94 del gen Rv0263c Entre las bases 1393 y 1550 del gen pe_pgrs4 Entre las bases 3975 y 4005 del gen Rv0648 Entre las bases 1552 y 1596 del gen pe_pgrs27 Entre las bases 922 y 979 del gen pe_pgrs38
TBR038_1494
Entre las bases 2375 y 2404 del gen ppe6. Entre las bases 2180 y 2719 del gen pe_pgrs7. Entre las bases 913 y 1531 del gen wag22. Nucleótidos 3712862 a 3712914, entre los gens Rv3217c y Rv3218.
TBR043_1495
Entre las bases 1244 y 1299 del gen pe_pgrs1. Nucleótido 243616 a 243672, entre los genes pg_pgrs2 y pepA. Entre las bases 2029 y 2081 del gen pe_pgrs9. Entre las bases 994 y 1074 del gen pe_pgrs10 Entre las bases 1190 y 1246 del gen pe_pgrs28 Nucleótidos 2863374 a 2863396, entre los genes Rv2449c y rpfE. 115 pb iniciando a 244 base corriente arriba del codón de inicio del gen Rv3304.
TBR045_1496
Entre las bases 894 y 1007 del gen pe_pgrs6 Entre las bases 1001 y 1267 del gen pe_pgrs10 Entre las bases 645 y 744 del gen pe_pgrs18 Nucleótidos 1575563 a 1575589, entre los genes rrf y ogt Nucleótidos 1996596 a 1996619, entre los genes Rv1668c y Rv1669 Nucleótidos 2733834 a 2733866, entre los genes esxP y Rv2348c Entre las bases 282 y 321 del gen ppe54
TBR056_1497
Entre las bases 781 y 855 del gen hycE Nucleótidos 757621 a 757691, entre los genes nrdZ y Rv0571c. Entre las bases 2676 y 2729 del gen pe_pgrs7. Entre las bases 1050 y 1115 del gen pe_pgrs52. Entre las bases 285 y 353 del gen pe_pgrs44.
Fuente. El autor.
51
6. DISCUSIÓN
6.1 CORRECCIÓN DE SECUENCIAS Los errores producidos en el secuenciamiento de nucleótidos pueden llevar a
posteriores errores en el ensamble de las secuencias y por lo tanto se puede formular
datos erróneos de la cadena genómica (Macmanes y Eisen, 2013). Esta dificultad se ha
convertido en un problema en todos los proyectos de ensamble de secuencias y los
investigadores han empezado a diseñar software que corrijan estos errores en las
lecturas (Medvedev, Scott, Kakaradov y Pevzner, 2011).
En este estudio utilizamos el programa Quake, un corrector de lecturas producidas por
el secuenciamiento Illumina que ha sido utilizado en los ensambles de distintos
organismos, entre ellos el de Drosophila simulans (resecuenciamiento) (Hu, Eisen,
Thornton y Andolfatto, 2013), Salinarchaeum sp. (Dominova, Sorokin, Kublanov,
Patrushev y Toshchakov, 2013) y la actinobacteria Candidatus Microthrix parvicella
Bio17-1 (Muller et al., 2012). Nuestros resultados concuerdan con los obtenidos por los
autores del software, ya que en la corrección realizada sobre las lecturas del genoma
de la abeja Megachile rotundata secuenciado con Illumina, los investigadores
obtuvieron una mayor cantidad de lecturas cortadas. Esto puede deberse a que el
algoritmo del Quake permite cortar los extremos de las lecturas cuando k-mers
erróneos se ubican sobre esta posición (Kelly et al., 2010) (Figura 9) y a que los errores
del secuenciamiento Illumina se presentan en las últimas posiciones de la lectura como
lo evidencia Dohm, Lottaz, Borodina y Himmelbauer (2008).
Quake proporciona dos medidas que dan idea de la calidad de los datos de
secuenciamiento: la cantidad de lecturas corregidas y la cantidad de lecturas
removidas. La proporción de lecturas corregidas y removidas en los aislamientos
TBR056_1497 y TBR045_1496 (Figura 6) fue la mayor entre todas la correcciones,
indicando que estos secuenciamientos fueron de menor calidad que los demás.
52
Figura 9. Corrección de errores en Quake. El programa considera que las bases de los k-mer con errores (Rojo) que empatan con las bases de los k-mer verdaderos (Verde) no deben ser corregidas y por lo tanto corta las bases de los extremos que son las únicas que se encuentra exclusivamente en k-mers erróneos.
Fuente. Kelley, 2010. 6.2 RECONSTRUCCIÓN DE GENOMAS
Las tecnologías NGS han transformado y acelerado los estudios biológicos en aéreas
médicas. La disminución en los costos y el alto rendimiento de estas tecnologías son
las causas del incremento en proyectos de ensamble de genomas. No obstante, la
llegada de estas plataformas de secuenciamiento ha traído consigo la dificultad de
manejar secuencias cortas (Liu, Tsai, Lee y Chiang, 2013; Zhang, W. et al., 2011).
Los programas destinados al ensamble de secuencias de datos proporcionados por las
tecnologías de secuenciamiento de siguiente generación se basan en las longitudes k-
mer para encontrar los solapamientos entre lecturas. Esta secuencia k-mer es una
secuencia de un numero k de bases que hace parte de la longitud total de la lectura
(Miller et al., 2010).
SOAPdenovo utiliza grafos de de Bruijn para realizar el ensamble. En estos grafos,
cada nodo representa un k-mer y los ejes representan el solapamiento de dos k-mer
(Li et al., 2010). Nuestra evaluación de distintos tamaños k-mer mostró que los
ensambles más eficientes utilizando lecturas de 105 bases producidas por Illumina de
53
MTB se realizan con k-mer de tamaño igual o menor a 51 (Tabla 2) y que 5 de los 6
mejores ensambles se construyeron con k-mer de 31 y 37. Estas medidas pueden ser
de ayuda en futuros proyectos de ensamble de secuencias de MTB con el fin de
ahorrar tiempo en la búsqueda del mejor ensamble y reducir el uso de memoria de
almacenamiento.
Los proyectos de ensamble que utilizan lecturas cortas como las ensambladas en el
presente estudio intentan incrementar la cobertura (cantidad de lecturas que
pertenecen a un mismo fragmento del genoma) para compensar la longitud corta de las
lecturas (Schatz, Delcher y Salzberg, 2010). Por lo tanto, el ensamble de un genoma
depende de una apropiada cobertura y de la calidad del secuenciamiento de los
fragmentos (Schatz, Witkowski y McCombie, 2012). Nuestros secuenciamientos
difieren tanto en la cantidad de fragmentos secuenciados como en la calidad de sus
lecturas. La diferencia en estos parámetros se ve reflejada en la cantidad de scaffolds,
contigs (Tabla 2) y el tamaño N50 (Tabla 3).
El número de scaffolds y contigs son formas de comparar ensambles de una especie,
sin embargo, es el N50 la medida más común de evaluar la calidad de un ensamble
(Baker, 2012). Nuestros genomas ensamblados mostraron diferentes cantidades de
scaffolds y contigs (Tabla 2) así como desiguales tamaños N50 (Tabla 3) que señalan
al aislamiento TBR038_1494 como el ensamble de mejor calidad entre todos.
En comparación con genomas ensamblados de distintas cepas, el N50 de los 6
genomas (Tabla 3) PR05 (64,609 bp) (Ismail et al., 2013) mientras que 5 (excepto
TBR030_1493) de los 6 ensambles presentaron un N50 mayor a las cepas Beijing OM-
V02_005 (68,368 bp) (Tateishi et al., 2013) y UT205 (81.913 bp) (Isaza et al., 2012)
indicando que la metodología utilizada fue eficiente en ensamblar las lecturas. Nuestros
ensambles mostraron un tamaño similar al de MTB PR05 (4.410.213 bp) ya que
nuestros genomas tienen un tamaño por encima de 4,4 Mega pares de bases (Mbp).
54
La metodología estructurada en el estudio realizado con la cepa PR05 mencionada
anteriormente y la utilizada en la reconstrucción de nuestros genomas, se asemejan en
la tecnología de secuenciamiento (Illumina) pero se diferencian en los programas
utilizados en el ensamble. Los resultados del N50 y la longitud de los contigs y
scaffolds en cada genoma reafirman los resultados del proyecto GAGE en donde se
concluye que la calidad del ensamble cambia con el programa utilizado y que
SOAPdenovo funciona muy bien sobre los genomas bacterianos (Salzberg et al.,
2012). Sin embargo, nuestros genomas no están completamente reconstruidos. Los
gaps en las secuencias genómicas estuvieron por encima del 1,5 % (en el menor de los
casos) y por tanto es necesario llevar a cabo el cierre de los gaps mediante el diseño
de cebadores (Tsai, Otto y Berriman, 2010) o la utilización de distintas herramientas
informáticas para mejorar y finalizar los genomas.
6.3 ANOTACIÓN Todos los análisis de las anotaciones de los 6 aislamientos mostraron la pérdida del
gen Rv2015c (Tabla 4) que codifica una proteína hipotética (Lew, Kapopoulou, Jones y
Cole, 2011). La anotación del gen refleja una región que codifica para un motivo HNH
endonucleasa, característico de una familia de Homin endonucleasas (HE) (Stoddard,
2005) que se diferencia por poseer una secuencia de 35 aminoácidos con dos
residuos Histidina y uno Aspargina altamente conservados (Keeble, Mate y Kleanthous,
2005). Los residuos HNH están presentes en bacterias y hongos (Yusufzai y
Kadonaga, 2010) en proteínas como la encima de restricción KpnI (Saravanan,
Bujnicki, Cymerman, Rao y Nagaraja, 2004) y las endonucleasas I-PfoP3I (Kong, Liu,
Fu, Yu y An, 2012) y I-HmuI (Shen, Landthaler, Shub y Stoddard, 2004). Teniendo en
cuenta la presencia de este motivo, el gen Rv2015c podría comportarse como
elemento móvil, debido a que las HE promueven la movilidad de sí mismos y de las
secuencias génicas a su alrededor (Hafez y Hausner, 2012) sin embargo su función no
ha sido estudiada y nuestros resultados indican que su deleción no influye en la
supervivencia de MTB, resultados coherente con la literatura ya que las HE son
asociadas con secuencias egoístas (Hafez y Hausner, 2012).
55
Otras mutaciones destacadas en todos los aislamientos fueron la pérdida de las
transposasas del elemento de inserción IS6110 (Tabla 4). Cada aislamiento mostró
deleciones particulares de estos genes (Tabla 5) con respecto a los demás genomas
estudiados. En comparación con cepas estudiadas, las deleciones encontradas en
nuestros asilamientos son igualmente características en las cepas 210 y W a excepción
de las inserciones ubicadas en las posiciones Rv2105-Rv2106 y Rv2814c-Rv2815c
(Beggs, Eisenach y Cave, 2000).
Las secuencias de inserción IS6110 son ampliamente utilizadas en el diagnostico de
MTB y en los estudios epidemiológicos de distintos aislamientos debido a que son
secuencias conservadas (Sankar, Kuppanan, Balakrishnan y Nandagopal, 2011) y a
que el número de copias y la localización de estas en el genoma, es un método
adecuado por el cual se puede genotipificar distintas cepas (Coros, DeConno y
Derbyshire, 2008), por ejemplo, Green et al. (2013) caracterizaron 338 aislamientos de
MTB mediante el número de copias de IS6110. Los autores lograron agrupar 52
aislamientos con resistencia a medicamentos en 22 grupos fundamentados en el
número de copias de IS6110. Siguiendo estos resultados se identificaron eventos de
transmisión entre los pacientes. Alonso, Samper, Martín y Otal (2013) estudiaron la
distribución de la secuencia IS6110 en cepas aisladas del genotipo Beijing,
encontrando sitios de inserción con una alta frecuencia en los genes Rv1371, ctpD,
Rv2016, idsB y entre los genes esxR-esxS. Cada uno de nuestros aislamientos
presento deleciones del elemento IS6110 en su secuencia nucleotídica que lo
distinguen de los otros 5 genomas. El número y la posición de estas deleciones pueden
ser utilizados como marcadores moleculares en estudios de la prevalencia y
transmisión de cada aislamiento. De la misma manera, las deleciones e inserciones
expuestas en la Tabla 4, podrían someterse a futuros análisis con el fin de desarrollar
marcadores epidemiológicos de cada aislamiento clínico.
Por otro lado, la presencia de estos elementos puede tener un papel en la variabilidad
de la secuencia genómica de MTB y un efecto sobre el fitness bacteriano. La
transposición de la secuencia IS6110 bajo condiciones de estrés pude llegar afectar la
56
expresión de los genes mediante eventos de inserción, deleción e incremento de la
expresión de genes cercanos a la transposición debido a los promotores que llevan
consigo la secuencia transponible (Reyes et al., 2013). El efecto en el fitness de
IS6110 podría estar relacionado con el fitness reducido de las cepas con resistencia a
medicamentos (Gagneux et al., 2006b), sin embargo otros estudios han demostrado
que las cepas MDR mantienen o incluso aumentan su fitness en comparación con
cepas sensibles (Bhatter y Mistry, 2013), la transposición de IS6110 podría
desempeñar un papel sobre el fitness de las cepas con resistencia a fármacos. Una de
las limitaciones de este estudio fue la caracterización del número y localización de las
secuencias móviles IS6110 con fines de establecer su impacto sobre la variabilidad y
expresión de genes en los aislamientos estudiados, por lo tanto, futuros análisis son
necesarios para genotipificar los aislamientos, tomando como base las repeticiones y
sitios de inserción de este elemento transponible.
Una característica de los aislamientos TBR043_1495, TBR045_1496 y TBR056_1497
fue la pérdida del gen moeY (Rv1355c) (Tabla 4) anotado como proteína implicada en
la biosíntesis de molibdopterina, un importante co-factor de múltiples enzimas
implicadas en reacciones redox en los ciclos del carbono y nitrógeno (Lake, Temple,
Rajagopalan y Schindelin, 2000). Una mutación involucrando al gen moeY ya ha sido
reportada, Niobe-Eyangoh et al. (2004) encontraron una inserción de la secuencia
IS6110 dentro del marco de lectura del gen moeY en cepas de la familia Camerún de
MTB. Los autores concluyen que este gen puede estar involucrado en la virulencia de
la cepa, sin embargo su rol sigue siendo desconocido.
La deleción de los genes Rv2271-Rv2279 (Tabla 4) es la pérdida de un fragmento más
larga y las más destacada en todos los aislamientos. Los genes codifican para
proteínas hipotéticas (Rv2271, Rv2275), posibles proteínas transmembranales
(Rv2272,Rv2273), operon del sistema toxina-antitoxina (TA) mazF8 (Rv2274c-
Rv2274A), el Cytocromo P450 CYP121 (cyp121) y una posible glicerol fosfodiesterasa
(Rv2277c). La deleción de estos genes ya fue reportada por Tsolaki et al. (2004) en 5
aislamientos clínicos de San Francisco, USA, utilizando las técnicas de microarreglos,
57
PCR y secuenciamiento y por Das et al. (2013) en aislamiento de TB extra pulmonar
tomados de pacientes de la India.
Los sistemas TA regulan la proliferación de la bacteria al inhibir un proceso
fundamental en el metabolismo celular (Sharp et al., 2012). En el genoma de MTB, las
toxinas mazF escinden las secuencias de RNAm inhibiendo la traducción a proteínas
(Zhang, Y. et al., 2003). La deleción de este sistema en TBR043_1495, TBR045_1496
y TBR056_1497 puede tener un efecto sobre la capacidad de la bacteria para entrar en
estado de latencia, ya que los sistemas TA son activados bajo situación de estrés como
las encontradas en macrófagos (Ramage, Connolly y Cox, 2009).
El gen cyp121 codifica un citocromo relacionado con el metabolismo de los lípidos de
MTB (Isin y Guengerich, 2007). Su función se ha relacionada con el gen Rv2275,
proponiéndose que funcionan como un operón. La relación se centra en que el
citocromo CYP121 P450 utiliza como sustratos las moléculas sintetizadas por la
expresión de Rv2275 (Belin et al., 2009). Aunque se ha postulado que el gen cyp121 es
esencial en el metabolismo de MTB (McLean et al., 2008) otros estudios han
demostrado que no es vital para el funcionamiento de MTB (Sassetti, Boyd y Rubin,
2003; Tsolaki et al., 2004). Las deleciones encontradas en los aislamientos
TBR043_1495, TBR045_1496 y TBR056_1497 apoyan la idea de que cyp121 no es un
gen indispensable en MTB.
6.4 ALINEAMIENTO MÚLTIPLE
El aislamiento TBR019_1492 presenta una posición del fago phiRv1 distinta a los
demás aislamientos. Los re-arreglos estructurales relacionados con esta secuencia se
han encontrado en comparaciones de las cepas H37Rv, H37Ra, CDC1551 y Haarlem,
la posición del fago es distinta en las cepas CDC1551 y Haarlem con respecto a la
posición ocupada en las cepas H37Rv, H37Ra (Cubillos-Ruiz et al., 2008). Así mismo
variaciones involucrando el fago fueron identificadas en la cepa de Mycobacterium
bovis AF2122/97 (Chavez et al., 2010).
58
Las regiones únicas encontradas en los aislamientos están principalmente ubicadas en
los genes de las familias PPE/PE_PGRS (Figura 8). El rol de las proteínas expresadas
por genes de las familias PPE en MTB es desconocido, sin embargo se especula que
su alto polimorfismo las hace antígenos de gran importancia (Cuccu, Freer, Genovesi,
Garzelli y Rindi, 2011). Igualmente, la variación en los extremos c-terminal de las
proteínas PE_PGRS ha sido ligada a variación antigénica (Chaturvedi et al., 2010). El
papel de estos genes en la evasión inmune (Tiwari, Kannan, Vemu y Raghunand,
2012) y en la variación antigénica se atribuye a las sustituciones, inserciones y
deleciones presentes en los genes que cambian las propiedades de las proteínas que
codifican (Kohli et al., 2012). La gran cantidad de regiones únicas encontradas en
nuestros aislamientos concuerdan con este postulado.
Karboul et al. (2008) evaluaron el papel de la recombinación en los cambios de las
secuencias de los genes de la familia PE/PPE. Los autores concluyeron que la
variabilidad encontrada podría ser un mecanismo de adaptación en respuesta a las
condiciones inmunes del hospedero. En relación con esta idea, los estudios de Talarico
et al. (2008) sobre la variación de la secuencia de tres genes pertenecientes a la familia
PE_PGRS (PE_PGRS16, PE_PGRS26 y PE_PGRS33), encontraron que la variación
en los tres genes fue alta, apoyando la noción de estos genes como antígenos variable
de superficie, que contribuyen a la evasión inmune, por lo tanto la variabilidad de los
genes PPE y PE_PGRS de los genomas utilizados en este estudio, pueden contribuir a
la virulencia de cada aislamiento. Futuras investigaciones se pueden centrar en el
análisis funcional de los genes PPE/PE_PGRS mencionados aquí para comprender el
rol específico que tienen en MTB.
Las regiones únicas intergénicas (Tabla 6) se ubican entre genes que codifican
proteínas de choque térmico, Transferasas, proteínas de la familia PE/PPE, proteínas
de membrana, Peptidasas, Factores de resucitación, Reductasas y proteínas de la
familia ESAT-6. Estas regiones únicas pueden alterar la expresión de los genes (Zheng
et al., 2008) debido a que pueden cambiar la secuencia del promotor y por tanto la
59
frecuencia intrínseca a la cual los genes son transcritos (Lodish et al., 2005). Es
necesario investigar la influencia de estas mutaciones sobre la expresión de los genes
a su alrededor y estudiar los efectos sobre el metabolismo de MTB.
Los distintos hallazgos en la estructura genómica encontrados en este estudio apoyan
los resultados de otros estudios en donde se observa que la tasa de mutación difiere
entre cepas (Ford et al., 2013; Merker et al., 2013) y que la estructura genomas entre
aislamientos es mas variable de lo que se pensaba (Fleischmann et al., 2002).
60
7. CONCLUSIONES
1. Los ensambles de los genomas reconstruidos con la metodología establecida
mostraron tamaños N50 mayor a los registrados en artículos y por tanto es una
metodología eficiente en el ensamble de secuencias de MTB.
2. El ensamble óptimo del genoma de MTB secuenciado con tecnología Illumina
con lecturas pareadas de 105 bases se realiza con tamaños k-mer menores o
iguales a 51 bases y su eficiencia depende de la cobertura y calidad del
secuenciamiento.
3. EL número y localización de las deleciones de la secuencia de inserción IS6110
es particular en cada uno de los 6 genomas y puede ser utilizada como
genotipificación en el seguimiento de la transmisión de estos aislamientos.
4. El gen cyp121 se ha señalado como esencial en el metabolismo de MTB, sin
embargo, la pérdida de esta secuencia en los aislamientos TBR043_1495,
TBR045_1496 y TBR056_1497 es evidencia de que no es un gen vital en MTB.
5. La deleción del operón del sistema TA mazF8 (Rv2274c-Rv2274A) posiblemente
afecte la capacidad de entrar en latencia de los aislamiento TBR043_1495,
TBR045_1496 y TBR056_1497 y puede ser objeto de evaluación en futuros
estudios.
6. El presente estudio identificó regiones únicas de cada aislamiento distribuidas
principalmente en los genes de la familia PPE/PE_PGRS y regiones
intergénicas. La variabilidad de los genes PPE y PE_PGRS concuerda con
evidencias sobre su función en la evasión inmune del hospedero mientras que
las regiones únicas intergénicas pueden servir de base para futuros estudios
61
sobre la expresión de los genes alrededor de esta región y su impacto en el
fenotipo del aislamiento.
7. La metodología llevada a cabo permitió asignar características a cada secuencia
genómica y realizar la comparación entre ellas. De esta forma se encontró que
cada asilamiento presenta deleciones, inserciones y regiones propias en su
secuencia.
62
8. RECOMENDACIONES
El trabajo en las secuencias debe articularse con nuevos programas o actualizaciones
de los programas utilizados en este estudio para generar ensambles de mejor calidad.
Acompañando a esta tarea, el poder computacional debe incrementarse para agilizar el
tratamiento de las secuencias e incrementar la capacidad de datos a ser utilizados.
63
REFERENCIAS
ABACAS. (2013). Algorithm Based Automatic Contiguation of Assembled Sequences.
Recuperado de: http://abacas.sourceforge.net/.
Abadio, A.K; Kioshima, E.S.; Teixeira, M.M.; Martins, N.F.; Maigret, B. & Felipe, M.S.
(2011).Comparative genomics allowed the identification of drug targets against
human fungal pathogens. BMC Genomics, 12 : 75.
Ahmad, S.; Al-Mutairi, N.M. & Mokaddas, E. (2012). Variations in the occurrence of
specific rpoB mutations in rifampicin-resistant Mycobacterium tuberculosisisolates
from patients of different ethnic groups in Kuwait. Indian J Med Res, 135(5), 756-62.
Alonso, H.; Samper, S.; Martín, C. & Otal, I. (2013). Mapping IS6110 in high-copy
number Mycobacterium tuberculosis strains shows specific insertion points in the
Beijing genotype. BMC Genomics, 14:422.
Assefa, S.; Keane, M.T.; Otto, D.T.; Newbold, C. & Berriman, M. (2009). ABACAS:
algorithm-based automatic contiguation of assembled sequences. Bioinformatics,
25 (15), 1968-1969.
Bai, X.; Feldman, N.E.; Chmura, K.; Ovrutsky, A.R.; Su, W.L.; Griffin, L…. Chan, E.D.
(2013). Inhibition of Nuclear Factor-Kappa B Activation Decreases Survival
of Mycobacterium tuberculosis in Human Macrophages. PLoS One, 8 (4), e61925.
Baker, M. (2012). De novo genome assembly: what every biologist should know.
NATURE METHODS, 9 (4), 333-337.
Beggs, M.L; Eisenach, K.D. & Cave, M.D. (2000). Mapping of IS6110 insertion sites in
two epidemic strains of Mycobacterium tuberculosis. J Clin Microbiol, 38 (8), 2923-8.
64
Belin, P.; Le Du, M.H.; Fielding, A.; Lequin, O.; Jacquet, M.; Charbonnier, J.B….
Gondry, M. (2009). Identification and structural basis of the reaction catalyzed by
CYP121, an essential cytochrome P450 inMycobacterium tuberculosis. Proc Natl
Acad Sci U S A, 106 (18), 7426-31.
Betts, J.C.; Dodson, P.; Quan, S.; Lewis, A.P.; Thomas, P.J.; Duncan, K…. McAdam,
R.A. (2000). Comparison of the proteome of Mycobacterium tuberculosis strain
H37Rv with clinical isolate CDC 1551. Microbiology, 146 (12), 3205-16.
Bhatter, P. & Mistry, N. (2013). Fitness of acquired drug resistant Mycobacterium
tuberculosis isolates from DOTS compliant patients. Tuberculosis (Edinb), 93 (4),
418-24.
Björkelid, C.; Bergfors, T.; Raichurkar, A.K.; Mukherjee, K.; Malolanarasimhan,
K.; Bandodkar, B.... Jones, T.A. (2013). Structural and Biochemical Characterization
of Compounds Inhibiting Mycobacterium tuberculosis PanK. J Biol Chem, 288 (25),
18260-70.
Brennan, P.J. (2003). Structure, function, and biogenesis of the cell wall of
Mycobacterium tuberculosis. Tuberculosis (Edinb), 83 (1-3), 91-7.
Brosch, R.; Gordon, S. V.; Marmiesse, M.; Brodin, P.; Buchrieser, C.; Eiglmeier, K….
Cole, S.T. (2002). A new evolutionary scenario for the Mycobacterium
tuberculosis complex. Proc Natl Acad Sci U S A. 99 (6), 3684-9.
Brown, T. A. (2002). Genomes. Understanding a Genome Sequence. Recuperado de:
http://www.ncbi.nlm.nih.gov/books/NBK21136/.
Butt, A.M.; Nasrullah, I.; Tahir, S. & Tong, Y. (2012). Comparative genomics analysis of
Mycobacterium ulcerans for the identification of putative essential genes and
therapeutic candidates. PLoS One, 7 (8), e43080.
65
Cascioferro, A.; Daleke, M.H.; Ventura, M.; Donà, V.; Delogu, G.; Palù, G….
Manganelli, R. (2011). Functional dissection of the PE domain responsible
for translocation of PE_PGRS33 across the mycobacterialcell wall. PLoS One, 6 (11),
e27713.
Caws, M.; Thwaites, G.; Dunstan, S.; Hawn, T.R.; Lan, N.T.; Thuong, N.T…. Farrar, J.
(2008). The influence of host and bacterial genotype on the development of
disseminated disease with Mycobacterium tuberculosis. PLoS Pathog, 4 (3),
e1000034.
Chang, Y.; Chen C.C; Chen C.L. & Ho, J. (2012). A de novo next generation genomic
sequence assembler based on string graph and MapReduce cloud computing
framework. BMC Genomics, 13 (Suppl 7): S28.
Chaves, D.; Sandoval, A.; Rodríguez, L.; Garcia, J.C.; Restrepo, S. & Zambrano, M. M.
(2010). Análisis comparativo de seis genomas de Mycobacteriun tuberculosis.
Biomedica, 30 (1), 23-31.
Chakraborty, P.; Kulkarni, S.; Rajan, R. & Sainis, K. (2013). Drug Resistant Clinical
Isolates of Mycobacterium tuberculosis from Different Genotypes Exhibit Differential
Host Responses in THP-1 Cells. PLoS One, 8 (5), e62966.
Chaturvedi, R.; Bansal, K.; Narayana, Y.; Kapoor, N.; Sukumar, N.; Togarsimalemath,
S.K…. Balaji, K.N. (2010). The multifunctional PE_PGRS11 protein
from Mycobacterium tuberculosis plays a role in regulating resistance to oxidative
stress. J Biol Chem, 285 (40), 30389-403.
66
Chen, Y.C.; Liu, T.; Yu, C.H.; Chiang, T.Y. & Hwang, C.C. (2013). Effects of GC bias in
next-generation-sequencing data on de novo genome assembly. PLoS One, 8 (4),
e62856.
Click, E.S.; Moonan, P.K.; Winston, C.A.; Cowan, L.S. & Oeltmann, J.E. (2012).
Relationship between Mycobacterium tuberculosis phylogenetic lineage and clinical s
ite of tuberculosis. Clin Infect Dis, 54 (2), 211-9.
Cole, S.T.; Brosch, R.; Parkhill, J.; Garnier, T.; Churcher, C.; Harris, D.... Barrell, B.G.
(1998). Deciphering the biology of Mycobacterium tuberculosis from the complete
genome sequence. Nature, 393 (6685), 537-44.
Comas, I.; Borrell, S.; Roetzer, A.; Rose, G.; Malla, B.; Kato-Maeda, M…. Gagneux, S.
(2011). Whole-genome sequencing of rifampicin-resistant Mycobacterium
tuberculosis strains identifies compensatory mutations in RNA polymerase genes.
Nat Genet, 44 (1), 106-10.
Coros, A.; DeConno, E. & Derbyshire, K.M. (2008). IS6110, a Mycobacterium
tuberculosis complex-specific insertion sequence, is also present in the genome
ofMycobacterium smegmatis, suggestive of lateral gene transfer among
mycobacterial species. J Bacteriol, 190 (9), 3408-10.
Cubillos-Ruiz, A.; Morales, J. & Zambrano, M. M. (2008). Analysis of the genetic
variation in Mycobacterium tuberculosis strains by multiple genome alignments. BMC
Res Notes, 1, 110.
Cuccu, B.; Freer, G.; Genovesi, A.; Garzelli, C. & Rindi, L. (2011). Identification of a
human immunodominant T-cell epitope of mycobacterium tuberculosis antigen
PPE44. BMC Microbiol, 11, 167.
67
Darling, E.A.; Mau, B. & Perna, T.N. (2010). progressiveMauve: Multiple Genome
Alignment with Gene Gain, Loss, and Rearrangement. PLoS One, 5 (6), e11147.
Das, S.; Roychowdhury, T.; Kumar, P.; Kumar, A.; Kalra, P.; Singh, J…. Bhattacharya,
A. (2013). Genetic heterogeneity revealed by sequence analysis of Mycobacterium
tuberculosis isolates from extra-pulmonary tuberculosis patients. BMC Genomics, 14,
404.
Dohm, J. C.; Lottaz, C.; Borodina, T. & Himmelbauer, H. (2008). Substantial biases in
ultra-short read data sets from high-throughput DNA sequencing. Nucleic Acids Res,
36 (16), e105.
Dominova, I.N.; Sorokin, D.Y.; Kublanov, I.V.; Patrushev, M.V. & Toshchakov, S.V.
(2013). Complete Genome Sequence of Salinarchaeum sp. Strain HArcht-Bsk1T,
Isolated from Hypersaline Lake Baskunchak, Russia. Genome Announc, 1 (4),
e00505-13.
Engström, A.; Zardán Gómez de la Torre, T.; Strømme, M.; Nilsson, M. & Herthnek, D.
(2013). Detection of Rifampicin Resistance in Mycobacterium tuberculosis by
Padlock Probes and Magnetic Nanobead-Based Readout. PLoS One, 8 (4), e62015.
Eren, A.M.; Vineis, J.H.; Morrison, H.G. & Sogin, M.L. (2013). A filtering method to
generate high quality short reads using illumina paired-end technology. PLoS One,
8 (6), e66643.
Fang, Z.; Morrison, N.; Watt, B.; Doig, C. & Forbes, K.J. (1998). IS6110 Transposition
and Evolutionary Scenario of the Direct Repeat Locus in a Group of Closely
Related Mycobacterium tuberculosis Strains. J Bacteriol, 180 (8), 2102–2109.
Feuerriegel, S.; Oberhauser, B.; George, A.G.; Dafae, F.; Richter, E.; Rüsch-Gerdes,
S…. Niemann, S. (2012). Sequence analysis for detection of first-line drug resistance
68
in Mycobacterium tuberculosis strains from a high-incidence setting. BMC
Microbiol, 12:90.
Fleischmann, R.D.; Alland, D.; Eisen, J.A.; Carpenter, L.; White, O.; Peterson J....
Fraser, C.M. (2002). Whole-genome comparison of Mycobacterium tuberculosis
clinical and laboratory strains. J Bacteriol, 184 (19), 5479-90.
Flores, J. & Espitia, C. (2003). Differential expression of PE and PE_PGRS genes
in Mycobacterium tuberculosis strains. Gene. 318, 75-81.
Ford, C.B.; Lin, P.L.; Chase, M.R.; Shah, R.R.; Iartchouk, O.; Halagan, J…. Fortune,
S.M. (2011). Use of whole genome sequencing to estimate the mutation rate of
Mycobacterium tuberculosis during latent infection. Nat Genet, 43 (5), 482-6.
Ford, C.B.; Shah, R.R.; Maeda, M.K.; Gagneux, S.; Murray, M.B.; Cohen, T.... Fortune,
S.M. (2013). Mycobacterium tuberculosis mutation rate estimates from different
lineages predict substantial differences in the emergence of drug-resistant
tuberculosis. Nat Genet, 45 (7), 784-90.
Forrellad, M. A.; Klepp, L. I.; Gioffré, A.; Sabio y García, J.; Morbidoni, H. R.; de la Paz
Santangelo, M…. Bigi, F. (2013). Virulence factors of the Mycobacterium
tuberculosis complex. Virulence, 4 (1), 3-66.
Gagneux, S.; DeRiemer, K.; Van, T.; Kato-Maeda, M.; de Jong, B.C.; Narayanan, S….
Small, P.M. (2006a). Variable host-pathogen compatibility in Mycobacterium
tuberculosis. Proc Natl Acad Sci U S A. 103 (8), 2869-73.
Gagneux, S.; Long, C.D.; Small, P.M.; Van, T.; Schoolnik, G.K. & Bohannan, B.J.
(2006b). The competitive cost of antibiotic resistance in Mycobacterium tuberculosis.
Science, 312 (5782), 1944-6.
69
Gagneux, S. & Small, P. M. (2007). Global phylogeography of Mycobacterium
tuberculosis and implications for tuberculosis product development. Lancet Infect
Dis, 7 (5), 328-37.
GENOME EVOLUTION LABORATORY. (2013). Software. Mauve-Aligment.
Recuperado de: http://asap.ahabs.wisc.edu.
Green, E.; Obi, L. C.; Okoh, A. I.; Nchabeleng, M.; de Villiers, B. E.; Letsoalo, T….
Ndip, R.N. (2013). IS6110 restriction fragment length polymorphism typing of drug-
resistant Mycobacterium tuberculosis strains from northeast South Africa. J Health
Popul Nutr, 31 (1), 1-10.
Hafez, M. & Hausner, G. (2012). Homing endonucleases: DNA scissors on a misión.
Genome, 55 (8), 553-69.
Harismendy, O.; Nq, P.C; Strausberg, R.L.; Wang, X; Stockwell, B.; Beeson, K.Y….
Frazer, K.A. (2009). Evaluation of next generation sequencing platforms for
population targeted sequencing studies. Genome Biol, 10 (3): R32.
Hamilton, J.J. & Reed, J.L. (2012). Identification of functional differences in metabolic
networks using comparative genomics and constraint-based models. PLoS One, 7
(4), e34670.
Hillemann, D.; Rüsch-Gerdes, S. & Richter, E. (2007). Evaluation of the GenoType
MTBDRplus assay for rifampin and isoniazid susceptibility testing of Mycobacterium
tuberculosis strains and clinical specimens. J Clin Microbiol, 45 (8), 2635-40.
Hoffner, S. (2012). Unexpected high levels of multidrug-resistant tuberculosis present
new challenges for tuberculosis control. Recuperado de:
http://dx.doi.org/10.1016/S0140-6736(12)61069-1.
70
Homolka, S.; Projahn, M.; Feuerriegel, S.; Ubben, T.; Diel, R.; Nübel, U…. Niemann, S.
(2012). Discrimination of Clinical Mycobacterium tuberculosis Complex Strains Based
on Single Nucleotide Polymorphisms. PLoS ONE, 7 (7), e39855.
Hormigo Ruiz, M. (2011). ESTUDIO Y EVALUACIÓN DE ALGORITMOS Y
PROGRAMAS DE ENSAMBLAJE DE SECUENCIAS. Andalucía: Universidad
Internacional de Andalucía.
Hu, T.T.; Eisen, M.B.; Thornton, K.R. & Andolfatto, P. (2013). A second-generation
assembly of the Drosophila simulans genome provides new insights into patterns of
lineage-specific divergence. Genome Res, 23 (1), 89-98.
Illumina Sequencing Technology. (2010). Highest data accuracy, simple workflow, and
a broad range of applications. Recuperado de:
http://www.illumina.com/literature.ilmn.
INSTITUTO NACIONAL DE SALUD. (2013). LINEAMIENTOS PARA EL MANEJO
PROGRAMÁTICO DE PACIENTES CON TUBERCULOSIS
FARMACORRESISTENTE. Recuperado de: http://www.ins.gov.co/lineas-de-
accion/Subdireccion-Vigilancia/micobacterias/.
Ioerger, T.R.; Feng, Y.; Ganesula, K.; Chen, X.; Dobos, K.M.; Fortune, S…. Sacchettini,
J.C. (2010). Variation among genome sequences of H37Rv strains of Mycobacterium
tuberculosis from multiple laboratories. J Bacteriol, 192 (14), 3645-53.
Isaza, J.P; Duque ,C.; Gomez, V.; Robledo, J.; Barrera, L.F. & Alzate J.F. (2012).
Whole genome shotgun sequencing of one Colombian clinical isolate of
Mycobacterium tuberculosis reveals DosR regulon gene deletions. FEMS Microbiol
Lett, 330 (2), 113-120.
71
Isin, E.M. & Guengerich, F.P. (2007). Complex reactions catalyzed by cytochrome P450
enzymes. Biochim Biophys Acta, 1770 (3), 314-29.
Ismail, A.; Teh, L.K.; Ngeow, Y.F.; Norazmi, M.N.; Zainul, Z.F.; Tang, T.H…. Salleh,
M.Z. (2013). Draft Genome Sequence of a Clinical Isolate of Mycobacterium
tuberculosis Strain PR05. Genome Announc, 1 (3), e00397-13.
Johnson, M.T.; Carpenter, E.J.; Tian, Z.; Bruskiewich, R.; Burris, J.N.; Carrigan, C.T….
Wong, G.K. (2012). Evaluation Methods for Isolating Total RNA and Predicting the
Success of Sequencing Phylogenetically Diverse Plant Transcriptomes. PLoS One, 7
(11), e50226.
Karboul, A.; Mazza, A.; Gey van Pittius, N.C.; Ho, J.L.; Brousseau, R. & Mardassi, H.
(2008). Frequent homologous recombination events in Mycobacterium
tuberculosis PE/PPE multigene families: potential role in antigenic variability. J
Bacteriol, 190 (23), 7838-46.
Kato-Maeda, M.; Ho, C.; Passarelli, B.; Banaei, N.; Grinsdale, J.; Flores, L…. Hopewell,
P.C. (2013). Use of whole genome sequencing to determine the microevolution
of Mycobacterium tuberculosis during an outbreak. PLoS One, 8 (3), e58235.
Keeble, A.H.; Mate, M.J. & Kleanthous, C. (2005). HNH Endonucleases. Nucleic Acids
Mol Biol, 16, 49–65.
Kelly, R.D.; Schatz, C.M & Salzberg L.S. (2010). Quake: quality-aware detection and
correction of sequencing errors. Genome Biol, 11 (11), R116.
Kohli, S.; Singh, Y.; Khushbu, S.; Mittal, A.; Nasreen, Z.E. & Seyes, E.H. (2012).
Comparative genomic and proteomic analyses of PE/PPE multigene family
ofMycobacterium tuberculosis H37Rv and H37Ra reveal novel and interesting
differences with implications in virulence. Nucleic Acids Res, 40 (15), 7113–7122.
72
Kong, S.; Liu, X.; Fu, L.; Yu, X. & An, C. (2012). I-PfoP3I: a novel
nicking HNH homing endonuclease encoded in the group I intron of the DNA
polymerase gene in Phormidium foveolarum phage Pf-WMP3. PLoS One, 7 (8),
e43738.
Kurtz, S.; Phillippy, A.; Delcher, L.A.; Smoot, M.; Shumway, M.; Antonescu, C....
Salzberg, L.S. (2004). Versatile and open software for comparing large genomes.
Genome Biol, 5 (2), R12.
Lake, M.W.; Temple, C.A.; Rajagopalan, K.V. & Schindelin, H. (2000). The cristal
structure of the Escherichia coli MobA protein provides insight
into molybdopterin guanine dinucleotide biosynthesis. J Biol Chem, 275 (51), 40211-
7.
Lawn, S.D. & Zumla, A. L. (2011). Tuberculosis Seminar. Lancet, 378 (9785), 57-72.
Lew, J.M.; Kapopoulou, A.; Jones, L.M. & Cole, S.T. (2011). TubercuList--10 years
after. Tuberculosis (Edinb), 91(1), 1-7.
Li, R.; Zhu, H.; Ruan, J.; Qian, W.; Fang, X.; Shi, Z…. Wang, J. (2010). De
novo assembly of human genomes with massively parallel short read sequencing.
Genome Res, 20 (2), 265-72.
Liu, L.; Li, Y.; Li, S.; Hu, N; H , Y.; Pong, Ray…. Law, M. (2012). Comparison of Next-
Generation Sequencing Systems. J Biomed Biotechnol, 2012, 251364.
Liu, T.; Tsai, C.H.; Lee, W.B. & Chiang, J.H. (2013). Optimizing Information in Next-
Generation-Sequencing (NGS) Reads for Improving De Novo Genome Assembly.
PLoS One, 8 (7), e69503.
73
Lodish, H.; Kaiser, A.C.; Berk, A.; Krieger, M.; Matsudaira, P. & Scott, P. M. (2005).
Biología Celular y Molecular. Buenos Aires: Editorial Medica Panamericana.
Lu, B.; Dong, H.Y.; Zhao, X.Q.; Liu, Z.G.; Liu, H.C.; Zhang, Y.Y…. Wan, K.L. (2012). A
new multilocus sequence analysis scheme for Mycobacterium tuberculosis. Biomed
Environ Sci, 25 (6), 620-9.
Ilina, E.N.; Shitikov, E.A.; Ikryannikova, L.N.; Alekseev, D.G.; Kamashev, D.E.;
Malakhova, M.V…. Govorun, V.M. (2013). Comparative genomic analysis
of Mycobacterium tuberculosis drug resistant strains from Russia. PLoS One, 8 (2),
e56577.
Macmanes, M.D. & Eisen, M.B. (2013). Improving transcriptome assembly through error
correction of high-throughput sequence reads. PeerJ, 1, e113.
Marçais, G. & Kingsford, C. (2011). A fast, lock-free approach for efficient parallel
counting of occurrences of k-mers. Bioinformatics, 27 (6), 764-770.
Makadia, J.S.; Jain, A.; Patra, S.K.; Sherwal, B.L. & Khanna, A. (2012). Emerging Trend
of Mutation Profile of rpoB Gene in MDR Tuberculosis, North India. Indian J Clin
Biochem, 27 (4), 370-4.
Mazandu, G.K. & Mulder, N.J. (2012). Function Prediction and Analysis
of Mycobacterium tuberculosis Hypothetical Proteins. Int J Mol Sci, 13 (6), 7283-302.
McEvoy, C.R.; Cloete, R.; Müller, B.; Schürch, A.C.; Van Helden, P.D.; Gaqneux, S....
Gey Van Pittus, N.C. (2012). Comparative analysis of Mycobacterium tuberculosis
pe and ppe genes reveals high sequence variation and an apparent absence of
selective constraints. PLoS One, 7 (4), e30593.
McLean, K.J.; Carroll, P.; Lewis, D.G.; Dunford, A.J.; Seward, H.E.; Neeli, R…. Munro,
A.W. (2008). Characterization of active site structure in CYP121.
74
A cytochrome P450 essential for viability of Mycobacteriumtuberculosis H37Rv. J Biol
Chem, 283 (48), 33406-16.
Medvedev, P.; Scott, E.; Kakaradov, B. & Pevzner, P. (2011). Error correction of high-
throughput sequencing datasets with non-uniform coverage. Bioinformatics, 27 (13),
i137-41.
Merker, M.; Kohl, T.A.; Roetzer, A.; Truebe, L.; Richter, E.; Rüsch-Gerdes, S....
Niemann, S. (2013). Whole genome sequencing reveals complex evolution patterns
of multidrug-resistant Mycobacterium tuberculosis Beijing strains in patients. PLoS
One, 8 (12), e82551.
Metcalfe, J.Z.; Porco, T.C.; Westenhouse, J.; Damesyn, M.; Facer, M.; Hill, J…. Flood,
J. (2012). Tuberculosis and HIV Co-infection, California, USA, 1993-2008. Emerg
Infect Dis, 19 (3), 400-6.
Miller, J.R.; Koren, S. & Sutton, G. (2010). Assembly algorithms for next-generation
sequencing data. Genomics, 95 (6), 315-27.
Ministerio de protección social. (2009). Plan Estratégico Colombia Libre de
Tuberculosis 2010-2015 Para la Expansión y fortalecimiento de la Estrategia Alto a la
TB. Colombia: OPS/OMS.
Muller, E.E.; Pinel, N.; Gillece, J.D.; Schupp, J.M.; Price, L.B.; Engelthaler, D.M….
Wilmes, P. (2012). Genome sequence of "Candidatus Microthrix parvicella" Bio17-1,
a long-chain-fatty-acid-accumulating filamentous actinobacterium from a biological
wastewater treatment plant. J Bacteriol, 194 (23), 6670-1.
Nabavinia, M.S.; Naderi Nasab, M.; Meshkat, Z.; Derakhshan, M. & Khaje-Karamadini,
M. Construction of an Expression Vector Containing Mtb72F of Mycobacterium
tuberculosis. Cell J, 14 (1), 61-6.
75
Namouchi, A.; Karboul, A.; Fabre, M.; Gutierrez, M.C. & Mardassi, H. (2013).
Evolution of smooth tubercle Bacilli PE and PE_PGRS genes: evidence for a
prominent role of recombination and imprint of positive selection. PLoS One, 8 (5),
e64718.
Niobe-Eyangoh, S.N.; Kuaban, C.; Sorlin, P.; Thonnon, J.; Vincent, V. & Gutierrez,
M.C. (2004). Molecular characteristics of strains of the cameroon family, the major
group of Mycobacterium tuberculosis in acountry with a high prevalence of
tuberculosis. J Clin Microbiol, 42 (11); 5029-35.
Otto, D.T; Dillon, P.G; Degrave, S.W. & Berriman, M. (2011). RATT: Rapid Annotation
Transfer Tool. Nucleic Acids Res, 39 (9), e57.
Paszkiewicz, K. & Studholme, J.D. (2010). De novo assembly of short sequence reads.
Brief Bioinform, 11(5), 457-472.
Pérez-lago, L.; Herranz, M. & Martinez L.M. (2011). Characterization of Microevolution
Events in Mycobacterium tuberculosisStrains Involved in Recent Transmission
Clusters. J Clin Microbiol, 49 (11), 3771–3776.
Puiu, D.; Xu, P.; Alves, J.M; Serrano, M. & Buck, A.G. (2004). SUPERCONTIGS: A
Contig Scaffolding Tool. En D. Puiu, 3rd International IEEE Computer Society
Computational Systems Bioinformatics Conference (pp. 736-737). Washington DC,
USA: IEEE Computer Society Washington.
QUAKE. (2013). Overview. Recuperado de :
http://www.cbcb.umd.edu/software/quake/index.html.
76
Ragheb, M.N.; Ford, C.B.; Chase, M.R.; Lin, P.L.; Flynn, J.L. & Fortune, S.M. (2013).
The mutation rate of mycobacterial repetitive unit loci in strains of
M. tuberculosis from cynomolgus macaque infection. BMC Genomics, 14, 145.
Ramage, H.R.; Connolly, L.E. & Cox, J.S. (2009). Comprehensive functional analysis
of Mycobacterium tuberculosis toxin-antitoxin systems: implications for pathogenesis,
stress responses, and evolution. PLoS Genet, 5 (12), e1000767.
Reyes, A.; Sandoval, A.; Cubillo-Ruiz, A.; Varley, K.V.; Hernandez-Neuta, I.; Samper,
S…. Del portillo, P. (2012). IS-seq: a novel high throughput survey of in vivoIS6110
transposition in multiple Mycobacterium tuberculosis genomes. BMC Genomics, 13,
249.
Reyes, F.; Tirado, Y.; Puig A.; Borrero, R.; Reyes, G.; Fernández, S…. Acosta, A.
(2013). Immunogenicity and cross-reactivity against Mycobacterium tuberculosis of
proteoliposomes derived fromMycobacterium bovis BCG. BMC Immunol, 14 (Suppl
1), S7.
Rodríguez, J.E.; Ramírez, A.S.; Salas, L.P.; Helguera-Repetto, C.; Gonzalez-y-
Merchand, J.; Soto C.Y…. Hernández-Pando, R. (2013). Transcription of Genes
Involved in Sulfolipid and Polyacyltrehalose Biosynthesis of Mycobacterium
tuberculosis in Experimental Latent Tuberculosis Infection. PLoS One, 8 (3), e58378.
Roetzer, A.; Diel, R.; Kohl, T.A.; Rückert, C.; Nübel, U.; Blom, J…. Niemann, S. (2013).
Whole genome sequencing versus traditional genotyping for investigation of
a Mycobacterium tuberculosisoutbreak: a longitudinal molecular epidemiological
study. PLoS Med, 10 (2), e1001387.
Rutherford, K.; Parkhill, J.; Crook, J.; Horsnell, T.; Rice, P.; Rajandream, M.A….
Barrell, B. (2000). Artemis: sequence visualization and annotation. Bioinformatics, 16
(10), 944-5.
77
Salzberg, S.L.; Phillippy, A.M.; Zimin, A.; Puiu, D.; Magoc, T.; Koren, S…. Yorke, J.A.
(2012). GAGE: A critical evaluation of genome assemblies and assembly algorithms.
Genome Res, 22 (3), 557-67.
Sanger Institute. (2013). RATT: Rapid Annotation Transfer Tool. Recuperado de:
http://ratt.sourceforge.net/.
Sankar, S.; Kuppanan, S.; Balakrishnan, B. & Nandagopal, B. (2011). Analysis
of sequence diversity among IS6110 sequence of Mycobacterium tuberculosis:
possible implications for PCR based detection. Bioinformation, 6 (7), 283-5.
Saravanan, M.; Bujnicki, J.M.; Cymerman, I.A.; Rao, D.N. & Nagaraja, V. (2004). Type
II restriction endonuclease R.KpnI is a member of the HNH nuclease superfamily.
Nucleic Acids Res, 32 (20), 6129-35.
Sassetti, C.M.; Boyd, D.H. & Rubin, E.J. (2003). Genes required for mycobacterial
growth defined by high density mutagenesis. Mol Microbiol, 48 (1), 77-84.
Schatz, M.C.; Delcher, A.L. & Salzberg, S.L. (2010). Assembly of large genomes using
second-generation sequencing. Genome Res, 20 (9), 1165-73.
Schatz, M.C.; Witkowski, J. & McCombie, W.R. (2012). Current challenges in de novo
plant genome sequencing and assembly. Genome Biol, 13 (4), 243.
Secretaria Distrital de Salud. (2011). BOLETIN EPIDEMIOLOGICO DISTRITAL DE
TUBERCULOSIS. Bogota: Alcaldía mayor de Bogota.
Sharp, J.D.; Cruz, J.W.; Raman, S.; Inouye, M.; Husson, R.N. & Woychik, N.A.
(2012).Growth and translation inhibition through sequence-specific RNA binding
by Mycoba-cterium tuberculosis VapC toxin. J Biol Chem, 287 (16), 12835-47.
78
Shen, B.W.; Landthaler, M.; Shub, D.A. & Stoddard, B.L. (2004). DNA binding and
cleavage by the HNH homing endonuclease I-HmuI. J Mol Biol, 342 (1), 43-56.
SIVIGILA. (2012). semana 38. Recuperado de: http://www.ins.gov.co.
SOAP. (2013). SOAPdenovo. Recuperado de: http://soap.genomics.org.cn.
Sovic´, I. (2012). Approaches to DNA de novo Assembly. (Tesis Doctoral). Faculty of
Electrical Engineering and Computing: Ruder Boškovic Institute, Zagreb, Croacia.
Sreenu, V.B.; Kumar, P.; Nagaraju, J. & Nagarajam, H.A. (2007). Simple sequence
repeats in mycobacterial genomes. J Biosci, 32 (1), 3-15.
Steenken, W.; Oatway, W.H. & Petroff, S.A. (1934). BIOLOGICAL STUDIES OF THE
TUBERCLE BACILLUS : III. DISSOCIATION AND PATHOGENICITY OF THE R
AND S VARIANTS OF THE HUMAN TUBERCLE BACILLUS (H(37)). J Exp Med, 60
(4), 515-40.
Stoddard, B.L. (2005). Homing endonuclease structure and function. Q Rev Biophys,
38, 49–95.
Subbian, S.; O'Brien, P.; Kushner, N.L.; Yang, G.; Tsenova, L.; Peixoto, B…. Kaplan, G.
(2013). Molecular immunologic correlates of spontaneous latency in a rabbit model of
pulmonary tuberculosis. Cell Commun Signal, 11 (1), 16.
Talarico, S.; Cave, M.D.; Foxman, B.; Marrs, C.F.; Zhang, L.; Bates, J.H….Yang, Z.
(2007). Association of Mycobacterium tuberculosis PE PGRS33 polymorphism with
clinical and epidemiological characteristics. Tuberculosis (Edinb), 87 (4), 338-46.
79
Talarico, S.; Zhang, L.; Marrs, C.F.; Foxman, B.; Cave, M.D.; Brennan, M.J…. Yang, Z.
(2008). Mycobacterium tuberculosis PE_PGRS16 and PE_PGRS26 genetic
polymorphism among clinical isolates. Tuberculosis (Edinb). 88 (4), 283-94.
Tateishi, Y.; Tamaru, A.; Ogura, Y.; Niki, M.; Wada, T.; Yamamot, T…. Matsumoto, S.
(2013). Whole-Genome Sequence of the Potentially Hypertransmissible Multidrug-
Resistant Mycobacterium tuberculosis Beijing Strain OM-V02_005. Genome
Announc, 1 (4), e00608-13.
Tessema, B.; Beer, J.; Merker, M.; Emmrich, F.; Sack, U.; Rodloff, A.C....Niemann, S.
(2013). Molecular epidemiology and transmission dynamics of Mycobacterium
tuberculosis in Northwest Ethiopia: new phylogenetic lineages found in Northwest
Ethiopia. BMC Infect Dis, 13, 131.
Thorisson, G.A.; Muilu, J. & Brookes, A.J. (2009). Genotype-phenotype databases:
challenges and solutions for the post-genomic era. Nat Rev Genet, 10 (1), 9-18.
Tiwari, B.M.; Kannan, N.; Vemu, L. & Raghunand, T.R. (2012). The Mycobacterium
tuberculosis PE proteins Rv0285 and Rv1386 modulate innate immunity and mediate
bacillary survival in macrophages. PLoS One, 7 (12), e51686.
Tsai, I.J.; Otto, T.D. & Berriman, M. (2010). Improving draft assemblies by iterative
mapping and assembly of short reads to eliminate gaps. Genome Biol, 11 (4), R41.
Tsolaki, A.G.; Hirsh, A.E.; DeRiemer, K.; Enciso, J.A.; Wong, M.Z.; Hannan, M…. Small,
P.M. (2004). Functional and evolutionary genomics of Mycobacterium tuberculosis:
insights from genomic deletions in 100 strains. Proc Natl Acad Sci U S A, 101 (14),
4865-70.
Vellarikkal, S.K.; Singh, A.V.; Singh, P.K.; Garg, P.; Katoch, V.M.; Katoch, K.... Scaria,
V. (2013). Draft Genome Sequence of a Multidrug-Resistant Clinical Isolate of
80
Mycobacterium tuberculosis Belonging to a Novel Spoligotype. Genome Announc.
21, 1 (6).
Vezzi, F.; Narzisi, G. & Mishra, B. (2012). Reevaluating Assembly Evaluations with
Feature Response Curves: GAGE and Assemblathons. PLoS One, 7 (12), e52210.
Walker, T.M.; Ip, C.L.; Harrell, R.H.; Evans, J.T.; Kapatai, G.; Dedicoat, M.J…. Peto,
T.E. (2013). Whole-genome sequencing to delineate Mycobacterium
tuberculosis outbreaks: a retrospective observational study. Lancet Infect Dis, 13 (2),
137-46.
Wang, F.; Sambandan, D.; Halder, R.; Wang, J.; Batt, S.M.; Weinrick, B.... Schultz, P.G.
(2013). Identification of a small molecule with activity against drug-resistant and
persistent tuberculosis.Proc Natl Acad Sci U S A. 110 (27), E2510-7.
WHO. (2011). GLOBAL TUBERCULOSIS CONTROL 2011. Recuperado de:
http://whqlibdoc.who.int/publications/2011/9789241564380_eng.pdf
World Health Organization Global. (2012). Tuberculosis Report 2012. Recuperado de:
http://apps.who.int/iris/bitstream/10665/75938/1/9789241564502_eng.pdf.
Yang X.; Dorman, K.S. & Aluru, S. (2010). Reptile: representative tiling
for short read error correction. Bioinformatics. 26 (20), 2526-33.
Yu, Q.; Su, Y.; Lu, B.; Ma, Y.; Zhao, X.; Yang, X…. Wan, K. (2013). Genetic Diversity
of Mycobacterium tuberculosis Isolates from Inner Mongolia, China. PLoS One, 8 (5),
e57660.
Yusufzai, T. & Kadonaga, J.T. (2010). Annealing helicase 2 (AH2), a DNA-rewinding
motor with an HNH motif. Proc Natl Acad Sci U S A, 107 (49), 20970-3.
81
Zakham, F.; Chaoui, I.; Echchaoui, A.H.; Chetioui, F.; Elmessaoudi, M.D.; Ennaji, M.M.;
Abid, M. & Mzibri M.E. (2013). Direct sequencing for rapid detection of multidrug
resistant Mycobacterium tuberculosis strains in Morocco. Infect Drug Resist, 6, 207-
13.
Zhang, W.; Chen, J.; Yang, Y.; Tang, Y.; Shang, J. & Shen, B. (2011). A practical
comparison of de novo genome assembly software tools for next-generation
sequencing technologies. PLoS One, 6 (3), e17915.
Zhang, Y.; Zhang, J.; Hoeflich, K.P.; Ikura, M.; Qing, G. & Inouye, M. (2003). MazF
cleaves cellular mRNAs specifically at ACA to block protein synthesis in Escherichia
coli. Mol Cell. 12 (4), 913-23.
Zhang, Y.J.; Ioerger, T.R.; Huttenhower, C.; Long, J.E.; Sassetti, C.M.; Sacchettini,
J.C…. Rubin, E.J. (2012). Global assessment of genomic regions required for growth
in Mycobacterium tuberculosis. PLoS Pathog. 8 (9), e1002946.
Zheng, H.; Lu, L.; Wang, B.; Pu, S.; Zhang, X.; Zhu, G…. Zhang, Y. (2008).
Genetic basis of virulence attenuation revealed by comparative genomic analysis of
Mycobacterium tuberculosisstrain H37Ra versus H37Rv.PLoS One. 3 (6), e2375.
82