DESARROLLO E IMPLEMENTACIÓN DE UNA PLATAFORMA BIOINFORMÁTICA
PARA ANÁLISIS RNA-SEQ BASADA EN GALAXY
Autores: Cristian Alejandro Rojas Luis Miguel Gutierrez
Dirigido por: M.Sc Nelson Enrique Vera
Agenda❏ Introducción❏ Formulación del problema❏ Metodología❏ Resultados❏ Conclusiones❏ Trabajos futuros
INTRODUCCIÓN
Convenio IGUN-CECAD
Artículos GeneradosIGUN
❏ The Transcriptome of the Caribbean Reef-building Coral Diploria strigosa Reveals a Highly Complex Immune Repertoire.
❏ THE TRANSCRIPTOME OF Hydractinia symbiolongicarpus REVEALS A COMPLEX IMMUNE SYSTEM.
U. Distrital❏ Automatic BLAST for Massive Sequencing - ABMS, Proceedings of the
2nd Colombian Congress on Computational Biology and Bioinformatics (CCBCOL).
❏ MAFA: A web based software to automate functional annotation of genomes and transcriptomes. Tecnura.
Ponencias
❏ LACCEI 2013, Cancún-México, Automatic BLAST for Massive Sequencing - ABMS
❏ CCBCOL 2013, Manizales-Colombia, Presentation and Evaluation of ABMS (Automatic Blast for Massive Sequencing)
❏ IWBBIO 2014, Granada-España, Massive Automatic Functional Annotation MAFA
FORMULACIÓN DEL PROBLEMA
Evolución de la secuenciaciónMétodo de Sanger: Secuenciación por Dideoxinucleótidos
NGS - Next Generation Sequencing: High-throughput sequencing
Datos tomados de: http://www.the-scientist.com/?articles.view/articleNo/15939/title/DNA-Sequencing-Industry-Sets-its-Sights-on-the-Future/
U$2400 por1M bases
U$0.05 - U$0.15 Por 1M bases
Hasta 52.5 Kbases por corrida
Hasta 600 Gbases por corrida
RNA-Seq
Aplicaciones clínicas y biomédicas.Facilitar estudio de otros organismos.
Datos tomados de: http://www.rna-seqblog.com/rna-seq-library-prep-introduction/
El RNA-Seq es un poderoso método de descubrimiento, perfilamiento y cuantificación de transcritos de ARN.
Principales dificultades de un análisis RNA-Seq
Principales dificultades de un análisis RNA-Seq
❏ Se requiere de computación de alto desempeño para su ejecución.
❏ Herramientas no amigables para el usuario.❏ Formatos de entrada y salida confusos para un
usuario final.❏ El usuario debe saber e integrar etapas del
proceso.
Formulación del problema
¿Cómo diseñar y desarrollar una herramienta que integre, automatice y facilite el análisis de
de datos transcriptómicos?
Justificación
Nuevas áreas de investigaciónFortalece estudio de mecanismos de respuesta inmune en varios organismos.
Objetivo generalDesarrollar una plataforma bioinformática basada en Galaxy orientada al análisis de datos RNA-Seq de acuerdo a las necesidades del Grupo de Inmunología Evolutiva (GIE) del Instituto de Genética de la Universidad Nacional (IGUN), haciendo uso del Centro de Cómputo de Alto Desempeño de la Universidad Distrital (CECAD).
Objetivos específicos❏ Estudiar los procesos que hacen parte de un análisis RNA-
Seq.❏ Diseñar un pipeline que automatice los procesos
normalmente usados en un análisis RNA-Seq.❏ Integrar herramientas bioinformáticas requeridas para
realizar un análisis RNA-Seq.❏ Desplegar en producción la plataforma desarrollada en un
servidor del CECAD para el público en general y así fortalecer la imagen de investigación de la Universidad Distrital.
METODOLOGÍAEstudio de
requerimientos
Diseño de arquitectura y selección de herramientas
Implementación, configuración, personalización e integración de herramientas a la plataforma
Acondicionamiento de infraestructura
DocumentaciónEvaluación
Procesos necesarios para RNA-Seq y requerimientos de la plataforma
Listado de herramientas a integrar
Equipo con herramientas instaladas
Plataforma funcional
Documentación técnica y de usuario
Satisfacción de requerimientos y cuadro comparativo.
Análisis de requerimientos❏ Reuniones con los investigadores del IGUN.❏ Se evidenciaron las siguientes necesidades principales:
❏ Soporte de todos los procesos de análisis transcriptómico.
❏ Interfaz de usuario amigable.❏ Contar con gestión de usuarios.
Selección de herramientas❏ Búsqueda de herramientas bioinformáticas disponibles
para cada proceso. Revisión de bibliotecas digitales (Pubmed), journals y foros dedicados a bioinformática.
❏ Selección de herramientas por su aceptación en la comunidad científica.
❏ Búsqueda de plataforma base que permitiera la solución del problema formulado.
RESULTADOS
Flujo de trabajo
Arquitectura general
Módulo de preprocesamiento
Módulo de preprocesamiento
Módulo de mapeo
Módulo de Mapeo
Módulo de ensamblaje
Módulo de ensamblaje
Módulo de anotación
Módulo de anotación
Módulo de expresión diferencial
Módulo de expresión diferencial
Módulo de estimación de abundancia
Módulo de estimación de abundancia
Utilidades
● Samtools○ Organización, mezcla, indexación.
● CummeRbund○ Acceso, exploración, graficación.
● EMBOSS: Transeq○ Traduce secuencias a péptidos
Demostración
Trabajos futuros
● Escalabilidad horizontal○ Sistema distribuido
● Herramientas ○ Aprendizaje de máquina
Conclusiones● Se logró diseñar un pipeline que automatiza los procesos que hacen parte
de un análisis RNA-Seq, a partir del estudio de dichos procesos.
● Se desarrolló y puso en producción un software que Integra herramientas bioinformáticas requeridas para realizar un análisis RNA-Seq.
● Se encontraron posibles trabajos futuros para mejorar la eficiencia de la plataforma y ampliar el área de trabajo en bioinformática.
Top Related