Aplicación del Software Libre en la Secuenciación del ADN ...
Transcript of Aplicación del Software Libre en la Secuenciación del ADN ...
Aplicación del Software Libre en la Secuenciación del ADNIng. Jacob Israel Cervantes Luevano
Twitter: @jacobnixWeb: http://www.langebio.cinvestav.mx/bioinformatica/jacob/ResearchG: https://www.researchgate.net/profile/Jacob_Israel_Cervantes_LuevanoGitHub: https://github.com/JacobIsraelEmail: [email protected]
Cinvestav Langebio
http://labsergen.langebio.cinvestav.mx/en/
En las últimas décadas la ciencia pudo describir el
genoma de plantas, bacterias y animales, incluso,
del hombre.
El análisis de toda la información genómica de
estos seres vivos, ha sido posible gracias a los
avances en tecnologías de secuenciación del
adn y a la contribución de la informática en lo
que se conoce como Bioinformática.
Secuenciación
●Obtención de secuencias
ABI 3730
SOLiD
GS 454
Secuencias (Datospara analizar)
>lectura 1ACTGACTGACTGCTGACTGCACTGACGTGTCAAACG
>lectura 2ACTGCGTAGCTATTACGACTAGCG.....
>lectura 1G34567892345
>lectura 2A235343434344
.....
>lectura 135 40 33 33 22
>lectura 223 11 23 34 32
calidadessecuencias(3G)
Secuenciación
http://labsergen.langebio.cinvestav.mx/genomics/?page_id=1972
Secuenciación
http://labsergen.langebio.cinvestav.mx/genomics/?page_id=1972
http://labsergen.langebio.cinvestav.mx/genomics/?page_id=1972
Secuenciación
http://labsergen.langebio.cinvestav.mx/genomics/?page_id=1972
Secuenciación
http://labsergen.langebio.cinvestav.mx/genomics/?page_id=1972
Secuenciación
http://labsergen.langebio.cinvestav.mx/genomics/?page_id=1972
Secuenciación
Procesamiento de Datos
Secuenciación
●Proyecto de secuenciación o datos para analizar.
●Infraestructura de Supercomputo.
●Infraestructura de Almacenamiento de datos.
●Programas para análisis de los datos.
●Personal(Matemáticos,Estadísticos,Químicos,Biólogos,Bioquímicos,Informáticos).
●Fuentes de Financiamiento (Dinero)
Proyecto de Secuenciación
●Instrumento de Secuenciación
ABI 3730
SOLiD
GS 454
Secuencias(Datos paraanalizar)
>lectura 1ACTGACTGACTGCTGACTGCACTGACGTGTCAAACG
>lectura 2ACTGCGTAGCTATTACGACTAGCG.....
>lectura 1G34567892345
>lectura 2A235343434344
.....
>lectura 135 40 33 33 22
>lectura 223 11 23 34 32
calidadessecuencias(3G)
●Cluster de Computo
Resultados de Secuenciación
Codigo Genetico>1_15_1031_F3T223211000103001122003012220220313220021231101311212002131213>1_15_1123_F3T020133331212300011132111232201001203112110113232110022212103>1_15_1129_F3T220013030313200022123013111221311132200110232201311320021330
@+5BEFOREAAAAAACGTTGCAGGATTCCTT+IIIIIIIIIIIIIIIIIIIIII@+5AFTERACGTTGCAGGATTCCTTAAAAA+IIIIIIIIIIIIIIIIIIIIII@+5BEFOREANDAFTERAAAAAACGTTGCAGGATTCCTTAAAAA+IIIIIIIIIIIIIIIIIIIIIIIIIII
>DH10BAGCTTTTCATTCTGACTGCAACGGGCAATAATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGCTTCTGAACTGGTTACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAACCAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGACGCGTACAGGAAACACAGAAAAAAGCCCGCACCTGACAGTGCGGGCTTTTTTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAAGTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATATTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCACCTGGTGGCGATGATTGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGTATTTTTGCCGAACTTTTGACGGGACTCGCCGCCGCCCAGCCGGGGTTCCCGCTGGCGCAATTGAAAACTTTCGTCGATCAGGAATTTGCCCAAATAAAACATGTCCTGCATGGCATTAGTTTGTTGGGGCAGTGCCCGGATAGCATCAACGCTGCGCTGATTTGCCGTGGCGAGAAAATGTCGATCGCCATTATGGCCGGCGTATTAGAAGCGCGCGGTCACAACGTTACTGTTATCGATCCGGTCGAAAAACTGCTGGCAGTGGGGCATTACCTCGAATCTACCGTCGATATTGCTGAGTCCACCCGCCGTATTGCGGCAAGCCGCATTCCGGCTGATCACATGGTGCTGATGGCAGGTTTCACC
Datos en
Terabytes !!!!
Software Libre
La Aplicación del Software Libre es tan vasta que casien cualquier nicho puede ser aplicado de diversasmaneras.
Un nicho con un espectro de aplicación muy amplio ydiverso es la CIENCIA e INVESTIGACIÓN donde laBIOINFORMÁTICA para su avance se apoyafuertemente del Software Libre.
ACTGACTGA.....
¿Porqué Bioinformática?
La investigación en biología y en otras ciencias producegrandes cantidades de información.
La única forma de analizar la información es medianteel uso de computadoras y programas.
Surge la Bioinformática.
ACTGACTGA.....
¿Qué es Bioinformática?
●Aplicación de tecnología de computadores a la gestión y análisis de datos biológicos.
●Convergencia de campos de estudiosinterdisciplinarios:●informática.●matemática aplicada.●estadística.●inteligencia artificial.●química y bioquímica, biología.
●Solucionar problemas, analizar datos, o simularsistemas o mecanismos biológicos mediante equiposde alto rendimiento como un cluster de computo.
¿ Qué es un Cluster de Computo ?
●Grupo de múltiples computadoras.●Unidos mediante una red de alta velocidad.●El conjunto es visto como una única computadora.●Mas potente que una PC de escritorio.
© Jacob Israel Cervantes Luevano
Figura 1.Arquitectura de un Cluster de Computadoras
Clasificación de los Clusters
●Clusters de Alto rendimiento.(HPC - High Performance)●Alta Disponibilidad.(HA – High Availability)●Alta Eficiencia.(HT – High Throughput)●Escalabilidad.
También se pueden clasificar como:●Clusters Comerciales(HA y HT)●Clusters Científicos(HPC)
© Jacob Israel Cervantes Luevano
Figura 2. Nasa Columbia
Componentes de un Cluster
●HardwareServidor (frontend).Nodos de computo (backend).Red.
●SoftwareSistema Operativo.Programas para administración de recursos.Programas para programación en paralelo y distribuida.
© Jacob Israel Cervantes Luevano
Componentes de un Cluster
© Jacob Israel Cervantes Luevano
Componentes de un Cluster ( Front End )
●Normalmente es una gran máquina.●Gran capacidad de almacenamiento.●Conexión a red externa.●Repositorio de los principales servicios y componentes de software
© Jacob Israel Cervantes Luevano
Figura 3. Esquema de un cluster
INTERNET
Mac
PC
Mac
PC
Mac
GNULINUX
INTRANET
Componentes de un Cluster (Nodos)
●Ejecutan las tareas en el cluster.●Almacenamiento temporal, permanente o diskless.●¿Mismos componentes de un PC convencional ?●Memoria usualmente muy alta.
© Jacob Israel Cervantes Luevano
Figura 3. Esquema de un cluster
INTERNET
Mac
PC
Mac
PC
Mac
GNULINUX
INTRANET
Componentes de un Cluster(Almacenamiento)
●Interno en el servidor(IDE, SATA I, SATA II, SCSI...).●NAS(Network Attached Storage, 1TB,2TB,3TB,4TB).●NAS USB o Gigabit Ethernet.●NAS a través de protocolos NFS,FTP, CIFS/SMB,AFP.●Unidades de Cinta.
© Jacob Israel Cervantes Luevano
Figura 3. Esquema de un cluster
Mac
PC
Mac
PC
Mac
GNULINUX
INTRANET
Componentes de un Cluster (Almacenamiento)
© Jacob Israel Cervantes Luevano
Figura 3. MD1000 – 15x1TB SATA (RAID-5 hotspare)
Componentes de un Cluster(Red)
●Ethernet, Fast Ethernet, Gigabit Ethernet.
●Myrinet(Red Clase II, >1Gbps, Alto costo).
●Infiniband(Alto costo). 2.5Gb/s modo simple.
●La opción más utilizada es Gigabit Ethernet(1000Mbps)
© Jacob Israel Cervantes Luevano
Componentes de un Cluster(Software)
Servicios en el Servidor
●Autenticación remota (secure shell).
●Montaje remoto de sistemas de archivos(NFS,autofs).
●Middleware:●Manejo de Recursos(RS).●¿Qué disponibilidad de recursos existen?●¿Cómo administro y distribuyo los recursos?
Torque/PBS (Administrador de Recursos)Maui (Planificador )
© Jacob Israel Cervantes Luevano
Componentes de un Cluster(Software)
Servicios en el Servidor
Nodo con problema
Lista Nodos esclavos
Nodo estable
Gráficas del uso del cluster
Rocks and Rolls
●Distribución de Linux : CentOS 5.x, 6.x, 7.x
●Clon a nivel binario de Red Hat Linux (CentOS).
●Utilizado para montaje HPC, pequeña y gran escala.
●Paquetes configurados “Rolls”.
●Mas todo lo demás que acabo de comentar.
© Jacob Israel Cervantes Luevano
http://www.rocksclusters.org
Supercomputo - Sistema Operativo/Procesador
(top500.org)
Supercomputo Genomica Cinvestav Langebio
"FLoating point Operations Per Second" u Operaciones de punto(o coma) flotante por segundo.
Los FLOPS son una medida de rendimiento de una computadora, especialmente en el campo científico, en donde se utiliza mucho las operaciones con datos de tipo flotante, para realizar simulaciones precisas y obtener resultados fidedignos.
¿Principales Áreas de Investigación?
© Jacob Israel Cervantes Luevano
●Análisis de Expresión Génica.
●Análisis de mutaciones, polimorfismos.
●Ensamblado de Genomas.
●Muchas más ..
Software Libre Bioinformática
© Jacob Israel Cervantes Luevano
●http://en.wikipedia.org/wiki/List_of_opensource_bioinformatics_software
Software Libre que Desarrollamos
User Login PageThe main start point is the login web page
Search Web Page – Main HomeThis screenshot shows the main user interface search page
Search Methods:
●Contig Name●Keywords / Descriptions●Blast
●Existing Analisys
Browser Page – Main HomeThis screenshot shows the main user interface search page
Hsp BitScoreColor Bar
Gene Model (fgenesh abinitio)
454 GS 20 reads
Live LinksBlast HSPs
ZMGI HitNR HitArabidopsis Hit
Blast HSPs (hit 1)
Blast2Gene
Query Sequence Visualizer
Development Tools●Server●100% Full Linux Development●C# (C Sharp)●Mono Runtime●Web Services (asmx)●XSP 2 for ASP.NET testing●Apache Web Server
●Client●Jquery●DojoToolkit
●Database●MySQL (optional)●PostgreSQL
Mono. Project by Miguel De Icaza
Desarrollo de Software
http://datos.langebio.cinvestav.mx/~jacob/projects/qsv/index.html
México aporta el Genoma del Maíz al
conocimiento científico mundial.
Articulo en Nature sobre el Genoma de
la Planta Carnivora
Aplicación del Software Libre en la Secuenciación del ADNIng. Jacob Israel Cervantes Luevano
Twitter: @jacobnixWeb: http://www.langebio.cinvestav.mx/bioinformatica/jacob/ResearchG: https://www.researchgate.net/profile/Jacob_Israel_Cervantes_LuevanoGitHub: https://github.com/JacobIsraelEmail: [email protected]
MUCHAS GRACIAS