Alineamiento múltiple de secuencias - CINVESTAVertello/bioinfo/sesion07.pdf · 2014-07-17 ·...
Transcript of Alineamiento múltiple de secuencias - CINVESTAVertello/bioinfo/sesion07.pdf · 2014-07-17 ·...
Alineamiento múltiple de secuencias
Dr. Eduardo A. RODRÍGUEZ TELLO
CINVESTAV-Tamaulipas
11 de junio del 2013
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 1 / 39
1 Alineamiento múltiple de secuenciasIntroducciónFunción de puntuaciónAlgoritmos exhaustivosAlgoritmos heurísticos
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 2 / 39
Alineamiento múltiple de secuencias Introducción
1 Alineamiento múltiple de secuenciasIntroducciónFunción de puntuaciónAlgoritmos exhaustivosAlgoritmos heurísticos
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 3 / 39
Alineamiento múltiple de secuencias Introducción
Introducción
Una extensión natural del alineamiento de pares de secuenciases el alineamiento múltiple, el cual consiste en alinear diversassecuencias relacionadas para lograr la mejor coincidencia entrelas secuencias
Como vimos la clase pasada la búsqueda de similitud en BDpuede devolver como resultado un grupo de secuenciasrelacionadas con la secuencia consulta (en pares)
A menudo es necesario convertir esos númerosos alineamientosde pares en un solo alineamiento (múltiple), el cual permiteidentificar posiciones evolutivas equivalentes en todas lassecuencias
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 4 / 39
Alineamiento múltiple de secuencias Introducción
Introducción
La gran ventaja del alineamiento múltiple de secuencias (AMS) esque permite revelar mucha más información biológica que ungrupo de alineamientos de pares
El AMS es importante tiene aplicaciones importantes:
Análisis filogenético
Predicción de la estructura secundaria y terciaria de proteínas ...
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 5 / 39
Alineamiento múltiple de secuencias Introducción
Introducción
En teoría es posible usar la programación dinámica para alinearcualquier número de secuencias, sin embargo el tiempo decálculo y la memoria requerida aumenta exponencialmente
En la práctica los enfoques heurísticos son los más utilizados
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 6 / 39
Alineamiento múltiple de secuencias Función de puntuación
1 Alineamiento múltiple de secuenciasIntroducciónFunción de puntuaciónAlgoritmos exhaustivosAlgoritmos heurísticos
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 7 / 39
Alineamiento múltiple de secuencias Función de puntuación
Función de puntuación
El AMS consiste en acomodar las secuencias de forma tal que elmáximo número de residuos de cada secuencia coincidan deacuerdo a una función de puntuación (scoring function) particular
La función de puntuación para el AMS está basada en elconcepto de suma de pares (SP)
Como su nombre lo indica, es la suma de la puntuación de todoslos posibles pares de secuencias en un AMS utilizando una matrizde puntuación particular
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 8 / 39
Alineamiento múltiple de secuencias Función de puntuación
Función de puntuación
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 9 / 39
Alineamiento múltiple de secuencias Algoritmos exhaustivos
1 Alineamiento múltiple de secuenciasIntroducciónFunción de puntuaciónAlgoritmos exhaustivosAlgoritmos heurísticos
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 10 / 39
Alineamiento múltiple de secuencias Algoritmos exhaustivos
Algoritmos exhaustivos
Estas técnicas implican el alineamiento de todos los posiblesalineamientos de manera simultánea y similar a como se realizaen la programación dinámica
Por lo tanto, implican la construcción de una matrizmultidimensional, e.g. para alinear tres secuencias (k = 3) serequiere de construir una matriz tridimensional
Finalmente se debe llevar a cabo un seguimiento a lo largo de lask dimensiones para encontrar el camino que represente el mejoralineamiento posible
Suelen limitarse a pequeños conjuntos de secuencias (k < 10)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 11 / 39
Alineamiento múltiple de secuencias Algoritmos exhaustivos
Algoritmos exhaustivos
La complejidad computacional es O(Nk ) (k , núm. de secuencias)
0
1e+14
2e+14
3e+14
4e+14
5e+14
6e+14
7e+14
8e+14
9e+14
1e+15
0 100 200 300 400 500 600 700 800 900 1000
N5
N
Complejidad
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 12 / 39
Alineamiento múltiple de secuencias Algoritmos exhaustivos
Algoritmos exhaustivos
Para N = 1000 y k = 5 la complejidad es 1.0E+15
Usando una computadora que ejecute 1 millón de operacionescada segundo tardaría 277777.78 horas (11574.07 días, 31.71años)
La alternativa es usar métodos heurísticos
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 13 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos
1 Alineamiento múltiple de secuenciasIntroducciónFunción de puntuaciónAlgoritmos exhaustivosAlgoritmos heurísticos
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 14 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos
Algoritmos heurísticos
Existen tres tipos de algoritmos heurísticos:Alineamiento progresivo
Alineamiento iterativo
Alineamiento basado en bloques
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 15 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos
Algoritmos heurísticosMétodo de alineamiento progresivo
Este método va ensamblando progresivamente alineamientos depares para formar un AMS
Primero se lleva a cabo un alineamiento global de pares desecuencias usando el algoritmo de Needleman-Wunsch
Con los resultados se crea una matriz de distancias, está permitever la relación evolutiva de la secuencia con las demás
Se realiza un análisis filogenético simple, dando como resultadola creación de un árbol filogenético (árbol guía)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 16 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos
Algoritmos heurísticosMétodo de alineamiento progresivo
Este árbol refleja la proximidad entre todas las secuencias y esempleado para realizar un reajuste de las secuencias
Las dos secuencias más relacionadas son realineadas usando elalgoritmo de Needleman-Wunsch convirtiéndose en un secuencia(consenso)
Este proceso se continúa hasta que todas las secuencias quedanalineadas
Clustal (http://www.ebi.ac.uk/Tools/msa/clustalw2) es unprograma que utiliza el método de alineamiento progresivo
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 17 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos
Algoritmos heurísticosMétodo de alineamiento progresivo
Algorithm 1: Método de alineamiento progresivo
Data: N secuenciasResult: Alineamiento de las N secuencias
1 begin2 Construir la matriz de distancias
/* Árbol guía */3 Construir el árbol filogenético usando Neighbor-Joining4 while no estén alineadas todas las secuencias do5 Alinear las secuencias más relacionadas6 Reducir las secuencias alineadas7 end8 end
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 18 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos
Algoritmos heurísticosMétodo de alineamiento progresivo (Ejemplo)
Se realizan todos los alineamientos de pares de secuencias y seconstruye la matriz de distancias
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 19 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos
Algoritmos heurísticosMétodo de alineamiento progresivo (Ejemplo...)
Se calcula un árbol guía con los pares más próximos: C,D y A,B
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 20 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos
Algoritmos heurísticosMétodo de alineamiento progresivo (Ejemplo...)
Se alinean C,D y A,B por separado usando programacióndinámica
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 21 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos
Algoritmos heurísticosMétodo de alineamiento progresivo (Ejemplo...)
Los alineamientos C,D y A,B se reducen a secuencias consensolas cuales se alinean entre ellas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 22 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos
Algoritmos heurísticosMétodo de alineamiento progresivo (Ejemplo...)
Se crea un nuevo consenso para C,D,A,B el cual se alinea conE con lo que se completa el AMS
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 23 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos
Algoritmos heurísticosMétodo de alineamiento progresivo (Ejemplo...)
Para este ejemplo con Clustal(http://www.ebi.ac.uk/Tools/msa/clustalw2) se utilizarán lassecuencias de proteínas siguientes:
NP_006735.2
BAB25881.1
NP_001638.1
MUP4_MOUSE
P0A901
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 24 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos
Algoritmos heurísticosMétodo de alineamiento progresivo, limitantes
El método de alineamiento progresivo presenta algunas limitantes:Este método no es adecuado para comparar secuencias dediferentes longitudes (global)
El resultado final proporcionado por éste también se ve muyinfluenciado por el orden de las secuencias
Debido a la naturaleza codiciosa (greedy) del método el resultadodepende del alineamiento inicial de pares de secuencias(propagación de errores)
Si las dos primeras secuencias son muy similares, el alineamientobase contendrá pocos errores
Si las dos secuencias son muy divergentes los errores y los huecosse irán propagando
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 25 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos
Algoritmos heurísticosMétodo de alineamiento progresivo, T-Coffee
T-Coffee (Tree-based Consistency Objective Function foralignment Evaluation, http://www.ebi.ac.uk/Tools/msa/tcoffee)realiza alineamiento progresivo al igual que Clustal
La principal diferencia radica en que T-Coffee realiza unalineamiento de pares tanto local como global
Para el alineamiento global usa Clustal mientras que para elalineamiento local usa Lalign(http://www.ch.embnet.org/software/LALIGN_form.html)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 26 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos
Algoritmos heurísticosMétodo de alineamiento progresivo, T-Coffee...
Los resultados de estas dos alineaciones son almacenadas paraformar una biblioteca
Para cada par de residuos en cada par de secuencias se calculauna puntuación de consistencia para los alineamientos globales ylocales
Cada alineamiento de pares se alinea con una tercera posiblesecuencia
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 27 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos
Algoritmos heurísticosMétodo de alineamiento progresivo, T-Coffee...
El resultado es usado para refinar el alineamiento de paresoriginal en un proceso llamado extensión de la biblioteca
Basado en el refinamiento de alineamiento de pares se construyeuna matriz de distancias para obtener un árbol guía
Finalmente se utiliza este árbol para realizar un AMS mediante elenfoque progresivo
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 28 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos
Algoritmos heurísticosMétodo de alineamiento progresivo, T-Coffee...
Algorithm 2: Algoritmo T-Coffee
Data: N secuenciasResult: Alineamiento de las N secuencias
1 begin2 Alineamiento de pares de secuencias (Clustal y Lalign)3 Construcción de la librería4 Calcular la matriz de distancias5 Crear el árbol guía mediante mediante Neighbor-Joining6 Construir el alineamiento múltiple siguiendo el árbol7 end
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 29 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos
Algoritmos heurísticosMétodo de alineamiento progresivo, Ejemplo T-Coffee
Para este ejemplo usaremos las secuencias de proteínas siguientes yT-Coffee (http://www.ebi.ac.uk/Tools/msa/tcoffee):
NP_006735.2
BAB25881.1
NP_001638.1
MUP4_MOUSE
P0A901
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 30 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos
Algoritmos heurísticosMétodo de alineamiento iterativo
Este tipo de métodos se basan en la idea de que la soluciónóptima a un problema puede ser encontrada mediante lamodificación iterativa de soluciones subóptimas existentes
El proceso consiste en encontrar un alineamiento de “bajacalidad” y mejorarlo gradualmente hasta que ya no sea posible
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 31 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos
Algoritmos heurísticosMétodo de alineamiento iterativo, PRRN
PRRN (http://www.genome.jp/tools/prrn) es unalgoritmo para AMS que emplea una estrategia iterativa dobleanidada
Efectúa el AMS mediante dos conjuntos de iteraciones: la internay la externa
En la iteración externa, se genera un alineamiento inicial aleatorioque es usado para derivar un árbol UPGMA (Unweighted PairGroup Method with Arithmetic Mean, método de agrupamiento)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 32 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos
Algoritmos heurísticosMétodo de alineamiento iterativo, PRRN...
Los pesos son posteriormente aplicados para optimizar elalineamiento
En la iteración interna, las secuencias son aleatoriamentedivididas en 2 grupos
El alineamiento aleatorizado es usado para cada grupo en el cicloinicial, después de lo cual las posiciones del alineamiento en cadagrupo son fijadas
Los 2 grupos, cada uno tratado como una sola secuencia, sonentonces alineados entre ellos usando programación dinámicaglobal
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 33 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos
Algoritmos heurísticosMétodo de alineamiento iterativo, PRRN...
El proceso se repite de manera cíclica hasta que la puntuacióntotal SP (suma de pares) no se incremente
En este punto, el alineamiento resultante es usado para construirun nuevo árbol UPGMA
Los nuevos pesos son aplicados para optimizar las puntuacionesdel alineamiento
El alineamiento optimizado es sujeto a un realineamiento en laiteración interior
Este proceso es repetido durante varios ciclos hasta que no haymás mejora en las puntuaciones globales del alineamiento
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 34 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos
Algoritmos heurísticosMétodo de alineamiento iterativo, Ejemplo PRRN
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 35 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos
Algoritmos heurísticosMétodo de alineamiento iterativo, Ejemplo PRRN
Para este ejemplo usaremos las secuencias de proteínas siguientes yPRRN (http://www.genome.jp/tools/prrn):
NP_006735.2
BAB25881.1
NP_001638.1
MUP4_MOUSE
P0A901
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 36 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos
Algoritmos heurísticosMétodo basado en bloques
Las estrategias progresivas e iterativas se basan en gran medidaen alineamiento global
Por lo tanto surge la necesidad de generar estrategias paraencontrar similitudes locales
Las secuencias a alinear pueden compartir bloques más o menosconservados, separados por regiones largas bastante menosconservadas
Cada bloque está construido con alineamientos locales de variosfragmentos en cada secuencia
Una vez que se han fijado los bloques se utilizan otros métodosde alineamiento para alinear dichas regiones
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 37 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos
Algoritmos heurísticosMétodo basado en bloques, DIALIGN2
DIALIGN2 es un programa para encontrar similitudes locales
Este método rompe las secuencias en secuencias más pequeñasy realiza todos los alineamientos de pares posibles
Los segmentos con alta puntuación son denominados bloques
Entre las diferentes secuencias, estos bloques son compilados demanera progresiva
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 38 / 39
Alineamiento múltiple de secuencias Algoritmos heurísticos
Algoritmos heurísticosMétodo basado en bloques, Ejemplo DIALIGN2
Para este ejemplo usaremos las secuencias de proteínas siguientes yDIALIGN2 (http://mobyle.pasteur.fr):
NP_006735.2
BAB25881.1
NP_001638.1
MUP4_MOUSE
P0A901
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 39 / 39