Post on 29-Mar-2018
Alineamiento de pares de secuencias
Dr. Eduardo A. RODRÍGUEZ TELLO
CINVESTAV-Tamaulipas
30 de mayo del 2013
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 1 / 61
1 Alineamiento de pares de secuenciasIntroducciónEvolución de secuenciasHomología y similitud de secuenciasSimilitud e identidad de secuenciasMétodos de alineamiento de secuenciasMétodo de matriz de puntosProgramación dinámicaTarea
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 2 / 61
Alineamiento de pares de secuencias Introducción
1 Alineamiento de pares de secuenciasIntroducciónEvolución de secuenciasHomología y similitud de secuenciasSimilitud e identidad de secuenciasMétodos de alineamiento de secuenciasMétodo de matriz de puntosProgramación dinámicaTarea
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 3 / 61
Alineamiento de pares de secuencias Introducción
Introducción
La comparación de secuencias es una de las actividadesfundamentales en el análisis bioinformático
Es un primer paso hacia el análisis estructural y funcional denuevas secuencias descubiertas
A medida que nuevas secuencias están siendo generadas a tasasexponenciales, la importancia de la comparación de secuenciasha aumentando considerablemente
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 4 / 61
Alineamiento de pares de secuencias Introducción
Introducción
Esto se debe a que gracias a la comparación de secuencias esposible realizar inferencias sobre la evolución de una nuevaproteína en base a proteínas existentes en las bases de datos(BD)
El proceso fundamental detrás de este tipo de comparación es elalineamiento de secuencias
En términos simples el alineamiento de secuencias es el procesoen el cual diferentes secuencias son comparadas mediante labúsqueda de patrones de caracteres comunes y elestablecimiento de correspondencias residuo-residuo entresecuencias relacionadas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 5 / 61
Alineamiento de pares de secuencias Introducción
Introducción
El alineamiento de pares de secuencias es el proceso dealineamiento de dos secuencias y es la base de diversasherramientas de análisis de secuencias:
Alineamiento múltiple de secuenciasDesarrollo de modelos ocultos de Márkov (búsqueda de familias deproteínas)Predicción de la estructura 3D de proteínasAnálisis filogenéticoBúsqueda de similitud en BD
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 6 / 61
Alineamiento de pares de secuencias Introducción
Introducción
Alineamiento de secuencias producido con ClustalW entre dossecuencias de proteínas zinc finger disponibles en GenBank
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 7 / 61
Alineamiento de pares de secuencias Evolución de secuencias
1 Alineamiento de pares de secuenciasIntroducciónEvolución de secuenciasHomología y similitud de secuenciasSimilitud e identidad de secuenciasMétodos de alineamiento de secuenciasMétodo de matriz de puntosProgramación dinámicaTarea
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 8 / 61
Alineamiento de pares de secuencias Evolución de secuencias
Evolución de secuencias
El ADN y las proteínas son producto de la evolución
Recordemos que los componentes básicos de estasmacromoléculas (bases y aminoácidos) forman secuenciaslineales que determinan la estructura primaria de las moléculas
Una característica importante de estas moléculas es quecodifican la historia de millones de años de evolución
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 9 / 61
Alineamiento de pares de secuencias Evolución de secuencias
Evolución de secuencias
Durante este largo período de evolución las secuenciasmoleculares han sufrido cambios aleatorios (mutaciones) que lashacen diferir
Sin embargo, algunos rastros de la evolución pueden quedar enciertas porciones de las secuencias, lo que permite identificar losancestros comunes
La presencia de estos rastros se debe a que los residuos querealizan papeles importantes (funcionales o estructurales) tiendena ser preservados por la selección natural
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 10 / 61
Alineamiento de pares de secuencias Evolución de secuencias
Evolución de secuencias
Por otra parte los residuos que son menos cruciales tienden amutar más frecuentemente
Ejemplo: los sitios activos de los residuos de una familia deenzimas tienden a ser conservados porque son responsables delas funciones catalíticas
Gracias a la comparación de secuencias mediante alineamientoes posible identificar la conservación y variación de patrones
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 11 / 61
Alineamiento de pares de secuencias Evolución de secuencias
Evolución de secuencias
El grado de conservación en el alineamiento revela las relacionesevolutivas de secuencias diferentes
Mientras que la variación entre secuencias refleja los cambiosque han ocurrido durante la evolución (substituciones, insercionesy eliminaciones)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 12 / 61
Alineamiento de pares de secuencias Evolución de secuencias
Evolución de secuencias
La identificación adecuada de las relaciones evolutivas entresecuencias permite caracterizar la función de secuenciasdesconocidas de la siguiente forma:
Cuando un alineamiento de secuencias revela una similitudsignificativa entre un grupo de secuencias entonces se puedeconsiderar que pertenecen a la misma familia (mismo origenevolucionario)Si un miembro de esa familia tiene una estructura o funcionesconocidas, entonces esa información puede extrapolarse aaquellos que aún no se han caracterizado experimentalmente
Es así como el alineamiento de secuencias es usado como basepara la predicción de la estructura y función de secuencias nocaracterizadas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 13 / 61
Alineamiento de pares de secuencias Evolución de secuencias
Evolución de secuencias
Extrapolación de información acerca de una secuencia utilizandolas características conocidas de otra secuencia
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 14 / 61
Alineamiento de pares de secuencias Evolución de secuencias
Evolución de secuencias
Relaciones en la evolución de secuencias
Mismo origen Misma funcion
Mismo plegado 3D
Misma secuencia
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 15 / 61
Alineamiento de pares de secuencias Homología y similitud de secuencias
1 Alineamiento de pares de secuenciasIntroducciónEvolución de secuenciasHomología y similitud de secuenciasSimilitud e identidad de secuenciasMétodos de alineamiento de secuenciasMétodo de matriz de puntosProgramación dinámicaTarea
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 16 / 61
Alineamiento de pares de secuencias Homología y similitud de secuencias
Homología y similitud de secuencias
Un concepto importante en el análisis de secuencias es lahomología de secuencias
Cuando dos secuencias descienden de un origen evolucionariocomún, se dice que tienen una relación homóloga o quecomparten una homología
Por su parte la similitud de secuencias mide el porcentaje deresiduos alineados que son similares en cuanto a propiedadesfisicoquímicas tales como el tamaño, carga, e hidrofobicidad
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 17 / 61
Alineamiento de pares de secuencias Homología y similitud de secuencias
Homología y similitud de secuencias
Aun cuando los dos términos suelen confundirse, es importantedistinguir sus diferencias
La homología de secuencias es una conclusión (inferencia)acerca de una relación ancestral común hecha a base decomprobar que existe un grado de similitud suficientemente altoentre las secuencias comparadas
La homología es una afirmación cualitativa (homólogas o nohomólogas)
Por otra parte, la similitud es un resultado directo de laobservación de un alineamiento de secuencias y se cuantificausando porcentajes (40% similitud)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 18 / 61
Alineamiento de pares de secuencias Homología y similitud de secuencias
Homología y similitud de secuencias
En la práctica el decidir a que nivel de similitud puede uno inferirrelaciones de homología no es siempre fácil
La respuesta depende del tipo de secuencias examinadas y desus longitudes
Las secuencias de nucleótidos consisten solo de 4 caracteres, ypor lo tanto, las secuencias no relacionadas tiene al menos 25%de oportunidad de ser idénticas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 19 / 61
Alineamiento de pares de secuencias Homología y similitud de secuencias
Homología y similitud de secuencias
Para las secuencias de proteínas, hay 20 posibles residuos deaminoácidos, y por lo tanto dos secuencias no relacionadaspueden coincidir hasta en 5% de los residuos por azar
Además si se permiten huecos, el porcentaje puedeincrementarse entre 10 y 20%
La longitud de las secuencias también es un factor muyimportante
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 20 / 61
Alineamiento de pares de secuencias Homología y similitud de secuencias
Homología y similitud de secuencias
Entre más corta es una secuencia más alta es la posibilidad deque algún alineamiento se deba al azar
Entre más larga es una secuencia es menos probable que unacoincidencia en el mismo nivel de similitud sea atribuible al azar
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 21 / 61
Alineamiento de pares de secuencias Homología y similitud de secuencias
Homología y similitud de secuencias
Tres zonas de los alineamientos de secuencias: homólogas,probablemente homólogas, no es posible determinar homología
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 22 / 61
Alineamiento de pares de secuencias Similitud e identidad de secuencias
1 Alineamiento de pares de secuenciasIntroducciónEvolución de secuenciasHomología y similitud de secuenciasSimilitud e identidad de secuenciasMétodos de alineamiento de secuenciasMétodo de matriz de puntosProgramación dinámicaTarea
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 23 / 61
Alineamiento de pares de secuencias Similitud e identidad de secuencias
Similitud e identidad de secuencias
Otros dos conceptos relacionados con la comparación desecuencias son la similitud y la identidad de secuencias
Cuando se trata de secuencias de nucleótidos estos dos términosson sinónimos
Sin embargo, para secuencias de proteínas los dos conceptosson muy diferentes
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 24 / 61
Alineamiento de pares de secuencias Similitud e identidad de secuencias
Similitud e identidad de secuencias
En el alineamiento de secuencias de proteínas, la identidad desecuencias se refiere al porcentaje de coincidencias de losmismos residuos de aminoácidos entre las dos secuenciasalineadas
Por su parte la similitud de secuencias se refiere al porcentaje deresiduos alineados que tienen características fisicoquímicassimilares y que pueden ser substituídos entre sí
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 25 / 61
Alineamiento de pares de secuencias Similitud e identidad de secuencias
Similitud e identidad de secuencias
Para calcular el porcentaje de similitud de dos secuencias seemplea la siguiente fórmula que hace uso de la totalidad de laslongitudes de ambas secuencias:
S = [(Ls × 2)/(La + Lb)]× 100 (1)
donde S es el porcentaje de similitud de las secuencias, Ls es elnúmero de residuos alineados con características similares, y La,Lb son las longitudes totales de cada secuencia
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 26 / 61
Alineamiento de pares de secuencias Similitud e identidad de secuencias
Similitud e identidad de secuencias
La identidad (I) de las secuencias puede ser calculada de manerasimilar:
I = [(Li × 2)/(La + Lb)]× 100 (2)
donde Li es el número de residuos alineados idénticos
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 27 / 61
Alineamiento de pares de secuencias Métodos de alineamiento de secuencias
1 Alineamiento de pares de secuenciasIntroducciónEvolución de secuenciasHomología y similitud de secuenciasSimilitud e identidad de secuenciasMétodos de alineamiento de secuenciasMétodo de matriz de puntosProgramación dinámicaTarea
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 28 / 61
Alineamiento de pares de secuencias Métodos de alineamiento de secuencias
Métodos de alineamiento de secuencias
El alineamiento de pares de secuencias consiste en encontrar lamejor forma de emparejar (aparear) dos secuencias, de forma talque haya una máxima correspondencia entre los residuos
Para realizar esto, una de las secuencias necesita ser corrida conrelación a la otra para encontrar la posición donde se da elmáximo de coincidencias
Hay dos estrategias diferentes de alineamiento que son utilizadas:
Alineamiento globalAlineamiento local
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 29 / 61
Alineamiento de pares de secuencias Métodos de alineamiento de secuencias
Métodos de alineamiento de secuencias
En el alineamiento global, se asume que las dos secuencias quese van a alinear son generalmente similares sobre sus longitudestotales
El alineamiento se lleva a cabo a todo lo largo de ambassecuencias para encontrar el mejor posible
Este método es más aplicable para alinear dos secuenciasrelacionadas estrechamente de aproximadamente la mismalongitud
En el caso contrario no entregará buenos resultados, pues tieneproblemas para reconocer regiones locales altamente similaresentre dos secuencias
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 30 / 61
Alineamiento de pares de secuencias Métodos de alineamiento de secuencias
Métodos de alineamiento de secuencias
Por el contrario, el alineamiento local no asume que las dossecuencias en cuestión tienen similitud sobre la longitud total
Sólo encuentra regiones locales con el más alto nivel de similitudentre las dos secuencias y alinea estas regiones sin preocuparsepor el resto de las secuencias
Este enfoque es el más apropiado para alinear secuenciasbiológicas divergentes que contienen módulos que son similares(dominios o motivos) y de esta forma encontrar patronesconservados en secuencias de ADN o proteínas
Incluso las dos secuencias pueden ser de diferentes longitudes
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 31 / 61
Alineamiento de pares de secuencias Métodos de alineamiento de secuencias
Métodos de alineamiento de secuencias
Alineamiento global de secuencias
Alineamiento local de secuencias
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 32 / 61
Alineamiento de pares de secuencias Métodos de alineamiento de secuencias
Métodos de alineamiento de secuencias
Los algoritmos de alineamiento, tanto globales como locales sonfundamentalmente similares y sólo difieren en la estrategia deoptimización utilizada al alinear los residuos similares
Ambos tipos de algoritmos pueden estar basados en uno de tresmétodos:
Matriz de puntosProgramación dinámicaMétodo de palabra corta
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 33 / 61
Alineamiento de pares de secuencias Método de matriz de puntos
1 Alineamiento de pares de secuenciasIntroducciónEvolución de secuenciasHomología y similitud de secuenciasSimilitud e identidad de secuenciasMétodos de alineamiento de secuenciasMétodo de matriz de puntosProgramación dinámicaTarea
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 34 / 61
Alineamiento de pares de secuencias Método de matriz de puntos
Método de matriz de puntos
El método de la matriz de puntos es una forma gráfica decomparar dos secuencias utilizando una matriz bidimensional
Las secuencias comparadas se escriben en los ejes vertical yhorizontal de la matriz
La comparación es realizada verificando la similitud entre cadaresiduo de una secuencia contra los de la otra
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 35 / 61
Alineamiento de pares de secuencias Método de matriz de puntos
Método de matriz de puntos
Si una coincidencia de residuos es encontrada, un punto secoloca en la gráfica
De otra forma, las posiciones de la matriz se dejan en blanco
Cuando las dos secuencias tienen regiones substancialmentesimilares, muchos puntos se alinean para formar líneasdiagonales continuas, las cuales revelan el alineamiento de lassecuencias
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 36 / 61
Alineamiento de pares de secuencias Método de matriz de puntos
Método de matriz de puntos
Si hay interrupciones en las líneas diagonales, éstas indicaninserciones o eliminaciones
Las líneas diagonales paralelas representan regiones repetitivasde las secuencias
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 37 / 61
Alineamiento de pares de secuencias Método de matriz de puntos
Método de matriz de puntos
Ejemplo del método de la matriz de puntos
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 38 / 61
Alineamiento de pares de secuencias Método de matriz de puntos
Método de matriz de puntos
Cuando este método es usado para comparar secuencias largasgenera un alto grado de ruido
En la mayoría de los casos hay demasiados puntos en la gráfica,lo que dificulta la identificación del verdadero alineamiento
Para reducir el ruido, en vez de usar un solo residuo para verificarla similitud, se emplea (filtrado) una “ventana” de longitud fija quecubre un conjunto de pares de residuos
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 39 / 61
Alineamiento de pares de secuencias Método de matriz de puntos
Método de matriz de puntos
Con esta técnica de filtrado los puntos solo se dibujan cuando unconjunto de residuos de tamaño igual al de la ventana de unasecuencia coincide completamente con el de la otra secuencia
Esta técnica ha demostrado ser efectiva reduciendo el nivel deruido
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 40 / 61
Alineamiento de pares de secuencias Método de matriz de puntos
Método de matriz de puntos
El método de la matriz de puntos despliega todas las posiblescoincidencias de las secuencias
Sin embargo, comúnmente el usuario debe construir elalineamiento completo al ir uniendo las diagonales
Otra limitación de este método visual de análisis es que carece derigor estadístico para medir la calidad del alineamiento
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 41 / 61
Alineamiento de pares de secuencias Método de matriz de puntos
Método de matriz de puntos
Además, el método está restringido solo a alienamiento de paresde secuencias
Los siguiente son ejemplos de páginas Web que proveencomparación de pares de secuencias usando matrices de puntos:
Dotmatcher http://bioweb.pasteur.fr/seqanal/interfaces/dotmatcher.htmlDottup http://bioweb.pasteur.fr/seqanal/interfaces/dottup.htmlDothelix http://www.genebee.msu.su/services/dhm/advanced.htmlMatrixPlot http://www.cbs.dtu.dk/services/MatrixPlot
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 42 / 61
Alineamiento de pares de secuencias Programación dinámica
1 Alineamiento de pares de secuenciasIntroducciónEvolución de secuenciasHomología y similitud de secuenciasSimilitud e identidad de secuenciasMétodos de alineamiento de secuenciasMétodo de matriz de puntosProgramación dinámicaTarea
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 43 / 61
Alineamiento de pares de secuencias Programación dinámica
Programación dinámica
La programación dinámica es un método que determina elalineamiento óptimo de dos secuencias al verificar lascoincidencias para todos los posibles pares de caracteres entrelas dos secuencias
También crea una matriz bidimensional
Sin embargo, encuentra un alineamiento en una forma máscuantitativa al convertir la matriz de puntos en una matriz depuntajes para contar las coincidencias y divergencias entre lassecuencias
Buscando el conjunto de puntajes más altos en esta matriz, esposible obtener de manera confiable el mejor alineamiento
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 44 / 61
Alineamiento de pares de secuencias Programación dinámica
Programación dinámica
El método de programación dinámica se compone de 3 pasosfundamentales:
1 Inicialización2 Construcción de la matriz de puntajes3 Rastreo del alineamiento
Veamos un ejemplo de alineamiento de secuencias globalutilizando el algoritmo de programación dinámica deNeedleman/Wunsch
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 45 / 61
Alineamiento de pares de secuencias Programación dinámica
Programación dinámica
Ejemplo:Para este ejemplo las dos secuencias a alinear son:G A A T T C A G T T A (secuencia 1)G G A T C G A (secuencia 2)
Por lo tanto las longitudes de las secuencias son X = 11 y Y = 7respectivamente
Utilizaremos el siguiente esquema de puntaje simple:Si,j = 1, si el residuo en la posición i de la secuencia uno es elmismo que el de la posición j de la secuencia dos; sinoSi,j = 0 (no hay coincidencia)w = 0 (penalidad por hueco)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 46 / 61
Alineamiento de pares de secuencias Programación dinámica
Programación dinámica
InicializaciónEl primer paso consiste en crear una matriz con X + 1 columnas yY + 1 filas donde X y Y son los tamaños de las secuencias
En este ejemplo asumimos que no hay penalidad por huecos(w = 0) por lo que llenamos la primera fila y columna con 0
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 47 / 61
Alineamiento de pares de secuencias Programación dinámica
Programación dinámica
Construcción de la matriz de puntajesSe inicia en la esquina superior izquierda y se encuentra elmáximo puntaje Mi,j para cada posición i , j
Para conocer Mi,j se necesita saber el puntaje de las posicionesMi−1,j , Mi,j−1 y Mi−1,j−1 y usar la siguiente fórmula:
Mi,j = Max [Mi−1,j−1 + Si,j , Mi,j−1 + w , Mi−1,j + w ] (3)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 48 / 61
Alineamiento de pares de secuencias Programación dinámica
Programación dinámica
Usando esta información el puntaje para la posición 1,1 en lamatriz puede ser calculado
En ambas secuencias el primer residuo es G entonces, S1,1 = 1,y como w = 0, entonces
M1,1 = Max [M0,0 + 1, M1,0 + 0, M0,1 + 0] = Max [1,0,0] = 1 (4)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 49 / 61
Alineamiento de pares de secuencias Programación dinámica
Programación dinámica
Como w = 0, el resto de la fila 1 y columna 1 puede llenarse con1’s
Tomemos de ejemplo la fila 1 columna 2
M1,2 = Max [M0,1 + 0, M1,1 + 0, M0,2 + 0] = Max [0,1,0] = 1 (5)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 50 / 61
Alineamiento de pares de secuencias Programación dinámica
Programación dinámica
Ahora llenemos la columna 2. En la fila 2 que tendra el valor:
M2,2 = Max [M1,1 + 0, M2,1 + 0, M1,2 + 0] = Max [0,1,0] = 1 (6)
Y la columna 2, fila 3:
M3,2 = Max [M2,1 + 1, M3,1 + 0, M2,2 + 0] = Max [2,1,1] = 2 (7)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 51 / 61
Alineamiento de pares de secuencias Programación dinámica
Programación dinámica
Usando el mismo procedimiento se llena la columna 3
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 52 / 61
Alineamiento de pares de secuencias Programación dinámica
Programación dinámica
Después de calcular todos los valores, la matriz de puntajesqueda así:
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 53 / 61
Alineamiento de pares de secuencias Programación dinámica
Programación dinámica
Rastreo del alineamientoDe la matriz anterior observamos que el puntaje máximo delalineamiento es 6
El paso de rastreo del alineamiento determina el alineamiento quelleva a este resultado
Éste comienza en la posición MX ,Y de la matriz y verifica suspredecesores directos:
Vecino a la izquierda (hueco en secuencia 2)Vecino en la diagonal (coincidencia/no coincidencia)Vecino hacia arriba (hueco en secuencia 1)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 54 / 61
Alineamiento de pares de secuencias Programación dinámica
Programación dinámica
Se elige uno de los vecinos (marcados en rojo)
Debido a que la celda actual vale 6, el único vecino que es posibleelegir es el de la diagonal
Lo que da el alineamientoAA
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 55 / 61
Alineamiento de pares de secuencias Programación dinámica
Programación dinámica
Ahora determinamos cual es el predecesor directo de la celdaactual, en este caso la celda roja con el 5
Esto agrega un hueco a la secuencia 2, por lo que el alineamientoactual es:T A_ A
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 56 / 61
Alineamiento de pares de secuencias Programación dinámica
Programación dinámica
Una vez más, el predecesor directo produce un hueco en lasecuencia 2:T T A_ _ A
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 57 / 61
Alineamiento de pares de secuencias Programación dinámica
Programación dinámica
Continuado estos pasos llegamos al siguiente alineamiento:G A A T T C A G T T AG G A _ T C _ G _ _ A
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 58 / 61
Alineamiento de pares de secuencias Programación dinámica
Programación dinámica
Una solución alternativa es el siguiente alineamiento:G _ A A T T C A G T T AG G _ A _ T C _ G _ _ A
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 59 / 61
Alineamiento de pares de secuencias Tarea
1 Alineamiento de pares de secuenciasIntroducciónEvolución de secuenciasHomología y similitud de secuenciasSimilitud e identidad de secuenciasMétodos de alineamiento de secuenciasMétodo de matriz de puntosProgramación dinámicaTarea
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 60 / 61
Alineamiento de pares de secuencias Tarea
Tarea
Implemente en el lenguaje de su preferencia el algoritmo deprogramación dinámica para alineamiento de pares desecuencias visto en clase. El algoritmo recibe como entrada dossecuencias (posiblemente de longitudes diferentes) tomadas deuna BD biológica disponible en Internet, una matriz de puntajes yregresa el mejor alineamiento así como su puntaje.
Debera entregar el código fuente documentado y un reporte (enLatex) indicando los detalles de su implementación y lasinstrucciones para utilizarlo
Fecha de entrega: 6 de junio antes de las 16h00
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 61 / 61