“Estimación del punto isoeléctrico de péptidos · 3.3.2 Normalización de los datos ..... 46...
Transcript of “Estimación del punto isoeléctrico de péptidos · 3.3.2 Normalización de los datos ..... 46...
“Estimación del punto isoeléctrico de péptidos
empleando descriptores moleculares y
máquinas de soporte vectorial”
Tesis presentada en opción al título de Maestro en Ciencias
en Tendencias de la Biotecnología Contemporánea.
Mención Investigación de Nuevos Productos
Autor: Ing. Enrique Audain Martínez
Tutor (es): DrC. Kathya R. de la Luz Hernández
DrC. Yasset Perez-Riverol
Centro de Inmunología
Molecular
Centro de Ingeniería Genética y Biotecnología
La Habana, febrero de 2014
Agradecimientos
Agradecimientos
A mi familia, especialmente a mami, por su apoyo en cada momento,
A mis tutores,
En general, a todas aquellas personas por su apoyo incondicional,
De corazón, muchas gracias
Dedicatoria
Dedicatoria
A mi madre y hermana, por todo,
A mi familia, especialmente a mis dos abuelas, por todo el apoyo brindado,
A mis dos padres, Enrique y Jesús Martínez Mesa, gracias,
A mis amigos, por la confianza,
A todos los que hicieron posible la realización de este trabajo.
Glosario de términos y abreviaturas
Glosario de términos y abreviaturas
API Interfaz para la programación de aplicaciones (del inglés
Application Programming Interface)
CDK Bibliotecas de clases para análisis químico (del inglés
Chemical Development Kit)
CID Disociación inducida por colisión (del inglés Collision-
induced Dissociation)
Cofactor Algoritmo de Cargile para la estimación del pI
ESI Electro-nebulización (del inglés Electrospray)
FS Selección de características (del inglés Feature Selection)
FT Transformada de Fourier (del inglés Fourier Transform)
HPLC Cromatografía Líquida de Alta Eficacia (del inglés High
Performance Liquid Chromatography)
ICR Resonancia ciclotrónica de iones (del inglés Ion Cyclotron
Resonance)
IEF Isoelectroenfoque (del inglés Isoelectric Focusing)
IPG Gradiande de pH inmobilizado (del inglés Immobilized pH
Gradient )
IT Trampa de iones (del inglés Ion Trap)
JDK Herramientas para el desarrollo de aplicaciones en Java
(del inglés Java Development Kit)
JRE Entorno de ejecución de aplicaciones Java (del inglés Java
Runtime Enviroment)
JVM Máquina Virtual de Java (del inglés Java Virtual Machine)
Kernel Núcleo de transformación
k-means Algoritmo de las medianas
LIT Trampa de iones lineal (del inglés Lineal Ion Trap)
LTQ Cuadrupolo de confinamiento lineal (del inglés Linear Trap
Quadrupole)
MALDI Ionización por desorción láser asistida por matriz (del inglés
Matrix-Assisted Laser Desorption/Ionization)
MS Espectrometría de masas (del inglés Mass Spectrometry)
MS/MS Espectrometría de masas en sucesión (del inglés Tandem
Glosario de términos y abreviaturas
Mass Spectrometry)
pI Punto isoeléctrico
pK Logaritmo negativo de la constante de disociación.
Q Cuadrupolo (del inglés Quadrupole)
QQQ Triple Cuadrupolo
QSAR Relación cuantitativa entre estructura y actividad (del inglés
Quantitative Structure-Activity Relationship)
RMSE Error cuadrático medio (del inglés Root Mean Square Error)
RP Fase reversa (del inglés Reverse Phase)
SCX Intercambio catiónico fuerte (del inglés Strong Cation-
eXchange)
SD Desviación estándar (del inglés Standar Desviation)
SMO Optimización mínima secuencial (del inglés Sequential
Minimal Optimization)
SVM Máquina de Soporte Vectorial (del inglés Support Vector
Machine)
TOF Analizador de tiempo de vuelo (del inglés Time of Flight )
WEKA Entorno para Análisis del Conocimiento de la Universidad
de Waikato (del inglés Waikato Environment for Knowledge
Analysis)
XML Lenguaje de marcas extensibles (del inglés eXtensible
Markup Language)
Resumen
Resumen
El fraccionamiento de mezclas de péptidos utilizando geles con gradiente
de pH inmovilizado se utiliza con frecuencia como el primer paso de
separación en experimentos de proteómica. Esta técnica produce un
incremento tanto en el rango dinámico como en la resolución de la
separación de péptidos previo al análisis por Cromatografía Líquida-
Espectrometría de Masas. Los valores de punto isoeléctrico (pI)
experimental obtenidos en combinación con la información de los espectros
de fragmentación pueden ser utilizados para mejorar las identificaciones de
péptidos. Por lo tanto, la estimación precisa del valor de pI basado en la
secuencia de aminoácidos constituye un punto crítico en este tipo de
experimentos. En la actualidad, el pI se estima fundamentalmente
mediante modelos basados en el estado de carga de la molécula, y/o el
algoritmo Cofactor. Sin embargo, ninguno de estos métodos es capaz de
calcular el valor de pI de péptidos básicos con precisión. En este trabajo,
presentamos un enfoque nuevo que puede mejorar la estimación del pI
significativamente, mediante el uso de máquinas de soporte vectorial
(SVM), un descriptor experimental de aminoácidos tomado de la base de
datos AAIndex y el punto isoeléctrico predicho por un modelo basado en el
estado de carga. Los resultados obtenidos en dos conjuntos de datos
experimentales mostraron una alta correlación (0.96-0.98) entre valores
estimados y observados de pI, con una desviación estándar de 0.32-0.36
unidades de pH.
Índice
Introducción ................................................................................................. 1
Capítulo 1. Revisión Bibliográfica ................................................................ 6
1.1 Proteómica: conceptos básicos................................................................. 6
1.1.1 Fraccionamiento del proteoma. Técnicas electroforéticas y
cromatográficas ........................................................................................... 7
1.1.2 Espectrometría de masas ................................................................... 9
1.1.3 Asignación de secuencia de péptidos a espectros de fragmentación11
1.1.4 Validación de la identificación de las proteínas utilizando las
propiedades físico-químicas de los péptidos ............................................. 12
1.2 Algoritmos para la estimación del punto isoeléctrico ............................... 13
1.2.1 Algoritmos iterativos para la estimación del pI .................................. 14
1.2.2 Algoritmo de Gauci para la estimación del pI .................................... 15
1.2.3 Algoritmo de Cargile (Cofactor) para la estimación del pI ................. 16
1.2.4 Utilización del punto isoeléctrico en la validación de datos en
experimentos de proteómica ...................................................................... 17
1.3 Aprendizaje Computacional. Máquinas de Soporte Vectorial ................. 17
1.3.1 Pre-procesamiento de los datos en el aprendizaje computacional ... 18
1.3.2 Representación de la estructura molecular mediante descriptores
moleculares ............................................................................................... 20
1.3.3 Técnicas de Selección de Variables ................................................. 23
1.3.4 Máquinas de Soporte Vectorial ......................................................... 26
1.4 Lenguajes de programación y entorno de desarrollo integrado .............. 27
Capítulo 2. Materiales y Métodos .............................................................. 29
2.1 Obtención de los péptidos teóricos del proteoma de D. Melanogaster ... 29
2.2 Obtención del pI experimental de los péptidos ....................................... 29
2.3 Procesamiento de los datos biológicos ................................................... 29
2.3.1 Programa readPeptideXML .............................................................. 30
2.4 Diseño experimental ............................................................................... 30
2.5 Cálculo de descriptores de AAindex ....................................................... 32
2.6 Implementación del modelo final basado en SVM utilizando WEKA ....... 33
Capítulo 3. Resultados y discusión ............................................................ 35
3.1 Selección de descriptores moleculares ................................................... 36
3.3 Pre-procesamiento de los datos de entrada del modelo final ................. 42
3.3.1 Remoción automática de valores atípicos ........................................ 43
3.3.2 Normalización de los datos ............................................................... 46
3.4. Implementación del algoritmo pI-SVM utilizando WEKA ........................ 47
3.5 Detección de falsas identificaciones con el algoritmo pI-SVM ................ 48
3.6 Implementación de los algoritmos Bjellqvist y Cofactor .......................... 51
3.7 Evaluación de los algoritmos de Bjellqvist, Cofactor y pI-SVM en datos
experimentales .............................................................................................. 52
Conclusiones ............................................................................................. 56
Recomendaciones ..................................................................................... 57
Referencias bibliográficas .......................................................................... 58
Introducción
1
Introducción
La proteómica se define como el conjunto de metodologías y técnicas
analíticas para el estudio del proteoma, el cual representa el total de las
proteínas expresadas en un organismo, un tejido o línea celular, en un
momento determinado (Aebersold y Mann 2003). Esta disciplina del
conocimiento puede ser utilizada para estudiar las funciones biológicas de
las proteínas, las localizaciones en los diferentes organelos celulares, las
modificaciones post-traduccionales y las interacciones entre estas. El
avance vertiginoso en el campo de la proteómica en los últimos años, se
debe fundamentalmente a los avances en la instrumentación en la
Espectrometría de Masas (MS, del inglés Mass Spectrometry), las mejoras
en las metodologías experimentales y el desarrollo de nuevas herramientas
computacionales que mejoran el análisis de los datos obtenidos (Ahrens y
cols., 2010; Perez-Riverol Y y cols., 2013; Perez-Riverol Y y cols., 2013).
Las mejoras tecnológicas en los espectrómetros de masas -
fundamentalmente en la velocidad de adquisición de los datos, la
resolución, la precisión y la sensibilidad (Domon y Aebersold 2006)- han
impuesto un reto en el análisis computacional de los grandes volúmenes de
datos derivados de un experimento de proteómica. La estrategia más
utilizada para la asignación de una secuencia peptídica a un espectro de
fragmentación (MS/MS) es la metodología de búsqueda en bases de datos
de secuencias (Eng y cols., 2011). Otras metodologías utilizadas con este
propósito son la secuenciación de novo (Seidler y cols., 2010), la secuencia
etiqueta (Tabb DL y cols., 2003; Tabb DL y cols., 2008; Perez-Riverol Y y
cols., 2013) y la búsqueda en bibliotecas de espectros de masas
experimentales (Lam 2011; Lam y Aebersold 2011). Consecuentemente, el
desarrollo de nuevas herramientas computacionales para la identificación
de péptidos y proteínas, y su validación estadística, constituyen un campo
de investigación en constante crecimiento (Mujezinovic y cols., 2010;
Nesvizhskii 2010).
Introducción
2
Recientemente, la utilización de las informaciones complementarias
generada durante un experimento de proteómica, tales como el punto
isoeléctrico (pI) (Cargile BJ y Stephenson JL 2004) y el tiempo de retención
(Norbeck AD y cols., 2005; Moruz L y cols., 2012) en un sistema
cromatográfico determinado, han sido explorados para la validación de las
identificaciones de péptidos y proteínas (Heller y cols., 2005; Nesvizhskii y
cols., 2007; Perez-Riverol y cols., 2011). Todas estas estrategias requieren
la estimación precisa de diferentes propiedades físico-químicas de péptidos
y proteínas, tales como el tiempo de retención, el punto isoeléctrico, el
índice de Gravy, la masa molecular o la ‘detectabilidad’ del péptido. Estas
estimaciones están basadas en dos componentes fundamentales:
algoritmos y descriptores moleculares.
Se han reportado en la literatura varios modelos (basados en aprendizaje
computacional) para la estimación del tiempo de retención (Petritis y cols.,
2006; Pfeifer y cols., 2007) y la ‘detectabilidad’ de péptidos (Kuster y cols.,
2005; Mallick y cols., 2007) que derivan de la información contenida en la
estructura primaria. Sin embargo, este enfoque ha sido menos utilizado en
los algoritmos para la predicción del punto isoeléctrico.
El punto isoeléctrico (pI) puede ser definido como el punto en una curva de
titulación en el cual la carga neta superficial de un péptido o proteína es
igual a cero (Righetti 2004). El pI experimental es obtenido como
información complementaria durante el fraccionamiento por
isoelectroenfoque, electroforesis libre de gel, electroforesis capilar y
electroforesis en gel utilizando tiras con gradiente de pH inmovilizado. La
separación electroforética de péptidos ha sido adaptada a una amplia
variedad de plataformas de proteómica. El punto fundamental es que el
paso de separación reduce la complejidad del proteoma bajo estudio
(Heller y cols., 2005; Cargile y cols., 2008; Gauci y cols., 2008).
La combinación de la separación electroforética de péptidos y los espectros
de fragmentación (espectros MS/MS) proporcionan un método de análisis
ortogonal para filtrar los resultados obtenidos por búsquedas en bases de
datos o la validación de los péptidos identificados (Perez-Riverol y cols.,
2011) en diferentes flujos de trabajos. El éxito de utilizar el pI como criterio
Introducción
3
para validar los resultados en experimentos de proteómica involucra la
habilidad de dos elementos fundamentales: (i) las técnicas resolutivas para
obtener valores experimentales del pI con precisión, y (ii) los algoritmos
para estimar el pI con buena precisión.
La ecuación de Henderson-Hasselbach se ha utilizado para estimar valores
de pI, esta relaciona el pH de la solución con los valores de pK (logaritmo
negativo de la constante de disociación) de los aminoácidos. Una primera
aproximación para la estimación de valores de pI fue descrita por David
Tabb (DL. 2003). El método utiliza la ecuación antes mencionada para el
cálculo de pI y el conjunto de valores de pK de los grupos ionizables de las
cadenas laterales de los aminoácidos propuesto por Bjellqvist (Bjellqvist y
cols., 1993).
Los algoritmos actuales para estimar el pI de péptidos y proteínas
dependen primeramente del modelo propuesto por Bjellqvist y
colaboradores (Bjellqvist y cols., 1993). Este modelo está basado en las
diferencias de pK entre inmobilinas estrechamente relacionadas,
enfocando la misma muestra en gradientes de pH solapados.
Subsecuentes mejoras en la metodología (especialmente hacia la
determinación de los valores de pK) han sido propuestas recientemente
para diferentes sistemas electroforéticos.
Gauci y colaboradores (Gauci y cols., 2008) propusieron un algoritmo para
la estimación del pI de péptidos utilizando un nuevo conjunto de valores de
pK tanto para péptidos modificados como para péptidos no modificados.
Siguiendo otra metodología, el algoritmo propuesto por Cargile y
colaboradores (Cargile y cols., 2008) toma en cuenta el efecto de
aminoácidos adyacentes sobre los residuos cargados del ácido aspártico y
el ácido glutámico y el efecto sobre el C-terminal libre, aplicando también
un término de corrección a los valores de pK correspondientes.
Los métodos de Gauci y Cargile logran una alta correlación entre el valor
de pI experimental y teórico. Sin embargo, la desviación estándar que se
obtiene para los valores de pI es relativamente alta con ambos métodos,
especialmente en las fracciones más básicas, lo cual plantea una limitación
Introducción
4
para el uso del pI (calculado por estos métodos) como criterio de validación
en las identificaciones de péptidos.
Los elementos anteriormente expuestos plantean la necesidad de disponer
de métodos de estimación lo más exactos posibles que permitan elevar la
confiabilidad de los resultados obtenidos por MS cuando se utiliza el pI
como criterio de validación. Esta cuestión adquiere una importancia
relevante cuando se utilizan en el proceso de identificación espectrómetros
de masas de baja resolución.
Teniendo en cuenta los elementos anteriormente descritos en este trabajo
nos planteamos como:
Objetivo General
Desarrollar y validar un método bioinformático de estimación del punto
isoeléctrico de péptidos utilizando descriptores de secuencia y máquinas
de soporte vectorial.
Objetivos Específicos
1. Implementar herramientas bioinformáticas para el pre-procesamiento de
datos proteómicos y el cómputo y selección de descriptores moleculares
de péptidos.
2. Obtener una función para el cálculo del punto isoeléctrico utilizando
métodos de aprendizaje computacional.
3. Evaluar el uso del punto isoeléctrico en la identificación de “falsos
positivos” en experimentos de proteómica.
4. Comparar la función obtenida con otros métodos para el cálculo del
punto isoeléctrico reportados en la literatura.
Tareas experimentales
1. Implementación de herramientas computacionales para el pre-
procesamiento de los datos experimentales y el cálculo de descriptores
Introducción
5
moleculares utilizando la base de datos AAindex y las bibliotecas
Chemaxon y CDK.
2. Implementación de técnicas de selección de variables para discriminar
los descriptores más relevantes en el desarrollo del modelo predictor.
3. Pre-procesamiento de los datos para la construcción del modelo final
basado en la remoción automática de valores atípicos en el conjunto de
datos y la utilización de técnicas de normalización de datos.
4. Desarrollo de una función para el cálculo teórico del punto isoeléctrico
de péptidos basada en máquinas de soporte vectorial.
5. Comparación de la función obtenida con los métodos actuales de cálculo
de pI en varios conjuntos de datos experimentales, a partir de la
correlación (pIteórico vs. pIexperimental) y la desviación estándar de la media.
Revisión Bibliográfica
6
Capítulo 1. Revisión Bibliográfica
1.1 Proteómica: conceptos básicos
A partir del genoma de una especie, podemos inferir las proteínas
expresadas con cierto grado de confiabilidad. Sin embargo, dicho
conocimiento no permite entender en su totalidad la función biológica de
los genes ya que especies con genomas muy similares muestran
características fenotípicas diferentes. Del análisis de los resultados de los
proyectos genómicos emprendidos por diferentes grupos de investigación
(Collins y cols., 2003; Olson y Varki 2003), se ha aprendido que el genoma
de una especie no correlaciona con la complejidad del mismo, y que tal
complejidad morfológica y funcional depende de la regulación de la
expresión genética y de las interacciones entre sus proteínas (Puente y
cols., 2005).
Las proteínas son moléculas orgánicas complejas que se encuentran en
todos los organismos. Están formadas por aminoácidos ordenados en
largas cadenas polipeptídicas mantenidas por enlaces químicos entre el
grupo amino (NH2) de un aminoácido y el grupo carboxilo (COOH) del
siguiente aminoácido. La secuencia en que estos aminoácidos se
encuentran es única para cada proteína y determina su estructura
tridimensional y función biológica. Debido a su heterogeneidad estructural,
las proteínas participan en varios procesos celulares como la respuesta
inmune, la transducción de señales, el mantenimiento de la homeostasis y
el ciclo celular, entre otros (Lehninger y cols., 2005).
El proteoma, que es un complemento del genoma de un organismo, es un
elemento altamente dinámico y responde a múltiples factores de naturaleza
metabólica, fisiológica, nutricional y ambiental. En consecuencia, la
proteómica es la ciencia que estudia el conjunto de proteínas (proteoma)
que se expresa en la célula o fluido biológico a partir del genoma de un
Revisión Bibliográfica
7
organismo en un momento dado (Banks y cols., 2000; Aebersold y Mann
2003).
La investigación proteómica es el resultado de la aplicación de técnicas
analíticas para el análisis de muestras biológicas. Entre otras, las más
utilizadas son: las técnicas electroforéticas y las cromatográficas para el
fraccionamiento de la muestra biológica y la espectrometría de masas (MS)
para la identificación de biomoléculas.
1.1.1 Fraccionamiento del proteoma. Técnicas electroforéticas y
cromatográficas
El éxito en el análisis de un proteoma es altamente dependiente de la
calidad del método de fraccionamiento empleado previo al análisis por MS.
La reducción de la complejidad de la muestra a través del uso de métodos
de fraccionamientos eficientes (fundamentalmente utilizando métodos
electroforéticos y cromatográficos) simplifica y potencia la identificación de
péptidos y proteínas.
La electroforesis es un método analítico semipreparativo, en el cual se
separan biomoléculas en dependencia de su carga y talla, bajo la acción de
un campo eléctrico (Garcia 2000). Muchas moléculas biológicas de interés,
tales como aminoácidos, péptidos, proteínas, nucleótidos y ácidos
nucleicos, poseen grupos ionizables y, por lo tanto, existen en solución
como especies eléctricamente cargadas a un pH determinado (Wilson y
Walker 2000). Las técnicas electroforéticas están fundamentadas por la
migración de estos solutos iónicos bajo la acción de un campo eléctrico
donde las partículas migran hacia el cátodo o el ánodo (electrodos) en
dependencia de su carga, peso molecular y estructura tridimensional. La
velocidad de migración ( ) de los componentes moleculares es
directamente proporcional a la carga efectiva ( ) y al gradiente del campo
eléctrico ( ), e inversamente proporcional al coeficiente de fricción ( )
según expresa la fórmula siguiente:
Revisión Bibliográfica
8
Existen básicamente dos modalidades de electroforesis: Electroforesis
libre, en la cual el campo eléctrico es aplicado a disoluciones o
suspensiones; y la Electroforesis de zona (o convencional), en la que el
campo eléctrico se aplica a un medio o soporte estabilizante (típicamente
un gel). La técnica electroforética más utilizada para la separación de
proteínas en experimentos de proteómica es la electroforesis bidimensional
en geles de poliacrilamida. En este gel, las proteínas son separadas en una
dimensión basándose en su velocidad de electromigración (determinada
por su peso molecular) y en la otra dimensión por el punto isoeléctrico.
Como resultado, se obtiene el valor aproximado de peso molecular y del
punto isoeléctrico de la proteína (Garcia 2000; Gygi y cols., 2000).
El fraccionamiento de las muestras complejas de proteínas presenta serias
limitaciones tecnológicas debido a la alta masa molecular e hidrofobicidad
de las mismas. Por esto, la proteómica se ha movido hacia el
fraccionamiento e identificación de los péptidos derivados de estas
mediante digestión enzimática. Estos péptidos contienen información útil
para la identificación y la cuantificación de las proteínas a la vez que no
presentan tantos inconvenientes tecnológicos para su análisis (Ly y
Wasinger 2011).
Para un análisis a nivel de péptido, se combinan típicamente el intercambio
catiónico (SCX, del inglés strong cation-exchange) y la fase reversa (RP,
del inglés reversed-phase). No obstante, recientemente el
isoelectroenfoque en geles con gradiente de pH inmovilizado (IPG IEF, del
inglés immobilized pH gradient isoelectric focusing), se ha incluido como
alternativa al SCX en experimentos de proteómica (Cargile y Stephenson
2004; Cargile y cols., 2004). Comparado con SCX, este método
proporciona mayor resolución en la separación, y el pI obtenido
experimentalmente puede ser utilizado como criterio de validación de los
datos adquiridos (Cargile y cols., 2004; Cargile y cols., 2004). Una
limitación principal de este método radica en la complejidad del
procesamiento de las muestras focalizadas, que requiere cortar en
Revisión Bibliográfica
9
pequeñas secciones los geles para luego extraer y desalar los péptidos de
las piezas obtenidas.
En contraste con IPG IEF, la electroforesis en solución (Electroforesis
OFFGEL) combina el isoelectroenfoque tradicional en geles con gradiente
de pH inmovilizado con un sistema basado en fase líquida (Figura 1). En
este sistema, los péptidos o proteínas migran a través del gel hasta
alcanzar su punto isoeléctrico y luego de completar la corrida, las muestras
pueden ser extraídas fácilmente en solución para su posterior análisis
(Heller y cols., 2005; Heller y cols., 2005). Este método puede ser
combinado con relativa facilidad con métodos de immunodepleción,
digestión de proteínas y cromatografía líquida para la separación
multidimensional de muestras complejas (Horth y cols., 2006).
Figura 1. Diagrama de un sistema para el fraccionamiento de péptidos y proteínas utilizando Isoelectroenfoque en solución.
1.1.2 Espectrometría de masas
El análisis de una muestra biológica por MS comprende la ionización de los
componentes de la muestra, la separación de las especies iónicas
resultantes de acuerdo a la relación de su masa con su carga eléctrica
(m/z) utilizando campos eléctricos y/o magnéticos en el vacío y la posterior
identificación del compuesto. Para la implementación de esta técnica el
instrumento utilizado es el espectrómetro de masas. Estos instrumentos
poseen tres componentes básicos: un sistema de ionización, un analizador
de masas y un detector de iones.
Revisión Bibliográfica
10
El desarrollo de sistemas de ionización suaves, como ESI (del inglés,
Electrospray Ionization) y MALDI (del inglés, Matriz Assisted Laser
Desorption/Ionization), han permitido el análisis de macromoléculas, algo
que fue un factor limitante en la técnica hasta hace poco tiempo ya que
solamente sustancias de bajo peso molecular y relativamente volatilizables
podían ser sometidas a una ionización en fase gaseosa. Para fines
prácticos, la diferencia fundamental de los métodos de ionización es que el
sistema MALDI utiliza muestras disueltas en matrices sólidas, mientras que
el sistema ESI utiliza muestras en fase líquida para la generación de iones.
(Watson y Sparkman 2007).
Los analizadores de masas tienen múltiples funciones que varían de
acuerdo a su tecnología; fundamentalmente se refieren al control de los
campos electromagnéticos aplicados, que involucra la separación de iones,
la resolución de cargas a nivel isotópico, la fragmentación del analito y la
capacidad de operación en polaridades diferentes. Los analizadores de
masas más utilizados son los de Tiempo de Vuelo o TOF (del inglés, time
of flight), la trampa de iones tridimensional o IT (del inglés, ion trap), la
trampa de iones lineal o LIT (del inglés, linear ion trap), el cuadrupolo o Q
(del inglés, quadrupole), y el triple cuadrupolo (QQQ). Actualmente, debido
al rápido desarrollo de la tecnología en el campo de la espectrometría de
masas y de la proteómica, existen espectrómetros de masas que tienen
más de un analizador de iones; éstos se denominan espectrómetros
híbridos, como TOF-TOF, LIT-Orbitrap, Q-TOF, LIT-QQQ, entre otras
variantes. Estos equipos presentan mejor resolución, exactitud, sensibilidad
y versatilidad en el análisis de péptidos y proteínas. Por ello, son utilizados
para secuenciar y cuantificar proteínas, identificar modificaciones post-
traduccionales y, en general, en el estudio de muestras biológicas
complejas (Watson y Sparkman 2007; Ekman y cols., 2008).
Los detectores tienen como función detectar el flujo iónico liberado por el
analizador, amplificarlo y transmitir esta señal a la computadora, donde se
registra en forma de un espectro de masas. El espectro de masas
evidencia el número de componentes en la muestra y el peso molecular de
cada componente (Watson y Sparkman 2007; Ekman y cols., 2008).
Revisión Bibliográfica
11
1.1.3 Asignación de secuencia de péptidos a espectros de fragmentación
La identificación y cuantificación de proteínas existentes en un tejido es
frecuentemente el paso principal en muchas investigaciones proteómicas.
La Espectrometría de Masas en sucesión (MS/MS) es la herramienta
analítica más robusta para la identificación de péptidos y proteínas. La
precisión y velocidad del proceso de identificación de péptidos son algunas
de las características principales que diferencian a la MS en sucesión de
otras metodologías utilizadas para el análisis de mezclas de proteínas. El
principio de identificación de péptidos utilizando espectros MS/MS es
relativamente simple. Un péptido es ionizado y este ión molecular es luego
disociado obteniéndose su espectro de fragmentación (o espectro MS/MS).
La diferencia de masas entre los fragmentos iónicos resultantes permite
dilucidar la secuencia de aminoácidos del ión molecular. La calidad de los
espectros MS/MS se puede medir tomando en cuenta varias características
espectrales como por ejemplo la frecuencia y abundancia de los iones ‘b’ y
los iones ‘y’ (Nesvizhskii y Aebersold 2005; Ning y cols., 2010).
Consecuentemente, la secuencia peptídica se puede determinar por las
diferencias de las masas de los picos adyacentes en cada una de las dos
series de fragmentación.
No obstante, en la práctica, varios factores complican el problema. Entre
estos se incluyen: los contaminantes presentes en la muestra bajo estudio,
la fragmentación incompleta del analito, la fragmentación simultánea de
dos analitos diferentes, las modificaciones post-traduccionales y la baja
relación señal-ruido que pudiera tener el espectro de masa resultante
(Nesvizhskii y cols., 2007; Nesvizhskii 2010). Por otra parte, varias señales
pueden ausentarse del espectro mientras que aparecen otras inesperadas
correspondientes a fragmentaciones inespecíficas. Esto hace
significativamente difícil la identificación de péptidos a través de MS/MS de
manera automática (Xu y Ma 2006), conllevando a que en un experimento
típico solo sean asignados a secuencias de péptidos del 5 al 30% de los
espectros generados (Mujezinovic y cols., 2010; Nesvizhskii 2010).
Revisión Bibliográfica
12
Varios programas computacionales han sido desarrollados para la
identificación de péptidos a partir de los espectros MS/MS. Estos pueden
ser clasificados en cuatro grupos fundamentales: (a) buscadores en bases
de datos (Eng y cols., 2011), (b) secuenciación de novo (Seidler y cols.,
2010), (c) búsqueda en biblioteca de espectros de masas experimentales
(Lam 2011; Lam y Aebersold 2011) y (d) búsqueda a partir de marcas o
identificadores (Tabb DL y cols., 2003; Tabb DL y cols., 2008; Perez-
Riverol Y y cols., 2013).
Dado un espectro MS/MS, los algoritmos de búsqueda en base de datos
hallan la mejor identidad entre el espectro experimental y el espectro
teórico del péptido obtenido en una base de datos de secuencias de
proteínas. Siguiendo otra metodología, los algoritmos de búsqueda en
bibliotecas de espectros se basan en la comparación con espectros de
masas experimentales obtenidos en experimentos previos. Los algoritmos
de secuenciación de novo obtienen la secuencia del péptido únicamente a
partir de la información contenida en el espectro de masas; y la
metodología de secuenciación por identificadores obtiene una secuencia
parcial (secuencia marcada) primeramente por secuenciación de novo y
luego realiza una búsqueda en base de datos utilizando la secuencia
marcada. Varios estudios han demostrado que la confiabilidad de la
identificación se incrementa combinando diferentes estrategias de
búsquedas (Nesvizhskii 2010; Perez-Riverol Y y cols., 2013).
1.1.4 Validación de la identificación de las proteínas utilizando las
propiedades físico-químicas de los péptidos
La medición del grado de similitud entre espectros teóricos y
experimentales a partir de la asignación de puntuaciones a las
identificaciones realizadas por búsquedas en bases de datos de proteínas,
representan solamente un grupo de características útiles para discriminar
entre identificaciones correctas e identificaciones incorrectas. Inferir un
resultado basándose solamente en esta información, dificultaría separar
con precisión las identificaciones falsas de las verdaderas. La
discriminación puede ser mejorada si se toma en cuenta la información
Revisión Bibliográfica
13
auxiliar generada coincidentemente en el transcurso del experimento de
proteómica. Esta información incluye: la precisión de la masa -que
establece la diferencia entre la masa medida y la calculada para el ión
molecular (disponible en la primera etapa de la espectrometría de masas,
MS1)-, el tiempo de retención -obtenido en la etapa de separación por
cromatografía líquida-, o el valor de punto isoeléctrico -obtenido en el paso
donde la muestra es fraccionada utilizando la técnica de focalización
isoeléctrica- (Nesvizhskii y cols., 2007; Nesvizhskii 2010; Ning y cols.,
2010). Adicionalmente, poder predecir si un péptido identifica a una única
proteína y si es detectable en una plataforma experimental determinada,
constituye una herramienta útil en el planteamiento de estrategias
experimentales para responder hipótesis previamente planteadas (por
ejemplo, en proteómica cuantitativa) (Mallick y cols., 2007).
En cualquier caso, la estrategia de validación planteada que incluya uno o
varios de estos parámetros, requiere del diseño de algoritmos y modelos
que puedan predecir con exactitud las variables involucradas (ejemplo, el
tiempo de retención y el punto isoeléctrico).
1.2 Algoritmos para la estimación del punto isoeléctrico
El punto isoeléctrico de una proteína o péptido se define como aquel valor
de pH al cual la molécula no posee carga eléctrica y es incapaz de
desplazarse en un campo eléctrico (Lehninger y cols., 2005). A este valor
de pH la molécula muestra un mínimo de solubilidad y no existe repulsión
electrostática entre moléculas vecinas. Debido a que las proteínas difieren
en el contenido de aminoácidos con grupos laterales ionizables, estas
poseen diferentes valores de pI, por lo que este parámetro puede ser
utilizado como criterio de separación de proteínas y péptidos. La
separación de péptidos y proteínas sobre la base de su carga eléctrica
depende de sus propiedades ácido-básicas, las cuales se hallan
determinadas por el número y el tipo de grupos ionizables de sus cadenas
polipeptídicas. El punto isoeléctrico está determinado por el número y los
Revisión Bibliográfica
14
valores de pK (constantes de ionización) de los grupos que se ionizan. Este
valor será relativamente elevado (por encima de pH = 7.0) si la cadena
peptídica posee un contenido elevado de aminoácidos básicos (Lisina,
Histidina y Arginina), y relativamente bajo (inferior a pH = 7.0) si la proteína
posee una preponderancia de aminoácidos ácidos (Aspártico y Glutámico)
(Lehninger y cols., 2005).
1.2.1 Algoritmos iterativos para la estimación del pI
Los algoritmos iterativos para el cálculo del pI se basan únicamente en la
estructura primaria de la proteína (secuencia de aminoácidos) sin tener en
cuenta las interacciones entre grupos laterales cargados y diferentes
modificaciones post-traduccionales. La ecuación de Henderson-
Hasselbalch (1.2.2.1) es utilizada para aproximar el valor de pI basado en
los valores de pK de los grupos laterales ionizables:
[ ]
[ ] 1.2.2.1
Para las cadenas laterales ácidas, las especies en el numerador pueden
tener carga negativa, mientras que para las cadenas laterales básicas las
especies en el denominador pueden tener carga positiva.
A partir de la ecuación (1.2.2.1) la magnitud de la carga de los grupos
laterales ácidos se obtiene como sigue:
[ ]
1.2.2.2
y para las cadenas laterales básicas se define como:
[ ]
1.2.2.3
Estas ecuaciones proporcionan una vía para predecir la magnitud de la
carga de la fracción de un aminoácido a un pH dado. Obteniendo las
cargas del total de grupos laterales ionizables presente en cada especie,
Revisión Bibliográfica
15
es posible determinar la carga neta de la proteína entera a un pH
determinado. Un simple procedimiento iterativo, como el descrito por Tabb
(DL. 2003), puede ser utilizado para calcular el punto isoeléctrico. No
obstante, es importante tener en cuenta que el valor de pI estimado por
este procedimiento no considera por ejemplo, las alteraciones introducidas
por los potenciales de ionización locales como resultado de la estructura de
la proteína.
1.2.2 Algoritmo de Gauci para la estimación del pI
Para el cálculo del punto isoeléctrico de péptidos, Gauci y colaboradores
desarrollaron un programa escrito en Java y lo denominaron pICalculator
(Gauci y cols., 2008). Como parámetros de entrada la herramienta toma
una lista de péptidos con sus aminoácidos fosforilados marcados. El
usuario puede adicionalmente, seleccionar el conjunto de valores de pK
reportados en estudios previos o especificados por el mismo. El cálculo del
pI se realiza tomando en cuenta la carga asociada a cada péptido a un pH
específico. Como salida del programa, se obtiene una gráfica con la
distribución de los valores de pI y una tabla en el formato de Microsoft
Excel con su forma tabular.
Gauci y colaboradores evaluaron un conjunto de valores de pK optimizados
estableciendo una comparación con otros tres conjuntos de valores de pK
reportados en la literatura, disponibles en ExPASy (Gasteiger y cols.,
2003), los descritos por Skoog y Wichmann (Skoog y Wichman 1986) y los
propuestos por Bjellqvist y colaboradores (Bjellqvist y cols., 1993). Para el
conjunto de valores de pK de ExPASy y Bjellqvist se obtuvieron mejores
resultados que cuando se utilizaron los de Skoog y Wichmann. Los
resultados mostraron que con el uso del conjunto de valores de pK
optimizado se obtiene una mejor correlación y menor desviación estándar
que cuando se utilizan los otros conjuntos de valores de pK (Gauci y cols.,
2008).
Revisión Bibliográfica
16
1.2.3 Algoritmo de Cargile (Cofactor) para la estimación del pI
Para el desarrollo de este algoritmo, Cargile y colaboradores utilizaron una
función genética para calcular el efecto de los aminoácidos adyacentes
sobre los residuos cargados en los péptidos trípticos (Cargile y cols., 2008).
El uso de péptidos trípticos simplifica grandemente el cálculo del pI, ya que
estos péptidos están definidos por un C-terminal en los residuos de los
aminoácidos Arginina y Lisina, un N-terminal libre y son generalmente
péptidos de pequeña longitud. En este estudio, los autores trabajaron
exclusivamente en el intervalo de pH entre 3.5 y 4.5 utilizando un gel con
gradiente de pH inmovilizado. El programa para el cálculo de los valores de
pI, solo toma en cuenta los efectos de los aminoácidos cargados asociados
al Aspártico (D), el Glutámico € y los C-terminales libres de los péptidos
trípticos. El efecto de ± 3 aminoácidos adyacentes es calculado para
corregir los valores de pK de D, E y el C-terminal libre y la correspondiente
carga neta es determinada utilizando la ecuación:
∑
∑
Donde y representan el número de residuos ácidos y básicos
respectivamente. Los términos de pK no solo son corregidos para las
interacciones de carga, sino también para los efectos atribuidos por los
grupos hidrofóbicos. Todas las condiciones de optimización se formularon
a partir de funciones independientes que describen la interacción de los
residuos cargados (D, E y C-terminal libre) con solo un aminoácido. Los
factores de correcciones individuales a los valores de pK basados en el
efecto de los aminoácidos adyacentes son accesibles en el trabajo
reportado por Cargile y colaboradores (Cargile y cols., 2008).
Revisión Bibliográfica
17
1.2.4 Utilización del punto isoeléctrico en la validación de datos en
experimentos de proteómica
Heller y colaboradores utilizaron los criterios de punto isoeléctrico e índice
de hidrofobicidad como criterio de validación de los datos obtenidos por
MS/MS, obteniendo resultados satisfactorios (Heller y cols., 2005). Por otro
lado, Krijgsveld y colaboradores redujeron de 11621 péptidos iniciales a
11372 utilizando el pI como estrategia de filtrado. Lo más significativo en
este experimento, fue que lograron reducir de 2.7% a 2.0% el número de
falsos positivos (Krijgsveld y cols., 2006).
El algoritmo propuesto por Uwaje y colaboradores, denominado pIFilter,
correlaciona los valores de punto isoeléctrico experimental con los teóricos
calculados (Uwaje y cols., 2007). La estimación teórica del pI se realizó
utilizando un algoritmo implementado en la herramienta computacional
BioJava (http://www.biojava.org/) con el cual se obtienen resultados
similares a los obtenidos utilizando el algoritmo de Bjellqvist y
colaboradores. Ellos mostraron que el algoritmo desarrollado reduce
significativamente el total de falsos positivos obtenidos por el análisis de
datos proteómicos.
1.3 Aprendizaje Computacional. Máquinas de Soporte Vectorial
El rápido desarrollo de la computación y las tecnologías de la información
permite la generación de grandes cantidades de datos en una amplia
variedad de disciplinas, entre ellas se encuentran la medicina y la biología.
El desafío para interpretar los datos obtenidos ha llevado al desarrollo de
nuevas herramientas en el campo de la estadística y las ciencias de la
computación y ha generado nuevos campos de investigación tales como la
minería de datos, el reconocimiento de patrones y la Bioinformática (Saeys
y cols., 2007). En contraste, el aprendizaje computacional consiste en la
implementación de algoritmos cuyo objetivo es producir hipótesis generales
(modelos) a partir de un número finito de datos de entrenamiento de
Revisión Bibliográfica
18
distribución desconocida (fenómeno). El aprendizaje computacional
supervisado, en particular, genera dichas hipótesis utilizando ejemplos con
clase conocida; a su vez dichas hipótesis servirán para hacer predicciones
ante nuevos ejemplos con clases desconocidas (Al 2008). El objetivo del
aprendizaje supervisado (tanto binario como multiclase) es dividir el
espacio de objetos en regiones en donde la mayoría de los casos estén
agrupados en la misma clase; dicha división es la que servirá para predecir
la clase de los nuevos objetos.
En general, se puede definir que una máquina aprende de sus entradas o
como respuesta a la información externa y cambia su estructura en función
de obtener un mejor rendimiento en el futuro. Las máquinas de aprendizaje
son computadoras programadas para optimizar el rendimiento de un
criterio utilizando datos novedosos o experiencias pasadas. Esto consta del
modelado con parámetros definidos y datos de entrenamientos. El
aprendizaje está basado en la ejecución de un programa para optimizar los
parámetros del modelo utilizando datos de entrenamiento o experiencia
pasada. En la máquina de aprendizaje, primero, se necesitan algoritmos
eficientes para solucionar el problema de optimización, y también para el
almacenamiento y procesamiento de las grandes cantidades de datos de
entrenamiento. Segundo, en cuanto el modelo ha aprendido, su
representación y solución algorítmica para la inferencia tienen que ser
eficientes, en espacio y en tiempo (Al 2008).
1.3.1 Pre-procesamiento de los datos en el aprendizaje computacional
En varios campos de las ciencias de la computación, como la minería de
datos, el reconocimiento de patrones, y el aprendizaje computacional; el
pre-procesamiento de los datos bajos estudio constituye un paso
fundamental (Rodríguez 2004). En este tipo de algoritmos, por lo general,
la veracidad de los datos estimados, dependen en gran medida de la
correcta distribución de los datos de entrada y la eliminación de valores
incorrectos que propician la pérdida de rendimiento del algoritmo en
Revisión Bibliográfica
19
cuestión. La etapa de preparación de los datos comprende aquellas
técnicas para el análisis y el manejo de los datos de entrada (reducción,
transformación y limpieza) tal que se obtengan datos adecuados previo a la
construcción del modelo. En este paso, la normalización de los datos y la
remoción de los valores atípicos son procedimientos usualmente utilizados
para ‘preparar’ los datos de forma adecuada (Rodríguez 2004).
1.3.1.1 Remoción de valores atípicos
Un valor extremo (o valor atípico) es una medición desviada del conjunto
de mediciones obtenidas de una variable, que sugiere haberse obtenido
por un mecanismo diferente (Hawkins 1980). La detección de valores
atípicos es una tarea importante en algoritmos de minería de datos y
aprendizaje computacional. Aunque en determinados estudios los valores
atípicos contenidos en un conjunto de mediciones pueden contener
información útil para la caracterización del fenómeno bajo estudio;
frecuentemente, estos son removidos para mejorar la precisión de los
modelos predictores (Thongkam y cols., 2008).
1.3.1.2 Normalización de los datos
La normalización es un proceso de transformación de los datos de entrada
que puede mejorar la precisión y la eficiencia de los algoritmos en el
aprendizaje computacional. Estos algoritmos proporcionan mejores
resultados si los datos analizados son normalizados, es decir, re-escalados
en un intervalo que usualmente se define entre 0 y 0.1. La normalización es
particularmente útil en clasificadores basados en redes neuronales, en
máquinas de soporte vectorial y en algoritmos basados en distancias
métricas entre sus variables. Entre los métodos descritos con este
propósito, dos de los más utilizados son: la normalización basada en el
mínimo y el máximo valor de la serie de datos, y la normalización basada
en la media y la desviación estándar (Al Shalabi y Shaaban 2006; Al 2008).
Revisión Bibliográfica
20
1.3.2 Representación de la estructura molecular mediante descriptores
moleculares
Entre las diferentes representaciones moleculares propuestas; algunas de
las más utilizadas son: representación 3D en el espacio Euclidiano,
representación 2D basada en la teoría de grafos y representación vectorial
donde la frecuencia de varios fragmentos moleculares son memorizados.
Por ejemplo, la representación utilizada con mayor frecuencia para
describir los péptidos y las proteínas, es a través de cadenas de letras que
representan los 20 aminoácidos naturales. Sin embargo, tanto los nombres
de los aminoácidos como sus abreviaturas son representaciones humanas
sin información útil sobre las características físico-químicas de cada
aminoácido.
En décadas pasadas, varios trabajos han estudiado cómo convertir – por
vía teórica – la información química codificada en la estructura molecular
en uno o más números – llamados descriptores moleculares – para
establecer relaciones cuantitativas entre la estructura y las propiedades, la
actividad biológica y otras propiedades experimentales (Bonchev 2005).
Consonni y Todeschini definieron el término de descriptor molecular como:
“el resultado final de un procedimiento lógico y matemático que transforma
la información química codificada en una representación simbólica de una
molécula en un número útil o el resultado de varios experimentos
normalizados” (Todeschini y Consonni 2000).
El cálculo de los descriptores moleculares está fundamentado por
diferentes teorías de química cuántica, de química orgánica, de la teoría de
grafos, de matemática discreta, entre otras; y son aplicados en el modelado
de varias propiedades moleculares en diversos campos como la
toxicología, la química analítica, la química-física, la medicina, la química
farmacéutica y la biología (Todeschini y Consonni 2000).
La gran cantidad de descriptores moleculares propuestos hasta hoy,
evidencia el creciente interés por la comunidad científica en esta área. Más
de 2000 descriptores son actualmente definidos y varios programas
computacionales han sido desarrollados para su cálculo (Hinselmann y
cols., 2011; Truszkowski y cols., 2011; Yap 2011; Cao y cols., 2013). Cada
Revisión Bibliográfica
21
descriptor molecular toma en cuenta una pequeña parte de toda la
información química contenida en la molécula real, y como consecuencia,
conforme aumenta la complejidad del sistema químico, aumenta el número
de descriptores moleculares para su análisis.
La predicción de las propiedades físico-químicas de una molécula
(ejemplo, un péptido) o su función biológica utilizando algoritmos de
aprendizaje computacional, involucra un paso de parametrización (en un
vector n-dimensional de propiedades) de la estructura utilizando
descriptores moleculares. Si no se conoce la naturaleza de las
interacciones mediante la cual una molécula expresa sus propiedades y
actividad biológica, el cálculo preciso mediante esta vía es imposible. El
procedimiento está basado en la representación de la molécula en un
formato computacional entendible a través del cálculo de descriptores
moleculares. Otro aspecto importante en este procedimiento es la
naturaleza de la información de entrada del modelo, que se traduce en
conocer cuáles y cuantos descriptores moleculares son válidos para la
construcción del mismo, problema al cual se le da solución mediante
métodos de selección de características (Saeys y cols., 2007; Cao y cols.,
2011; Eyers y cols., 2011).
1.3.2.1 Herramientas computacionales para el cálculo de descriptores
moleculares
Plataforma computacional ChemAxon
ChemAxon es una plataforma integrada de programas y herramientas para
tareas quimioinformáticas fundamentalmente. Incluye un conjunto de
componentes especializados en la búsqueda en bases de datos químicas,
en la edición y visualización de las estructuras químicas, en la predicción
de las propiedades físico-químicas de moléculas y otras herramientas para
la manipulación de estructuras químicas. Varios de estos componentes
pueden ser accedidos a través de la Interfaz gráfica de usuarios, la Interfaz
para la programación de aplicaciones (API, del inglés Application
Revisión Bibliográfica
22
Programming Interface) o la línea de comandos. Específicamente,
contiene el módulo ‘cxcalc’, utilizado en este trabajo para el cálculo de
descriptores como la carga de la molécula, la constante de ionización,
clogP, entre otros. Una descripción más detallada de este producto se
puede encontrar en el sitio Web http://www.ChemAxon.com.
Biblioteca de clases CDK
Chemical Developer Kit (CDK) es una biblioteca (código fuente abierto)
escrita en Java para Quimioinformática y Bioinformática básicamente. Se
distribuye bajo la Licencia Pública General y desde su invención (año
2000) varios grupos de trabajo han contribuido a su desarrollo, lo cual la
ha convertido en una biblioteca de alta funcionalidad. CDK permite la
generación de diagramas de moléculas 2D, la visualización de las
moléculas en 3D, soporta disímiles formatos de archivos químicos, permite
el cálculo de propiedades físico- químicas de moléculas entre otras
funciones. Es una herramienta multiplataforma y está habilitada para
su uso en el sitio http://cdk.sourceforge.net.
Base de datos AAindex
La base de datos AAindex (Kawashima y cols., 2008) es el resultado de
varios experimentos y estudios teóricos que han podido determinar una
amplia variedad de propiedades de aminoácidos. Cada una de estas
propiedades puede ser representada por un conjunto de 20 valores
numéricos de aminoácidos referidos como índices de aminoácidos. Nakai
y colaboradores coleccionaron un total de 222 índices de aminoácidos
publicados en la literatura y hallaron su relación utilizando técnicas de
agrupamiento. Tomii y Kanehisa enriquecieron dicha colección
adicionándole otros índices de aminoácidos. Como resultado del trabajo
de los autores anteriormente citados quedó conformada una base de
datos (denominada AAIndex) de índices de aminoácidos online que es
actualizada constantemente (Kawashima y cols., 2008). AAIndex ha sido
utilizada en diversos proyectos de bioinformática tales como, la predicción
de la localización subcelular de proteínas, la determinación de los sitios de
las modificaciones post-traduccionales en proteínas y otros estudios sobre
Revisión Bibliográfica
23
la estructura y los enlaces de péptidos. La base de datos AAIndex está
habilitada en el sitio Web http://www.evolvingcode.net:8080/AAIndex.
La base de datos AAIndex está dividida en tres secciones: AAIndex1 para
índices de amino ácidos, AAIndex2 para las matrices de sustitución de
aminoácidos y AAIndex3 para los potenciales de contactos entre
aminoácidos. Para la conformación de los descriptores moleculares de
AAIndex utilizados en este estudio solo se utilizó la primera sección de
esta base de datos (AAIndex1). Esta sección contiene 544 índices de
aminoácidos y cada entrada está determinada por un código, una corta
descripción del índice, la referencia bibliográfica y el valor numérico
para la propiedad de los 20 aminoácidos. Kawashima y colaboradores
construyeron un árbol de índices de aminoácidos basado en el
procedimiento descrito por Tomii para la conformación de AAIndex1. En
la figura 2 se muestra una sección de AAIndex1.
Figura 2. Sección de la base de datos experimentales AAindex.
1.3.3 Técnicas de Selección de Variables
La naturaleza de los datos que describen los sistemas o fenómenos del
mundo real (por ejemplo, los datos obtenidos por la tecnología de
Revisión Bibliográfica
24
microarreglos (que describen la expresión génica de un sistema biológico)
o los datos obtenidos por espectrometría de masas), demanda el desarrollo
de procedimientos especiales para su análisis y correcta interpretación. La
tarea principal de estos procedimientos es identificar aquellas
características que sean más relevantes para caracterizar el sistema y su
comportamiento. En consecuencia, la selección de características (FS, del
inglés Feature Selection) se realiza basándose en uno o varios criterios y
básicamente se reduce el número de características, removiendo aquellas
que sean irrelevantes o redundantes en la descripción del sistema de
interés (Saeys y cols., 2007).
Figura 3. Diagrama de un proceso (general) de selección de características.
La figura 3 ilustra un procedimiento general de selección de
características. Como se puede observar, este proceso consta de dos
fases fundamentalmente: (1) la selección de características, (2) y la prueba
del modelo y la evaluación del rendimiento. La fase 1 consta de tres pasos
esencialmente: (i) la generación de un subconjunto de características para
Revisión Bibliográfica
25
la representación del problema, (ii) la evaluación del subconjunto de
características seleccionadas en el paso anterior, (iii) y se verifica si el
subconjunto seleccionado satisface el criterio de evaluación. La segunda
fase es un proceso de validación donde se verifica la calidad del
subconjunto de características que se ha determinado.
Según la manera en que se determina el nuevo subconjunto a evaluar, los
métodos de selección de las características se clasifican en completos –
donde se exploran todos los posibles subconjuntos en el espacio de
entrada (se asegura encontrar el óptimo pero es una metodología de muy
alto costo computacional) –; o heurísticos – donde no se evalúan todos los
subconjuntos las de características (aumenta la velocidad del proceso
debido a la reducción del espacio de búsqueda pero no se asegura
encontrar el subconjunto óptimo) (Saeys y cols., 2007; Al 2008).
Desde el punto de vista de la función de evaluación los métodos para la
selección de las características se dividen generalmente en dos grupos: los
métodos de filtraje y los métodos de retroalimentación.
1.3.3.1 Métodos de filtraje. Agrupamiento por correlaciones
Este tipo de método evalúa la utilidad de las características sin involucrar
ningún algoritmo de aprendizaje. La evaluación se realiza teniendo en
cuenta varios parámetros (distancia, información, dependencia y
consistencia) y solo las variables mejor categorizadas son seleccionadas,
las variables restantes son eliminadas. Este tipo de algoritmo tiene una
estructura simple y utiliza estrategias de búsquedas relativamente
sencillas. Otra de sus ventajas es que son algoritmos rápidos y de fácil
implementación (Saeys y cols., 2007; Al 2008).
Entre los métodos pertenecientes a este grupo se encuentra el algoritmo
de las medianas (K-mean), que es un método sencillo y
computacionalmente eficiente. Tiene como entrada , el número de
agrupamiento a detectar y , la cantidad de iteraciones a realizar. Los
Revisión Bibliográfica
26
pasos fundamentales de esta metodología son: (i) elegir aleatoriamente k-
centroides (por ejemplo, valores de correlación entre variables), (ii)
clasificar cada objeto según el centroide más cercano, (iii) recalcular los
centroides como la media muestral del agrupamiento correspondiente, e
iterar desde el segundo paso hasta que no hayan cambios en la
clasificación o hasta m iteraciones. En este trabajo se implementó este
método para eliminar aquellos descriptores fuertemente correlacionados.
1.3.3.2 Métodos de retroalimentación
Este tipo de métodos busca el mejor subconjunto de características en
combinación con un método de clasificación. La validez de un subconjunto
es determinada utilizando métodos de validación interna (ejemplo,
validación cruzada). Debido a que explorar todo el espacio de búsqueda
tiene un alto costo computacional, se han desarrollado varios métodos de
optimización para la búsqueda del mejor subconjunto. Entre otros se
encuentran: los métodos de selección por adicción recursiva de variables
(del inglés, Forward selection), los métodos de selección por eliminación
recursiva de variables (del inglés, Backward elimination) y los algoritmos
genéticos. En general, estos métodos exploran el espacio de búsqueda
comenzando con todas las características o con una selección aleatoria de
estas (Saeys y cols., 2007; Al 2008).
1.3.4 Máquinas de Soporte Vectorial
Las Máquinas de Soporte Vectorial (SVM, del inglés Support Vector
Machine) fueron introducidas por Vapnik en 1997 (Vapnik y cols., 1997),
para dar solución principalmente a problemas de clasificación y regresión.
La SVM realiza una transformación de los datos de entrada producto al
cual estos son representados en un espacio de mayor dimensión mediante
Revisión Bibliográfica
27
el uso de una función o Kernel. Con una transformación no lineal apropiada
de los datos, estos pueden ser separados en dos (o más) categorías por un
hiperplano. Los Kernel normalmente utilizados para este tipo de
transformación son: el Lineal, el Polinomial y las Funciones de Base Radial.
La dimensión del nuevo espacio de características puede ser arbitraria,
limitada en la práctica fundamentalmente por recursos computacionales
(Larranaga y cols., 2006). Específicamente, en el campo de la biología, los
algoritmos basados en SVM han sido utilizados para la predicción de la
localización sub-celular de proteínas (Sarda y cols., 2005), en la
construcción de redes de interacción proteína-proteína (Zhou y cols.,
2013), en la predicción de epitopos T (Zhao y cols., 2003), en la estimación
de sitios de cortes de proteasas (Nanni y Lumini 2005), la predicción de
péptidos proteotípicos (Webb-Robertson y cols., 2010; Eyers y cols., 2011),
entre otros.
1.4 Lenguajes de programación y entorno de desarrollo integrado
Las herramientas computacionales para el procesamiento de los datos
obtenidos por espectrometría de masas, el cálculo de los descriptores
moleculares de péptidos, la implementación de las técnicas de selección de
variables y la construcción de un modelo de predicción se desarrollaron
utilizando dos lenguajes de programación: Java y R.
Java (desarrollado por Sun Microsystems) es un lenguaje de programación
cuya filosofía es totalmente orientada a objetos. Las aplicaciones
desarrolladas en Java son típicamente compiladas por la Máquina Virtual
de Java (JVM, del inglés Java Virtual Machine) en un código binario, que
es un intérprete intermedio entre el código fuente de la aplicación y el
código máquina que entiende el dispositivo destino. Esta cuestión
constituye una de las principales limitaciones del lenguaje ya que reduce el
rendimiento y la velocidad de las aplicaciones. Sin embargo, tal
característica, permite la independencia de plataforma de las aplicaciones
implementadas, lo cual significa que los programas escritos en Java
Revisión Bibliográfica
28
pueden ejecutarse en cualquier tipo de arquitectura. Java es un lenguaje
que ofrece seguridad, portabilidad y robustez a sus aplicaciones, no
obstante no ofrece acceso directo a la arquitectura de la PC, ni al espacio
de direcciones de memoria y no soporta la expansión de código
ensamblador (aunque las aplicaciones puedan acceder a las
características de bajo nivel utilizando biblioteca de clases nativas) (Eckel
2006).
Para el desarrollo de las aplicaciones Java utilizadas en este estudio fue
utilizado el entorno de desarrollo integrado NetBeans IDE versión 6.9.1 y el
Kit de Desarrollo en Java (JDK, que incluye el JRE (Java Runtime
Enviroment) y JVM) versión 1.6.
El lenguaje de programación R (desarrollado en Bell Labs de AT&T) es una
implementación libre, independiente y de código abierto del lenguaje S. Es
un lenguaje Script potenciado en el análisis estadístico y gráfico.
Proporciona un amplio conjunto de herramientas estadísticas (modelos
lineales y no lineales, pruebas estadísticas, análisis de series temporales,
algoritmos de clasificación y agrupamiento, y otros algoritmos para tareas
de clasificación y regresión) y permite la generación de gráficos de alta
calidad. Es un lenguaje multiplataforma y permite desarrollar bibliotecas
dinámicas en los lenguajes de programación C, C++ y Fortran. El sitio Web
principal de R es: http://www.r-project.org.
Tanto R como Java son actualmente distribuidos bajo la Licencia Pública
General de GNU (del inglés, GNU General Public License (GNU GPL)),
que es una licencia creada por la Fundación de ‘Software’ Libre y está
orientada principalmente a proteger la libre distribución, modificación y uso
de ‘software’.
Materiales y Métodos
29
Capítulo 2. Materiales y Métodos
2.1 Obtención de los péptidos teóricos del proteoma de D. Melanogaster
Las secuencias del proteoma de Drosophila Melanogaster se extrajeron
de la base de datos Flybase Drosophila Databank (19389 secuencias de
proteínas indexadas) (actualización 4.3, disponible desde junio de 2007).
Las secuencias se digirieron in silico con tripsina utilizando la biblioteca
de algoritmos InSilicoSpectro (Colinge y cols., 2006), y cada péptido se
asoció con el identificador de su proteína. Todos los péptidos redundantes
se removieron.
2.2 Obtención del pI experimental de los péptidos
Para el desarrollo, entrenamiento y prueba del modelo de predicción de pI
basado en SVM se emplearon los datos experimentales obtenidos por
medio de una colaboración entre el Departamento de Proteómica del
Centro de Ingeniería Genética y Biotecnología (Cuba) y el laboratorio del
profesor Ruedi Aebersold (Suiza). Los péptidos se obtuvieron por un
estudio llevado a cabo con la línea celular Kc167 de D. Melanogaster,
donde se utilizó la técnica de isoelectroenfoque en solución (OFFGEL
electrophoresis) como primer paso de separación de la mezcla de
péptidos. Cada fracción obtenida se analizó en un espectrómetro de
masas LTQ-FT-ICR acoplado a una fuente de ionización por
nanoElectrospray (Perez-Riverol y cols., 2011) .
2.3 Procesamiento de los datos biológicos
Los espectros MS/MS se interpretaron por el programa X!Tandem (Craig y
Beavis 2004) utilizando la base de datos de proteínas Flybase
Materiales y Métodos
30
(http://flybase.org/). Para el análisis se consideraron las modificaciones
post-traduccionales cisteína carbamidometilada (como modificación fija) y
sulfóxido de metionina (como modificación variable). Los resultados
obtenidos por la búsqueda en la base de datos se validaron utilizando
PeptideProphet (Ma y cols., 2012), que evalúa y asigna una probabilidad a
cada identificación correcta realizada por X!Tandem.
2.3.1 Programa readPeptideXML
El programa readPeptideXML se desarrolló (en Java) para el análisis de
las identificaciones validadas por PeptideProphet, del cual se obtienen los
péptidos identificados con la probabilidad asignada en archivos con
formato XML. La cantidad de archivos XML obtenidos depende de las
fracciones analizadas provenientes de la etapa experimental. Las dos
funciones básicas de readPeptideXML son: (i) eliminar los péptidos
repetidos en una misma fracción, procedimiento mediante el cual se
obtienen péptidos únicos por fracciones (se elimina información
redundante) y (ii) eliminar los péptidos que aparecen en más de una
fracción, problema frecuente en la técnica de Isoelectroenfoque debido a la
focalización incorrecta de varios péptidos. Ambos procedimientos
contribuyen en la construcción del modelo de predicción del punto
isoeléctrico teórico de los péptidos debido a que eliminan información en
los datos experimentales que pueden dar lugar a interpretaciones
incorrectas. El sistema toma como parámetro de entrada los archivos XML
(resultantes del análisis de cada fracción) con los péptidos identificados;
como salida se obtienen archivos XML procesados según las funciones
descritas anteriormente.
2.4 Diseño experimental
El flujo de trabajo seguido para la construcción de un modelo basado en
SVM para la predicción del pI es resumido en la figura 4. A partir de los
Materiales y Métodos
31
datos experimentales obtenidos en experimentos de proteómica (donde la
muestra es fraccionada utilizando Isoelectroenfoque), se extrajeron los
péptidos únicos por cada fracción experimental. La etapa de cálculo de
descriptores de secuencia, a partir de la lista de péptidos inicial, se realizó
utilizando la plataforma computacional ChemAxon, la biblioteca de clases
CDK y la base de índices experimentales de aminoácidos AAindex.
Figura 4. Flujo de trabajo seguido para el desarrollo de un modelo predictor de pI utilizando descriptores moleculares y SVM.
Se introdujo un paso de selección de variables para eliminar los
descriptores más correlacionados. Posteriormente se combinó un algoritmo
de eliminación recursiva de variables con el algoritmo basado en SVM para
evaluar los descriptores más significativos. En esta etapa de prueba, se
evaluaron varias funciones de transformación de los datos de entrada y se
Materiales y Métodos
32
ajustaron los parámetros fundamentales de la Máquina de Soporte
Vectorial. Tomando en cuenta los resultados en los pasos anteriores se
implementó en WEKA el modelo final para la predicción del pI.
Adicionalmente, se implementaron los algoritmos de Bjellqvist (Bjellqvist y
cols., 1993) y Cargile (Cargile y cols., 2008), los cuales siguen
metodologías diferentes para la estimación del punto isoeléctrico. Ambos
algoritmos y el modelo desarrollado en este trabajo se evaluaron en dos
conjuntos de datos experimentales.
2.5 Cálculo de descriptores de AAindex
Cada descriptor de AAIndex ( ) fue calculado según la fórmula:
∑
Donde es el número de aminoácidos en la cadena peptídica y es el
valor del índice para cada aminoácido individual. Por ejemplo, para el
péptido GWRAK, el índice de hidrofobicidad de AAIndex ( ) (figura 2)
sería igual a:
La herramienta AAIndexDescriptor (desarrollada en Java) se empleó para
el cómputo de todos los descriptores moleculares. Los parámetros de
entrada de la herramienta son: el fichero de secuencia de pépticos a
analizar (formato texto) y la base de datos AAIndex, como salida del
sistema se obtiene el valor de los 544 descriptores de AAIndex para cada
uno de los péptidos del archivo de entrada.
Materiales y Métodos
33
2.6 Implementación del modelo final basado en SVM utilizando WEKA
El modelo final para la predicción del pI se implementó en Java utilizando la
biblioteca de clases Weka, la cual soporta varias tareas y algoritmos de
minería de datos; especialmente, el preprocesamiento de los datos, los
algoritmos de agrupamiento (clustering), las tareas de clasificación y
regresión y la selección de variables. Todas las técnicas de Weka se
fundamentan en la asunción de que los datos están disponibles en un
fichero plano (sin formato) o una base de datos, en la que cada registro de
datos está descrito por un número fijo de atributos (normalmente numéricos
o nominales, aunque también se soportan otros tipos). En este trabajo, los
datos de entrada se representaron utilizando la clase de Weka Instances, la
cual permite definir el tipo y el número de atributos (descriptores) y el
atributo clase (punto isoeléctrico experimental) para un número
determinado de instancias (péptidos).
La clase SMOreg se utilizó para construir el clasificador basado en SVM.
Esta clase implementa un algoritmo de optimización mínima secuencial
(SMO, del inglés Sequential Minimal Optimization) propuesto por Alex
Smola y Bernhard Scholkopf (Smola y Schölkopf 2004). El algoritmo
permite variar explícitamente varios parámetros que definen el
comportamiento de la SVM.
Los parámetros C y σ se ajustaron durante la etapa de entrenamiento del
clasificador utilizando varios ciclos de validación cruzada. El RMSE (error
cuadrático medio) se utilizó como criterio para la optimización de los
valores de ambos parámetros. El parámetro C puede ser definido como un
parámetro de regularización que puede ser ajustado en la formulación de
la SVM. En la búsqueda del mejor rendimiento del clasificador, C tomó
valores en el intervalo entre 1 y 100 (con paso 1). El ajuste de este
parámetro establece un balance entre la maximización del margen entre
los vectores de soporte y la penalización en el proceso de regresión en el
espacio de las características.
El RMSE se evaluó para valores de igual a 1.0, 0.8, 0.5, 0.3, 0.2, 0.1,
0.05, 0.01, 0.005 y 0.001. El parámetro regula la siguiente expresión:
Materiales y Métodos
34
( ) ( [
]
)
donde el espacio de entrada ( ) es conformado por los componentes de
un vector de entrada y el espacio de características ( ) es conformado
por componentes ( ) de un vector ( ) representa la transformación
vía la función Kernel (en este caso, la función de base radial o gaussiana).
La selección de los valores de ambos parámetros se realizó teniendo en
cuenta el menor RMSE alcanzado.
Resultados y Discusión
35
Capítulo 3. Resultados y Discusión
Los algoritmos de aprendizaje supervisado (y no supervisado) se han
empleado en la última década con excelentes resultados en el campo de la
Bioinformática y la química computacional (Melville y cols., 2009; Xiaohua
2011). Los algoritmos de predicción de funcionalidad a partir del
conocimiento de la estructura de las moléculas químicas (QSAR), y los
algoritmos de predicción de la estructura química de las proteínas son dos
de los campos de la química computacional donde los algoritmos de
aprendizaje supervisado constituyen la única forma de obtener resultados
de alta precisión y eficacia. En proteómica, la predicción del tiempo de
retención de los péptidos y las proteínas, así como la validación de los
espectros de masas son dos de las áreas donde el empleo de algoritmos
evolutivos, las redes neuronales y las Máquinas de Soporte Vectorial
(SVM) han sido exploradas y utilizadas para obtener funciones óptimas de
puntuación (Petritis y cols., 2006; Pfeifer y cols., 2007; Liu y cols., 2010).
El punto isoeléctrico de los péptidos y las proteínas como valor
experimental dentro de la electroforesis bidimensional y de una sola
dimensión, es una de las variables más utilizadas para validar las
identificaciones de las proteínas en mezclas complejas. En la actualidad, el
fraccionamiento de muestras biológicas utilizando las técnicas
electroforéticas (con la subsecuente obtención de los valores
experimentales de pI), no solo se emplea en la separación de la muestra
bajo estudio para reducir su complejidad, sino que además, la combinación
con valores teóricos de pI se ha explorado en la reducción de falsas
identificaciones y la validación de los resultados obtenidos por
espectrometría de masas (elemento más relevante cuando se utilizan en el
proceso de identificación espectrómetros de masas de baja resolución)
(Heller y cols., 2005; Uwaje y cols., 2007; Cargile y cols., 2008). En este
contexto, toma relevante importancia el desarrollo de algoritmos de
estimación del punto isoeléctrico que reduzcan la diferencia entre el valor
experimental y el teórico de un péptido y mejore su correlación.
Resultados y Discusión
36
El empleo de descriptores moleculares y de algoritmos de aprendizaje
supervisado para ajustar y optimizar respectivamente la función de cálculo
del punto isoeléctrico no ha sido explorado con anterioridad por la
comunidad científica. En este capítulo mostraremos los resultados del
empleo de los descriptores moleculares en combinación con máquinas de
soporte vectorial para la obtención de una función optimizada para la
estimación del punto isoeléctrico. Los resultados se compararon con los
obtenidos utilizando las funciones precedentes de cálculo de punto
isoeléctrico en varios conjuntos de datos experimentales.
3.1 Selección de descriptores moleculares
Empleando el programa realizado en Java y las bibliotecas CDK y
ChemAxon, así como la base de datos AAIndex se calcularon un conjunto
de 644 descriptores moleculares para cada péptido. El mayor grupo de
descriptores moleculares calculados corresponde a los 544 descriptores
experimentales de AAIndex. Los 100 descriptores restantes provenientes
de las bibliotecas CDK y ChemAxon se pueden agrupar en los siguientes
grupos: los electrostáticos, los geométricos y los composicionales.
Los algoritmos de selección de variables son numerosos y se pueden
clasificar en tres grupos fundamentales: los algoritmos de filtrado, los
embebidos y los envueltos. Dentro de estos tres grupos, los métodos de
filtrado resultan muy eficientes para la reducción de la dimensionalidad en
etapas tempranas del desarrollo de algoritmos de aprendizaje. Estos
algoritmos, que se emplean además para reducir el espacio de variables
(cuando se trabaja con grandes volúmenes de datos), no necesitan la
evaluación del modelo matemático a optimizar y trabajan sobre la
naturaleza propia de los descriptores moleculares (y no con la relación del
modelo que se desea optimizar). Dentro de los algoritmos de filtrado, los
algoritmos de agrupamiento son los más extensamente empleados. Los
algoritmos de agrupamiento y en especial el algoritmo de las medianas (k-
means) han sido muy utilizados para el filtrado de propiedades y
Resultados y Discusión
37
descriptores moleculares en los estudios de modelos QSAR (Gonzalez y
cols., 2008; Gonzalez-Diaz 2012). El algoritmo de las medianas se empleó
en este trabajo para calcular las correlaciones entre todos los descriptores
bajo estudio y agrupa aquellas variables fuertemente correlacionadas. En
la figura 5 se muestran los agrupamientos en una matriz de correlación
para los descriptores provenientes de las bibliotecas CDK y ChemAxon.
Figura 5. Matriz de correlación de descriptores moleculares de CDK y ChemAxon previo al procedimiento de selección de características con el algoritmo de las medianas (k-mean).
La matriz de correlación antes de ejecutar el algoritmo de selección de
variables identifica dos grupos de variables perfectamente diferenciados. El
segundo de los grupos se encuentra densamente poblado. Para
complementar el análisis con el algoritmo k-means, se incorporó un
conjunto de restricciones al algoritmo a partir de la información consultada
en la literatura. Liu y colaboradores establecieron previamente la relación
directa que existe entre el punto isoeléctrico del amino ácido de forma
individual y los siguientes descriptores moleculares: la polaridad, la
Resultados y Discusión
38
refractividad, la superficie molecular y la cantidad de átomos donores y
aceptores de hidrógeno (Liu y cols., 2004).
Con el objetivo de reducir la dimensionalidad del espacio de los
descriptores moleculares, disminuir la redundancia de información y la
dependencia lineal entre diferentes descriptores; se seleccionaron aquellos
descriptores moleculares más próximos a los centroides de los
agrupamientos. Como resultado se eliminaron todas las propiedades que
tenían un índice de correlación mayor a 0.80, manteniendo aquellas
propiedades identificadas previamente como posibles variables
correlacionadas con el punto isoeléctrico. La figura 6 representa la matriz
de correlación resultante de la aplicación del algoritmo k-means al conjunto
inicial de descriptores (correlación entre las 19 variables resultantes).
Figura 6. Matriz de correlación de los descriptores de ChemAxon y CDK luego de aplicar el algoritmo de K-means.
En la figura 6 se pueden definir 3 grupos, siendo el segundo el más
densamente poblado. Estos grupos contienen las variables que se
emplearon como criterios de inclusión a partir de la bibliografía consultada.
Los descriptores cLogP (logaritmo del coeficiente de partición
octanol/agua), el índice de Balaban y la energía del péptido según el
Resultados y Discusión
39
campo de fuerza MMF94 son los descriptores menos correlacionados en la
matriz. Descriptores como la refractividad y la superficie polar de la
molécula son los más correlacionados de la matriz.
Luego de obtener las propiedades de los péptidos estimadas con las
librerías ChemAxon y CDK se utilizó la misma estrategia para analizar los
descriptores calculados a partir de la base de datos AAIndex. La base de
datos AAIndex contiene 544 descriptores experimentales calculados para
los 20 aminoácidos naturales. Con el programa AAIndexDescriptor se
calcularon todos los descriptores de AAIndex para cada péptido,
realizándose una normalización según la cantidad de aminoácidos en la
molécula. La figura 7 muestra la distribución final de las correlaciones
según la matriz de correlación.
Figura 7. Matriz de correlación de los descriptores de AAIndex luego de aplicar el algoritmo de k-means.
Resultados y Discusión
40
La figura 7 no muestra ningún grupo densamente poblado. Entre las
variables seleccionadas (de la base de datos AAindex) se encuentran
descriptores relacionados con el punto isoeléctrico, la refractividad, el
tiempo de retención, el índice de flexibilidad de la estructura del péptido,
entre otros. Todos estos descriptores muestran una correlación menor a
0.6. Este procedimiento contribuye a eliminar los descriptores que pudiesen
tener cierta irrelevancia para el modelo predictivo. El problema de la
selección de variables en la predicción de los modelos matemáticos es un
tópico que genera en la actualidad un número importante de trabajos
científicos. El empleo de algoritmos de agrupamiento como métodos de
selección de variables para reducir la dimensionalidad son muy utilizados
en los problemas donde se utilizan muchas variables (Saeys y cols., 2007;
Pereira y cols., 2009; Cao y cols., 2011).
Una vez seleccionados los 58 descriptores moleculares resultantes del uso
de los algoritmos de agrupamiento, se realizó una segunda selección de
descriptores utilizando un simple algoritmo de eliminación recursiva, el cual
constituye una técnica mucho más exhaustiva para reducir la cantidad de
variables en combinación con el modelo basado en SVM.
3.2 Núcleos de transformación (Kernel) y eliminación recursiva de
variables
Las Máquinas de Soporte Vectorial son un conjunto de algoritmos de
aprendizaje supervisado desarrollados por Vapnik (Vapnik y cols., 1997).
Estos métodos están propiamente relacionados con problemas de
clasificación y regresión. El problema clásico puede representarse como un
conjunto de ejemplos de entrenamiento (de muestras), a partir del cual
podemos identificar las clases y entrenar una Máquina de Soporte Vectorial
para construir un modelo que prediga la clase de una muestra nueva.
El paso de selección de variables (entre los 58 descriptores seleccionados)
en combinación con el algoritmo basado en SVM fue implementado en R
utilizando el paquete de funciones Caret (http://cran.r-
project.org/web/packages/caret/). Los 7391 péptidos (extraídos de los
Resultados y Discusión
41
datos experimentales) fueron aleatoriamente divididos en dos subconjuntos
de datos: un subconjunto de entrenamiento (75%) y un subconjunto de
prueba (25%), ambos utilizados para construir el modelo predictor. El paso
de selección de variables en el algoritmo es un método recursivo simple de
eliminación de variables, donde S representa una secuencia de valores
numéricos ordenados (S1 > S2,...), los cuales son candidatos al número de
variables a ser retenidas para construir el modelo en cada iteración del
algoritmo. Finalmente, el subconjunto Si con el cual se obtiene mejor
rendimiento es utilizado en el modelo final. El algoritmo basado en SVM
junto a un Kernel específico se aplicó para evaluar las variables
seleccionadas y generar el modelo final.
La representación por medio de las funciones de transformación (Kernel)
de las variables de entrada ofrece una solución al problema de la
representación de las características sobre el espacio. Un Kernel no es
más que la proyección de la información a un espacio de características de
mayor dimensión el cual aumenta la capacidad computacional de las
máquinas de aprendizaje lineal. Para poder determinar cuáles de los
Kernels más utilizados en la actualidad ofrece un modelo óptimo se
probaron cuatro variantes fundamentales.
Tabla 1. Funciones de transformación (Kernels) evaluadas en función del número de variable en el modelo final.
Kernel Nº de
descriptores RMSE R
2
Polinomial 25 0.3387 0.9734
Lineal 20 0.3866 0.9656
Exponencial 2 0.4081 0.961
Radial 2 0.31 0.987
La tabla 1 muestra las funciones evaluadas. La variable que se emplea
para escoger el mejor Kernel es el error cuadrático medio (RMSE). El
Kernel con el cual se obtuvieron mejores resultados (valores más bajos de
RMSE) fue el de Base Radial (o función Gaussiana). En 17 conjuntos de
Resultados y Discusión
42
variables evaluados por el algoritmo de selección, los mejores resultados
fueron para la combinación del punto isoeléctrico estimado con la función
de Bjellqvist y colaboradores y el índice de punto isoeléctrico de
Zimmerman y colaboradores (Figura 8). El índice de Zimmerman
representa experimentalmente el punto isoeléctrico de cada aminoácido en
la naturaleza. En contraste con resultados previos (Liu y cols., 2004), las
propiedades físico-químicas como la polaridad y la refractividad de la
molécula no mostraron relación con el pI. La relación entre las variables
seleccionadas y el problema bajo estudio confirmó que el modelo
empleado de selección de variables y de SVM es adecuado y óptimo.
Figura 8. RMSE obtenido según el número de variables utilizadas en el modelo predictivo.
3.3 Pre-procesamiento de los datos de entrada del modelo final
La etapa del estudio de las variables más significativas en el modelo final y
la búsqueda de una función de transformación adecuada para la
representación de los datos en un espacio de características de mayor
dimensión, son cruciales en la construcción del modelo basado en SVM.
Resultados y Discusión
43
No obstante, se ha descrito ampliamente que el preprocesamiento de datos
es un paso fundamental en el desarrollo de los métodos de aprendizaje
computacional (Al Shalabi y Shaaban 2006; Al 2008; Thongkam y cols.,
2008). La calidad de los datos de entrenamiento y de los datos de prueba
están fuertemente relacionados con el rendimiento y la precisión de las
predicciones del modelo empleado. Esto se debe a que los datos obtenidos
de sistemas del mundo real pueden contener ruido, valores incorrectos (o
irrelevantes) y valores ausentes que pueden ocultar patrones útiles para
caracterizar el sistema de interés. Por ejemplo, en datos provenientes de
experimentos electroforéticos, se detectan normalmente péptidos fuera de
la fracción correspondiente. Este fenómeno está gobernado por parámetros
como el tiempo de focalización, la abundancia de los péptidos, la
interacción péptido-péptido y la composición de la muestra (Cargile y cols.,
2004). En este trabajo, los datos estudiados fueron procesados teniendo en
cuenta dos criterios fundamentales: la remoción automática de valores
átipicos y la normalización de los datos.
3.3.1 Remoción automática de valores atípicos
A partir del conjunto de los péptidos identificados en cada fracción y su
correspondiente pI experimental, se obtiene un conjunto de datos con
atributos y instancias. Cada atributo ( ) corresponde a los descriptores
incluidos en el modelo final y el atributo clase fue definido para el valor
experimental de pI, cada instancia ( ) corresponde a los péptidos
identificados en cada fracción.
La remoción de los valores atípicos (en este estudio se refiere a péptidos
con pI desviado de su fracción experimental) se realizó tomando en cuenta
el pI teórico estimado por el algoritmo de Bjellqvist. El criterio seguido para
remover los péptidos con pI desviado fue el siguiente:
( )
Resultados y Discusión
44
Donde corresponde a la media de los valores de pI de la fracción,
es el pI calculado con el algoritmo de Bjellqvist para cada péptido y
corresponde a la desviación estándar del pI en la fracción analizada.
Figura 9. Efecto de la remoción de valores atípicos de los datos experimentales en el rendimiento del clasificador medido por el RMSE. Se muestran 10 corridas del clasificador en dos conjuntos de datos diferentes (A y B). • datos con valores atípicos removidos, ∆ datos con valores atípicos sin remover.
La figura 9 muestra los valores de RMSE obtenidos para 10 corridas del
modelo basado en SVM en los dos conjunto de datos experimentales
0.2
0.25
0.3
0.35
0.4
0.45
0 2 4 6 8 10 12
RM
SE
Iteraciones
+ valores atípicos
- valores atípicos
A
0.18
0.2
0.22
0.24
0.26
0 2 4 6 8 10 12
RM
SE
Iteraciones
+ valores atípicos
- valores atípicos
B
Resultados y Discusión
45
estudiados. En ambos casos, se pudo observar que por la remoción de
aproximadamente el 2% del total de valores atípicos, disminuye el RMSE,
lo que se puede traducir en un aumento del rendimiento del clasificador.
Esto indica que el método implementado es adecuado también en datos
provenientes de experimentos electroforéticos, elemento no reportado
antes en la literatura.
El mayor por ciento de péptidos con pI desviado de la fracción experimental
correspondiente se concentró en las fracciones más básicas; típicamente,
donde focalizan menor cantidad de péptidos que a la vez tienen mayor
probabilidad de migrar hacia fracciones incorrectas. Del total de los
péptidos identificados en las tres fracciones más básicas, el número de
péptidos desviados osciló entre 5% y 10% (Figura 10). Otros estudios han
reportado la eliminación de hasta un 10% de péptidos con pI desviado
previo al análisis de los resultados obtenidos en experimentos
electroforéticos (Lengqvist y cols., 2011). Adicionalmente, se evaluó otra
técnica para remover valores extremos basado en el Rango Interquartilo,
pero los resultados obtenidos no mostraron relevancia para el modelo final.
Figura 10. Número de péptidos identificados en cada fracción y el porcentaje de péptidos con pI desviado de su fracción correspondiente. El mayor por ciento de péptidos con pI desviado se encontró en las fracciones más básicas (10-19).
0
5
10
15
20
25
30
35
40
45
50
0
200
400
600
800
1000
1200
1400
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
% d
e p
épti
do
s co
n pI d
esvi
ado
# d
e p
épti
do
s id
enti
fica
do
s
Fracciones
péptidos identificados
% de péptidos con pI desviado
Resultados y Discusión
46
3.3.2 Normalización de los datos
Otra transformación aplicada a los datos de entrada fue la normalización.
Se ha reportado en varios estudios la importancia de eliminar el posible
desbalance que pudiera existir entre las variables utilizadas para construir
un modelo predictor. Los atributos en los datos se normalizan en las
escalas [0, 1] y [-1, 1] utilizando transformaciones lineales (generalmente)
basadas en la media y la desviación estándar.
En este caso, los descriptores estudiados son de diferente naturaleza (por
ejemplo, la masa molecular puede tomar valores en el orden de los miles
de Da mientras las escalas de hidrofobicidad son representadas en el
orden de las decenas). Sin embargo, como puede observarse en la figura
11, la normalización no tuvo un impacto significativo en el rendimiento del
clasificador (medido por la RMSE). Esto pudiera deberse a que ambos
descriptores incluidos en el modelo final son de naturaleza semejante.
Figura 11. Efecto de la normalización de los datos de entrada en el rendimiento del clasificador.
0.18
0.2
0.22
0 2 4 6 8 10 12
RM
SE
Iteraciones
Valores normalizados
Valores no normalizados
Resultados y Discusión
47
3.4. Implementación del algoritmo pI-SVM utilizando WEKA
Como se describió en los acápites anteriores, las etapas de selección de
los descriptores moleculares y el desarrollo del modelo predictor de pI
basado en Máquinas de Soporte Vectorial se desarrollaron utilizando el
lenguaje de programación R. Este lenguaje de programación
(especializado en el análisis estadístico), posee amplias capacidades
gráficas y posibilita la evaluación de un gran número de condiciones sin
una excesiva carga computacional. No obstante, es menos adecuado para
usuarios finales con menos habilidades en programación.
Teniendo en cuenta estos elementos, el modelo final determinado en esta
primera etapa de desarrollo se implementó en Java utilizando la biblioteca
de clases WEKA (Frank y cols., 2004). El objetivo principal de este paso,
fue obtener un algoritmo que fuese relativamente fácil de expandir como
una aplicación (siguiendo el paradigma de la programación orientada a
objetos). Desde este punto de vista, el método desarrollado en este trabajo,
puede ser utilizado relativamente fácil, puede ejecutarse sobre varias
plataformas (Linux, Windows y Mac) y puede ser incluido por otros
desarrolladores en programas para la predicción de propiedades físico-
químicas de los péptidos y las proteínas. La figura 12 muestra el diagrama
de flujo del modelo final. A partir de una lista de péptidos con su
correspondiente pI experimental los datos son preprocesados y
aleatorizados para luego dividirse en dos subconjuntos: los datos para
entrenar el modelo y los datos para probar el modelo. Adicionalmente, la
etapa de prueba incluye un paso de validación cruzada del algoritmo. El
criterio de selección del mejor clasificador es el RMSE para i-iteraciones
del algoritmo. Tomando en cuenta los resultados de varias corridas, el
número de iteraciones se fijó en 10, ya que con este número de iteraciones
el algoritmo converge relativamente rápido y es posible obtener un modelo
óptimo para predecir el pI de nuevos péptidos.
Resultados y Discusión
48
Figura 12. Diagrama de flujo del algoritmo para obtener el clasificador basado en SVM. En cada iteración i se almacena el clasificador con menor RMSEi. En la i-ésima iteración se obtiene el clasificador con menor RMSE (modelo final).
3.5 Detección de falsas identificaciones con el algoritmo pI-SVM
La utilización del punto isoeléctrico como una variable ortogonal en la
identificación de péptidos y proteínas ha sido recientemente explorada
(Cargile y cols., 2004; Heller y cols., 2005; Horth y cols., 2006; Perez-
Riverol y cols., 2011). Cargile y colaboradores sentaron las bases teóricas
para la identificación de los péptidos y las proteínas basada en este nuevo
paradigma. La metodología planteada por estos autores utiliza la masa
molecular y el punto isoeléctrico como criterios para la identificación, y
representa un cambio en el enfoque de las metodologías actuales
utilizadas en el proceso de identificación (Cargile y Stephenson 2004). Por
Resultados y Discusión
49
otra parte, se ha reportado previamente la posibilidad de identificar
teóricamente péptidos y proteínas empleando diferentes propiedades
experimentales (Perez-Riverol y cols., 2011). No obstante, la utilización del
punto isoeléctrico como información complementaria para reducir el
número de falsas identificaciones (falsos positivos) ha sido una variante
menos explotada.
Tabla 2. Relación entre la (a) probabilidad asignada por PeptideProphet y el (d) porcentaje de péptidos con pI (calculado por el algoritmo pI-SVM) fuera del intervalo estimado (media de la fracción ±2 SD), (b) el número de péptidos identificados para cada probabilidad, (c) el número de péptidos no redundantes para cada probabilidad y (e) el número de identificaciones no redundantes que caen fuera del intervalo predicho en al menos una fracción. El total de péptidos con pI estimado desviado fue 750.
En la tabla 2 se puede observar la relación entre la predicción del punto
isoeléctrico (utilizando el algoritmo basado en SVM) y la probabilidad
asignada por PeptideProphet (Ma y cols., 2012). El intervalo de punto
isoeléctrico determinado para una fracción se definió como la media del pI
estimado para la fracción ±2 veces la desviación estándar (SD). Un estudio
previo demostró que para diferentes algoritmos de búsquedas, ±2 pI SD
tuvo un efecto más significativo que ±1 pI SD (Heller y cols., 2005). Los
resultados muestran que un bajo número de péptidos (0.2%) caen fuera del
intervalo de pI predicho para probabilidades altas (1.0) asignadas por
PeptideProphet. El efecto opuesto fue encontrado para péptidos con baja
probabilidad asignada (Figura 13). Esto significa que el método de
predicción de pI puede detectar el número de falsos positivos en cada
fracción.
Probabilidada
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1
Péptidos identificados
b 211687 33492 15960 11244 9780 9540 10200 11556 16212 4344
Péptidos no redundantes
c 16893 2791 1330 937 815 795 850 963 1351 362
% péptidosd
0.2 2.6 5.9 6.1 9.3 14.0 16.4 16.8 22.6 31.2
No redundantes
e 10 34 39 33 45 68 94 113 228 86
Resultados y Discusión
50
Figura 13. El porcentaje de péptidos con pI desviado del intervalo fijado tiende a disminuir cuando aumenta la probabilidad asignada por PeptideProphet. El gráfico se obtuvo a partir de los valores tabulados en las entradas (a) y (d) de la Tabla 2.
En estudio previo, Heller y colaboradores hallaron que para las
identificaciones con altas probabilidades asignadas por PeptideProphet, el
2.9% eran falsos positivos cuando utilizaron el algoritmo para el cálculo del
pI de Bjellqvist como filtro. Pero cuando adicionaron el tiempo de retención,
ellos encontraron que el 8.4% de las identificaciones podrían ser falsas
(Heller y cols., 2005). Cuando se aplicó el algoritmo basado en SVM (pI-
SVM) a los datos utilizados en el estudio de Heller, se detectó 4.1% de
falsos positivos para las identificaciones con altas probabilidades
asignadas, lo cual Heller y colaboradores no pudieron detectar utilizando el
método de predicción de pI únicamente.
La precisión del modelo basado en SVM permitió encontrar 44
identificaciones de péptidos no redundantes como probables falsos
positivos, los cuales tienen altas probabilidades asignadas por
PeptideProphet (probabilidades: 1, 0.9). Además, para identificaciones con
probabilidades más bajas (probabilidades: 0.8-0.1), el algoritmo detectó
aproximadamente 700 péptidos con valor teórico de pI fuera de la fracción
Resultados y Discusión
51
correspondiente. Por lo tanto, el método implementado en este trabajo
pudiera ser utilizado para clasificar los péptidos identificados utilizando
información ortogonal, como ha sido sugerido en previos estudios (Cargile
y Stephenson 2004; Perez-Riverol y cols., 2011).
3.6 Implementación de los algoritmos Bjellqvist y Cofactor
Las bases teóricas de los algoritmos propuestos por Bjellqvist y Cargile,
pueden ser verificadas en el Capítulo 1 de Revisión Bibliográfica (acápites
1.2.1 y 1.2.3). Ambos algoritmos se implementaron como parte de este
trabajo para el cálculo del pI de péptidos. La figura 14 muestra el diagrama
de flujo general en el cual se basan los dos algoritmos.
Figura 14. Flujo general de un algoritmo iterativo para el cálculo del pI. *Las constantes de pK
predefinidas son diferentes en los algoritmos de Bjellqvist y Cargile.
Resultados y Discusión
52
Los valores de pK, previamente calculados, se obtienen teniendo en cuenta
cada grupo ionizable en la secuencia aminoacídica. Los residuos de Lisina,
Histidina y Arginina son residuos básicos que poseen cadenas laterales
básicas (portan carga positiva) y los residuos ácido Aspártico, ácido
Glutámico, Cisteína y Tirosina, pueden portar cargas negativas.
Adicionalmente, el algoritmo toma en cuenta que el N-terminal y el C-
terminal de la secuencia contribuyen a la carga del péptido y a su punto
isoeléctrico. El algoritmo realiza varias iteraciones en un amplio intervalo de
pH, donde en cada iteración se introducen pequeñas perturbaciones al
valor de esta variable. El pI es determinado cuando la carga neta (QN) (que
es una función del pH y el pK a partir de una generalización de la ecuación
propuesta por Henderson-Hasselbalch) obtiene un valor cercano a cero. La
diferencia fundamental entre los métodos de Cargile y Bjellqvist, es que las
constantes de pK empleadas para el cálculo del pI son obtenidas siguiendo
metodologías diferentes. Mientras el conjunto de valores de pK propuesto
por Bjellqvist se obtuvo de forma experimental (Bjellqvist y cols., 1993),
Cargile propuso optimizaciones a cada constante a partir de las
interacciones electrostática entre los amino ácidos adyacente (Cargile y
cols., 2008).
3.7 Evaluación de los algoritmos de Bjellqvist, Cofactor y pI-SVM en datos
experimentales
Una comparación entre algoritmos previamente reportados para la
predicción de pI y el algoritmo desarrollado en este trabajo (pI-SVM), es
mostrada en la figura 15. El coeficiente de correlación de Pearson entre
los valores de pI experimentales y teóricos fueron 0.91 (algoritmo
Cofactor), 0.96 (algoritmo de Bjellqvist) y 0.98 (algoritmo pI-SVM). La
desviación estándar del algoritmo basado en SVM disminuyó a 0.32
unidades de pH, en comparación con 0.37 y 0.38 alcanzados con los
algoritmos de Bjellqvist y Cofactor respectivamente. En general, las SD de
cada fracción estudiada fueron bajas. Específicamente, los valores de pI
experimentales y teóricos estuvieron más correlacionados en el intervalo
Resultados y Discusión
53
de pH 3.0-4.0. Esto se debe al mayor número de péptidos identificados en
estas fracciones (ácidas) y al hecho de que el algoritmo pI-SVM es una
optimización del método descrito por Bjellqvist por la adición de un
descriptor experimental de AAindex.
Figura 15. pI experimental vs. pI teórico calculado por el algoritmo pI-SVM, Cargile y Bjellqvist.
Similarmente, el algoritmo Cofactor mostró buenos resultados en las
primeras cuatro fracciones de la región ácida (pH 3.5-4.5). Esto se debe a
que el algoritmo fue originalmente entrenado utilizando 5000 péptidos
trípticos separados en un gel con gradiente de pH inmovilizado de 18 cm
en el intervalo de pH 3.5-4.5. El promedio de la desviación estándar en las
Resultados y Discusión
54
primeras cinco fracciones para los algoritmos pI-SVM, Bjellqvist y Cofactor
fueron de 0.26, 0.23 y 0.25 respectivamente.
No obstante, en las siete fracciones más básicas (7.05, 7.35, 7.65, 7.95,
8.25, 8.55, 9.15) el algoritmo pI-SVM mostró mejores resultados (Figura
16). En estas fracciones el promedio de desviaciones estándar fue de 0.20,
0.52, 0.36 para los algoritmos pI-SVM, Bjellqvist y Cofactor
respectivamente. El intervalo de confianza (95% del nivel de confidencia)
es mejor para el método basado en SVM comparado con los métodos de
Bjellqvist y Cofactor. El modelo basado en SVM en particular y las técnicas
de aprendizaje computacional en general, posibilitaron el desarrollo de un
nuevo modelo predictor de pI a partir del conocimiento (identificaciones)
contenido en todas las fracciones.
Figura 16. Valores de desviación estándar obtenidos en las fracciones básicas empleando el algoritmo de Bjellqvist, Cofactor, y pI-SVM.
Adicionalmente, se incluyó en el estudio otro conjunto de datos (disponibles
públicamente) experimentales para validar y demostrar que el modelo
propuesto puede predecir con exactitud el pI en datos obtenidos con
diseños experimentales diferentes. En este trabajo se utilizó el conjunto de
datos extraídos de PeptideProphet del estudio de Heller y colaboradores
(Heller y cols., 2005). Los resultados mostraron una correlación de 0.96
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1 2 3 4 5 6 7
des
vias
ión
est
ánd
ar (
SD)
fracciones
SD obtenidas en las fracciones básicas
Cofactor Bjell SVM
Resultados y Discusión
55
para el modelo obtenido comparado con 0.91 con la función de Bjellqvist y
0.88 para el algoritmo Cofactor, la SD para los tres modelos fueron 0.37
(pI-SVM), 0.42 (Bjellqvist) y 0.48 (Cofactor) (Figura 17).
Figura 17. pI teórico vs. pI experimental para los algoritmos de Cofactor, Bjellqvist y pI-SVM.
Conclusiones
56
Conclusiones
1. Los resultados alcanzados demostraron la eficacia de las Máquinas de
Soporte Vectorial para estimar con precisión el punto isoeléctrico de
péptidos.
2. El algoritmo implementado para la predicción del pI mostró mejor
correlación entre los valores experimentales y teóricos de pI y menor
desviación estándar que los algoritmos en el estado del arte.
3. El valor de punto isoeléctrico estimado con este método, puede ser
utilizado como una variable ortogonal en estrategias de validación de
datos obtenidos en experimentos de proteómica, dada la posibilidad de
identificar péptidos falsos positivos.
Recomendaciones
57
Recomendaciones
1. Aplicar la metodología empleada en este trabajo en la implementación
de algoritmos de aprendizaje computacional para la estimación del pI de
péptidos modificados.
2. Aplicar la misma estrategia para la predicción del tiempo de retención de
péptidos en sistemas cromatográficos.
3. Formular un modelo matemático para la solución del problema de
inferencia de proteínas utilizando propiedades de péptidos (como el
punto isoeléctrico y el tiempo de retención).
Referencias Bibliográficas
58
Referencias Bibliográficas
Aebersold R. y Mann M. (2003). Mass spectrometry-based proteomics. Nature
422(6928): 198-207.
Ahrens C.H., Brunner E., Qeli E., Basler K. y Aebersold R. (2010).
Generating and navigating proteome maps using mass spectrometry.
Nat Rev Mol Cell Biol 11(11): 789-801.
Al D.W.E. (2008). Fundamentals Of Data Mining In Genomics And Proteomics.
Ed., Springer (India) Pvt. Ltd.
Al Shalabi L. y Shaaban Z. (2006). Normalization as a Preprocessing Engine
for Data Mining and the Approach of Preference Matrix. Dependability of
Computer Systems, 2006. DepCos-RELCOMEX '06. International
Conference.
Banks R.E., Dunn M.J., Hochstrasser D.F., Sanchez J.-C., Blackstock W. y
Pappin D.J. (2000). Proteomics: new perspectives, new biomedical
opportunities. The Lancet 386: 1749 -1756.
Bjellqvist B., Hughes G.J., Pasquali C., Paquet N., Ravier F., Sanchez J.C.
y cols. (1993). The focusing positions of polypeptides in immobilized pH
gradients can be predicted from their amino acid sequences.
Electrophoresis 14(10): 1023-1031.
Bonchev D. (2005). My Life–Long Journey in Mathematical Chemistry. Journal
of Molecular Design 4: 434-490.
Cao D.-S., Xu Q.-S., Hu Q.-N. y Liang Y.-Z. (2013). ChemoPy: freely available
python package for computational biology and chemoinformatics.
Bioinformatics.
Cao W., Ma D., Kapur A., Patankar M.S., Ma Y. y Li L. (2011). RT-SVR+q: a
strategy for post-Mascot analysis using retention time and q value metric
to improve peptide and protein identifications. J Proteomics 75(2): 480-
490.
Cargile BJ y Stephenson JL J. (2004). An alternative to tandem mass
spectrometry: isoelectric point and accurate mass for the identification of
peptides. . Anal Chem. .
Referencias Bibliográficas
59
Cargile B.J., Bundy J.L., Freeman T.W. y Stephenson J.L., Jr. (2004). Gel
based isoelectric focusing of peptides and the utility of isoelectric point in
protein identification. J Proteome Res 3(1): 112-119.
Cargile B.J., Bundy J.L. y Stephenson J.L., Jr. (2004). Potential for false
positive identifications from large databases through tandem mass
spectrometry. J Proteome Res 3(5): 1082-1085.
Cargile B.J., Sevinsky J.R., Essader A.S., Eu J.P. y Stephenson J.L., Jr.
(2008). Calculation of the isoelectric point of tryptic peptides in the pH
3.5-4.5 range based on adjacent amino acid effects. Electrophoresis
29(13): 2768-2778.
Cargile B.J. y Stephenson J.L., Jr. (2004). An alternative to tandem mass
spectrometry: isoelectric point and accurate mass for the identification of
peptides. Anal Chem 76(2): 267-275.
Cargile B.J., Talley D.L. y Stephenson J.L., Jr. (2004). Immobilized pH
gradients as a first dimension in shotgun proteomics and analysis of the
accuracy of pI predictability of peptides. Electrophoresis 25(6): 936-945.
Colinge J., Masselot A., Carbonell P. y Appel R.D. (2006). InSilicoSpectro:
an open-source proteomics library. J Proteome Res 5(3): 619-624.
Collins F.S., Morgan M. y Patrinos A. (2003). The Human Genome Project:
lessons from large-scale biology. Science 300(5617): 286-290.
Craig R. y Beavis R.C. (2004). TANDEM: matching proteins with tandem mass
spectra. Bioinformatics 20(9): 1466-1467.
DL. T. (2003). An algorithm for isoelectric point estimation. .
Domon B. y Aebersold R. (2006). Mass spectrometry and protein analysis.
Science 312(5771): 212-217.
Eckel B. (2006). Thinking in Java. Ed., Pearson Education.
Ekman R., Silberring J. y Brinkmalm A.M. (2008). Mass spectrometry:
instrumentation, interpretation, and applications. ilustrada Ed. Sweden,
John Wiley & Sons.
Eng J.K., Searle B.C., Clauser K.R. y Tabb D.L. (2011). A face in the crowd:
recognizing peptides through database search. Mol Cell Proteomics
10(11): R111 009522.
Eyers C.E., Lawless C., Wedge D.C., Lau K.W., Gaskell S.J. y Hubbard S.J.
(2011). CONSeQuence: prediction of reference peptides for absolute
Referencias Bibliográficas
60
quantitative proteomics using consensus machine learning approaches.
Mol Cell Proteomics 10(11): M110 003384.
Frank E., Hall M., Trigg L., Holmes G. y Witten I.H. (2004). Data mining in
bioinformatics using Weka. Bioinformatics 20(15): 2479-2481.
Garcia H.M. (2000). Electroforesis en geles de poliacrilamida: fundamentos,
actualidad e importancia. UNIV DIAG 1(2): 31-41.
Gasteiger E., Gattiker A., Hoogland C., Ivanyi I., Appel R.D. y Bairoch A.
(2003). ExPASy: The proteomics server for in-depth protein knowledge
and analysis. Nucleic Acids Res 31(13): 3784-3788.
Gauci S., van Breukelen B., Lemeer S.M., Krijgsveld J. y Heck A.J. (2008).
A versatile peptide pI calculator for phosphorylated and N-terminal
acetylated peptides experimentally tested using peptide isoelectric
focusing. Proteomics 8(23-24): 4898-4906.
Gonzalez-Diaz H. (2012). Editorial [Hot Topic: QSAR/QSPR Models as
Enabling Technologies for Drug Targets Discovery in: Medicinal
Chemistry, Microbiology-Parasitology, Neurosciences, Bioinformatics,
Proteomics and Other Biomedical Sciences (Guest Editor: Humberto
Gonzalez Diaz)]. Current Topics in Medicinal Chemistry 12(8): 799-801.
Gonzalez M.P., Teran C., Saiz-Urra L. y Teijeira M. (2008). Variable selection
methods in QSAR: an overview. Curr Top Med Chem 8(18): 1606-1627.
Gygi S.P., Corthals G.L., Zhang Y., Rochon Y. y Aebersold R. (2000).
Evaluation of two-dimensional gel electrophoresis-based proteome
analysis technology. Proc Natl Acad Sci U S A 97(17): 9390-9395.
Hawkins D.M. (1980). Identification of Outliers. Ed., Chapman and Hall.
Heller M., Michel P.E., Morier P., Crettaz D., Wenz C., Tissot J.D. y cols.
(2005). Two-stage Off-Gel isoelectric focusing: protein followed by
peptide fractionation and application to proteome analysis of human
plasma. Electrophoresis 26(6): 1174-1188.
Heller M., Ye M., Michel P.E., Morier P., Stalder D., Junger M.A. y cols.
(2005). Added value for tandem mass spectrometry shotgun proteomics
data validation through isoelectric focusing of peptides. J Proteome Res
4(6): 2273-2282.
Referencias Bibliográficas
61
Hinselmann G., Rosenbaum L., Jahn A., Fechner N. y Zell A. (2011).
jCompoundMapper: An open source Java library and command-line tool
for chemical fingerprints. Journal of Cheminformatics 3(1): 3.
Horth P., Miller C.A., Preckel T. y Wenz C. (2006). Efficient fractionation and
improved protein identification by peptide OFFGEL electrophoresis. Mol
Cell Proteomics 5(10): 1968-1974.
Kawashima S., Pokarowski P., Pokarowska M., Kolinski A., Katayama T. y
Kanehisa M. (2008). AAindex: amino acid index database, progress
report 2008. Nucleic Acids Res 36(Database issue): D202-205.
Krijgsveld J., Gauci S., Dormeyer W. y Heck A.J. (2006). In-gel isoelectric
focusing of peptides as a tool for improved protein identification. J
Proteome Res 5(7): 1721-1730.
Kuster B., Schirle M., Mallick P. y Aebersold R. (2005). Scoring proteomes
with proteotypic peptide probes. Nat Rev Mol Cell Biol 6(7): 577-583.
Lam H. (2011). Building and searching tandem mass spectral libraries for
peptide identification. Mol Cell Proteomics 10(12): R111 008565.
Lam H. y Aebersold R. (2011). Building and searching tandem mass (MS/MS)
spectral libraries for peptide identification in proteomics. Methods 54(4):
424-431.
Larranaga P., Calvo B., Santana R., Bielza C., Galdiano J., Inza I. y cols.
(2006). Machine learning in bioinformatics. Brief Bioinform 7(1): 86-112.
Lehninger A.L., Nelson D.L. y Cox M.M. (2005). Lehninger principles of
biochemistry. Ed., W.H. Freeman.
Lengqvist J., Eriksson H., Gry M., Uhlén K., Björklund C., Bjellqvist B. y
cols. (2011). Observed peptide pI and retention time shifts as a result of
post-translational modifications in multidimensional separations using
narrow-range IPG-IEF. Amino Acids 40(2): 697-711.
Liu C., Wang H., Fu Y., Yuan Z., Chi H., Wang L. y cols. (2010). Prediction of
peptide retention time in reversed-phase liquid chromatography and its
application in protein identification. Se Pu 28(6): 529-534.
Liu H.X., Zhang R.S., Yao X.J., Liu M.C., Hu Z.D. y Fan B.T. (2004).
Prediction of the isoelectric point of an amino acid based on GA-PLS and
SVMs. J Chem Inf Comput Sci 44(1): 161-167.
Referencias Bibliográficas
62
Ly L. y Wasinger V.C. (2011). Protein and peptide fractionation, enrichment
and depletion: tools for the complex proteome. Proteomics 11(4): 513-
534.
Ma K., Vitek O. y Nesvizhskii A.I. (2012). A statistical model-building
perspective to identification of MS/MS spectra with PeptideProphet. BMC
Bioinformatics 13 Suppl 16: S1.
Mallick P., Schirle M., Chen S.S., Flory M.R., Lee H., Martin D. y cols.
(2007). Computational prediction of proteotypic peptides for quantitative
proteomics. Nat Biotechnol 25(1): 125-131.
Melville J.L., Burke E.K. y Hirst J.D. (2009). Machine learning in virtual
screening. Comb Chem High Throughput Screen 12(4): 332-343.
Moruz L, Staes A, Foster JM, Hatzou M, Timmerman E y Martens L e.a.
(2012). Chromatographic retention time prediction for posttranslationally
modified peptides. Proteomics. .
Mujezinovic N., Schneider G., Wildpaner M., Mechtler K. y Eisenhaber F.
(2010). Reducing the haystack to find the needle: improved protein
identification after fast elimination of non-interpretable peptide MS/MS
spectra and noise reduction. BMC Genomics 11(Suppl 1): S13.
Nanni L. y Lumini A. (2005). Support Vector Machines for HIV-1 Protease
Cleavage Site Prediction. Pattern Recognition and Image Analysis. J.
Marques, N. Pérez de la Blanca and P. Pina, Springer Berlin Heidelberg.
3523: 413-420.
Nesvizhskii A.I. (2010). A survey of computational methods and error rate
estimation procedures for peptide and protein identification in shotgun
proteomics. Journal of Proteomics 73(11): 2092-2123.
Nesvizhskii A.I. y Aebersold R. (2005). Interpretation of shotgun proteomic
data: the protein inference problem. Mol Cell Proteomics 4(10): 1419-
1440.
Nesvizhskii A.I., Vitek O. y Aebersold R. (2007). Analysis and validation of
proteomic data generated by tandem mass spectrometry. Nat Methods
4(10): 787-797.
Nesvizhskii A.I., Vitek O. y Aebersold R. (2007). Analysis and validation of
proteomic data generated by tandem mass spectrometry. Nat Meth
4(10): 787-797.
Referencias Bibliográficas
63
Ning K., Fermin D. y Nesvizhskii A.I. (2010). Computational analysis of
unassigned high-quality MS/MS spectra in proteomic data sets.
Proteomics 10(14): 2712-2718.
Norbeck AD, Monroe ME, Adkins JN, Anderson KK, Daly DS y ;16:1239-49.
S.R. (2005). The utility of accurate mass and LC elution time information
in the analysis of complex proteomes. J Am Soc Mass Spectrom. .
Olson M.V. y Varki A. (2003). Sequencing the chimpanzee genome: insights
into human evolution and disease. Nat Rev Genet 4(1): 20-28.
Pereira F., Mitchell T. y Botvinick M. (2009). Machine learning classifiers and
fMRI: a tutorial overview. Neuroimage 45(1 Suppl): S199-209.
Perez-Riverol Y, Hermjakob H, Kohlbacher O, Martens L, Creasy D y J C.
(2013). Computational proteomics pitfalls and challenges: HavanaBioinfo
2012 Workshop report. J Proteomics.
Perez-Riverol Y, Sanchez A, Noda J, Borges D, Carvalho PC, Wang R y
cols. (2013). HI-Bone: A Scoring System for Identifying
Phenylisothiocyanate-Derivatized Peptides Based on Precursor Mass
and High Intensity Fragment Ions. Anal Chem.
Perez-Riverol Y, Wang R H.H., Muller M, Vesada V y JA V. (2013). Open
source libraries and frameworks for mass spectrometry based
proteomics: A developer's perspective. Biochim Biophys Acta.
Perez-Riverol Y., Sanchez A., Ramos Y., Schmidt A., Muller M., Betancourt
L. y cols. (2011). In silico analysis of accurate proteomics,
complemented by selective isolation of peptides. J Proteomics 74(10):
2071-2082.
Petritis K., Kangas L.J., Yan B., Monroe M.E., Strittmatter E.F., Qian W.J. y
cols. (2006). Improved peptide elution time prediction for reversed-phase
liquid chromatography-MS by incorporating peptide sequence
information. Anal Chem 78(14): 5026-5039.
Pfeifer N., Leinenbach A., Huber C.G. y Kohlbacher O. (2007). Statistical
learning of peptide retention behavior in chromatographic separations: a
new kernel-based approach for computational proteomics. BMC
Bioinformatics 8: 468.
Referencias Bibliográficas
64
Puente X.S., Gutierrez-Fernandez A., Ordonez G.R., Hillier L.W. y Lopez-
Otin C. (2005). Comparative genomic analysis of human and
chimpanzee proteases. Genomics 86(6): 638-647.
Righetti P.G. (2004). Determination of the isoelectric point of proteins by
capillary isoelectric focusing. J Chromatogr A 1037(1-2): 491-499.
Rodríguez C.K. (2004). A Computational Environment for Data Preprocessing
in Supervised Classification. Ed., University of Puerto Rico, Mayagüez
Campus.
Saeys Y., Inza I. y Larranaga P. (2007). A review of feature selection
techniques in bioinformatics. Bioinformatics 23(19): 2507-2517.
Sarda D., Chua G.H., Li K.B. y Krishnan A. (2005). pSLIP: SVM based protein
subcellular localization prediction using multiple physicochemical
properties. BMC Bioinformatics 6: 152.
Seidler J., Zinn N., Boehm M.E. y Lehmann W.D. (2010). De novo
sequencing of peptides by MS/MS. Proteomics 10(4): 634-649.
Skoog B. y Wichman A. (1986). Calculation of the isoelectric points of
polypeptides from the amino acid composition. TrAC Trends in Analytical
Chemistry 5(4): 82-83.
Smola A. y Schölkopf B. (2004). A tutorial on support vector regression.
Statistics and Computing 14(3): 199-222.
Tabb DL, Ma ZQ, Martin DB, Ham AJ y MC. C. (2008). DirecTag: accurate
sequence tags from peptide MS/MS through statistical scoring. J
Proteome Res. .
Tabb DL, Saraf A y Yates JR (2003). GutenTag: high-throughput sequence
tagging via an empirically derived fragmentation model. Anal Chem.
Thongkam J., Xu G., Zhang Y. y Huang F. (2008). Support Vector Machine for
Outlier Detection in Breast Cancer Survivability Prediction. Advanced
Web and NetworkTechnologies, and Applications. Y. Ishikawa, J. He, G.
Xuet al, Springer Berlin Heidelberg. 4977: 99-109.
Todeschini R. y Consonni V. (2000). Handbook of Molecular Descriptors. Ed.
Germany, WILEY-VCH
Truszkowski A., Jayaseelan K., Neumann S., Willighagen E., Zielesny A. y
Steinbeck C. (2011). New developments on the cheminformatics open
Referencias Bibliográficas
65
workflow environment CDK-Taverna. Journal of Cheminformatics 3(1):
54.
Uwaje N.C., Mueller N.S., Maccarrone G. y Turck C.W. (2007). Interrogation
of MS/MS search data with an pI Filter algorithm to increase protein
identification success. Electrophoresis 28(12): 1867-1874.
Vapnik V., Golowich S. y Smola A. (1997). Support vector method for function
approximation, regression estimation, and signal processing. Advances
in Neural Information Processing Systems 9.
Watson J.T. y Sparkman O.D. (2007). Introduction to mass spectrometry:
instrumentation, applications and strategies for data interpretation. 4 Ed.
California, John Wiley & Sons.
Webb-Robertson B.J., Cannon W.R., Oehmen C.S., Shah A.R.,
Gurumoorthi V., Lipton M.S. y cols. (2010). A support vector machine
model for the prediction of proteotypic peptides for accurate mass and
time proteomics. Bioinformatics 26(13): 1677-1683.
Wilson K. y Walker J.M. (2000). Principles and techniques of practical
biochemistry. 5 Ed., Cambridge University Press.
Xiaohua H. (2011). Data mining and its applications in bioinformatics:
Techniques and methods. Granular Computing (GrC), 2011 IEEE
International Conference.
Xu C. y Ma B. (2006). Software for computational peptide identification from
MS-MS data. Drug Discov Today 11(13-14): 595-600.
Yap C.W. (2011). PaDEL-descriptor: an open source software to calculate
molecular descriptors and fingerprints. J Comput Chem 32(7): 1466-
1474.
Zhao Y., Pinilla C., Valmori D., Martin R. y Simon R. (2003). Application of
support vector machines for T-cell epitopes prediction. Bioinformatics
19(15): 1978-1984.
Zhou W., Yan H., Fan X. y Hao Q. (2013). Prediction of Protein-Protein
Interactions Based on Molecular Interface Features and the Support
Vector Machine. Current Bioinformatics 8(1): 3-8.
Referencias Bibliográficas
66