Estudios de expresión génica con microarrays

Post on 26-Jan-2016

70 views 1 download

description

A plicaciones de D ata M ining en c iencia y t e cnología Bioinformática. Estudios de expresión génica con microarrays. Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN. Expresión diferencial de genes frente a dos tratamientos. …. …. gen 1. gen 1. gen 2. gen 2. - PowerPoint PPT Presentation

Transcript of Estudios de expresión génica con microarrays

Estudios de expresión génica con microarrays

Aplicaciones de Data Miningen ciencia y tecnología

Bioinformática

Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN

Expresión diferencial de genes frente a dos tratamientos

Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN

Tratamiento 1

Tratamiento 2

gen 1 gen 2

gen 3 gen 4 gen n

gen 1 gen 2

gen 3 gen 4 gen n

Comparación tratamiento 1 vs. tratamiento 2…

Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN

Utilizando microarrays se puede analizar la expresión relativa de miles de genes simultáneamente

http://www.bio.davidson.edu/Courses/genomics/chip/chip.html

Una animación sobre experimentos con microarrays:

Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN

Un microarray es un soporte sólido, por ejemplo, un vidrio de 8 x 2,5 cm.

Sobre el soporte se diseña una grilla, con tantos números de celdas como genes se van a analizar, más duplicados y controles

Sobre cada celda de la grilla se pegan moléculas de ADN complementarias del gen a analizar

Puntos importantes (1/2)

Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN

Se realizan los experimentos, se extrae ARNm y después de varios pasos químicos, se agrega el material procesado a los microarrays

Se escanea el microarray iluminando con uno o dos láseres de diferentes colores, se procesan las imágenes

Se extraen los datos de expresión de la imágen

Puntos importantes (2/2)

Experimentos con microarrays. Esquema de trabajo

hipótesis

diseño experimental

experimento

análisis de imágenes

normalización

pre-procesamiento

análisisfiltradoestimación agrupamiento

integración de los datosenriquecimiento

funcionalanálisis de vias

metabólicas

Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN

procesamiento de imágenes

Los spots se distribuyen en grillas, cada grilla se corresponde con uno de los probes (o genes) a analizar.

A veces las grillas no están bien alineadas entre sí.

Puede haber curvaturas dentro de una grilla

El espaciado entre los spots puede ser desigual

un microarray escaneadoMarcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN

procesamiento de imágenes

Cualquiera sea el tipo de microarray que utilicemos, tenemos que convertir los pixels de la imagen escaneada del microarray en información de expresión

1. escaneado (uno o dos canales)2. manipulación del contraste3. estimación preliminar de los centros de los

spots4. eliminar artefactos5. determinar la localización precisa del spot6. determinar la forma y tamaño del spot7. estimar el background

Dependiendo del tipo de microarray y de la plataforma, esto proceso puede ser más o menos automatizado

Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN

Estrategia de un experimento con un microarray de cDNA

El análisis de expresión con un chip de Affymetrix

Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN

normalización

Es una colección de métodos para tratar con los errores sistemáticos y los sesgos introducidos por la plataforma experimental utilizada

Etapas

Limpieza de los datos y transformación Normalización dentro del array (para arrays de 2 canales) Normalización entre arrays

Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN

normalización

1. Limpieza de los datos y transformación

Remover spots marcados en el paso anterior

Sustracción del background

Aplicar logaritmos

Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN

2. Normalización dentro del array (para arrays de 2

canales)

Posibles problemas:

normalización

Las marcas con Cy3 y Cy5 se incorporan diferencialmente

Los fluorógenos pueden tener diferentes respuestas de emisión a diferentes abundancias

Las emisiones pueden ser medidas diferencialmente a distintas intensidades

Problemas de enfoque

Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN

normalización

Soluciones (1/2):

Regresión lineal de Cy5 contra Cy3: Graficar los logaritmos de las intensidades Ajustar una recta de regresión Reemplazar los valores de Cy3 con los valores

ajustados

Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN

Soluciones (2/2):

Gráficos MA Graficar para cada spot en el eje x el promedio de los

logaritmos de Cy3 y Cy5. Y en el eje y la diferencia entre los logaritmos de los dos canales.

Ajustar una recta de regresión Recalcular la diferencia de logaritmos restando el valor

ajustado a la diferencia cruda

Regresión no-lineal de las diferencias de logaritmos (Regresión Loess)

Realizar un gráfico MA Aplicar la regresión Loess Recalcular la diferencia de logaritmos restando el valor

ajustado a la diferencia cruda

normalización

Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN

normalización

A veces es necesario corregir diferencias de intensidad que varían espacialmente sobre el microarray, en ese caso se pueden aplicar regresiones Loess bidimensionales

La causa de esto son las diferencias entre bloques de spots

Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN

3. Normalización entre arrays

Antes de hacer comparaciones entre distintos microarrays

tenemos que analizar y eliminar las diferencias entre arrays

debidas, por ejemplo, a diferencias entre las reacciones de

hibridación que ocurrieron en cada uno.

normalización

Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN

normalización

Soluciones

Realizar un gráfico Box-Plot conjunto para todos los arrays del experimento, para ver diferencias en variabilidad y en valores medios.

Asumiendo que las diferencias no tienen origen biológico se puede:

Escalar los datos: restarle a cada valor de logaritmos (o log-ratio), la media de su microarrray.

Centrarlos: restar la media y dividir por el desvío estándar

Normalizar la distribución: 1) ordenar los datos por array de mayor a menor. 2) calcular una nueva distribución, el primer dato es el promedio de los más altos; el segundo, el promedio de los segundos más altos, y así sucesivamente.3) Reemplazar cada medida en cada array con el promedio de la distribución calculada en 3).

Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN