Análisis de datos de microarrays Conceptos, Problemas, Métodos.

47
Análisis de datos de microarrays Conceptos, Problemas, Métodos

Transcript of Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Page 1: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Análisis de datos de microarrays

Conceptos, Problemas, Métodos

Page 2: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Objetivos generales

Panorámica general Tipos de estudios El “pipe-line” básico,

Familiarizarse con el proceso Input/Output a cada paso, Dificultades y opciones para resolverlas, Interpretación de los resultados.

Basado en ejemplos.

Page 3: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Tipos de estudios (1): Class comparison

Page 4: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Tipos de estudios (2): Class discovery

Page 5: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Tipos de estudios (3): Class prediction

Page 6: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Y muchos más tipos …

Time Course Perfiles de expresión a lo largo del

tiempo Pathway Analysis-(Systems Biology)

Reconstrucción de redes metabólicas a partir de datos de expressión

Whole Genome, CGH, Alternative Splicing Estudios con datos de distintos tipos Integración.

Page 7: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Workflow for a typical microarray experiment

Page 8: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

8

Ejemplos

Page 9: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

9

Efecto de la estimulación mediante LPS

Journal of Leukocyte Biology (2006;79:1314-1327). Objetivo: Comprender las bases moleculares de

los procesos regulados por la citokina en ratones.

Comparan RNA de Ratones estimulados mediante LPS y sin estimular

Se sabe que la edad influye en la regulación Ratones de dos grupos de edad (jovenes y viejos)

No se dispone de información sobre Cómo se asignaron tratamientos a individuos, Cómo se llevaron a cabo los arrays (día, lote,

técnico…)

Page 10: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Diferentes perfiles de expresión en AML con trisomía 8 o citogenética

normal

PNAS, January 30, 2001 vol. 98 (3)

Objetivo: Comparar perfiles de expresión en enfermos de AML+8 con enfermos AML y individuos sanos.

Estudio antiguo Datos de peor calidad y posibles lotes relacionados con procesado

Page 11: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

El Diseño Experimental (DE)

Start here

Page 12: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Origen de la variabilidad

• Biological Heterogeneity in Population

• Specimen Collection/ Handling Effects

– Tumor: surgical bx, FNA– Cell Line: culture condition,

confluence level• Biological Heterogeneity in Specimen• RNA extraction• RNA amplification

• Fluor labeling

• Hybridization

• Scanning– PMT voltage– laser power

(Geschwind, Nature Reviews Neuroscience, 2001)

Page 13: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Tratamiento de la variabilidad

Distintos tipos de variabilidad Sistemática / Aleatoria

Distintas formas de controlarla/considerarla Sistemática

Estimar la correccion a partir de los datos:Calibración, Normalización

Aleatoria Diseño Experimental: controlar su influenciaEstudios de potencia: cuantificar su efectoAnalisis de significacion: inferencia.

Page 14: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Objetivo del diseño experimental

Facilitar análisis-interpretación de los datos Lo mas simple y potente posible,

Teniendo en cuenta El objetivo del experimento, Las restricciones en material, tiempo y

coste.

Page 15: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Implementación

Definir objetivos principales y secundarios. Definir con que datos se trabajará

¿Técnica más adecuada para generarlos? Tipo de arrays, secuencias, controles…

Definir como se recogen las muestras ¿Cómo asignamos tratamientos a los

individuos? ¿Qué tipo de réplicas deben hacerse? ¿Debemos/Podemos/Necesitamos hacer pools? ¿Existen limitaciones en tiempo, $, material?

Seguir los principios básicos del DE de Replicación, Control Local y Aleatorización

Page 16: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Principios del DE: Replicación

– Aumenta Precisión y Potencia – No confundir fuentes de variación– Replicar más lo que varie más

Page 17: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Principios del DE: Bloqueo

Sample Treatment Sex Batch Sample Treatment Sex Batch1 A Male 1 1 A Male 12 A Male 1 2 A Female 23 A Male 1 3 A Male 24 A Male 1 4 A Female 15 B Female 2 5 B Male 26 B Female 2 6 B Female 17 B Female 2 7 B Male 18 B Female 2 8 B Female 2

Awful design :-( Balanced design :-)

• Si hay variabilidad por heterogeneidad de muestras se puede confundir el efecto de los tratamientos con otras fuentes.– Definir grupos homogeneos o “bloques”– Asignar tratamientos a bloques de forma Aleatoria y

Balanceada• Block what you can. Randomize what you cannot.

Page 18: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

“To pool or not to pool”

Combinar el RNA de varias muestras en un “pool”

Hay diversas razones. Algunas correctas, otras no tanto Alcanzar la mínima cantidad de RNA para hacer

arrays Reducir la variabilidad Reducir el coste.

En todo caso debe hacerse correctamente No sustituir varias muestras por un único pool. No usarlo cuando interesa la variabilidad

individual Diseños apareados Estudios predictivos

No

Page 19: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Ejemplo de “pooling”

Estudio con 12 individuos 12 arrays Caro!!! Opción 1:

Grupo A: 6 individuos 1 pool de 6 1 array Grupo B: 6 individuos 1 pool de 6 1 array

Opción 2: Grupo A: 12 individuos 4 pools de 3 4 arrays Grupo B: 12 individuos 4 pools de 3 4 arrays

La opción dos puede ser más económica y de precisión similar al uso de 12 arrays, pero no es posible saberlo antes de hacer el experimento

8 arrays8 arrays

Page 20: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Del diseño al análisis

Una vez identificados la variable –respuesta- de interés, los factores que afectan a su variación, y la

relación entre éstos, las fuentes de heterogeneidad del proceso que

se controlan mediante bloqueo. Podemos plantear un modelo lineal que …

Relacione respuestas y fuentes de variabilidad. Sirva de base para el análisis de datos (ANOVA)

que generará las listas de genes que buscamos.

Page 21: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Ejemplo de modelos

• Estimulación por LPS

Perfiles de expresión en AML+/AML

Page 22: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Resumiendo …

Todo el estudio pivota entorno al DE El objetivo induce el diseño. El DE permite identificar las causas

de variabilidad y determinaQué tipo de datos utilizar, Cómo recoger las muestras, Cómo procesarlas y Cómo deben ser analizadas

Page 23: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Y como dijo el maestro…

To consult the statistician after an experiment is finished is often merely to ask him to conduct a post mortem examination. He can perhaps say what the experiment died of. Sir Ronald A. Fisher

Father of modern Mathematical Statistics andDeveloper of Experimental Design and ANOVA

Page 24: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Preprocesado de los datos

Page 25: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Etapas del preprocesado

Desde las imágenes hasta los datos para el análisis Exploración visual. Control de calidad. Normalización y filtrado.

Page 26: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Exploración. Ej 1: LPS

Page 27: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Exploración. Ej. 2: AML+8/AML

Page 28: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Control de calidad. Ej. 1: LPS

Page 29: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Control de calidad. Ej. 2: AML+8

Page 30: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Normalización

Preferred analysis methods for Affymetrix GeneChips ….Genome Biology 2005, 6:R16

Page 31: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Análisis de datos

Page 32: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

El proceso de análisis estadístico

A partir de los datos normalizados y filtrados,

Basándose en el modelo definido en el diseño experimental,

Un Análisis de la Varianza (AOV) permite seleccionar los genes asociados con

cada una, se manera separada para cada fuente de

variabilidad incluída en el modelo.

Page 33: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Los ajustes necesarios

El análisis de datos de microarrays tiene características particulares: Hay pocas muestras Puede haber

mucha variabilidad espúrea.Considerar métodos que regularicen la

varianza Se realizan cientos/miles de tests a la

vez.Es preciso realizar un ajuste de “multiple

testing” si se quiere determinar la significación estadística.

Page 34: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Problema(1):Estimación de varianza

¿Podemos fiarnos simplemente de la diferencia de medias o el valor de un estadístico t?

El ejemplo sugiere que no.Gene M1 M2 M3 M4 M5 M6

Mean SD t

A 2.5 2.7 2.5 2.8 3.2 2 2.61 0.40 16.10

B0.0

10.0

5

-0.0

50.0

1 0 00.00

3 0.03 0.25

C 2.5 2.7 2.5 1.8 20 1 5.08 7.34 1.69

D 0.5 0 0.2 0.1 -0.3 0.3 0.13 0.27 1.19

E 0.10.1

1 0.1 0.10.1

10.0

9 0.10 0.0133.0

9Courtesy of Y.H. Yang•Averages can be driven by outliers.

Page 35: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

¿Es preciso regularizar la varianza?

Varianzas grandes pueden generar falsos negativos.

Varianzas pequeñas generarán falsos positivos.

Gene M1 M2 M3 M4 M5 M6Mean SD t

A 2.5 2.7 2.5 2.8 3.2 2 2.61 0.4016.1

0

B0.0

10.0

5

-0.0

50.0

1 0 00.00

3 0.03 0.25

C 2.5 2.7 2.5 1.8 20 1 5.08 7.34 1.69

D 0.5 0 0.2 0.1 -0.3 0.3 0.13 0.27 1.19

E 0.10.1

1 0.1 0.10.1

10.0

9 0.10 0.0133.0

9Courtesy of Y.H. Yang•t’s can be driven by tiny variances.

Page 36: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Solución: Estadísticos “ad-hoc”

g

g

RS

c SE

2 20

0

( 1)

2

g

g

Rt

v SE n SE

v n

2 20 0

0

g

g

Rt

d SE d SE

d d

SAM (Tibshirani, 2001)

Regularized-t (Baldi, 2001)

EB-moderated t(Smyth, 2003)

Page 37: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Problema (2): “Múltiple testing”

Supongamos que vamos a hacer varios tests a la vez Dos tests al 5%. La probabilidad de obtener

un falso positivo es 1 – 0.95*0.95 = 0.0975 Tres tests 1 – 0.953 =0.1426 n tests 1 – 0.95n

Se acerca a 1 cuando aumenta el nº de tests Un p-valor pequeño no indica

significación Si hacemos muchos tests no controlamos la probabilidad de error de tipo I

Page 38: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Un ejemplo de simulación (1)

Page 39: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Un ejemplo de simulación (2)

Page 40: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Resumiendo Como se analizan los datos

A partir de la matriz de expresión. Se ajusta el modelo lineal definido en el

DE Preferiblemente utilizando un método que

realice regularización de la varianza. Se obtiene la lista de genes y los valores

de test de las comparaciones interesantes ordenada de menor a mayor p-valor Y se ajustan los p-valores teniendo en cuenta

el numero de comparaciones realizadas.

Page 41: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

41

Ejemplo LPS

Genes cambiados entre LPS/Medium en ratones viejos

ProbeSet gene ID logFC t P.Value adj.P.Val B1450826_a_at Saa3 1450826_a_at 4.911 63.544 6.21E-14 2.80E-10 22.2441457644_s_at Cxcl1 1457644_s_at 4.286 53.015 3.52E-13 7.69E-10 20.7911415904_at Lpl 1415904_at -4.132 -50.455 5.66E-13 7.69E-10 20.3731449450_at Ptges 1449450_at 5.164 49.483 6.82E-13 7.69E-10 20.2071419209_at Cxcl1 1419209_at 5.037 47.175 1.08E-12 9.71E-10 19.7941416576_at Socs3 1416576_at 3.372 42.107 3.19E-12 2.08E-09 18.7841450330_at Il10 1450330_at 4.519 42.056 3.23E-12 2.08E-09 18.7731455899_x_at Socs3 1455899_x_at 3.648 40.821 4.29E-12 2.12E-09 18.5021419681_a_at Prok2 1419681_a_at 3.709 40.645 4.48E-12 2.12E-09 18.4631436555_at Slc7a2 1436555_at 3.724 40.081 5.12E-12 2.12E-09 18.335

Page 42: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

42

Ejemplo AML8

Genes cambiados entre LPS/Medium en ratones viejos

ProbeSet gene ID logFC t P.Value adj.P.Val B1450826_a_at Saa3 1450826_a_at 4.911 63.544 6.21E-14 2.80E-10 22.2441457644_s_at Cxcl1 1457644_s_at 4.286 53.015 3.52E-13 7.69E-10 20.7911415904_at Lpl 1415904_at -4.132 -50.455 5.66E-13 7.69E-10 20.3731449450_at Ptges 1449450_at 5.164 49.483 6.82E-13 7.69E-10 20.2071419209_at Cxcl1 1419209_at 5.037 47.175 1.08E-12 9.71E-10 19.7941416576_at Socs3 1416576_at 3.372 42.107 3.19E-12 2.08E-09 18.7841450330_at Il10 1450330_at 4.519 42.056 3.23E-12 2.08E-09 18.7731455899_x_at Socs3 1455899_x_at 3.648 40.821 4.29E-12 2.12E-09 18.5021419681_a_at Prok2 1419681_a_at 3.709 40.645 4.48E-12 2.12E-09 18.4631436555_at Slc7a2 1436555_at 3.724 40.081 5.12E-12 2.12E-09 18.335

Page 43: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Las tres comparaciones a la vez (LPS)

Page 44: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Las tres comparaciones (AML8)

Page 45: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Soporte a la interpretación biólógica

Análisis basado en la GO

Page 46: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Referencias básicas

Page 47: Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Agradecimientos