Vorlesung: Vorverarbeitung von Affymetrix-Daten 28.10.2003.
-
Upload
bamber-gieselman -
Category
Documents
-
view
108 -
download
0
Transcript of Vorlesung: Vorverarbeitung von Affymetrix-Daten 28.10.2003.
Vorlesung:
Vorverarbeitung von Affymetrix-Daten
28.10.2003
Experiment-Design
Experiment(Microarray)
Biologische Verifikation
Bildverarbeitung
Rohe Intensitätswerte
NormalisierungExpressions Level
Analyse: Clustering; Class Discovery; Klassifikation; Differentielle Gene; ....
Vom “Tiff” zum Expressions
Level
Vorverarbeitung von Microarray Daten:Beispiel: Affymetrix
BiologieDiagnostikTherapie
...
?
!
Vorverarbeitung von Microarray Daten:Beispiel: Affymetrix
18µm18µm
101066-10-1077 copies of a specific copies of a specificoligonucleotide probe per featureoligonucleotide probe per feature
Bild eines hybridisierten ArraysBild eines hybridisierten Arrays
>450,000 different>450,000 differentprobes probes
Single stranded, Single stranded, labeled RNA targetlabeled RNA target
Oligonucleotide probeOligonucleotide probe
**
**
*
1.28cm1.28cm
GeneChipGeneChip Probe ArrayProbe Array
Compliments of D. Gerhold
Extraktion der Poly-A - RNA
Chip-hybridisierung
Zellpool aus Gewebeproben oder
Zellkulturen
Amplifikation und Markierung der RNA
Auslesen des Fluoreszenzsignals Chipzelle
Oligonukleotid
...
...PMMM
1 2 3 4 ... 17 18 19 20probe pair
probe set
probe cell
... TGTGATGGTGGGAATGGGTCAGAAGGACTCCTATGTGGGTGACGAGGCC TTACCCAGTCTTCCTGAGGATACACCCAC TTACCCAGTCTTGCTGAGGATACACCCAC
Vorverarbeitung von Microarray Daten:Beispiel: Affymetrix
PM
MM
BildzelleOligopaar Saturierte Zelle
(A)
(B)
Vorverarbeitung von Microarray Daten:Beispiel: Affymetrix
3331.04 1178.82 128 206.46 74.32 357713 2939.71 1053.74270.6 167.4 78 207.5 76.19 14696 108.74 68.25
4009.59 1450.57 122 183.2 78.41 452714 3918.8 1434.41351.81 153.39 98 166.4 69.1 19838 176.04 87.19323.52 152.39 102 159.41 67.85 10792 74.37 45.75
2533 789.54 95 161.26 68.04 209832 2216.25 556.296614.93 2105.24 123 152.99 63.89 1086014 9425.24 2987.65
449.05 156.78 83 158.35 69.38 28666 340.77 142.21011.52 296.56 96 164.46 70.44 55635 605.57 196.273136.51 896.3 121 168.92 69.6 262667 2281.34 727.881591.61 547.79 101 193.76 80.3 80968 762.04 232.46
879.87 388.18 99 190.72 75.02 68256 643.04 288.536840.42 2674.61 131 222.09 83.66 766497 6212.39 2297.011415.85 497.36 93 202.82 73.02 119114 1274.41 388.282121.88 663.31 104 176.59 70.42 182108 1818.55 636.71
929.93 351.67 103 180.81 77.91 66478 628.77 219.12652.06 248.54 110 158.69 68.76 75527 703.35 291.83212.99 135.17 16 163.35 68.26 1352 58.06 23.88
1089.73 368.88 90 157.89 65.12 80666 952.99 312.51282.58 142.43 55 158.36 67.76 9296 122.18 53.3468.83 195.36 79 164.54 71.02 22005 270.1 129.46
6945.94 2500.55 102 175.1 73.52 607270 6369.08 2275.77299.35 156.95 41 183.86 72.1 10433 153.31 89.69
1443.79 540.98 88 191.7 81.41 122311 1485.36 515.21862.38 274.78 123 236.58 90.37 72666 553.8 192.45
3331.04 1178.82 128 206.46 74.32 357713 2939.71 1053.74270.6 167.4 78 207.5 76.19 14696 108.74 68.25
4009.59 1450.57 122 183.2 78.41 452714 3918.8 1434.41351.81 153.39 98 166.4 69.1 19838 176.04 87.19323.52 152.39 102 159.41 67.85 10792 74.37 45.75
2533 789.54 95 161.26 68.04 209832 2216.25 556.296614.93 2105.24 123 152.99 63.89 1086014 9425.24 2987.65
449.05 156.78 83 158.35 69.38 28666 340.77 142.21011.52 296.56 96 164.46 70.44 55635 605.57 196.273136.51 896.3 121 168.92 69.6 262667 2281.34 727.881591.61 547.79 101 193.76 80.3 80968 762.04 232.46
879.87 388.18 99 190.72 75.02 68256 643.04 288.536840.42 2674.61 131 222.09 83.66 766497 6212.39 2297.011415.85 497.36 93 202.82 73.02 119114 1274.41 388.282121.88 663.31 104 176.59 70.42 182108 1818.55 636.71
929.93 351.67 103 180.81 77.91 66478 628.77 219.12652.06 248.54 110 158.69 68.76 75527 703.35 291.83212.99 135.17 16 163.35 68.26 1352 58.06 23.88
1089.73 368.88 90 157.89 65.12 80666 952.99 312.51282.58 142.43 55 158.36 67.76 9296 122.18 53.3468.83 195.36 79 164.54 71.02 22005 270.1 129.46
6945.94 2500.55 102 175.1 73.52 607270 6369.08 2275.77299.35 156.95 41 183.86 72.1 10433 153.31 89.69
1443.79 540.98 88 191.7 81.41 122311 1485.36 515.21862.38 274.78 123 236.58 90.37 72666 553.8 192.45
3331.04 1178.82 128 206.46 74.32 357713 2939.71 1053.74270.6 167.4 78 207.5 76.19 14696 108.74 68.25
4009.59 1450.57 122 183.2 78.41 452714 3918.8 1434.41351.81 153.39 98 166.4 69.1 19838 176.04 87.19323.52 152.39 102 159.41 67.85 10792 74.37 45.75
2533 789.54 95 161.26 68.04 209832 2216.25 556.296614.93 2105.24 123 152.99 63.89 1086014 9425.24 2987.65
449.05 156.78 83 158.35 69.38 28666 340.77 142.21011.52 296.56 96 164.46 70.44 55635 605.57 196.273136.51 896.3 121 168.92 69.6 262667 2281.34 727.881591.61 547.79 101 193.76 80.3 80968 762.04 232.46
879.87 388.18 99 190.72 75.02 68256 643.04 288.536840.42 2674.61 131 222.09 83.66 766497 6212.39 2297.011415.85 497.36 93 202.82 73.02 119114 1274.41 388.282121.88 663.31 104 176.59 70.42 182108 1818.55 636.71
929.93 351.67 103 180.81 77.91 66478 628.77 219.12652.06 248.54 110 158.69 68.76 75527 703.35 291.83212.99 135.17 16 163.35 68.26 1352 58.06 23.88
1089.73 368.88 90 157.89 65.12 80666 952.99 312.51282.58 142.43 55 158.36 67.76 9296 122.18 53.3468.83 195.36 79 164.54 71.02 22005 270.1 129.46
6945.94 2500.55 102 175.1 73.52 607270 6369.08 2275.77299.35 156.95 41 183.86 72.1 10433 153.31 89.69
1443.79 540.98 88 191.7 81.41 122311 1485.36 515.21862.38 274.78 123 236.58 90.37 72666 553.8 192.45
3331.04 1178.82 128 206.46 74.32 357713 2939.71 1053.74270.6 167.4 78 207.5 76.19 14696 108.74 68.25
4009.59 1450.57 122 183.2 78.41 452714 3918.8 1434.41351.81 153.39 98 166.4 69.1 19838 176.04 87.19323.52 152.39 102 159.41 67.85 10792 74.37 45.75
2533 789.54 95 161.26 68.04 209832 2216.25 556.296614.93 2105.24 123 152.99 63.89 1086014 9425.24 2987.65
449.05 156.78 83 158.35 69.38 28666 340.77 142.21011.52 296.56 96 164.46 70.44 55635 605.57 196.273136.51 896.3 121 168.92 69.6 262667 2281.34 727.881591.61 547.79 101 193.76 80.3 80968 762.04 232.46
879.87 388.18 99 190.72 75.02 68256 643.04 288.536840.42 2674.61 131 222.09 83.66 766497 6212.39 2297.011415.85 497.36 93 202.82 73.02 119114 1274.41 388.282121.88 663.31 104 176.59 70.42 182108 1818.55 636.71
929.93 351.67 103 180.81 77.91 66478 628.77 219.12652.06 248.54 110 158.69 68.76 75527 703.35 291.83212.99 135.17 16 163.35 68.26 1352 58.06 23.88
1089.73 368.88 90 157.89 65.12 80666 952.99 312.51282.58 142.43 55 158.36 67.76 9296 122.18 53.3468.83 195.36 79 164.54 71.02 22005 270.1 129.46
6945.94 2500.55 102 175.1 73.52 607270 6369.08 2275.77299.35 156.95 41 183.86 72.1 10433 153.31 89.69
1443.79 540.98 88 191.7 81.41 122311 1485.36 515.21862.38 274.78 123 236.58 90.37 72666 553.8 192.45
3331.04 1178.82 128 206.46 74.32 357713 2939.71 1053.74270.6 167.4 78 207.5 76.19 14696 108.74 68.25
4009.59 1450.57 122 183.2 78.41 452714 3918.8 1434.41351.81 153.39 98 166.4 69.1 19838 176.04 87.19323.52 152.39 102 159.41 67.85 10792 74.37 45.75
2533 789.54 95 161.26 68.04 209832 2216.25 556.296614.93 2105.24 123 152.99 63.89 1086014 9425.24 2987.65
449.05 156.78 83 158.35 69.38 28666 340.77 142.21011.52 296.56 96 164.46 70.44 55635 605.57 196.273136.51 896.3 121 168.92 69.6 262667 2281.34 727.881591.61 547.79 101 193.76 80.3 80968 762.04 232.46
879.87 388.18 99 190.72 75.02 68256 643.04 288.536840.42 2674.61 131 222.09 83.66 766497 6212.39 2297.011415.85 497.36 93 202.82 73.02 119114 1274.41 388.282121.88 663.31 104 176.59 70.42 182108 1818.55 636.71
929.93 351.67 103 180.81 77.91 66478 628.77 219.12652.06 248.54 110 158.69 68.76 75527 703.35 291.83212.99 135.17 16 163.35 68.26 1352 58.06 23.88
1089.73 368.88 90 157.89 65.12 80666 952.99 312.51282.58 142.43 55 158.36 67.76 9296 122.18 53.3468.83 195.36 79 164.54 71.02 22005 270.1 129.46
6945.94 2500.55 102 175.1 73.52 607270 6369.08 2275.77299.35 156.95 41 183.86 72.1 10433 153.31 89.69
1443.79 540.98 88 191.7 81.41 122311 1485.36 515.21862.38 274.78 123 236.58 90.37 72666 553.8 192.45
LokalisationIntensitätAnnotationPM-MMSequenz...
(1) Hintergrund
(2) PM / MM (perfect match / mismatch)
(3) “Summary statistics” ?
...
...PMMM
1.5 2.4 10.4 0.1 ... 1.3 3.4
Vorverarbeitung von Microarray Daten:Probleme
Vorverarbeitung von Microarray Daten:Beispiele:
MAS 5.0 (Affymetrix Microarray Suite, Affymetrix Software)
Li/Wong: PNAS 2001 vol 98 (1), pp31-36
RMA: Robust Multiarray Analysis, Irizarry/Bolstad/Speed (NAR, 2003 31(4), e15)
(1 - u2)2 for |u| <= 1
0 else
Vorab: Was ist Tukeys Biweight ?
• Angabe der Tendenz• Maß für den Mittelwert• sehr robust gegenüber Ausreißern
Vektor: X = (x1,...,xn)
Berechne Tukey´s Biweight von X: T(X)
(1) Berechne die absolute Distanz von jedem Datenpunkt zum Median(2) Berechne S = Median der absoluten Abweichungen (MAD)(3) Definiere u = (Datenpunkt-Median(Datenpunkte) )/(Konstante*S + )(4) Konstante = 5; = 0.00001(5) Gewichtsfunktion:
w(u) =
T(x) = i w(u) xi / i w(u)
Vorab: Was ist Tukeys Biweight ?
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
xxxxx x
X = 1,2,3,2,4,20
Median 2.5Mittelwert 5.3
Tukeys Biweight 2.3
Vorverarbeitung von Microarray Daten:Beispiel 1: MAS 5.0
Array:
k = 16 (zB)
Kontrollzellen und leere Spots werden nicht weiter beachtet
Vorverarbeitung von Microarray Daten:Beispiel 1: MAS 5.0
Alle Zellen eines Sub-Arrays (=Zone) werden der Größe nach geordnet
Jeder Zelle wird ein Rang zugeordnet
C1C2C3C4…Cn
Definition von Hintergrund eines Sub- Arrays:
Zbg = niedrigsten 2% des jeweiligen Subarrays
.
Vorverarbeitung von Microarray Daten:Beispiel 1: MAS 5.0
Problem:
Bei dieser Definition von Hintergrund (Zbg) gibt es “scharfe” Grenzen zwischen den einzelnen “Subarrays”
Lösung:
Glättung der Übergänge
dk(x,y) = Distanz vom Mittelpunkt (.) des k-ten Segments zu einem Punkt mit den Koordinaten (x,y)
Gewichtung:
wk(x,y)=1/(dk2 + s)
(default s=100)
Vorverarbeitung von Microarray Daten:Beispiel 1: MAS 5.0
Glättung der Übergänge
..
Neuer Hintergrund:
b(x,y) = k wk(x,y) Zbg / k wk(x,y)
..
Vorverarbeitung von Microarray Daten:Beispiel 1: MAS 5.0
Vorverarbeitung von Microarray Daten:Beispiel 1: MAS 5.0
Perfect match und Mismatch (PM MM)
...
...PMMM
Definitionen:
Adjustierte Intensität: A(x,y) = maxInt(x,y) – b(x,y) | NoiseFrac * n(x,y)
NoiseFrac = 0.5 default
n(x,y) = 1 / w(x,y) * (w(x,y) n Zk)
n Zk = Standardabweichung (niedrigste 2% Intensitäten)
Int(x,y) = max Int(x,y) , 0.5
Vorverarbeitung von Microarray Daten:Beispiel 1: MAS 5.0
Perfect match und Mismatch (PM MM)
...
...PMMM
Definitionen:
Idealer Mismatch:
IM i,j = PM i,j / 2 Sbi MM i,j > PM i,j ; Sbi >
MM i,j MM i,j < PM i,j
PM i,j / 2 a MM i,j > PM i,j ; Sbi <=
a = / (1+(( -Sbi)/ ’)))
= 0.03’ = 10Sbi = biweight specific background
Vorverarbeitung von Microarray Daten:Beispiel 1: MAS 5.0
Perfect match und Mismatch (PM MM)
...
...PMMM
Definitionen:
Neuer Signalwert (Intensität):
i = 1,…,n probe pairj = 1,…,m array probe set
V i,j = max(PM i,j - IM i,j , ) = 2 –20
PV i,j = log(V i,j) für alle j
Neuer Signalwert = Tbi (PV i1, … , PV in )
Li/Wong (PNAS 2001 vol 98 (1), pp31-36)
Modell: MMij = j + i j +
PMij = j + i j + i j +
j Baselinei Expression eines Gens in der i ten Probej Anstiegsrate: MM im j ten “probe pair”j zuätzliche Anstiegsrate im korrespondierenden PM Wert Zufälliger Fehler
Vorverarbeitung von Microarray Daten:Beispiel 2: Li/Wong
Vorverarbeitung von Microarray Daten:Beispiel 2: Li/Wong
Vorab: Was ist “Least Square Fit” (= Methode kleinster Fehlerquadrate)
0
1
2
3
4
5
6
7
0,00 0,50 1,00 1,50 2,00 2,50
0
1
2
3
4
5
6
7
0,00 0,50 1,00 1,50 2,00 2,50
Vorverarbeitung von Microarray Daten:Beispiel 2: Li/Wong
Vorab: Was ist “Least Square Fit” (= Methode kleinster Fehlerquadrate)
Summe der Fehlerquadrate ist minimal
Vorverarbeitung von Microarray Daten:Beispiel 2: Li/Wong
Vorab: Was ist “Least Square Fit” (= Methode kleinster Fehlerquadrate)
X=(1,2,3,4,5)Y=(1,1,2,2,4)
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
0,00 2,00 4,00 6,00
Vorab: Was ist “Least Square Fit” (= Methode kleinster Fehlerquadrate)
X=(1,2,3,4,5); Y=(1,1,2,2,4)
Y= ß0+ ß1*x
Es werden ß1 und ß0 so geschätzt, daß die
Summe der Quadrate der Residuen minimal werden:
Min
y = 0,7x - 0 ,1
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
0,00 2,00 4,00 6,00
2 2
1
ˆ( )
. : / 0
n
res i i ii
res
SQ e y y
bzw x SQ
Vorab: Was ist “Least Square Fit” (= Methode kleinster Fehlerquadrate)
i xi yi (xi)2 xi * yi
12…
n
x1x2…
xn
y1y2…
yn
y12
y22
…
yn2
x1y1x2y2
…
xnyn
xi yi (xi)2 xi * yi
i xi yi (xi)2 xi * yi
12345
12345
11224
149
1625
1 268
20
xi = 15 yi = 10 (xi)2 = 55 xi * yi = 37
Vorab: Was ist “Least Square Fit” (= Methode kleinster Fehlerquadrate)
Vorab: Was ist “Least Square Fit” (= Methode kleinster Fehlerquadrate)
5
1
5 52 2 2
1 1
1
0
1 153
5 5
2
1 1( ) 55 15 10
5
137 15*10 7
57
0.710
2 0.7*3 0.1
0.1 0.7
ii
xx i ii i
xy
XY
XX
X x
Y
SQ X Xn
SQ
SQ
SQ
Y X
Modell: MMij = j + i j + PMij = j + i j + i j +
=> PMij - MMij = i j + ij
Angenommen: ij ~ N(0,2)
Least Square Fit von PMij - MMij = i j + ij
Li/Wong:
Vorverarbeitung von Microarray Daten:Beispiel 2: Li/Wong
RMA: Irizarry/Bolstad/Speed (NAR, 2003 31(4), e15)
Modellannahme:
Signal PM = Hintergrund + Signal = hg + s = + =
Optisches Rauschen+
unspezifische Bindung
Hintergrund Korrektur:B(PM) = E(s|PM)
s ~ exponentialhg ~ normal
Vorverarbeitung von Microarray Daten:Beispiel 3: RMA
PM, MM: “Forget about MM”
Grund: was immer da auch gemessen wird; momentan laesst sich das nicht sinnvoll in biologische Interpretationen fassen
ev. kann man in der Zukunft die Hintergrundkorrektur etwas besser durchführen, indem man die MM-Werte benutzt.
RMA
Vorverarbeitung von Microarray Daten:Beispiel 3: RMA
RMA
Summary Statistic: Yijn = jn + jn + ijn
i=1,...,I (chips)j=1,...,J (probes)n=1,...,n (probe set)
jn “probe affinity effect”
jn “log scale expression level”
ijn error iid N(0, 2)
j j= 0 n
-> median polish
Vorverarbeitung von Microarray Daten:Beispiel 3: RMA
Vorverarbeitung von Microarray Daten:Beispiel 3: RMA
RMA
Was ist “Median Polish”:
An eine Matrix M wird ein additives Modell gefittet:
Konstante + Spalten + Zeilen.
Im Algorithmus werden abwechselnd Zeilen- bzw Spalten Mediane entfernt und wird solange durchgefuehrt, bis die proportionale Reduktion in der Summe der absoluten Residuen kleiner epsilon ist oder bis zu einem Max von Iterationsschritten.
all spots “MAS 5.0” Li/Wong pm only
Li/Wong pm-mm RMA
Av Diff pm only
bgMAS+Av Diff pm only Av Diff pm - mm
Macht es etwas aus, welche Methode ich wähle?
Reference distribution is normal for the log fold changefrom: Terry Speed, Summarizing and comparing GeneChip data
Macht es etwas aus, welche Methode ich wähle?
Vergleich von mehreren Proben
cDNA Arrays Oligonucleotide Arrays
Vergleich von mehreren Proben
GC AC
GC AC
Patient Kontrolle GC AC
GC AC
Patient Kontrolle
Vergleich von mehreren Proben
Affymetrix in MAS5.0:
- nicht einzeln auswerten der Chips sondern direkter paarweiser Vergleich:
( 1,... )
( 1,..., )
q q qn
z z zn
qi PM MM
Zi PM b
“Balancing factors”
Wilcoxon Ranksummen Test
• Open source-open development software Projekt• seit 2001• erste Bioconductor software release, May 2002• R basiert
• http://www.bioconductor.org
Software
library(affy)x = ReadAffy(celfile.path="/project/gene_expression/spikein/")data.rma = express ( x,
subset = NULL , bg.correct = bg.correct.rma , pmcorrect.method="pmonly" , summary.stat = medianpolish , normalize=F , verbose = TRUE )
Software