Proportions-Tests
Proportions Tests
● Proportions Test können in zwei Fällen benutzt werden Vergleich von beobachteten vs. erwarteten Proportionen
Test der Unabhängigkeit von 2 Faktoren
● kann auch zum Vergleich von 2 Populationen benutzt werden(Goodness-of-fit)
● Test : Fishers Exact Test : exakter Test für alle Probengrößen, wird meistens für
kleine Anzahlen benutzt
Pearson χ2 – Test : gilt für große Anzahlen (>5 in jeder Kategorie)
für große beobachtete Anzahlen sind beide Tests gleich
Fishers Exact Test
● Testet ob 2 Eigenschaften unabhängig voneinander sind.
● 2 x 2 Kontingenztafel
iPhone kein iPhone
Damen 4 1 5
Herren 2 3 5
6 4 10
Wieviele Permutationen von 10 Elementen ergeben solche oder grössere/kleinere Verhältnisse und erhalten die Randsummen ?
Verhältniss iPhone/kein Iphone ist● 4/1 = 4 bei Damen● 2/3 bei Herren
→ Quotenverhältnis : 4/1 / 2/3 = 6(„odds-ratio“)
Fishers Exact Test
iPhone kein iPhone
Damen 4 1 5
Herren 2 3 5
6 4 10
iPhone kein iPhone
Damen 5 0 5
Herren 1 4 5
6 4 10
iPhone kein iPhone
Damen 3 2 5
Herren 3 2 5
6 4 10
Fishers Exact Test
iPhone kein iPhone
Damen 2 3 5
Herren 4 1 5
6 4 10
iPhone kein iPhone
Damen 1 4 5
Herren 5 0 5
6 4 10
Der Fischer Test untersucht alle möglichen Permutationender Daten und bestimmt wie oft die beobachtete Kontingenztabelle auftritt → exakter Test
Beobachtet BeobachtetiPhone kein iPhone iPhone kein iPhone
Damen 14 30 44 Damen 31.82% 68.18% 100.00%Herren 5 20 25 Herren 20.00% 80.00% 100.00%
19 50 69 27.54% 72.46% 100.00%
H0iPhone kein iPhone
Damen 27.54% 72.46% 100.00%Herren 27.54% 72.46% 100.00%
27.54% 72.46% 100.00%
Fishers Exact Test
H0: Quotenverhältnis (odds-ratio=OR) ist 1 :
Fisher's Exact Test in R
> fisher.test(table(smartPhone))
Fisher's Exact Test for Count
Data
data: table(smartPhone)
p-value = 0.4027
alternative hypothesis: true odds ratio
is not equal to 1
95 percent confidence interval:
0.5216129 7.6273675
sample estimates:
odds ratio
1.850454
BeobachtetiPhone kein iPhone
Damen 14 30 44Herren 5 20 25
19 50 69
H0 : das Verhältnis iPhone/kein iPhoneist unabhängig vom Geschlecht
→ kann nicht verworfen werden...
Jahrgang 2013/2014
Fisher's Exact Test
Nebenwirkung Nebenwirkung
Leicht Mittel Stark Leicht Mittel Stark
Drug A 25 11 13 49 Drug A 51.02% 22.45% 26.53% 100.00%
Drug B 9 14 11 34 Drug B 26.47% 41.18% 32.35% 100.00%
34 25 24 83 40.96% 30.12% 28.92% 100.00%
H0Nebenwirkung
Leicht Mittel Stark
Drug A 40.96% 30.12% 28.92% 100.00%
Drug B 40.96% 30.12% 28.92% 100.00%
40.96% 30.12% 28.92% 100.00%
> table(sideeffect)
SideEffect
Drug Leicht Mittel Schwer
A 25 11 13
B 9 14 11
> fisher.test(table(sideeffect))
Fisher's Exact Test for Count Data
data: table(sideeffect)
p-value = 0.06375
alternative hypothesis: two.sided
Für Kontingenztabellen größerals 2x2 wird kein OR gerechnet
Unterscheiden sich 2 Medikamente hinsichtlich der Nebeneffekte ?
Chi-Quadrat Tests
● der chi-Quadrat Test vergleicht beobachtete (O) mit erwarteter (E)Anzahl von Ereignissen (keine Proportionen !!)
● unter H0 folgt die Verteilung der chi2 Verteilung mit m-1 Freiheitsgraden für m unabhängige Beobachtungen.
● Anwendungsbereich :
Oi ≥ 2
80% der Beobachtungen sollten Oi ≥ 5
Chi-Quadrat Tests : Unabhängigkeitstest
Beobachtet BeobachtetiPhone kein iPhone iPhone kein iPhone
Damen 14 30 44 Damen 31.82% 68.18% 100.00%Herren 5 20 25 Herren 20.00% 80.00% 100.00%
19 50 69 27.54% 72.46% 100.00%
H0 H0iPhone kein iPhone iPhone kein iPhone
Damen 12.1 31.9 44 Damen 27.54% 72.46% 100.00%Herren 6.9 18.1 25 Herren 27.54% 72.46% 100.00%
19 50 69 27.54% 72.46% 100.00%
Achtung : Anzahl der Freiheitsgrade ist (Reihen -1) x (Spalten -1)
Tabelle der kritischen Werte chi2-Test
Chi2 Verteilung mit 5 (blau)Und 10 (rot) Freiheitsgraden
Chi-Quadrat Test
Nebenwirkung Nebenwirkung
Leicht Mittel Stark Leicht Mittel Stark
Drug A 25 11 13 49 Drug A 51.02% 22.45% 26.53% 100.00%
Drug B 9 14 11 34 Drug B 26.47% 41.18% 32.35% 100.00%
34 25 24 83 40.96% 30.12% 28.92% 100.00%
H0Nebenwirkung
Leicht Mittel Stark
Drug A 40.96% 30.12% 28.92% 100.00%
Drug B 40.96% 30.12% 28.92% 100.00%
40.96% 30.12% 28.92% 100.00%
Unterscheiden sich 2 Medikamente hinsichtlich der Nebeneffekte ?
> table(sideeffect) SideEffectDrug Leicht Mittel Schwer A 25 11 13 B 9 14 11
> chisq.test(table(sideeffect)) Pearson's Chi-squared testdata: table(sideeffect) X-squared = 5.5257, df = 2, p-value = 0.06311
> fisher.test(table(sideeffect)) Fisher's Exact Test for Count Datadata: table(sideeffect) p-value = 0.06375alternative hypothesis: two.sided
df = (3-1) x (2-1) = 2
Goodness of fit
● Weicht eine Verteilung signifikant von einer theoretischenVerteilung (hier : Gleichverteilung?
> chisq.test(bin.t)
Chi-squared test for
given probabilities
data: bin.t
X-squared = 83.344, df = 9, p-
value = 3.491e-14
> chisq.test(bin.w)
Chi-squared test for
given probabilities
data: bin.w
X-squared = 13.85, df = 9, p-
value = 0.1278
signifikante Abweichung keine signifikante Abweichung
10 unabhängigeBeobachtungen→ df = 10-1=9
Multiples Testen
Russisches Roulette:wenn 1 von 12 Kugelkammern eine Kugel enthält ...
… was ist die Wahrscheinlichkeit, daß in einer 10-köpfigen Gruppe jemanddieses Spiel zum letzten Mal spielt ?
Genexpressions Daten
10000 Gene p-value = 0.001389
p-value = 0.00271
445 signifikant diff. exprimierte
Gene alpha = 0.05
Welche Gene sind differenziel exprimiert zwischen den beiden Bedingungen ?
diff. Expression wird mit einemt-Test bestimmt(alpha = 0.05)
H0 : kein Unterschiedzwischen den MittelwertenDisease / Healthy
„ Ein blindes Huhnfindet auch mal ein Korn“
alles rein zufällige Daten…H0 gilt in ALLEN 10.000 Fällen→ alle positiven sind Falsch-Positive !
X <- matrix(rnorm(n=100000,sd=3),nrow=10000)
Multiple Testen
● der p-Wert gibt an, mit welcherWahrscheinlichkeit man unter H0 einvergleichbares/extremeres Ergebnisbekommen hätte.
● α ist das Risiko, zu unrecht H0 zuverwerfen (falsch Positiv oder Typ IFehler)
● umgekehrt ist 1-α die Wahrscheinlichkeit,keinen Typ I Fehler zu begehen.
● bei mehreren Tests :
2 Tests: (1-α)² → pTypI = 1-(1-α)²
k Tests : (1-α)k
→ pTypI = 1-(1-α)k
10000 Tests : → p = 1-1e-223 = 1 !!!
Bei mehreren unabhängigen Tests steigtdie Wahrscheinlichkeit einen Typ I Fehler zubegehen.
Achtung Verwechslungsgefahr !
● 1-(1-α)k ist dieWahrscheinlichkeit, daß unterH0 irgend einer der k Testsp<α hat→ Family-Wise error rate
● α ist die Falsch positiv Rate d.h. Anteil der Tests die bei H0 trotzdem als positiv bewertetwerden
Wahrscheinlichkeit, mindestens einen Punkt links der Linie zu bekommen
Anteil der Punktelinks der Linie
Fehlerquellen
H0 gilt( = negative)
H0 gilt nicht( = positive)
H0 wirdverworfen
(p < α)V S
R(= positiv
vorhergesagt)
H0 wird nichtverworfen
(p > α)U T
m-R(= negativ
vorhergesagt)
m0 m-m0 m
V = Typ I Fehler, Falsch-PositivT = Typ II Fehler, Falsch-Negativ
Fehlerquellen
H0 gilt( = negative)
H0 gilt nicht( = positive)
H0 wirdverworfen
(p < α)445 0
445(= positiv
vorhergesagt)
H0 wird nichtverworfen
(p > α)9.555 0
9.555(= negativ
vorhergesagt)
10.000 0 10.000
V = Typ I FehlerT = Typ II Fehler
Kontrolle der Typ I Fehler
● Gesamtheit der durchgeführten Testswird als „Familie“ bezeichnet : m Tests
● Wahrscheinlichkeit eines Typ I Fehlersin allen Test = Family Wise Error Rate :
FWER = P(V ≥ 1)
● Anteil der Falsch Positiven unter denNegativen= False Positive Rate
FPR = V / m0
● Anteil der falsch-positiven in densignifikanten (bei denen H0 verworfenwird)= False Discovery Rate
FDR = V / R
H0 giltH0 giltnicht
H0 wirdverworfen
V S R
H0 wirdnicht
verworfenU T m-R
m0 m-m0 m
Bonferroni Korrektur
● Kontrolle der FWER
● das Signifikanzniveau α wirdangepasst an die Anzahl von Tests
● bei N Tests :α → α / Np → padj = min(Np,1)
● Wahrscheinlichkeit einen Typ I Fehlerzu begehen bleibt konstant aufNiveau α
● sehr stringente Korrektur ! Erhöhtes Typ II Fehler Risiko !!
● z.B. Genexpressions Daten : 10.000Gene werde auf diff. Expressiongetestet:α = 0.05 → α/N = 5e-6
False Discovery Rate
● Bei einer großen Anzahl von Tests (typ. bei Genomdaten) ist dieBonferroni Korrektur zu stringent
● zu viele Typ II ( = falsch negative) Fehler !
● man kann eine gewisse Anzahl von FP tolerieren, solange derenAnteil kontrolliert wird : False Discovery Rate
● False Discovery Rate = Anteil der FP in den von mir als positivegewerteten Ergebnisse
● FDR = 10% : 10% der von mir als positiv betrachteten Ereignisse (H0 verworfen) sind falsch Positive.
Benjamini Hochberg
● Kontrolle des FDR Niveaus
● Prozedur alle p-Werte werden in
steigender Reihenfolge geordnetp1 ≤ p2 … ≤ pN
man bestimmt den höchstenRang j bei dem
pj ≤ δ j/N
alle Tests 1,2,...j werden alssignifikant erklärt
Beispiel bei FDR δ = 10%
Von den 4 signifikanten Tests sind 10% falsch Positive
q-Wert = N pj / j
Pval threshold Pass Qval
1 0.000853528 0.01 TRUE 0.00853528
2 0.004802111 0.02 TRUE 0.02401055
3 0.024180546 0.03 TRUE 0.08060182
4 0.030346760 0.04 TRUE 0.07586690
5 0.091403930 0.05 FALSE 0.18280786
6 0.127264255 0.06 FALSE 0.21210709
7 0.199171664 0.07 FALSE 0.28453095
8 0.202888447 0.08 FALSE 0.25361056
9 0.719389689 0.09 FALSE 0.79932188
10 0.910390445 0.10 FALSE 0.91039045
q-Wert = kleinste FDR δ, bei der dieser p-Wertsignifikant ist
Vergleich der multiple Testing Prozeduren
● Wir simulieren das Ergebnis von 1000 Tests (t-test) Bei 900 stimmt H0 (kein Unterschied zwischen den Mittelwerten der untersuchten
Proben)
Bei 100 stimmt H0 NICHT (es gibt einen signifikanten Unterschied)
● Wir vergleichen Alpha = 5%
Bonferroni Korrektur mit alpha = 5%/1000 = 0.005 %
Benjamini-Hochberg FDR = 5%
● FPR = falsch Positive / Negative
● FNR = falsch Negative / Positive
● FDR = falsch Positive / (Wahre Positive + falsch Positive)
Vergleich der multiple Testing Prozeduren
● Bonferroni Korrektur : sehr stringent → hoher Anteil an Typ IIFehlern (falsch negative)
● Benjamini-Hochberg : kontrolliert die FDR auf ein bestimmtesLevel; reduziert die Anzahl der falsch negativen
H0 gilt (900 Tests) H0 gilt nicht (100 Tests)
FPR FNR FDR
Alpha = 0.05 44 856 84 16
1 899 18 82
2 898 46 54
H0 verworfen(falsch positive)
H0 nicht verworfen(wahre negative)
H0 verworfen(wahre positive)
H0 nicht verworfen(falsche negative)
44 / (44+856) =4.8 %
16 / (16+84) =16%
44 / (44+84)= 34%
Bonferroni : alpha =0.05/1000
1 / (899+1) =0.11 %
82 / (82+18) =82%
1 / (1 + 18) =5 %
Benjamini-HochbergFDR = 5 %
2/(2+898) =0.2%
54/(54+46) =54 %
2 / (2+46) =4.1%
Beispiel: keine Korrektur
## Signifikanzniveau
> alpha <- 0.05
## 900 Daten mit Mittelw. 0, 100 mit Mittelw. 3
> x <- c(rnorm(900),rnorm(100,mean=3))
## Berechnung der p-Werte nach t.test ob m=0
> p <- pnorm(x,lower.tail=F)
## Anzahl der Tests, bei denen H0 verworfen wird
> test <- p < alpha
> table(test[1:900])
TRUE FALSE
44 856
> table(test[901:1000])
TRUE FALSE
84 16
hier gilt H0
hier gilt H0 nicht
falsch PositiveFPR = 44/900 = 4.8%
falsch Negative; FNR = 16/100 = 16%
wahre Negative
wahre Positive
Beispiel : Bonferroni Korrektur
## Signifikanzniveau Bonferroni
> alpha <- 0.05 / 1000
## 900 Daten mit Mittelw. 0, 100 mit Mittelw. 3
> x <- c(rnorm(900),rnorm(100,mean=3))
## Berechnung der p-Werte nach t.test ob m=0
> p <- pnorm(x,lower.tail=F)
## Anzahl der Tests, bei denen H0 verworfen wird
> test <- p < alpha
> table(test[1:900])
TRUE FALSE
1 899
> table(test[901:1000])
TRUE FALSE
18 82
hier gilt H0
hier gilt H0 nicht
falsch PositiveFPR = 1/900= 0.11%
falsch Negative; FNR = 82/100 = 82% !!!
wahre Negative
wahre Positive
Beispiel : FDR Prozedur## FDR
> fdr <- 0.05
## 900 Daten mit Mittelw. 0, 100 mit Mittelw. 3
> x <- c(rnorm(900),rnorm(100,mean=3))
## Berechnung der p-Werte nach t.test ob m=0
> p <- pnorm(x,lower.tail=F)
## Anzahl der Tests, bei denen H0 verworfen wird
> test <- p < max.p
> table(test[1:900])
TRUE FALSE
2 898
> table(test[901:1000])
TRUE FALSE
46 54
hier gilt H0
hier gilt H0 nicht
falsch PositiveFPR = 2/900 = 0.2%
falsch Negative; FNR = 54/100 = 54%
wahre Negative
wahre Positive
FDR = 2/(46+2) = 4.1%