Biostatistik, Sommer 2017 - Nichtparametrische Statistik ... · Nichtparametrische Lagetests Der...
Transcript of Biostatistik, Sommer 2017 - Nichtparametrische Statistik ... · Nichtparametrische Lagetests Der...
Biostatistik, Sommer 2017Nichtparametrische Statistik: Mediantest, Rangsummentest,
χ2-Test
Prof. Dr. Achim Klenke
http://www.aklenke.de
13. Vorlesung: 14.07.2017
Entwurf
1/52
Inhalt
1 Nichtparametrische LagetestsDer MediantestMediantest: Ein BeispielWilcoxon Rangsummentest
2 χ2-Testχ2-Testχ2-Test auf Unabhangigkeit
2/52
Nichtparametrische Lagetests Der Mediantest
Beispiel: Medikamententest
Bei der Behandlung mit dem etablierten Herzmedikament ”XY“lebt die Halfte der Patienten noch acht Jahre oder langer.Bei einem neuen Medikament wurde in einer Langzeitstudie an20 Patienten festgestellt, wie lange die Patienten noch leben:
Patient Nr. 1 2 3 4 5 6 7 8 9 10Lebensdauer xi 45 0 9 28 4 2 6 23 35 7Patient Nr. 11 12 13 14 15 16 17 18 19 20Lebensdauer xi 27 1 4 12 2 24 10 3 27 24
Ist das neue Medikament besser als das etablierte?
3/52
Nichtparametrische Lagetests Der Mediantest
Beispiel: Medikamententest
Nullhypothese H0: Neues Medikament gleich gutoder schlechter.
Alternative H1: Neues Medikament besser.
Formal:Nullhypothese H0: Lebensdauer bei neuem Medi-
kament hat einen Median vonhochstens 8 Jahren.
Alternative H1: Lebensdauer bei neuem Medika-ment hat einen Median von mehrals 8 Jahren.
4/52
Nichtparametrische Lagetests Der Mediantest
Beispiel: Medikamententest
Sei T (x) die Anzahl der Werte xi mit xi > 8. Unter H0 ist furjedes i :
P[xi > 8] =12.
Also ist T (x) ∼ b20,0.5 binomialverteilt mit Parametern n = 20und p = 0.5.
Gilt H1, so ist T (x) ∼ b20,p mit p > 0.5.
Große Werte von T (x) stutzen H1. Der p-Wert ist
p =20∑
k=T (x)
b20,0.5(k).
5/52
Nichtparametrische Lagetests Der Mediantest
Beispiel: Medikamententest
Patient Nr. 1 2 3 4 5 6 7 8 9 10Lebensdauer xi 45 0 9 28 4 2 6 23 35 7Patient Nr. 11 12 13 14 15 16 17 18 19 20Lebensdauer xi 27 1 4 12 2 24 10 3 27 24
Wir haben alsoT (x) = 11
und
p =20∑
k=11
b20,0.5(k) = 0.412.
Die Ergebnisse geben also keinen Hinweis darauf, dass dasneue Medikament besser als das etablierte ware.
6/52
Nichtparametrische Lagetests Der Mediantest
Beispiel: Medikamententest, Rechnung mit R
> dauer <- c(45, 0, 9, 28, 4, 2, 6, 23, 35, 7, 27, 1,
4, 12, 2, 24, 10, 3, 27, 24)
> binom.test( sum(dauer>8), length(dauer),
alternative="greater")
Exact binomial testdata: sum(dauer > 8) and length(dauer)number of successes = 11, number of trials = 20, p-value = 0.4119alternative hypothesis: true probability of success is greater than 0.595 percent confidence interval:0.3469314 1.0000000sample estimates:probability of success
0.55Werte fur alternative: "greater", "less", "two.sided".
7/52
Nichtparametrische Lagetests Der Mediantest
Theorie: MediantestFormale Problemstellung
Sei mP der bekannte Median einer gewissen Verteilung P (altesMedikament) und mQ der Median der Verteilung Q (neuesMedikament).
Nullhypothese H0: mP = mQ
Alternative H1: mQ < mP (linksseitig)mQ > mP (rechtsseitig)mP 6= mQ (beidseitig).
Zum Niveau α soll H0 gegen H1 getestet werden.Daten: x1, . . . , xn gezogen nach der Verteilung Q.
T (x) =Anzahl der Werte xi mit xi > mP .
8/52
Nichtparametrische Lagetests Der Mediantest
Theorie: MediantestLinksseitige Alternative mQ < mP
p-Wert
p =
T (x)∑k=0
bn,0.5(k) ≈ 1− Φ
(n−1
2 − T (x)√n/4
).
VerwerfungsregelH0 wird zum Niveau α verworfen, falls p ≤ α.
Berechnung mit Rbinom.test( sum(x > mp), length(x), alternative =
"less")
9/52
Nichtparametrische Lagetests Der Mediantest
Theorie: MediantestRechtsseitige Alternative: mQ > mP
p-Wert
p =
n∑k=T (x)
bn,0.5(k) ≈ 1− Φ
(T (x)− n+1
2√n/4
).
VerwerfungsregelH0 wird zum Niveau α verworfen, falls p ≤ α.
Berechnung mit Rbinom.test( sum(x > mp), length(x), alternative =
"greater")
10/52
Nichtparametrische Lagetests Der Mediantest
Theorie: MediantestBeidseitige Alternative: mQ 6= mP
p-Wert
p = 2T (x)∑k=0
bn,0.5(k) falls T (x) < n/2
und
p = 2n∑
k=T (x)
bn,0.5(k) falls T (x) > n/2.
In beiden Fallen gilt p ≈ 2
[1− Φ
(∣∣T (x)− n2
∣∣− 12√
n/4
)].
VerwerfungsregelH0 wird zum Niveau α verworfen, falls p ≤ α.
Berechnung mit Rbinom.test( sum(x > mp), length(x), alternative =
"two.sided")
11/52
Nichtparametrische Lagetests Der Mediantest
Theorie: MediantestBindungen
Bei diskreten Verteilungen (Binomial, Poisson, Geometrischetc.) kann es - anders als bei Verteilungen mit Dichten -vorkommen, dass der exakte Wert mP des Medians auch in denDaten vorkommt. In diesem Fall macht es einen Unterschied, obman die Anzahl der xi mit xi > mP oder der xi mit xi ≥ mP
bestimmt. In diesem Fall wird als Teststatistik gewahlt:
T (x) = Anzahl der Daten xi mit xi > mP
+12
Anzahl der Daten xi = mP .
Der Mediantest halt in diesem Fall das geforderte Niveau nichtexakt ein, ist aber meistens sehr nahe daran.
12/52
Nichtparametrische Lagetests Mediantest: Ein Beispiel
Beispiel: LD50 Bestimmung
Die Substanz Botulinumtoxin (Botox) ist bei Menschen undMausen toxisch. Laut Angaben der Industrie betragt die LD50Dosis bei Mausen (subkutan)
mP := 4ng/kg Korpergewicht.
Das heißt, bei Verabreichung dieser Dosis verenden 50% derVersuchstiere.Verbraucherschutzer bezweifeln diese Angabe.Was ist zu tun?
13/52
Nichtparametrische Lagetests Mediantest: Ein Beispiel
Beispiel: LD50 Bestimmung
Um sicher zu sein, dass man die Industrie nicht falschlichanklagt, wird ein Test zum geringen Niveau α = 0.1%durchgefuhrt.
Nullhypothese H0: LD50 = 4Alternative H1: LD50 < 4.
Linksseitiger Mediantest. Von n Mausen werden die letalenDosen x1, . . . , xn bestimmt.
T (x) = Anzahl der Mause mit xi > 4.
14/52
Nichtparametrische Lagetests Mediantest: Ein Beispiel
Beispiel: LD50 Bestimmung
p-Wert
p =
T (x)∑k=0
bn,0.5(k) ≈ 1− Φ
(n−1
2 − T (x)√n/4
).
VerwerfungsregelH0 wird zum Niveau α verworfen, falls p ≤ α = 0.001.
15/52
Nichtparametrische Lagetests Mediantest: Ein Beispiel
Beispiel: LD50 BestimmungJetzt werden n = 200 Labormause sukzessive vergiftet, bis sie verenden. Dabeiwird die letale Dosis festgestellt.Wir erhalten die (simulierten) Daten
Maus Nr. i = 1 2 3 4 5 6 7 8 9 10letale Dosis xi 4.03 5.30 4.16 4.83 2.78 4.64 3.02 4.34 2.88 3.86
Maus Nr. i = 11 12 13 14 15 16 17 18 19 20letale Dosis xi 3.07 3.21 3.79 4.34 3.43 3.78 4.14 3.75 5.20 3.95
ETC.
16/52
Nichtparametrische Lagetests Mediantest: Ein Beispiel
Beispiel: LD50 Bestimmung
Von diesen 200 Werten xi sind T (x) = 80 großer als 4.0.(Auszahlen!)Wir erhalten
p(x) ≈ 1− Φ
(n−1
2 − T (x)√n/4
)
= 1− Φ
(99.5− 80√
50
)= 1− Φ(2.75) = 1− 0.997 = 0.003.
Es gilt p > α = 0.001. Also verwirft der Test die Nullhypothesenicht.
17/52
Nichtparametrische Lagetests Mediantest: Ein Beispiel
Beispiel: LD50 Bestimmung
Aufgrund der erhobenen Daten mit 200 Versuchstieren verwirftder einseitige Mediantest die Nullhypothese, dass die LD50gleich 4ng/kg sei gegen die Alternative, dass die Dosis kleinersei, zum Niveau 0.001 nicht.
Der p-Wert betragt 0.003.
18/52
Nichtparametrische Lagetests Mediantest: Ein Beispiel
Beispiel: LD50 Bestimmung, Rechnung mit R> ld <- c(4.03, 5.30, 4.16, 4.83, 2.78, 4.64, 3.02, 4.34, 2.88, 3.86,
3.07, 3.21, 3.79, 4.34, 3.43, 3.78, 4.14, 3.75, 5.20, 3.95,...
4.09, 3.47, 2.88, 6.74, 3.38, 2.71, 2.27, 4.64, 2.00, 5.36)
> (anzahl <- length(ld))
200> m <- 4.0
> (erfolge <- sum(ld > m))
80binom.test(erfolge, anzahl, alternative = "less")
Exact binomial testdata: erfolge and anzahlnumber of successes = 80, number of trials = 200,p-value = 0.002843alternative hypothesis: true probability of success is less than 0.595 percent confidence interval: 0.0000000 0.4603162sample estimates: probability of success 0.4
19/52
Nichtparametrische Lagetests Mediantest: Ein Beispiel
Beispiel: LD50 Bestimmung, FallzahlplanungVermutung: bei mP = 4ng/kg sterben bereits 55% der Mause.Vermutung soll mit 95% Wahrscheinlichkeit bestatigt werden.Niveau α = 0.001 soll eingehalten werden.Also Wsk. fur Fehler 2. Art: β = 0.05.Fallzahlplanung fur Binomialtest mit p0 = 0.5 und p1 = 0.55:
n =
(√p1(1− p1) z1−β +
√p0(1− p0) z1−α
p0 − p1
)2
=
(√0.55× 0.45 z0.95 +
√0.5× 0.5 z0.999
0.5− 0.55
)2
=
(0.49749× 1.64485 + 0.5× 3.09023
0.05
)2
= 2234.3.
Es werden 2235 Mause gebraucht.20/52
Nichtparametrische Lagetests Wilcoxon Rangsummentest
Beispiel: Hipparion Reloaded
Niemand sagt Ihnen, dass die Großen der Backenzahnenormalverteilt sind.Was kann man ohne diese Annahme noch rechnen?
21/52
Nichtparametrische Lagetests Wilcoxon Rangsummentest
RangsummenGegeben zwei Stichproben x1, x2, . . . , xm und y1, y2, . . . , yn.Setze
Uj = Rang von yj in den x1, . . . , xm
= Anzahl der i mit xi < yj
und definiere die Rangsumme U(y , x) =n∑
j=1
Uj .
Beispiel mit m = 4 und n = 7
xi 4 1.3 5.1 2
yj 11 3 5 4.2 6.1 2.5 14
Wert 1.3 2 2.5 3 4 4.2 5 5.1 6.1 11 14Rang Uj 2 2 3 3 4 4 4
Rangsumme U(y , x) = 2 + 2 + 3 + 3 + 4 + 4 + 4 = 22.22/52
Nichtparametrische Lagetests Wilcoxon Rangsummentest
Rangsummen
IdeeEntstammen die xi und yj der gleichen Verteilung (H0), so sollteUj ≈ m/2 sein und U ≈ mn
2 .
U(y , x) groß zeigt an, dass (yj) tendenziell großer ist als (xi).U(y , x) klein zeigt an, dass (yj) tendenziell kleiner ist als (xi).
23/52
Nichtparametrische Lagetests Wilcoxon Rangsummentest
Rangsummen
Die Verteilung Um,n von U(y , x) unter H0 ist tabelliert und heißtWilcoxon-U-Verteilung mit Parametern m und n. Fur große m,nist
U(y , x)− mn2√
mn(m+n+1)12
∼approx . N0,1.
Also konnen wir das Quantil um,n;α durch das Quantil zαapproximativ ausrechnen:
um,n;α ≈mn2
+
√mn(m + n + 1)
12zα.
24/52
Nichtparametrische Lagetests Wilcoxon Rangsummentest
Wilcoxon RangsummentestDie Theorie
Formale ProblemstellungDie Werte der Stichprobe x1, . . . , xm sind unabhangig und nachder Verteilung P gezogen.Die Werte der Stichprobe y1, . . . , yn sind unabhangig und nachder Verteilung Q gezogen.
Nullhypothese H0: P = QAlternative H1: Q tendenziell kleiner als P (linksseitig)
Q tendenziell großer als P (rechtsseitig)Q 6= P (beidseitig)
25/52
Nichtparametrische Lagetests Wilcoxon Rangsummentest
Wilcoxon RangsummentestLinksseitige Alternative: Q kleiner als P
VerwerfungsregelVerwirf H0 zugunsten von H1, falls
U(y , x) < um,n;α ≈ mn2−√
mn(m + n + 1)
12z1−α.
p-Wert
p ≈ 1− Φ
mn2 − U(y , x)√
mn(m+n+1)12
.
Berechnung mit Rwilcox.test(y, x, alternative = "less")
26/52
Nichtparametrische Lagetests Wilcoxon Rangsummentest
Wilcoxon RangsummentestRechtsseitige Alternative: Q großer als P
VerwerfungsregelVerwirf H0 zugunsten von H1, falls
U(y , x) > um,n;1−α ≈mn2
+
√mn(m + n + 1)
12z1−α.
p-Wert
p ≈ 1− Φ
U(y , x)− mn2√
mn(m+n+1)12
.
Berechnung mit Rwilcox.test(y, x, alternative = "greater")
27/52
Nichtparametrische Lagetests Wilcoxon Rangsummentest
Wilcoxon RangsummentestBeidseitige Alternative: Q 6= P
VerwerfungsregelVerwirf H0 zugunsten von H1, falls
U(y , x) > um,n;1−α/2 ≈mn2
+
√mn(m + n + 1)
12z1−α/2.
oder U(y , x) < um,n;α/2 ≈ mn2−√
mn(m + n + 1)
12z1−α/2.
p-Wert
p ≈ 2
1− Φ
∣∣∣∣∣∣U(y , x)− mn2√
mn(m+n+1)12
∣∣∣∣∣∣ .
Berechnung mit Rwilcox.test(y, x, alternative = "two.sided")
28/52
Nichtparametrische Lagetests Wilcoxon Rangsummentest
Wilcoxon RangsummentestBindungen
Bei diskreten Verteilungen (Binomial, Geometrisch, Poisson,etc.) kann es vorkommen, dass einzelne Werte in den Daten xi
und yj mehrfach vorkommen. Dies nennt man Bindungen. Indiesem Fall wird der Rang von xi in den y1, . . . , yn berechnet als
Uj = Anzahl der i mit xi < yj
+12
Anzahl der i mit xi = yj
und die Rangsumme, wie gehabt, als
U(y , x) =m∑
j=1
Uj .
In diesem Fall halt der Wilcoxon Test das geforderte Niveaunicht exakt ein, meistens aber doch recht gut. In R erhalten wirdann eine Warnmeldung. 29/52
Nichtparametrische Lagetests Wilcoxon Rangsummentest
Beispiel: Hipparion ReloadedDie Daten
Africanum
30 24 26 23 23 23 29 29 26.5 2424.5 23 27 27 27 27 27 25 24.5 2627 26 25 23 23.5 24 25 27 25 2426.5 24 28.5 31 28 31 27.5 24 25
Libycum
23 25 30 26 28.5 28.5 25.5 24 35 2325 27 26 26 40 32 33 30 26 3524 32.5 25 26 27 30 36 25 34 2922 26 37 25.5 29 30.5 26.5 27
30/52
Nichtparametrische Lagetests Wilcoxon Rangsummentest
Beispiel: Hipparion ReloadedDie Daten, U-Statistik
Africanum: m = 39 Zahne, Libycum: n = 38 Zahne.Durch muhseliges Ausrechnen von Hand (oder mit demComputer) erhalt man
U(Lib,Afr) = 990.
Wir verwerfen die Nullhypothese ”Libycum=Africanum“ zumNiveau 1% zugunsten der beidseitigen Alternative, fallsU > u39,38;0.995 = 992 oder U < u39,38;0.005 = 490 (Tabelle: T8).Beides ist nicht der Fall, also wird die Nullhypothese zumNiveau 1% nicht verworfen.
31/52
Nichtparametrische Lagetests Wilcoxon Rangsummentest
Beispiel: Hipparion ReloadedDie Daten, U-Statistik
m = 39, n = 38, U(Lib,Afr) = 990.p-Wert:
p ≈ 2
1− Φ
∣∣∣∣∣∣U(Lib,Afr)− mn2√
mn(m+n+1)12
∣∣∣∣∣∣
= 2[1− Φ
(990− 741√
9633
)]= 2(1− Φ(2.537)) ≈ 2(1− 0.9943) = 0.0114.
32/52
Nichtparametrische Lagetests Wilcoxon Rangsummentest
Beispiel: Hipparion ReloadedFazit
Der zweiseitige Wilcoxon Rangsummentest verwirft dieNullhypothese, dass Hipparion Africanum und Libycum gleichemesiodistale Zahnlange haben zum Niveau 1% nicht. Derp-Wert betragt p = 0.0114.
Vergleich mit ungepaartem t-Test: p-Wert=0.0018 ist kleiner alsfur den Rangsummentest. Annahmen an die genaue Verteilung(hier: Normalverteilung) liefert scharfere Testergebnisse, dieaber manchmal irrefuhrend sind, wenn die Annahmen falschsind.
33/52
Nichtparametrische Lagetests Wilcoxon Rangsummentest
Beispiel: Hipparion ReloadedRechnung mit R
> africanum <- c(
30.0, 24.0, 26.0, 23.0, 23.0, 23.0, 29.0, 29.0,
26.5, 24.0, 24.5, 23.0, 27.0, 27.0, 27.0, 27.0,
27.0, 25.0, 24.5, 26.0, 27.0, 26.0, 25.0, 23.0,
23.5, 24.0, 25.0, 27.0, 25.0, 24.0, 26.5, 24.0,
28.5, 31.0, 28.0, 31.0, 27.5, 24.0, 25.0)
> libycum <- c(
23.0, 25.0, 30.0, 26.0, 28.5, 28.5, 25.5, 24.0,
35.0, 23.0, 25.0, 27.0, 26.0, 26.0, 40.0, 32.0,
33.0, 30.0, 26.0, 35.0, 24.0, 32.5, 25.0, 26.0,
27.0, 30.0, 36.0, 25.0, 34.0, 29.0, 22.0, 26.0,
37.0, 25.5, 29.0, 30.5, 26.5, 27.0)
34/52
Nichtparametrische Lagetests Wilcoxon Rangsummentest
Beispiel: Hipparion ReloadedRechnung mit R
> wilcox.test( libycum, africanum,
alternative="two.sided")
Wilcoxon rank sum test with continuity correctiondata: libycum and africanumW = 990, p-value = 0.01104alternative hypothesis: true location shift is not equal to 0
Warnmeldung:In wilcox.test.default(libycum, africanum, alternative = ”two.sided”) :kann bei Bindungen keinen exakten p-Wert Berechnen
35/52
χ2-Test χ2-Test
χ2-TestDas Grundproblem
Wir beobachten ein Merkmal in endlich vielen Auspragungeni = 1, . . . , k mit Haufigkeiten x1, . . . , xk .
Gesamtzahl n = x1 + . . . + xk .
Nach einer (zu uberprufenden) Theorie sollte der Anteil von Typi gleich pi sein, also die absolute Haufigkeit etwa Ei = pi n.
Es soll ein Test zum Niveau α entwickelt werden, der dieseTheorie pruft.
36/52
χ2-Test χ2-Test
χ2-TestTeststatistik
Beobachtungen x1, . . . , xk .Gesamtzahl n = x1 + . . . + xk .Erwartete Haufigkeiten Ei = pi n.
Gewichtete quadratische Abweichungen als Teststatistik
T (x) =k∑
i=1
(xi − Ei)2
Ei.
Ist T (x) zu groß, so wird die Hypothese verworfen.
37/52
χ2-Test χ2-Test
χ2-TestVerwerfungsregel
Unter H0 ist T (x) ungefahr chiquadrat-verteilt (χ2f ) mit f = k − 1
Freiheitsgraden.(Diese Naherung ist so gut wie die Normalapproximation derBinomialverteilung.)
Ist T (x) > χ2f ;1−α, so wird die Nullhypothese zum Niveau α
verworfen.
Der p-Wert istp = 1− χ2
f (T (x)).
38/52
χ2-Test χ2-Test
Beispiel: Hardy-Weinberg GesetzFragestellung
In einer sehr großen Population tritt an einem Locus das Gen Amit Wahrscheinlichkeit p = 0.53 auf, das Gen a mitWahrscheinlichkeit 1− p = 0.47. Nach dem Hardy-WeinbergGesetz sind die Anteile
AA Aa aa
p2 = 0.2809 2p(1− p) = 0.4982 (1− p)2 = 0.2209
In einer Teilpopulation der Große n soll die Gultigkeit desHardy-Weinberg Gesetzes gepruft werden.
39/52
χ2-Test χ2-Test
Beispiel: Hardy-Weinberg GesetzDer Test
Die Hypothese ”HW Gesetz gilt“ soll zum Niveau 1% gepruftwerden.Es werden die Daten xAA, xAa und xaa mit Gesamtumfangn = 10 000 erhoben. Teststatistik
T (x) =(xAA − 2809)2
2809+
(xAa − 4982)2
4982+
(xaa − 2209)2
2209.
Der Test verwirft, falls T (x) > χ22;0.99 = 9.21 (Tabelle T5).
40/52
χ2-Test χ2-Test
Beispiel: Hardy-Weinberg GesetzDer Test, Daten und Durchfuhrung
Beobachtungen:AA Aa aa
2701 4852 2447
Teststatistik
T (x) =(2701− 2809)2
2809+
(4852− 4982)2
4982+
(2447− 2209)2
2209= 33.187.
Der Test verwirft die Nullhypothese zum Niveau 1%, weilT (x) = 33.187 > χ2;0.99 = 9.21.p-Wert
p(x) = 1− χ22(33.187) = 6.2 10−8.
41/52
χ2-Test χ2-Test
Beispiel: Hardy-Weinberg GesetzDer Test: Berechnung mit R
> daten <- c( 2701, 4852, 2447 )
> theorie <- c( 0.2809, 0.4982, 0.2209 )
> chisq.test( x = daten, p = theorie )
Chi-squared test for given probabilitiesdata: datenX-squared = 33.187, df = 2, p-value = 6.216e-08
42/52
χ2-Test χ2-Test auf Unabhangigkeit
Beispiel: Kuhstarling
Der Kuhstarling ist ein Brutparasit des Oropendola.
N.G. Smith (1968) The advantage of being parasitized.Nature, 219(5155):690-4
43/52
χ2-Test χ2-Test auf Unabhangigkeit
Beispiel: Kuhstarling
Kuhstarling-Eier sehen Oropendola-Eiern meist sehrahnlich.Normalerweise entfernen Oropendolas alles aus ihremNest, was nicht genau nach ihren Eiern aussieht.In einigen Gegenden sind Kuhstarling-Eier gut vonOropendola-Eiern zu unterscheiden und werden trotzdemnicht aus den Nestern entfernt.Wieso?
Mogliche Erklarung: Junge Oropendolas sterben haufig amBefall durch Dasselfliegenlarven.Nester mit Kuhstarling-Eiern sind moglicherweise besservor Dasselfliegenlarven geschutzt.
44/52
χ2-Test χ2-Test auf Unabhangigkeit
Beispiel: Kuhstarling
Anzahlen von Nestern, die von Dasselfliegenlarven befallen sind
Anzahl Kuhstarling-Eier 0 1 2befallen 16 2 1
nicht befallen 2 11 16
In Prozent:Anzahl Kuhstarling-Eier 0 1 2
befallen 89% 15% 6%nicht befallen 11% 85% 94%
45/52
χ2-Test χ2-Test auf Unabhangigkeit
Beispiel: Kuhstarling
Anscheinend ist der Befall mit Dasselfliegenlarvenreduziert, wenn die Nester Kuhstarlingeier enthalten.statistisch signifikant?Nullhypothese: Die Wahrscheinlichkeit eines Nests, mitDasselfliegenlarven befallen zu sein, hangt nicht davon ab,ob oder wieviele Kuhstarlingeier in dem Nest liegen.
46/52
χ2-Test χ2-Test auf Unabhangigkeit
Beispiel: Kuhstarling
Anzahlen der von Dasselfliegenlarven befallenen Nester
Anzahl Kuhstarling-Eier 0 1 2∑
befallen 16 2 1 1919nicht befallen 2 11 16 29∑
18 13 17 4848
Welche Anzahlen wurden wir unter der Nullhypotheseerwarten?
Das selbe Verhaltnis 19/48 in jeder Gruppe.
47/52
χ2-Test χ2-Test auf Unabhangigkeit
Beispiel: Kuhstarling
Erwartete Anzahlen von Dasselfliegenlarven befallener Nester,bei gegebenen Zeilen- und Spaltensummen:
Anzahl Kuhstarling-Eier 0 1 2∑
befallen 7.13 5.15 6.72 19nicht befallen 10.87 7.85 10.28 29∑
18 13 17 48
18 · 1948
= 7.13 13 · 1948
= 5.15
Alle anderen Werte sind nun festgelegt durch die Summen.
48/52
χ2-Test χ2-Test auf Unabhangigkeit
Beispiel: Kuhstarling
beobachtet (xi):befallen 16 2 1 19
nicht befallen 2 11 16 29∑18 13 17 48
erwartet: (Ei):befallen 7.13 5.15 6.72 19
nicht befallen 10.87 7.85 10.28 29∑18 13 17 48
xi − Ei :befallen 8.87 -3.15 -5.72 0
nicht befallen -8.87 3.15 5.72 0∑0 0 0 0
49/52
χ2-Test χ2-Test auf Unabhangigkeit
Beispiel: Kuhstarling
T =∑
i
(xi − Ei)2
Ei= 29.5
Wenn die Zeilen- und Spaltensummen gegeben sind,bestimmen bereits 2 Werte in der Tabelle alle anderenWerte⇒ f = 2 fur Kontingenztafeln mit zwei Zeilen und dreiSpalten.Allgemein gilt fur m Zeilen und n Spalten:
f = (n − 1) · (m − 1)
50/52
χ2-Test χ2-Test auf Unabhangigkeit
Nullhypothese H0 =”Wahrscheinlichkeit, mit der ein Nest vonDasselfliegenlarven befallen wird, hangt nicht von der AnzahlKuhstarling-Eier ab.“Unter H0 ist die Teststatistik T (approximativ) χ2
f -verteilt mitf = (2− 1) · (3− 1) = 2 Freiheitsgraden.
Wir haben den Wert T (x) = 29.5 beobachtet.99%-Quantil (Tabelle T5):
χ22;0.99 = 9.21 < 29.5 = T (x).
Wir konnen also die Nullhypothese zum Signifikanzniveau 1%ablehnen.Faustregel: Die χ2-Approximation ist akzeptabel, wenn alleErwartungswerte
Ei ≥ 5
erfullen.Dies ist im Beispiel erfullt.
51/52
χ2-Test χ2-Test auf Unabhangigkeit
Beispiel: KuhstarlingBerechnung mit R
Anzahl Kuhstarling-Eier 0 1 2befallen 16 2 1
nicht befallen 2 11 16
> tabelle <- matrix( c(16, 2, 2, 11, 1, 16), ncol = 3 )
> chisq.test(tabelle)
Pearson’s Chi-squared test
data: tabelleX-squared = 29.5544, df = 2, p-value = 3.823e-07
52/52