ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chΒ Β· ANOVA = Spezialfall einer Linearen Regression G...

21
| | Seminar fΓΌr Statistik 16.10.2014 Markus Kalisch 1 ANalysis Of VAriance (ANOVA) 1/2

Transcript of ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chΒ Β· ANOVA = Spezialfall einer Linearen Regression G...

Page 1: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chΒ Β· ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~π‘­π’‚π’Œπ’• 𝒓𝒆 + β„Ž N Verallgemeinerung des t-Test

||Seminar fΓΌr Statistik 16.10.2014Markus Kalisch 1

ANalysis Of VAriance (ANOVA) 1/2

Page 2: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chΒ Β· ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~π‘­π’‚π’Œπ’• 𝒓𝒆 + β„Ž N Verallgemeinerung des t-Test

||Seminar fΓΌr Statistik

ANOVA 1: Zwei Medikamente zur Blutdrucksenkung und

Placebo (Faktor). Gibt es einen sign. Unterschied in der

Wirkung (kontinuierlich)?

π‘Œ ~ 𝑋 + πœ€

ANOVA 2: Zwei Medikamente zur Blutdrucksenkung,

Placebo (Faktor) und Geschlecht (Faktor). Gibt es einen

sign. Unterschied in der Wirkung (kontinuierlich) (evtl.

geschlechterspezifisch)?

π‘Œ ~ 𝑋1 + 𝑋2 + πœ€

16.10.2014((Vorname Nachname)) 2

ANOVA - Idee

1-weg ANOVA

2-weg ANOVA

Page 3: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chΒ Β· ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~π‘­π’‚π’Œπ’• 𝒓𝒆 + β„Ž N Verallgemeinerung des t-Test

||Seminar fΓΌr Statistik

ANOVA = Β«VarianzanalyseΒ»

Macht Aussagen ΓΌber Mittelwerte (analysiert dazu

Varianzen)

ANOVA = Spezialfall einer Linearen Regression

π‘˜π‘œπ‘›π‘‘. π‘‰π‘Žπ‘Ÿπ‘–π‘Žπ‘π‘™π‘’ ~ π‘­π’‚π’Œπ’•π’π’“π’†π’ + πΉπ‘’β„Žπ‘™π‘’π‘Ÿ

Verallgemeinerung des t-Test (2 Gruppen β†’ viele

Gruppen)

Historisch: Sehr verbreitet; heute: Immer noch extrem

verbreitet

16.10.2014Markus Kalisch 3

ANOVA: MΓΆgliche MissverstΓ€ndnisse

Page 4: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chΒ Β· ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~π‘­π’‚π’Œπ’• 𝒓𝒆 + β„Ž N Verallgemeinerung des t-Test

||Seminar fΓΌr Statistik 16.10.2014Markus Kalisch 4

Wdh: Ungepaarter t-Test

Medikament

Se

nku

ng

Blu

tdru

ck [

mm

Hg

]

-10

05

10

M P

Medikament

Se

nku

ng

Blu

tdru

ck [

mm

Hg

]

-10

-50

5

M P

D

𝜎

𝜎D

𝑑 β‰ˆπ·

𝜎; π‘“π‘Žπ‘™π‘™π‘  𝐻0 π‘ π‘‘π‘–π‘šπ‘šπ‘‘: 𝑑 ∼ π‘‘π‘›βˆ’1 β‰ˆ 𝑁(0,1)

D: β€œStreuung” zwischen MW (β€œSignal”)

𝜎: β€œStreuung” um MW (β€œFehler”)

Page 5: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chΒ Β· ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~π‘­π’‚π’Œπ’• 𝒓𝒆 + β„Ž N Verallgemeinerung des t-Test

||Seminar fΓΌr Statistik 16.10.2014Markus Kalisch 5

ANOVA: Idee

Medikament

Se

nku

ng

Blu

tdru

ck [

mm

Hg

]

-50

51

02

0

M1 M2 P

Streuung zwischen Gruppen:

β€œBetween-Sum-of-Squares” (𝑆𝑆𝐡)RSS der Gruppenmittelwerte (rote Kreuze)

um den totalen Mittelwert (blaue Linie)

𝑆𝑆𝐡 = 𝑝 βˆ—

𝑖=1

𝑔

π‘Œπ‘–. βˆ’ π‘Œ..2

Streuung innerhalb Gruppen:

β€œWithin-Sum-of-Squares” (π‘†π‘†π‘Š)

RSS der Einzelbeobachtungen

(schwarze Kreise) um die einzelnen

Mittelwerte (rote Kreuze)

π‘†π‘†π‘Š =

𝑖=1

𝑔

𝑗=1

𝑝

π‘Œπ‘–π‘— βˆ’ π‘Œπ‘–.2

𝑔: π΄π‘›π‘§π‘Žβ„Žπ‘™ πΊπ‘Ÿπ‘’π‘π‘π‘’π‘› 3𝑝: π΄π‘›π‘§π‘Žβ„Žπ‘™ π΅π‘’π‘œπ‘. π‘π‘Ÿπ‘œ πΊπ‘Ÿπ‘’π‘π‘π‘’ 10Ann: 𝑝 in jeder Gruppe gleich

π‘Œ3.

π‘Œ2.π‘Œ1. π‘Œ..

Teststatistik β‰ˆπ‘†π‘†π΅

π‘†π‘†π‘Š

Page 6: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chΒ Β· ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~π‘­π’‚π’Œπ’• 𝒓𝒆 + β„Ž N Verallgemeinerung des t-Test

||Seminar fΓΌr Statistik

In welchem Bild ist die Teststatistik der ANOVA grΓΆsser ?

16.10.2014Markus Kalisch 6

ANOVA: Teststatistik

A

Medikament

Se

nku

ng

Blu

tdru

ck [

mm

Hg

]

-10

05

15

M1 P

B

Medikament

Se

nku

ng

Blu

tdru

ck [

mm

Hg

]

-10

05

15

M1 P

Page 7: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chΒ Β· ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~π‘­π’‚π’Œπ’• 𝒓𝒆 + β„Ž N Verallgemeinerung des t-Test

||Seminar fΓΌr Statistik

π‘Œπ‘–π‘— = πœ‡ + 𝛼𝑖 + πœ€π‘–π‘— , πœ€π‘–π‘— ~ 𝑁 0, 𝜎2 𝑖𝑖𝑑

Technische Nebenbedingung: 𝑖=1𝑔𝛼𝑖 = 0

𝐻0: 𝛼1 = 𝛼2 = β‹― = 𝛼𝑔 = 0

Teststatistik: 𝑇 =𝑆𝑆𝐡/(π‘”βˆ’1)

π‘†π‘†π‘Š/(π‘”βˆ— π‘βˆ’1 )=𝑀𝑆𝐡

π‘€π‘†π‘Š

Theorie: Falls 𝐻0 stimmt

𝑇 ~ πΉπ‘”βˆ’1,π‘”βˆ— π‘βˆ’1

Damit kann ein Hypothesentest mit den ΓΌblichen 6

Schritten durchgefΓΌhrt werden

16.10.2014Markus Kalisch 7

ANOVA: Modell

β€œMean Squares”

β€œDegrees of freedom (Df)”

β€œAnalyse der

Varianzen”

Page 8: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chΒ Β· ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~π‘­π’‚π’Œπ’• 𝒓𝒆 + β„Ž N Verallgemeinerung des t-Test

||Seminar fΓΌr Statistik

Angenommen: 𝑍𝑖 ~ 𝑁 0,1 , 𝑖 = 1,…𝑛 alle unabhΓ€ngig

𝐴 =

𝑖=1

𝑛

𝑍𝑖2

Chi-Quadrat-Verteilung mit 𝑛 Freiheitsgraden: A ~ 𝑋𝑛 Angenommen: 𝐴 ~ Χ𝑛, 𝐡 ~ Ξ§π‘š unabhΓ€ngig

𝑄 =𝐴/𝑛

𝐡/π‘š

F-Verteilung mit 𝑛 und π‘š Freiheitsgraden 𝑄 ~ 𝐹𝑛;π‘š

16.10.2014Markus Kalisch 8

Exkurs: Verteilungen

Page 9: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chΒ Β· ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~π‘­π’‚π’Œπ’• 𝒓𝒆 + β„Ž N Verallgemeinerung des t-Test

||Seminar fΓΌr Statistik 16.10.2014Markus Kalisch 9

Beispiel in R: ANOVA-Tabelle

Medikament

Se

nku

ng

Blu

tdru

ck [

mm

Hg

]

-50

51

02

0

M1 M2 P

𝑔 = 3, 𝑝 = 10

𝑔 βˆ’ 1 = 2g*(p-1)=27

𝑆𝑆𝐡 = 872.3π‘†π‘†π‘Š = 642.1

𝑀𝑆𝐡 =872.3

2= 436.1

π‘€π‘†π‘Š =642.1

27= 23.8

𝐹 =436.1

23.8= 18.34

Page 10: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chΒ Β· ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~π‘­π’‚π’Œπ’• 𝒓𝒆 + β„Ž N Verallgemeinerung des t-Test

||Seminar fΓΌr Statistik

Falls ANOVA signifikant: Zwischen welchen Gruppen sind

signifikante Unterschiede ?

β†’ t-Tests fΓΌr alle Gruppenpaare

Problem: Multiples Testen

Bei 𝑛 Gruppen gibt es 𝑛2=𝑛(π‘›βˆ’1)

2t-Tests

Bsp: 𝑛 = 20 β†’ 190 Tests auf 5%-Niveau

KΓΆnnten etwa 0.05 βˆ— 190 β‰ˆ 10 falsch positive Tests haben

LΓΆsung: t-Test korrigieren (z.B. Bonferroni, …)

16.10.2014Markus Kalisch 10

Wo ist der Unterschied ?

Teil 1: Paarweise Tests

Page 11: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chΒ Β· ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~π‘­π’‚π’Œπ’• 𝒓𝒆 + β„Ž N Verallgemeinerung des t-Test

||Seminar fΓΌr Statistik

Vorteil:

- Vertrauensintervalle fΓΌr Differenzen der

Gruppenmittelwerte

- Wa., dass alle wahren Differenzen in den

Vertrauensintervallen liegen: 95%

Alternative zum paarweisen t-Test

Empfehlung: Tukey HSD verwenden

16.10.2014Markus Kalisch 11

Beliebte Alternative bei ANOVA:Tukey’s Honestly Significant Difference (HSD) Test

Page 12: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chΒ Β· ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~π‘­π’‚π’Œπ’• 𝒓𝒆 + β„Ž N Verallgemeinerung des t-Test

||Seminar fΓΌr Statistik 16.10.2014Markus Kalisch 12

Beispiel in R: TukeyHSD

-15 -10 -5 0 5 10

P-M

2P

-M1

M2

-M1

95% family-wise confidence level

Differences in mean levels of g Medikament

Se

nku

ng

Blu

tdru

ck [

mm

Hg

]

-50

51

02

0M1 M2 P

M2 ist deutlich wirksamer als M1

M1 und M2 sind deutlich

wirksamer als Placebo

Page 13: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chΒ Β· ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~π‘­π’‚π’Œπ’• 𝒓𝒆 + β„Ž N Verallgemeinerung des t-Test

||Seminar fΓΌr Statistik

Bisher: Differenz von zwei Gruppen

Jetzt: Linearkombination von beliebigen Gruppen

Bsp: Sind die beiden Medikamente im Mittel besser als

das Placebo ?

16.10.2014Markus Kalisch 13

Wo ist der Unterschied ?

Teil 2: Allgemeine Kontraste

Page 14: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chΒ Β· ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~π‘­π’‚π’Œπ’• 𝒓𝒆 + β„Ž N Verallgemeinerung des t-Test

||Seminar fΓΌr Statistik

Vektor mit wahren

Gruppenmittelwerten:

πœ‡ = πœ‡π‘€1, πœ‡π‘€2, πœ‡π‘ƒπ‘‡

Kontraste-Matrix 𝐾

Parameter-Vektor π‘š

𝐻0: 𝐾 βˆ— πœ‡ = π‘š

Praxis: Benutzer definiert 𝐾 und π‘š; Computer berechnet

p-Werte fΓΌr Hypothesen und korrigiert fΓΌr mult. Testen

16.10.2014Markus Kalisch 14

Kontraste: Notation

Medikament

Se

nku

ng

Blu

tdru

ck [

mm

Hg

]

-50

51

02

0

M1 M2 P

Page 15: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chΒ Β· ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~π‘­π’‚π’Œπ’• 𝒓𝒆 + β„Ž N Verallgemeinerung des t-Test

||Seminar fΓΌr Statistik

(Alternative zu TukeyHSD)

16.10.2014Markus Kalisch 15

Konstraste – Bsp 1: Paarweise Vergleiche

K πœ‡ m

πœ‡π‘€2 βˆ’ πœ‡π‘€1 = 0πœ‡π‘ƒ βˆ’ πœ‡π‘€1 = 0πœ‡π‘ƒ βˆ’ πœ‡π‘€2 = 0

Page 16: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chΒ Β· ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~π‘­π’‚π’Œπ’• 𝒓𝒆 + β„Ž N Verallgemeinerung des t-Test

||Seminar fΓΌr Statistik

Funktion β€˜glht’ (General Linear Hypotheses Test) im

package β€˜multcomp’

16.10.2014Markus Kalisch 16

Kontraste – Bsp 1: R

Approx. 95%-VI fΓΌr Unterschied M1 vs. M2:

5.67 Β± 2 βˆ— 2.181

Page 17: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chΒ Β· ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~π‘­π’‚π’Œπ’• 𝒓𝒆 + β„Ž N Verallgemeinerung des t-Test

||Seminar fΓΌr Statistik 16.10.2014Markus Kalisch 17

Kontraste – Bsp 2:

Gruppe der Medikamente vs. Placebo

0.5 βˆ— πœ‡π‘€1 + 0.5 βˆ— πœ‡π‘€2 βˆ’ πœ‡π‘ƒ = 0πœ‡π‘€2 βˆ’ πœ‡π‘€1 = 0

Medikamente vs. Placebo

Medikamente untereinander

Page 18: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chΒ Β· ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~π‘­π’‚π’Œπ’• 𝒓𝒆 + β„Ž N Verallgemeinerung des t-Test

||Seminar fΓΌr Statistik 16.10.2014Markus Kalisch 18

Kontraste – Bsp 2: R

Die Medikamente sind deutlich

wirksamer als Placebo

M2 ist deutlich wirksamer als M1

Page 19: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chΒ Β· ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~π‘­π’‚π’Œπ’• 𝒓𝒆 + β„Ž N Verallgemeinerung des t-Test

||Seminar fΓΌr Statistik

Angenommen, es gibt zwei Medikamente (M1, M2) und

auch zwei mΓΆgliche Formen von Placebo (P1, P2). Folgende

Matrix ist dann eine mΓΆgliche Kontrastmatrix fΓΌr die

Vergleiche:

(M1, M2) vs. (P1, P2)

M1 vs. M2

P1 vs. P2

16.10.2014Markus Kalisch 19

Kontraste

β€’ Ja

β€’ Nein

Page 20: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chΒ Β· ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~π‘­π’‚π’Œπ’• 𝒓𝒆 + β„Ž N Verallgemeinerung des t-Test

||Seminar fΓΌr Statistik

Wenige Kontraste β†’ viel Macht

Software: Korrektur fΓΌr multiples Testen innerhalb von

einem Funktionsaufruf (aber nicht bei mehreren

Funktionsaufrufen mit verschiedenen Kontrasten)

Deshalb: Einen Satz von Kontrasten definieren, dann

auswerten; anschliessend keinen neuen Satz von

Kontrasten mehr untersuchen

16.10.2014Markus Kalisch 20

Grundregeln fΓΌr Kontraste

Page 21: ANalysis Of VAriance (ANOVA) 1/2 - stat.ethz.chΒ Β· ANOVA = Spezialfall einer Linearen Regression G K J P.𝑉 𝑖 ~π‘­π’‚π’Œπ’• 𝒓𝒆 + β„Ž N Verallgemeinerung des t-Test

||Seminar fΓΌr Statistik

π‘Œπ‘–π‘— = πœ‡ + 𝛼𝑖 + πœ€π‘–π‘— , πœ€π‘–π‘— ~ 𝑁 0, 𝜎2 𝑖𝑖𝑑

1. Daten in jeder Gruppe normalverteilt

2. Gleiche Varianz in Gruppen

3. UnabhΓ€ngige Fehler πœ€π‘–π‘—

In R: Funktion β€œplot” wie bei Linearer Regression

Vorteil: β€œBalanciertes Experiment” (gleiche Anzahl pro Gruppe):

ANOVA ist robuster gegen Abweichungen obiger Annahmen

16.10.2014Markus Kalisch 21

Residuenanalyse bei ANOVA