Tutorat Statistik II im SS 09ANCOVA & Faktorenanalyse
Memo: Effektmodelle & Messwiederholung
Was fällt euch noch ein?
Memoo Zufallseffekte erlauben eine Verallgemeinerung der
Ergebnisse auf nicht realisierte Faktorstufen und damit das Treffen von „Trendaussagen“
o Ab 2 Faktoren unterscheiden sich die Nenner der F-Tests:- Im Modell I (feste Effekte) MSwithin- Im Modell II (Zufallseffekte) MSAxB
- Im Modell III (gemischte Effekte) kontraintuitiv: MSwithin beim Zufallseffekt, MSAxB beim festen Effekt
o Hypothese bei Zufallseffekte nicht über Effekte sondern nur über Effektvarianz definierbar
o ANOVA mit Messwiederholung vs. zweifaktorielle ANOVA mit gemischten Effekten:- erhöhte Power durch verringerte Fehlervarianz- Preis: Haupteffekt des Personenfaktors und Interaktion zwischen
Personen und Messwiederholungsfaktor nicht definierto 2-fak. mit Messwiederholung: vollständig (2 Messwdh.-
Faktoren) oder unvollständig (1 Messwdh.-Faktor)
Regressions- und Varianzanalysen: Gemeinsamkeiten sowie Unterschiede
Gemeinsamkeiten
o Regressions- und Varianzanalysen untersuchen AV(s) in Abhängigkeit von UV(s)
o Die AV ist normalverteilt & intervallskalliert
o Beide Methoden erlauben den Einbezug mehrere UVs (Prädiktoren/Faktoren)
o Daten lassen sich jeweils als lineare Modelle in der Strukturgleichung des ALM darstellen
Unterschiede
o Ziel der Regression ist die Rückführung der AV auf die UV(s); es handelt sich um die Analyse von Zusammenhängen (in einer Population)
mathematische Grundlage: Korrelationeno Ziel der Varianzanalyse ist zu prüfen, ob sich die AV in
Abhängigkeit von der UV systematisch unterscheidet; es handelt sich um eine Analyse von Unterschieden (zwischen Populationen)
mathematische Grundlage: Mittelwertsdifferenzen o Die UV(s) der ANOVA sind i.d.R. nominalskaliert, die der
Regression üblicherweise intervallskalliert
Strukturgleichung des ALM
ANOVA: Effekte & Stufen eines Faktors
Regression: standardisierte Koeffizienten & Werte auf versch. Prädiktoren
ikikkiii eaxbxbxby ...23.12211 ...
iikkiiyi ezzzz ...2211
unstandardisiert:
standardisiert:
Wegfall der additiven Konstante: Darstellbarkeit im ALM
Thema: ANCOVA & Faktorenanalyse
Gliederung
I. Funktion der Kovarianzanalyse (ANCOVA)
II. Wege der Berechnung
III. Explorative Faktorenanalyse
I. Funktion der Kovarianzanalyse
Funktion der Kovarianzanalyseo Die Kovarianzanalyse ist eine Kombination aus
Zusammenhangs- & Unterschiedsanalysen und dient der statistischen Kontrolle von Störvariablen
o Variablen, die nichts mit der inhaltlichen Hypothese zu tun haben, aber dennoch die AV beeinflussen, werden Störvariablen genannt.
o Beispiel: Neben der experimentelle Bedingung beeinflusst auch das Alter das Abschneiden in einem Leistungstest
o Es gibt verschiedene Möglichkeiten, (bekannte) Störvariablen zu kontrollieren:
- Die Störvariable wird über alle Bedingungen konstant gehalten (alle Probanden sind gleich alt)
- Aufnahme der Störvariablen als Faktor im Versuchsplan- Statistische Kontrolle der Störvariablen
o Alternative: Partialkorrelationen (Skalenniveau!)?
Probleme der Kontrolle
o Störvariablen können aus praktischen und ethischen Gründen nicht immer konstant gehalten werden.
o Die Aufnahme einer Störvariablen in den Versuchsplan ist unökonomisch, da die Zahl der nötigen Probanden deutlich steigt.
Beispiel: Untersuchung zur Merkleistung o Faktor Geschlecht des Teilnehmers (2-fach) o Faktor Darbietungsform (3-fach)
Es werden 2 x 3 x 20 = 120 Vpn benötigt.o Wenn das Alter (Störvariable) als dritter Faktor (z.B. drei
Stufen) berücksichtigt werden soll, braucht man schon
3 x 120 = 360 Vpn. Ökonomischer: Kovarianzanalyse
II. Wege der Berechnung
Unser Beispiel
20 Schüler lernen eine Programmiersprache.o UV: 5 verschiedene Lernmethodeno AV: Lernerfolgo Kovariate: mathematisch-logische Vorkenntnisse
Der Einfluss der Kovariate auf den Lernerfolg wird statistisch kontrolliert.
Der Effekt der Lehrmethode kann so auch zuverlässig bestimmt werden, wenn zufällig in einer Gruppe viele Probanden mit hohen Vorkenntnissen waren.
Variante 1
o Regression der AV auf die Kovariate
Die Regressionsresiduen beschreiben den Anteil der AV, der nicht durch die Kovariate erklärt werden kann.
o Diese Residuen werden als neue AV in eine Varianzanalyse gegeben.
Erklärung der verbleibenden Varianz durch die UV
x: mathematisch-logische Fähigkeiten (Kovariate)y: Lernerfolg (AV)1-5: Trainingsbedingung (UV, 5-stufig)
Beispiel
Training
VP x y x y x y x y x y1 10 18 22 40 30 38 35 25 11 152 20 17 31 22 31 40 37 45 16 173 15 23 16 28 18 41 41 50 19 204 12 19 17 31 22 40 30 51 25 23
M 14 19.3 22 30.3 25 39.8 36 42.8 18 18.8
51 2 3 4
69.1085.0y
69.109.2285.015.30x-ya
85.089.8
56.1165.0b
65.056.1189.820
1331
56.1120
2671
89.820
1578
x-yab
i
y.x
y.x
y.xy.x
i
x
yxy
x
yxy
yx
xyxy
yy
xx
x
yxy
x
yxy
x
s
sr
s
sr
ssN
SPr
N
SSs
N
SSs
s
sr
s
sr
Regression von AV auf Kovariate
Bestimmung der Residuenx y y(reg) y(res)
10 18 19.19 -1.19
20 17 27.69 -10.69
15 23 23.44 -0.44
12 19 20.89 -1.89
22 40 29.39 10.61
31 22 37.04 -15.04
16 28 24.29 3.71
17 31 25.14 5.86
30 38 36.19 1.81
31 40 37.04 2.96
18 41 25.99 15.01
22 40 29.39 10.61
35 25 40.44 -15.44
37 45 42.14 2.86
41 50 45.54 4.46
30 51 36.19 14.81
11 15 20.04 -5.04
16 17 24.29 -7.29
19 20 26.84 -6.84
25 23 31.94 -8.94
regres
reg
yyy
bxay
ANOVA mit den Residuen1 2 3 4 5
-1.19 10.61 1.81 -15.44 -5.04
-10.69 -15.04 2.96 2.86 -7.29
-0.44 3.71 15.01 4.46 -6.84
-1.89 5.86 10.61 14.81 -8.94
-3.55 1.29 7.60 1.67 -7.03
Die ANOVA wird wie immer berechnet:• Quadratsummen (between & within)• Mittlere Quadratsummen• F-Werte• …
Residualisierung
Variante 2
o Berechnung über modifizierte Quadratsummen:Varianz der Kovariate wird direkt aus den Quadratsummen „entfernt
o Vorgehen in vier Schritten:1. Quadratsummenzerlegung beider Variablen2. Produktsummenzerlegung3. Entfernen der Varianz der Kovariate:
Berechnen der Modifizierten Quadratsummen4. F-Test
Kovarianzanalyse - Berechnung
Tatsächlich erfolgt die Berechnung anders als eben beschrieben. Die Darstellung diente der inhaltlichen Veranschaulichung.
Stattdessen wird die Varianz der Kovariate direkt aus den Quadratsummen „entfernt“. Das mathematische Vorgehen ist:
1. Quadratsummenzerlegung beider Variablen2. Produktsummenzerlegung3. Entfernen der Varianz der Kovariate: Berechnen
der Modifizierten Quadratsummen4. F-Test
Quadratsummen
Quadratsummenzerlegung für die AV (y) und die Kovariate (x):
n
i
p
jjij
p
jj
n
i
p
jij
withinbetweentotal
yyyynyy
ySSySSySS
1 1
2
1
2
1 1
2
)()()(
n
i
p
jjij
p
jj
n
i
p
jij
withinbetweentotal
xxxxnxx
xSSxSSxSS
1 1
2
1
2
1 1
2
)()()(
482)(
1096)(
1578)(
xSS
xSS
xSS
within
between
total
Quadratsummen
672)(
1999)(
2671)(
ySS
ySS
ySS
within
between
total
TrainingVP x y x y x y x y x y1 10 18 22 40 30 38 35 25 11 152 20 17 31 22 31 40 37 45 16 173 15 23 16 28 18 41 41 50 19 204 12 19 17 31 22 40 30 51 25 23
M 14 19.3 22 30.3 25 39.8 36 42.8 18 18.8
51 2 3 4
Produktsummen
Die „Produktsumme“ ist die Vorstufe zur Kovarianz (daher der Name „Kovarianzanalyse“)
N
yyxx
N
SP
p
j
n
iijij
xyxy
1 1
))((
cov
Produktsumme:
p
j
n
iijijxy yyxxSP
1 1
))((
Produktsummen
withinbetweentotal SPSPSP
Es gilt wie für die Quadratsummen:
p
j
n
ijijjijwithin
p
jjjbetween
p
j
n
iijijtotal
yyxxSP
yyxxnSP
yyxxSP
1 1
1
1 1
))((
))((
))((
1813491331
18)75.1823()75.1725(...)25.1918()25.1410(
1349)15.3075.18()90.2275.17(4...)15.3025.19()90.2225.14(4
1331)15.3023()90.2225(...)15.3018()90.2210(
15.3090.22
withinbetweentotal
within
between
total
SPSPSP
SP
SP
SP
yx
TraininVP x y x y x y x y x y1 10 18 22 40 30 38 35 25 11 152 20 17 31 22 31 40 37 45 16 173 15 23 16 28 18 41 41 50 19 204 12 19 17 31 22 40 30 51 25 23
M 14 19.3 22 30.3 25 39.8 36 42.8 18 18.8
51 2 3 4
Modifizierte Quadratsummen(adjusted Sums of Squares)
Die Varianz der Kovariate wird aus den Quadratsummen der AV eliminiert.
)()()()(´
)()()(´
)()()(´
22
2
2
xSS
SP
xSS
SPySSySS
xSS
SPySSySS
xSS
SPySSySS
total
total
within
withinbetweenbetween
within
withinwithinwithin
total
totaltotaltotal
18
1349
1331
within
between
total
SP
SP
SP
Modifizierte Quadratsummen(adjusted Sums of Squares)
8761577
1331
482
)18(1999)(´
671482
)18(672)(´
15471577
13312671)(´
22
2
2
ySS
ySS
ySS
between
within
total 482)(
1096)(
1578)(
xSS
xSS
xSS
within
between
total
672)(
1999)(
2671)(
ySS
ySS
ySS
within
between
total
)()()()(´
)()()(´
)()()(´
22
2
2
xSS
SP
xSS
SPySSySS
xSS
SPySSySS
xSS
SPySSySS
total
total
within
withinbetweenbetween
within
withinwithinwithin
total
totaltotaltotal
3. F-Test und Freiheitsgrade
within
betweenpNp
withinwithin
betweenbetween
MS
MSF
pN
SSMS
p
SSMS
´
´
1
´´
1
´´
1;1
57.448
219
471520
671´
21915
876´
14,4
F
MS
MS
within
between
Fkrit = 3.11
signifikanter Effekt der Lernmethode auf den Lernerfolgwenn gleichzeitig die mathematisch-logische Vorkenntnisse
kontrolliert werden.
III. Explorative Faktorenanalyse
Kernfragen
Was ist eine Faktorenanalyse?Wozu verwende ich eine Faktorenanalyse?Wie läuft die Faktorenanalyse ab?Welches sind wichtige Begriffe?
explorative vs. konfirmatorische Faktorenanalyse
o Explorative FA dienen dem Auffinden von Faktoren in einem Datensatz. In vielen Iterationen (Schleifen) wird nach der besten Lösung gesucht.
o Konfirmatorische FA überprüfen, ob empirisch erhobene Daten ein bestehendes theoretisches Modell bestätigen oder verwerfen. Alternativ kann eine explorative FA an einer anderen Stichprobe „kreuzvalidiert“ werden.
Unser Thema: Ablauf der explorativen FA
Die Faktorenanalyse (künftig: FA) ist ein multivariates Verfahren zur Reduktion von vielen (manifesten) Variablen zu wenigen (latenten) Variablen, die als Faktoren bezeichnet werden.
Faktorenanalyse: Was und wozu?
FA im Bild
Faktoren: latent (rund)
Items: manifest (eckig)
Ziel der FA
o Aus einer (großen) Anzahl von Variablen soll eine kleinere Anzahl von zugrunde liegenden (latenten) Faktoren extrahiert werden. Hierbei soll möglichst viel Information (Varianz) der ursprünglichen Variablen erhalten bleiben.
Konstruktion von Fragebögeno Beispiel: Die BIG FIVE
Voraussetzungen der FA
o intervallskalierte Variablen
o normalverteilte Variablen
o n pro Variable mindestens 3
o substanzielle Korrelationen im Datensatz
o dichotome Variablen (0/1) mit Einschränkungen verwendbar
Bildhafte Beschreibungo Anmerkung: Faktorenanalysen werden in
so genannten mehrdimensionalen Vektorräumen berechnet. Da der Mensch sich im Allgemeinen nicht mehr als drei räumliche Dimensionen vorstellen kann, basieren die folgenden Erläuterungen auf einer Faktorenanalyse mit nur drei Variablen.
Bildhafte Beschreibung
o durch die Ausprägungen der verschiedenen Personen in den drei Variablen wird eine dreidimensionale Punktewolke aufgespannt
Bildhafte Beschreibung
o diese Punktewolke soll nun mit möglichst wenigen Faktoren (Vektoren) beschrieben werden
o der erste Faktor (lambda 1) wird so definiert, dass er die längstmögliche Strecke durch die Punktewolke geht (größtmögliche Varianzaufklärung)
Bildhafte Beschreibung
o der zweite Faktor wird so bestimmt, dass er von der verbleibenden Varianz möglichst viel erklärt
o Bedingung: Unabhängigkeit vom ersten Faktor (Orthogonalität)
Bildhafte Beschreibung
o der dritte Faktor unterliegt denselben Bedingungen und soll von den ersten beiden Faktoren unabhängig sein
Bildhafte Beschreibung
o Folge: Die Ausprägung der einzelnen Personen kann über drei Faktoren beschrieben werden
o Aber: Drei Variablen = drei Faktoren?o Fazit: Da die Anzahl der Faktoren immer
möglichst klein sein sollte, kommt es bei der Faktorenanalyse immer zu einem Informationsverlust.
Vorgehen in 6 Schritten1. z-standardisierte Matrix der Variablenwerte bilden2. Bildung einer Korrelationsmatrix (Überprüfung
z.B. mit Bartlett-Test oder KMO-Kennwert)3. Bestimmung der Faktorladungsmatrix in
Iterationen Kommunalitätenproblem
4. Bestimmung der Faktorenzahl Extraktionsproblem
5. Rotation der Faktorladungsmatrix Inhaltliche Interpretation
Korrelationsmatrix
Adjektiv 1
Adjektiv 2
Adjektiv 3
Adjektiv x
Adjektiv 1 1.0 .24 .36
Adjektiv 2 .21 1.0 .24
Adjektiv 3 … … …
Adjektiv x
Faktorladungsmatrix
Neuro-tizismus
Extra-version
Verträg-lichkeit
Adjektiv 1 .42 .24 .36
Adjektiv 2 .21 .14 .24
Adjektiv 3 … … …
Adjektiv 5
Adjektiv 6
Adjektiv x
Wichtige Begriffe
o Kommunalität (h²): Jener Varianzanteil einer Variablen, welcher durch alle aufgenommenen Faktoren erklärt werden kann.
Mit anderen Worten: Wie gut wird eine Variable durch die extrahierten Faktoren reproduziert.
o Kommunalität 1 = 100% Varianzaufklärungo Kommunalität 0 = 0% Varianzaufklärung
o Die Kommunalität ist die Zeilensumme der quadrierten Werte der Faktorladungsmatrix
Kommunalität h²
Neuro-tizismus
Extra-version
Verträg-lichkeit
h²
Adjektiv 1 .42² .24² .31² .33
Adjektiv 2 .21² .14² .24² .12
Adjektiv 3 … … … …
Adjektiv 5
Adjektiv 6
Adjektiv x
Kommunalitätenproblem
o In der ursprünglichen Korrelationsmatrix sind alle Elemente der Hauptdiagonalen 1.
o Da bei der Faktorenanalyse nicht 100% der Varianz erklärt werden kann (Informationsverlust), reduziert sich dieser Wert (Kommunalität < 1).
o Frage: Mit welchem Wert soll die Berechnung einer Faktorenanalyse starten?
Kommunalitätenproblem
Die Hauptkomponentenanalyse (PCA) setzt die Werte der Diagonalen bei der ersten Iteration auf 1. Bevorzugung von Faktoren, die viel Varianz an einzelnen Variablen erklärenDie Hauptachsenanalyse (PFA) schätzt über seperates Verfahren schon vor der ersten Iteration die Kommunalitäten. Bevorzugung von Faktoren, die Varianz an vielen Variablen erklären
Extraktionsproblem
o Wie viele Faktoren soll meine „Lösung“ enthalten?– Werden bei n Variablen n Faktoren ermittelt, so
kann 100% der Gesamtvarianz erklärt werden.– Allerdings findet dann keine Reduktion der
Informationen statt.
o Vier Möglichkeiten:1. Eigenwertkriterium2. gewünschte Varianzaufklärung 3. grafische Lösung (Scree-Plot)4. theoriegeleitet
Wichtige Begriffeo Der Eigenwert λ eines Faktors gibt an, wie viel Varianz
dieser Faktor an allen Variablen aufklärt.o Der Wertebereich des Eigenwerts hängt von der Anzahl
der Variablen ab: 0 < λ < p.o Ein Eigenwert von 1 bedeutet also, dass ein Faktor so viel
Varianz aufklärt, wie eine der standardisierten Variablen.
o Der Eigenwert ist die Spaltensumme der Faktorladungsmatrix.
Eigenwert λ
Neuro-tizismus
Extra-version
Verträg-lichkeit
h²
Adjektiv 1 .42² .24² .31² .33
Adjektiv 2 .21² .14² .24² .12
Adjektiv 3 … … … …
Adjektiv 5
Adjektiv 6
Adjektiv xλ 3 2.4 3.5
Bestimmung der Faktorzahl Variante Io Kaiser-Gutman-Regel
(Eigenwertkriterium)–Alle Faktoren mit einem Eigenwert größer 1 werden aufgenommen.
–Somit erklärt ein Faktor immer mehr Varianz als eine ursprüngliche Variable.
o Kriterium der extrahierten Varianz–Durch Vorüberlegungen kann festgelegt werden, wie groß der Anteil der extrahierten Varianz durch die aufgenommenen Faktoren sein soll.
Bestimmung der Faktorzahl Variante II
o Screeplot–Über den „Knick“ im
Verlauf der Eigenwerte wird entschieden, wie viele Faktoren extrahiert werden.
–Im Beispiel würde man sich für 2 Faktoren entscheiden.
Screeplot
Faktor
1110987654321
Eig
enw
ert
4
3
2
1
0
Bestimmung der Faktorzahl Variante III
Das Rotationsproblem
o Die Position der Faktoren ist zunächst nach Maximierung der Varianzaufklärung gewählt.
o Nach Bestimmung von Zahl (und Lage) der Faktoren ist eine Rotation um den Ursprung ohne Informationsverlust möglich.
o Ziel: Einfachstruktur, d.h. hohe Ladung der Faktoren auf einigen Variablen, niedrige auf den anderen.
Wichtiger Begriff
o Faktorladung: Maß für den Zusammenhang zwischen Variable und Faktor (quadrierte Werte der Faktorladungsmatrix)
o Werte zwischen 0 und 1o Die Einfachstruktur der Lösung wird erreicht, wenn
die Variable auf einem Faktor sehr hoch (nahe 1) und auf allen anderen Faktoren sehr niedrig (nahe 0) lagert.
Vor der Rotation
Variablen sind nur schwer zuzuordnen
Komponentenmatrixa
,799
,663
,786
,772
,371 -,562
,354
,376 ,619
,650 -,401
-,496 ,590
,358 ,756
,500 ,618
Psi
Astrologie
Hexen
Spiritismus
traditionell religioes
alternativ religioes
Offenheit
Neurotizismus
Lebenszufriedenheit
Leistungsbereitschaft
Sensation seeking
1 2 3
Komponente
Extraktionsmethode: Hauptkomponentenanalyse.
3 Komponenten extrahierta.
Nach der Rotation
Problem der Zuordnung nur noch bei der Variablen Leistungsbereitschaft
Rotierte Komponentenmatrixa
,841
,634
,779
,801
,610
,308
,653 ,313
,338 ,671
-,771
,635 -,544
,787
Psi
Astrologie
Hexen
Spiritismus
traditionell religioes
alternativ religioes
Offenheit
Neurotizismus
Lebenszufriedenheit
Leistungsbereitschaft
Sensation seeking
1 2 3
Komponente
Extraktionsmethode: Hauptkomponentenanalyse. Rotationsmethode: Varimax mit Kaiser-Normalisierung.
Die Rotation ist in 6 Iterationen konvergiert.a.
Rotationsvarianten
Orthogonale Rotation:Die Faktoren werden rechtwinklig rotiert.Vorteil: Faktoren sind voneinander unabhängig.
Oblique Rotation:Die Faktoren werden schiefwinklig rotiert.Vorteil: Über die Faktoren kann eine Faktorenanalyse zweiter Ordnung berechnet werden.
Interpretation der Faktoren
o Die berechneten Faktoren müssen inhaltlich interpretiert werden.
o Die Faktorenanalyse bietet die Faktorladungen der Variablen an, kann Faktoren aber nicht benennen oder interpretieren.
Vielen Dank für eure Aufmerksamkeit!
Übungsaufgaben ANCOVA
Aufgabe 1
a) Erklären Sie kurz den Begriff „Störvariable“.
b) Nennen Sie 3 Möglichkeiten, mit bekannten Störvariablen umzugehen!
Lösung 1
a) Variablen, die nichts mit der inhaltlichen Hypothese zu tun haben, aber dennoch die AV beeinflussen, werden Störvariablen (SV) genannt.
b) Konstanthalten der SV, Aufnahme der SV als zusätzliche UV, Aufnahme der SV als Kovariate (-> Kovarianzanalyse).
Aufgabe 2
a) Was wird unter einer Residualisierung verstanden?
b) Der Zusammenhang einer AV mit einer Kovariate wird durch die Regressionsgleichung mit dem Regressionskoeffizient b=0.5 und einer additiven Konstante von a=-10 beschrieben. Berechnen Sie die Residuen für drei Probanden mit den Werten:
y1=20; x1=10; y2=0; x2=0; y3=-5; x3=2.
Lösung 2
a) Bei einer Residualisierung wird eine Regression der AV auf eine Kovariate berechnet. Anschließend werden für alle VP die Differenzen der tatsächlichen y-Werte und der vorhergesagten y-Werte gebildet. Diese „Residuen“ bilden nun eine neue AV.
4(-9)--5ˆ-y res -910-0.5·2ˆ
10(-10)-0ˆ -yres -1010-0.5·0ˆ
25(-5)-20ˆ-yres -510-0.5·10 ˆ
10-0.5·xˆ
33
3
22
2
11
1
i
yy
yy
yy
yib)
Aufgabe 3
Die Reaktionszeit (in ms) wird zwischen zwei Aufgaben verglichen. Das Alter der Probanden soll dabei als Kovariate mit berücksichtigt werden.Es gilt:SSbetween (y) =26450SSwithin (y) =51100SSbetween (x) =2SSwithin (x) =206
Fortsetzung Aufgabe 3
a) Berechnen Sie die Produktsummen (SP): SPtotal, SPwithin ,SPbetween.
b) Berechnen Sie die adjustierten Quadratsummen SSwithin (y),SSbetween (y).
c) Berechnen Sie die adjustierten mittleren Quadratsummen MSwithin ,MSbetween.
d) Berechnen Sie den empirischen F-Wert.
Lösung 3
Fortsetzung Lösung 3
Top Related