Post on 06-Apr-2015
Einfache lineare Regressionsanalyse mit einer kategorialen X-Variablen
bull Kategoriale X-Variable Geschlecht (maumlnnlich weiblich) Ost-West-Zugehoumlrigkeit etc
bull Wir koumlnnen jetzt nicht sagen bdquoWenn X um eine Einheit steigt dann steigtsinkt Y um die Steigung bldquo
bull Loumlsung bdquoKonstruktion einer Dummyvariablenldquo Diese weist eine Dummykodierung (01-Kodierung) aufzB der Form Geschlecht 0 = weiblich 1 = maumlnnlich
oder Geschlecht 0 = maumlnnlich 1 = weiblich
Kategorie 0 = Referenzgruppe
X1 Y b
PersonGeschlecht (xi)
original dummysiertMonatl Einkommen
(in 100 Euro) (yi)A 1 0 12B 1 0 24C 2 1 14D 1 0 26E 2 1 18F 1 0 28G 2 1 32H 2 1 16I 1 0 30J 2 1 20
Ein Beispiel X = Geschlecht Y = Einkommen (in 100 Euro)
1 bzw 0 = weiblich (Referenzgruppe) 2 bzw 1 = maumlnnlich
Das Streudiagramm X = Geschlecht
0 = weiblich (Referenzgruppe) 1 = maumlnnlich
1080604020
Geschlecht (dummysiert)
35
30
25
20
15
10
Ein
kom
men
(in
100
Eu
ro)
R-Quadrat linear = 0091
Berechnung von a und b
Person xi yi xi - (xi - )2 yi - (x i - ) middot (y i - )
A 0 12 -05 025 -10 -05 middot (-10) = 5B 0 24 -05 025 2 -05 middot 2 = -1C 1 14 05 025 -8 05 middot (-8) = -4D 0 26 -05 025 4 -05 middot 4 = -2E 1 18 05 025 -4 05 middot (-4) = -2F 0 28 -05 025 6 -05 middot 6 = -3G 1 32 05 025 10 05 middot 10 = 5H 1 16 05 025 -6 05 middot (-6) = -3I 0 30 -05 025 8 -05 middot 8 = -4J 1 20 05 025 -2 05 middot (-2) = -1
sum 5 220 0 250 0 -10
2210220y
y
50015x
x x y x
004502
01
)x(x
)y)(yx(xb
2i
ii
24500)004(22xbya
Interpretation
bull a = Frauen weisen im Durchschnitt ein Einkommen von 2400 (in 100 Euro also 2400 Euro) auf
bull b = Maumlnner hingegen weisen ein niedrigeres Einkommen auf Sie unterschreiten den Mittelwert der Frauen um 400 (in 100 Euro also 400 Euro)
Ergo iii x424xbay
Das Streudiagramm im umgekehrten Fall
1080604020
Geschlecht (dummysiert)
35
30
25
20
15
10
Ein
kom
men
(in
100
Eu
ro)
R-Quadrat linear = 0091
0 = maumlnnlich (Referenzgruppe) 1 = weiblich
Berechnung von a und b
Person xi yi xi - (xi - )2 yi - (x i - ) middot (y i - )
A 1 12 05 025 -10 05 middot (-10) = -5B 1 24 05 025 2 05 middot 2 = 1C 0 14 -05 025 -8 -05 middot (-8) = 4D 1 26 05 025 4 05 middot 4 = 2E 0 18 -05 025 -4 -05 middot (-4) = 2F 1 28 05 025 6 05 middot 6 = 3G 0 32 -05 025 10 -05 middot 10 = -5H 0 16 -05 025 -6 -05 middot (-6) = 3I 1 30 05 025 8 05 middot 8 = 4J 0 20 -05 025 -2 -05 middot (-2) = 1
sum 5 220 0 250 0 10
2210220y
y
50015x
x x y x
004502
01
)x(x
)y)(yx(xb
2i
ii
2050000422xbya
Interpretation
bull a = Maumlnner weisen im Durchschnitt ein Einkommen von 2000 (in 100 Euro also 2000 Euro) auf
bull b = Frauen hingegen weisen ein houmlheres Einkommen auf Sie uumlberschreiten den Mittelwert der Maumlnner um 400 (in 100 Euro also 400 Euro)
Ergo iii x402xbay
Wie sieht das Ganze in SPSS aus
a Abhaumlngige Variable Einkommen (in 100 Euro)
Koeffizienten (a)
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 24000 3162 7589 000 16708 31292 Geschlecht -4000 4472 -302 -894 397 -14313 6313
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 20000 3162 6325 000 12708 27292 Geschlecht 4000 4472 302 894 397 -6313 14313
a Abhaumlngige Variable Einkommen (in 100 Euro)
Referenzgruppe = maumlnnlich
Referenzgruppe = weiblich
Koeffizienten (a)
Wir fassen zusammen
004502
01
)x(x
)y)(yx(xb
2i
ii
24500)004(22xbya
004502
01
)x(x
)y)(yx(xb
2i
ii
2050000422xbya
bull a (Schnittpunkt mit der Y-Achse) = Mittelwert der Referenzgruppe fuumlr Referenzgruppe (Ref) Frau
bull b (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz fuumlr Ref Frau
Ergo a + b = Mittelwert der Gruppe j fuumlr Ref Frau
Referenzgruppe bdquoweiblichldquo Referenzgruppe bdquomaumlnnlichldquo
yrsquoi = 24 - 4 ∙ x yrsquoi = 20 + 4 ∙ x
50)yy(yya FrauMannGesamtFrau
FrauMann yyb
)yy(yy FrauMannFrauMann
Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
bull zB Schichtzugehoumlrigkeit (Unterschicht Mittelschicht Oberschicht) Staatsangehoumlrigkeit (deutsch tuumlrkisch griechisch etc) Familienstand (ledig verheiratet geschieden etc)
bull Loumlsung bdquoKonstruktion von mehreren Dummyvariablenldquo Es werden n - 1 Dummyvariablen zB der Form
Mittelschicht (D2) 0 = nein 1 = jaOberschicht (D3) 0 = nein 1 = ja konstruiert
bull Unterschicht geht nicht in die Analyse ein da diese aus D2 und D3 eindeutig reproduzierbar ist1 Unterschicht ist folglich die Referenzgruppe denn
ndash wenn D2 oder D3 = 1 dann Unterschicht = 0
ndash wenn D2 und D3 = 0 dann Unterschicht = 1
1 Dies gilt ebenfalls fuumlr alle anderen Kategorien (Mittelschicht und Oberschicht) Zumeist wird jene Kategorie als Referenzgruppe ausgewaumlhlt die mit der houmlchsten Haumlufigkeit vertreten ist
Ein Beispiel X = Schichtzugehoumlrigkeit
Kodierung 1 = Unterschicht (D1) 2 = Mittelschicht (D2) 3 = Oberschicht (D3) Unterschicht (D1) geht nicht in die Analyse ein (Referenzgruppe)
PersonSchichtzuge-houmlrigkeit (xi)
original
Schichtzuge-houmlrigkeit (xi)dummysiert
Monatl Einkommen
(in 100 Euro)D1 D2 D3
A 1 1 0 0 12B 2 0 1 0 24C 1 1 0 0 14D 2 0 1 0 26E 1 1 0 0 18F 3 0 0 1 28G 3 0 0 1 32H 1 1 0 0 16I 3 0 0 1 30J 2 0 1 0 20
Wir fassen zusammen
a Abhaumlngige Variable Einkommen (in 100 Euro)
Koeffizienten (a)
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 15000 1291 11619 000 11947 18053 Mittel-
schicht (D2)8333 1972 576 4226 004 3670 12996
Ober-schicht (D3)
15000 1972 1036 7606 000 10337 19663
yrsquoi = 15 + 8333 ∙ x1 + 15 ∙ x2
150450252203015030833322xbxbya 2211
Die Konstante a = 15 entspricht dem Mittelwert des Einkommens fuumlr die Unter-schicht die als Referenzgruppe dient Sind also Mittelschicht und Oberschicht = 0 erhalten wir den Vorhersagewert der Unterschicht der ihrem Mittelwert entspricht
30)yy(30)yy(yya UnterOberUnterMittelGesamtUnter
Referenzgruppe = Unterschicht
bzw
bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz
Ergo a + bj = Mittelwert der Gruppe j
UnterMittel1 yyb
UnterOber2 yyb
)yy(yy UnterMittelUnterMittel
)yy(yy UnterOberUnterOber
Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch
kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression
Unterschied - Erweiterung des einfachen Regressionsmodell
Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1
ei = yi - yrsquoi
yi = b0 + b1 ∙ xi + ei
Streudiagramm Gerade im zweidimensionalen Raum
r2 (Determinationskoeffizient)r2
korr (hier nicht relevant)
r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint
Multiple RegressionYX1 X2 hellip Xn
Stichprobe b0 bzw aStichprobe b1 b2 hellip bj
Grundgesamtheit β0 β1 β2 hellip βj
ei = yi - yrsquoi
yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei
Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar
R2 (Multipler Determinationskoeffizient)R2
korr (hier relevant)
R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)
Standardfehler fuumlr a und bj
F-Test T-Test Konfidenzintervall
Das Streudiagramm - Eine Ebene
yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2
Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird
2ie
In verkuumlrzter Schreibweise bzwXby
i eXby
Matrizennotation der multiplen Regression
In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind
BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem
nnmmnjj2n21n10n
iimmijj2i21i10i
2m2mj2j22221102
1m1mj1j12211101
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
Darstellbar als (Regressionsgleichung der Stichprobe)
mit
y = (n x 1)-Spaltenvektor
X = (n x m)-Beobachtungs- Messwertmatrix
b = (m x 1)-Spaltenvektor der Koeffizienten
e = (m x 1)-Spaltenvektor der Residuen
Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit
eXby
n
i
2
1
m
j
2
1
0
nm
m2
m1
nj1n
j221
j111
n
i
2
1
e
e
e
e
e
b
b
b
b
b
b
x
x
x
xx1
xx1
xx1
X
y
y
y
y
y
eXβy
Was ist eine Matrix
Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
333231
232221
131211
aaa
aaa
aaa
A
Ein Beispiel fuumlr eine Matrix
Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht
bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix
bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet
Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten
Was ist eine Matrix
Ein weiteres Beispiel fuumlr eine Matrix
Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip
Was ist ein Vektor
bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor
bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor
bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo
405
213A
Was ist ein Vektor
Ein Beispiel fuumlr ein Vektor
Zeilenvektor (Matrix der Ordnung 1 x 3)
Spaltenvektor (Matrix der Ordnung 4 x 1)
987a
11
8
5
2
a
Spezielle Matrizen
Quadratische Matrix(zB Korrelationsmatrix)
987
654
321
A
4764
7353
6522
4321
A
Symmetrische Matrix (zB Kovarianzmatrix)
4000
0300
0020
0001
A
Diagonalmatrix daalle Nicht-Diagonalelemente
gleich Null sind
1000
0100
0010
0001
I
Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente
gleich Null sind (zB sieht man oft (I-B-1))
1000
0100
0010
0001
3
3000
0300
0030
0003
A
Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente
gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar
3442
0351
0032
0003
A
Dreiecksmatrix da alle Elemente entweder uumlber (Obere
Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null
sind
Wir kommen zur multiplen Regression zuruumlck
bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)
Xby
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)
Parameter-Matrix
iyy Anmerkung
Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
eXby
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo
Multiplikation von Matrizen
bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht
bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)
A B C
45
45
45
45
1
1
1
8492746
32644442
8734
0682
8216
514
632
(2 x 3) (3 x 4) (2 x 4)
a brsquo C
c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8
c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4
(3 x 1) (1 x 2) (3 x 2)
arsquo B crsquo
1215
75
47
13
111
(1 x 3) (3 x 2) (1 x 2)
c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Die Gleichung der ersten Zeile lautet ausge-schrieben
Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor
31321211101 bxbxbxb1y
A b c
(3 x 4) (4 x 1) (3 x 1)
1
24
26
2
1
2
1
8734
0682
8216
c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1
Addition und Subtraktion von Matrizen
bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B
21
21
45
12
43
22
13
24
23
05
67
01
12
43
22
13
24
23
A B C A B C
(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby
n
i
2
1
0
0
0
0
n
i
2
1
e
e
e
e
b)x(b
b)x(b
b)x(b
b)x(b
y
y
y
y
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
PersonGeschlecht (xi)
original dummysiertMonatl Einkommen
(in 100 Euro) (yi)A 1 0 12B 1 0 24C 2 1 14D 1 0 26E 2 1 18F 1 0 28G 2 1 32H 2 1 16I 1 0 30J 2 1 20
Ein Beispiel X = Geschlecht Y = Einkommen (in 100 Euro)
1 bzw 0 = weiblich (Referenzgruppe) 2 bzw 1 = maumlnnlich
Das Streudiagramm X = Geschlecht
0 = weiblich (Referenzgruppe) 1 = maumlnnlich
1080604020
Geschlecht (dummysiert)
35
30
25
20
15
10
Ein
kom
men
(in
100
Eu
ro)
R-Quadrat linear = 0091
Berechnung von a und b
Person xi yi xi - (xi - )2 yi - (x i - ) middot (y i - )
A 0 12 -05 025 -10 -05 middot (-10) = 5B 0 24 -05 025 2 -05 middot 2 = -1C 1 14 05 025 -8 05 middot (-8) = -4D 0 26 -05 025 4 -05 middot 4 = -2E 1 18 05 025 -4 05 middot (-4) = -2F 0 28 -05 025 6 -05 middot 6 = -3G 1 32 05 025 10 05 middot 10 = 5H 1 16 05 025 -6 05 middot (-6) = -3I 0 30 -05 025 8 -05 middot 8 = -4J 1 20 05 025 -2 05 middot (-2) = -1
sum 5 220 0 250 0 -10
2210220y
y
50015x
x x y x
004502
01
)x(x
)y)(yx(xb
2i
ii
24500)004(22xbya
Interpretation
bull a = Frauen weisen im Durchschnitt ein Einkommen von 2400 (in 100 Euro also 2400 Euro) auf
bull b = Maumlnner hingegen weisen ein niedrigeres Einkommen auf Sie unterschreiten den Mittelwert der Frauen um 400 (in 100 Euro also 400 Euro)
Ergo iii x424xbay
Das Streudiagramm im umgekehrten Fall
1080604020
Geschlecht (dummysiert)
35
30
25
20
15
10
Ein
kom
men
(in
100
Eu
ro)
R-Quadrat linear = 0091
0 = maumlnnlich (Referenzgruppe) 1 = weiblich
Berechnung von a und b
Person xi yi xi - (xi - )2 yi - (x i - ) middot (y i - )
A 1 12 05 025 -10 05 middot (-10) = -5B 1 24 05 025 2 05 middot 2 = 1C 0 14 -05 025 -8 -05 middot (-8) = 4D 1 26 05 025 4 05 middot 4 = 2E 0 18 -05 025 -4 -05 middot (-4) = 2F 1 28 05 025 6 05 middot 6 = 3G 0 32 -05 025 10 -05 middot 10 = -5H 0 16 -05 025 -6 -05 middot (-6) = 3I 1 30 05 025 8 05 middot 8 = 4J 0 20 -05 025 -2 -05 middot (-2) = 1
sum 5 220 0 250 0 10
2210220y
y
50015x
x x y x
004502
01
)x(x
)y)(yx(xb
2i
ii
2050000422xbya
Interpretation
bull a = Maumlnner weisen im Durchschnitt ein Einkommen von 2000 (in 100 Euro also 2000 Euro) auf
bull b = Frauen hingegen weisen ein houmlheres Einkommen auf Sie uumlberschreiten den Mittelwert der Maumlnner um 400 (in 100 Euro also 400 Euro)
Ergo iii x402xbay
Wie sieht das Ganze in SPSS aus
a Abhaumlngige Variable Einkommen (in 100 Euro)
Koeffizienten (a)
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 24000 3162 7589 000 16708 31292 Geschlecht -4000 4472 -302 -894 397 -14313 6313
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 20000 3162 6325 000 12708 27292 Geschlecht 4000 4472 302 894 397 -6313 14313
a Abhaumlngige Variable Einkommen (in 100 Euro)
Referenzgruppe = maumlnnlich
Referenzgruppe = weiblich
Koeffizienten (a)
Wir fassen zusammen
004502
01
)x(x
)y)(yx(xb
2i
ii
24500)004(22xbya
004502
01
)x(x
)y)(yx(xb
2i
ii
2050000422xbya
bull a (Schnittpunkt mit der Y-Achse) = Mittelwert der Referenzgruppe fuumlr Referenzgruppe (Ref) Frau
bull b (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz fuumlr Ref Frau
Ergo a + b = Mittelwert der Gruppe j fuumlr Ref Frau
Referenzgruppe bdquoweiblichldquo Referenzgruppe bdquomaumlnnlichldquo
yrsquoi = 24 - 4 ∙ x yrsquoi = 20 + 4 ∙ x
50)yy(yya FrauMannGesamtFrau
FrauMann yyb
)yy(yy FrauMannFrauMann
Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
bull zB Schichtzugehoumlrigkeit (Unterschicht Mittelschicht Oberschicht) Staatsangehoumlrigkeit (deutsch tuumlrkisch griechisch etc) Familienstand (ledig verheiratet geschieden etc)
bull Loumlsung bdquoKonstruktion von mehreren Dummyvariablenldquo Es werden n - 1 Dummyvariablen zB der Form
Mittelschicht (D2) 0 = nein 1 = jaOberschicht (D3) 0 = nein 1 = ja konstruiert
bull Unterschicht geht nicht in die Analyse ein da diese aus D2 und D3 eindeutig reproduzierbar ist1 Unterschicht ist folglich die Referenzgruppe denn
ndash wenn D2 oder D3 = 1 dann Unterschicht = 0
ndash wenn D2 und D3 = 0 dann Unterschicht = 1
1 Dies gilt ebenfalls fuumlr alle anderen Kategorien (Mittelschicht und Oberschicht) Zumeist wird jene Kategorie als Referenzgruppe ausgewaumlhlt die mit der houmlchsten Haumlufigkeit vertreten ist
Ein Beispiel X = Schichtzugehoumlrigkeit
Kodierung 1 = Unterschicht (D1) 2 = Mittelschicht (D2) 3 = Oberschicht (D3) Unterschicht (D1) geht nicht in die Analyse ein (Referenzgruppe)
PersonSchichtzuge-houmlrigkeit (xi)
original
Schichtzuge-houmlrigkeit (xi)dummysiert
Monatl Einkommen
(in 100 Euro)D1 D2 D3
A 1 1 0 0 12B 2 0 1 0 24C 1 1 0 0 14D 2 0 1 0 26E 1 1 0 0 18F 3 0 0 1 28G 3 0 0 1 32H 1 1 0 0 16I 3 0 0 1 30J 2 0 1 0 20
Wir fassen zusammen
a Abhaumlngige Variable Einkommen (in 100 Euro)
Koeffizienten (a)
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 15000 1291 11619 000 11947 18053 Mittel-
schicht (D2)8333 1972 576 4226 004 3670 12996
Ober-schicht (D3)
15000 1972 1036 7606 000 10337 19663
yrsquoi = 15 + 8333 ∙ x1 + 15 ∙ x2
150450252203015030833322xbxbya 2211
Die Konstante a = 15 entspricht dem Mittelwert des Einkommens fuumlr die Unter-schicht die als Referenzgruppe dient Sind also Mittelschicht und Oberschicht = 0 erhalten wir den Vorhersagewert der Unterschicht der ihrem Mittelwert entspricht
30)yy(30)yy(yya UnterOberUnterMittelGesamtUnter
Referenzgruppe = Unterschicht
bzw
bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz
Ergo a + bj = Mittelwert der Gruppe j
UnterMittel1 yyb
UnterOber2 yyb
)yy(yy UnterMittelUnterMittel
)yy(yy UnterOberUnterOber
Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch
kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression
Unterschied - Erweiterung des einfachen Regressionsmodell
Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1
ei = yi - yrsquoi
yi = b0 + b1 ∙ xi + ei
Streudiagramm Gerade im zweidimensionalen Raum
r2 (Determinationskoeffizient)r2
korr (hier nicht relevant)
r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint
Multiple RegressionYX1 X2 hellip Xn
Stichprobe b0 bzw aStichprobe b1 b2 hellip bj
Grundgesamtheit β0 β1 β2 hellip βj
ei = yi - yrsquoi
yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei
Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar
R2 (Multipler Determinationskoeffizient)R2
korr (hier relevant)
R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)
Standardfehler fuumlr a und bj
F-Test T-Test Konfidenzintervall
Das Streudiagramm - Eine Ebene
yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2
Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird
2ie
In verkuumlrzter Schreibweise bzwXby
i eXby
Matrizennotation der multiplen Regression
In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind
BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem
nnmmnjj2n21n10n
iimmijj2i21i10i
2m2mj2j22221102
1m1mj1j12211101
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
Darstellbar als (Regressionsgleichung der Stichprobe)
mit
y = (n x 1)-Spaltenvektor
X = (n x m)-Beobachtungs- Messwertmatrix
b = (m x 1)-Spaltenvektor der Koeffizienten
e = (m x 1)-Spaltenvektor der Residuen
Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit
eXby
n
i
2
1
m
j
2
1
0
nm
m2
m1
nj1n
j221
j111
n
i
2
1
e
e
e
e
e
b
b
b
b
b
b
x
x
x
xx1
xx1
xx1
X
y
y
y
y
y
eXβy
Was ist eine Matrix
Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
333231
232221
131211
aaa
aaa
aaa
A
Ein Beispiel fuumlr eine Matrix
Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht
bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix
bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet
Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten
Was ist eine Matrix
Ein weiteres Beispiel fuumlr eine Matrix
Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip
Was ist ein Vektor
bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor
bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor
bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo
405
213A
Was ist ein Vektor
Ein Beispiel fuumlr ein Vektor
Zeilenvektor (Matrix der Ordnung 1 x 3)
Spaltenvektor (Matrix der Ordnung 4 x 1)
987a
11
8
5
2
a
Spezielle Matrizen
Quadratische Matrix(zB Korrelationsmatrix)
987
654
321
A
4764
7353
6522
4321
A
Symmetrische Matrix (zB Kovarianzmatrix)
4000
0300
0020
0001
A
Diagonalmatrix daalle Nicht-Diagonalelemente
gleich Null sind
1000
0100
0010
0001
I
Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente
gleich Null sind (zB sieht man oft (I-B-1))
1000
0100
0010
0001
3
3000
0300
0030
0003
A
Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente
gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar
3442
0351
0032
0003
A
Dreiecksmatrix da alle Elemente entweder uumlber (Obere
Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null
sind
Wir kommen zur multiplen Regression zuruumlck
bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)
Xby
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)
Parameter-Matrix
iyy Anmerkung
Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
eXby
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo
Multiplikation von Matrizen
bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht
bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)
A B C
45
45
45
45
1
1
1
8492746
32644442
8734
0682
8216
514
632
(2 x 3) (3 x 4) (2 x 4)
a brsquo C
c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8
c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4
(3 x 1) (1 x 2) (3 x 2)
arsquo B crsquo
1215
75
47
13
111
(1 x 3) (3 x 2) (1 x 2)
c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Die Gleichung der ersten Zeile lautet ausge-schrieben
Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor
31321211101 bxbxbxb1y
A b c
(3 x 4) (4 x 1) (3 x 1)
1
24
26
2
1
2
1
8734
0682
8216
c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1
Addition und Subtraktion von Matrizen
bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B
21
21
45
12
43
22
13
24
23
05
67
01
12
43
22
13
24
23
A B C A B C
(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby
n
i
2
1
0
0
0
0
n
i
2
1
e
e
e
e
b)x(b
b)x(b
b)x(b
b)x(b
y
y
y
y
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Das Streudiagramm X = Geschlecht
0 = weiblich (Referenzgruppe) 1 = maumlnnlich
1080604020
Geschlecht (dummysiert)
35
30
25
20
15
10
Ein
kom
men
(in
100
Eu
ro)
R-Quadrat linear = 0091
Berechnung von a und b
Person xi yi xi - (xi - )2 yi - (x i - ) middot (y i - )
A 0 12 -05 025 -10 -05 middot (-10) = 5B 0 24 -05 025 2 -05 middot 2 = -1C 1 14 05 025 -8 05 middot (-8) = -4D 0 26 -05 025 4 -05 middot 4 = -2E 1 18 05 025 -4 05 middot (-4) = -2F 0 28 -05 025 6 -05 middot 6 = -3G 1 32 05 025 10 05 middot 10 = 5H 1 16 05 025 -6 05 middot (-6) = -3I 0 30 -05 025 8 -05 middot 8 = -4J 1 20 05 025 -2 05 middot (-2) = -1
sum 5 220 0 250 0 -10
2210220y
y
50015x
x x y x
004502
01
)x(x
)y)(yx(xb
2i
ii
24500)004(22xbya
Interpretation
bull a = Frauen weisen im Durchschnitt ein Einkommen von 2400 (in 100 Euro also 2400 Euro) auf
bull b = Maumlnner hingegen weisen ein niedrigeres Einkommen auf Sie unterschreiten den Mittelwert der Frauen um 400 (in 100 Euro also 400 Euro)
Ergo iii x424xbay
Das Streudiagramm im umgekehrten Fall
1080604020
Geschlecht (dummysiert)
35
30
25
20
15
10
Ein
kom
men
(in
100
Eu
ro)
R-Quadrat linear = 0091
0 = maumlnnlich (Referenzgruppe) 1 = weiblich
Berechnung von a und b
Person xi yi xi - (xi - )2 yi - (x i - ) middot (y i - )
A 1 12 05 025 -10 05 middot (-10) = -5B 1 24 05 025 2 05 middot 2 = 1C 0 14 -05 025 -8 -05 middot (-8) = 4D 1 26 05 025 4 05 middot 4 = 2E 0 18 -05 025 -4 -05 middot (-4) = 2F 1 28 05 025 6 05 middot 6 = 3G 0 32 -05 025 10 -05 middot 10 = -5H 0 16 -05 025 -6 -05 middot (-6) = 3I 1 30 05 025 8 05 middot 8 = 4J 0 20 -05 025 -2 -05 middot (-2) = 1
sum 5 220 0 250 0 10
2210220y
y
50015x
x x y x
004502
01
)x(x
)y)(yx(xb
2i
ii
2050000422xbya
Interpretation
bull a = Maumlnner weisen im Durchschnitt ein Einkommen von 2000 (in 100 Euro also 2000 Euro) auf
bull b = Frauen hingegen weisen ein houmlheres Einkommen auf Sie uumlberschreiten den Mittelwert der Maumlnner um 400 (in 100 Euro also 400 Euro)
Ergo iii x402xbay
Wie sieht das Ganze in SPSS aus
a Abhaumlngige Variable Einkommen (in 100 Euro)
Koeffizienten (a)
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 24000 3162 7589 000 16708 31292 Geschlecht -4000 4472 -302 -894 397 -14313 6313
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 20000 3162 6325 000 12708 27292 Geschlecht 4000 4472 302 894 397 -6313 14313
a Abhaumlngige Variable Einkommen (in 100 Euro)
Referenzgruppe = maumlnnlich
Referenzgruppe = weiblich
Koeffizienten (a)
Wir fassen zusammen
004502
01
)x(x
)y)(yx(xb
2i
ii
24500)004(22xbya
004502
01
)x(x
)y)(yx(xb
2i
ii
2050000422xbya
bull a (Schnittpunkt mit der Y-Achse) = Mittelwert der Referenzgruppe fuumlr Referenzgruppe (Ref) Frau
bull b (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz fuumlr Ref Frau
Ergo a + b = Mittelwert der Gruppe j fuumlr Ref Frau
Referenzgruppe bdquoweiblichldquo Referenzgruppe bdquomaumlnnlichldquo
yrsquoi = 24 - 4 ∙ x yrsquoi = 20 + 4 ∙ x
50)yy(yya FrauMannGesamtFrau
FrauMann yyb
)yy(yy FrauMannFrauMann
Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
bull zB Schichtzugehoumlrigkeit (Unterschicht Mittelschicht Oberschicht) Staatsangehoumlrigkeit (deutsch tuumlrkisch griechisch etc) Familienstand (ledig verheiratet geschieden etc)
bull Loumlsung bdquoKonstruktion von mehreren Dummyvariablenldquo Es werden n - 1 Dummyvariablen zB der Form
Mittelschicht (D2) 0 = nein 1 = jaOberschicht (D3) 0 = nein 1 = ja konstruiert
bull Unterschicht geht nicht in die Analyse ein da diese aus D2 und D3 eindeutig reproduzierbar ist1 Unterschicht ist folglich die Referenzgruppe denn
ndash wenn D2 oder D3 = 1 dann Unterschicht = 0
ndash wenn D2 und D3 = 0 dann Unterschicht = 1
1 Dies gilt ebenfalls fuumlr alle anderen Kategorien (Mittelschicht und Oberschicht) Zumeist wird jene Kategorie als Referenzgruppe ausgewaumlhlt die mit der houmlchsten Haumlufigkeit vertreten ist
Ein Beispiel X = Schichtzugehoumlrigkeit
Kodierung 1 = Unterschicht (D1) 2 = Mittelschicht (D2) 3 = Oberschicht (D3) Unterschicht (D1) geht nicht in die Analyse ein (Referenzgruppe)
PersonSchichtzuge-houmlrigkeit (xi)
original
Schichtzuge-houmlrigkeit (xi)dummysiert
Monatl Einkommen
(in 100 Euro)D1 D2 D3
A 1 1 0 0 12B 2 0 1 0 24C 1 1 0 0 14D 2 0 1 0 26E 1 1 0 0 18F 3 0 0 1 28G 3 0 0 1 32H 1 1 0 0 16I 3 0 0 1 30J 2 0 1 0 20
Wir fassen zusammen
a Abhaumlngige Variable Einkommen (in 100 Euro)
Koeffizienten (a)
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 15000 1291 11619 000 11947 18053 Mittel-
schicht (D2)8333 1972 576 4226 004 3670 12996
Ober-schicht (D3)
15000 1972 1036 7606 000 10337 19663
yrsquoi = 15 + 8333 ∙ x1 + 15 ∙ x2
150450252203015030833322xbxbya 2211
Die Konstante a = 15 entspricht dem Mittelwert des Einkommens fuumlr die Unter-schicht die als Referenzgruppe dient Sind also Mittelschicht und Oberschicht = 0 erhalten wir den Vorhersagewert der Unterschicht der ihrem Mittelwert entspricht
30)yy(30)yy(yya UnterOberUnterMittelGesamtUnter
Referenzgruppe = Unterschicht
bzw
bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz
Ergo a + bj = Mittelwert der Gruppe j
UnterMittel1 yyb
UnterOber2 yyb
)yy(yy UnterMittelUnterMittel
)yy(yy UnterOberUnterOber
Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch
kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression
Unterschied - Erweiterung des einfachen Regressionsmodell
Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1
ei = yi - yrsquoi
yi = b0 + b1 ∙ xi + ei
Streudiagramm Gerade im zweidimensionalen Raum
r2 (Determinationskoeffizient)r2
korr (hier nicht relevant)
r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint
Multiple RegressionYX1 X2 hellip Xn
Stichprobe b0 bzw aStichprobe b1 b2 hellip bj
Grundgesamtheit β0 β1 β2 hellip βj
ei = yi - yrsquoi
yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei
Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar
R2 (Multipler Determinationskoeffizient)R2
korr (hier relevant)
R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)
Standardfehler fuumlr a und bj
F-Test T-Test Konfidenzintervall
Das Streudiagramm - Eine Ebene
yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2
Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird
2ie
In verkuumlrzter Schreibweise bzwXby
i eXby
Matrizennotation der multiplen Regression
In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind
BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem
nnmmnjj2n21n10n
iimmijj2i21i10i
2m2mj2j22221102
1m1mj1j12211101
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
Darstellbar als (Regressionsgleichung der Stichprobe)
mit
y = (n x 1)-Spaltenvektor
X = (n x m)-Beobachtungs- Messwertmatrix
b = (m x 1)-Spaltenvektor der Koeffizienten
e = (m x 1)-Spaltenvektor der Residuen
Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit
eXby
n
i
2
1
m
j
2
1
0
nm
m2
m1
nj1n
j221
j111
n
i
2
1
e
e
e
e
e
b
b
b
b
b
b
x
x
x
xx1
xx1
xx1
X
y
y
y
y
y
eXβy
Was ist eine Matrix
Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
333231
232221
131211
aaa
aaa
aaa
A
Ein Beispiel fuumlr eine Matrix
Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht
bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix
bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet
Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten
Was ist eine Matrix
Ein weiteres Beispiel fuumlr eine Matrix
Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip
Was ist ein Vektor
bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor
bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor
bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo
405
213A
Was ist ein Vektor
Ein Beispiel fuumlr ein Vektor
Zeilenvektor (Matrix der Ordnung 1 x 3)
Spaltenvektor (Matrix der Ordnung 4 x 1)
987a
11
8
5
2
a
Spezielle Matrizen
Quadratische Matrix(zB Korrelationsmatrix)
987
654
321
A
4764
7353
6522
4321
A
Symmetrische Matrix (zB Kovarianzmatrix)
4000
0300
0020
0001
A
Diagonalmatrix daalle Nicht-Diagonalelemente
gleich Null sind
1000
0100
0010
0001
I
Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente
gleich Null sind (zB sieht man oft (I-B-1))
1000
0100
0010
0001
3
3000
0300
0030
0003
A
Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente
gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar
3442
0351
0032
0003
A
Dreiecksmatrix da alle Elemente entweder uumlber (Obere
Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null
sind
Wir kommen zur multiplen Regression zuruumlck
bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)
Xby
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)
Parameter-Matrix
iyy Anmerkung
Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
eXby
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo
Multiplikation von Matrizen
bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht
bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)
A B C
45
45
45
45
1
1
1
8492746
32644442
8734
0682
8216
514
632
(2 x 3) (3 x 4) (2 x 4)
a brsquo C
c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8
c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4
(3 x 1) (1 x 2) (3 x 2)
arsquo B crsquo
1215
75
47
13
111
(1 x 3) (3 x 2) (1 x 2)
c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Die Gleichung der ersten Zeile lautet ausge-schrieben
Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor
31321211101 bxbxbxb1y
A b c
(3 x 4) (4 x 1) (3 x 1)
1
24
26
2
1
2
1
8734
0682
8216
c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1
Addition und Subtraktion von Matrizen
bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B
21
21
45
12
43
22
13
24
23
05
67
01
12
43
22
13
24
23
A B C A B C
(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby
n
i
2
1
0
0
0
0
n
i
2
1
e
e
e
e
b)x(b
b)x(b
b)x(b
b)x(b
y
y
y
y
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Berechnung von a und b
Person xi yi xi - (xi - )2 yi - (x i - ) middot (y i - )
A 0 12 -05 025 -10 -05 middot (-10) = 5B 0 24 -05 025 2 -05 middot 2 = -1C 1 14 05 025 -8 05 middot (-8) = -4D 0 26 -05 025 4 -05 middot 4 = -2E 1 18 05 025 -4 05 middot (-4) = -2F 0 28 -05 025 6 -05 middot 6 = -3G 1 32 05 025 10 05 middot 10 = 5H 1 16 05 025 -6 05 middot (-6) = -3I 0 30 -05 025 8 -05 middot 8 = -4J 1 20 05 025 -2 05 middot (-2) = -1
sum 5 220 0 250 0 -10
2210220y
y
50015x
x x y x
004502
01
)x(x
)y)(yx(xb
2i
ii
24500)004(22xbya
Interpretation
bull a = Frauen weisen im Durchschnitt ein Einkommen von 2400 (in 100 Euro also 2400 Euro) auf
bull b = Maumlnner hingegen weisen ein niedrigeres Einkommen auf Sie unterschreiten den Mittelwert der Frauen um 400 (in 100 Euro also 400 Euro)
Ergo iii x424xbay
Das Streudiagramm im umgekehrten Fall
1080604020
Geschlecht (dummysiert)
35
30
25
20
15
10
Ein
kom
men
(in
100
Eu
ro)
R-Quadrat linear = 0091
0 = maumlnnlich (Referenzgruppe) 1 = weiblich
Berechnung von a und b
Person xi yi xi - (xi - )2 yi - (x i - ) middot (y i - )
A 1 12 05 025 -10 05 middot (-10) = -5B 1 24 05 025 2 05 middot 2 = 1C 0 14 -05 025 -8 -05 middot (-8) = 4D 1 26 05 025 4 05 middot 4 = 2E 0 18 -05 025 -4 -05 middot (-4) = 2F 1 28 05 025 6 05 middot 6 = 3G 0 32 -05 025 10 -05 middot 10 = -5H 0 16 -05 025 -6 -05 middot (-6) = 3I 1 30 05 025 8 05 middot 8 = 4J 0 20 -05 025 -2 -05 middot (-2) = 1
sum 5 220 0 250 0 10
2210220y
y
50015x
x x y x
004502
01
)x(x
)y)(yx(xb
2i
ii
2050000422xbya
Interpretation
bull a = Maumlnner weisen im Durchschnitt ein Einkommen von 2000 (in 100 Euro also 2000 Euro) auf
bull b = Frauen hingegen weisen ein houmlheres Einkommen auf Sie uumlberschreiten den Mittelwert der Maumlnner um 400 (in 100 Euro also 400 Euro)
Ergo iii x402xbay
Wie sieht das Ganze in SPSS aus
a Abhaumlngige Variable Einkommen (in 100 Euro)
Koeffizienten (a)
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 24000 3162 7589 000 16708 31292 Geschlecht -4000 4472 -302 -894 397 -14313 6313
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 20000 3162 6325 000 12708 27292 Geschlecht 4000 4472 302 894 397 -6313 14313
a Abhaumlngige Variable Einkommen (in 100 Euro)
Referenzgruppe = maumlnnlich
Referenzgruppe = weiblich
Koeffizienten (a)
Wir fassen zusammen
004502
01
)x(x
)y)(yx(xb
2i
ii
24500)004(22xbya
004502
01
)x(x
)y)(yx(xb
2i
ii
2050000422xbya
bull a (Schnittpunkt mit der Y-Achse) = Mittelwert der Referenzgruppe fuumlr Referenzgruppe (Ref) Frau
bull b (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz fuumlr Ref Frau
Ergo a + b = Mittelwert der Gruppe j fuumlr Ref Frau
Referenzgruppe bdquoweiblichldquo Referenzgruppe bdquomaumlnnlichldquo
yrsquoi = 24 - 4 ∙ x yrsquoi = 20 + 4 ∙ x
50)yy(yya FrauMannGesamtFrau
FrauMann yyb
)yy(yy FrauMannFrauMann
Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
bull zB Schichtzugehoumlrigkeit (Unterschicht Mittelschicht Oberschicht) Staatsangehoumlrigkeit (deutsch tuumlrkisch griechisch etc) Familienstand (ledig verheiratet geschieden etc)
bull Loumlsung bdquoKonstruktion von mehreren Dummyvariablenldquo Es werden n - 1 Dummyvariablen zB der Form
Mittelschicht (D2) 0 = nein 1 = jaOberschicht (D3) 0 = nein 1 = ja konstruiert
bull Unterschicht geht nicht in die Analyse ein da diese aus D2 und D3 eindeutig reproduzierbar ist1 Unterschicht ist folglich die Referenzgruppe denn
ndash wenn D2 oder D3 = 1 dann Unterschicht = 0
ndash wenn D2 und D3 = 0 dann Unterschicht = 1
1 Dies gilt ebenfalls fuumlr alle anderen Kategorien (Mittelschicht und Oberschicht) Zumeist wird jene Kategorie als Referenzgruppe ausgewaumlhlt die mit der houmlchsten Haumlufigkeit vertreten ist
Ein Beispiel X = Schichtzugehoumlrigkeit
Kodierung 1 = Unterschicht (D1) 2 = Mittelschicht (D2) 3 = Oberschicht (D3) Unterschicht (D1) geht nicht in die Analyse ein (Referenzgruppe)
PersonSchichtzuge-houmlrigkeit (xi)
original
Schichtzuge-houmlrigkeit (xi)dummysiert
Monatl Einkommen
(in 100 Euro)D1 D2 D3
A 1 1 0 0 12B 2 0 1 0 24C 1 1 0 0 14D 2 0 1 0 26E 1 1 0 0 18F 3 0 0 1 28G 3 0 0 1 32H 1 1 0 0 16I 3 0 0 1 30J 2 0 1 0 20
Wir fassen zusammen
a Abhaumlngige Variable Einkommen (in 100 Euro)
Koeffizienten (a)
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 15000 1291 11619 000 11947 18053 Mittel-
schicht (D2)8333 1972 576 4226 004 3670 12996
Ober-schicht (D3)
15000 1972 1036 7606 000 10337 19663
yrsquoi = 15 + 8333 ∙ x1 + 15 ∙ x2
150450252203015030833322xbxbya 2211
Die Konstante a = 15 entspricht dem Mittelwert des Einkommens fuumlr die Unter-schicht die als Referenzgruppe dient Sind also Mittelschicht und Oberschicht = 0 erhalten wir den Vorhersagewert der Unterschicht der ihrem Mittelwert entspricht
30)yy(30)yy(yya UnterOberUnterMittelGesamtUnter
Referenzgruppe = Unterschicht
bzw
bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz
Ergo a + bj = Mittelwert der Gruppe j
UnterMittel1 yyb
UnterOber2 yyb
)yy(yy UnterMittelUnterMittel
)yy(yy UnterOberUnterOber
Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch
kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression
Unterschied - Erweiterung des einfachen Regressionsmodell
Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1
ei = yi - yrsquoi
yi = b0 + b1 ∙ xi + ei
Streudiagramm Gerade im zweidimensionalen Raum
r2 (Determinationskoeffizient)r2
korr (hier nicht relevant)
r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint
Multiple RegressionYX1 X2 hellip Xn
Stichprobe b0 bzw aStichprobe b1 b2 hellip bj
Grundgesamtheit β0 β1 β2 hellip βj
ei = yi - yrsquoi
yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei
Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar
R2 (Multipler Determinationskoeffizient)R2
korr (hier relevant)
R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)
Standardfehler fuumlr a und bj
F-Test T-Test Konfidenzintervall
Das Streudiagramm - Eine Ebene
yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2
Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird
2ie
In verkuumlrzter Schreibweise bzwXby
i eXby
Matrizennotation der multiplen Regression
In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind
BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem
nnmmnjj2n21n10n
iimmijj2i21i10i
2m2mj2j22221102
1m1mj1j12211101
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
Darstellbar als (Regressionsgleichung der Stichprobe)
mit
y = (n x 1)-Spaltenvektor
X = (n x m)-Beobachtungs- Messwertmatrix
b = (m x 1)-Spaltenvektor der Koeffizienten
e = (m x 1)-Spaltenvektor der Residuen
Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit
eXby
n
i
2
1
m
j
2
1
0
nm
m2
m1
nj1n
j221
j111
n
i
2
1
e
e
e
e
e
b
b
b
b
b
b
x
x
x
xx1
xx1
xx1
X
y
y
y
y
y
eXβy
Was ist eine Matrix
Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
333231
232221
131211
aaa
aaa
aaa
A
Ein Beispiel fuumlr eine Matrix
Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht
bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix
bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet
Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten
Was ist eine Matrix
Ein weiteres Beispiel fuumlr eine Matrix
Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip
Was ist ein Vektor
bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor
bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor
bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo
405
213A
Was ist ein Vektor
Ein Beispiel fuumlr ein Vektor
Zeilenvektor (Matrix der Ordnung 1 x 3)
Spaltenvektor (Matrix der Ordnung 4 x 1)
987a
11
8
5
2
a
Spezielle Matrizen
Quadratische Matrix(zB Korrelationsmatrix)
987
654
321
A
4764
7353
6522
4321
A
Symmetrische Matrix (zB Kovarianzmatrix)
4000
0300
0020
0001
A
Diagonalmatrix daalle Nicht-Diagonalelemente
gleich Null sind
1000
0100
0010
0001
I
Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente
gleich Null sind (zB sieht man oft (I-B-1))
1000
0100
0010
0001
3
3000
0300
0030
0003
A
Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente
gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar
3442
0351
0032
0003
A
Dreiecksmatrix da alle Elemente entweder uumlber (Obere
Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null
sind
Wir kommen zur multiplen Regression zuruumlck
bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)
Xby
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)
Parameter-Matrix
iyy Anmerkung
Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
eXby
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo
Multiplikation von Matrizen
bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht
bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)
A B C
45
45
45
45
1
1
1
8492746
32644442
8734
0682
8216
514
632
(2 x 3) (3 x 4) (2 x 4)
a brsquo C
c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8
c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4
(3 x 1) (1 x 2) (3 x 2)
arsquo B crsquo
1215
75
47
13
111
(1 x 3) (3 x 2) (1 x 2)
c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Die Gleichung der ersten Zeile lautet ausge-schrieben
Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor
31321211101 bxbxbxb1y
A b c
(3 x 4) (4 x 1) (3 x 1)
1
24
26
2
1
2
1
8734
0682
8216
c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1
Addition und Subtraktion von Matrizen
bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B
21
21
45
12
43
22
13
24
23
05
67
01
12
43
22
13
24
23
A B C A B C
(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby
n
i
2
1
0
0
0
0
n
i
2
1
e
e
e
e
b)x(b
b)x(b
b)x(b
b)x(b
y
y
y
y
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Interpretation
bull a = Frauen weisen im Durchschnitt ein Einkommen von 2400 (in 100 Euro also 2400 Euro) auf
bull b = Maumlnner hingegen weisen ein niedrigeres Einkommen auf Sie unterschreiten den Mittelwert der Frauen um 400 (in 100 Euro also 400 Euro)
Ergo iii x424xbay
Das Streudiagramm im umgekehrten Fall
1080604020
Geschlecht (dummysiert)
35
30
25
20
15
10
Ein
kom
men
(in
100
Eu
ro)
R-Quadrat linear = 0091
0 = maumlnnlich (Referenzgruppe) 1 = weiblich
Berechnung von a und b
Person xi yi xi - (xi - )2 yi - (x i - ) middot (y i - )
A 1 12 05 025 -10 05 middot (-10) = -5B 1 24 05 025 2 05 middot 2 = 1C 0 14 -05 025 -8 -05 middot (-8) = 4D 1 26 05 025 4 05 middot 4 = 2E 0 18 -05 025 -4 -05 middot (-4) = 2F 1 28 05 025 6 05 middot 6 = 3G 0 32 -05 025 10 -05 middot 10 = -5H 0 16 -05 025 -6 -05 middot (-6) = 3I 1 30 05 025 8 05 middot 8 = 4J 0 20 -05 025 -2 -05 middot (-2) = 1
sum 5 220 0 250 0 10
2210220y
y
50015x
x x y x
004502
01
)x(x
)y)(yx(xb
2i
ii
2050000422xbya
Interpretation
bull a = Maumlnner weisen im Durchschnitt ein Einkommen von 2000 (in 100 Euro also 2000 Euro) auf
bull b = Frauen hingegen weisen ein houmlheres Einkommen auf Sie uumlberschreiten den Mittelwert der Maumlnner um 400 (in 100 Euro also 400 Euro)
Ergo iii x402xbay
Wie sieht das Ganze in SPSS aus
a Abhaumlngige Variable Einkommen (in 100 Euro)
Koeffizienten (a)
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 24000 3162 7589 000 16708 31292 Geschlecht -4000 4472 -302 -894 397 -14313 6313
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 20000 3162 6325 000 12708 27292 Geschlecht 4000 4472 302 894 397 -6313 14313
a Abhaumlngige Variable Einkommen (in 100 Euro)
Referenzgruppe = maumlnnlich
Referenzgruppe = weiblich
Koeffizienten (a)
Wir fassen zusammen
004502
01
)x(x
)y)(yx(xb
2i
ii
24500)004(22xbya
004502
01
)x(x
)y)(yx(xb
2i
ii
2050000422xbya
bull a (Schnittpunkt mit der Y-Achse) = Mittelwert der Referenzgruppe fuumlr Referenzgruppe (Ref) Frau
bull b (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz fuumlr Ref Frau
Ergo a + b = Mittelwert der Gruppe j fuumlr Ref Frau
Referenzgruppe bdquoweiblichldquo Referenzgruppe bdquomaumlnnlichldquo
yrsquoi = 24 - 4 ∙ x yrsquoi = 20 + 4 ∙ x
50)yy(yya FrauMannGesamtFrau
FrauMann yyb
)yy(yy FrauMannFrauMann
Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
bull zB Schichtzugehoumlrigkeit (Unterschicht Mittelschicht Oberschicht) Staatsangehoumlrigkeit (deutsch tuumlrkisch griechisch etc) Familienstand (ledig verheiratet geschieden etc)
bull Loumlsung bdquoKonstruktion von mehreren Dummyvariablenldquo Es werden n - 1 Dummyvariablen zB der Form
Mittelschicht (D2) 0 = nein 1 = jaOberschicht (D3) 0 = nein 1 = ja konstruiert
bull Unterschicht geht nicht in die Analyse ein da diese aus D2 und D3 eindeutig reproduzierbar ist1 Unterschicht ist folglich die Referenzgruppe denn
ndash wenn D2 oder D3 = 1 dann Unterschicht = 0
ndash wenn D2 und D3 = 0 dann Unterschicht = 1
1 Dies gilt ebenfalls fuumlr alle anderen Kategorien (Mittelschicht und Oberschicht) Zumeist wird jene Kategorie als Referenzgruppe ausgewaumlhlt die mit der houmlchsten Haumlufigkeit vertreten ist
Ein Beispiel X = Schichtzugehoumlrigkeit
Kodierung 1 = Unterschicht (D1) 2 = Mittelschicht (D2) 3 = Oberschicht (D3) Unterschicht (D1) geht nicht in die Analyse ein (Referenzgruppe)
PersonSchichtzuge-houmlrigkeit (xi)
original
Schichtzuge-houmlrigkeit (xi)dummysiert
Monatl Einkommen
(in 100 Euro)D1 D2 D3
A 1 1 0 0 12B 2 0 1 0 24C 1 1 0 0 14D 2 0 1 0 26E 1 1 0 0 18F 3 0 0 1 28G 3 0 0 1 32H 1 1 0 0 16I 3 0 0 1 30J 2 0 1 0 20
Wir fassen zusammen
a Abhaumlngige Variable Einkommen (in 100 Euro)
Koeffizienten (a)
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 15000 1291 11619 000 11947 18053 Mittel-
schicht (D2)8333 1972 576 4226 004 3670 12996
Ober-schicht (D3)
15000 1972 1036 7606 000 10337 19663
yrsquoi = 15 + 8333 ∙ x1 + 15 ∙ x2
150450252203015030833322xbxbya 2211
Die Konstante a = 15 entspricht dem Mittelwert des Einkommens fuumlr die Unter-schicht die als Referenzgruppe dient Sind also Mittelschicht und Oberschicht = 0 erhalten wir den Vorhersagewert der Unterschicht der ihrem Mittelwert entspricht
30)yy(30)yy(yya UnterOberUnterMittelGesamtUnter
Referenzgruppe = Unterschicht
bzw
bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz
Ergo a + bj = Mittelwert der Gruppe j
UnterMittel1 yyb
UnterOber2 yyb
)yy(yy UnterMittelUnterMittel
)yy(yy UnterOberUnterOber
Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch
kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression
Unterschied - Erweiterung des einfachen Regressionsmodell
Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1
ei = yi - yrsquoi
yi = b0 + b1 ∙ xi + ei
Streudiagramm Gerade im zweidimensionalen Raum
r2 (Determinationskoeffizient)r2
korr (hier nicht relevant)
r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint
Multiple RegressionYX1 X2 hellip Xn
Stichprobe b0 bzw aStichprobe b1 b2 hellip bj
Grundgesamtheit β0 β1 β2 hellip βj
ei = yi - yrsquoi
yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei
Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar
R2 (Multipler Determinationskoeffizient)R2
korr (hier relevant)
R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)
Standardfehler fuumlr a und bj
F-Test T-Test Konfidenzintervall
Das Streudiagramm - Eine Ebene
yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2
Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird
2ie
In verkuumlrzter Schreibweise bzwXby
i eXby
Matrizennotation der multiplen Regression
In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind
BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem
nnmmnjj2n21n10n
iimmijj2i21i10i
2m2mj2j22221102
1m1mj1j12211101
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
Darstellbar als (Regressionsgleichung der Stichprobe)
mit
y = (n x 1)-Spaltenvektor
X = (n x m)-Beobachtungs- Messwertmatrix
b = (m x 1)-Spaltenvektor der Koeffizienten
e = (m x 1)-Spaltenvektor der Residuen
Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit
eXby
n
i
2
1
m
j
2
1
0
nm
m2
m1
nj1n
j221
j111
n
i
2
1
e
e
e
e
e
b
b
b
b
b
b
x
x
x
xx1
xx1
xx1
X
y
y
y
y
y
eXβy
Was ist eine Matrix
Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
333231
232221
131211
aaa
aaa
aaa
A
Ein Beispiel fuumlr eine Matrix
Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht
bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix
bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet
Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten
Was ist eine Matrix
Ein weiteres Beispiel fuumlr eine Matrix
Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip
Was ist ein Vektor
bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor
bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor
bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo
405
213A
Was ist ein Vektor
Ein Beispiel fuumlr ein Vektor
Zeilenvektor (Matrix der Ordnung 1 x 3)
Spaltenvektor (Matrix der Ordnung 4 x 1)
987a
11
8
5
2
a
Spezielle Matrizen
Quadratische Matrix(zB Korrelationsmatrix)
987
654
321
A
4764
7353
6522
4321
A
Symmetrische Matrix (zB Kovarianzmatrix)
4000
0300
0020
0001
A
Diagonalmatrix daalle Nicht-Diagonalelemente
gleich Null sind
1000
0100
0010
0001
I
Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente
gleich Null sind (zB sieht man oft (I-B-1))
1000
0100
0010
0001
3
3000
0300
0030
0003
A
Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente
gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar
3442
0351
0032
0003
A
Dreiecksmatrix da alle Elemente entweder uumlber (Obere
Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null
sind
Wir kommen zur multiplen Regression zuruumlck
bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)
Xby
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)
Parameter-Matrix
iyy Anmerkung
Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
eXby
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo
Multiplikation von Matrizen
bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht
bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)
A B C
45
45
45
45
1
1
1
8492746
32644442
8734
0682
8216
514
632
(2 x 3) (3 x 4) (2 x 4)
a brsquo C
c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8
c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4
(3 x 1) (1 x 2) (3 x 2)
arsquo B crsquo
1215
75
47
13
111
(1 x 3) (3 x 2) (1 x 2)
c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Die Gleichung der ersten Zeile lautet ausge-schrieben
Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor
31321211101 bxbxbxb1y
A b c
(3 x 4) (4 x 1) (3 x 1)
1
24
26
2
1
2
1
8734
0682
8216
c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1
Addition und Subtraktion von Matrizen
bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B
21
21
45
12
43
22
13
24
23
05
67
01
12
43
22
13
24
23
A B C A B C
(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby
n
i
2
1
0
0
0
0
n
i
2
1
e
e
e
e
b)x(b
b)x(b
b)x(b
b)x(b
y
y
y
y
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Das Streudiagramm im umgekehrten Fall
1080604020
Geschlecht (dummysiert)
35
30
25
20
15
10
Ein
kom
men
(in
100
Eu
ro)
R-Quadrat linear = 0091
0 = maumlnnlich (Referenzgruppe) 1 = weiblich
Berechnung von a und b
Person xi yi xi - (xi - )2 yi - (x i - ) middot (y i - )
A 1 12 05 025 -10 05 middot (-10) = -5B 1 24 05 025 2 05 middot 2 = 1C 0 14 -05 025 -8 -05 middot (-8) = 4D 1 26 05 025 4 05 middot 4 = 2E 0 18 -05 025 -4 -05 middot (-4) = 2F 1 28 05 025 6 05 middot 6 = 3G 0 32 -05 025 10 -05 middot 10 = -5H 0 16 -05 025 -6 -05 middot (-6) = 3I 1 30 05 025 8 05 middot 8 = 4J 0 20 -05 025 -2 -05 middot (-2) = 1
sum 5 220 0 250 0 10
2210220y
y
50015x
x x y x
004502
01
)x(x
)y)(yx(xb
2i
ii
2050000422xbya
Interpretation
bull a = Maumlnner weisen im Durchschnitt ein Einkommen von 2000 (in 100 Euro also 2000 Euro) auf
bull b = Frauen hingegen weisen ein houmlheres Einkommen auf Sie uumlberschreiten den Mittelwert der Maumlnner um 400 (in 100 Euro also 400 Euro)
Ergo iii x402xbay
Wie sieht das Ganze in SPSS aus
a Abhaumlngige Variable Einkommen (in 100 Euro)
Koeffizienten (a)
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 24000 3162 7589 000 16708 31292 Geschlecht -4000 4472 -302 -894 397 -14313 6313
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 20000 3162 6325 000 12708 27292 Geschlecht 4000 4472 302 894 397 -6313 14313
a Abhaumlngige Variable Einkommen (in 100 Euro)
Referenzgruppe = maumlnnlich
Referenzgruppe = weiblich
Koeffizienten (a)
Wir fassen zusammen
004502
01
)x(x
)y)(yx(xb
2i
ii
24500)004(22xbya
004502
01
)x(x
)y)(yx(xb
2i
ii
2050000422xbya
bull a (Schnittpunkt mit der Y-Achse) = Mittelwert der Referenzgruppe fuumlr Referenzgruppe (Ref) Frau
bull b (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz fuumlr Ref Frau
Ergo a + b = Mittelwert der Gruppe j fuumlr Ref Frau
Referenzgruppe bdquoweiblichldquo Referenzgruppe bdquomaumlnnlichldquo
yrsquoi = 24 - 4 ∙ x yrsquoi = 20 + 4 ∙ x
50)yy(yya FrauMannGesamtFrau
FrauMann yyb
)yy(yy FrauMannFrauMann
Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
bull zB Schichtzugehoumlrigkeit (Unterschicht Mittelschicht Oberschicht) Staatsangehoumlrigkeit (deutsch tuumlrkisch griechisch etc) Familienstand (ledig verheiratet geschieden etc)
bull Loumlsung bdquoKonstruktion von mehreren Dummyvariablenldquo Es werden n - 1 Dummyvariablen zB der Form
Mittelschicht (D2) 0 = nein 1 = jaOberschicht (D3) 0 = nein 1 = ja konstruiert
bull Unterschicht geht nicht in die Analyse ein da diese aus D2 und D3 eindeutig reproduzierbar ist1 Unterschicht ist folglich die Referenzgruppe denn
ndash wenn D2 oder D3 = 1 dann Unterschicht = 0
ndash wenn D2 und D3 = 0 dann Unterschicht = 1
1 Dies gilt ebenfalls fuumlr alle anderen Kategorien (Mittelschicht und Oberschicht) Zumeist wird jene Kategorie als Referenzgruppe ausgewaumlhlt die mit der houmlchsten Haumlufigkeit vertreten ist
Ein Beispiel X = Schichtzugehoumlrigkeit
Kodierung 1 = Unterschicht (D1) 2 = Mittelschicht (D2) 3 = Oberschicht (D3) Unterschicht (D1) geht nicht in die Analyse ein (Referenzgruppe)
PersonSchichtzuge-houmlrigkeit (xi)
original
Schichtzuge-houmlrigkeit (xi)dummysiert
Monatl Einkommen
(in 100 Euro)D1 D2 D3
A 1 1 0 0 12B 2 0 1 0 24C 1 1 0 0 14D 2 0 1 0 26E 1 1 0 0 18F 3 0 0 1 28G 3 0 0 1 32H 1 1 0 0 16I 3 0 0 1 30J 2 0 1 0 20
Wir fassen zusammen
a Abhaumlngige Variable Einkommen (in 100 Euro)
Koeffizienten (a)
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 15000 1291 11619 000 11947 18053 Mittel-
schicht (D2)8333 1972 576 4226 004 3670 12996
Ober-schicht (D3)
15000 1972 1036 7606 000 10337 19663
yrsquoi = 15 + 8333 ∙ x1 + 15 ∙ x2
150450252203015030833322xbxbya 2211
Die Konstante a = 15 entspricht dem Mittelwert des Einkommens fuumlr die Unter-schicht die als Referenzgruppe dient Sind also Mittelschicht und Oberschicht = 0 erhalten wir den Vorhersagewert der Unterschicht der ihrem Mittelwert entspricht
30)yy(30)yy(yya UnterOberUnterMittelGesamtUnter
Referenzgruppe = Unterschicht
bzw
bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz
Ergo a + bj = Mittelwert der Gruppe j
UnterMittel1 yyb
UnterOber2 yyb
)yy(yy UnterMittelUnterMittel
)yy(yy UnterOberUnterOber
Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch
kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression
Unterschied - Erweiterung des einfachen Regressionsmodell
Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1
ei = yi - yrsquoi
yi = b0 + b1 ∙ xi + ei
Streudiagramm Gerade im zweidimensionalen Raum
r2 (Determinationskoeffizient)r2
korr (hier nicht relevant)
r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint
Multiple RegressionYX1 X2 hellip Xn
Stichprobe b0 bzw aStichprobe b1 b2 hellip bj
Grundgesamtheit β0 β1 β2 hellip βj
ei = yi - yrsquoi
yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei
Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar
R2 (Multipler Determinationskoeffizient)R2
korr (hier relevant)
R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)
Standardfehler fuumlr a und bj
F-Test T-Test Konfidenzintervall
Das Streudiagramm - Eine Ebene
yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2
Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird
2ie
In verkuumlrzter Schreibweise bzwXby
i eXby
Matrizennotation der multiplen Regression
In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind
BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem
nnmmnjj2n21n10n
iimmijj2i21i10i
2m2mj2j22221102
1m1mj1j12211101
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
Darstellbar als (Regressionsgleichung der Stichprobe)
mit
y = (n x 1)-Spaltenvektor
X = (n x m)-Beobachtungs- Messwertmatrix
b = (m x 1)-Spaltenvektor der Koeffizienten
e = (m x 1)-Spaltenvektor der Residuen
Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit
eXby
n
i
2
1
m
j
2
1
0
nm
m2
m1
nj1n
j221
j111
n
i
2
1
e
e
e
e
e
b
b
b
b
b
b
x
x
x
xx1
xx1
xx1
X
y
y
y
y
y
eXβy
Was ist eine Matrix
Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
333231
232221
131211
aaa
aaa
aaa
A
Ein Beispiel fuumlr eine Matrix
Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht
bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix
bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet
Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten
Was ist eine Matrix
Ein weiteres Beispiel fuumlr eine Matrix
Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip
Was ist ein Vektor
bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor
bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor
bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo
405
213A
Was ist ein Vektor
Ein Beispiel fuumlr ein Vektor
Zeilenvektor (Matrix der Ordnung 1 x 3)
Spaltenvektor (Matrix der Ordnung 4 x 1)
987a
11
8
5
2
a
Spezielle Matrizen
Quadratische Matrix(zB Korrelationsmatrix)
987
654
321
A
4764
7353
6522
4321
A
Symmetrische Matrix (zB Kovarianzmatrix)
4000
0300
0020
0001
A
Diagonalmatrix daalle Nicht-Diagonalelemente
gleich Null sind
1000
0100
0010
0001
I
Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente
gleich Null sind (zB sieht man oft (I-B-1))
1000
0100
0010
0001
3
3000
0300
0030
0003
A
Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente
gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar
3442
0351
0032
0003
A
Dreiecksmatrix da alle Elemente entweder uumlber (Obere
Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null
sind
Wir kommen zur multiplen Regression zuruumlck
bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)
Xby
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)
Parameter-Matrix
iyy Anmerkung
Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
eXby
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo
Multiplikation von Matrizen
bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht
bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)
A B C
45
45
45
45
1
1
1
8492746
32644442
8734
0682
8216
514
632
(2 x 3) (3 x 4) (2 x 4)
a brsquo C
c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8
c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4
(3 x 1) (1 x 2) (3 x 2)
arsquo B crsquo
1215
75
47
13
111
(1 x 3) (3 x 2) (1 x 2)
c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Die Gleichung der ersten Zeile lautet ausge-schrieben
Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor
31321211101 bxbxbxb1y
A b c
(3 x 4) (4 x 1) (3 x 1)
1
24
26
2
1
2
1
8734
0682
8216
c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1
Addition und Subtraktion von Matrizen
bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B
21
21
45
12
43
22
13
24
23
05
67
01
12
43
22
13
24
23
A B C A B C
(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby
n
i
2
1
0
0
0
0
n
i
2
1
e
e
e
e
b)x(b
b)x(b
b)x(b
b)x(b
y
y
y
y
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Berechnung von a und b
Person xi yi xi - (xi - )2 yi - (x i - ) middot (y i - )
A 1 12 05 025 -10 05 middot (-10) = -5B 1 24 05 025 2 05 middot 2 = 1C 0 14 -05 025 -8 -05 middot (-8) = 4D 1 26 05 025 4 05 middot 4 = 2E 0 18 -05 025 -4 -05 middot (-4) = 2F 1 28 05 025 6 05 middot 6 = 3G 0 32 -05 025 10 -05 middot 10 = -5H 0 16 -05 025 -6 -05 middot (-6) = 3I 1 30 05 025 8 05 middot 8 = 4J 0 20 -05 025 -2 -05 middot (-2) = 1
sum 5 220 0 250 0 10
2210220y
y
50015x
x x y x
004502
01
)x(x
)y)(yx(xb
2i
ii
2050000422xbya
Interpretation
bull a = Maumlnner weisen im Durchschnitt ein Einkommen von 2000 (in 100 Euro also 2000 Euro) auf
bull b = Frauen hingegen weisen ein houmlheres Einkommen auf Sie uumlberschreiten den Mittelwert der Maumlnner um 400 (in 100 Euro also 400 Euro)
Ergo iii x402xbay
Wie sieht das Ganze in SPSS aus
a Abhaumlngige Variable Einkommen (in 100 Euro)
Koeffizienten (a)
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 24000 3162 7589 000 16708 31292 Geschlecht -4000 4472 -302 -894 397 -14313 6313
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 20000 3162 6325 000 12708 27292 Geschlecht 4000 4472 302 894 397 -6313 14313
a Abhaumlngige Variable Einkommen (in 100 Euro)
Referenzgruppe = maumlnnlich
Referenzgruppe = weiblich
Koeffizienten (a)
Wir fassen zusammen
004502
01
)x(x
)y)(yx(xb
2i
ii
24500)004(22xbya
004502
01
)x(x
)y)(yx(xb
2i
ii
2050000422xbya
bull a (Schnittpunkt mit der Y-Achse) = Mittelwert der Referenzgruppe fuumlr Referenzgruppe (Ref) Frau
bull b (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz fuumlr Ref Frau
Ergo a + b = Mittelwert der Gruppe j fuumlr Ref Frau
Referenzgruppe bdquoweiblichldquo Referenzgruppe bdquomaumlnnlichldquo
yrsquoi = 24 - 4 ∙ x yrsquoi = 20 + 4 ∙ x
50)yy(yya FrauMannGesamtFrau
FrauMann yyb
)yy(yy FrauMannFrauMann
Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
bull zB Schichtzugehoumlrigkeit (Unterschicht Mittelschicht Oberschicht) Staatsangehoumlrigkeit (deutsch tuumlrkisch griechisch etc) Familienstand (ledig verheiratet geschieden etc)
bull Loumlsung bdquoKonstruktion von mehreren Dummyvariablenldquo Es werden n - 1 Dummyvariablen zB der Form
Mittelschicht (D2) 0 = nein 1 = jaOberschicht (D3) 0 = nein 1 = ja konstruiert
bull Unterschicht geht nicht in die Analyse ein da diese aus D2 und D3 eindeutig reproduzierbar ist1 Unterschicht ist folglich die Referenzgruppe denn
ndash wenn D2 oder D3 = 1 dann Unterschicht = 0
ndash wenn D2 und D3 = 0 dann Unterschicht = 1
1 Dies gilt ebenfalls fuumlr alle anderen Kategorien (Mittelschicht und Oberschicht) Zumeist wird jene Kategorie als Referenzgruppe ausgewaumlhlt die mit der houmlchsten Haumlufigkeit vertreten ist
Ein Beispiel X = Schichtzugehoumlrigkeit
Kodierung 1 = Unterschicht (D1) 2 = Mittelschicht (D2) 3 = Oberschicht (D3) Unterschicht (D1) geht nicht in die Analyse ein (Referenzgruppe)
PersonSchichtzuge-houmlrigkeit (xi)
original
Schichtzuge-houmlrigkeit (xi)dummysiert
Monatl Einkommen
(in 100 Euro)D1 D2 D3
A 1 1 0 0 12B 2 0 1 0 24C 1 1 0 0 14D 2 0 1 0 26E 1 1 0 0 18F 3 0 0 1 28G 3 0 0 1 32H 1 1 0 0 16I 3 0 0 1 30J 2 0 1 0 20
Wir fassen zusammen
a Abhaumlngige Variable Einkommen (in 100 Euro)
Koeffizienten (a)
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 15000 1291 11619 000 11947 18053 Mittel-
schicht (D2)8333 1972 576 4226 004 3670 12996
Ober-schicht (D3)
15000 1972 1036 7606 000 10337 19663
yrsquoi = 15 + 8333 ∙ x1 + 15 ∙ x2
150450252203015030833322xbxbya 2211
Die Konstante a = 15 entspricht dem Mittelwert des Einkommens fuumlr die Unter-schicht die als Referenzgruppe dient Sind also Mittelschicht und Oberschicht = 0 erhalten wir den Vorhersagewert der Unterschicht der ihrem Mittelwert entspricht
30)yy(30)yy(yya UnterOberUnterMittelGesamtUnter
Referenzgruppe = Unterschicht
bzw
bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz
Ergo a + bj = Mittelwert der Gruppe j
UnterMittel1 yyb
UnterOber2 yyb
)yy(yy UnterMittelUnterMittel
)yy(yy UnterOberUnterOber
Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch
kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression
Unterschied - Erweiterung des einfachen Regressionsmodell
Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1
ei = yi - yrsquoi
yi = b0 + b1 ∙ xi + ei
Streudiagramm Gerade im zweidimensionalen Raum
r2 (Determinationskoeffizient)r2
korr (hier nicht relevant)
r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint
Multiple RegressionYX1 X2 hellip Xn
Stichprobe b0 bzw aStichprobe b1 b2 hellip bj
Grundgesamtheit β0 β1 β2 hellip βj
ei = yi - yrsquoi
yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei
Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar
R2 (Multipler Determinationskoeffizient)R2
korr (hier relevant)
R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)
Standardfehler fuumlr a und bj
F-Test T-Test Konfidenzintervall
Das Streudiagramm - Eine Ebene
yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2
Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird
2ie
In verkuumlrzter Schreibweise bzwXby
i eXby
Matrizennotation der multiplen Regression
In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind
BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem
nnmmnjj2n21n10n
iimmijj2i21i10i
2m2mj2j22221102
1m1mj1j12211101
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
Darstellbar als (Regressionsgleichung der Stichprobe)
mit
y = (n x 1)-Spaltenvektor
X = (n x m)-Beobachtungs- Messwertmatrix
b = (m x 1)-Spaltenvektor der Koeffizienten
e = (m x 1)-Spaltenvektor der Residuen
Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit
eXby
n
i
2
1
m
j
2
1
0
nm
m2
m1
nj1n
j221
j111
n
i
2
1
e
e
e
e
e
b
b
b
b
b
b
x
x
x
xx1
xx1
xx1
X
y
y
y
y
y
eXβy
Was ist eine Matrix
Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
333231
232221
131211
aaa
aaa
aaa
A
Ein Beispiel fuumlr eine Matrix
Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht
bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix
bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet
Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten
Was ist eine Matrix
Ein weiteres Beispiel fuumlr eine Matrix
Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip
Was ist ein Vektor
bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor
bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor
bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo
405
213A
Was ist ein Vektor
Ein Beispiel fuumlr ein Vektor
Zeilenvektor (Matrix der Ordnung 1 x 3)
Spaltenvektor (Matrix der Ordnung 4 x 1)
987a
11
8
5
2
a
Spezielle Matrizen
Quadratische Matrix(zB Korrelationsmatrix)
987
654
321
A
4764
7353
6522
4321
A
Symmetrische Matrix (zB Kovarianzmatrix)
4000
0300
0020
0001
A
Diagonalmatrix daalle Nicht-Diagonalelemente
gleich Null sind
1000
0100
0010
0001
I
Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente
gleich Null sind (zB sieht man oft (I-B-1))
1000
0100
0010
0001
3
3000
0300
0030
0003
A
Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente
gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar
3442
0351
0032
0003
A
Dreiecksmatrix da alle Elemente entweder uumlber (Obere
Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null
sind
Wir kommen zur multiplen Regression zuruumlck
bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)
Xby
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)
Parameter-Matrix
iyy Anmerkung
Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
eXby
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo
Multiplikation von Matrizen
bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht
bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)
A B C
45
45
45
45
1
1
1
8492746
32644442
8734
0682
8216
514
632
(2 x 3) (3 x 4) (2 x 4)
a brsquo C
c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8
c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4
(3 x 1) (1 x 2) (3 x 2)
arsquo B crsquo
1215
75
47
13
111
(1 x 3) (3 x 2) (1 x 2)
c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Die Gleichung der ersten Zeile lautet ausge-schrieben
Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor
31321211101 bxbxbxb1y
A b c
(3 x 4) (4 x 1) (3 x 1)
1
24
26
2
1
2
1
8734
0682
8216
c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1
Addition und Subtraktion von Matrizen
bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B
21
21
45
12
43
22
13
24
23
05
67
01
12
43
22
13
24
23
A B C A B C
(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby
n
i
2
1
0
0
0
0
n
i
2
1
e
e
e
e
b)x(b
b)x(b
b)x(b
b)x(b
y
y
y
y
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Interpretation
bull a = Maumlnner weisen im Durchschnitt ein Einkommen von 2000 (in 100 Euro also 2000 Euro) auf
bull b = Frauen hingegen weisen ein houmlheres Einkommen auf Sie uumlberschreiten den Mittelwert der Maumlnner um 400 (in 100 Euro also 400 Euro)
Ergo iii x402xbay
Wie sieht das Ganze in SPSS aus
a Abhaumlngige Variable Einkommen (in 100 Euro)
Koeffizienten (a)
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 24000 3162 7589 000 16708 31292 Geschlecht -4000 4472 -302 -894 397 -14313 6313
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 20000 3162 6325 000 12708 27292 Geschlecht 4000 4472 302 894 397 -6313 14313
a Abhaumlngige Variable Einkommen (in 100 Euro)
Referenzgruppe = maumlnnlich
Referenzgruppe = weiblich
Koeffizienten (a)
Wir fassen zusammen
004502
01
)x(x
)y)(yx(xb
2i
ii
24500)004(22xbya
004502
01
)x(x
)y)(yx(xb
2i
ii
2050000422xbya
bull a (Schnittpunkt mit der Y-Achse) = Mittelwert der Referenzgruppe fuumlr Referenzgruppe (Ref) Frau
bull b (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz fuumlr Ref Frau
Ergo a + b = Mittelwert der Gruppe j fuumlr Ref Frau
Referenzgruppe bdquoweiblichldquo Referenzgruppe bdquomaumlnnlichldquo
yrsquoi = 24 - 4 ∙ x yrsquoi = 20 + 4 ∙ x
50)yy(yya FrauMannGesamtFrau
FrauMann yyb
)yy(yy FrauMannFrauMann
Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
bull zB Schichtzugehoumlrigkeit (Unterschicht Mittelschicht Oberschicht) Staatsangehoumlrigkeit (deutsch tuumlrkisch griechisch etc) Familienstand (ledig verheiratet geschieden etc)
bull Loumlsung bdquoKonstruktion von mehreren Dummyvariablenldquo Es werden n - 1 Dummyvariablen zB der Form
Mittelschicht (D2) 0 = nein 1 = jaOberschicht (D3) 0 = nein 1 = ja konstruiert
bull Unterschicht geht nicht in die Analyse ein da diese aus D2 und D3 eindeutig reproduzierbar ist1 Unterschicht ist folglich die Referenzgruppe denn
ndash wenn D2 oder D3 = 1 dann Unterschicht = 0
ndash wenn D2 und D3 = 0 dann Unterschicht = 1
1 Dies gilt ebenfalls fuumlr alle anderen Kategorien (Mittelschicht und Oberschicht) Zumeist wird jene Kategorie als Referenzgruppe ausgewaumlhlt die mit der houmlchsten Haumlufigkeit vertreten ist
Ein Beispiel X = Schichtzugehoumlrigkeit
Kodierung 1 = Unterschicht (D1) 2 = Mittelschicht (D2) 3 = Oberschicht (D3) Unterschicht (D1) geht nicht in die Analyse ein (Referenzgruppe)
PersonSchichtzuge-houmlrigkeit (xi)
original
Schichtzuge-houmlrigkeit (xi)dummysiert
Monatl Einkommen
(in 100 Euro)D1 D2 D3
A 1 1 0 0 12B 2 0 1 0 24C 1 1 0 0 14D 2 0 1 0 26E 1 1 0 0 18F 3 0 0 1 28G 3 0 0 1 32H 1 1 0 0 16I 3 0 0 1 30J 2 0 1 0 20
Wir fassen zusammen
a Abhaumlngige Variable Einkommen (in 100 Euro)
Koeffizienten (a)
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 15000 1291 11619 000 11947 18053 Mittel-
schicht (D2)8333 1972 576 4226 004 3670 12996
Ober-schicht (D3)
15000 1972 1036 7606 000 10337 19663
yrsquoi = 15 + 8333 ∙ x1 + 15 ∙ x2
150450252203015030833322xbxbya 2211
Die Konstante a = 15 entspricht dem Mittelwert des Einkommens fuumlr die Unter-schicht die als Referenzgruppe dient Sind also Mittelschicht und Oberschicht = 0 erhalten wir den Vorhersagewert der Unterschicht der ihrem Mittelwert entspricht
30)yy(30)yy(yya UnterOberUnterMittelGesamtUnter
Referenzgruppe = Unterschicht
bzw
bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz
Ergo a + bj = Mittelwert der Gruppe j
UnterMittel1 yyb
UnterOber2 yyb
)yy(yy UnterMittelUnterMittel
)yy(yy UnterOberUnterOber
Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch
kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression
Unterschied - Erweiterung des einfachen Regressionsmodell
Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1
ei = yi - yrsquoi
yi = b0 + b1 ∙ xi + ei
Streudiagramm Gerade im zweidimensionalen Raum
r2 (Determinationskoeffizient)r2
korr (hier nicht relevant)
r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint
Multiple RegressionYX1 X2 hellip Xn
Stichprobe b0 bzw aStichprobe b1 b2 hellip bj
Grundgesamtheit β0 β1 β2 hellip βj
ei = yi - yrsquoi
yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei
Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar
R2 (Multipler Determinationskoeffizient)R2
korr (hier relevant)
R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)
Standardfehler fuumlr a und bj
F-Test T-Test Konfidenzintervall
Das Streudiagramm - Eine Ebene
yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2
Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird
2ie
In verkuumlrzter Schreibweise bzwXby
i eXby
Matrizennotation der multiplen Regression
In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind
BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem
nnmmnjj2n21n10n
iimmijj2i21i10i
2m2mj2j22221102
1m1mj1j12211101
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
Darstellbar als (Regressionsgleichung der Stichprobe)
mit
y = (n x 1)-Spaltenvektor
X = (n x m)-Beobachtungs- Messwertmatrix
b = (m x 1)-Spaltenvektor der Koeffizienten
e = (m x 1)-Spaltenvektor der Residuen
Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit
eXby
n
i
2
1
m
j
2
1
0
nm
m2
m1
nj1n
j221
j111
n
i
2
1
e
e
e
e
e
b
b
b
b
b
b
x
x
x
xx1
xx1
xx1
X
y
y
y
y
y
eXβy
Was ist eine Matrix
Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
333231
232221
131211
aaa
aaa
aaa
A
Ein Beispiel fuumlr eine Matrix
Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht
bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix
bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet
Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten
Was ist eine Matrix
Ein weiteres Beispiel fuumlr eine Matrix
Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip
Was ist ein Vektor
bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor
bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor
bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo
405
213A
Was ist ein Vektor
Ein Beispiel fuumlr ein Vektor
Zeilenvektor (Matrix der Ordnung 1 x 3)
Spaltenvektor (Matrix der Ordnung 4 x 1)
987a
11
8
5
2
a
Spezielle Matrizen
Quadratische Matrix(zB Korrelationsmatrix)
987
654
321
A
4764
7353
6522
4321
A
Symmetrische Matrix (zB Kovarianzmatrix)
4000
0300
0020
0001
A
Diagonalmatrix daalle Nicht-Diagonalelemente
gleich Null sind
1000
0100
0010
0001
I
Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente
gleich Null sind (zB sieht man oft (I-B-1))
1000
0100
0010
0001
3
3000
0300
0030
0003
A
Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente
gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar
3442
0351
0032
0003
A
Dreiecksmatrix da alle Elemente entweder uumlber (Obere
Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null
sind
Wir kommen zur multiplen Regression zuruumlck
bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)
Xby
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)
Parameter-Matrix
iyy Anmerkung
Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
eXby
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo
Multiplikation von Matrizen
bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht
bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)
A B C
45
45
45
45
1
1
1
8492746
32644442
8734
0682
8216
514
632
(2 x 3) (3 x 4) (2 x 4)
a brsquo C
c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8
c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4
(3 x 1) (1 x 2) (3 x 2)
arsquo B crsquo
1215
75
47
13
111
(1 x 3) (3 x 2) (1 x 2)
c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Die Gleichung der ersten Zeile lautet ausge-schrieben
Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor
31321211101 bxbxbxb1y
A b c
(3 x 4) (4 x 1) (3 x 1)
1
24
26
2
1
2
1
8734
0682
8216
c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1
Addition und Subtraktion von Matrizen
bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B
21
21
45
12
43
22
13
24
23
05
67
01
12
43
22
13
24
23
A B C A B C
(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby
n
i
2
1
0
0
0
0
n
i
2
1
e
e
e
e
b)x(b
b)x(b
b)x(b
b)x(b
y
y
y
y
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Wie sieht das Ganze in SPSS aus
a Abhaumlngige Variable Einkommen (in 100 Euro)
Koeffizienten (a)
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 24000 3162 7589 000 16708 31292 Geschlecht -4000 4472 -302 -894 397 -14313 6313
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 20000 3162 6325 000 12708 27292 Geschlecht 4000 4472 302 894 397 -6313 14313
a Abhaumlngige Variable Einkommen (in 100 Euro)
Referenzgruppe = maumlnnlich
Referenzgruppe = weiblich
Koeffizienten (a)
Wir fassen zusammen
004502
01
)x(x
)y)(yx(xb
2i
ii
24500)004(22xbya
004502
01
)x(x
)y)(yx(xb
2i
ii
2050000422xbya
bull a (Schnittpunkt mit der Y-Achse) = Mittelwert der Referenzgruppe fuumlr Referenzgruppe (Ref) Frau
bull b (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz fuumlr Ref Frau
Ergo a + b = Mittelwert der Gruppe j fuumlr Ref Frau
Referenzgruppe bdquoweiblichldquo Referenzgruppe bdquomaumlnnlichldquo
yrsquoi = 24 - 4 ∙ x yrsquoi = 20 + 4 ∙ x
50)yy(yya FrauMannGesamtFrau
FrauMann yyb
)yy(yy FrauMannFrauMann
Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
bull zB Schichtzugehoumlrigkeit (Unterschicht Mittelschicht Oberschicht) Staatsangehoumlrigkeit (deutsch tuumlrkisch griechisch etc) Familienstand (ledig verheiratet geschieden etc)
bull Loumlsung bdquoKonstruktion von mehreren Dummyvariablenldquo Es werden n - 1 Dummyvariablen zB der Form
Mittelschicht (D2) 0 = nein 1 = jaOberschicht (D3) 0 = nein 1 = ja konstruiert
bull Unterschicht geht nicht in die Analyse ein da diese aus D2 und D3 eindeutig reproduzierbar ist1 Unterschicht ist folglich die Referenzgruppe denn
ndash wenn D2 oder D3 = 1 dann Unterschicht = 0
ndash wenn D2 und D3 = 0 dann Unterschicht = 1
1 Dies gilt ebenfalls fuumlr alle anderen Kategorien (Mittelschicht und Oberschicht) Zumeist wird jene Kategorie als Referenzgruppe ausgewaumlhlt die mit der houmlchsten Haumlufigkeit vertreten ist
Ein Beispiel X = Schichtzugehoumlrigkeit
Kodierung 1 = Unterschicht (D1) 2 = Mittelschicht (D2) 3 = Oberschicht (D3) Unterschicht (D1) geht nicht in die Analyse ein (Referenzgruppe)
PersonSchichtzuge-houmlrigkeit (xi)
original
Schichtzuge-houmlrigkeit (xi)dummysiert
Monatl Einkommen
(in 100 Euro)D1 D2 D3
A 1 1 0 0 12B 2 0 1 0 24C 1 1 0 0 14D 2 0 1 0 26E 1 1 0 0 18F 3 0 0 1 28G 3 0 0 1 32H 1 1 0 0 16I 3 0 0 1 30J 2 0 1 0 20
Wir fassen zusammen
a Abhaumlngige Variable Einkommen (in 100 Euro)
Koeffizienten (a)
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 15000 1291 11619 000 11947 18053 Mittel-
schicht (D2)8333 1972 576 4226 004 3670 12996
Ober-schicht (D3)
15000 1972 1036 7606 000 10337 19663
yrsquoi = 15 + 8333 ∙ x1 + 15 ∙ x2
150450252203015030833322xbxbya 2211
Die Konstante a = 15 entspricht dem Mittelwert des Einkommens fuumlr die Unter-schicht die als Referenzgruppe dient Sind also Mittelschicht und Oberschicht = 0 erhalten wir den Vorhersagewert der Unterschicht der ihrem Mittelwert entspricht
30)yy(30)yy(yya UnterOberUnterMittelGesamtUnter
Referenzgruppe = Unterschicht
bzw
bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz
Ergo a + bj = Mittelwert der Gruppe j
UnterMittel1 yyb
UnterOber2 yyb
)yy(yy UnterMittelUnterMittel
)yy(yy UnterOberUnterOber
Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch
kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression
Unterschied - Erweiterung des einfachen Regressionsmodell
Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1
ei = yi - yrsquoi
yi = b0 + b1 ∙ xi + ei
Streudiagramm Gerade im zweidimensionalen Raum
r2 (Determinationskoeffizient)r2
korr (hier nicht relevant)
r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint
Multiple RegressionYX1 X2 hellip Xn
Stichprobe b0 bzw aStichprobe b1 b2 hellip bj
Grundgesamtheit β0 β1 β2 hellip βj
ei = yi - yrsquoi
yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei
Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar
R2 (Multipler Determinationskoeffizient)R2
korr (hier relevant)
R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)
Standardfehler fuumlr a und bj
F-Test T-Test Konfidenzintervall
Das Streudiagramm - Eine Ebene
yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2
Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird
2ie
In verkuumlrzter Schreibweise bzwXby
i eXby
Matrizennotation der multiplen Regression
In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind
BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem
nnmmnjj2n21n10n
iimmijj2i21i10i
2m2mj2j22221102
1m1mj1j12211101
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
Darstellbar als (Regressionsgleichung der Stichprobe)
mit
y = (n x 1)-Spaltenvektor
X = (n x m)-Beobachtungs- Messwertmatrix
b = (m x 1)-Spaltenvektor der Koeffizienten
e = (m x 1)-Spaltenvektor der Residuen
Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit
eXby
n
i
2
1
m
j
2
1
0
nm
m2
m1
nj1n
j221
j111
n
i
2
1
e
e
e
e
e
b
b
b
b
b
b
x
x
x
xx1
xx1
xx1
X
y
y
y
y
y
eXβy
Was ist eine Matrix
Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
333231
232221
131211
aaa
aaa
aaa
A
Ein Beispiel fuumlr eine Matrix
Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht
bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix
bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet
Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten
Was ist eine Matrix
Ein weiteres Beispiel fuumlr eine Matrix
Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip
Was ist ein Vektor
bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor
bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor
bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo
405
213A
Was ist ein Vektor
Ein Beispiel fuumlr ein Vektor
Zeilenvektor (Matrix der Ordnung 1 x 3)
Spaltenvektor (Matrix der Ordnung 4 x 1)
987a
11
8
5
2
a
Spezielle Matrizen
Quadratische Matrix(zB Korrelationsmatrix)
987
654
321
A
4764
7353
6522
4321
A
Symmetrische Matrix (zB Kovarianzmatrix)
4000
0300
0020
0001
A
Diagonalmatrix daalle Nicht-Diagonalelemente
gleich Null sind
1000
0100
0010
0001
I
Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente
gleich Null sind (zB sieht man oft (I-B-1))
1000
0100
0010
0001
3
3000
0300
0030
0003
A
Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente
gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar
3442
0351
0032
0003
A
Dreiecksmatrix da alle Elemente entweder uumlber (Obere
Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null
sind
Wir kommen zur multiplen Regression zuruumlck
bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)
Xby
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)
Parameter-Matrix
iyy Anmerkung
Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
eXby
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo
Multiplikation von Matrizen
bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht
bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)
A B C
45
45
45
45
1
1
1
8492746
32644442
8734
0682
8216
514
632
(2 x 3) (3 x 4) (2 x 4)
a brsquo C
c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8
c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4
(3 x 1) (1 x 2) (3 x 2)
arsquo B crsquo
1215
75
47
13
111
(1 x 3) (3 x 2) (1 x 2)
c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Die Gleichung der ersten Zeile lautet ausge-schrieben
Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor
31321211101 bxbxbxb1y
A b c
(3 x 4) (4 x 1) (3 x 1)
1
24
26
2
1
2
1
8734
0682
8216
c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1
Addition und Subtraktion von Matrizen
bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B
21
21
45
12
43
22
13
24
23
05
67
01
12
43
22
13
24
23
A B C A B C
(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby
n
i
2
1
0
0
0
0
n
i
2
1
e
e
e
e
b)x(b
b)x(b
b)x(b
b)x(b
y
y
y
y
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Wir fassen zusammen
004502
01
)x(x
)y)(yx(xb
2i
ii
24500)004(22xbya
004502
01
)x(x
)y)(yx(xb
2i
ii
2050000422xbya
bull a (Schnittpunkt mit der Y-Achse) = Mittelwert der Referenzgruppe fuumlr Referenzgruppe (Ref) Frau
bull b (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz fuumlr Ref Frau
Ergo a + b = Mittelwert der Gruppe j fuumlr Ref Frau
Referenzgruppe bdquoweiblichldquo Referenzgruppe bdquomaumlnnlichldquo
yrsquoi = 24 - 4 ∙ x yrsquoi = 20 + 4 ∙ x
50)yy(yya FrauMannGesamtFrau
FrauMann yyb
)yy(yy FrauMannFrauMann
Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
bull zB Schichtzugehoumlrigkeit (Unterschicht Mittelschicht Oberschicht) Staatsangehoumlrigkeit (deutsch tuumlrkisch griechisch etc) Familienstand (ledig verheiratet geschieden etc)
bull Loumlsung bdquoKonstruktion von mehreren Dummyvariablenldquo Es werden n - 1 Dummyvariablen zB der Form
Mittelschicht (D2) 0 = nein 1 = jaOberschicht (D3) 0 = nein 1 = ja konstruiert
bull Unterschicht geht nicht in die Analyse ein da diese aus D2 und D3 eindeutig reproduzierbar ist1 Unterschicht ist folglich die Referenzgruppe denn
ndash wenn D2 oder D3 = 1 dann Unterschicht = 0
ndash wenn D2 und D3 = 0 dann Unterschicht = 1
1 Dies gilt ebenfalls fuumlr alle anderen Kategorien (Mittelschicht und Oberschicht) Zumeist wird jene Kategorie als Referenzgruppe ausgewaumlhlt die mit der houmlchsten Haumlufigkeit vertreten ist
Ein Beispiel X = Schichtzugehoumlrigkeit
Kodierung 1 = Unterschicht (D1) 2 = Mittelschicht (D2) 3 = Oberschicht (D3) Unterschicht (D1) geht nicht in die Analyse ein (Referenzgruppe)
PersonSchichtzuge-houmlrigkeit (xi)
original
Schichtzuge-houmlrigkeit (xi)dummysiert
Monatl Einkommen
(in 100 Euro)D1 D2 D3
A 1 1 0 0 12B 2 0 1 0 24C 1 1 0 0 14D 2 0 1 0 26E 1 1 0 0 18F 3 0 0 1 28G 3 0 0 1 32H 1 1 0 0 16I 3 0 0 1 30J 2 0 1 0 20
Wir fassen zusammen
a Abhaumlngige Variable Einkommen (in 100 Euro)
Koeffizienten (a)
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 15000 1291 11619 000 11947 18053 Mittel-
schicht (D2)8333 1972 576 4226 004 3670 12996
Ober-schicht (D3)
15000 1972 1036 7606 000 10337 19663
yrsquoi = 15 + 8333 ∙ x1 + 15 ∙ x2
150450252203015030833322xbxbya 2211
Die Konstante a = 15 entspricht dem Mittelwert des Einkommens fuumlr die Unter-schicht die als Referenzgruppe dient Sind also Mittelschicht und Oberschicht = 0 erhalten wir den Vorhersagewert der Unterschicht der ihrem Mittelwert entspricht
30)yy(30)yy(yya UnterOberUnterMittelGesamtUnter
Referenzgruppe = Unterschicht
bzw
bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz
Ergo a + bj = Mittelwert der Gruppe j
UnterMittel1 yyb
UnterOber2 yyb
)yy(yy UnterMittelUnterMittel
)yy(yy UnterOberUnterOber
Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch
kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression
Unterschied - Erweiterung des einfachen Regressionsmodell
Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1
ei = yi - yrsquoi
yi = b0 + b1 ∙ xi + ei
Streudiagramm Gerade im zweidimensionalen Raum
r2 (Determinationskoeffizient)r2
korr (hier nicht relevant)
r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint
Multiple RegressionYX1 X2 hellip Xn
Stichprobe b0 bzw aStichprobe b1 b2 hellip bj
Grundgesamtheit β0 β1 β2 hellip βj
ei = yi - yrsquoi
yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei
Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar
R2 (Multipler Determinationskoeffizient)R2
korr (hier relevant)
R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)
Standardfehler fuumlr a und bj
F-Test T-Test Konfidenzintervall
Das Streudiagramm - Eine Ebene
yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2
Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird
2ie
In verkuumlrzter Schreibweise bzwXby
i eXby
Matrizennotation der multiplen Regression
In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind
BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem
nnmmnjj2n21n10n
iimmijj2i21i10i
2m2mj2j22221102
1m1mj1j12211101
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
Darstellbar als (Regressionsgleichung der Stichprobe)
mit
y = (n x 1)-Spaltenvektor
X = (n x m)-Beobachtungs- Messwertmatrix
b = (m x 1)-Spaltenvektor der Koeffizienten
e = (m x 1)-Spaltenvektor der Residuen
Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit
eXby
n
i
2
1
m
j
2
1
0
nm
m2
m1
nj1n
j221
j111
n
i
2
1
e
e
e
e
e
b
b
b
b
b
b
x
x
x
xx1
xx1
xx1
X
y
y
y
y
y
eXβy
Was ist eine Matrix
Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
333231
232221
131211
aaa
aaa
aaa
A
Ein Beispiel fuumlr eine Matrix
Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht
bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix
bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet
Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten
Was ist eine Matrix
Ein weiteres Beispiel fuumlr eine Matrix
Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip
Was ist ein Vektor
bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor
bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor
bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo
405
213A
Was ist ein Vektor
Ein Beispiel fuumlr ein Vektor
Zeilenvektor (Matrix der Ordnung 1 x 3)
Spaltenvektor (Matrix der Ordnung 4 x 1)
987a
11
8
5
2
a
Spezielle Matrizen
Quadratische Matrix(zB Korrelationsmatrix)
987
654
321
A
4764
7353
6522
4321
A
Symmetrische Matrix (zB Kovarianzmatrix)
4000
0300
0020
0001
A
Diagonalmatrix daalle Nicht-Diagonalelemente
gleich Null sind
1000
0100
0010
0001
I
Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente
gleich Null sind (zB sieht man oft (I-B-1))
1000
0100
0010
0001
3
3000
0300
0030
0003
A
Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente
gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar
3442
0351
0032
0003
A
Dreiecksmatrix da alle Elemente entweder uumlber (Obere
Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null
sind
Wir kommen zur multiplen Regression zuruumlck
bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)
Xby
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)
Parameter-Matrix
iyy Anmerkung
Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
eXby
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo
Multiplikation von Matrizen
bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht
bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)
A B C
45
45
45
45
1
1
1
8492746
32644442
8734
0682
8216
514
632
(2 x 3) (3 x 4) (2 x 4)
a brsquo C
c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8
c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4
(3 x 1) (1 x 2) (3 x 2)
arsquo B crsquo
1215
75
47
13
111
(1 x 3) (3 x 2) (1 x 2)
c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Die Gleichung der ersten Zeile lautet ausge-schrieben
Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor
31321211101 bxbxbxb1y
A b c
(3 x 4) (4 x 1) (3 x 1)
1
24
26
2
1
2
1
8734
0682
8216
c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1
Addition und Subtraktion von Matrizen
bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B
21
21
45
12
43
22
13
24
23
05
67
01
12
43
22
13
24
23
A B C A B C
(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby
n
i
2
1
0
0
0
0
n
i
2
1
e
e
e
e
b)x(b
b)x(b
b)x(b
b)x(b
y
y
y
y
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Oftmals weisen kategoriale Variablen mehr als zwei Merkmals-auspraumlgungen auf
bull zB Schichtzugehoumlrigkeit (Unterschicht Mittelschicht Oberschicht) Staatsangehoumlrigkeit (deutsch tuumlrkisch griechisch etc) Familienstand (ledig verheiratet geschieden etc)
bull Loumlsung bdquoKonstruktion von mehreren Dummyvariablenldquo Es werden n - 1 Dummyvariablen zB der Form
Mittelschicht (D2) 0 = nein 1 = jaOberschicht (D3) 0 = nein 1 = ja konstruiert
bull Unterschicht geht nicht in die Analyse ein da diese aus D2 und D3 eindeutig reproduzierbar ist1 Unterschicht ist folglich die Referenzgruppe denn
ndash wenn D2 oder D3 = 1 dann Unterschicht = 0
ndash wenn D2 und D3 = 0 dann Unterschicht = 1
1 Dies gilt ebenfalls fuumlr alle anderen Kategorien (Mittelschicht und Oberschicht) Zumeist wird jene Kategorie als Referenzgruppe ausgewaumlhlt die mit der houmlchsten Haumlufigkeit vertreten ist
Ein Beispiel X = Schichtzugehoumlrigkeit
Kodierung 1 = Unterschicht (D1) 2 = Mittelschicht (D2) 3 = Oberschicht (D3) Unterschicht (D1) geht nicht in die Analyse ein (Referenzgruppe)
PersonSchichtzuge-houmlrigkeit (xi)
original
Schichtzuge-houmlrigkeit (xi)dummysiert
Monatl Einkommen
(in 100 Euro)D1 D2 D3
A 1 1 0 0 12B 2 0 1 0 24C 1 1 0 0 14D 2 0 1 0 26E 1 1 0 0 18F 3 0 0 1 28G 3 0 0 1 32H 1 1 0 0 16I 3 0 0 1 30J 2 0 1 0 20
Wir fassen zusammen
a Abhaumlngige Variable Einkommen (in 100 Euro)
Koeffizienten (a)
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 15000 1291 11619 000 11947 18053 Mittel-
schicht (D2)8333 1972 576 4226 004 3670 12996
Ober-schicht (D3)
15000 1972 1036 7606 000 10337 19663
yrsquoi = 15 + 8333 ∙ x1 + 15 ∙ x2
150450252203015030833322xbxbya 2211
Die Konstante a = 15 entspricht dem Mittelwert des Einkommens fuumlr die Unter-schicht die als Referenzgruppe dient Sind also Mittelschicht und Oberschicht = 0 erhalten wir den Vorhersagewert der Unterschicht der ihrem Mittelwert entspricht
30)yy(30)yy(yya UnterOberUnterMittelGesamtUnter
Referenzgruppe = Unterschicht
bzw
bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz
Ergo a + bj = Mittelwert der Gruppe j
UnterMittel1 yyb
UnterOber2 yyb
)yy(yy UnterMittelUnterMittel
)yy(yy UnterOberUnterOber
Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch
kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression
Unterschied - Erweiterung des einfachen Regressionsmodell
Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1
ei = yi - yrsquoi
yi = b0 + b1 ∙ xi + ei
Streudiagramm Gerade im zweidimensionalen Raum
r2 (Determinationskoeffizient)r2
korr (hier nicht relevant)
r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint
Multiple RegressionYX1 X2 hellip Xn
Stichprobe b0 bzw aStichprobe b1 b2 hellip bj
Grundgesamtheit β0 β1 β2 hellip βj
ei = yi - yrsquoi
yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei
Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar
R2 (Multipler Determinationskoeffizient)R2
korr (hier relevant)
R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)
Standardfehler fuumlr a und bj
F-Test T-Test Konfidenzintervall
Das Streudiagramm - Eine Ebene
yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2
Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird
2ie
In verkuumlrzter Schreibweise bzwXby
i eXby
Matrizennotation der multiplen Regression
In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind
BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem
nnmmnjj2n21n10n
iimmijj2i21i10i
2m2mj2j22221102
1m1mj1j12211101
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
Darstellbar als (Regressionsgleichung der Stichprobe)
mit
y = (n x 1)-Spaltenvektor
X = (n x m)-Beobachtungs- Messwertmatrix
b = (m x 1)-Spaltenvektor der Koeffizienten
e = (m x 1)-Spaltenvektor der Residuen
Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit
eXby
n
i
2
1
m
j
2
1
0
nm
m2
m1
nj1n
j221
j111
n
i
2
1
e
e
e
e
e
b
b
b
b
b
b
x
x
x
xx1
xx1
xx1
X
y
y
y
y
y
eXβy
Was ist eine Matrix
Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
333231
232221
131211
aaa
aaa
aaa
A
Ein Beispiel fuumlr eine Matrix
Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht
bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix
bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet
Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten
Was ist eine Matrix
Ein weiteres Beispiel fuumlr eine Matrix
Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip
Was ist ein Vektor
bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor
bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor
bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo
405
213A
Was ist ein Vektor
Ein Beispiel fuumlr ein Vektor
Zeilenvektor (Matrix der Ordnung 1 x 3)
Spaltenvektor (Matrix der Ordnung 4 x 1)
987a
11
8
5
2
a
Spezielle Matrizen
Quadratische Matrix(zB Korrelationsmatrix)
987
654
321
A
4764
7353
6522
4321
A
Symmetrische Matrix (zB Kovarianzmatrix)
4000
0300
0020
0001
A
Diagonalmatrix daalle Nicht-Diagonalelemente
gleich Null sind
1000
0100
0010
0001
I
Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente
gleich Null sind (zB sieht man oft (I-B-1))
1000
0100
0010
0001
3
3000
0300
0030
0003
A
Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente
gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar
3442
0351
0032
0003
A
Dreiecksmatrix da alle Elemente entweder uumlber (Obere
Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null
sind
Wir kommen zur multiplen Regression zuruumlck
bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)
Xby
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)
Parameter-Matrix
iyy Anmerkung
Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
eXby
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo
Multiplikation von Matrizen
bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht
bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)
A B C
45
45
45
45
1
1
1
8492746
32644442
8734
0682
8216
514
632
(2 x 3) (3 x 4) (2 x 4)
a brsquo C
c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8
c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4
(3 x 1) (1 x 2) (3 x 2)
arsquo B crsquo
1215
75
47
13
111
(1 x 3) (3 x 2) (1 x 2)
c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Die Gleichung der ersten Zeile lautet ausge-schrieben
Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor
31321211101 bxbxbxb1y
A b c
(3 x 4) (4 x 1) (3 x 1)
1
24
26
2
1
2
1
8734
0682
8216
c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1
Addition und Subtraktion von Matrizen
bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B
21
21
45
12
43
22
13
24
23
05
67
01
12
43
22
13
24
23
A B C A B C
(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby
n
i
2
1
0
0
0
0
n
i
2
1
e
e
e
e
b)x(b
b)x(b
b)x(b
b)x(b
y
y
y
y
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Ein Beispiel X = Schichtzugehoumlrigkeit
Kodierung 1 = Unterschicht (D1) 2 = Mittelschicht (D2) 3 = Oberschicht (D3) Unterschicht (D1) geht nicht in die Analyse ein (Referenzgruppe)
PersonSchichtzuge-houmlrigkeit (xi)
original
Schichtzuge-houmlrigkeit (xi)dummysiert
Monatl Einkommen
(in 100 Euro)D1 D2 D3
A 1 1 0 0 12B 2 0 1 0 24C 1 1 0 0 14D 2 0 1 0 26E 1 1 0 0 18F 3 0 0 1 28G 3 0 0 1 32H 1 1 0 0 16I 3 0 0 1 30J 2 0 1 0 20
Wir fassen zusammen
a Abhaumlngige Variable Einkommen (in 100 Euro)
Koeffizienten (a)
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 15000 1291 11619 000 11947 18053 Mittel-
schicht (D2)8333 1972 576 4226 004 3670 12996
Ober-schicht (D3)
15000 1972 1036 7606 000 10337 19663
yrsquoi = 15 + 8333 ∙ x1 + 15 ∙ x2
150450252203015030833322xbxbya 2211
Die Konstante a = 15 entspricht dem Mittelwert des Einkommens fuumlr die Unter-schicht die als Referenzgruppe dient Sind also Mittelschicht und Oberschicht = 0 erhalten wir den Vorhersagewert der Unterschicht der ihrem Mittelwert entspricht
30)yy(30)yy(yya UnterOberUnterMittelGesamtUnter
Referenzgruppe = Unterschicht
bzw
bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz
Ergo a + bj = Mittelwert der Gruppe j
UnterMittel1 yyb
UnterOber2 yyb
)yy(yy UnterMittelUnterMittel
)yy(yy UnterOberUnterOber
Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch
kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression
Unterschied - Erweiterung des einfachen Regressionsmodell
Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1
ei = yi - yrsquoi
yi = b0 + b1 ∙ xi + ei
Streudiagramm Gerade im zweidimensionalen Raum
r2 (Determinationskoeffizient)r2
korr (hier nicht relevant)
r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint
Multiple RegressionYX1 X2 hellip Xn
Stichprobe b0 bzw aStichprobe b1 b2 hellip bj
Grundgesamtheit β0 β1 β2 hellip βj
ei = yi - yrsquoi
yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei
Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar
R2 (Multipler Determinationskoeffizient)R2
korr (hier relevant)
R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)
Standardfehler fuumlr a und bj
F-Test T-Test Konfidenzintervall
Das Streudiagramm - Eine Ebene
yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2
Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird
2ie
In verkuumlrzter Schreibweise bzwXby
i eXby
Matrizennotation der multiplen Regression
In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind
BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem
nnmmnjj2n21n10n
iimmijj2i21i10i
2m2mj2j22221102
1m1mj1j12211101
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
Darstellbar als (Regressionsgleichung der Stichprobe)
mit
y = (n x 1)-Spaltenvektor
X = (n x m)-Beobachtungs- Messwertmatrix
b = (m x 1)-Spaltenvektor der Koeffizienten
e = (m x 1)-Spaltenvektor der Residuen
Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit
eXby
n
i
2
1
m
j
2
1
0
nm
m2
m1
nj1n
j221
j111
n
i
2
1
e
e
e
e
e
b
b
b
b
b
b
x
x
x
xx1
xx1
xx1
X
y
y
y
y
y
eXβy
Was ist eine Matrix
Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
333231
232221
131211
aaa
aaa
aaa
A
Ein Beispiel fuumlr eine Matrix
Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht
bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix
bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet
Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten
Was ist eine Matrix
Ein weiteres Beispiel fuumlr eine Matrix
Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip
Was ist ein Vektor
bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor
bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor
bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo
405
213A
Was ist ein Vektor
Ein Beispiel fuumlr ein Vektor
Zeilenvektor (Matrix der Ordnung 1 x 3)
Spaltenvektor (Matrix der Ordnung 4 x 1)
987a
11
8
5
2
a
Spezielle Matrizen
Quadratische Matrix(zB Korrelationsmatrix)
987
654
321
A
4764
7353
6522
4321
A
Symmetrische Matrix (zB Kovarianzmatrix)
4000
0300
0020
0001
A
Diagonalmatrix daalle Nicht-Diagonalelemente
gleich Null sind
1000
0100
0010
0001
I
Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente
gleich Null sind (zB sieht man oft (I-B-1))
1000
0100
0010
0001
3
3000
0300
0030
0003
A
Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente
gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar
3442
0351
0032
0003
A
Dreiecksmatrix da alle Elemente entweder uumlber (Obere
Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null
sind
Wir kommen zur multiplen Regression zuruumlck
bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)
Xby
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)
Parameter-Matrix
iyy Anmerkung
Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
eXby
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo
Multiplikation von Matrizen
bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht
bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)
A B C
45
45
45
45
1
1
1
8492746
32644442
8734
0682
8216
514
632
(2 x 3) (3 x 4) (2 x 4)
a brsquo C
c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8
c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4
(3 x 1) (1 x 2) (3 x 2)
arsquo B crsquo
1215
75
47
13
111
(1 x 3) (3 x 2) (1 x 2)
c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Die Gleichung der ersten Zeile lautet ausge-schrieben
Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor
31321211101 bxbxbxb1y
A b c
(3 x 4) (4 x 1) (3 x 1)
1
24
26
2
1
2
1
8734
0682
8216
c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1
Addition und Subtraktion von Matrizen
bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B
21
21
45
12
43
22
13
24
23
05
67
01
12
43
22
13
24
23
A B C A B C
(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby
n
i
2
1
0
0
0
0
n
i
2
1
e
e
e
e
b)x(b
b)x(b
b)x(b
b)x(b
y
y
y
y
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Wir fassen zusammen
a Abhaumlngige Variable Einkommen (in 100 Euro)
Koeffizienten (a)
Modell
Nicht standardisierte Koeffizienten
Standardi-sierte
Koeffizien-ten T
Signifi-kanz
95-Konfidenz-intervall fuumlr B
BStandard-fehler Beta
Unter-grenze
Ober-grenze
1 (Konstante) 15000 1291 11619 000 11947 18053 Mittel-
schicht (D2)8333 1972 576 4226 004 3670 12996
Ober-schicht (D3)
15000 1972 1036 7606 000 10337 19663
yrsquoi = 15 + 8333 ∙ x1 + 15 ∙ x2
150450252203015030833322xbxbya 2211
Die Konstante a = 15 entspricht dem Mittelwert des Einkommens fuumlr die Unter-schicht die als Referenzgruppe dient Sind also Mittelschicht und Oberschicht = 0 erhalten wir den Vorhersagewert der Unterschicht der ihrem Mittelwert entspricht
30)yy(30)yy(yya UnterOberUnterMittelGesamtUnter
Referenzgruppe = Unterschicht
bzw
bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz
Ergo a + bj = Mittelwert der Gruppe j
UnterMittel1 yyb
UnterOber2 yyb
)yy(yy UnterMittelUnterMittel
)yy(yy UnterOberUnterOber
Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch
kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression
Unterschied - Erweiterung des einfachen Regressionsmodell
Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1
ei = yi - yrsquoi
yi = b0 + b1 ∙ xi + ei
Streudiagramm Gerade im zweidimensionalen Raum
r2 (Determinationskoeffizient)r2
korr (hier nicht relevant)
r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint
Multiple RegressionYX1 X2 hellip Xn
Stichprobe b0 bzw aStichprobe b1 b2 hellip bj
Grundgesamtheit β0 β1 β2 hellip βj
ei = yi - yrsquoi
yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei
Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar
R2 (Multipler Determinationskoeffizient)R2
korr (hier relevant)
R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)
Standardfehler fuumlr a und bj
F-Test T-Test Konfidenzintervall
Das Streudiagramm - Eine Ebene
yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2
Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird
2ie
In verkuumlrzter Schreibweise bzwXby
i eXby
Matrizennotation der multiplen Regression
In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind
BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem
nnmmnjj2n21n10n
iimmijj2i21i10i
2m2mj2j22221102
1m1mj1j12211101
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
Darstellbar als (Regressionsgleichung der Stichprobe)
mit
y = (n x 1)-Spaltenvektor
X = (n x m)-Beobachtungs- Messwertmatrix
b = (m x 1)-Spaltenvektor der Koeffizienten
e = (m x 1)-Spaltenvektor der Residuen
Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit
eXby
n
i
2
1
m
j
2
1
0
nm
m2
m1
nj1n
j221
j111
n
i
2
1
e
e
e
e
e
b
b
b
b
b
b
x
x
x
xx1
xx1
xx1
X
y
y
y
y
y
eXβy
Was ist eine Matrix
Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
333231
232221
131211
aaa
aaa
aaa
A
Ein Beispiel fuumlr eine Matrix
Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht
bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix
bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet
Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten
Was ist eine Matrix
Ein weiteres Beispiel fuumlr eine Matrix
Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip
Was ist ein Vektor
bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor
bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor
bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo
405
213A
Was ist ein Vektor
Ein Beispiel fuumlr ein Vektor
Zeilenvektor (Matrix der Ordnung 1 x 3)
Spaltenvektor (Matrix der Ordnung 4 x 1)
987a
11
8
5
2
a
Spezielle Matrizen
Quadratische Matrix(zB Korrelationsmatrix)
987
654
321
A
4764
7353
6522
4321
A
Symmetrische Matrix (zB Kovarianzmatrix)
4000
0300
0020
0001
A
Diagonalmatrix daalle Nicht-Diagonalelemente
gleich Null sind
1000
0100
0010
0001
I
Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente
gleich Null sind (zB sieht man oft (I-B-1))
1000
0100
0010
0001
3
3000
0300
0030
0003
A
Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente
gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar
3442
0351
0032
0003
A
Dreiecksmatrix da alle Elemente entweder uumlber (Obere
Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null
sind
Wir kommen zur multiplen Regression zuruumlck
bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)
Xby
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)
Parameter-Matrix
iyy Anmerkung
Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
eXby
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo
Multiplikation von Matrizen
bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht
bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)
A B C
45
45
45
45
1
1
1
8492746
32644442
8734
0682
8216
514
632
(2 x 3) (3 x 4) (2 x 4)
a brsquo C
c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8
c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4
(3 x 1) (1 x 2) (3 x 2)
arsquo B crsquo
1215
75
47
13
111
(1 x 3) (3 x 2) (1 x 2)
c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Die Gleichung der ersten Zeile lautet ausge-schrieben
Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor
31321211101 bxbxbxb1y
A b c
(3 x 4) (4 x 1) (3 x 1)
1
24
26
2
1
2
1
8734
0682
8216
c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1
Addition und Subtraktion von Matrizen
bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B
21
21
45
12
43
22
13
24
23
05
67
01
12
43
22
13
24
23
A B C A B C
(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby
n
i
2
1
0
0
0
0
n
i
2
1
e
e
e
e
b)x(b
b)x(b
b)x(b
b)x(b
y
y
y
y
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
bj (Steigungsparameter) = Mittelwert der Gruppe j - Mittelwert der Referenzgruppe bzw Mittelwertsdifferenz
Ergo a + bj = Mittelwert der Gruppe j
UnterMittel1 yyb
UnterOber2 yyb
)yy(yy UnterMittelUnterMittel
)yy(yy UnterOberUnterOber
Wir sind bereits in der multiplen Regressionsanalyse angelangtDort haben wir es in der Regel sowohl mit metrischen als auch
kategorialen X-Variablen kombiniert zu tun Wie unterscheidet sich die einfache Regression zur multiplen Regression
Unterschied - Erweiterung des einfachen Regressionsmodell
Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1
ei = yi - yrsquoi
yi = b0 + b1 ∙ xi + ei
Streudiagramm Gerade im zweidimensionalen Raum
r2 (Determinationskoeffizient)r2
korr (hier nicht relevant)
r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint
Multiple RegressionYX1 X2 hellip Xn
Stichprobe b0 bzw aStichprobe b1 b2 hellip bj
Grundgesamtheit β0 β1 β2 hellip βj
ei = yi - yrsquoi
yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei
Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar
R2 (Multipler Determinationskoeffizient)R2
korr (hier relevant)
R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)
Standardfehler fuumlr a und bj
F-Test T-Test Konfidenzintervall
Das Streudiagramm - Eine Ebene
yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2
Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird
2ie
In verkuumlrzter Schreibweise bzwXby
i eXby
Matrizennotation der multiplen Regression
In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind
BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem
nnmmnjj2n21n10n
iimmijj2i21i10i
2m2mj2j22221102
1m1mj1j12211101
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
Darstellbar als (Regressionsgleichung der Stichprobe)
mit
y = (n x 1)-Spaltenvektor
X = (n x m)-Beobachtungs- Messwertmatrix
b = (m x 1)-Spaltenvektor der Koeffizienten
e = (m x 1)-Spaltenvektor der Residuen
Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit
eXby
n
i
2
1
m
j
2
1
0
nm
m2
m1
nj1n
j221
j111
n
i
2
1
e
e
e
e
e
b
b
b
b
b
b
x
x
x
xx1
xx1
xx1
X
y
y
y
y
y
eXβy
Was ist eine Matrix
Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
333231
232221
131211
aaa
aaa
aaa
A
Ein Beispiel fuumlr eine Matrix
Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht
bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix
bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet
Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten
Was ist eine Matrix
Ein weiteres Beispiel fuumlr eine Matrix
Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip
Was ist ein Vektor
bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor
bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor
bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo
405
213A
Was ist ein Vektor
Ein Beispiel fuumlr ein Vektor
Zeilenvektor (Matrix der Ordnung 1 x 3)
Spaltenvektor (Matrix der Ordnung 4 x 1)
987a
11
8
5
2
a
Spezielle Matrizen
Quadratische Matrix(zB Korrelationsmatrix)
987
654
321
A
4764
7353
6522
4321
A
Symmetrische Matrix (zB Kovarianzmatrix)
4000
0300
0020
0001
A
Diagonalmatrix daalle Nicht-Diagonalelemente
gleich Null sind
1000
0100
0010
0001
I
Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente
gleich Null sind (zB sieht man oft (I-B-1))
1000
0100
0010
0001
3
3000
0300
0030
0003
A
Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente
gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar
3442
0351
0032
0003
A
Dreiecksmatrix da alle Elemente entweder uumlber (Obere
Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null
sind
Wir kommen zur multiplen Regression zuruumlck
bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)
Xby
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)
Parameter-Matrix
iyy Anmerkung
Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
eXby
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo
Multiplikation von Matrizen
bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht
bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)
A B C
45
45
45
45
1
1
1
8492746
32644442
8734
0682
8216
514
632
(2 x 3) (3 x 4) (2 x 4)
a brsquo C
c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8
c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4
(3 x 1) (1 x 2) (3 x 2)
arsquo B crsquo
1215
75
47
13
111
(1 x 3) (3 x 2) (1 x 2)
c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Die Gleichung der ersten Zeile lautet ausge-schrieben
Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor
31321211101 bxbxbxb1y
A b c
(3 x 4) (4 x 1) (3 x 1)
1
24
26
2
1
2
1
8734
0682
8216
c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1
Addition und Subtraktion von Matrizen
bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B
21
21
45
12
43
22
13
24
23
05
67
01
12
43
22
13
24
23
A B C A B C
(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby
n
i
2
1
0
0
0
0
n
i
2
1
e
e
e
e
b)x(b
b)x(b
b)x(b
b)x(b
y
y
y
y
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Unterschied - Erweiterung des einfachen Regressionsmodell
Einfache RegressionYXStichprobe b0 bzw aStichprobe b1 bzw bGrundgesamtheit β0 β1
ei = yi - yrsquoi
yi = b0 + b1 ∙ xi + ei
Streudiagramm Gerade im zweidimensionalen Raum
r2 (Determinationskoeffizient)r2
korr (hier nicht relevant)
r (Bivariate Korrelation)b (Regressionskoeffizient) und aBeta = r (Standardisierter b)Standardfehler fuumlr a und bF-Test T-Test Konfidenzint
Multiple RegressionYX1 X2 hellip Xn
Stichprobe b0 bzw aStichprobe b1 b2 hellip bj
Grundgesamtheit β0 β1 β2 hellip βj
ei = yi - yrsquoi
yi = b0 + b1 ∙ x1i + b2 ∙ x2i + + bj ∙ xji + ei
Streudiagramm Ebene im dreidimensionalen Raum ab 3 X-Variablen nicht mehr vorstellbar
R2 (Multipler Determinationskoeffizient)R2
korr (hier relevant)
R (Multiple Korrelation)bj (Partieller Regressionskoeffizient) und aBetaj ne R (standardisierter partieller b)
Standardfehler fuumlr a und bj
F-Test T-Test Konfidenzintervall
Das Streudiagramm - Eine Ebene
yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2
Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird
2ie
In verkuumlrzter Schreibweise bzwXby
i eXby
Matrizennotation der multiplen Regression
In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind
BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem
nnmmnjj2n21n10n
iimmijj2i21i10i
2m2mj2j22221102
1m1mj1j12211101
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
Darstellbar als (Regressionsgleichung der Stichprobe)
mit
y = (n x 1)-Spaltenvektor
X = (n x m)-Beobachtungs- Messwertmatrix
b = (m x 1)-Spaltenvektor der Koeffizienten
e = (m x 1)-Spaltenvektor der Residuen
Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit
eXby
n
i
2
1
m
j
2
1
0
nm
m2
m1
nj1n
j221
j111
n
i
2
1
e
e
e
e
e
b
b
b
b
b
b
x
x
x
xx1
xx1
xx1
X
y
y
y
y
y
eXβy
Was ist eine Matrix
Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
333231
232221
131211
aaa
aaa
aaa
A
Ein Beispiel fuumlr eine Matrix
Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht
bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix
bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet
Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten
Was ist eine Matrix
Ein weiteres Beispiel fuumlr eine Matrix
Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip
Was ist ein Vektor
bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor
bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor
bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo
405
213A
Was ist ein Vektor
Ein Beispiel fuumlr ein Vektor
Zeilenvektor (Matrix der Ordnung 1 x 3)
Spaltenvektor (Matrix der Ordnung 4 x 1)
987a
11
8
5
2
a
Spezielle Matrizen
Quadratische Matrix(zB Korrelationsmatrix)
987
654
321
A
4764
7353
6522
4321
A
Symmetrische Matrix (zB Kovarianzmatrix)
4000
0300
0020
0001
A
Diagonalmatrix daalle Nicht-Diagonalelemente
gleich Null sind
1000
0100
0010
0001
I
Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente
gleich Null sind (zB sieht man oft (I-B-1))
1000
0100
0010
0001
3
3000
0300
0030
0003
A
Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente
gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar
3442
0351
0032
0003
A
Dreiecksmatrix da alle Elemente entweder uumlber (Obere
Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null
sind
Wir kommen zur multiplen Regression zuruumlck
bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)
Xby
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)
Parameter-Matrix
iyy Anmerkung
Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
eXby
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo
Multiplikation von Matrizen
bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht
bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)
A B C
45
45
45
45
1
1
1
8492746
32644442
8734
0682
8216
514
632
(2 x 3) (3 x 4) (2 x 4)
a brsquo C
c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8
c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4
(3 x 1) (1 x 2) (3 x 2)
arsquo B crsquo
1215
75
47
13
111
(1 x 3) (3 x 2) (1 x 2)
c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Die Gleichung der ersten Zeile lautet ausge-schrieben
Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor
31321211101 bxbxbxb1y
A b c
(3 x 4) (4 x 1) (3 x 1)
1
24
26
2
1
2
1
8734
0682
8216
c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1
Addition und Subtraktion von Matrizen
bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B
21
21
45
12
43
22
13
24
23
05
67
01
12
43
22
13
24
23
A B C A B C
(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby
n
i
2
1
0
0
0
0
n
i
2
1
e
e
e
e
b)x(b
b)x(b
b)x(b
b)x(b
y
y
y
y
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Das Streudiagramm - Eine Ebene
yrsquoi = 573 - 051 ∙ x1 + 076 ∙ x2
Die Grundidee der OLS-Schaumlt-zung besteht auch hier bj so zu waumlhlen dass die Summe der quadrierten Abweichungen in der Stichprobe (dh ) so klein wie moumlglich wird
2ie
In verkuumlrzter Schreibweise bzwXby
i eXby
Matrizennotation der multiplen Regression
In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind
BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem
nnmmnjj2n21n10n
iimmijj2i21i10i
2m2mj2j22221102
1m1mj1j12211101
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
Darstellbar als (Regressionsgleichung der Stichprobe)
mit
y = (n x 1)-Spaltenvektor
X = (n x m)-Beobachtungs- Messwertmatrix
b = (m x 1)-Spaltenvektor der Koeffizienten
e = (m x 1)-Spaltenvektor der Residuen
Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit
eXby
n
i
2
1
m
j
2
1
0
nm
m2
m1
nj1n
j221
j111
n
i
2
1
e
e
e
e
e
b
b
b
b
b
b
x
x
x
xx1
xx1
xx1
X
y
y
y
y
y
eXβy
Was ist eine Matrix
Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
333231
232221
131211
aaa
aaa
aaa
A
Ein Beispiel fuumlr eine Matrix
Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht
bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix
bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet
Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten
Was ist eine Matrix
Ein weiteres Beispiel fuumlr eine Matrix
Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip
Was ist ein Vektor
bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor
bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor
bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo
405
213A
Was ist ein Vektor
Ein Beispiel fuumlr ein Vektor
Zeilenvektor (Matrix der Ordnung 1 x 3)
Spaltenvektor (Matrix der Ordnung 4 x 1)
987a
11
8
5
2
a
Spezielle Matrizen
Quadratische Matrix(zB Korrelationsmatrix)
987
654
321
A
4764
7353
6522
4321
A
Symmetrische Matrix (zB Kovarianzmatrix)
4000
0300
0020
0001
A
Diagonalmatrix daalle Nicht-Diagonalelemente
gleich Null sind
1000
0100
0010
0001
I
Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente
gleich Null sind (zB sieht man oft (I-B-1))
1000
0100
0010
0001
3
3000
0300
0030
0003
A
Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente
gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar
3442
0351
0032
0003
A
Dreiecksmatrix da alle Elemente entweder uumlber (Obere
Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null
sind
Wir kommen zur multiplen Regression zuruumlck
bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)
Xby
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)
Parameter-Matrix
iyy Anmerkung
Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
eXby
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo
Multiplikation von Matrizen
bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht
bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)
A B C
45
45
45
45
1
1
1
8492746
32644442
8734
0682
8216
514
632
(2 x 3) (3 x 4) (2 x 4)
a brsquo C
c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8
c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4
(3 x 1) (1 x 2) (3 x 2)
arsquo B crsquo
1215
75
47
13
111
(1 x 3) (3 x 2) (1 x 2)
c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Die Gleichung der ersten Zeile lautet ausge-schrieben
Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor
31321211101 bxbxbxb1y
A b c
(3 x 4) (4 x 1) (3 x 1)
1
24
26
2
1
2
1
8734
0682
8216
c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1
Addition und Subtraktion von Matrizen
bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B
21
21
45
12
43
22
13
24
23
05
67
01
12
43
22
13
24
23
A B C A B C
(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby
n
i
2
1
0
0
0
0
n
i
2
1
e
e
e
e
b)x(b
b)x(b
b)x(b
b)x(b
y
y
y
y
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Matrizennotation der multiplen Regression
In den multivariaten Verfahren hat man mit groszligen Gleichungssystemen zu tun Mit diesen zu rechnen ist sehr aufwendig Man bedient sich zur Vereinfachung der Matrizenrechnung innerhalb derer die Gleichungs-systeme besser handhabbar sind
BeispielFuumlr n Personen i (i = 1 n) ergibt sich bei m Variablen j (j = 1 m) folgendes Gleichungssystem
nnmmnjj2n21n10n
iimmijj2i21i10i
2m2mj2j22221102
1m1mj1j12211101
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
exbxbxbxbby
Darstellbar als (Regressionsgleichung der Stichprobe)
mit
y = (n x 1)-Spaltenvektor
X = (n x m)-Beobachtungs- Messwertmatrix
b = (m x 1)-Spaltenvektor der Koeffizienten
e = (m x 1)-Spaltenvektor der Residuen
Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit
eXby
n
i
2
1
m
j
2
1
0
nm
m2
m1
nj1n
j221
j111
n
i
2
1
e
e
e
e
e
b
b
b
b
b
b
x
x
x
xx1
xx1
xx1
X
y
y
y
y
y
eXβy
Was ist eine Matrix
Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
333231
232221
131211
aaa
aaa
aaa
A
Ein Beispiel fuumlr eine Matrix
Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht
bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix
bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet
Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten
Was ist eine Matrix
Ein weiteres Beispiel fuumlr eine Matrix
Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip
Was ist ein Vektor
bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor
bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor
bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo
405
213A
Was ist ein Vektor
Ein Beispiel fuumlr ein Vektor
Zeilenvektor (Matrix der Ordnung 1 x 3)
Spaltenvektor (Matrix der Ordnung 4 x 1)
987a
11
8
5
2
a
Spezielle Matrizen
Quadratische Matrix(zB Korrelationsmatrix)
987
654
321
A
4764
7353
6522
4321
A
Symmetrische Matrix (zB Kovarianzmatrix)
4000
0300
0020
0001
A
Diagonalmatrix daalle Nicht-Diagonalelemente
gleich Null sind
1000
0100
0010
0001
I
Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente
gleich Null sind (zB sieht man oft (I-B-1))
1000
0100
0010
0001
3
3000
0300
0030
0003
A
Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente
gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar
3442
0351
0032
0003
A
Dreiecksmatrix da alle Elemente entweder uumlber (Obere
Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null
sind
Wir kommen zur multiplen Regression zuruumlck
bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)
Xby
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)
Parameter-Matrix
iyy Anmerkung
Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
eXby
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo
Multiplikation von Matrizen
bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht
bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)
A B C
45
45
45
45
1
1
1
8492746
32644442
8734
0682
8216
514
632
(2 x 3) (3 x 4) (2 x 4)
a brsquo C
c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8
c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4
(3 x 1) (1 x 2) (3 x 2)
arsquo B crsquo
1215
75
47
13
111
(1 x 3) (3 x 2) (1 x 2)
c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Die Gleichung der ersten Zeile lautet ausge-schrieben
Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor
31321211101 bxbxbxb1y
A b c
(3 x 4) (4 x 1) (3 x 1)
1
24
26
2
1
2
1
8734
0682
8216
c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1
Addition und Subtraktion von Matrizen
bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B
21
21
45
12
43
22
13
24
23
05
67
01
12
43
22
13
24
23
A B C A B C
(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby
n
i
2
1
0
0
0
0
n
i
2
1
e
e
e
e
b)x(b
b)x(b
b)x(b
b)x(b
y
y
y
y
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Darstellbar als (Regressionsgleichung der Stichprobe)
mit
y = (n x 1)-Spaltenvektor
X = (n x m)-Beobachtungs- Messwertmatrix
b = (m x 1)-Spaltenvektor der Koeffizienten
e = (m x 1)-Spaltenvektor der Residuen
Das Pendant dazu ist die Regressionsgleichung der Grundgesamtheit
eXby
n
i
2
1
m
j
2
1
0
nm
m2
m1
nj1n
j221
j111
n
i
2
1
e
e
e
e
e
b
b
b
b
b
b
x
x
x
xx1
xx1
xx1
X
y
y
y
y
y
eXβy
Was ist eine Matrix
Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
333231
232221
131211
aaa
aaa
aaa
A
Ein Beispiel fuumlr eine Matrix
Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht
bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix
bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet
Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten
Was ist eine Matrix
Ein weiteres Beispiel fuumlr eine Matrix
Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip
Was ist ein Vektor
bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor
bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor
bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo
405
213A
Was ist ein Vektor
Ein Beispiel fuumlr ein Vektor
Zeilenvektor (Matrix der Ordnung 1 x 3)
Spaltenvektor (Matrix der Ordnung 4 x 1)
987a
11
8
5
2
a
Spezielle Matrizen
Quadratische Matrix(zB Korrelationsmatrix)
987
654
321
A
4764
7353
6522
4321
A
Symmetrische Matrix (zB Kovarianzmatrix)
4000
0300
0020
0001
A
Diagonalmatrix daalle Nicht-Diagonalelemente
gleich Null sind
1000
0100
0010
0001
I
Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente
gleich Null sind (zB sieht man oft (I-B-1))
1000
0100
0010
0001
3
3000
0300
0030
0003
A
Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente
gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar
3442
0351
0032
0003
A
Dreiecksmatrix da alle Elemente entweder uumlber (Obere
Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null
sind
Wir kommen zur multiplen Regression zuruumlck
bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)
Xby
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)
Parameter-Matrix
iyy Anmerkung
Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
eXby
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo
Multiplikation von Matrizen
bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht
bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)
A B C
45
45
45
45
1
1
1
8492746
32644442
8734
0682
8216
514
632
(2 x 3) (3 x 4) (2 x 4)
a brsquo C
c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8
c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4
(3 x 1) (1 x 2) (3 x 2)
arsquo B crsquo
1215
75
47
13
111
(1 x 3) (3 x 2) (1 x 2)
c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Die Gleichung der ersten Zeile lautet ausge-schrieben
Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor
31321211101 bxbxbxb1y
A b c
(3 x 4) (4 x 1) (3 x 1)
1
24
26
2
1
2
1
8734
0682
8216
c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1
Addition und Subtraktion von Matrizen
bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B
21
21
45
12
43
22
13
24
23
05
67
01
12
43
22
13
24
23
A B C A B C
(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby
n
i
2
1
0
0
0
0
n
i
2
1
e
e
e
e
b)x(b
b)x(b
b)x(b
b)x(b
y
y
y
y
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Was ist eine Matrix
Wir kennen ja die Bezeichnung KorrelationsMATRIX KovarianzMATRIX
333231
232221
131211
aaa
aaa
aaa
A
Ein Beispiel fuumlr eine Matrix
Der erste Index gibt an in welcher Zeile der Matrix und der zweite Index in welcher Spalte der Matrix das Element steht
bull Eine rechteckige Anordnung von Elemente bzw Zahlen aij in mehreren Zeilen und Spalten bezeichnet man als eine Matrix
bull Die Gesamtmatrix wird durch einen fettgedruckten Groszligbuchstaben (zB A) gekennzeichnet
Die Anzahl der Zeilen und Spalten gibt die Groumlszlige bzw Ordnung der Matrix an- Eine (n x m)-Matrix hat n Zeilen und m Spalten- Eine (2 x 3)-Matrix umfasst also 2 Zeilen und 3 Spalten
Was ist eine Matrix
Ein weiteres Beispiel fuumlr eine Matrix
Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip
Was ist ein Vektor
bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor
bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor
bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo
405
213A
Was ist ein Vektor
Ein Beispiel fuumlr ein Vektor
Zeilenvektor (Matrix der Ordnung 1 x 3)
Spaltenvektor (Matrix der Ordnung 4 x 1)
987a
11
8
5
2
a
Spezielle Matrizen
Quadratische Matrix(zB Korrelationsmatrix)
987
654
321
A
4764
7353
6522
4321
A
Symmetrische Matrix (zB Kovarianzmatrix)
4000
0300
0020
0001
A
Diagonalmatrix daalle Nicht-Diagonalelemente
gleich Null sind
1000
0100
0010
0001
I
Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente
gleich Null sind (zB sieht man oft (I-B-1))
1000
0100
0010
0001
3
3000
0300
0030
0003
A
Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente
gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar
3442
0351
0032
0003
A
Dreiecksmatrix da alle Elemente entweder uumlber (Obere
Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null
sind
Wir kommen zur multiplen Regression zuruumlck
bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)
Xby
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)
Parameter-Matrix
iyy Anmerkung
Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
eXby
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo
Multiplikation von Matrizen
bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht
bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)
A B C
45
45
45
45
1
1
1
8492746
32644442
8734
0682
8216
514
632
(2 x 3) (3 x 4) (2 x 4)
a brsquo C
c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8
c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4
(3 x 1) (1 x 2) (3 x 2)
arsquo B crsquo
1215
75
47
13
111
(1 x 3) (3 x 2) (1 x 2)
c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Die Gleichung der ersten Zeile lautet ausge-schrieben
Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor
31321211101 bxbxbxb1y
A b c
(3 x 4) (4 x 1) (3 x 1)
1
24
26
2
1
2
1
8734
0682
8216
c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1
Addition und Subtraktion von Matrizen
bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B
21
21
45
12
43
22
13
24
23
05
67
01
12
43
22
13
24
23
A B C A B C
(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby
n
i
2
1
0
0
0
0
n
i
2
1
e
e
e
e
b)x(b
b)x(b
b)x(b
b)x(b
y
y
y
y
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Was ist eine Matrix
Ein weiteres Beispiel fuumlr eine Matrix
Ihre Elemente sind zB a11 = 3 a21 = -5 a23 = 4 hellip
Was ist ein Vektor
bull Besteht eine Matrix aus nur einer Zeile so bezeichnet man sie als Zeilenvektor Es liegt eine (1 x m)-Matrix vor
bull Besteht eine Matrix aus nur einer Spalte so bezeichnet man sie als Spaltenvektor Es liegt eine (n x 1)-Matrix vor
bull Ein Vektor ist durch einen fetten Kleinbuchstaben gekennzeich-net ein Zeilenvektor ist zusaumltzlich durch ein Apostroph gekenn-zeichnet also bspw arsquo
405
213A
Was ist ein Vektor
Ein Beispiel fuumlr ein Vektor
Zeilenvektor (Matrix der Ordnung 1 x 3)
Spaltenvektor (Matrix der Ordnung 4 x 1)
987a
11
8
5
2
a
Spezielle Matrizen
Quadratische Matrix(zB Korrelationsmatrix)
987
654
321
A
4764
7353
6522
4321
A
Symmetrische Matrix (zB Kovarianzmatrix)
4000
0300
0020
0001
A
Diagonalmatrix daalle Nicht-Diagonalelemente
gleich Null sind
1000
0100
0010
0001
I
Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente
gleich Null sind (zB sieht man oft (I-B-1))
1000
0100
0010
0001
3
3000
0300
0030
0003
A
Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente
gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar
3442
0351
0032
0003
A
Dreiecksmatrix da alle Elemente entweder uumlber (Obere
Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null
sind
Wir kommen zur multiplen Regression zuruumlck
bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)
Xby
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)
Parameter-Matrix
iyy Anmerkung
Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
eXby
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo
Multiplikation von Matrizen
bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht
bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)
A B C
45
45
45
45
1
1
1
8492746
32644442
8734
0682
8216
514
632
(2 x 3) (3 x 4) (2 x 4)
a brsquo C
c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8
c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4
(3 x 1) (1 x 2) (3 x 2)
arsquo B crsquo
1215
75
47
13
111
(1 x 3) (3 x 2) (1 x 2)
c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Die Gleichung der ersten Zeile lautet ausge-schrieben
Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor
31321211101 bxbxbxb1y
A b c
(3 x 4) (4 x 1) (3 x 1)
1
24
26
2
1
2
1
8734
0682
8216
c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1
Addition und Subtraktion von Matrizen
bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B
21
21
45
12
43
22
13
24
23
05
67
01
12
43
22
13
24
23
A B C A B C
(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby
n
i
2
1
0
0
0
0
n
i
2
1
e
e
e
e
b)x(b
b)x(b
b)x(b
b)x(b
y
y
y
y
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Was ist ein Vektor
Ein Beispiel fuumlr ein Vektor
Zeilenvektor (Matrix der Ordnung 1 x 3)
Spaltenvektor (Matrix der Ordnung 4 x 1)
987a
11
8
5
2
a
Spezielle Matrizen
Quadratische Matrix(zB Korrelationsmatrix)
987
654
321
A
4764
7353
6522
4321
A
Symmetrische Matrix (zB Kovarianzmatrix)
4000
0300
0020
0001
A
Diagonalmatrix daalle Nicht-Diagonalelemente
gleich Null sind
1000
0100
0010
0001
I
Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente
gleich Null sind (zB sieht man oft (I-B-1))
1000
0100
0010
0001
3
3000
0300
0030
0003
A
Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente
gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar
3442
0351
0032
0003
A
Dreiecksmatrix da alle Elemente entweder uumlber (Obere
Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null
sind
Wir kommen zur multiplen Regression zuruumlck
bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)
Xby
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)
Parameter-Matrix
iyy Anmerkung
Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
eXby
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo
Multiplikation von Matrizen
bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht
bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)
A B C
45
45
45
45
1
1
1
8492746
32644442
8734
0682
8216
514
632
(2 x 3) (3 x 4) (2 x 4)
a brsquo C
c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8
c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4
(3 x 1) (1 x 2) (3 x 2)
arsquo B crsquo
1215
75
47
13
111
(1 x 3) (3 x 2) (1 x 2)
c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Die Gleichung der ersten Zeile lautet ausge-schrieben
Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor
31321211101 bxbxbxb1y
A b c
(3 x 4) (4 x 1) (3 x 1)
1
24
26
2
1
2
1
8734
0682
8216
c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1
Addition und Subtraktion von Matrizen
bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B
21
21
45
12
43
22
13
24
23
05
67
01
12
43
22
13
24
23
A B C A B C
(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby
n
i
2
1
0
0
0
0
n
i
2
1
e
e
e
e
b)x(b
b)x(b
b)x(b
b)x(b
y
y
y
y
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Spezielle Matrizen
Quadratische Matrix(zB Korrelationsmatrix)
987
654
321
A
4764
7353
6522
4321
A
Symmetrische Matrix (zB Kovarianzmatrix)
4000
0300
0020
0001
A
Diagonalmatrix daalle Nicht-Diagonalelemente
gleich Null sind
1000
0100
0010
0001
I
Einheitsmatrix (I) da alle Diagonalelemente gleich eins und Nicht-Diagonalelemente
gleich Null sind (zB sieht man oft (I-B-1))
1000
0100
0010
0001
3
3000
0300
0030
0003
A
Skalarmatrix da alle Diagonalelemente gleich gt eins und Nicht-Diagonalelemente
gleich Null sind Diese Matrix kann ge-schrieben werden als A = k middot I k = Skalar
3442
0351
0032
0003
A
Dreiecksmatrix da alle Elemente entweder uumlber (Obere
Dreiecksmatrix) oder unter (Untere Dreiecksmatrix) der Hauptdiagonalen gleich Null
sind
Wir kommen zur multiplen Regression zuruumlck
bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)
Xby
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)
Parameter-Matrix
iyy Anmerkung
Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
eXby
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo
Multiplikation von Matrizen
bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht
bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)
A B C
45
45
45
45
1
1
1
8492746
32644442
8734
0682
8216
514
632
(2 x 3) (3 x 4) (2 x 4)
a brsquo C
c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8
c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4
(3 x 1) (1 x 2) (3 x 2)
arsquo B crsquo
1215
75
47
13
111
(1 x 3) (3 x 2) (1 x 2)
c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Die Gleichung der ersten Zeile lautet ausge-schrieben
Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor
31321211101 bxbxbxb1y
A b c
(3 x 4) (4 x 1) (3 x 1)
1
24
26
2
1
2
1
8734
0682
8216
c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1
Addition und Subtraktion von Matrizen
bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B
21
21
45
12
43
22
13
24
23
05
67
01
12
43
22
13
24
23
A B C A B C
(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby
n
i
2
1
0
0
0
0
n
i
2
1
e
e
e
e
b)x(b
b)x(b
b)x(b
b)x(b
y
y
y
y
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Wir kommen zur multiplen Regression zuruumlck
bull Wenn man mehr als eine unabhaumlngige Praumldiktorvariable in das Regressionsmodell aufnimmt erhaumllt man eine multiple lineare Regression der Form (Schaumltzer fuumlr y-Werte)
Xby
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Messwert-Matrix (ist im Grunde die SPSS-Datenmatrix)
Parameter-Matrix
iyy Anmerkung
Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
eXby
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo
Multiplikation von Matrizen
bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht
bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)
A B C
45
45
45
45
1
1
1
8492746
32644442
8734
0682
8216
514
632
(2 x 3) (3 x 4) (2 x 4)
a brsquo C
c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8
c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4
(3 x 1) (1 x 2) (3 x 2)
arsquo B crsquo
1215
75
47
13
111
(1 x 3) (3 x 2) (1 x 2)
c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Die Gleichung der ersten Zeile lautet ausge-schrieben
Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor
31321211101 bxbxbxb1y
A b c
(3 x 4) (4 x 1) (3 x 1)
1
24
26
2
1
2
1
8734
0682
8216
c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1
Addition und Subtraktion von Matrizen
bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B
21
21
45
12
43
22
13
24
23
05
67
01
12
43
22
13
24
23
A B C A B C
(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby
n
i
2
1
0
0
0
0
n
i
2
1
e
e
e
e
b)x(b
b)x(b
b)x(b
b)x(b
y
y
y
y
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Y besteht aus dem Schaumltzwert zuzuumlglich eines Fehlerterms e also
eXby
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
Wir muumlssen uns die grundlegenden Rechenoperationen bdquoMultiplikation und Additionldquo ansehenHier bdquoMatrix ∙ Spaltenvektorldquo sowie bdquoSpaltenvektor + Spaltenvektorldquo
Multiplikation von Matrizen
bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht
bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)
A B C
45
45
45
45
1
1
1
8492746
32644442
8734
0682
8216
514
632
(2 x 3) (3 x 4) (2 x 4)
a brsquo C
c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8
c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4
(3 x 1) (1 x 2) (3 x 2)
arsquo B crsquo
1215
75
47
13
111
(1 x 3) (3 x 2) (1 x 2)
c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Die Gleichung der ersten Zeile lautet ausge-schrieben
Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor
31321211101 bxbxbxb1y
A b c
(3 x 4) (4 x 1) (3 x 1)
1
24
26
2
1
2
1
8734
0682
8216
c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1
Addition und Subtraktion von Matrizen
bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B
21
21
45
12
43
22
13
24
23
05
67
01
12
43
22
13
24
23
A B C A B C
(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby
n
i
2
1
0
0
0
0
n
i
2
1
e
e
e
e
b)x(b
b)x(b
b)x(b
b)x(b
y
y
y
y
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Multiplikation von Matrizen
bull Zwei Matrizen A und B koumlnnen genau dann die Produktmatrix C = AmiddotB erzeugen wenn die Anzahl der Spalten von A (der linksstehenden Matrix) der Anzahl der Zeilen von B (der rechtsstehenden Matrix) entspricht
bull Wichtig Die Matrizenmultiplikation ist nicht kommutativ dh es gilt A(n x m) B(m x p) = C(n x p)
A B C
45
45
45
45
1
1
1
8492746
32644442
8734
0682
8216
514
632
(2 x 3) (3 x 4) (2 x 4)
a brsquo C
c11 = (2 middot 6) + (3 middot 2) + (6 middot 4) = 42c12 = (2 middot 1) + (3 middot 8) + (6 middot 3) = 44c24 = (4 middot 8) + (1 middot 0) + (5 middot (-8)) = -8
c11 = (1 middot 5) = 5c12 = (1 middot 4) = 4c32 = (1 middot 4) = 4
(3 x 1) (1 x 2) (3 x 2)
arsquo B crsquo
1215
75
47
13
111
(1 x 3) (3 x 2) (1 x 2)
c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Die Gleichung der ersten Zeile lautet ausge-schrieben
Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor
31321211101 bxbxbxb1y
A b c
(3 x 4) (4 x 1) (3 x 1)
1
24
26
2
1
2
1
8734
0682
8216
c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1
Addition und Subtraktion von Matrizen
bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B
21
21
45
12
43
22
13
24
23
05
67
01
12
43
22
13
24
23
A B C A B C
(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby
n
i
2
1
0
0
0
0
n
i
2
1
e
e
e
e
b)x(b
b)x(b
b)x(b
b)x(b
y
y
y
y
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
arsquo B crsquo
1215
75
47
13
111
(1 x 3) (3 x 2) (1 x 2)
c11 = (1 middot 3) + (1 middot 7) + (1 middot 5) = 15c12 = (1 middot 1) + (1 middot 4) + (1 middot 7) = 12
3X2X1X
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
Die Gleichung der ersten Zeile lautet ausge-schrieben
Es resultieren so viele Einzelgleichungen wie auch Faumllle (n) vorhanden sind bzw ein (n x 1)-Zeilenvektor
31321211101 bxbxbxb1y
A b c
(3 x 4) (4 x 1) (3 x 1)
1
24
26
2
1
2
1
8734
0682
8216
c11 = (6 middot 1) + (1 middot 2) + (2 middot 1) + (8 middot 2) = 26c21 = (2 middot 1) + (8 middot 2) + (6 middot 1) + (0 middot 2) = 24c31 = (4 middot 1) + (3 middot 2) + (7 middot 1) + ((-8) middot 2) = 1
Addition und Subtraktion von Matrizen
bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B
21
21
45
12
43
22
13
24
23
05
67
01
12
43
22
13
24
23
A B C A B C
(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby
n
i
2
1
0
0
0
0
n
i
2
1
e
e
e
e
b)x(b
b)x(b
b)x(b
b)x(b
y
y
y
y
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Addition und Subtraktion von Matrizen
bull Die Matrizen A und B muumlssen die gleiche OrdnungGroumlszlige aufweisen Das Ergebnis der Addition bzw Subtraktion ist die Matrix C der gleichen Ordnung wie A und B
21
21
45
12
43
22
13
24
23
05
67
01
12
43
22
13
24
23
A B C A B C
(3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2) (3 x 2)
n
i
2
1
3
2
1
0
3n2n1n
3i2i1i
232221
131211
n
i
2
1
e
e
e
e
b
b
bb
xxx
xxx
xxx
xxx
1
1
1
1
y
y
y
y
(n x 1)-Zeilenvektor Die Gleichung der ersten Zeile lautet ausge-schrieben 131321211101 ebxbxbxby
n
i
2
1
0
0
0
0
n
i
2
1
e
e
e
e
b)x(b
b)x(b
b)x(b
b)x(b
y
y
y
y
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Zum Abschluss noch weiteres Grundlegendes
Transponieren einer Matrixbull Werden die Zeilen und Spalten einer (n x m)-Matrix B vertauscht so
entsteht die zu B transponierte Matrix oder die Transponierte von B bull Brsquo ist eine (m x n)-Matrix wenn B eine (n x m)-Matrix ist
121110
987
654
321
B
12963
11852
10741
B
Und ein paar Begrifflichkeiten die wir nicht naumlher eroumlrtern koumlnnenbull Inverse einer Matrix BReziprokmatrix von B B-1
- hierbei benoumltigt man die Determinante der Matrix B |B| (Determinante sollte immer ungleich Null sein dh die Matrix ist dann nicht singulaumlr) sowie die Adjustierte Matrix von B adj(B) und den Rang einer Matrix
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Wir schauen und nun die Kennwerte der multiplen Regression an
bull R2 (Multipler Determinationskoeffizient)bull R2
korr (hier relevant) Diesen kennen wir bereits
bull R (Multiple Korrelation)bull bj (Partieller Regressionskoeffizient) und a
bull Betaj ne r (standardisierter partieller b)
bull Standardfehlerbull F-Test T-Test Beide Tests unterscheiden sich zur einfachen
Regression Das wissen wir bereits bull Konfidenzintervall
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Multipler Determinationskoeffizient R2
Der Wertebereich ist [0 +1]
Interpretation R2 besagt dass die Variablen X1 bis Xn (R2 ∙ 100) die Variation der Variable Y linear erklaumlren bzw determinieren
1JK
)R(1JRR
222
korr
Der korrigierte R2-Wert berechnet sich unveraumlndert
bull R2 ist idR immer kleiner als die Summe der einzelnen Determinations-koeffizienten weil ua die Korrelation der Praumldiktoren untereinander herauspartialisiert (herausgerechnet) wird (siehe im Detail Betaj)
yxj
2 rsPearsonBetaationGesamtvari
VariationErklaumlrteR
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Multipler Korrelationskoeffizient R
yxj2 rsPearsonBetaRR
Der Wertebereich ist weiterhin [-1 +1] wobei R in SPSS vorzeichenlos ist
bull R erfasst den Zusammenhang zwischen den k unabhaumlngigen Variablen und der abhaumlngigen Variablen R ist ebenfalls um die Korrelationen der Praumldiktoren untereinander bereinigt (siehe im Detail Betaj)
bull Berechnet man zwischen den vorhergesagten yrsquo-Werten und den erhobenen y-Werten eine bivariate Produkt-Moment-Korrelation erhaumllt man als Resultat die multiple Korrelation
bull Es gilt nicht wie in der einfachen linearen Regressionsanalyse unter Zugrunde-legung von z-transformierten Variablen dass Beta = r = cov(xy) sondern lediglich dass a = 0 ist
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
1) Pearsonrsquos ryx Korrelation ohne Partialisierung (uumlbersetzt Heraus-rechnung Bereinigung)
2) Partielle Korrelation bull gibt die Korrelation zwischen Y und X1 unter KONSTANTHALTUNG
aller anderen Variablen (hier X2) an Dh der Einfluss von X2 wird aus Y und X1 herausgerechnet (herauspartialisiert)
bull Man berechnet die Korrelation der Regressionsresiduen die sich aus der Regression X2 X1 und X2 Y ergeben
bull Zudem r ist maszliggeblich fuumlr die Aufnahme der 1 unabhaumlngigen Variable in der Schrittweisen Methode Nach der partiellen Korrelation richtet sich die Aufnahme der 2 3 4 etc unabhaumlngigen Variable
3) Semipartielle Korrelation (ry(x1-x2)) Der Einfluss von X2 wird nur aus X1 aber nicht aus Y herausgerechnet ist relevant fuumlr R2 jedes einzelnen X
22x1x
22yx
2x1x2yx1yx2x1yx
r1r1
rrrr
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Standardisierter partieller Regressionskoeffizient Betajbull gibt den Einfluss von X1 auf Y nach Herauspartialisierung des Ein-
flusses aller anderen Variablen (hier X2) an
22x1x
2x1x2yx1yx2x1yx r1
rrrBeta
Partialisierung im Drei-Variablen-Fall (X1 X2 und Y)
Beta ist (1) um die Korrelation der Praumldiktoren untereinander (rx1x2) sowie (2) um die Korrelation der uumlbrigen Praumldiktoren (hier X2) mit Y (ryx2) bereinigt Der Einfluss von X2 wird aus X1 und Y herausge-rechnet
Partieller Regressionskoeffizient bj
x
yjj s
sBetab
y
xjj s
sbBeta
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
2211 xbxbya
Regressionskonstante a bzw b0
44332211 xbxbxbxbya
Interpretation a spiegelt den Erwartungswert fuumlr Y wider unter der Bedingung dass die X-Variablen (X1 bis Xn) den Wert Null annehmen
Bei 2 unabhaumlngigen Variablen
Bei 4 unabhaumlngigen Variablen
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull a = Erwartungswert fuumlr Y wenn X den Wert Null annimmt (zB Mittelschicht = 0 und Oberschicht = 0 und Alter = 0)
bull Dh fuumlr Personen der Unterschicht (Code = 1) wird im Durchschnitt ein Einkommen von a erwartet wenn sie ein Alter von 0 aufweisen (ne Mittelwert der Referenzgruppe)
xbya a in der einfachen Regression
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Beispiel metrische und kategoriale X-Variablen Y = Einkommen
bull bMittelschicht Oberschicht = unabhaumlngig vom Alter (unter Kontrolle Konstanthaltung des Alters) wird ein AnstiegAbstieg des Einkommens bei den betrachteten Gruppen j (zB Mittel- und Oberschicht im Vergleich zur Referenzgruppe Unterschicht) erwartet (ne Mittelwertsdifferenz der Gruppe j zur Referenzgruppe)
bull bAlter = unabhaumlngig von der Schichtzugehoumlrigkeit (fuumlr alle 3 betrachteten Gruppen Unter- Mittel- und Oberschicht) wird ein AnstiegAbstieg des Einkommens bei steigendem Alter um b Einheiten erwartet
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Der Standardfehler von bj (sbj) =
Standardfehler
)r(1ns1JK
)y(y
bvonVarianz2
2X1X2x
2ii
neu
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Zur Erinnerung F-Test
F-Test in der multiplen Regressionsanalyse
bull Die Nullhypothese H0 lautet β1 = β2 = hellip = βj = 0
bull Die Alternativhypothese H1 lautet mindestens ein β-Parameter ne 0 (β0 ist nicht eingeschlossen)
Unveraumlnderte Formel
1)J(KVariationerklaumlrteNicht
JVariationErklaumlrteFempirisch
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Zur Erinnerung T-Test
T-Test in der multiplen Regressionsanalysebull Es werden so viele T-Tests durchgefuumlhrt wie auch Regressions-
parameter im Modell (b0 und bj) vorhanden sind
bull Die Nullhypothese H0 lautet β0 = 0 β1 = 0 hellip βj = 0
bull Die Alternativhypothese H1 lautet β0 ne 0 β1 ne 0 hellip βj ne 0
Unveraumlnderte Formel
bempirisch s
bt
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Zudem
Auch werden so viele Konfidenzintervalle berechnet wie Regressions-parameter im Modell (b0 und bj) vorhanden sind
Unveraumlnderte Formel
bb stbβstb
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Darstellung der Ergebnisse in der Praxis
- Ein paar Beispiele -
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Darstellungsbeispiel I zur linearen Regressionsanalyse WasmerKoch (2000 S 272)
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Darstellungsbeispiel II zur linearen Regressionsanalyse BergmannErb (2000 S 428)
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Darstellungsbeispiel III zur linearen Regressionsanalyse Luumldemann (2000 S 386)
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Darstellungsbeispiel IV zur linearen Regressionsanalyse AlbaJohnson (2000 S 244)
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant
Tabellarische Aufbereitung der Ergebnisse
bull Korrelationen (optional)bull bj und βj (Betaj) also die un- und standardisierten Regressionskoeffizientenbull Konstante a (uneinheitlich)bull Signifikanzen bzw T-Wert (uneinheitlich) aber idR
Erlaumluterung unterhalb der Tabelle platziert
bull R2 bzw korrigiertes (adjusted) R2
bull N (in Tabelle oder Text)
bull Bei Dummyvariablen Referenzkategorie ausgewiesen
Signifikanzniveau Bedeutung Symbolisierung
p gt 005 nicht signifikant ns ns
p le 005 signifikant
p le 001 hoch signifikant
p le 0001 houmlchst signifikant