1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005.
-
Upload
waldo-agena -
Category
Documents
-
view
109 -
download
0
Transcript of 1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005.
1
STATISIK
LV Nr.: 0021
WS 2005/06
10. November 2005
2
Regressionsanalyse
• Beziehung zwischen zwei oder mehr metrisch skalierten Merkmalen.
• Art der Abhängigkeit bestimmen, mathematische Funktion, durch die sich die Abhängigkeit zwischen den Variablen am besten beschreiben lässt.
3
Regressionsanalyse
• Abhängige Variable (Regressand): Y – „zu erklärende Variable“
• Unabhängige Variable/n (Regressor): X – „erklärende Variable/n“
• Regressionsfunktion: Mathematische Funktion, die die Abhängigkeit zwischen den Variablen beschreibt.
• Regression von Y auf X, Y=f(X).
4
Regressionsanalyse
• Art der Beziehung zw. den Variablen?
• Welche Form hat die Regressionsfunktion?
• Antworten darauf aus: – Theorie – Empirische Beobachtung, z.B. Punktwolke
zeichnen, welche Funktion passt sich gut an die Punktwolke an? Durch welche Funktion lässt sich die Grundtendenz des Zusammenhangs darstellen?
5
Regressionsanalyse
• Punktwolke
• Regressionsfunktion
40
50
60
70
80
90
100
110
150 160 170 180 190 200 210
Körpergröße
Kö
rpe
rge
wic
ht
6
Regressionsanalyse
• Lineare Regression:– Regressionsfunktion ist linear
• Nichtlineare Regression: – Regressionsfunktion ist nicht linear
0
1
2
3
4
5
6
7
8
9
10
0 2 4 6 8 10 12
0
1
2
3
4
5
6
7
8
9
10
0 2 4 6 8 10 12
7
Regressionsanalyse
• Einfachregression: – Beziehung zwischen 2 Variablen– Regressand: Y– Regressor: X
• Mehrfachregression = multiple Regression: – Beziehung zwischen 3 oder mehr Variablen– Regressand: Y
– Regressoren: X1, X2, …, Xk
8
Regressionsanalyse
• Lineare Einfachregression:– Lineare Regressionsfunktion
(Regressionsgerade) beschreibt die Abhängigkeit zwischen der Variablen Y und X.
– Zwei Merkmale X und Y werden an n Objekten der Grundgesamtheit beobachtet => Realisationen x1, …, xn und y1, …, yn.
9
Regressionsanalyse
• Wahre Funktion:
yi‘ = α + βxi für i = 1, …, n
– α … Absolutglied– β … Steigungsparameter
• Beobachtet wird:
yi = yi‘ + εi für i = 1, …, n
– εi … Störterm, Realisationen einer Zufallsvariable
Wahre Koeffizienten, Parameter der Grundgesamtheit
10
Regressionsanalyse
• Modell der linearen Einfachregression:
yi = α + βxi + εi für i = 1, …, n – α … Absolutglied– β … Steigungsparameter
– εi … Störterm
11
Regressionsanalyse
• Annahmen: (1) E(εi) = 0 für i=1,…,n
(2) Var(εi) = σ² für i=1,…,n (Homoskedastizität)
(3) Cov(εi,εj) = 0 für alle ij (unkorrelierte Fehler)
(4) xi nicht stochastisch
(5) xi xj für mindestens ein ij
12
Regressionsanalyse
• Aus den Annahmen folgt für die abhängige Zufallsvariable Yi: – E(Yi) = E(α + βxi + εi) = α + βxi + E(εi) = yi
‘ für i=1,…,n
– Var(Yi) = Var(εi) = σ² für i=1,…,n= 0
13
Regressionsanalyse
• Regressionsfunktion/-gerade:
ŷi = a + bxi für i = 1, …, n– a … Schätzer für Absolutglied– b … Schätzer für Steigungsparameter
– ŷi … Schätzer für Ausprägung yi von Y
14
Regressionsanalyse
• Abweichung zwischen den beobachteten Werten yi und den geschätzten Werten ŷi: Residuen ei = yi – ŷi = yi – (a + bxi)
40
50
60
70
80
90
100
110
150 160 170 180 190 200 210
Körpergröße
Kö
rper
gew
ich
t
ei
yi
ŷi
15
Regressionsanalyse
• Regressionsgerade: – unendlich viele mögliche Geraden durch eine
Punktwolke– Wähle jene, die die vorhandene Tendenz am
besten beschreibt, d.h. wähle jene, die eine möglichst gute Schätzung ŷ für die Ausprägung y des Merkmals Y eines Objekts, das die Ausprägung x des Merkmals X trägt, bestimmt.
16
Regressionsanalyse
Methode der Kleinsten Quadrate
• Kriterium für die Güte der Schätzung: Summe der Abweichungsquadrate (Residual-Quadratsumme)
• Wähle die Schätzer a und b für α und β so, dass S² minimal wird.
n n n2 2 2 2
i i i i ii=1 i=1 i=1
ˆS = (y -a-bx ) (y -y ) e
17
RegressionsanalyseMethode der Kleinsten Quadrate
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
X
Y
ŷ=a+bx
(xi,yi)
(xi,ŷi)
yi-ŷi=yi-(a+bxi)=ei
18
Regressionsanalyse
• Minimiere S² (= Summe der vertikalen quadratischen Abweichungen der beobachteten Werte yi von den durch die Regressionsgerade an den Stellen xi bestimmten Werten ŷi).
n2 2
i ia,b
i=1
min S = (y -a-bx )
19
Regressionsanalyse
• Bedingung 1. Ordnung: 1. Ableitung = 0. Schätzer a und b ergeben sich als Lösungen des Normalengleichungssystems:
• Bedingung 2. Ordnung: 2. Ableitung positiv, d.h. Determinante der Hesse-Matrix > 0
2 n
i ii=1
S=-2 (y -a-bx )=0
a
2 n
i i ii=1
S=-2 x (y -a-bx )=0
b
20
Regressionsanalyse
• Kleinste Quadrate Schätzer für β:
• Kleinste Quadrate Schätzer für α:
• Kleinste Quadrate Regressionsfunktion:
n
i ii=1
n2
ii=1
(x -x)(y -y)b=
(x -x)
a=y-bx
y=a+bx
21
Regressionsanalyse
• Eigenschaften der KQ Schätzer: – Summe der Residuen ei ist Null.
– Summe xiei ist Null.
– Das arithmetische Mittel der beobachteten Werte ist gleich dem arithmetischen Mittel der geschätzten Werte
– Die Regressionsgerade läuft durch den Schwerpunkt der Punktwolke (x,y).
22
Regressionsanalyse
Quadratsummenzerlegung:
• Ziel der Regressionsfunktion: Variation der abhängigen Variable soll aus der Variation der unabhängigen Variablen erklärt werden. – Zu erklärende Variation: yi –y
– Erklärte Variation: ŷi –y
– Nicht erklärte Variation: yi – ŷi
– (yi – y) = (ŷi –y) + (yi – ŷi) für i=1,…,n
23
RegressionsanalyseMethode der Kleinsten Quadrate
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
X
Y
ŷ=a+bx
(xi,yi)
yi -y
ŷi -y
yi - ŷi
(xi,ŷi)
y
24
Regressionsanalyse
• Maß der Variation: Quadratsumme der Abweichungen
• SST = (yi –y)² – Sum of Squares Total
• SSE = (ŷi –y)² – Sum of Squares Explained
• SSR = (yi – ŷi)²– Sum of Squares Residual
• Es gilt: SST = SSE + SSR
25
Regressionsanalyse
• Einfaches Bestimmtheitsmaß: – Maß für die durch die lineare
Regressionsfunktion geliefert Erklärung der Variation der abhängigen Variablen
• r² = SSE / SST = 1 – SSR / SST– r² = Anteil der durch die Regressionsfunktion
erklärten Variation an der zu erklärenden gesamten Variation.
26
Regressionsanalyse
• Es gilt: 0 ≤ r² ≤ 1
• Extremfälle: – r² = 0 SSE = 0 ŷi =ŷ (=y) für alle i, d.h.
ŷi hängt nicht von i ab b = 0, d.h. Regressionsgerade ist horizontal. Kein Erklärungsbeitrag
– r² = 1 SSE = SST SSR = 0 ei = 0 für alle i ŷi = yi für alle i die Daten liegen auf der Regressionsgeraden. Vollständige Erklärung
27
RegressionsanalyseEinfaches lineares Bestimmtheitsmaß
R2 = 1
0
1
2
3
4
5
6
0 2 4 6 8 10 12
unabhängige Variable
ab
hä
ng
ige
Va
ria
be
le
Einfaches lineares Bestimmtheitsmaß
R2 = 0
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
5
0 2 4 6 8 10 12
unabhängige Variable
ab
hä
ng
ige
Va
ria
be
le
Einfaches lineares Bestimmtheitsmaß
R2 = 0,82
0
1
2
3
4
5
6
7
8
9
10
0 2 4 6 8 10 12
unabhängige Variable
ab
hä
ng
ige
Va
ria
be
le
Einfaches lineares Bestimmtheitsmaß
R2 = 0,52
0
1
2
3
4
5
6
7
8
9
10
0 2 4 6 8 10 12
unabhängige Variable
ab
hä
ng
ige
Va
ria
be
le
28
Regressionsanalyse
• Linearer Einfachkorrelationskoeffizient: r = + r² und r [0 ; 1]
• Extremfälle: – r = 0, d.h. fehlende Erklärung, fehlende
Korrelation– r = 1, d.h. vollständige Erklärung, vollständige
Korrelation
• r wird das Vorzeichen der Steigung der Regressionsgeraden zugewiesen.
29
Regressionsanalyse
Eigenschaften der KQ Schätzer:
• Da yi Zufallsvariable sind, sind auch a und b Zufallsvariable.
• Erwartungswerte der KQ Schätzer:– E(b) = β– E(a) = α– D.h. a und b sind unverzerrte Schätzer
30
Regressionsanalyse
• Varianzen der KQ Schätzer:
• Beides sind theoretische Größen, da σ² (=Var(εi)) unbekannt ist.
n
1i
2i
2
)x(x
σVar(b)
n
1i
2i
22
)x(x
x
n
1σVar(a)
31
Regressionsanalyse
• Kovarianz der KQ Schätzer:
Die Kovarinaz ist proportional zu σ², sie hängt vom Vorzeichen von x ab.
n
1i
2i
2
)x(x
xσb)Cov(a,
32
Regressionsanalyse
• Frage: Gibt es bessere Schätzer als die KQ Schätzer für α und β?
• Besser im Sinne einer kleineren Varianz, denn je kleiner die Varianz des Schätzers, umso besser ist er.
33
Regressionsanalyse
Gauss-Markov-Theorem:– Einfaches lineares Regressionsmodell, – Es gelten Annahmen 1-5
• Der KQ Schätzer ist der beste lineare erwartungstreue Schätzer, BLUE (Best linear unbiased Estimator)– Best: Var(b*) Var(b) – Linear: b* =ciyi
– Unbiased: E(b*) = β– Analoge Aussage für Schätzer a* von α.
34
Regressionsanalyse
• Schätzung der Fehlervarianz σ²– Wären εi beobachtbar, dann Schätzer für σ² =
1/n εi².
– Aber: εi nicht beobachtbar, daher σ² durch s² schätzen.
n
1i
2i
2 e2n
1s
35
Regressionsanalyse
• Diesen Schätzer von σ² verwendet man, um unverzerrte Schätzer für Var(a) und Var(b) zu konstruieren.
22b n
2i
i 1
ss
(x x)
22 2a n
2i
i 1
1 xs s
n (x x)
36
Regressionsanalyse
Inferenz im linearen Regressionsmodell:– Ann (1-5)
– Ann (6): εi ~ N(0,σ²)
• Testprobleme: – Einseitig: z.B. H0: b = b* gegen H1: b > b*
– Zweiseitig: H0: b = b* gegen H1: b b*
• Teststatistik:
b
*
s
bbT
37
Regressionsanalyse
• Verteilung der Teststatistik: – sb bekannt: T ~ N(0,1)
– sb geschätzt: T ~ tn-2
• Kritische Werte bestimmen
• Entscheidung: Lehne H0 ab, wenn Teststatistik im kritischen Bereich liegt.
• Gleiche Vorgehensweise bei Tests für Schätzer a.
38
Regressionsanalyse
Konfidenzintervall Regressionskoeffizienten
• Interzept: – Es gilt P(a – t sa α a + t sa) = 1 – α
– KI für α: [a – t sa; a + t sa]
• Steigungsparameter: – Es gilt P(b – t sb β b + t sb) = 1 – α
– KI für β: [b – t sb; b + t sb]
• t = t1- α/2; n-2 (Werte der t-Verteilung)
39
Regressionsanalyse
• Lineare Einfachregression:
• 2 metrisch skalierte Variablen Y, X
• Modell: yi = α + βxi + εi
• Regressionsfunktion: ŷi = a + bxi
• Schätzung: min. Residual-Quadratsumme
• KQ-Schätzer a und b: BLUE
• Tests für a und b: t-Tests
40
Regressionsanalyse
• F-Test
• Hypothese: Kein Zusammenhang zwischen den Variablen X und Y in der Grundgesamtheit
• Basiert auf der Quadratsummenzerlegung SST = SSE + SSR
41
Regressionsanalyse
• Mittlere erklärte Quadratsumme: – MSE = SSE / 1
• Mittlere nicht erklärte Quadratsumme: – MSR = SSR / (n – 2)
• Teststatistik: – F = MSE / MSR
– F ~ F1;n-2;1-α
42
Regressionsanalyse
• Beispiel: Körpergröße (X), Gewicht (Y)– Modell: Y = α + Xβ + ε– Parameterschätzer: a = -105,75, b = 0,98– Regressionsfunktion: Ŷ = -105,75 + 0,98X– Interpretation der Koeffizienten:
• a = -105,75: Verschiebung• b = 0,98: Steigung, steigt X um eine Einheit (1cm),
steigt Y um 0,98 Einheiten (kg). Vorsicht: Umkehrung gilt nicht!
– Bestimmtheitsmaß: 0,577 – Korrelationskoeffizient: 0,759
43
Regressionsanalyse
• Beispiel: Körpergröße (X), Gewicht (Y)– Koeffiziententests (t-Tests):
– H0: α = 0 ablehnen (p-Wert < 0,05) => α 0
– H0: β = 0 ablehnen (p-Wert < 0,05) => β 0
– F-Test: H0 ablehnen (Prüfgröße > kritischer Wert) => Zusammenhang zw. den Variablen
44
Regressionsanalyse
• Prognose
• Ziel: bei gegebenen Werten der unabhängigen Variable, zugehörigen Wert der abhängigen Variable prognostizieren. – Schätzung des Erwartungswertes E(yf) an der
Stelle xf.
– Schätzung eines Einzelwertes yf an der Stelle xf.
45
Regressionsanalyse
• Geg. xf (weiterer Wert von X)
• Ges. zugehöriger Wert yf von Y und/oder „mittleres“ Verhalten E(yf) = a + bxf.
• Weitere Annahmen: – yf = α + βxf + εf
– E(εf) = 0
– E(εf²) = σ²
– Cov(εf, εi) = 0
– xf nicht stochastisch
46
Regressionsanalyse
• Parameter α und β bekannt: – Prognose der Einzelwerte: yf = α + βxf
– Prognose des Erwartungswertes: E(yf) = α + βxf
• Parameter unbekannt. – Prognose der Einzelwerte: ŷf = a + bxf ŷf
ist ein unverzerrter Prediktor für yf
– Prognose des Erwartungswertes: E(ŷf ) = a + bxf
ŷf ist ein unverzerrter Prediktor für E(yf)
47
Regressionsanalyse
• Prognose Erwartungswert: E(ŷf ) = a + bxf
• Varianz des durchschnittlichen Prognosewertes sŷf²:
• Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) ei²)
22 f
f f f 2i
(x-x )1ˆ ˆVar(y )=Var(y -E(y ))=σ +
n (x -x)
48
Regressionsanalyse
• Prognose Einzelwert: ŷf = a + bxf
• Prognosefehler: ef = yf – ŷf
• Varianz des individuellen Prognosefehlers sf²:
• Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) ei²)
22 f
f f f 2i
(x-x )1ˆVar(e )=Var(y -y )=σ 1 +
n (x -x)
49
Regressionsanalyse
• Zusätzlich Ann: Störvariable εf ~ N(0,σ²)
• 1-α Konfidenzintervall für E(ŷf):
[ŷf – t sŷf ; ŷf + t sŷf]
t = t1-α/2;n-2
• 1-α Prognoseintervall für ŷf:
[ŷf – t sf ; ŷf + t sf]
t = t1-α/2;n-2
50
Regressionsanalyse
• Residuenanalyse
• Ex-post Überprüfung der Modellannahmen.
• Ann 1: E(εi) = 0
• Ann 2: Var(εi) = σ²
• Ann 3: Cov(εi,εj) = 0
51
Regressionsanalyse
• Grafische Residualanalyse
• Residuen der KQ Schätzer: ei = yi – ŷi
• Streudiagramm: Residuen gegen X (Werte der unabhängige Variable)
• Streudiagramm: Residuen gegen Ŷ (Prognosewerte).
• Es gilt: ei = 0 und arithm. Mittel der ei = 0
52
Regressionsanalyse
• Residuen gegen X:Residuenplot
-4
-3
-2
-1
0
1
2
3
4
5
0 5 10 15 20 25 30 35 40 45
X
Re
sid
ue
n
53
Regressionsanalyse
• Residuen gegen Ŷ:Residuenplot
-4
-3
-2
-1
0
1
2
3
4
5
0 5 10 15 20 25 30 35 40 45
Ŷ
Re
sid
ue
n
54
Regressionsanalyse
• Ann (2) verletzt, Varianzen nicht homogen, Hetroskedastizität
Residuenplot
-5
-4
-3
-2
-1
0
1
2
3
4
5
0 5 10 15 20 25 30 35 40 45
X
Re
sid
ue
n
55
Regressionsanalyse
• Ann. linearen Regressionsfunktion verletzt. Residuenplot
-6
-4
-2
0
2
4
6
8
0 5 10 15 20 25 30 35 40 45
X
Re
sid
ue
n
56
Regressionsanalyse
• Streudiagramm: ei gegen ei-1
• Autokorrelation der Residuen
Residuenplot
-4
-3
-2
-1
0
1
2
3
4
5
-4 -3 -2 -1 0 1 2 3 4 5
Residuen e(i-1)
Re
sid
ue
n e
(i)
Residuenplot
-3
-2
-1
0
1
2
3
4
-4 -3 -2 -1 0 1 2 3 4
Residuen e(i-1)
Re
sid
ue
n e
(i)
57
Regressionsanalyse
• Normalverteilung der εi: QQ-Plot– Empirische- und Theoretische Quantile
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
-2 -1,5 -1 -0,5 0 0,5 1 1,5 2empirische Quantile