Seminar Statistische Forschungsmethoden16. April 2003 Romy Rautenstrauch, Marian Gunkel Multiple...

Romy Rautenstrauch, Marian Gunkel

Seminar Statistische Forschungsmethoden 16. April 2003

Multiple Regressionsanalyse

Prof. B. Krause

Inhalt

I. Einleitung – was ist das?

II. Problemstellung – wozu braucht man

das?

III. Voraussetzungen – was braucht man?

IV. Vorgehensweise – wie macht man es?

Einleitung

• Regressionsanalyse:– Analyse von Zusammenhängen zwischen Variablen (X,Y)– Vorhersage der Y-Werte aus X-Werten– Versuch, die Y-Werte auf die X-Werte „zurückzuführen“

• Einfache lineare RA:– Betrachtung einer Zielgröße Y und einer Einflußgröße X

• Multiple lineare RA:– Betrachtung einer Zielgröße Y und mehr als einer

Einflussgröße X– kann daher mehr Varianz aufklären

X1

X2

Y

Problemstellung

• Ziel: Analyse des stochastischen Zusammenhangs zwischen einer Zielgröße Y und mehreren Einflussgrößen Xi bei verbundenen Stichproben.

(Variabilität von Y durch die Variabilitäten der Xi erklären) - stochastisch – gegenseitige Abhängigkeit

• Anwendungen– Ursachenanalysen: Wie stark ist der Einfluss von X auf Y?– Wirkungsanalysen: Wie verändert sich Y bei Veränderung

von X?– Zeitreihenanalysen: Wie verändert sich Y im Zeitverlauf?

Prognose! – Testkonstruktion: Auswahl der Items für Test

Problemstellung

• Vorteile: – Lineare Ansätze liefern eine hinreichend gute Anpassung

an die Daten (vernünftig interpretierbar) – Lineare Ansätze sind i.d.R. mit geringem Rechenaufwand

verbunden.– für die mehrfache Regressionsanalyse ist keine

Varianzhomogenität gefordert. » die einzelnen Regressoren weisen unterschiedliche

Variabilitäten auf.» die Varianz der Zielgröße wird nicht gleichmäßig durch die

einzelnen Regressoren beeinflusst. » Um das zu vermeiden wird häufig eine Normierung der

Zufallsgrößen durchgeführt, meist durch die Transformation in eine Standardnormalverteilung.

» Entspricht einer Standard-RA (alle Varianzen=1).

Voraussetzungen

• Prämissen des linearen Regressionsmodells sollten erfüllt sein– lineare Beziehung zwischen Regressand und Regressor

(d.h. Veränderung in konstanten Relationen)– metrisches Datenniveau der Ziel- und der Einflussgrößen

» wenn Zielgröße ordinal skaliert: Rangregressionsanalyse» wenn Zielgröße nominal skaliert: pro-bit-Analyse

– Xm, Y und R normalverteilt– E (R) = 0; D² (R) minimal (Modellvollständigkeit)– D² (R) konst. (Homoskedastizität)– Cov (Xi; Ri) = 0

Vorgehensweise

1. Bestimmung des Ursache-Wirkungs-Modells

2. Regressionsfunktion schätzen3. Gilt die Regressionsfunktion auch für

die Grundgesamtheit? / Wie gut ist mein Modell (wieviel Varianz kann ich erklären)?

Vorgehensweise

• RegressionsfunktionY=b0+b1X

– b0: absolutes Glied, das den Y-Wert für X=0 angibt

– b1=ΔY/ΔX: Steigungsmaß b1, das die Neigung der Geraden bestimmt

– Abweichungen durch Meßfehler, Beobachtungsfehler, andere Einflußgrößen...

Vorgehensweise

• Beispiel: Welche Faktoren können unsere Prüfungsnote Y beeinflussen?

• Modell: – konsumierter Wein und Mokka in der Lernzeit

beeinflussen die Note– je mehr Wein und Mokka, desto bessere Note

» X1: Menge der konsumierten Tassen Mokka in der Lernzeit

» X2: Menge der konsumierten Gläser Wein in der Lernzeit Mokka=

X1 Y= Note

Wein=X2

Vorgehensweise

• Formulierung des Ursache-Wirkungs-ModellsTheoretisch:

Empirisch:

Beispiel: Note = b0 + b1 * Mokka + b2 * Wein

β0 ist das konstante Glied (= nix trinken)βm partielle Regressionskoeffizienten (Einflußgewicht)X wird als fehlerfrei und additiv wirkend angenommenY ist fehlerbehaftetR ist Vorhersagefehler, ist der Anteil an Y, der nicht durch die Regressionsgerade erklärt wird

mm

mm

xbxbby

RXXY

...ˆ

...

110

110

X1

X2

Y

b2

b1

Vorgehensweise

• 2. Schätzen der Regressionsfunktion– Ziel: Modell bestmöglich an Daten

anzupassen– Fehler R dabei möglichst minimal– Vorgehen: Methode der kleinsten

quadratischen Abweichungen– Regressionsgerade soll in Punktwolke so

liegen, dass Summe der quadrierten Abweichungen aller Werte von der Geraden so klein wie möglich ist.

Vorgehensweise

• 2. Schätzen der Regressionsfunktion

Formel:

zur Minimierung werden die partiellen Ableitungen nach den einzelnen unbekannten Parametern gebildet

- Einzelne Ableitungen werden gleich 0 gesetzt -> Gleichungssystem entsteht

- Lösung des Gleichungssystems führt zu einzelnen bm

Minyyxbxbbyn

i

iii

)²ˆ()²(1

22110

n

1i

Vorgehensweise

Beispiel: Nicht standardisiert: Note Y = 0,465 + 0,27 * Mokka + 0,617 *

WeinStandardisiert: Note Y = 0,518 * Mokka + 0,781 * Wein

a. Abhängige Variable: Note

Modell

Nicht standardisierte Koeffizienten

Standardisierte Koeffizienten

TSignifikanzB

Standard-fehler Beta

1 (Konstante)MokkaWein

,465,270,617

,191,045,069

,518,781

2,4335,9508,975

,072,004,001

Vorgehensweise

• Prüfung der Regressionsfunktion durch– das Bestimmtheitsmaß

– Prüfung der Regressionskoeffizienten bm

– Prüfung auf Verletzung der Prämissen

Vorgehensweise

• Prüfung der Regressionsfunktion durch das Bestimmtheitsmaß = prozentualer Anteil der Varianz der Y-Werte, der aufgrund der X-Werte erklärbar ist– Sagt aus, wie gut sich die Regressionsfunktion an die empirische Punktverteilung

anpasst (bzw. wieviel Restschwankung übrigbleibt)

Beispiel:

Einflußvariablen: (Konstante), Wein, Mokka

Modell R R-Quadrat

Korrigiertes R-Quadrat

Standardfehler des Schätzers

1 ,985 ,970 ,955 ,297

n

j

i

n

j

i

yy

yy

YDgrD

RB

1

1

)²(

)²ˆ(

)²()²(Re

²

Vorgehensweise

• Prüfung der Regressionsfunktion durch das Bestimmtheitsmaß Signifikanzprüfung:– 1. Nullhypothese H0: B=0

- n= Anzahl der Beobachtungsdaten- m= Anzahl der βm

– 2. Nullhypothese H0: βm1=β2 =...=0

- Werte von TG sind F-verteilt mit df1=m und df2= n-m-1- H0 wird abgelehnt, falls TG>F(1- , df1, df2)- ist das Modell insgesamt unbrauchbar, erübrigen sich die restlichen

Überprüfungen!

mmn

BB

TG1

*1

²

),(1

R

m

j

jj

ms

YXSPb

TG

Vorgehensweise

• Prüfung der Regressionskoeffizienten bm – Prüfung, ob und wie gut einzelne Variablen des

Regressionsmodells zur Erklärung der abhängigen Variablen Y beitragen

– Maße: T-Wert und Konfidenzintervall der Regressionskoeffizienten

– T-Wert:Nullhypothese H0: βm=0

bei Gültigkeit von H0 wird βm=0

– Werte von TG sind t-verteilt mit df= n-m-1- H0 wird abgelehnt, falls TG>t(1- , df)- Aussage: ist der Einfluss der einzelnen Regressoren

Xm signifikant?

bm

mm

sb

TG

Vorgehensweise

• Prüfung der Regressionskoeffizienten bm – Konfidenzintervall:– gibt an, in welchem Bereich der wahre

Regressionskoeffizient mit einer bestimmten festgelegten Vertrauenswahrscheinlichkeit liegt

Beispiel:

Modell

Nicht standardisierte Koeffizienten

Standardisierte Koeffizienten

TSignifikanz

95% Konfidenzintervall für B

Untergrenze ObergrenzeB

Standard-fehler Beta

1 (Konstante)MokkaWein

,465,270,617

,191,045,069

,518,781

2,433

5,950

8,975

,072,004,001

-0,66,426,144

,997,808,396

Prüfung auf Verletzung der PrämissenPrämisse Prämissen-

verletzungKonsequenz Aufdeckung Ausweg

Linearität in den Parametern

Nichtlinearität

Verzerrung der Schätzwerte

über statistische Tests durch Transformation der Variablen

Vollständigkeit des Modells

Unvollständig-keit

Verzerrung der Schätzwerte

Homoskedastizität/ Unabhängigkeit der Störgrößen (Residuen) von den UVs

Hetero-skedastizität

Ineffizienz

Unabhängigkeit der Störgrößen untereinander

Auto-korrelation

Ineffizienz Residuen optisch auf Regelmäßigkeiten hin überprüfen

Regressoren müssen voneinander unabhängig sein

Multi-kollinearität

Ineffizienz 1. durch hohe Korrelationskoeffizienten zwischen den Regressoren (> .85); 2. Alternativrechnungen mit verschiedenen Variablenkombinationen

1. Entfernung einer/ mehrerer Variablen aus der Regressions-gleichung;2. Stichprobe vergrößern

Normalverteilung der Störgrößen

Nicht normalverteilt

Ungültigkeit der Signifikanztests

Zusätzliches

• Nichtlineare RA, Quasilineare RA– Ziel: nicht lineare Zusammenhänge

bestimmen

Beispiel: die Reproduzierbarkeit von Gedächtnisinhalten nimmt im Verlauf der Zeit nicht linear, sondern exponentiell ab

Zusätzliches

Alternative Bezeichnungen der Variable

Y X

Zielgröße Einflussgröße

Regressand Regressor

Abhängige Variable Unabhängige Variable

Kriterium Prädiktor

Endogene Variable Exogene Variable

Erklärte Variable Erklärende Variable

Literatur

• Krause, B. / Metzler, P. (1988). Angewandte Statistik (2. Auflage) Berlin: VEB Deutscher Verlag der Wissenschaften

• Backhaus, K. et al. (1987). Multivariate Analysemethoden. Berlin: Springer

• Schilling, O. (1998). Grundkurs Statistik für Psychologen. München: Fink

Seminar Statistische Forschungsmethoden16. April 2003 Romy Rautenstrauch, Marian Gunkel Multiple...

Documents

Transcript of Seminar Statistische Forschungsmethoden16. April 2003 Romy Rautenstrauch, Marian Gunkel Multiple...