Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive...

Deskription, Statistische Testverfahren und

Regression

Seminar: Planung und Auswertung klinischer und experimenteller Studien

Deskriptive Statistik

• Deskriptive Statistik: beschreibende Statistik, empirische Statistik

• Daten, die man erhoben hat sollten in einem ersten Schritt immer deskriptiv

beschrieben werden

• Daten werden in geeigneter Weise beschrieben und zusammengefasst mit Hilfe

von Haufigkeitstabellen, grafischen Darstellungen und Maßzahlen

1

Maßzahlen

Die Entscheidung, welche Maßzahlen bestimmt werden, hangt vom Skalenniveau

der Variablen ab.

• Quantitative (stetig und diskret) Merkmale:

– Lagemaße: Mittelwert, Median, Modalwert

– Streuungsmaße: Varianz, Standardabweichung, Spannweite, Variationskoef-

fizient

• Qualitative Merkmale:

– relative Haufigkeiten, absolute Haufigkeiten

– Modalwert

2

Lagemaße

Seien x1, . . . , xn die Messpunkte eines Datensatzes (z.B. Korpergewicht von

Patienten), dann werden die Lagemaße wie folgt berechnet:

Das arithmetische Mittel: x := 1n

∑ni=1 xi

Der Median

m(x) :=

{x(n+1

2 ), fallsnungerade12(x(n2 ) + x(n2+1)), fallsn gerade,

dabei ist x(i) die ite Beobachtung des in aufsteigender Reihenfolge geordneten

Datensatzes. Der Median ist also der Wert, bei dem 50% der Beobachtungen

kleiner und 50% der Beobachtungen großer sind.

3

Der Modalwert

Der Wert, welcher am haufigsten auftritt ist der Modalwert (kann bei qualitativen

Merkmalen verwendet werden).

Streuungsmaße

Die Standardabweichung (standard deviation)

SD(x) :=

√√√√ 1

n− 1

n∑i=1

(xi − x)2 =√V ar(x)

Der Variationskoeffizient

V K(x) :=SD(x)

x

4

Der Interquartilsabstand (interquartile range)

Differenz zwischen oberem und unterem Quartil (IQR(x)). Das untere Quartil

ist der Wert, bei dem 25% aller Datenpunkte kleiner sind, das obere Quartil ist

der Wert, bei dem 75% aller Datenpunkte kleiner sind.

x1, x2 . . . x25, x26, . . . , x75︸︷︷︸IQR(x)

, x76 . . . x99, x100

5

Haufigkeitstabellen

Erfolg

ja nein Summe

Therapie A 20 10 30

B 40 10 50

Summe 60 20 80

Erfolg

ja nein Summe

Therapie A 0.67 0.33 1

B 0.80 0.20 1

Absolute Haufigkeiten: Anzahlen, z.B. bei jeweils 10 Patienten hatte die The-

rapie keinen Erfolg.

Relative Haufigkeiten: Anzahlen bezogen auf eine Grundgesamtheit: bei 33%

(bzw. 20%) der Patienten hatte die Therapie A (bzw. B) keinen Erfolg.

6

Grafische DarstellungenDie Verteilung stetiger Variablen lasst sich mit Boxplots oder Histogrammen

darstellen:−

3−

2−

10

12

3

Ausreißer

Ausreißer

Q75

Q25

>Q25 − 1.5*IQR

<Q75 + 1.5*IQR

2025

3035

4045

50

Alte

r

Frauen Männer

7

Grafische Darstellungen

Histogramm:

Den

sity

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Den

sity

0 5 10 15 20 25

0.00

0.02

0.04

0.06

0.08

8

Grafische Darstellungen

Diskrete oder qualitative Variablen lassen sich mit Kreis- oder Balkendiagrammen

darstellen:

A

B

C

9

Balken-/Stabdiagramme:

A B C

05

1015

A B C

FrauenMänner

02

46

810

A B C

MännerFrauen

05

1015

10

Korrelation

Zur Analyse des Zusammenhangs zweier Merkmale lassen sich verschiedene

Korrelationskoeffizienten angeben. Welcher berechnet werden kann, hangt unter

anderem vom Skalenniveau der Variablen ab. Außerdem sollte immer auch das

Streudiagramm betrachtet werden, um den Zusammenhang der Merkmale zu

beschreiben.

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

105 110 115 120 125 130

110

115

120

125

130

135

Variable 1

Var

iabl

e 2

• quantitative Merkmale

• linearer Zusammenhang

→ Pearson’s Korrelationskoeffizient

11

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●

●

●

●

0.5 1.0 1.5 2.0 2.5 3.0 3.5

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

Variable 1

Var

iabl

e 2

• qualitative Merkmale (ab Ordinalskala,

d.h. wenn eine naturliche Reihenfolge un-

ter den Werten besteht)

• monoton steigender oder fallender Zu-

sammenhang

→ Spearman’s Korrelationskoeffizient

[Alternative: Kendall’s τ , empfehlenswert bei sehr kleinen Stichprobengroßen]

12

Statistische Tests

Ubersicht

Anzahl und Art der Quantitativ Qualitativ bzw.

Stichproben normalverteilt Verteilung unbekannt dichotom

Eine Ein-St. Ein-St. Binomial-

Stichprobe t-Test Wilcoxon-Test test

Zwei verbundene t-Test fur Wilcoxon- McNemar-

Stichproben verbundene St. Vorzeichen-Test Test

Zwei unverbundene t-Test fur U-Test von Mann, χ2-Test

Stichproben unverbundene St. Whitney und Exakter Test

Wilcoxon von Fisher

13

Stichproben

Stichprobe: untersuchte Gruppe

• eine Stichprobe: interessierendes Merkmal (Zielgroße) soll mit einem theoreti-

schen Wert verglichen werden

Beispiel: Entspricht die tatsachliche Kalorienzufuhr dem empfohlenen

Wert?

• zwei Stichproben: Zielgroße soll in zwei Gruppen verglichen werden

Beispiel: Unterscheidet sich Parameter x zwischen Therapiegruppe und Pla-

cebogruppe?

– verbunden/abhangig: in beiden Gruppen sind dieselben Untersuchungsobjekte

– unverbunden/unabhangig: nicht dieselben Objekte in den Gruppen

14

Merkmalsskala

• qualitativ: Werte des Merkmals lassen sich in Kategorien einordnen, die die

Qualitat wiedergeben

Beispiele: Krankheitsstadium, Geschlecht, Score

• quantitativ: Werte des Merkmals geben eine Quantitat (Ausmaß) an

Beispiele: Gewicht, Große, Anzahl

15

Merkmalsverteilung

Uberprufung der Normalverteilungsannahme:

• Berechnen von Mittelwert, Median und Modus

z.B. Mittelwert > Median > Modus ⇒ rechtsschiefe Verteilung ⇒ nicht

normalverteilt!

• Histogramm erstellen mit eingezeichneter Normalverteilungskurve

normalverteilte Variable

Den

sity

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

nicht−normalverteilte Variable

Den

sity

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

2.0

2.5

16

• Q-Q-Plot betrachten

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

−2 −1 0 1 2

−2

−1

01

2

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

−2 −1 0 1 2

0.0

0.2

0.4

0.6

0.8

1.0

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Wichtig: fur Zwei-Stichproben-Tests muss die Normalverteilungsannahme in bei-

den Gruppen separat uberpruft werden!

17

Durchfuhrung von Tests in SPSS

• standardmaßige Berechnung von zweiseitigen Tests

• χ2-Test

zu finden unter Analysieren → Deskriptive Statistiken → Kreuztabellen →Statistiken

• Test auf Varianzgleichheit

– Annahme beim t-Test fur zwei unverbundene Stichproben: Varianz ist in

beiden Gruppen gleich

– SPSS testet automatisch (H0 : σ2A = σ2

B)

18

Regression

Die Regressionsanalyse wird verwendet, um den Zusammenhang zwischen einer

abhangigen Variable (Zielgroße) und einer oder mehreren unabhangigen Variablen

(Einflussgroßen) zu beschreiben. Im Gegensatz zur Korrelationsanalyse soll ein

gerichteter Ursache → Wirkung - Zusammenhang untersucht werden.

Allgemeine Formel:

y = β0 + x1β1 + x2β2 + ...+ ε

20

Komponenten des Regressionsmodells

x1, x2, ...: Einflussgroßen (metrisch oder kategorial)

y: Zielgroße:

• metrisch (und approximativ normalverteilt)→ klassisches lineares Regressions-

modell

• binar → logistisches Regressionsmodell

• . . . viele weitere Varianten moglich

21

Lineare Regression in SPSS

• Wichtig vor der Berechnung: Messniveau der Variablen in SPSS uberprufen!

• Berechnung uber Analysieren → Allgemeines lineares Modell → Univariat

– Abhangige Variable ist y

– Feste Faktoren sind kategoriale xi

– Kovariaten sind metrische xi

22

• Koeffizientenschatzer βi werden von SPSS nicht automatisch ausgegeben!

• Einstellung unter Optionen

• bei kategorialen Einflussgroßen: standardmaßige Verwendung der letzten Kate-

gorie als Referenzkategorie

23

Logistische Regression in SPSS

• Berechnung uber Analysieren → Verallgemeinerte lineare Modelle

– Spezifikation der Modellgleichung un-

ter Modell notig

– Interpretation der Koeffizien-

tenschatzer beim logistischen

Regressionsmodell: exp(βi) = ORi

– ⇒ exp(βi) kann zusatzlich aus-

gegeben werden (unter Statistiken

auswahlbar)

24

Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive...

Documents

Transcript of Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive...