Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive...
Transcript of Deskription, Statistische Testverfahren und Regression · Deskriptive Statistik Deskriptive...
Deskription, Statistische Testverfahren und
Regression
Seminar: Planung und Auswertung klinischer und experimenteller Studien
Deskriptive Statistik
• Deskriptive Statistik: beschreibende Statistik, empirische Statistik
• Daten, die man erhoben hat sollten in einem ersten Schritt immer deskriptiv
beschrieben werden
• Daten werden in geeigneter Weise beschrieben und zusammengefasst mit Hilfe
von Haufigkeitstabellen, grafischen Darstellungen und Maßzahlen
1
Maßzahlen
Die Entscheidung, welche Maßzahlen bestimmt werden, hangt vom Skalenniveau
der Variablen ab.
• Quantitative (stetig und diskret) Merkmale:
– Lagemaße: Mittelwert, Median, Modalwert
– Streuungsmaße: Varianz, Standardabweichung, Spannweite, Variationskoef-
fizient
• Qualitative Merkmale:
– relative Haufigkeiten, absolute Haufigkeiten
– Modalwert
2
Lagemaße
Seien x1, . . . , xn die Messpunkte eines Datensatzes (z.B. Korpergewicht von
Patienten), dann werden die Lagemaße wie folgt berechnet:
Das arithmetische Mittel: x := 1n
∑ni=1 xi
Der Median
m(x) :=
{x(n+1
2 ), fallsnungerade12(x(n2 ) + x(n2+1)), fallsn gerade,
dabei ist x(i) die ite Beobachtung des in aufsteigender Reihenfolge geordneten
Datensatzes. Der Median ist also der Wert, bei dem 50% der Beobachtungen
kleiner und 50% der Beobachtungen großer sind.
3
Der Modalwert
Der Wert, welcher am haufigsten auftritt ist der Modalwert (kann bei qualitativen
Merkmalen verwendet werden).
Streuungsmaße
Die Standardabweichung (standard deviation)
SD(x) :=
√√√√ 1
n− 1
n∑i=1
(xi − x)2 =√V ar(x)
Der Variationskoeffizient
V K(x) :=SD(x)
x
4
Der Interquartilsabstand (interquartile range)
Differenz zwischen oberem und unterem Quartil (IQR(x)). Das untere Quartil
ist der Wert, bei dem 25% aller Datenpunkte kleiner sind, das obere Quartil ist
der Wert, bei dem 75% aller Datenpunkte kleiner sind.
x1, x2 . . . x25, x26, . . . , x75︸ ︷︷ ︸IQR(x)
, x76 . . . x99, x100
5
Haufigkeitstabellen
Erfolg
ja nein Summe
Therapie A 20 10 30
B 40 10 50
Summe 60 20 80
Erfolg
ja nein Summe
Therapie A 0.67 0.33 1
B 0.80 0.20 1
Absolute Haufigkeiten: Anzahlen, z.B. bei jeweils 10 Patienten hatte die The-
rapie keinen Erfolg.
Relative Haufigkeiten: Anzahlen bezogen auf eine Grundgesamtheit: bei 33%
(bzw. 20%) der Patienten hatte die Therapie A (bzw. B) keinen Erfolg.
6
Grafische DarstellungenDie Verteilung stetiger Variablen lasst sich mit Boxplots oder Histogrammen
darstellen:−
3−
2−
10
12
3
Ausreißer
Ausreißer
Q75
Q25
>Q25 − 1.5*IQR
<Q75 + 1.5*IQR
2025
3035
4045
50
Alte
r
Frauen Männer
7
Grafische Darstellungen
Histogramm:
Den
sity
−3 −2 −1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
Den
sity
0 5 10 15 20 25
0.00
0.02
0.04
0.06
0.08
8
Grafische Darstellungen
Diskrete oder qualitative Variablen lassen sich mit Kreis- oder Balkendiagrammen
darstellen:
A
B
C
9
Balken-/Stabdiagramme:
A B C
05
1015
A B C
FrauenMänner
02
46
810
A B C
MännerFrauen
05
1015
10
Korrelation
Zur Analyse des Zusammenhangs zweier Merkmale lassen sich verschiedene
Korrelationskoeffizienten angeben. Welcher berechnet werden kann, hangt unter
anderem vom Skalenniveau der Variablen ab. Außerdem sollte immer auch das
Streudiagramm betrachtet werden, um den Zusammenhang der Merkmale zu
beschreiben.
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
105 110 115 120 125 130
110
115
120
125
130
135
Variable 1
Var
iabl
e 2
• quantitative Merkmale
• linearer Zusammenhang
→ Pearson’s Korrelationskoeffizient
11
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
0.5 1.0 1.5 2.0 2.5 3.0 3.5
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
Variable 1
Var
iabl
e 2
• qualitative Merkmale (ab Ordinalskala,
d.h. wenn eine naturliche Reihenfolge un-
ter den Werten besteht)
• monoton steigender oder fallender Zu-
sammenhang
→ Spearman’s Korrelationskoeffizient
[Alternative: Kendall’s τ , empfehlenswert bei sehr kleinen Stichprobengroßen]
12
Statistische Tests
Ubersicht
Anzahl und Art der Quantitativ Qualitativ bzw.
Stichproben normalverteilt Verteilung unbekannt dichotom
Eine Ein-St. Ein-St. Binomial-
Stichprobe t-Test Wilcoxon-Test test
Zwei verbundene t-Test fur Wilcoxon- McNemar-
Stichproben verbundene St. Vorzeichen-Test Test
Zwei unverbundene t-Test fur U-Test von Mann, χ2-Test
Stichproben unverbundene St. Whitney und Exakter Test
Wilcoxon von Fisher
13
Stichproben
Stichprobe: untersuchte Gruppe
• eine Stichprobe: interessierendes Merkmal (Zielgroße) soll mit einem theoreti-
schen Wert verglichen werden
Beispiel: Entspricht die tatsachliche Kalorienzufuhr dem empfohlenen
Wert?
• zwei Stichproben: Zielgroße soll in zwei Gruppen verglichen werden
Beispiel: Unterscheidet sich Parameter x zwischen Therapiegruppe und Pla-
cebogruppe?
– verbunden/abhangig: in beiden Gruppen sind dieselben Untersuchungsobjekte
– unverbunden/unabhangig: nicht dieselben Objekte in den Gruppen
14
Merkmalsskala
• qualitativ: Werte des Merkmals lassen sich in Kategorien einordnen, die die
Qualitat wiedergeben
Beispiele: Krankheitsstadium, Geschlecht, Score
• quantitativ: Werte des Merkmals geben eine Quantitat (Ausmaß) an
Beispiele: Gewicht, Große, Anzahl
15
Merkmalsverteilung
Uberprufung der Normalverteilungsannahme:
• Berechnen von Mittelwert, Median und Modus
z.B. Mittelwert > Median > Modus ⇒ rechtsschiefe Verteilung ⇒ nicht
normalverteilt!
• Histogramm erstellen mit eingezeichneter Normalverteilungskurve
normalverteilte Variable
Den
sity
−3 −2 −1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
nicht−normalverteilte Variable
Den
sity
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.5
1.0
1.5
2.0
2.5
16
• Q-Q-Plot betrachten
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−2 −1 0 1 2
−2
−1
01
2
Normal Q−Q Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−2 −1 0 1 2
0.0
0.2
0.4
0.6
0.8
1.0
Normal Q−Q Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
Wichtig: fur Zwei-Stichproben-Tests muss die Normalverteilungsannahme in bei-
den Gruppen separat uberpruft werden!
17
Durchfuhrung von Tests in SPSS
• standardmaßige Berechnung von zweiseitigen Tests
• χ2-Test
zu finden unter Analysieren → Deskriptive Statistiken → Kreuztabellen →Statistiken
• Test auf Varianzgleichheit
– Annahme beim t-Test fur zwei unverbundene Stichproben: Varianz ist in
beiden Gruppen gleich
– SPSS testet automatisch (H0 : σ2A = σ2
B)
18
19
Regression
Die Regressionsanalyse wird verwendet, um den Zusammenhang zwischen einer
abhangigen Variable (Zielgroße) und einer oder mehreren unabhangigen Variablen
(Einflussgroßen) zu beschreiben. Im Gegensatz zur Korrelationsanalyse soll ein
gerichteter Ursache → Wirkung - Zusammenhang untersucht werden.
Allgemeine Formel:
y = β0 + x1β1 + x2β2 + ...+ ε
20
Komponenten des Regressionsmodells
x1, x2, ...: Einflussgroßen (metrisch oder kategorial)
y: Zielgroße:
• metrisch (und approximativ normalverteilt)→ klassisches lineares Regressions-
modell
• binar → logistisches Regressionsmodell
• . . . viele weitere Varianten moglich
21
Lineare Regression in SPSS
• Wichtig vor der Berechnung: Messniveau der Variablen in SPSS uberprufen!
• Berechnung uber Analysieren → Allgemeines lineares Modell → Univariat
– Abhangige Variable ist y
– Feste Faktoren sind kategoriale xi
– Kovariaten sind metrische xi
22
• Koeffizientenschatzer βi werden von SPSS nicht automatisch ausgegeben!
• Einstellung unter Optionen
• bei kategorialen Einflussgroßen: standardmaßige Verwendung der letzten Kate-
gorie als Referenzkategorie
23
Logistische Regression in SPSS
• Berechnung uber Analysieren → Verallgemeinerte lineare Modelle
– Spezifikation der Modellgleichung un-
ter Modell notig
– Interpretation der Koeffizien-
tenschatzer beim logistischen
Regressionsmodell: exp(βi) = ORi
– ⇒ exp(βi) kann zusatzlich aus-
gegeben werden (unter Statistiken
auswahlbar)
24