1
AGAH Annual Meeting 2004, BerlinT. Sudhop und M. Reber: Workshop Biometrie - Beschreibende und schließende Statistik in Klinischen Studien
Grundlagen der BiometrieBeschreibende und schließende Statistik in
klinischen Studien
PD Dr. Thomas Sudhop & Dr. med. Dipl. chem. Michael ReberAbteilung für Klinische Pharmakologie
Universität Bonn
“Jede mathematische Formelreduziert die Anzahl der Zuhörer
um 50%”
Wie viele Formeln werden benötigt,um den Saal zu leeren?
“Statistik“Lehre von den Verteilungen
Deskriptive Statistik = empirischeVerteilungen von Merkmalen
Induktive/Analytische Statistik =Schließen von einer Stichprobe aufdie Grundgesamtheit
Wahrscheinlichkeitstheorie =Verteilungen von Zufallsvariablen
Deskriptive Statistik
Aufgabe:
Strukturierung der Rohdaten
Deskriptive StatistikTabellen / Graphische Darstellung
174,75188,4198,95Mittelwerte
172180196201391501621920422622818
….2012232254196206222313315015821351501611
Arzneibeta
ArzneialphaPlaceboPatient
160
165
170
175
180
185
190
195
200
Placebo Arznei alpha Arznei beta
Deskriptive StatistikTabellen / Graphische Darstellung
174,75188,4198,95Mittelwerte
172180196201391501621920422622818
….2012232254196206222313315015821351501611
Medisanbeta
MedisanalphaPlaceboPatient
Blutdrucksenker im Vergleich
0
50
100
150
200
250
0 5 10 15 20
Proband
RR
PlaceboArznei alphaArznei beta
2
AGAH Annual Meeting 2004, BerlinT. Sudhop und M. Reber: Workshop Biometrie - Beschreibende und schließende Statistik in Klinischen Studien
Deskriptive StatistikWas?
Strukturierung der Rohdaten
Wie?Verwendung mathematischer Methoden zurstandardisierten Erfassung bestimmterMerkmale der erhobenen Daten
Warum?Hervorheben wesentlicher Zusammenhängedurch Datenreduktion und graphischeDarstellung um anderen Personen ohneKenntnisse der Einzeldaten die erhobenenBeobachtungen vermitteln zu können
Population
Population (Grundgesamtheit)Die Grundgesamtheit sind alle Individuen, fürwelche Schlussfolgerungen gezogen werden sollen.
- Alle Einwohner eines Bundeslandes
- Alle Autos in Deutschland- Alle Typ II Diabetiker (Zielpopulation)
Populationen weisen einen großen Umfang(=Menge der Elemente) auf und können dahernicht vollständig untersucht werden.
Stichprobe
StichprobeEine Stichprobe aus einer Population stelltdie Anzahl von Individuen dar, welchetatsächlich beobachtet werden.
Der Stichprobenumfang (Elemente derStichprobe = Fallzahl) muss ausreichendgroß sein
Stichproben sollten repräsentativ fürdie Population sein
Repräsentative StichprobeStichprobe sollte Elemente aus allenBereichen der Population umfassen
Alle PKW, welche an einem Stichtag zugelassenwurden
Alle roten PKW in Berlin sind nicht repräsentativfür alle PKW
Univariante deskriptive StatistikKurze und prägnante Charakterisierungder Daten einer Stichprobe
Statistische Kennwerte
Lagemaße
Streumaße
Graphische Darstellung
Lagemaße
- Mittelwerte
- Arithmetisches Mittel
- Geometrisches Mittel
- Harmonisches Mittel
- Getrimmtes Mittel
- Median
3
AGAH Annual Meeting 2004, BerlinT. Sudhop und M. Reber: Workshop Biometrie - Beschreibende und schließende Statistik in Klinischen Studien
Lagemaße
? Wo liegt das Zentrum derDaten
? Was ist ein typischer mittlererWert
Arithmetisches MittelDer Mittelwert beschreibt das Verhalten derDaten „im Mittel“ (Σ = Summe)
Er ist der durchschnittliche Wert allerElemente einer Menge
Nachteil: empfindlich gegenüber Extremen
Berechnung:
Mittelwert = Summe aller Element : Anzahl aller Elemente
nxxxxx n++++
=L321
15
Geometrisches MittelFindet häufig Anwendung in der Pharmakokinetik
⊕ Weniger empfindlich gegen Extremwerte
Berechnung erfordert log.-Transformation
Berechnung:
nnxxxxx ⋅⋅⋅⋅= K321
16
Log - Transformation
statistische Verfahren beruhen auf derAnnahme, dass Versuchsdaten sich derNormalverteilung annähern
17
Log - Transformation
• Anpassung der Transformation durch Auswahl des Logarithmus
• Anwendung bei rechtschiefer Verteilung (Es liegen mehrWerte rechts vom Mittelwert)
nxxxx n)ln(...)ln()ln()ln( 21 +++
=
nnxxxxx ⋅⋅⋅⋅= K321
Mittel hesGeometrisc)ln( =xe
18
Harmonisches MittelEs dient als Lagemaß, wenn die BeobachtungswerteVerhältniszahlen sind (z.B. zur Berechnung einerdurchschnittlichen Geschwindigkeit oderÜberlebenszeit). Bsp.: Ohmsches Gesetz
Berechnung:
4
AGAH Annual Meeting 2004, BerlinT. Sudhop und M. Reber: Workshop Biometrie - Beschreibende und schließende Statistik in Klinischen Studien
19
Getrimmtes MittelEntspricht einem Arithmetischen Mittel
Vor der Berechnung werden an beiden Enden derVerteilung die Extremwerte gekappt (grau unterlegt)
0 100 200 300 400 500 600
20
Median
Der Median beschreibt den mittlerenWert in einer sortierten Stichprobe
Berechnung:
Stichprobe aufsteigend sortieren
Bei ungeradem Stichprobenumfang
⇒ Mittleres Element ist der Median
Bei geradem Stichprobenumfang
⇒ Median ist der Mittelwert aus den beiden mittlerenElementen
21
Median BeispielBestimmung des Alters-Medians von 6 Patienten
Alter der Patienten: 48, 50, 46, 52, 47, 48
1. Schritt: aufsteigend sortieren
46, 47, 48, 48, 50, 52
2. Schritt: Mittelwert der beiden mittleren Werte bilden
46, 47, 48, 48, 50, 52
( 48 + 48 ) ÷ 2 = 48
Der Alters-Median der Patienten beträgt 48 Jahre
22
Mittelwert versus MedianDer Mittelwert ist derjenige Wert, der die Daten auf einerWaage ausbalanciert. Entfernte Werte besitzen eine großeHebelkraft.
Beim Median spielt der Abstand der Beobachtung keine Rolle.Der Median ist robust gegen Ausreißer.
0 100 200 300 400 500 600
23
Mittelwert versus Median
Die Wahl zwischen Mittelwert und Median ist:
- Abhängig davon, ob ein typischer oder einmittlerer Wert gesucht wird
- Abhängig von der Verteilung (Normal, Schiefoder „Gibt es Ausreißer?“)
- Abhängig davon, ob Präzision oder Robustheitim Vordergrund steht
24
Praktisches Beispiel Lagemaße
Klinische Studie mit ACE-Hemmern
360 Probanden
Randomisiert auf drei Behandlungsarme
5
AGAH Annual Meeting 2004, BerlinT. Sudhop und M. Reber: Workshop Biometrie - Beschreibende und schließende Statistik in Klinischen Studien
25
Streumaße
Streumaße liefern Informationen zurZusammensetzung (Streuung) von Stichproben
Stichprobe A: { 2, 2, 3, 3, 4, 4, 4, 5, 5, 6 }
Stichprobe B: { 2, 2, 2, 5, 6, 9, 9, 19, 19, 21 }
26
Streumaße - Übersicht
Range
Standardabweichung
Varianz
Standardfehler
Quantile / Perzentile
27
Range (Spannweite)Definition: Differenz aus größtem und kleinstem Elementeiner Stichprobe
Stichprobe A: { 2, 2, 3, 3, 4, 4, 4, 5, 5, 6 }
Range: 6 - 2 = 4
Stichprobe B: { 2, 2, 2, 5, 6, 9, 9, 19, 19, 21 }
Range: 21 - 2 = 19
28
Range / MedianMedian und Range beschreiben Stichprobe
Stichprobe A: { 2, 2, 3, 3, 4, 4, 4, 5, 5, 6 }
Median: 4
Range: 4
Stichprobe B: { 2, 2, 2, 4, 5, 6, 9, 19, 19, 21 }
Median: 5,5
Range: 19
0 2 4 6 8 10 12 14 16 18 20 22
0 2 4 6 8 10 12 14 16 18 20 22
29
Streumaße - Übersicht
Range
Standardabweichung
Varianz
Standardfehler
Quantile / Perzentile
30
Standardabweichung
Standardabweichung (engl. Standard deviation, SD) wirdmeist in Verbindung mit dem Mittelwert angegeben
Mittelwert ± Standardabweichung (Mean ± SD)
Sie stellt ein Maß für die Streuung um den Mittelwert dar.
Grobe Vorstellung: gibt den „durchschnittlich“ Abstanddes Einzelwertes vom Mittelwert an.
6
AGAH Annual Meeting 2004, BerlinT. Sudhop und M. Reber: Workshop Biometrie - Beschreibende und schließende Statistik in Klinischen Studien
31
-2
2
-1
3
-2
Arithmetisches MittelArithmetisches Mittel
Standardabweichung
32
Standardabweichung
1)(...)()()( 22
32
22
1
−−++−+−+−
=n
xxxxxxxxSD n
-2
2
-1
3
-2
Arithmetisches MittelArithmetisches Mittel
33
Standardabweichung
Stichprobe A: { 2, 2, 3, 3, 4, 4, 4, 5, 5, 6 }
Mittelwert: 3.8 ± 1.3
Stichprobe B: { 2, 2, 2, 5, 6, 9, 9, 19, 19, 21 }
Mittelwert: 9.4 ± 7.6
0 2 4 6 8 10 12 14 16 18 20 22
0 2 4 6 8 10 12 14 16 18 20 22
34
StandardabweichungProband
Tablette A Tablette B
1 140 150
2 125 141
3 120 110
4 130 107
5 135 152
6 115 105
Mittelwert 127,5 127,5
SD 9,4 22,5
Blutdruck (syst.)
35
Streumaße - Übersicht
Range
Standardabweichung
Varianz
Standardfehler
Quantile / Perzentile
36
Varianz
Varianz = Standardabweichung²
„Mittleres Abstandsquadrat“ derElemente vom Mittelwert der Stichprobe
Berechnung:
1)(...)()()( 22
32
22
1
−−++−+−+−
=n
xxxxxxxxVarianz n
7
AGAH Annual Meeting 2004, BerlinT. Sudhop und M. Reber: Workshop Biometrie - Beschreibende und schließende Statistik in Klinischen Studien
37
Standardabweichung / Varianz
Standardabweichung ist das meistgebrauchteStreuungsmaß
Vorteil der Standardabweichung - gleicheEinheit wie die ursprünglichen Messwerte.
38
Streumaße - Übersicht
Range
Standardabweichung
Varianz
Standardfehler
Quantile / Perzentile
39
Standardfehler des Mittelwerts (SEM)
Standardfehlerstandard error of the mean = SEM
Abgeleitet aus Standardabweichung(SD) und Stichprobenumfang (n)
Immer kleiner als Standardabweichung
nSDSEM =
40
Standardfehler des Mittelwerts (SEM)
Der Standardfehler beschreibt nicht die Daten.
SEM gibt die Genauigkeit des Mittelwertes alsSchätzwert an.
CAVE: Häufig wird SEM anstelle des Standard-Abweichung verwandt. Die kleinere Maßzahl fürSEM soll eine bessere Wirkung suggerieren.
Nährung 95%-KI des Mittelwert:
Mittelwert +/- 2 SEM
41
SD SEM
Mittelwert +/- Standardabweichung
Mittelwert +/- 2 SEM
-2S-3S -1S 1S 2S 3S
42
SD > SEM
nSDSEM =
Mean ± SD(11,4 ± 9,0)
Mean ± SEM(11,4 ± 3,0)
Alte
r von
9 K
inde
rn
1)(...)()()( 22
32
22
1
−−++−+−+−
=n
xxxxxxxxSD n
8
AGAH Annual Meeting 2004, BerlinT. Sudhop und M. Reber: Workshop Biometrie - Beschreibende und schließende Statistik in Klinischen Studien
43
Streumaße - Übersicht
Range
Standardabweichung
Varianz
Standardfehler
Quantile / Perzentile
44
RangDefinition
Position innerhalbder aufsteigendsortierten(Rang-)Liste einerStichprobe
BeispielPlatzierungen imSport
Berechnung
Elementeaufsteigendsortieren
Beginnend bei „1“nummerieren
Meßwert Rang57 177 280 382 490 590 691 7
115 8116 9116 10121 11124 12130 13132 14135 15136 16140 17143 18145 19148 20
45
Perzentile
Als x%-Perzentilewird derjenigeWert einerStichprobebezeichnet, derkleiner odergleich x% allerWerte ist
Meßwert Rangplatz Perzentile57 177 2 10%80 382 4 20%90 590 6 30%91 7
115 8 40%116 9116 10 50%121 11124 12 60%130 13132 14 70%135 15136 16 80%140 17143 18 90%145 19148 20 100%
46
Perzentile - BMI
47
Quartile
Bezeichnen die25%, 50%, 75%und 100% -Perzentile
Meßwert Rangplatz Perzentile Quartil57 177 280 382 490 5 25% 1. Quartil90 691 7
115 8116 9116 10 50% 2. Quartil121 11124 12130 13132 14135 15 75% 3. Quartil136 16140 17143 18145 19148 20 100% 4. Quartil
48
Meßwert Rangplatz Perzentile Quartil57 177 280 382 490 5 25% 1. Quartil90 691 7
115 8116 9116 10 50% 2. Quartil121 11124 12130 13132 14135 15 75% 3. Quartil136 16140 17143 18145 19148 20 100% 4. Quartil
Inter-Quartil-Spannweite
„interquartilerange“
Bezeichnet dieDifferenz aus 3.und 1. Quartil
50% aller Werteeiner Stichprobeliegen innerhalbdieses Bereichs
9
AGAH Annual Meeting 2004, BerlinT. Sudhop und M. Reber: Workshop Biometrie - Beschreibende und schließende Statistik in Klinischen Studien
49
Graphische Darstellung
50
Grafik - Histogramm
Stichprobe A:Stichprobe A: { 2, 2, 3, 3, 4, 4, 4, 5, 5, 6 } { 2, 2, 3, 3, 4, 4, 4, 5, 5, 6 }
0
1
2
3
1 2 3 4 5 6 7
51
Quartile
A B
„Box“ – Bereich von der25. zur 75. Perzentile
Stäbe (whiskers) sindnicht einheitlich definiert
Minimum / Maximum(SPSS)
10% / 90% Perzentile
52
Grafik - Boxplots
*
*
*
*
niedriger Ausreißer
kleinste normale Beobachtung
unteres Quartil
Mittelwert (grau Vertrauensintervall)Median
oberes Quartil
größte normale Beobachtung
größter Ausreißer
53
Boxplots – Bsp. ACE-Hemmer
2010N =
GENDER
21
WE
IGH
T
180
160
140
120
100
80
60
40
11
29
24
54
ZusammenfassungDie deskriptive Statistik beschreibtmathematische Eigenschaften des erhobeneDatenmaterials anhand von Stichproben
Es werden Lagemaße (Mittelwert, Median, 95%-Perzentile) von Streumaßen(Standardabweichung, Varianz, SEM, range,interquartile range) unterschieden.
Anhand dieser Parameter können Untersuchungs-ergebnisse standardisiert berichtet werden, sodass es anderen gelingt, die Ergebnisse einerUntersuchung nachzuvollziehen, ohne alleEinzeldaten zu kennen.
10
AGAH Annual Meeting 2004, BerlinT. Sudhop und M. Reber: Workshop Biometrie - Beschreibende und schließende Statistik in Klinischen Studien
Grundlagen der BiometrieBeschreibende und schließende Statistik in
klinischen Studien
PD Dr. med. Thomas Sudhop & Dr. med. Dipl. chem. Michael ReberAbteilung für Klinische Pharmakologie
Universität Bonn
56
Wahrscheinlichkeit
Verhältnis „Anzahl aller günstigen Ereignisse“zu „Anzahl aller möglichen Ereignisse“
Wahrscheinlichkeit, mit einem Würfel imnächsten Wurf eine „6“ zu werfen:
p liegt immer im Intervall [0; 1] (0-100%)
EreignissemöglichenallerAnzahlEreignissegünstigenallerAnzahlp =
%7,16666661.061
}6,5,4,3,2,1{}6{
≅===p
57
Chance (Odd)
Verhältnis „Anzahl aller günstigen Ereignisse“zu „Anzahl aller ungünstigen Ereignisse“
Chance, mit einem Würfel im nächsten Wurfeine „6“ zu werfen:
EreignissenungünstigeallerAnzahlEreignissegünstigenallerAnzahlp =
%202,051
}5,4,3,2,1{}6{
≅===p
58
10%
16%
32%
24%
14%
4%
0%
10%
20%
30%
40%
1 2 3 4 5 6
5
8
16
12
7
2
0
5
10
15
20
1 2 3 4 5 6
Absolute und relative Häufigkeit
Absolute Häufigkeit
Angabe, wie oft einbestimmter Datenwert inder Stichprobe enthaltenist
Relative Häufigkeit
Angabe, wie oft einbestimmter Datenwert inder Stichprobe relativzum Stichprobenumfangenthalten ist
n=50 n=50
Mathematiknoten einer Jahrgangsstufe Mathematiknoten einer Jahrgangsstufe
59
Zufallsvariable(Random variable)
Variable in einer Studie, die auf einerZufallsstichprobe basiert
Alter
systolischer Blutdruck
....
Zielgröße in einer Studie
Zufallsvariable unterliegt einer bestimmtenVerteilung
60
Skalen für Zufallsvariablen
diskret / kategorial
Nominalskaliert: keine lineare Ordnung
Beispiel: Farben, ja/nein
Ordinalskaliert: Ausprägung kann geordnet werden
Beispiel: Schulnoten
stetig / kontinuierlich
intervallskaliert: Differenzen sind einheitlichinterpretierbar
Beispiel: Temperatur in Grad Celsius
verhältnisskaliert: Verhältnisse sind einheitlichinterpretierbar
Beispiel: Luftdruck, etc.
11
AGAH Annual Meeting 2004, BerlinT. Sudhop und M. Reber: Workshop Biometrie - Beschreibende und schließende Statistik in Klinischen Studien
61
Histogramm -> Verteilung80
-89
90-9
9
100-
109
110-
119
120-
129
130-
139
140-
149
150-
159
160-
169
80-8
4
85-8
9
90-9
4
95-9
9
100-
104
105-
109
110-
114
115-
119
120-
124
125-
129
130-
134
135-
139
140-
144
145-
149
150-
154
155-
159
160-
164
80 85 90 95 100
105
110
115
120
125
130
135
140
145
150
155
160 80 90 100
110
120
130
140
150
160
62
NormalverteilungStandard-Normalverteilung (z)
80 90 100
110
120
130
140
150
160
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
-4 -3 -2 -1 0 1 2 3 4
µ = 120σ = 10
µ = 0σ = 1
34,1% 34,1%
13,6%13,6%2,2% 2,2%
0,15%0,15%
2
21
21)(
zezf
−=
π
2
2
2)(
21)( σ
πσ
µx
exf−
−=
Ν(µ, σ²)
Ν(0,1)
σµxz −
=
63
Z-Verteilung„Kritische Werte“
-4 -3 -2 -1 0 1 2 3 4
0,05 = 5%
1,645
-4 -3 -2 -1 0 1 2 3 4
0,025 = 2.5%
1,96
< 5% der Werte sind >1,645< 5% der Werte sind >1,645
< 5% der Werte sind < 5% der Werte sind >1,96 >1,96 bzwbzw. < -1,96. < -1,96
µ = 0σ = 1
µ = 0σ = 1
64
Z-Transformation„Kritische Werte“
-4 -3 -2 -1 0 1 2 3 4
0,975 = 97,5%
1,96
µzX += σ µzX += σ
Durch Transformation können die kritischenWerte der z-Verteilung auf jedeNormalverteilung angepasst werden
RR in der Normalbevölkerung: µ=120, σ=10
krit. Grenze (z97,5%) = 1,96*10+120 = 139,6 mmHg
65
Central limit Theorem
5 5 5 5 5 5
0
2
4
6
8
10
12
1 2 3 4 5 60
2
4
6
8
10
12
14
16
18
2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.0 4.1 4.2 4.3 4.4 4.5 4.6 4.7
Verteilung der Einzelwerte: Uniform
Verteilung der Stichprobenmittelwerte: Normal
66
„Central Limit Theorem“
Der Mittelwert der Stichproben-Mittelwerteentspricht dem Mittelwert der Population
Ist die Population normal verteilt, so ist auchder Mittelwert der Stichproben-Mittelwertenormal verteilt
Ist die Population nicht normal verteilt, so istder Mittelwert der Stichproben-Mittelwertedennoch annähernd normal verteilt*
*für große Stichproben*für große Stichproben
12
AGAH Annual Meeting 2004, BerlinT. Sudhop und M. Reber: Workshop Biometrie - Beschreibende und schließende Statistik in Klinischen Studien
67
Standardabweichung und Standardfehler
Standardabweichung
SD ist die Standard-abweichung derEinzelwerte
Standardfehler
SEM entspricht derStandardabweichungder Mittelwerte
nSEM
nnSDSEM
22 σ
σ
=
==
68
Konfidenzintervall /Vertrauensbereich des Mittelwerts
Der x%-Vertrauensbereich eines Mittelwertseiner Stichprobe (x) bezeichnet das Intervall,das mit x%iger Wahrscheinlichkeit denMittelwert der Population (µ) enthält
Beispiel: x=122 mmHg, 95%-CI [118; 124]
2 Konstellationen sind zu unterscheiden
Varianz/SD der Population ist bekannt
Varianz/SD der Population ist unbekannt
69
Vertrauenbereich für z-VerteilungN(µ,σ²) = N(0, 1)
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
-4 -3 -2 -1 0 1 2 3 4
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
-4 -3 -2 -1 0 1 2 3 4
100%-∞... +∞
2.5%< -1,96
97,5%> +1,96
µ = 0σ = 1
µ = 0σ = 1
]96,1;96,1[ SEMxSEMx ⋅+⋅−
]96,1;96,1[n
xn
x σσ⋅+⋅−
];[ %5,97%5,2 σσ ⋅+⋅− zxzx
µzX += σ
nzx
nzx ];[ %5,97%5,2
σσ⋅+⋅−
70
Beispiel:95%-CI bei bekannter SD der Population
Systolischer Blutdruck der Normalpopulation(SD=10 mmHg)
Stichprobe mit n=25 liefert einen Mittelwertvon 122 mmHg
]92,125;078,118[%95
92,3122296,1122%95
251096,1%95
=
±=⋅±=
⋅±=
CI
CI
xCI
71
95%-Konfidenzintervall
µµ
95% aller Stichprobenbeinhalten mit ihrem95%-CI den Populations-mittelwert µ
Nur 5% aller Stichprobenbeinhalten mit ihrem95%-Vertrauensintervallnicht den Populations-mittelwert µ
72
Irrtumswahrscheinlichkeit α
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
-4 -3 -2 -1 0 1 2 3 4
2.5%< -1,96
97,5%> +1,96
µ = 0σ = 1
96,196,1%5
2/12/ +=−==
−αα
αzz
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
-4 -3 -2 -1 0 1 2 3 4
0,5%< -2,576
99,5%> +2,576
µ = 0σ = 1
576,2576,2%1
2/12/ +=−==
−αα
αzz
13
AGAH Annual Meeting 2004, BerlinT. Sudhop und M. Reber: Workshop Biometrie - Beschreibende und schließende Statistik in Klinischen Studien
73
Konfidenzintervall bei bekannter SD
];[ 2/12/11 nzx
nzxCI σσ
ααα ⋅+⋅−= −−−
α = Irrtumswahrscheinlichkeit
σ = Standardabw. der Population
x = Mittelwert der Stichprobe
n = Umfang der Stichprobe
74
95%-Vertrauensbereich beiunbekannter SD
Bei unbekanntem Populations-SD müssenanstelle von z1-α/2 die entsprechenden Werteder t-Verteilung eingesetzt werden
SEMxCI ⋅±= 96,1%95
SEMzxCI ⋅±= 975,0%95
];[ 2/1,12/1,11 ntx
ntxCI nn
σσααα ⋅+⋅−= −−−−−
75
t-Verteilung (Student-t)
0 1 2 3-3 -2 -1
df=20
df=9
df=4
df tdf;0,975 z0,975
4 2,776 1,969 2,262 1,9629 2,045 1,9660 2,000 1,96
Df = Degree of Freedom(Freiheitsgrade)
76
Konfidenzintervall in deranalytischen Statistik
Klinische Studie
Patienten mit Grenzwerthypertonie (n=15)
Zielgröße: systolischer Blutdruck
Design: 1-armig, intraindividueller Vergleich
Systolischer Blutdruck vor Therapie (RRt=0) und nach4 Wochen (RRt=28) kontinuierlicher Intervention
Fragestellung: Ist durch die Intervention eineBlutdruckänderung nachweisbar?
Zufallsvariable: RRt=28 - RRt=0
77
BeispielZufallsvariable: RRt=28 - RRt=0
Vorher Nachher Differenz Konfidenzintervalle t 14,1-α /2 Linke Grenze Rechte Grenze p140 136 -4 95% 2.14 -6.06 -2.75 0.05135 132 -3 97% 2.41 -6.26 -2.54 0.03141 134 -7 99% 2.98 -6.70 -2.11 0.01140 139 -1 99.90% 4.14 -7.59 -1.21 0.001140 133 -7 99.95% 4.50 -7.87 -0.93 0.0005135 127 -8 99.99% 5.36 -8.54 -0.27 0.0001141 136 -5140 136 -4144 146 2143 137 -6140 132 -8138 130 -8120 119 -1124 118 -6137 135 -2
x 137.20 132.80 -4.40SD 6.70 7.22 2.99
SEM 1.73 1.86 0.77
Da das 95%-Konfidenzintervall nicht die „0“ umfasst, ist dieBehandlungsdifferenz von „0“ verschieden
Simplifiziert: Es liegt ein signifikanter Behandlungseffekt mitIrrtumswahrscheinlichkeit von α = 0,05 vor
78
-3 -2 -1 0 1 2 3
Konfidenzintervall für Differenzen
Beinhaltet ein 1-αKonfidenzintervall füreine Differenz die „0“, sokann keine „signifikanteDifferenz“ angenommenwerden.
Ist die „0“ nicht im 1-αKonfidenzintervall für eineDifferenz enthalten, sokann von einemsignifikanten Unterschiedausgegangen werden
Die Differenz ist mit einerIrrtumswahrscheinlichkeitvon α von „0“ verschieden
14
AGAH Annual Meeting 2004, BerlinT. Sudhop und M. Reber: Workshop Biometrie - Beschreibende und schließende Statistik in Klinischen Studien
79
Statistischer TestHypothesen
Einfluss der Intervention
H0: hat keinen Einfluss
H1: hat einen Einfluss
Bezogen auf gemessene Differenz derStichprobe
H0: Differenz ist nicht „0“ verschieden
H1: Differenz ist von „0“ verschieden
80
Aufbau der Hypothesen
Die Null-Hypothese (H0) geht von keinemsystematischen Unterschied aus. GefundeneUnterschiede sind zufällig und nicht systematisch
Die Alternativ-Hypothese (H1 / HA) ist die logischeUmkehrung der Null-Hypothese, d.h. es existiert einsystematischer Unterschied. Gefundene Unterschiedesind nicht zufällig, sondern systematisch
Null- und Alternativ-Hypothesen müssen sichgegenseitig ausschließen und alle Möglichkeitenabdecken.
Wenn H0 falsch ist, muss H1 wahr sein
Wenn H0 wahr ist, muss H1 falsch sein
81
Ein- und zweiseitige Fragestellung
Ungerichteter Effekt
H0: RRt=28 - RRt=0 = 0
H1: RRt=28 - RRt=0 ≠ 0
Zweiseitiger Test
Gerichteter Effekt
H0: RRt=28 - RRt=0 = 0
H1: RRt=28 - RRt=0 < 0
Einseitiger Test
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
-4 -3 -2 -1 0 1 2 3 4
2,5% 97,5%
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
-4 -3 -2 -1 0 1 2 3 4
5%
82
Testergebnis und WirklichkeitStatistische Fehler
4 Möglichkeiten, wie Testergebnis undWirklichkeit zusammentreffen können
H0 wird akzeptiert, H0 ist in Wirklichkeit wahr
H0 wird akzeptiert, H1 ist in Wirklichkeit wahr
H0 wird abgelehnt, H1 ist in Wirklichkeit wahr
H0 wird abgelehnt, H0 ist in Wirklichkeit wahr
83
Statische FehlerFehler I. Art und II. Art
Wirklichkeit
Richtigpositiv
(Power = 1-β)
Falschpositiv
(Fehler I. Artα-Fehler)
Falschnegativ
(Fehler II. Artβ-Fehler)
Richtignegativ
Differenz<>0 (H1ist wahr)
Differenz=0 (H0 ist wahr)
Differenz<>0 (H0 ablehnen)
Differenz=0 (H0 beibehalten)Te
sten
tsch
eidu
ng
84
Testergebnis und WirklichkeitStatistische Fehler
α-Fehler
H0 wird abgelehnt, obwohl H0 in Wirklichkeit wahr ist
Ein Effekt wird angenommen, wo keiner ist
β-Fehler
H0 wird akzeptiert, obwohl H1 in Wirklichkeit wahr ist
Ein vorhandener Effekt wird nicht erkannt
Welcher Fehler ist „schlimmer“ und daher eherzu vermeiden?
15
AGAH Annual Meeting 2004, BerlinT. Sudhop und M. Reber: Workshop Biometrie - Beschreibende und schließende Statistik in Klinischen Studien
85
Signifikanz-Niveau
Konsequenzen eines falsch-positiven Tests
uneffektive Behandlung
Risiko ohne Nutzen („Nihil nocere“)
Kosten ohne Nutzen
Fazit
Das Risiko eines falsch positiven Tests sollte bekanntsein und durch vorherige Festlegung eines α-Niveauskontrolliert werden
Übliche Werte für α
0,05 (5%), 0,01 (1%), 0,001 (0,1%) ...
Das Signifikanz-Niveau muss vor Testbeginnfestgelegt werden
86
Gepaarter t-Test
Testet, ob eine Differenzzwischen unabhängigenBeobachtungspaaren von„0“ verschieden ist
Verteilung der Differenzentspricht einer t-Statistikder Form:
mit n-1 Freiheitsgraden
dSEdt =
Vorher Nachher Differenz140 138 -2135 131 -4141 135 -6140 136 -4140 134 -6135 136 1141 138 -3140 134 -6144 140 -4143 141 -2140 142 2138 140 2120 121 1124 117 -7137 131 -6
d -2,93SDd 3,09SEd 0,80
t -3,68tkrit; 14; 2,5% -2,14tkrit; 14; 97,5% 2,14
87
Gepaarter t-Test„Kritische Werte“
-4 -3 -2 -1 0 1 2 3 4
2,14
Ist der gefundene t-Wert kleiner als der untere kritischeWert oder größer als der obere kritische Wert, muss dieNullhypothese H0 auf dem α-Signifikanzniveau abgelehntwerden
Einfacher: Ist der Betrag des gefundenen t-Wertesgrößer als der positive (obere) kritische Wert, muss H0abgelehnt werden:
-2,14
Akzeptanzbereich (95%)Akzeptanzbereich (95%)
dSEdt =
2/1,1, α−−> nkrittt
88
Gepaarter t-TestBeispiel
-4 -3 -2 -1 0 1 2 3 4
2,14
Da |t|=3,43 größer als der kritische Wert fürdie t-Verteilung bei 14 Freiheitsgraden unddem 0,975-Quantil ist (2,14), muss die H0-Hypothese auf dem Signifikanz-Niveau α=0,05verworfen werden
-2,14
68,38,093,2
−=−
==dSEdt
2/1,1,0 , α−−> nkritttwennabzulehnenistH
89
-4 -3 -2 -1 0 1 2 3 4
Gepaarter t-TestBedeutung des p-Wertes
68,38,093,2
−=−
==dSEdt
α 1-α/2 tkrit,14,1-α/2
0,05 0,9750 2,140,02 0,9900 2,620,01 0,9950 2,980,005 0,9975 3,330,004 0,9980 3,440,003 0,9985 3,580,0025 0,9988 3,670,0024 0,9988 3,70
P-WertP-Wert
90
P-Wert eines statistischen Tests
Vorher Nachher Differenz140 138 -2135 131 -4141 135 -6140 136 -4140 134 -6135 136 1141 138 -3140 134 -6144 140 -4143 141 -2140 142 2138 140 2120 121 1124 117 -7137 131 -6
d -2,93SDd 3,09SEd 0,80
t -3,68tkrit; 14; 97,5% 2,14
p 0,0025
P bezeichnet dieWahrscheinlichkeit einesolche Differenz oder nochextremere wie diegefundene zu erhalten,wenn die Null-Hypothesewahr wäre
Alternativ: DieWahrscheinlichkeit, dasseine solche Differenzzufällig beobachtet wird(ohne das ein signifikanterUnterschied vorhandenwäre)
Wenn p<α, muss die H0-Hypothese abgelehntwerden
16
AGAH Annual Meeting 2004, BerlinT. Sudhop und M. Reber: Workshop Biometrie - Beschreibende und schließende Statistik in Klinischen Studien
91
Klinische Studie“Z99 a new compound lowering BP”
“Z99” wurde zur Behandlung der systoloischenHypertonie etwickelt
Phase II Studie über 7 Tage an 50 Therapie-naivenmilden Hypertonikern (130 < RRsys. < 160 mmHg)
Design
Randomisiert
Doppel-blind
Placebo-kontrolliert
2-armige Parallelgruppenstudie (1:1)
92
Clinical Trial ExampleHypotheses
H0: Eine 7-tägige Behandlung mit Z99 beeinflusst densystolischen Blutdruck im Vergleich zu Placebo nicht
xZ99 = xPBO
H1: Eine 7-tägige Behandlung mit Z99 beeinflusst densystolischen Blutdruck im Vergleich zu Placebo
xZ99 ≠ xPBO
Wenn H0 wahr ist, muss H1 falsch sein
U N D
Wenn H0 falsch ist, muss H1 wahr sein
93
Klinische StudieStatistischer Plan
Voraussetzung
Beide Behandlungsgruppen weisen bedingt durchvorherige Randomisierung vergleichbareAusgangswerte auf
Statistischer Test
Vergleich der beiden Gruppenmittelwerte nach 7Tagen Behandlung mittels t-test für unabhängigeStichproben
Signifikanz-Niveau wird auf α = 0,05 gesetzt
94
Klinische StudieErgebnisse
n = 2 x 25 Patienten
Ausgangswerte
xPBO: 142 ± 15 mmHg (MW ± SD)
xZ99: 142 ± 16 mmHg
Nach 7 Tagen
xPBO: 142 ± 15 mmHg
xZ99: 129 ± 17 mmHg
t-test: p = 0.0078
PBO Z99150 120160 130145 110133 133166 115120 140157 157158 120120 100120 155145 145132 132122 122145 145120 120143 150120 110140 100150 110145 130148 148171 130151 151140 130145 130
Mean 142 129SD 15 17p 0,0078
95
Durchführung eines statistischen Tests“Operating the Black Box”
Festlegung von H0 und H1
Wahl des Signifikanz-Niveaus α
Testdurchführung
In Abhängigkeit vomTestergebnis (p)
H0 ablehnen: H1 ist wahr oder
H0 beibehalten: H0 ist “wahr“
TestTestBlack BoxBlack Box
HH00 HH 11
1717
2525
33
Reject HReject H0096
Voraussetzungen für t-Test
Intervallskalierte Daten
Normalverteilung der Gruppen
Varianzhomogenität der Gruppen
kann verletzt werden, wenn n1=n2
wenn n1<>n2 und Varianzhomogenität nichtgegeben, spezielle Anpassung der Freiheitsgrademöglich
17
AGAH Annual Meeting 2004, BerlinT. Sudhop und M. Reber: Workshop Biometrie - Beschreibende und schließende Statistik in Klinischen Studien
97
Test auf Normalverteilung
Verfahren in SPSS (explorative Datenanalyse)
Kolmogorov-Smirnov Test
H0: Stichprobe ist normalverteilt
H1: Stichprobe ist nicht normalverteilt
Shapiro-Wilk Test
H0: Stichprobe ist normalverteilt
H1: Stichprobe ist nicht normalverteilt
98
Test auf Varianzhomogenität
Verfahren in SPSS (t-Test für unverbundeneStichproben)
Levene‘s Test (F-Test auf Varianzhomogenität)
H0:
H1:
Wenn H1 wahr, spezieller heteroskedastischer t-Testmit Anpassung der Freiheitsgrade
22
21 σσ =
22
21 σσ ≠
99
Nichtparametrischer Test:2 unabhängige Stichproben
Mann-Whitney U-Test
aka Wilcoxon Rank-Sum Test
aka Mann-Whitney-Wilcoxon Rank-Sum Test
Bildet aus den Werten Ränge und berechnetmodifizierte t-Statistik für die Ränge (robustergegen Ausreißer)
Trennschärfer als t-Test, wennVoraussetzungen für t-Test verletzt sind
100
Nichtparametrischer Test:2 verbundene Stichproben
Wilcoxon signed-ranks
Sortiert Differenzen nach absolutem Betrag undbildet entsprechende Ränge
Modifizierte t-Statistik für Ränge
101
2-Stichproben-Tests
Verbundene Verbundene Daten (gepaart)Daten (gepaart)
unverbundene unverbundene DatenDaten
ParametrischParametrischNicht-Nicht-
parametrischparametrisch
Gepaarter Gepaarter t-Testt-Test
t-Test fürt-Test fürunverbundeneunverbundene
DatenDaten
WilcoxonWilcoxonsignedsigned--ranks ranks TestTest
Mann-Whitney UMann-Whitney UTestTest
102
Einfluss der Fallzahl“Weniger ist mehr?”
PBO Z99150 120160 130145 110133 133166 115120 140157 157158 120120 100120 155145 145132 132122 122145 145120 120143 150120 110140 100150 110145 130148 148171 130151 151140 130145 130
Mean 141 129SD 17 17p 0,0987
Gleiche Studie aber nur die ersten n = 2 x13 Patienten werden ausgewertet
Ausgangswerte
xPBO: 142 ± 15 mmHg
xZ99: 142 ± 16 mmHg
Ergebnis nach 7 Tagen Behandlung
xPBO: 141 ± 17 mmHg
xZ99: 129 ± 17 mmHg
t-test: p = 0.0987
da p > α (0.05) kann H0 nicht verworfen werden
“Z99” hat keinen Einfluss auf den systolischenBlutdruck
18
AGAH Annual Meeting 2004, BerlinT. Sudhop und M. Reber: Workshop Biometrie - Beschreibende und schließende Statistik in Klinischen Studien
103
Einfluss der Fallzahl
Eine zu geringe Fallzahl kann falsch negativeErgebnisse bewirken (Fehler II. Art/β-Fehler)
Experimente müssen die notwendigestatistische Power aufweisen, um signifikanteErgebnisse liefern zu können
Fazit: Beim Design eines Experiments ist eineFallzahlabschätzung notwendig!
104
β Fehler und statistische Power
β Fehler
Definition: Wahrscheinlichkeit H0 nicht zu verwerfen,obwohl H0 falsch ist
z.B.: Obwohl µPBO ≠ µZ99 liefert der Test xPBO = xZ99
(falsch negatives Ergebnis)
Statistische Power (1-β)
Definition: Wahrscheinlichkeit H0 zu verwerfen, wenn H0
falsch ist, d.h. die Wahrscheinlichkeit eine “reale” Differenzauch als solche zu entdecken
Vereinfacht: Wahrscheinlichkeit ein signifikantesTestergebnis zu erhalten (wenn ein signifikanterUnterschied besteht)
105
Vermeidung von β Fehlern:Power-Schätzung/Berechnung
Vergleich der beiden “Z99”-Experimente
1. Experiment: n = 2x25 ⇒ Power ~ 80%
2. Experiment: n = 2x13 ⇒ Power ~ 38%
Power-Schätzung
Wenn die stat. Power eines Studiendesigns nur 50%beträgt, wird jede 2. Studie mit diesen Parameternkeine signifikanten Unterschiede anzeigen
Konfirmatorische Studien: Power ≥ 80%
Große Phase III Studien: 85-95%
106
Power & Fallzahl
GPOWER - Version 2.0 Franz Faul & Edgar Erdfelder
107
Faktoren, die die Fallzahl beeinflussen
Signifikanz-Niveau (α)
Je niedriger das angestrebte α, um so höher dieerforderliche Fallzahl
Power (1-β)
Je größer die gewünschte Power, um so höher dieerforderliche Fallzahl
Geschätzte Differenz
Je kleiner die nachzuweisende Differenz, um so höherdie erforderliche Fallzahl
Geschätzte Standardabweichung
Je größer die Standardabweichung, um so höher dieerforderliche Fallzahl
Power
n
α
n
xPBO - xZ99
n
SD
n
108
Fallzahlberechnung
1. Festlegung von α und gewünschter Power
z.B. α = 0.05 (5%), power = 80%
2. Schätzung der nachzuweisenden Differenz
Ist die Schätzung klinisch relevant?
3. Schätzung der erwarteten Varianz/Standardabweichung
Möglichst realistische Werte aus vorangegangenen Experimentenoder der Literatur verwenden
4. Fallzahlberechnung durchführen (oder durchführen lassen!)
Ist die geschätzte Fallzahl klinisch realisierbar?
Ist die geschätzte Fallzahl adäquat zum klinischen Problem?
Anpassung der Fallzahl an die geschätzte Drop-Out-Rate
19
AGAH Annual Meeting 2004, BerlinT. Sudhop und M. Reber: Workshop Biometrie - Beschreibende und schließende Statistik in Klinischen Studien
109
Anpassung der Fallzahlschätzung„Drop out“ Rate
Faktoren, die die “Drop out” Rate beeinflussen
Studiendauer
Krankheitsbezogene Verschlechterung
Studienbedingte Unannehmlichkeiten, Adverse Events ...
Die Fallzahlschätzung sollte immer auch die antizipierteDrop out Rate beinhalten
n = 50 & antizipierte “drop out” Rate 11% ⇒ n = 56
110
Praktische Fallzahlschätzung1. Beispiel
α = 5%
Power = 80%
Geschätzte Differenz & SD
xPBO - xZ99 ~ 13 mmHg
SDpooled ~ 16
Fallzahlberechnung
2 x n = 50
Antizipierte Drop out Rate: 0%
25 Patienten pro Gruppebenötigt
GPOWER - Version 2.0 Franz Faul & Edgar Erdfelder
111
Power: A priori & Post-hoc
“A priori” Power
Schätzung, basierend auf
geschätzte Differenz
geschätzte SD
kalkulierte Fallzahl
“Post-hoc” Power
Berechnung, basierend auf
beobachteter Differenz
beobachteter SD
echter Fallzahl
“Post-hoc Power” “Post-hoc Power” kannkann größergrößer aberaber auch kleiner alsauch kleiner als die “a priori Power” die “a priori Power” seinsein!!
112
Tipps & Tricks“Oder, warum Studien scheitern?”
Frühzeitige Einbindung des Statistikers in dieStudienplanung
Verwendung realistischer Schätzer für die erwarteteDifferenz und Varianz/SD
Strikte Protokolleinhaltung
Exakte Messung
Vermeidung von Drop outs
113
Literatur
Bücher
Rossner B. Fundamentals of Biostatistics. Duxberry Press
Dawson-Saunders B. & Trapp R.G. Basics and ClinicalBiostatistics. Prentice Hall International Inc.
Motulsky, H. Intuitive Biostatistics, Oxford University Press
SoftwareSPSS - www.spss.com
SAS - www.sas.com
Buchner A., Faul F., Erdfelder E. GPOWER 2.0 - Computerprogram for power- and sample size calculation,http://www.psycho.uni-duesseldorf.de/aap/projects/gpower/(Freeware) [MS-DOS/Windows and Macintosh]
Top Related