Download - Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Transcript

Von der Fragestellung zu den eigenen Ergebnissen –

Einführung in die Statistik Antje & Dominik

Kurze Geschichte der Statistik

G. Achenwall (Göttingen 1719-1747)

„Wissen, das ein Staatsmann besitzen sollte“

Datensammlung durch die Länder (statistische Ämter)

Page 3: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Meilensteine John Graunt

(1661-1662) entdeckte, dasmehr Knaben als Mädchen geboren wurden

Adolphe Quetelet (1798-1874) führte das Konzept des Durchschnittsmenschen ein, dessen Gedanken und Taten mit dem Verhalten der Gesellschaft übereinstimmen

Page 4: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Bedeutung der Konstanz grosser Zahlen

Neben dem blossen Sammeln von Daten gewinnen die Interpretation und das Ziehen von Schlussfolgerungen an Bedeutung.

Page 5: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Verknüpfung von Statistik und Wahrscheinlichkeitsrechnung

Durch das Glücksspiel - Galileo Galilei soll herausgefunden haben, daß mit 3 Würfeln häufiger die Zahl „10“ als die Zahl „9“ gewürfelt wird (um 1600)

Page 6: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Weitere Meilensteine

Karl Friedrich Gauß (1777-1855) -Umlaufbahn von „Ceres“ mit

Methode der kleinsten Quadrate -Normalverteilung

Page 7: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Weitere Meilensteine

Thomas Bayes (1702-1763) A-priori Wahrscheinlichkeit A-posteriori Wahrscheinlichkeit

Page 8: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Weitere Meilensteine

Karl Pearson (1857-1936) Chi-Quadrat

Ronald A. Fisher (1890-1962) Varianz, Planung, Zufallsanordnung und Signifikanztests

Page 9: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Zwischenfazit

Statistik sollte nicht nach „Kochbuch“ durchgeführt werden.

Hintergründe und Voraussetzungen der verschiedenen Methoden sind wichtiger als mathematische Formeln

Page 10: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Beschreibende Statistik

Population und Stichprobe

CAVE Selection BIAS

Page 11: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

„Statistisches Handwerkszeug“

1. Therapiestudien

2. Diagnosestudien

Page 12: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

„Statistisches Handwerkszeug“

Therapiestudien: Zweck: Nachweis einer Wirksamkeit, Vergleich

zweier therapeutischen Maßnahmen

wichtig: messbare „Outcomes“z.B. Überlebenszeit, binäre Zielgrößen (geheilt/nicht geheilt) oder stetige Zielgrößen (FEV1)

einzelne Messungen müssen voneinander unabhängig sein(Ergebnisse der Therapie bei einem Patienten unabhängig vom Ergebnis des anderen Patienten)

Page 13: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Binäre Zielgrößen

Beispiel: Auftreten einer akuten Otitis media in bestimmter Hochrisikogruppe (Simoes 1996)

Auftreten = negatives Ergebnis/TherapieversagenVierfeldertafel:

Therapieversagen

Therapie ja nein

neu a b a + b

Standard c d c + d

a + c b + d a+b+c+d

Page 14: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

WahrscheinlichkeitenTherapieversagen

Therapie ja nein

neu a b a + b

Standard c d c + d

a + c b + d a+b+c+d

Wahrscheinlichkeit Pn für eine Otitis media bei einem Kind in Gruppe „Neue/Experimentelle Therapie“ läßt sich schätzen durch: Pe = a/(a + b)

Ps = c/(c + d)

Page 15: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

RisikodifferenzTherapieversagen

Therapie ja nein

neu a b a + b

Standard c d c + d

a + c b + d a+b+c+d

RD = Pe – Ps

RD = 0 bedeutet, dass Wahrscheinlichkeit in beiden Gruppen für Therapieversagen gleich groß ist.

RD < 0 : experimentelle Gruppe/“NeueTherapie“ besser

Page 16: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Relatives Risiko

Verhältnis beider WahrscheinlichkeitenRR = Pe : Ps

bei Pe = Ps RR = 1

RR<1in experimenteller Gruppe bessere Prognose

RR = (a/(a+b)) / (c/(c+d))

Page 17: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Odds-Ratio

odds = chance (Sportwetten!) Bei Fall-Kontroll-Studien (hier kann ein Therapieversagen

nicht geschätzt werden) Odds = P / 1 – P P = Wahrscheinlichkeit

Beispiel: Odds von 3 : 1 = 75 % Eintritt und 25% gegen Eintritt des Ereignisses

Odds-Ratio = Odds für den Eintritt eines Ereignisses in der exp.Gruppe

Odds in der Kontrollgruppe Odds = 1 : Wahrscheinlichkeit eines Ereignisses in beiden

Gruppen gleich RR<1 in experimenteller Gruppe bessere Prognose

Page 18: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Number needed to treat (NNT)

In EBM häufig gebraucht Wieviele Patienten muss ich behandeln, um im

Vergleich zu einer anderen Therapie ein positives Ergebnis herbeizuführen

Voraussetzung: experimentelle Gruppe besser! Pe < Ps

NNT = 1/ARR = 1/RDARR = Absolute Risikoreduktion

Page 19: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Vergleichende Maßzahlen

Absolute Maßzahlen: RD (Risikodifferenz), ARR (Absolute Risikoreduktion)

Relative M.: RR (Relatives Risiko), RRR (Relative Risikoreduktion), OR (Odds Ratio)

Beispiel: RD 0,5 % → bei Risiko von 1 auf 0,5%0,005 : 0,01 = 0,5 RR

→ bei Risiko von 48 auf 47,5%47,5 : 48 = 0,99 RR

Page 20: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Stetige Zielgrößen

Beispiel: Therapie Atemwegsobstruktion, Zielgröße: Änderung FEV1

Wichtig: Annahme über die zugrunde liegende Verteilung des Merkmals

Wenn annähernd normalverteilt bzw. symmetrisch: Mittelwertdifferenz MD = xE – xS

MD = 0 : beide Gruppen unterscheiden sich im Mittelwert nicht

Modelle zur Beschreibung des Zufalls

•Binomialverteilung

•Poissonverteilung

•Normalverteilung

•Log-Normalverteilung

•Exponentialverteilung...

Page 21: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Überlebenszeiten Zeit bis zum Eintritt des Todes Schätzung der Überlebenszeit in 2 Therapiegruppen

mittels Kaplan-Meyer-Methode

Vergleich zweier Gruppen mittels Log-Rank-Tests (sind die Unterschiede in beiden Gruppen signifikant??)

Hazard-Funktion: Wahrscheinlichkeit, an einem bestimmten Zeitpunkt zu versterben

Vergleichende Messzahlen: Differenz der Überlebenszeiten oder Hazard-RatioHR > 1 : Risiko zu versterben in exp.Gruppe größer als in standard.Gruppe

Page 22: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

„Statistisches Handwerkszeug“

1. Therapiestudien

2. Diagnosestudien

Page 23: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

„Statistisches Handwerkszeug“

2. Diagnosestudien Zweck: Beurteilung einer (neuen) Maßnahme

zur Diagnose einer Erkrankung

Vorhersage der neuen Methode wird mit Goldstandard verglichen (=gegenwärtig zuverlässigste Methode)

Binäre Outcomes: Krankheit erkannt oder nicht

Page 24: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Binäre Zielgrößen

Beispiel: Röntgendiagnostik mit klinisch-neurologischer Beurteilung für Diagnose intrakranieller Verletzungen bei Kindern mit SHT (Lloyd 1997)

Goldstandart: CCTVierfeldertafel:Krankheit liegt

vorKrankheit liegt nicht vor

Testergebnis positiv

a b a + b

Testergebnis negativ

c d c + d

a + c b + d N

Page 25: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Prävalenz, Vortestwahrscheinlichkeit

Vortestwahrscheinlichkeit = (a + c) / N

Krankheit liegt vor

Krankheit liegt nicht vor

Testergebnis positiv

a b a + b

Testergebnis negativ

c d c + d

a + c b + d N

Page 26: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Sensitivität und Spezifität

Sensitivität = a / (a + c)Wahrscheinlichkeit, dass ein Erkrankter durch eine

diagnostischeMethode auch als krank erkannt wird

Spezifität = d / (b + d) Wahrscheinlichkeit, dass ein Gesunder durch eine diagnostischeMethode auch als gesund erkannt wird

Krankheit liegt vor

Krankheit liegt nicht vor

Testergebnis positiv

a b a + b

Testergebnis negativ

c d c + d

a + c b + d N

Page 27: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Wahrscheinlichkeitsverhältnis

Krankheit liegt vor

Krankheit liegt nicht vor

Testergebnis positiv

a b a + b

Testergebnis negativ

c d c + d

a + c b + d N

engl. likelihood ratio (LR):Verhältnis der Wahrscheinlichkeiten, dass bei einer erkrankten Person das entsprechende Testergebnis beobachtet wird im Vergleich dazu, dass es bei einer gesunden Person beobachtet wird.

LR + = Sensitivität / (1 – Spezifität)wenn LR+ = 1: Wahrscheinlichkeiten bei positivem

Test gleich großje größer LR +, ums so verlässlicher das positive

Testergebnis

Page 28: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Wahrscheinlichkeitsverhältnis

Krankheit liegt vor

Krankheit liegt nicht vor

Testergebnis positiv

a b a + b

Testergebnis negativ

c d c + d

a + c b + d N

LR - = (1 – Sensitivität) / Spezifitätwenn LR- = 1: Wahrscheinlichkeiten bei negativem

Test gleich großje kleiner LR -, ums so verlässlicher das negative

Testergebnis

Page 29: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Prädiktive Werte

Krankheit liegt vor

Krankheit liegt nicht vor

Testergebnis positiv

a b a + b

Testergebnis negativ

c d c + d

a + c b + d N

Positiver Prädiktiver Wert (PPW)Wahrscheinlichkeit, dass ein Patient bei positivem

Testergebnis tatsächlich erkrankt istPPW = a / (a + b)

abhängig von Vortestwahrscheinlichkeit

Page 30: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

• Von Sox e.a. (Stanford University) entwickelt• 211 eigene Patienten mit Angina pectoris

standardisiert nach Angina pectoris Symptomen befragt → Koronarangiographie → logistische Regression

Bsp. Angina pectoris-Score zur Diagnostik der KHKNach SOX HC e.a. (1990) Am J Med 89:7-14

Page 31: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Angina pectoris-Score Nach SOX HC e.a. (1990) Am J Med 89:7-14

Attribut Exakter Koeffizient (n=211) Gerundeter Koeffizient ( (Score 0-25)

Alter über 60 + 2,85 + 3

Belastungsangina + 4,26 + 4

Infarktverdacht in der Anmanese

+ 3,9 + 4

Belastungsabbruch wegen AP

+ 2,76 + 3

Nitratpositiv + 1,93 + 2

Raucher (20 pack-years)

+ 3,93 + 4

Männliches Geschlecht

+ 5,37 + 5

Maximale Punktzahl 25

Page 32: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Angina pectoris-Score Nach SOX HC e.a. (1990) Am J Med 89:7-14

Attribut Exakter Koeffizient (n=211) Gerundeter Koeffizient ( (Score 0-25)

Alter über 60 + 2,85 + 3

Belastungsangina + 4,26

Infarktverdacht in der Anmanese

+ 3,9

Belastungsabbruch wegen AP

+ 2,76

Nitratpositiv + 1,93

Raucher (20 pack-years)

+ 3,93 + 4

Männliches Geschlecht + 5,37 + 5

Maximale Punktzahl 25

+ 4

+ 3

+ 2

Page 33: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Prävalenz der KHK vor Anamnese(pretest probability nach Sox HC e.a. (1990) Am J Med 89:7-14)

• Kardiologische Universitätsklinik = ca 75 %(n=170, Stanford University + Palo Alto VA Medical Centre)

• Kardiologische Ambulanz = ca 33 %(n=404, Palo Alto Veterans Administration Medical Centre)

• Allgemeinmedizinische Ambulanz = ca 8 %(n=289, Kaiser-Permanente Medical Centre)

Aussagekraft einer Standardisierten Anamnese nach Versorgungsbereichen

Page 34: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Wie lassen sich diese Unterschiede erklären????

Aussagekraft einer standardisierten Anamnese nach Versorgungsbereichen

Page 35: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Page 36: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Ätiologie des akuten Brustschmerzes(Erhardt e.a. (2002) Task force on the management of chest pain. Eur Heart Journ 23:1153-1176)

Ätiologie Allgemein-praxis (in%)

Notfall-Zentrale (in%)

Rettungs-dienst (in%)

Notfallauf-nahme (in%)

Kardial 20 60 69 45

muskulo-skelettal

43 6 5 14

pulmonal 4 4 4 5

gastro-intestinal

5 6 3 6

psychiatrisch

11 5 5 8

and.Ursachen

16 19 18 26

Page 37: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

• Wenn ein/e Arzt/Ärztin bei einem Patienten eine typische Symptomatik feststellt,dann weisen die klinischen Befunde mit einer quantifizierbaren Wahrscheinlichkeit auf das Vorliegen einer definitiven Erkrankung hin, die von der Prävalenz dieser Erkrankung unter allen Patienten dieses Arztes abhängt, welche die gleiche Symptomatik haben.

→in allgemeinärztlichen Praxen andere Verhältnisse als in spezialisierten Ambulanzen

Folgerungen (I)Nach SOX HC e.a. (1990) Am J Med 89:7-14

Page 38: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

• Die Nachtestwahrscheinlichkeit lässt sich mit Hilfe des Bayes-Theorems erklären und errechnen.Dafür muss neben der Sensitivität und Spezifität eines Testes zwingend auch die Vortestwahrscheinlichkeit (Prävalenz) bekannt sein.

→praxisepidemiologische Studien erforderlich

Folgerungen (II)Nach SOX HC e.a. (1990) Am J Med 89:7-14

Page 39: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Thomas Bayes

Page 40: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

• Bayes-Theorems Berechnung der Nachtestwahrscheinlichkeit

PPW (+) = se · pse · p + (1 – sp) ( 1 – p)

PPW (+) = positiver prädiktiver Wert (Nachtestwahrscheinlichkeit)se = Sensitivitätsp = Spezifitätp = Prävalenz

Folgerungen (II)Nach SOX HC e.a. (1990) Am J Med 89:7-14

Page 41: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Page 42: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Statistischer Test

Mit statistischen Tests kann man prüfen, ob sich die beobachteten Daten durch zufallsbedingte Abweichungen erklären lassen – weichen nur zufällig von Null ab = Nullhypothese

Oder ob die erhobenen Daten für die Vermutung, dass es einen wahren Effekt gibt, sprechen = Alternativhypothese.

Page 43: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

P – Wert, Signifikanz

P-Wert gibt die Wahrscheinlichkeit an, die vorliegenden Studienergebnisse zu beobachten, wenn die Nullhypothese zutrifft.

Ein Testergebnis heißt statistisch signifikant, wenn der p-Wert unterhalb des vorgegebenen Fehlers 1.Art (meist 0,05) liegt (p< )

Signifikant bedeutet, dass das Ergebnis nicht durch den Zufall allein erklärbar ist (Vorbehalt Fehler der 1.Art). Fehlentscheidungen beim Testen

• Fehler 1.Art (Signifikanzniveau):– Das unberechtigte Ablehnen der

Nullhypothese– P=

• Fehler 2.Art:– Das unberechtigte Beibehalten der

Nullhypothese– P=ß

Page 44: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Prinzipielle Vorgehensweise

Formulierung der Hypothesen Wahl des Signifikanzniveaus (üblich =5%) Wahl des Testverfahrens Durchführen des Tests und Entscheidung

Page 45: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Auswahl der Testverfahren

Merkmalsart: qualitativ/quantitativ Verteilungstyp: parametrisch

(Normalverteilung), nicht-parametrisch (verteilungsunabhängig)

Anzahl der Stichproben (1, 2, >2) Unabhängige oder abhängige

Stichproben

Page 46: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Weitere Fragestellungen und die entsprechenden Analysen

Wodurch kann man zwei Gruppen am besten unterscheiden? unter Verwendung verschiedener Variablen Diskriminanzanalyse

Durch welche Variablen lassen sich Probanden in sich unter-scheidende Gruppen einteilen? Clusteranalyse

Welche Struktur hat ein Fragebogen und wie gut ist diese? Faktorenanalyse Reliabilitätsanalyse: Interne Konsistenz; Trennschärfe…

Page 47: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

So geht es immer los! – Deskriptive Statistik

das Datenniveau ist entscheidend!!!

Skala Daten Erfassung

Nominal alternativ =>

kategorial =>

2 Mengen/Klassenmehr als 2

Mengen/Klassen

Ordinal ordinal Ordnen von KategorienRangreihen

Intervall Verhältnis

metrisch Messen

Page 48: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Als nächstes folgend die Kennwerte!

Alternative / Kategoriale Daten:Mittelwert: ModalwertStreuungswerte: relativer Infogehalt

Ordinale Daten:Mittelwert: MedianStreuungswerte: Quartile

Metrische Daten:Mittelwert: arithmetisches

MittelStreuungswerte:

Standardabweichung

Page 49: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Die weitere Auswertung hängt von der Fragestellung ab! Die häufigsten Fragen betreffen:

UnterschiedeZusammenhänge

zwischen Gruppen zwischen Variablen

=> Unterschiedstests => Korrelationen

=> Regression

Page 50: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Einordnung der Unterschiedstests

abhängig vom Datenniveau

abhängige oder unabhängige Stichproben

abhängig von Anzahl der Gruppen

Page 51: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Unterschiedstests für Nominale Daten

zwei abhängige Stichproben:Chi- Quadrat – Test von Mc Nemar

zwei unabhängige Stichproben: Chi – Quadrat – Test nach Pearson

> zwei abhängige Stichproben Unterschied zwischen den Häufigkeiten der

Merkmals-ausprägung?: Binomial – Test Unterschied zwischen erwarteten und beobachteten

Häufigkeiten?: Chi – Quadrat – Einzeltest > zwei unabhängige Stichproben: Chi – Quadrat –

Test

Page 52: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Unterschiedstests für Ordinale Daten oder Metrische Daten ohne Normalverteilung

zwei abhängige Stichproben: Wilcoxon – Test

zwei unabhängige Stichproben: Mann-Whitney U – Test

> zwei abhängige Stichproben: Friedman- Test

> zwei unabhängige Stichproben: H - Test nach Kruskal-

Wallis

Page 53: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Unterschiedstest für Metrische Daten mit Normalverteilung

zwei abhängige Stichproben: t- Test bei abhängigen Stichproben

zwei unabhängige Stichproben: t- Test bei unabhän- gigen Stichproben

> zwei abhängige Stichproben: einfaktorielle Varianz- analyse mit Meßwieder- holung

> zwei unabhängige Stichproben: einfaktorielle Varianz- analyse

+ Post hoc – Test

Page 54: Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Einordnung von Korrelationen

Korrelationskoeffizient (r); Signifikanz (p) ausgehend von linearem Zusammenhang!!! Richtung der Beziehung: +...positiv vs.

-...negativ Stärke des Zusammenhanges (- 1 bis + 1)

Bis 0,2 sehr geringer ZusammenhangBis 0,5 geringer ZusammenhangBis 0,7 mittlerer ZusammenhangBis 0,9 hoher ZusammenhangÜber 0,9 sehr hoher Zusammenhang

Scheinkorrelation!!! => Partielle Korrelation