Statistik f ur Studierende der Naturwissenschaften und ... · Statistik f ur Studierende der...
Transcript of Statistik f ur Studierende der Naturwissenschaften und ... · Statistik f ur Studierende der...
Statistik fur Studierende derNaturwissenschaften und Biomedizin
Wintersemester 2010/2011
F. Marohn
Vorlesung und Aufgabenblatter im Internet unter
der Homepage des Lehrstuhls fur Statistik:
http://statistik.mathematik.uni-wuerzburg.de/
Vorlesungsverzeichnis WS 2010/2011
Vorlesung: Statistik fur Studierende der Naturwis-senschaften und Biomedizin
Mathematische Grundlagen: Grundlagen
Vorlesung: Kapitel 1, Kapitel 2, ...
Ubung: Blatt 1,Blatt 2, ...
StatBio 1
1 Einleitung
1.1 Was soll Statistik?
1.2 Ziele
1.3 Vorkenntnisse
1.4 Literatur
1.1 Was soll Statistik?
In den empirischen Wissenschaften werden zur
Beantwortung vieler Fragestellungen bzw. zur
Uberprufung allgemeiner theoretischer Aussagen
Daten (Beobachtungen, Messwerte)
gesammelt.
Daten werden immer an einzelne
Untersuchungseinheiten (Objekte, Personen)
gewonnen.
StatBio 2
Fragen der Statistik:
• Wie sollen welche Daten erhoben werden?
(→Datenerhebung)
• Wie soll man Daten beschreiben?
(→Beschreibende Statistik)
• Welche Schlusse lassen sich aus den Daten
ziehen? (→Schließende Statistik)
StatBio 3
• Datenerhebung (kein zentraler Gegenstand
dieser Vorlesung)
– Ausarbeitung des Fragenkatalogs: Verstand-
lichkeit, Prazision und ,,Neutralitat” der Fra-
gen sind von entscheidender Bedeutung. Wei-
tere Punkte: Umfang, Reihenfolge, Antwort-
auswahl (Kategorien), Kontrollfragen
– Ziehung einer Stichprobe: Eine Stichprobeist eine Auswahl aus einer Grundgesamtheit(= Menge aller potentiellen Untersuchungs-
einheiten); die Auswahl muss ,,zufallig” erfol-
gen (Stichwort: Reprasentativitat).
Bemerkung: Vollige Kenntnis uber die Grundge-
samtheit erhalt man nur durch eine Vollerhe-bung (Ausnahme).
StatBio 4
• Beschreibende (deskriptive) Statistik
Extraktion der Information, die in den Daten
steckt, durch Datenaggregation. Dies geschieht
durch die Berechnung von
– absoluten, relativen bzw. prozentualen
Haufigkeiten (Erstellung einer empirischenHaufigkeitsverteilung); graphische Darstel-
lungsformen: Balken– und Tortendiagramm,
Histogramm.
StatBio 5
– statistischen Kennzahlen (Mittelwert,...)
Zahlenbeispiel:
Stichprobe von 5 Probanden
Daten (Blutalkohol in h):
2.2, 2.0, 1.6, 2.4, 1.8
Mittelwert (arithmetisches Mittel):
2.2 + 2.0 + 1.6 + 2.4 + 1.8
5= 2
StatBio 6
• Schließende (induktive) Statistik
Frage: Wie gelangt man von der Stichprobe
zu einer allgemein gultigen Aussage, also zu
einer Aussage, die sich auf die Grundgesamtheit
bezieht?
Stichprobe?−→ Grundgesamtheit
Beispiel:
Interessierende Große (unbekannt): Mittelwert
einer Grundgesamtheit (etwa durchschnittliche
Gewichtszunahme von Raupen einer Insektenart)
Empirische Große (bekannt): Mittelwert der
Stichprobe (durchschnittliche Gewichtszunahme
der Raupen aus der Stichprobe)
StatBio 7
Beachte: Daten sind zufallsabhangig in dem
Sinne, dass eine andere Auswahl – also eine an-
dere Stichprobe – im Allgemeinen zu anderen
Daten fuhren wurde. In den Daten steckt also
eine gewisse Variabilitat, die es bei der Beant-
wortung obiger Frage zu berucksichtigen gilt!
Zahlenbeispiel:
Grundgesamtheit
Einheit WertA 2.2B 2.0C 1.6D 2.4E 1.8
Mittelwert=2
Stichprobe: A,C,D
Stichproben–Mittelwert:2.2 + 1.6 + 2.4
3= 2.07
StatBio 8
Mogliche Stichproben vom Umfang 3:
Stichprobe Daten MittelwertABC 2.2, 2.0, 1.6 1.93ABD 2.2, 2.0, 2.4 2.20ABE 2.2, 2.0, 1.8 2.00ACD 2.2, 1.6, 2.4 2.07ACE 2.2, 1.6, 1.8 1.87ADE 2.2, 2.4, 1.8 2.13BCD 2.0, 1.6, 2.4 2.00BCE 2.0, 1.6, 1.8 1.80BDE 2.0, 2.4, 1.8 2.07CDE 1.6, 2.4, 1.8 1.93
Konsequenz: Es besteht eine Unsicherheit beim
induktiven Schließen von der Stichprobe auf die
Grundgesamtheit.
Naturliche Forderung an eine Stichprobe: Sie soll
moglichst reprasentativ, d.h. unverzerrt sein,
soll also die Verhaltnisse in der Grundgesamtheit
moglichst gut widerspiegeln.
StatBio 9
Aber: Nur in den seltensten Fallen liegt eine
vollig reprasentative Stichprobe vor. Man hat es
daher immer mit einem
Stichprobenfehler (sampling error)
zu tun.
Der Stichprobenfehler beruht auf zufallige Ab-
weichungen der einzelnen Stichproben von der
Grundgesamtheit. Dieser Fehler ist unvermeid-
lich. Stichprobenfehler sind keine Fehler im ei-
gentlichen Sinne (Wahl einer ,,falschen” Stich-
probe oder andere methodische Fehler).
Bei einer Zufallsauswahl ist es moglich (mit-
tels der Wahrscheinlichkeitsrechnung), eine
Abschatzung fur den Stichprobenfehler anzuge-
ben.
Tendenziell gilt: Je großer der Stichprobenum-
fang, desto reprasentativer die Stichprobe.
StatBio 10
Die Fragen, die aufgrund von Daten beantwortet
werden sollen, sind haufig von folgendem Typ:
(i) Ein–Stichproben–Problem Wie lasst sich ei-
ne uns interessierende, aber unbekannte Große
(z. B. Mittelwert einer Grundgesamtheit)
schatzen und wie genau ist diese Schatzung?
Beispiel: Man mochte wissen, wie viele Tie-
re eines bestimmten Bestandes infiziert sind.
Eine Untersuchung von 400 ,,zufallig” aus-
gewahlten Tieren ergab, dass 88 Tiere infiziert
sind. Der Mittelwert der Stichprobe betragt
88/400 = 0.22. Was lasst sich aufgrund die-
ser Daten uber die Gesamtzahl der infizierten
Tiere sagen? Wie genau ist die Schatzung von
22%?
StatBio 11
(ii) Zwei–Stichproben–Problem Sind Mittel-
wertunterschiede ,,rein zufalliger” Natur, d.h.
sind Unterschiede nur auf die Zufalligkeit der
Daten zuruckzufuhren? Oder liegt ein syste-
matischer, bedeutender Unterschied vor, der
einer Interpretation wert ist? Unterscheiden
sich also zwei Grundgesamtheiten hinsichtlich
ihrer Mittelwerte?
Beispiel: (Untersuchung uber die fraßhemm-
mende Wirkung eines Alkaloids) Substrat S1
enthalt ein bestimmtes Alkaloid, Substrat S2
nicht. Von 15 Raupen einer Insektenart (glei-
ches Gelege, gleicher Entwicklungsstand) wer-
den 7 auf das Substrat S1 gesetzt und 8 auf
das Substrat S2. Nach funf Tagen wird die
Gewichtszunahme (in mg) gemessen:
StatBio 12
Gewichts– Gewichts–zunahme mit S1 zunahme mit S2
81 8867 12460 10896 84
116 10492 7576 85
116
Tabelle 1–1 Raupen–Daten
Durchschnittswerte der beiden Messreihen:
81 + ...+ 76
7= 84
88 + ...+ 116
8= 98
Also: Im Durchschnitt haben die Raupen auf
S1 um 14 mg weniger zugenommen als die auf
S2. Frage: Kann man daraus schon schließen,
dass das Alkaloid der Grund dafur ist?
StatBio 13
(iii) Statistischer Zusammenhang Gibt es einen
Zusammenhang zwischen zwei Großen X und
Y ?
Beispiel zu (iii): Um die Frage zu beantwor-
ten, ob es einen Zusammenhang gibt zwi-
schen Haarfarbe (X) und Augenfarbe (Y )
eines Menschen, erhob Snee (1974) die fol-
genden Daten anhand 592 Studenten eines
Statistikkurses.
Haare/Augen blau braun grun haselnussblond 94 84 17 20braun 7 119 26 68rot 16 29 14 5schwarz 10 54 14 15
Tabelle 1–2 Daten von Snee
StatBio 14
Zur Beantwortung dieser Fragen benotigt man
theoretische Verteilungen (Modelle), die auf
dem Begriff der Wahrscheinlichkeit aufbau-
en. Theoretische Verteilungen beschreiben den
,,Zufall”. Empirische Verteilungen (relativeHaufigkeiten) sind dazu ungeeignet!
Der ,,Zufall” lasst sich beschreiben. Denn: Er
folgt gewissen ,,Gesetzmaßigkeiten” (auch der
Zufall kann nicht machen was er will, Zufall
bedeutet nicht Willkur!) und zur Beschreibung
dieser ,,Gesetzmaßigkeiten” dienen die Model-
le der Wahrscheinlichkeitsrechnung. Mit wach-
senden Stichprobenumfangen lassen sich Ge-
setzmaßigkeiten erkennen (Stabilisierung):
StatBio 15
Theoretische Verteilung:
ϕ(x) =1√2π· e−x2/2
ϕ ist die sogenannte Gaußsche Glockenkurve(Dichte der Standard–Normalverteilung).
Abbildung 1–1 Die Dichte ϕ
StatBio 16
Ein Modell ist aus der beobachtbaren Wirklich-
keit nicht logisch ableitbar. Es gibt daher auch
kein richtiges oder falsches Modell (dazu fehlt
ein Kriterium), sondern nur ein geeignetes oder
weniger geeignetes Modell. Welches Modell man
wahlt, hangt von verschiedenen situationsbezo-
genen Faktoren ab.
Die Verfahren der schließenden Statistik (In-tervallschatzungen, Tests) hangen von dem
gewahlten Modell und den damit verbundenen
Annahmen ab. Es ist daher wichtig, sich mit
einigen wichtigen Modellen der Wahrscheinlich-
keitsrechnung vertraut zu machen!
StatBio 17
Aussagen der schließenden Statistik sindWahrscheinlichkeitsaussagen uber die Ver-einbarkeit der in den Daten erfassten Rea-litat mit den Modellen.
Durch die Einbettung der Probleme in einen
wahrscheinlichkeitstheoretischen Rahmen wird
die Unsicherheit statistischer Aussagen nicht auf-
gehoben, wohl aber quantitativ erfassbar!
StatBio 18
Beispiel: (Fortsetzung) Die Stichprobe ergab
einen Anteilswert infizierter Tiere von 0.22.
Statistische Aussage: Mit einer Wahrscheinlich-
keit von 0.95 liegt der wahre (aber uns unbe-
kannte) Anteilswert p im Intervall [0.18, 0.26].
Rein logisch gesehen gilt naturlich:
Entweder p ∈ [0.18, 0.26] oder p /∈ [0.18, 0.26]
Nur eine dieser beiden Aussagen kann richtig
sein. Aber: Wir wissen nicht welche, da wir die
Zahl p nicht kennen (Unsicherheit)!!!
Wir konnen nur sagen, dass der Anteilswert p mit
einer gewissen Wahrscheinlichkeit in einem (von
den Daten abhangenden) Intervall liegt (Quan-
tifizierung der Unsicherheit).
StatBio 19
1.2 Ziele
– Kennenlernen der wichtigsten Arten, Daten
darzustellen und zu beschreiben
– Grundidee von Wahrscheinlichkeitsmodellen
verstehen, Kennenlernen der gebrauchlichsten
Modelle der Wahrscheinlichkeitsrechnung
– Grundbegriffe und Grundaufgaben der schlie-
ßenden Statistik verstehen, Kennenlernen
grundlegender statistischer Verfahren (Punkt–
und Intervallschatzungen, Tests); kompe-
tenter Umgang mit den Begriffen statistischeSignifikanz und p–Wert
– Kritikfahigkeit und Sensibiliat gegenuber sta-
tistischen Anwendungen
– Erster Umgang mit statistischer Software
(SPSS); Output–Exegese (p–Wert,...)
StatBio 20
– Basis zur selbststandigen Einarbeitung in wei-
tere (und kompliziertere) Methoden der stati-
stischen Datenanalyse
1.3 Vorkenntnisse
Kenntnisse der Schulmathematik sollten aus-
reichen. Allerdings: Ein vertieftes Verstandnis
(weiterfuhrender) statistischer Verfahren ist oh-
ne (hohere) Mathematik und einem gewissen
Formalismus nicht moglich.
Mathematik so wenig wie notig. Aber:
Ganz ohne Mathematik geht es nicht!
Und...
Mit Zahlen umgehen konnen schadet nie!
StatBio 21
1.4 Literatur
Husler, J. und Zimmermann, H. (2006): Sta-
tistische Prinzipien fur medizinische Projekte,
4. Auflage, Verlag Hans Huber, Bern.
Kesel, A.B., Junge, M.M. und Nachtigall
W. (1999): Statistik fur Biowissenschaftler,
Birkhauser, Basel–Boston–Berlin.
Rudolf, M. und Kuhlisch, W. (2008): Biostatis-
tik, Pearson Studium, Munchen.
Etwas mathematischer:
Stahel, W.A. (2002), Statistische Datenanalsye:
Ein Einfuhrung fur Naturwissenschaftler,
Vieweg–Verlag, Braunschweig–Wiesbaden.
StatBio 22
Nachschlagewerke (rezeptartige Beschreibun-
gen, Tafeln von Verteilungen, Tabellen von kri-
tischen Werten):
Hartung J., Elpelt, B. und Klosener,
K. (2002): Statistik. Lehr– und Hand-
buch der angewandten Statistik, 13. Auflage,
Oldenbourg–Verlag, Munchen.
Sachs, L. (2004): Angewandte Statistik, 11.
Auflage, Springer, Berlin.
Sheskin, D.J. (2004): Parametric and Non-
parametric Statistical Procedures, 3rd Edition,
Chapman & Hall, Boca Raton.
StatBio 23