Statistik f ur Studierende der Naturwissenschaften und ... · Statistik f ur Studierende der...

Statistik fur Studierende derNaturwissenschaften und Biomedizin

Wintersemester 2010/2011

F. Marohn

Vorlesung und Aufgabenblatter im Internet unter

der Homepage des Lehrstuhls fur Statistik:

http://statistik.mathematik.uni-wuerzburg.de/

Vorlesungsverzeichnis WS 2010/2011

Vorlesung: Statistik fur Studierende der Naturwis-senschaften und Biomedizin

Mathematische Grundlagen: Grundlagen

Vorlesung: Kapitel 1, Kapitel 2, ...

Ubung: Blatt 1,Blatt 2, ...

StatBio 1

1 Einleitung

1.1 Was soll Statistik?

1.2 Ziele

1.3 Vorkenntnisse

1.4 Literatur

1.1 Was soll Statistik?

In den empirischen Wissenschaften werden zur

Beantwortung vieler Fragestellungen bzw. zur

Uberprufung allgemeiner theoretischer Aussagen

Daten (Beobachtungen, Messwerte)

gesammelt.

Daten werden immer an einzelne

Untersuchungseinheiten (Objekte, Personen)

gewonnen.

StatBio 2

Fragen der Statistik:

• Wie sollen welche Daten erhoben werden?

(→Datenerhebung)

• Wie soll man Daten beschreiben?

(→Beschreibende Statistik)

• Welche Schlusse lassen sich aus den Daten

ziehen? (→Schließende Statistik)

StatBio 3

• Datenerhebung (kein zentraler Gegenstand

dieser Vorlesung)

– Ausarbeitung des Fragenkatalogs: Verstand-

lichkeit, Prazision und ,,Neutralitat” der Fra-

gen sind von entscheidender Bedeutung. Wei-

tere Punkte: Umfang, Reihenfolge, Antwort-

auswahl (Kategorien), Kontrollfragen

– Ziehung einer Stichprobe: Eine Stichprobeist eine Auswahl aus einer Grundgesamtheit(= Menge aller potentiellen Untersuchungs-

einheiten); die Auswahl muss ,,zufallig” erfol-

gen (Stichwort: Reprasentativitat).

Bemerkung: Vollige Kenntnis uber die Grundge-

samtheit erhalt man nur durch eine Vollerhe-bung (Ausnahme).

StatBio 4

• Beschreibende (deskriptive) Statistik

Extraktion der Information, die in den Daten

steckt, durch Datenaggregation. Dies geschieht

durch die Berechnung von

– absoluten, relativen bzw. prozentualen

Haufigkeiten (Erstellung einer empirischenHaufigkeitsverteilung); graphische Darstel-

lungsformen: Balken– und Tortendiagramm,

Histogramm.

StatBio 5

– statistischen Kennzahlen (Mittelwert,...)

Zahlenbeispiel:

Stichprobe von 5 Probanden

Daten (Blutalkohol in h):

2.2, 2.0, 1.6, 2.4, 1.8

Mittelwert (arithmetisches Mittel):

2.2 + 2.0 + 1.6 + 2.4 + 1.8

5= 2

StatBio 6

• Schließende (induktive) Statistik

Frage: Wie gelangt man von der Stichprobe

zu einer allgemein gultigen Aussage, also zu

einer Aussage, die sich auf die Grundgesamtheit

bezieht?

Stichprobe?−→ Grundgesamtheit

Beispiel:

Interessierende Große (unbekannt): Mittelwert

einer Grundgesamtheit (etwa durchschnittliche

Gewichtszunahme von Raupen einer Insektenart)

Empirische Große (bekannt): Mittelwert der

Stichprobe (durchschnittliche Gewichtszunahme

der Raupen aus der Stichprobe)

StatBio 7

Beachte: Daten sind zufallsabhangig in dem

Sinne, dass eine andere Auswahl – also eine an-

dere Stichprobe – im Allgemeinen zu anderen

Daten fuhren wurde. In den Daten steckt also

eine gewisse Variabilitat, die es bei der Beant-

wortung obiger Frage zu berucksichtigen gilt!

Zahlenbeispiel:

Grundgesamtheit

Einheit WertA 2.2B 2.0C 1.6D 2.4E 1.8

Mittelwert=2

Stichprobe: A,C,D

Stichproben–Mittelwert:2.2 + 1.6 + 2.4

3= 2.07

StatBio 8

Mogliche Stichproben vom Umfang 3:

Stichprobe Daten MittelwertABC 2.2, 2.0, 1.6 1.93ABD 2.2, 2.0, 2.4 2.20ABE 2.2, 2.0, 1.8 2.00ACD 2.2, 1.6, 2.4 2.07ACE 2.2, 1.6, 1.8 1.87ADE 2.2, 2.4, 1.8 2.13BCD 2.0, 1.6, 2.4 2.00BCE 2.0, 1.6, 1.8 1.80BDE 2.0, 2.4, 1.8 2.07CDE 1.6, 2.4, 1.8 1.93

Konsequenz: Es besteht eine Unsicherheit beim

induktiven Schließen von der Stichprobe auf die

Grundgesamtheit.

Naturliche Forderung an eine Stichprobe: Sie soll

moglichst reprasentativ, d.h. unverzerrt sein,

soll also die Verhaltnisse in der Grundgesamtheit

moglichst gut widerspiegeln.

StatBio 9

Aber: Nur in den seltensten Fallen liegt eine

vollig reprasentative Stichprobe vor. Man hat es

daher immer mit einem

Stichprobenfehler (sampling error)

zu tun.

Der Stichprobenfehler beruht auf zufallige Ab-

weichungen der einzelnen Stichproben von der

Grundgesamtheit. Dieser Fehler ist unvermeid-

lich. Stichprobenfehler sind keine Fehler im ei-

gentlichen Sinne (Wahl einer ,,falschen” Stich-

probe oder andere methodische Fehler).

Bei einer Zufallsauswahl ist es moglich (mit-

tels der Wahrscheinlichkeitsrechnung), eine

Abschatzung fur den Stichprobenfehler anzuge-

ben.

Tendenziell gilt: Je großer der Stichprobenum-

fang, desto reprasentativer die Stichprobe.

StatBio 10

Die Fragen, die aufgrund von Daten beantwortet

werden sollen, sind haufig von folgendem Typ:

(i) Ein–Stichproben–Problem Wie lasst sich ei-

ne uns interessierende, aber unbekannte Große

(z. B. Mittelwert einer Grundgesamtheit)

schatzen und wie genau ist diese Schatzung?

Beispiel: Man mochte wissen, wie viele Tie-

re eines bestimmten Bestandes infiziert sind.

Eine Untersuchung von 400 ,,zufallig” aus-

gewahlten Tieren ergab, dass 88 Tiere infiziert

sind. Der Mittelwert der Stichprobe betragt

88/400 = 0.22. Was lasst sich aufgrund die-

ser Daten uber die Gesamtzahl der infizierten

Tiere sagen? Wie genau ist die Schatzung von

22%?

StatBio 11

(ii) Zwei–Stichproben–Problem Sind Mittel-

wertunterschiede ,,rein zufalliger” Natur, d.h.

sind Unterschiede nur auf die Zufalligkeit der

Daten zuruckzufuhren? Oder liegt ein syste-

matischer, bedeutender Unterschied vor, der

einer Interpretation wert ist? Unterscheiden

sich also zwei Grundgesamtheiten hinsichtlich

ihrer Mittelwerte?

Beispiel: (Untersuchung uber die fraßhemm-

mende Wirkung eines Alkaloids) Substrat S1

enthalt ein bestimmtes Alkaloid, Substrat S2

nicht. Von 15 Raupen einer Insektenart (glei-

ches Gelege, gleicher Entwicklungsstand) wer-

den 7 auf das Substrat S1 gesetzt und 8 auf

das Substrat S2. Nach funf Tagen wird die

Gewichtszunahme (in mg) gemessen:

StatBio 12

Gewichts– Gewichts–zunahme mit S1 zunahme mit S2

81 8867 12460 10896 84

116 10492 7576 85

116

Tabelle 1–1 Raupen–Daten

Durchschnittswerte der beiden Messreihen:

81 + ...+ 76

7= 84

88 + ...+ 116

8= 98

Also: Im Durchschnitt haben die Raupen auf

S1 um 14 mg weniger zugenommen als die auf

S2. Frage: Kann man daraus schon schließen,

dass das Alkaloid der Grund dafur ist?

StatBio 13

(iii) Statistischer Zusammenhang Gibt es einen

Zusammenhang zwischen zwei Großen X und

Y ?

Beispiel zu (iii): Um die Frage zu beantwor-

ten, ob es einen Zusammenhang gibt zwi-

schen Haarfarbe (X) und Augenfarbe (Y )

eines Menschen, erhob Snee (1974) die fol-

genden Daten anhand 592 Studenten eines

Statistikkurses.

Haare/Augen blau braun grun haselnussblond 94 84 17 20braun 7 119 26 68rot 16 29 14 5schwarz 10 54 14 15

Tabelle 1–2 Daten von Snee

StatBio 14

Zur Beantwortung dieser Fragen benotigt man

theoretische Verteilungen (Modelle), die auf

dem Begriff der Wahrscheinlichkeit aufbau-

en. Theoretische Verteilungen beschreiben den

,,Zufall”. Empirische Verteilungen (relativeHaufigkeiten) sind dazu ungeeignet!

Der ,,Zufall” lasst sich beschreiben. Denn: Er

folgt gewissen ,,Gesetzmaßigkeiten” (auch der

Zufall kann nicht machen was er will, Zufall

bedeutet nicht Willkur!) und zur Beschreibung

dieser ,,Gesetzmaßigkeiten” dienen die Model-

le der Wahrscheinlichkeitsrechnung. Mit wach-

senden Stichprobenumfangen lassen sich Ge-

setzmaßigkeiten erkennen (Stabilisierung):

StatBio 15

Theoretische Verteilung:

ϕ(x) =1√2π· e−x2/2

ϕ ist die sogenannte Gaußsche Glockenkurve(Dichte der Standard–Normalverteilung).

Abbildung 1–1 Die Dichte ϕ

StatBio 16

Ein Modell ist aus der beobachtbaren Wirklich-

keit nicht logisch ableitbar. Es gibt daher auch

kein richtiges oder falsches Modell (dazu fehlt

ein Kriterium), sondern nur ein geeignetes oder

weniger geeignetes Modell. Welches Modell man

wahlt, hangt von verschiedenen situationsbezo-

genen Faktoren ab.

Die Verfahren der schließenden Statistik (In-tervallschatzungen, Tests) hangen von dem

gewahlten Modell und den damit verbundenen

Annahmen ab. Es ist daher wichtig, sich mit

einigen wichtigen Modellen der Wahrscheinlich-

keitsrechnung vertraut zu machen!

StatBio 17

Aussagen der schließenden Statistik sindWahrscheinlichkeitsaussagen uber die Ver-einbarkeit der in den Daten erfassten Rea-litat mit den Modellen.

Durch die Einbettung der Probleme in einen

wahrscheinlichkeitstheoretischen Rahmen wird

die Unsicherheit statistischer Aussagen nicht auf-

gehoben, wohl aber quantitativ erfassbar!

StatBio 18

Beispiel: (Fortsetzung) Die Stichprobe ergab

einen Anteilswert infizierter Tiere von 0.22.

Statistische Aussage: Mit einer Wahrscheinlich-

keit von 0.95 liegt der wahre (aber uns unbe-

kannte) Anteilswert p im Intervall [0.18, 0.26].

Rein logisch gesehen gilt naturlich:

Entweder p ∈ [0.18, 0.26] oder p /∈ [0.18, 0.26]

Nur eine dieser beiden Aussagen kann richtig

sein. Aber: Wir wissen nicht welche, da wir die

Zahl p nicht kennen (Unsicherheit)!!!

Wir konnen nur sagen, dass der Anteilswert p mit

einer gewissen Wahrscheinlichkeit in einem (von

den Daten abhangenden) Intervall liegt (Quan-

tifizierung der Unsicherheit).

StatBio 19

1.2 Ziele

– Kennenlernen der wichtigsten Arten, Daten

darzustellen und zu beschreiben

– Grundidee von Wahrscheinlichkeitsmodellen

verstehen, Kennenlernen der gebrauchlichsten

Modelle der Wahrscheinlichkeitsrechnung

– Grundbegriffe und Grundaufgaben der schlie-

ßenden Statistik verstehen, Kennenlernen

grundlegender statistischer Verfahren (Punkt–

und Intervallschatzungen, Tests); kompe-

tenter Umgang mit den Begriffen statistischeSignifikanz und p–Wert

– Kritikfahigkeit und Sensibiliat gegenuber sta-

tistischen Anwendungen

– Erster Umgang mit statistischer Software

(SPSS); Output–Exegese (p–Wert,...)

StatBio 20

– Basis zur selbststandigen Einarbeitung in wei-

tere (und kompliziertere) Methoden der stati-

stischen Datenanalyse

1.3 Vorkenntnisse

Kenntnisse der Schulmathematik sollten aus-

reichen. Allerdings: Ein vertieftes Verstandnis

(weiterfuhrender) statistischer Verfahren ist oh-

ne (hohere) Mathematik und einem gewissen

Formalismus nicht moglich.

Mathematik so wenig wie notig. Aber:

Ganz ohne Mathematik geht es nicht!

Und...

Mit Zahlen umgehen konnen schadet nie!

StatBio 21

1.4 Literatur

Husler, J. und Zimmermann, H. (2006): Sta-

tistische Prinzipien fur medizinische Projekte,

4. Auflage, Verlag Hans Huber, Bern.

Kesel, A.B., Junge, M.M. und Nachtigall

W. (1999): Statistik fur Biowissenschaftler,

Birkhauser, Basel–Boston–Berlin.

Rudolf, M. und Kuhlisch, W. (2008): Biostatis-

tik, Pearson Studium, Munchen.

Etwas mathematischer:

Stahel, W.A. (2002), Statistische Datenanalsye:

Ein Einfuhrung fur Naturwissenschaftler,

Vieweg–Verlag, Braunschweig–Wiesbaden.

StatBio 22

Nachschlagewerke (rezeptartige Beschreibun-

gen, Tafeln von Verteilungen, Tabellen von kri-

tischen Werten):

Hartung J., Elpelt, B. und Klosener,

K. (2002): Statistik. Lehr– und Hand-

buch der angewandten Statistik, 13. Auflage,

Oldenbourg–Verlag, Munchen.

Sachs, L. (2004): Angewandte Statistik, 11.

Auflage, Springer, Berlin.

Sheskin, D.J. (2004): Parametric and Non-

parametric Statistical Procedures, 3rd Edition,

Chapman & Hall, Boca Raton.

StatBio 23

Statistik f ur Studierende der Naturwissenschaften und ... · Statistik f ur Studierende der...

Documents

Transcript of Statistik f ur Studierende der Naturwissenschaften und ... · Statistik f ur Studierende der...