Einf uhrung in die Statistik - Meteorologisches Institut · multivariate Statistik zu nden. Ich...

Meteorologisches Institut der Universitat Bonn

Skript zur Vorlesung

Einfuhrung in die Statistik

Wintersemester 2004/2005

Andreas Hense

Thomas Burkhardt

Petra Friederichs

Version: 31. Oktober 2005

1

Inhaltsverzeichnis

1 Einfuhrung 1

2 Elemente der Wahrscheinlichkeitsrechnung 4

2.1 Ereignisse und Stichprobenraum . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.2 Begriff der Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.3 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.4 Unabhangige Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3 Zufallsvariable, Verteilung von Zufallsvariablen 8

3.1 Diskrete Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3.2 Verteilung einer diskreten ZVA . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.3 Univariate reelle kontinuierliche ZVA’s . . . . . . . . . . . . . . . . . . . . . 9

3.4 Multivariate reelle ZVA’s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.5 Verallgemeinerte ZVA’s, Funktionen von ZVA’s . . . . . . . . . . . . . . . . 11

3.6 Realisierungen von ZVA’s . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.7 Momente einer Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . 15

3.7.1 Reduzierte Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . 17

3.8 Modus, Median und Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4 Erwartungswert einer Funktion einer ZVA 19

4.1 Momente multivariater ZVA’s . . . . . . . . . . . . . . . . . . . . . . . . . . 19

5 Theoretische Wahrscheinlichkeitsdichteverteilungen 22

5.1 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

5.1.1 Binominalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

5.1.2 Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

5.2 Kontinuierliche Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

5.2.1 Gaussverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

5.2.2 Zentraler Grenzwertsatz der Statistik . . . . . . . . . . . . . . . . . . 30

5.2.3 Die χ2-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5.2.4 Die Student-t-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 33

5.2.5 Die Fisher-F -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 34

5.3 Weitere Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

5.3.1 Log-Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

5.3.2 Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

5.3.3 Weibullverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

5.3.4 Beta-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5.3.5 Multivariate Normalverteilung . . . . . . . . . . . . . . . . . . . . . . 41

6 Stichproben von ZVA 43

6.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

6.2 Schatzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

6.3 Schatzung der pdf, Haufigkeitsverteilung . . . . . . . . . . . . . . . . . . . . 45

6.4 Schatzer der Verteilungsfunktion,

Empirische Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . 46

6.5 Schatzung des Erwartungswertes . . . . . . . . . . . . . . . . . . . . . . . . 47

6.6 Schatzung der Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

6.7 Maximum Likelihood Methode . . . . . . . . . . . . . . . . . . . . . . . . . . 50

6.8 Ubung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

6.9 Verteilungen von Schatzern . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

6.9.1 Verteilung eines Erwartungswertschatzers . . . . . . . . . . . . . . . . 52

6.9.2 Verteilung eines Varianzschatzers - χ2 Verteilung . . . . . . . . . . . 52

6.9.3 Beziehung zwischen Erwartungswert- und Varianzschatzer -

Student - t Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 54

6.9.4 Beziehung zwischen 2 Varianzschatzern - Fisher-F Verteilung . . . . . 55

6.10 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

6.10.1 Konfidenzintervall fur den Mittelwert bei bekannter Varianz einer

normalverteilten GG . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

6.10.2 Konfidenzintervall fur den Mittelwert einer normalverteilten GG bei

geschatzter Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

6.10.3 Konfidenzintervall fur den Schatzer der Varianz einer NV GG . . . . 58

7 Prufung statistischer Hypothesen, Tests 59

7.1 Allgemeine Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

7.2 Mittelwerttest bei einer NV GG mit bekannter Varianz . . . . . . . . . . . . 63

7.3 Vergleich der Mittelwerte zweier NV mit identischer Varianz . . . . . . . . . 65

7.4 Vergleich der Varianz zweier NV . . . . . . . . . . . . . . . . . . . . . . . . . 67

7.5 Anpassungstests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

7.5.1 Der χ2-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

7.5.2 Kolmogoroff - Smirnov Test . . . . . . . . . . . . . . . . . . . . . . . 70

8 Statistische Untersuchung extremer Ereignisse 72

8.1 Die Generalisierte Extremwertverteilung . . . . . . . . . . . . . . . . . . . . 73

8.2 Die Uberschreitung eines Schwellenwerts und die Generalisierte Pareto-Verteilung 76

8.2.1 Die Generalisierte Pareto-Verteilung . . . . . . . . . . . . . . . . . . 77

8.2.2 Das Poisson-GPD-Modell . . . . . . . . . . . . . . . . . . . . . . . . 78

9 Kleine Einfuhrung in die Bayesische Statistik 80

9.1 Nicht-frequentistische Wahrscheinlichkeitsrechnung . . . . . . . . . . . . . . 82

9.2 Bayes-Theorem fur Wahrscheinlichkeiten - der diskrete Fall . . . . . . . . . . 83

9.3 Bayesische Statistik fur Wahrscheinlichkeitsdichten . . . . . . . . . . . . . . 85

9.4 Die Priori-Dichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

9.4.1 Nichtinformative Priori-Dichten . . . . . . . . . . . . . . . . . . . . . 86

9.4.2 Priori-Dichte mit Maximum Entropie Methode . . . . . . . . . . . . . 87

9.4.3 Einschrankung der Priori-Dichten . . . . . . . . . . . . . . . . . . . . 87

9.4.4 Die Randverteilung zur Bestimmung der Priori-Dichte . . . . . . . . . 88

9.5 Die Maximum-Likelihood Typ II - Methode . . . . . . . . . . . . . . . . . . 89

9.6 Die Momente-Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

9.7 Konjugierten Priori-Dichten und die Posteriori . . . . . . . . . . . . . . . . . 90

9.8 Anwendungen Bayesische Statistik . . . . . . . . . . . . . . . . . . . . . . . . 91

9.8.1 Punktschatzung eines Parameters . . . . . . . . . . . . . . . . . . . . 91

9.8.2 Multivariate Parameterschatzung . . . . . . . . . . . . . . . . . . . . 91

9.8.3 Test statistischer Hypothesen . . . . . . . . . . . . . . . . . . . . . . 91

9.8.4 Bayesiche Entscheidungstheorie . . . . . . . . . . . . . . . . . . . . . 91

1 Einfuhrung

1 Einfuhrung

Warum wird in der Meteorologie Statistik betrieben? Meteorologie war und ist immer eine

datenorientierte Wissenschaft gewesen: dies ist in der Klimatologie offensichtlich, wird in der

Synoptik jeden Tag betrieben, jedes Grenzschichtexperiment lebt von den gemessenen Daten

und auch jedes numerische Modell stellt nichts anderes dar, als einen großen Komplex, mit

dem erstmal viele Daten erzeugt werden, die dann im nachhinein ausgewertet werden mussen.

Viele Daten – ob raumlich oder zeitlich verteilt – stehen an und mussen verarbeitet und

komprimiert werden, um zu einer Aussage zu kommen. Dies ist die Aufgabe der statistischen

Analyse (Beschreibende Statistik).

In der Vorlesung werden die Grundlagen der mathematischen, beschreibenden Statistik

– zunachst fur eine skalare Große (univariate Statistik) – vorgestellt und ihre Anwendung

auf Daten diskutiert. Ein Teil der Vorlesung soll der praktischen Anwendung der statisti-

schen Analyse mit Hilfe von PC’s und Programmen gewidmet sein. Zu Beginn der Vorlesung

werden die grundlegenden Begriffe wie Wahrscheinlichkeit, Zufallsvariable, Wahrscheinlich-

keitsdichtefunktionen u.a. eingefuhrt. Dann folgen die Grundlagen der Stichprobenentnahme,

das Schatzproblem, die Beurteilung der Qualitat der statistischen Analyse (Konfidenz) und

die Absicherung von Annahmen oder Hypothesen durch die (beliebten) statistischen Tests.

Man sollte sich aber im klaren sein, daß diese Begriffe weit uber die beschreibende Sta-

tistik hinaus Bedeutung haben. Die eigentliche Statistik setzt ein – fur meine Begriffe – bei

stochastischen dynamischen Systemen, der statistischen Behandlung nichtaufgeloster Bewe-

gungsformen in numerischen Modellen, der Bestimmung dynamisch konsistenter Analysen

meteorologischer Felder aus unregelmaßig in Raum und Zeit verteilten stochastischen Be-

obachtungen und vieles mehr. Aber alle diese Punkte kann man nicht verstehen, wenn die

Grundlagen der Statistik nicht vorliegen. Es ware deshalb auch uberheblich, die beschreiben-

de Statistik als Kinkerlitzchen oder reine Fingerubung zu verstehen. Ohne die Grundlagen

kann man die hoher angesiedelten Probleme nicht adaquat verstehen und behandeln. Als

ganz typisches Beispiel wird hier die Problematik der statistischen Tests auftauchen. Die

Grundlagen der beschreibenden Statistik machen hier die – vielleicht mitunter etwas verque-

ren – Gedankengebaude sichtbar, die man bei den Hypothesentests aufstellen muß die dann

aber bei den hoher angesiedelten Problemen vollig identisch auftreten und damit begrifflich

keine Schwierigkeiten mehr schaffen.

1

1 Einfuhrung

In einem anderen Teil der Vorlesung werden wir uns dann mit der Statistik von mehrdi-

mensionalen Großen (Vektoren) beschaftigen, der sogenannten multivariaten Statistik. Fur

moderne Anwendungen in der Klimatologie sind diese Methoden unabdingbar. Der speziellen

Statistik fur Zeitreihen ist dann eine weitere Vorlesung gewidmet.

Eine Warnung zum Schluß : Obwohl die Vorlesung mathematische Statistik heißt, bedeutet

dies nicht, daß die Datenanalyse vollig frei von subjektiven Einflussen der Experimentatoren

ist. Im Gegenteil: eine wichtige Erkenntnis der Vorlesung sollte sein, daß alle statistischen

Analysen durch das Vorwissen und die Anspruchen der Experimentatoren bestimmt werden.

Dies wird besonders deutlich bei der statistischen Analyse hochdimensionaler Daten (bspw.

meteorologische Felder, die an Gitterpunkten dargestellt werden sollen), ist aber auch bei

eindimensionalen Daten der Fall, etwa bei der Frage, ob ein zeitlicher Trend in einer Stichpro-

be wichtig fur die Analyse ist oder unwichtig und dann aus den Daten rausgefiltert werden

mußDiese Vorkenntnis der Experimentatoren wird meisten vornehm mit dem lateinischen

Ausdruck ”a-priori” umschrieben. A-priori Annahmen sind vollig legal, sollten allerdings

von den Experimentatoren als solche auch klar erkannt sein.

Andreas Hense

Bonn, Marz 1996

Fur das Wintersemester 1998/99 wurde die vergriffene Auflage von 1996 einer kleinen

Uberarbeitung unterzogen. Diese zielte zunachst auf die Entfernung von Druckfehlern, er-

brachte jedoch auch den einen oder anderen erweiterten Erklarungsversuch. Das Kapitel uber

die multivariaten Normalverteilungen ist jetzt in dem 1996 noch nicht existenten Skript uber

multivariate Statistik zu finden.

Ich danke Andreas Hense fur die Uberlassung des LaTeX-Skripts und fur seine strapa-

zierte Geduld bei der Beantwortung meiner Fragen. Weiterhin danke ich Jochen Elberskirch

fur seine Hilfe beim Korrekturlesen und Heiko Paeth fur seine Hilfe bei meinem ersten,

erschopfendem Kampf gegen das LaTeX.

Thomas Burkhardt

Bonn, November 1998

2

1 Einfuhrung

Auch in den Wintersemestern 2002/03 und 2004/05 wurde das Skript weiter uberarbeitet.

Vor allem wurde das Kapitel 5 uber die Verteilungsfunktionen erweitert. Die Statistik extre-

mer Ereignisse wird in dem neuen Kapitel 8 gesondert behandelt. Ein erster Versuch, eine

Einfuhrung in die Bayesische Statistik zu geben, findet sich in Kapitel 9 - Achtung! - dieses

Kapitel bedarf eventuell noch einiger Uberarbeitung und ist vielleicht nicht an allen Stellen

genugend verstandlich (Anregungen sind jederzeit willkommen). Wahrend die Kapitel 2 bis

7 essentielle Grundlagen der Statistik vermitteln, auf die alle weiteren Vorlesungen aufbau-

en, sollen Kapitel 8 und 9 erste Einblicke in besonders aktuelle Methoden der statistischen

Analyse geben. Viel Spaß!

Petra Friederichs

Bonn, Januar 2005

3

2 Elemente der Wahrscheinlichkeitsrechnung


2.1 Ereignisse und Stichprobenraum

Statistik ist die Beschaftigung mit Daten,

Abbildung 1 Beispiel fur den Stichproben-

raum zweier kontinuierlicher Variablen: Feuch-

temessung an einem Punkt durch Trocken- und

Feuchttemperatur

Abbildung 2 Beispiel fur den Stichproben-

raum zweier kontinuierlicher Variablen (endlich

und unendlich ausgedehnt): Beobachtung Bede-

ckungsgrad und Niederschlag

die gemessen wurden oder – allgemeiner –

durch ein Experiment gewonnen wurden (z.B.

auch durch eine Computersimulation). Jede

Durchfuhrung eines identischen Experiments

nennen wir eine Realisierung oder auch Stich-

probenentnahme (s.unten). Die Ergebnisse, die

wahrend des Experiments gesammelt werden,

konnen aus diskreten oder auch aus kontinu-

ierlichen Wertebereichen stammen. Die Er-

gebnisse einer endlichen Anzahl an Experi-

menten werden einen bestimmten, endlichen

Bereich im Raum aller denkbaren Ergebnis-

se einnehmen. Die Vereinigungsmenge aller

Bereiche fur alle Großen, die wahrend aller

moglichen Realisierungen des Experiments ge-

sammelt werden, bilden den Stichprobenraum

S des Experiments. Der Stichprobenraum Skann endlich oder auch unendlich ausgedehnt

sein (vergleiche Abb. (1) bis (3)).

Die Ergebnisse einer einzelnen Realisierung

des Experiments liegen immer in einem Un-

terraum A von S. Dann wollen wir sagen:

• Fallt das Ergebnis des Experiments in den

Unterraum A, so liegt das Ereignis A vor.

• Fallt das Ergebnis des Experiments nicht in

den Unterraum A, so liegt das komplementare Ereignis A vor.

4


Das Ereignis E umfasst den gesamten Stichprobenraum S, der jede denkbare Realisierung

des Experiments enthalt. Das komplementare Ereignis E ist dann die leere Menge ∅.

Abbildung 3 Beispiel fur den Stichprobenraum zweier diskreter, endlicher Stichprobenvariablen:

Monatswitterungsvorhersage nach Temperatur und Niederschlagsklassen

2.2 Begriff der Wahrscheinlichkeit

Es seien N Realisierungen des Experiments mit diskretem Stichprobenraum durchgefuhrt.

Das Ereignis A wird n(A) mal beobachtet (gemessen). Dann definiert man als Wahrschein-

lichkeit fur das Auftreten von A

P(A) = limN→∞

n(A)

N(2.1)

Fur die Wahrscheinlichkeiten gelten folgende Axiome (Kolmogorov, 1933):

1. Die Wahrscheinlichkeit P(A) ist positiv semidefinit

P(A) ≥ 0 (2.2)

2. Das Ereignis E (Stichprobenraum) hat die Wahrscheinlichkeit 1

P(E) = 1 (2.3)

3. Sind A und B zwei sich ausschließende Ereignisse, so ist die Wahrscheinlichkeit, daß

A oder B eintreten, geschrieben das Ereignis (A + B)

P(A + B) = P(A) + P(B) (2.4)

5


Aus (1), (2) und (3) folgt, daß P(A) ≤ 1 (Ubung!). Wenn A das Komplement von A ist, so

gilt, dass die Wahrscheinlichkeit P(A) = 1 − P(A) ist und es folgt mit P(E) = 1, dass fur

die leere Menge gilt P(∅) = 0.

Schließen sich die Ereignisse A und B nicht aus, so gibt es eine Wahrscheinlichkeit fur das

gemeinsame Ereignis (AB): P(AB). Die Wahrscheinlichkeit fur (A + B) ist dann

P(A + B) = P(A) + P(B) − P(AB) (2.5)

Beweis: Das Ereignis (A + B) laßt sich aufspalten in drei sich ausschließende Ereignisse

(Mengenlehre laßt grußen, Abb. (4)):

(A + B) : AB + AB + AB (2.6)

Abbildung 4 Die Aufteilung des Ereignisses (A + B) in drei sich ausschließende Ereignisse, wenn

A und B sich nicht ausschließen

mit der Aufteilung des Ereignisses A

A : AB + AB (2.7)

und entsprechend fur B ergibt sich fur die Wahrscheinlichkeit P(A + B)

P(A + B) = P(AB + AB + AB)

P(A + B) = P(AB) + P(AB) + P(AB)

P(A + B) = P(A) − P(AB) + P(B) − P(AB) + P(AB) (2.8)

6


2.3 Bedingte Wahrscheinlichkeiten

Das Ereignis A sei beobachtet. Die Wahrscheinlichkeit, daß zusatzlich auch noch das Ereignis

B auftritt, heißt bedingte Wahrscheinlichkeit

P(B|A) =P(AB)

P(A). (2.9)

Die Wahrscheinlichkeit P(B|A) ist nur auf dem Ereignis A definiert. Es lasst sich ausserdem

jede gemeinsame Wahrscheinlichkeit P(B|A) aufteilen in die bedingte Wahrscheinlichkeit

P(B|A) und die Randwahrscheinlichkeit P(A) oder vice versa

P(AB) = P(B|A)P(A) = P(A|B)P(B). (2.10)

2.4 Unabhangige Ereignisse

‘ Zwei Ereignisse A und B sind unabhangig, das heisst die Festlegung des Ereignisses A hat

keinen Einfluss auf das Auftreten des Ereignisses A. Es gilt also

P(A|B) = P(A) (2.11)

und umgekehrt

P(B|A) = P(B) (2.12)

Damit folgt, dass die Wahrscheinlichkeit fur das gemeinsame Ereignis AB gilt

P(AB) = P(A)P(B). (2.13)

7

3 Zufallsvariable, Verteilung von Zufallsvariablen


3.1 Diskrete Zufallsvariable

Sei S ein diskreter Stichprobenraum. Jedes Ereignis A tritt mit der Wahrscheinlichkeit P(A)

auf. Dann heißt die Menge

a = (A, P(A)), A ∈ S (3.1)

(diskrete) Zufallsvariable (ZVA). Es ist wichtig, daß wir bei ZVA immer daran denken,

daß es sich um eine Menge und nicht um eine Zahl oder Funktion o.a. handelt.

Kann jedem Ereignis A eine reelle Zahl x zugeordnet werden, wollen wir auch die Menge

X = (x, P(x)), x ∈ S (3.2)

als diskrete ZVA bezeichnen.

ACHTUNG: Bisher wurden fur die Bezeichnung der Ereignisse Großbuchstaben verwendet

und fur die ZVA Kleinbuchstaben. Ist einem Ereignis aber eine reelle Zahl zugeordnet, wird

das Ereignis mit Klein- und die ZVA mit Großbuchstaben bezeichnet.

Ausfuhrlich geschrieben ist die Notation fur die ZVA X:

X = (x1, P(x1)), (x2, P(x2)), ...., (xm, P(xm))︸︷︷︸

m−mal

, xi ∈ S fur i = 1, ..., m, (3.3)

wobei m sowohl endlich als auch zahlbar unendlich sein kann.

Wegen der Normierungsbedingung (Axiom (2)) gilt

∑

x∈SP (x) = 1 (3.4)

Die folgenden Beispiele sollen den Begriff ZVA verdeutlichen.

1. Deterministische Vorgange: Sei fur ein bestimmtes Ereignis A ∈ S die Wahrschein-

lichkeit P(A) = 1 und entsprechend P(A) = 0, so ist der Ausgang eines Experiments

eindeutig determiniert: es kommt immer zum Ereignis A und sonst nichts.

2. Gleichverteilte ZVA (der allseits beliebte Munz- oder Wurfelwurf): S bestehe aus M

Elementen, fur alle Ereignisse Am sei P(Am) = 1M

, m=1,...,M. Dann heißt die ZVA

(Am,1

M), Am ∈ S (3.5)

8


eine gleichverteilte ZVA. Im Fall der Munze gilt:

ZVAGeld = (Adler, 0.5), (Zahl, 0.5), Am ∈ Adler ∩ Zahl

Wie man sieht, muß nicht jedem Ereignis (hier Adler, Zahl) eine reelle Zahl zugeordnet

sein.

3. Binomialverteilte ZVA (siehe nachstes Kapitel): Der Stichprobenraum besteht immer

aus Zahlen zwischen 0 und n. Das Ereignis dieser ZVA wird im Gegensatz zu den

obigen festgelegt durch die Haufigkeit des Eintretens eines bestimmten Ereignisses bei

der n-maligen, unabhangigen Durchfuhrung eines Experiments (mit anderer ZVA), das

nur 2 Ereignisse zulaßt.

3.2 Verteilung einer diskreten ZVA

Sei X eine diskrete ZVA und in dem Stichprobenraum kann eine Ordnungsrelation ”großer

(>)” definiert werden. Dann heißt die Funktion

F (x) =∑

y≤x

P (y) (3.6)

die Verteilungsfunktion der ZVA X. Die Existenz einer Ordnungsrelation in S ist nicht trivial:

man denke z.B an die Zufallsvariablen Farbe, Wolkentyp oder Großwetterlage. Kann man

dem Ereignis X eine reelle Zahl x zuordnen, so ist die Ordnungsrelation i.A. aber gegeben.

Wie sieht die Verteilungsfunktion einer gleichverteilten ZVA aus?

Sei xmax = max(x, x ∈ S) und xmin entsprechend. Wie sieht F (xmax) und F (xmin) aus?

3.3 Univariate reelle kontinuierliche ZVA’s

Sei der Stichprobenraum S nicht mehr diskret, sondern das eindimensionale, geschlossene

und kontinuierliche Intervall [a, b] (Kann auch offen sein oder halboffen oder a, b = ±∞; spielt

keine Rolle). Dann kann keine Wahrscheinlichkeit P(x), die der Normierungsbedingung (3.4)

entspricht, fur die Definition der Zufallsvariablen verwendet werden. Man zieht sich deshalb

bei reellen ZVA auf die Verteilungsfunktion F(x) zuruck und definiert als univariate (wg. des

eindimensionalen Stichprobenraums), reelle ZVA X die Menge:

X = (x, F (x)), x ∈ [a, b] (3.7)

9


wobei F eine monoton steigende (nicht notwendigerweise streng monoton steigende) Funkti-

on ist, die das Intervall [a, b] auf das Intervall [0, 1] abbildet und analog zu der Wahrschein-

lichkeit folgendes Axiome bezitzt:

• 0 ≤ F (a) ≤ F (b) ≤ 1

• limx→b F (x) = 1

• limx→a F (x) = 0

Ist der Stichprobenraum auf ein endliches Intervall [a, b] begrenzt, so gilt naturlich auch

F (b) = 1 und F (a) = 0.

Ist F (x) stetig differenzierbar f(x) = F ′(x), so kann man alternativ auch die Menge

X = (x, f(x)), x ∈ [a, b] (3.8)

als eine reelle ZVA definieren. F (x) heißt Verteilungsfunktion der ZVA X und f(x) die

Wahrscheinlichkeitsdichtefunktion (engl. probability density function = pdf). Wahrschein-

lichkeiten fur das Beobachten einzelner Zahlen wahrend der Realisierung eines Experiments

anzugeben ist nicht sinnvoll, da eine Zahl nicht beobachtbar ist, sondern nur Werte inner-

halb eines Intervalls (s. Ereignisdefinition in Kap.2.1). Dieses Intervall hat z.B. die Breite des

Messfehlers. Daher ruhrt auch das Versagen der Wahrscheinlichkeitsdefinition beim Uber-

gang von diskreten ZVA zu reellen ZVA und man kann bei kontinuierlichen, reellen ZVA’s nur

von Wahrscheinlichkeiten uber Intervallen reden: d.h. uber die Wahrscheinlichkeit, wahrend

der Realisierung eines Experimentes eine Zahl im Intervall [c, d] zu finden. Sie folgt aus der

Verteilungsfunktion fur a ≤ c < d ≤ b bzw. der Dichtefunktion die Wahrscheinlichkeit

P([c, d]) = F (d) − F (c) =

∫ d

c

f(t)dt. (3.9)

Insbesondere ist

F (b) =

∫ b

a

f(t)dt = 1, (3.10)

was aus der Definition fur F folgt. Die pdf f(x) kann man dann als die Wahrscheinlich-

keit interpretieren, mit der eine Realisierung einen Wert liefert, der in dem infinitesimalen

Intervall [x, x + dx] liegt.

Wie sehen die Verteilungsfunktion und die Dichtefunktion einer gleichverteilten reellen ZVA

uber einem endlichen Intervall [a, b] aus?

10


3.4 Multivariate reelle ZVA’s

Sei Ω ∈ IRn ein vernunftiges Gebiet (oder gutartiges Gebiet: d.h. man kann alle Integra-

tionen ausfuhren). Ein Element dieses Gebietes sei durch den n-dimensionalen Vektor ~x

gekennzeichnet. Sei f eine Funktion von Ω in IR, die positiv semidefinit ist und fur die gilt

f(~x) ≥ 0∫

Ω

f(~x)d~x = 1 (3.11)

Dann heißt die Menge

~X = (~x, f(~x)), ~x ∈ Ω (3.12)

eine n-dimensionale (multivariate) ZVA. Die Verteilungsfunktion lautet dann

F (~x) =

∫ x1

−∞. . .

∫ xn

−∞f(~t)dt1 . . . dtn (3.13)

Wie lautet die Wahrscheinlichkeitsdichtefunktion fur eine gleichverteilte ZVA uber der Ein-

heitskugel?1

3.5 Verallgemeinerte ZVA’s, Funktionen von ZVA’s

Sei die Menge

X = (x, P(x)), x ∈ S (3.14)

eine diskrete ZVA und g(x) = y eine Abbildung von dem Stichprobenraum S in einen neuen

Stichprobenraum Sg. Dann ist auch die Menge

Y = (y, Pg(y)), y ∈ Sg (3.15)

eine diskrete ZVA, die identisch ist zur diskreten ZVA

g(X) = (g(x), P(x)), x ∈ S (3.16)

wenn man setzt

Pg(y) =∑

x∈S′

P (x) (3.17)

1

∫ 2π

0

∫ π/2

−π/2

cr2 cosϕdϕdλ = c2πr2 = 1

11


Dabei entsteht S ′ durch die Abbildung g−1(y) von Sg in den Raum S ′. g(x) ist aber nun

keineswegs auf eindeutig umkehrbare Funktionen begrenzt. Zur Berechnung der Wahrschein-

lichkeit Pg(y) muß man ggf. g(x) in eindeutig umkehrbare Funktionsabschnitte unterteilen.

Die Verallgemeinerung auf reelle univariate oder multivariate ZVA folgt unmittelbar. Sei

~X = (~x, f(~x)), ~x ∈ Ω (3.18)

eine multivariate ZVA und ~g eine Abbildung von Ω in IRq mit ~g(~x) = ~y und ~g und ~g−1 stetig

differenzierbar. Dann ist die ZVA

~Y = (~y, fg(~y)), y ∈ Ωg (3.19)

identisch zur ZVA ~g( ~X) mit

~g( ~X) = (~g(~x), f(~x)), ~x ∈ Ω (3.20)

wenn man fur die pdf fg(~y) setzt:

fg(~y) = f(~g−1(~y)) |det ∂~g−1(~y)| (3.21)

2 wobei

|det ∂~g−1(~y)| (3.22)

die Funktionaldeterminante (Jacobische Determinante) der inversen Abbildung ~g−1 ist.

Diesen Zusammenhang kann man sich klar machen mit der Vorstellung, daß Wahrschein-

lichkeit und Wahrscheinlichkeitsdichte vergleichbar mit Masse und Massendichte sind und

nicht vernichtet oder erzeugt werden konnen. Dies gilt auch unter der Abbildung ~g. Die Wahr-

scheinlichkeitsmasse Prob (~x) im (q-dimensionalen) Volumenelement dqx um den Aufpunkt

x ist gegeben durch:

Prob(~x) = f(~x)dqx (3.23)

Unter der Abbildung ~g(~x) = ~y bzw. ~g−1(~y) = ~x muß diese Masse erhalten bleiben. Es muß

also gelten

f(~x)dqx = fg(~y)dqy (3.24)

2Dies folgt aus der Normierungsbedingung

∫

Ω

~f(~x)d~x =

∫

Ωg

~f(~g−1(~y))d(~g−1(~y)) =

∫

Ωg

~f(~g−1(~y))(∂y~g−1)d~y

12


Da fg(~y) unbekannt ist, folgt mit Hilfe der Rechenregeln fur die Anderung des Volumenele-

mentes bei Koordinatentransformationen

dqx = |det ∂~g−1(~y)| dqy (3.25)

die oben angegebene Beziehung als Bestimmungsgleichung fur fg(~y) aus f(~x).

3.6 Realisierungen von ZVA’s

In vielen Anwendungsfallen ist es erwunscht, ZVA zu haben, die wohldefinierten Verteilungs-

funktionen unterliegen. Dies ist zu unterscheiden vom Schatzproblem (s.u.). Dabei sind aus

ZVA, die durch verschiedene Realisierungen eines Experiments entstanden sind, i.A. die Ver-

teilungsfunktion oder was damit zusammenhangt zu ”schatzen”. Typisches Beispiel fur das

erste Problem dagegen sind die sogenannten Monte Carlo Experimente: es werden Rea-

lisierungen einer oder auch mehrerer ZVA generiert, mit denen man dann seine statistischen

Analysen uberpruft. Man behandelt die kunstlich erzeugten Daten so, als ob sie einem rea-

len Experiment entnommen worden waren, weiß aber im Gegensatz zum realen Experiment,

welcher Verteilung sie unterliegen.

Wie erzeugt man nun ZVA mit wohldefinierten Verteilungsfunktionen? Strenggenommen

lassen sie sich nur auf dem Computer realisieren, wenngleich fruhe Experimentatoren (=Spie-

ler) schon interessante Erkenntnisse uber diskrete ZVA’s wie Munz- oder Wurfelwurf durch

viele tatsachliche Wurfe erzielt haben. Heute arbeitet man mit Zufallszahlengeneratoren

(ZZG), also Rechnerprogrammen, die ZVA erzeugen. Jede FORTRAN Library hat i.A. einen

solchen Generator standardmaßig implementiert. Numerical Recipes, Kapitel 7 gibt einen gu-

ten Uberblick, wie Zufallszahlengeneratoren arbeiten, wie man welche schreibt und auch, in

welche Fallen man tappen kann.

Die allgemeine Form eines ZZG ist folgende Iteration (stuckweise lineare Abbildung eines

Intervalls auf sich selbst):

In+1 = mod(aIn + c, m) (3.26)

wobei a, c, m positive Integer Zahlen sind und mod die modulo– Funktion bezeichnet. Rea-

lisierungen einer gleichverteilte ZVA im Intervall [0, 1[ erhalt man durch die Normierung

xn = In/m (3.27)

13


”Gute” Werte fur die Konstanten a, c, m findet man in Numerical Recipes auf Seite 198. Den

Grund, warum Iterationen der obigen Art Zufallszahlen erzeugen, findet man am Beispiel

des ”Bernoulli shift” (a = 2, c = 0, m = 1), der zufallig verteilte Bitmuster erzeugen kann,

in Schuster, Deterministic Chaos, Seite 15ff (Abb. (5)).

Realisierungen von reellen, univariaten ZVA’s

Abbildung 5 Darstellung der Abbildung des

Bernoulli shift

mit einer beliebigen Verteilungsfunktion, wer-

den aus gleichverteilten ZVA’s gewonnen. Hier-

zu benutzen wir die Ergebnisse des Kapitels

uber verallgemeinerte ZVA’s. Sei g eine Ab-

bildung des Intervalls [0, 1] in IR und X ei-

ne gleichverteilte ZVA im Einheitsintervall.

Dann war die Wahrscheinlichkeitsdichte der

ZVA Y = g(X) gegeben durch

p(y) = p(x) | d

dyg−1(y)| (3.28)

p(x) ist aber konstant wg. der Gleichvertei-

lung, so daß die Wahrscheinlichkeitsverteilung

der ZVA Y durch die Ableitung der inversen Funktion zu g gegeben ist.

Beispiel: Die Abbildung

g = −ln(x)

erzeugt aus Realisierungen einer gleichverteilten ZVA Realisierungen einer exponentiell ver-

teilten ZVA, da

g−1 = exp(−y)

bzw.

| d

dyg−1(y)| = exp(−y)

Analog verfahrt man im Fall der multivariaten ZVA’s.

14


3.7 Momente einer Verteilungsfunktion

Sei X = (x, P(x)), x ∈ S eine diskrete univariate ZVA. Dann nennt man

mk =∑

x∈SxkP(x) k = 0, 1, ...i (links Index, rechts Exponent) (3.29)

das k.te Moment der ZVA. Die Definition macht naturlich nur Sinn, wenn in S eine Addi-

tion definiert ist (bedeutet, daß die Ereignisse schon auf Zahlen projeziert sein mussen).

Sei X = (x, f(x)), x ∈ [a, b] eine kontinuierliche, univariate und reelle ZVA, dann

bezeichnet man mit

mk =

∫ b

a

xkf(x)dx (3.30)

das k.te zentrierte Moment von X und mit

µk =

∫ b

a

(x − m1)kf(x)dx (3.31)

das k.te zentrierte Moment.

Das erste Moment m1 bezeichnet man auch als Erwartungswert E(X) der ZVA X. In

der Theoretischen Mechanik ist das auch der Schwerpunkt der Massenverteilung P(x) (in der

Punktmechanik) bzw. der Massendichte f(x) in der Kontinuumsmechanik. Merke: der Er-

wartungswert (wie auch alle anderen Momente) einer univariaten ZVA ist selbstverstandlich

keine ZVA, sondern eine wohldefinierte reelle Zahl, da unter dem Integral nur reelle Zahlen

bzw. Funktionen stehen, die Teile der Menge X sind. Die Berechnung des Erwartungswertes

ist linear, d.h. es gilt (α, β feste aber beliebige reelle Zahlen)

E(X ′) = g(X) =

∫ b

a

(αx + β)f(x)dx

= α

∫ b

a

xf(x)dx + β

∫ b

a

f(x)dx

= αE(X) + β (3.32)

mit X ′ = (αx + β), f(x)), x ∈ [a, b]. Gerne schreibt man auch:

E(X ′) = E(αX + β) = αE(X) + β (3.33)

was aber naturlich nicht ganz exakt ist, weil man bei der mittleren Schreibweise im Argument

des Operators E() Mengen (X) mit reellen Zahlen (α) verknupft. Der Einfachheit halber

werden aber auch wir – nach diesem ausfuhrlichen Hinweis – diese Schreibweise verwenden.

15


Es sei eine Wahrscheinlichkeitsdichtefunktion mit folgender Eigenschaft gegeben (c eine

reelle Zahl, der Stichprobenraum sei die gesamte reelle Zahlenachse)

f(x − c) = f(c − x) (3.34)

d.h. f ist um c symmetrisch. Dann gilt – sofern der Erwartungswert existiert –

E(X) = c (3.35)

Beweis fur c = 0

E(X) =

∫ ∞

−∞xf(x)dx

=

∫ 0

−∞xf(x)dx +

∫ ∞

0

xf(x)dx

=

∫ ∞

0

(−x)f(−x)dx +

∫ ∞

0

xf(x)dx

= −∫ ∞

0

xf(x)dx +

∫ ∞

0

xf(x)dx

= 0 (3.36)

Ist c 6= 0, setze y = x− c und benutze die Linearitat der Berechnung von E(X). Dann erhalt

man sofort E(X) = c.

Das zweite, zentrierte Moment µ2 einer ZVA wird Varianz oder Dispersion Var(X)

der ZVA genannt und ist ein Maß fur die mittlere quadratische Abweichung der ZVA von

ihrem Erwartungswert. Die Varianz ist groß wenn die Variabilitat der ZVA groß ist und

umgekehrt. Es gilt fur alle c ∈

Var(X) = E((X − E(X))2) (siehe obigen Hinweis zur Schreibweise!)

Var(X) = E(X2) − (E(X))2 Steiner‘scher Satz

Var(X − c) = Var(X)

Var(cX) = c2Var(X) (3.37)

Die Zahl σ(X) =√

Var(X) bezeichnet man als Streuung der ZVA X.

Das dritte, zentrierte Moment µ3 mit

µ3 = E((X − E(X))3) (3.38)

16


kombiniert man mit σ(X) zu

γ =µ3

σ3(3.39)

und nennt es Schiefe (Skewness) der Verteilung f oder der ZVA. Hat die pdf lange Auslaufer

nach links (rechts), ist die Schiefe der Verteilung negativ (positiv). Die Schiefe einer symme-

trischen Verteilung ist Null.

Das vierte, zentrierte Moment

µ4 = E((X − E(X))4) (3.40)

kombiniert man mit σ4 zu

δ =µ4

σ4(3.41)

und nennt δ den Exzeß oder die Kurtosis (Wolbung) der Verteilung. Hat eine Verteilung

eine Kurtosis δ > 3 (δ < 3), so weist sie gegenuber ihrer ”Normalversion” erhohte (ernied-

rigte) Werte der pdf im Bereich des pdf -Maximums und erniedrigte (erhohte) Werte an den

Verteilungsenden auf. Die beiden letzten Momente (und naturlich auch alle noch hoheren)

haben i.A. selten grundlegende Bedeutung, weil in sehr vielen Anwendungen eine Normal-

verteilung der ZVA vorausgesetzt wird. Diese ist durch erstes und zweites Moment schon

vollstandig bestimmt.

3.7.1 Reduzierte Zufallsvariable

Sei µ1 der Erwartungswert und σ die Streuung einer ZVA X. Definiert man

z =x − µ1

σ, (3.42)

und existiert eine Abbildung g(x) = z vom Sx in den Sz so heißt die ZVA

Z = (z, f(z)), z ∈ Sz (3.43)

die reduzierte oder auch standardisierte ZVA von X mit E(Z) = 0 und Var(Z) = 1.

17


3.8 Modus, Median und Quantile

Sei X = (x, f(x)), x ∈ [a, b] eine reelle, univariate ZVA. Dann nennt man xm den Modus

von X, wenn gilt

f(xm) = max

f′

(xm) = 0

f′′

(xm) < 0 (3.44)

Liegen relativ hochste Werte der pdf an nicht differenzierbaren Stellen des Stichprobenraums,

so liegt auch dort ein Modus vor. Existiert nur ein Modus, heißt die ZVA unimodal verteilt.

Existieren mehrere Modi, nennt man die ZVA multimodal (inbesondere bei 2 Modi: bimodal)

verteilt.

Sei die Verteilungsfunktion F (x) der ZVA X streng monoton steigend. Dann existiert eine

eindeutige Losung xp der Gleichung

F (xp) = p (3.45)

Die Zahl xp heißt p−Quantil der ZVA oder der Verteilung. Ist F (x) nur monoton steigend,

existiert moglicherweise nur ein Losungsintervall fur die Gleichung. Dann definiert man als

p−Quantil

xp = inf((x′p, F (x′

p) = p), x′p ∈ [a, b]) (3.46)

Der Median ist definiert als das 0.5 - Quantil (p = 0.5) einer ZVA. Der Median teilt den

Stichprobenraum einer univariaten, reellen ZVA in zwei Bereiche gleicher Wahrscheinlich-

keit. Wenn eine unimodale ZVA symmetrisch um das Dichtemaximum verteilt ist, die Ver-

teilungsfunktion zweimal stetig differenzierbar ist und der Erwartungswert existiert, dann

fallen Modus, Median und Erwartungswert zusammen.

Als oberes (unteres) Dezil bezeichnet man die Quantile zum Wert p = 0.9 (p = 0.1).

Modus, Median und Quantile sind selbstverstandlich auch keine ZVA, sondern wohldefinierte

reelle Zahlen.

Aufgabe: Berechne Erwartungswert, Varianz, Modus und Median einer gleichverteilten ZVA

im Intervall [0, 1] bzw. einer exponentiellverteilten ZVA.

18

4 Erwartungswert einer Funktion einer ZVA


Wir hatten bereits gesehen, dass sich der Erwartungswert eine diskreten ZVA bestimmt als

E[X] =∑

S

xP (x). (4.1)

Wie sieht nun der Erwartungswert E[g(X)] einer Funktion von X aus? Folgende Eigenschaft-

ten gelten fur die Funktionen von ZVA.

E[c] = c (4.2)

E[cg1(x)] = cE[g1(x)] (4.3)

E

[J∑

i=1

gi(x)

]

=J∑

i=1

E[gi(x)] (4.4)

Die dritte Eigenschaft ist wichtig, denn sie sagt uns, dass der Erwartungswert einer Summe

von ZVA gleich der Summe der Erwartungswerte von ZVA ist.

Die Nutzlichkeit dieser Eigenschaft kann am Erwartungswert der Funktion

g(x) = (x − µ)2 (4.5)

namlich die Varianz, gezeigt werden.

V ar[X] = E[(X − µ)2] =∑

x

(x − µ)2P (x) (4.6)

=∑

x

(x2 − 2xµ + µ2)P (x) (4.7)

=∑

x

x2P (x) − 2µ∑

x

xP (x) + µ2∑

x

P (x) (4.8)

= E[x2] − 2µE[x] + µ2 (4.9)

= E[x2] − µ2 (4.10)

4.1 Momente multivariater ZVA’s

Analog zum univariaten Fall definiert man den Erwartungswert einer multivariaten ZVA ~X

zu

E( ~X) =

∫

~xf(~x)d~x

E( ~X) =

∫

. . .

∫

~xf(x1, . . . , xn)dx1 . . . dxn

mit E(Xi) =

∫

. . .

∫

xif(x1, . . . , xn)dx1 . . . dxn) (4.11)

19


Der Erwartungswert eines Vektors ist selbst ein Vektor, dagegen gilt f(~x) ∈ IR. Bei den

weiteren Momenten kann der einfache Analogieschluß zu den Vorschriften bei univariaten

ZVA nur mit Vorsicht angewandt werden. Es ist zu beachten, daß bei der Multiplikation der

Vektoren ~x nicht das normale Skalarprodukt gebildet werden darf (also Zeilen- mal Spalten-

vektor), sondern das sogenannte außere Produkt gebildet werden muß. Dieses berechnet sich

durch ~x ·~xT , wobei wir Vektoren normalerweise als Spaltenvektoren verstehen und die Trans-

ponierte des Vektors als Zeilenvektor. Das Ergebnis des außeren Produkts zweier Vektoren

ist eine Matrix.

Das zweite Moment einer multivariaten ZVA stellt sich daher als die sogenannte Kovari-

anzmatrix der ZVA X dar. Die Varianz laßt sich nur komponentenweise angeben. Sie belegt

in der Kovarianzmatrix die Hauptdiagonale. Die Varianz einer Komponente Xi von ~X ist

gegeben durch

Var(Xi) = E((Xi − E(Xi))2) (4.12)

Die sogenannten Kovarianzen (in manchen Buchern auch ”1,1te Momente” genannt) berech-

nen sich zu

ci,j = cov(Xi, Xj) = E((Xi − E(Xi))(Xj − E(Xj))) i 6= j (4.13)

Sie belegen die durch ihre Indizierung festgelegten Platze in der Kovarianzmatrix Σ, die die

Dimension n × n hat. Man schreibt

Σ = E(( ~X − E( ~X))( ~X − E( ~X))T ) (4.14)

Die Kovarianzmatrix ist symmetrisch. Ihre Spur ist positiv definit.

Spur(Σ) =∑

i

Var(Xi) > 0 (4.15)

Damit sind die Eigenwerte der Kovarianzmatrix reell und positiv und die Eigenvektoren

bilden ein Orthonormalsystem.

Sei eine lineare Transformation der multivariaten ZVA X wie folgt definiert

~Y = T ~X + ~a (4.16)

mit der Transformationsmatrix T . (Beachte auch hier den Hinweis zur gemischten Schreib-

weise von Mengen und Vektoren aus Kap. 3.7!) Dann transformiert sich die Kovarianzmatrix

wie

ΣY = TΣXT T (4.17)

20


(Beweis:

ΣY = E((~Y − E(~Y ))(~Y − E(~Y ))T )

= E((T ~X + ~a − TE( ~X) − ~a)(T ~X + ~a − TE( ~X) − ~a)T )

= E((T ~X − TE( ~X))(T ~X − TE( ~X))T ) (wegen (AB)T = BT · AT )

= TE(( ~X − E( ~X))( ~X − E( ~X))T )T T

= TΣXT T ) (4.18)

Der Korrelationskoeffizient zwischen Komponente i und j einer multivariaten ZVA, wird

ausgedruckt durch

ρi,j =E((Xi − E(Xi))(Xj − E(Xj)))

√

Var(Xi)Var(Xj)=

cov(Xi, Xj)

σ(Xi) · σ(Xj)i 6= j (4.19)

Alle Korrelationskoeffizienten werden dann zur Korrelationsmatrix zusammengefaßt.

21

5 Theoretische Wahrscheinlichkeitsdichteverteilungen


Wir wollen uns in diesem Kapitel mit einigen theoretischen Verteilungen beschaftigen. Solch

eine Verteilung ist die mathematische Formulierung, die die probabilistischen Eigenschaften

der vorliegenden ZVA beschreiben soll. In der Regel, ist dies eine Idealisierung der wirklichen,

meist unbekannten Verteilung und wird deshalb theoretisch genannt. Sie reprasentiert die

vorhandenen Daten somit nur approximativ, auch wenn die Naherung tatsachlich sehr gut

sein kann. Eine besondere Eigenschaft ist, dass theoretische Verteilungen durch einige wenige

Parameter vollstandig festgelegt sind und somit auch parametrische Verteilungen genannt

werden. So ist die Gauß-Normalverteilung eindeutig bestimmt, wenn wir die Verteilungspa-

rameter Erwartungswert µ und die Varianz σ kennen.

Es gibt mehrere Grunde, solche theoretischen Verteilungen zu benutzen.

1. Zum einen geben sie eine kompakte Beschreibung der probabilistischen Eigenschaften der

Daten. Die Eigenschaften der Daten konnen dann durch eine kleine Anzahl von Parametern

beschrieben werden.

2. Ein anderer Aspekt ist die Glattung und Interpolation von Daten. Wenn die Wahrschein-

lichkeitsdichtefunktion aus einer Reihe von Messungen zum Beispiel durch eine Haufigkeits-

verteilung abgeschatzt, so ist eine solche Schatzung sehr grob, mit Lochern und herausra-

genden Peaks. Eine solche Schatzung hat einen Stichprobenfehler und dieser wird geglattet,

indem an die Daten eine Verteilung angefittet wird.

3. Eine theoretische Verteilung kann auch zur Extrapolation dienen, um Wahrscheinlichkeits-

dichten fur Ereignisse zu schatzen, die außerhalb des beobachteten Bereichs liegen.

5.1 Diskrete Verteilungen

Es gibt zwei Arten von Zufallsvariablen, diskrete und kontinuierliche. Diskrete Variablen

sind solche, deren Werte entweder endlich oder zahlbar unendlich sind. Eine kontinuierlich

ZVA kann dagegen alle reellen Werte in einem bestimmten Intervall annehmen. Es gibt viele

diskrete Wahrscheinlichkeitsdichteverteilungen aber nur zwei werden in der Meteorologie

ofter benutzt: die Binominalverteilung und die Poissonverteilung.

22


5.1.1 Binominalverteilung

Die Binominalverteilung ist wahrscheinlich die einfachste theoretische Verteilung. Sie ent-

steht, wenn das Ergebnis einer Reihe von Versuchen in zwei Klassen eingeteilt wird und

dieser Versuch dann n-mal durchgefurt wird. Generell wird einem Ergebnis die ”1” und dem

anderen Ergebnis die ”0” zugeordnet. Die Anzahl der Versuche n kann eine beliebige positive

Integerzahl sein und die Zufallsvariable XB ist dann die Haufigkeit, mit der das Ergebnis

”1” bei n Versuchen beobachtet wurde.

Ein Experiment entspricht einer Realisierung einer ZVA X, die das Ergebnis ”1” oder

”0” hat, wobei das Ereignis ”1” mit der Wahrscheinlichtkeit p auftritt. Entsprechend ist die

Wahrscheinlichkeit fur das Ereignis ”0” (p− 1). Die ZVA fur das so formulierte Experiment

ist

X = (0, (1 − p)), (1, p),S = 0, 1 (5.1)

Ein so definiertes Experiment wird nun n mal durchgefuhrt. Zwei Bedingungen mussen dabei

erfullt sein:

1. dass die Wahrscheinlichkeiten mit denen wir das Ergebnis ”1” bzw. ”0” erhalten wahrend

des gesamten Experiments konstant bleiben und

2. dass die Ergebnisse der aufeinanderfolgenden Versuche unabhangig voneinander sind.

Das Ereignis des ”Binomial-Experiments” ist die Anzahl k des Auftretens von ”1” aus

den n obigen Versuchen. Der Stichprobenraum umfaßt also die Zahlen 0 bis n. Die Wahr-

scheinlichkeit fur das Eintreten eines bestimmten Ereignisses das ”k” zugeordnet wird, wie

1, 1, 1, 0, berechnet sich folgendermaßen

P (k : 1, . . . , 1︸︷︷︸

k−mal

, 0, . . . , 0︸︷︷︸

(n−k)−mal

) = p · p · ... · p︸︷︷︸

k−mal

(1 − p) · (1 − p) · ... · (1 − p)︸︷︷︸

(n−k)−mal

= pk · (1 − p)n−k (5.2)

”k” kann aber uber verschiedene Experimentablaufe erreicht werden. Bspw. erzeugen bei

n=4 die Beobachtungen (1,1,1,0), (1,1,0,1), (1,0,1,1) und (0,1,1,1) alle das Ereignis ”3”.

Diese Zahl laßt sich errechnen durch

n!

k!(n − k)!(5.3)

Das wird als Binomialkoeffizient bezeichnet und(

nk

)geschrieben. So erhalt man fur die

23


Wahrscheinlichkeit einer binomialverteilten ZVA folgenden Ausdruck:

B(k, n, p) =

(n

k

)

pk(1 − p)n−k (5.4)

Die binomialverteilte ZVA endlich kann man dann leicht schreiben als:

XB = (k, B(k, n, p)), k = 0, . . . , n (5.5)

Die festen Zahlen (n, p) nennt man die Parameter der Binominalverteilung (vergl. Abb. 6).

Wir konnen die ZVA XB auch uber eine Funktion darstellen als

g(X) = (g(x1, . . . , xn), P (x1, . . . , xn)), xi ∈ S = 0, 1, i = 1, . . . , n (5.6)

Fur den Spezialfall, dass der Stichprobenraum S = 0, 1 fur xi ist, lautet diese Abbildung

k = g(x1, . . . , xn) =

n∑

i=1

xi (5.7)

und ist genau unsere Binominal-ZV.

0 1 2 3 4 5 6 7 8 9 100

0.2

0.4(n,p) = 10, 0.1

0 1 2 3 4 5 6 7 8 9 100

0.2

0.4(n,p) = 10, 0.2

0 1 2 3 4 5 6 7 8 9 100

0.2

0.4(n,p) = 10, 0.5

0 1 2 3 4 5 6 7 8 9 100

0.2

0.4(n,p) = 10, 0.7

0 1 2 3 4 5 6 7 8 9 100

0.2

0.4(n,p) = 10, 0.9

0 1 2 3 4 5 6 7 8 9 100

0.5(n,p) = 10, 0.99

Abbildung 6 Binomialverteilungen mit verschiedenen Parametern (n, p).

Der Erwartungswert der ZVA XB laßt sich nach der Formel fur den Erwartungswert aus-

rechnen:

E(XB) =n∑

k=0

kB(n, p, k) =n∑

k=0

k ·(

n

k

)

pk(1 − p)n−k (5.8)

24


Dies geschieht in Kreyszig, S.111 (1998) [4] mit speziell konstruierten Funktionen. Fur unse-

ren oben schon festgelegten Spezialfall ist aber nur Standard-Arithmetik notig. Dabei fragen

wir nicht nach dem Erwartungswert der ZVA XB sondern nach dem von g(X). Wir konnen

also schreiben

E(g(X)) =∑

l=0,1

n∑

i=1

xi,l · P (xl)

=

n∑

i=1

∑

l=0,1

xi,l · P (xl)

=n∑

i=1

(p · 1 + (1 − p) · 0)

= np (5.9)

Tatsachlich ist das Ergebnis von (5.8) ebenfalls np. Leicht laßt sich aber auch ausrechnen,

daß fur den Stichprobenraum S = 1, 3 E(g(X)) = n(1−2p) ist. Dann gilt aber (5.7) nicht

mehr!

Die Berechnung der Varianz der ZVA XB lauft auf die Berechung des Erwartungswerts

von [g(X) − E(g(X))]2 heraus, also

V ar(XB) = E[(XB − E[XB])2] = E[(g(X) − E(g(X)))2]

= E[(∑

i

xi − E[∑

i

xi])2] = E[(

∑

i

xi −∑

i

E[xi])2]

= E[(∑

i

xi −∑

i

µi)2] = E[(

∑

i

(xi − µi))2]

=∑

i

E[(xi − µi)2] =

∑

i

[E[x2i ] − µ2

i ]

=∑

i

[∑

S

x2i P (x) − p2] =

∑

i

[12 · p + 02 · (1 − p) − p2]

=∑

i

p(1 − p) = np(1 − p) (5.10)

Da g(X) eine Summe von ZVA darstellt, entstehen bei der Quadrierung Mischglieder, was

zu Kovarianzen fuhrt. Man hat es also mit einer multivariaten ZVA zu tun. Die Berechung

wird erleichtert durch die Tatsache, daß xi unabhangig ist von xj fur i 6= j. Das bedeutet,

daß P (x1, x2, ..., xn) = P (x1) · P (x2) · ...P (xn) gilt. Man gelangt fur unseren Spezialfall zu

der einfachen Formel

Var(XB) = Var(X1) + Var(X2) + ... + Var(Xn) (5.11)

25


Die Varianz der ZVA Xi laßt sich leicht berechnen

Var(X) = E((Xi −E(Xi))2) =

∑

l=0,1

(xl −E(Xi))2P (xl) = (0− p)2(1− p) + (1− p)2p (5.12)

Damit gilt

Var(XB) = np(1 − p) (5.13)

5.1.2 Poissonverteilung

Die Poissonverteilung beschreibt die Anzahl von diskreten Ereignissen welche in einer Serie

auftreten und eine bestimmte Art von Unabhangigkeit haben. Ahnlich wie bei der Binominal-

verteilung fragen wir hier nach der Wahrscheinlichkeit des Auftretens von einer bestimmten

Anzahl von Ereignissen in einem bestimmten Zeitraum. Idealerweise ist das Ereignis so sel-

ten, also die Wahrscheinlichkeit p so klein, dass es sehr unwahrscheinlich ist, dass in dem

vorgegebenen Zeitraum mehr als ein Ereignis auftritt. Der Zeitraum oder anders gesagt die

Anzahl der Versuche n ist hingegen groß. Es macht also Sinn, den Grenzwert der Binomi-

nalverteilung fur n → ∞ zu bilden, wobei wir einen Parameter

λ = np = endlich = const (5.14)

definieren. Die Poissonverteilung hat einen Parameter λ, welche mit mittlere Rate des Auf-

tretens eines Ereignisses darstellt. Dieser Parameter wird auch als Intensitat bezeichnet.

Sei bei einer Serie von Experimenten, die binomialverteilte ZVA

B(k, n, p) =

(n

k

)

pk(1 − p)n−k

=n!

k!(n − k)!(λ

n)k (1 − λ

n)n

(1 − λn)k

=λk

k!

1

nk

(1 − λn)n

(1 − λn)k

k−1∏

i=0

(n − i)

=λk

k!(1 − λ

n)n (n−0

n)(n−1

n)(n−2

n) . . . (n−(k−1)

n)

(1 − λn)k

=λk

k!(1 − λ

n)n (1 − 0

n)(1 − 1

n)(1 − 2

n) . . . (1 − k−1

n)

(1 − λn)k

(5.15)

Bildet man die Grenzwerte

limn→∞

(1 − x

n) = 1 (5.16)

26


und

limn→∞

(1 − λ

n)n = exp(−λ) (5.17)

so verbleibt bei festem, aber beliebigen k

limn→∞

B(k, n, p) = f(k) =λk

k!exp(−λ) (5.18)

Abbildung 7 Poissonverteilung fur unterschiedliche Parameter λ

Die Dichteverteilung f(k) nennt man die Poissonverteilung und λ den Parameter der Pos-

sionverteilung. Sie gibt die Wahrscheinlichkeit an fur das Eintreten k ”unwahrscheinlicher”

Ereignisse bei n Beobachtungen, die jedes fur sich mit der kleinen Wahrscheinlichkeit p

eintreten. Der Erwartungswert der ZVA K

K = (k, f(k)), k = 0, . . . , n (5.19)

ergibt sich zu

E(K) =∞∑

k=0

k · λk

k!exp(−λ) = λ = µ (5.20)

27


und die Varianz zu

Var(K) = E(K2) − µ2 = µ (5.21)

Die Poissonverteilung fur verschiedene Parameter λ ist in der Abb. (7) dargestellt. Da auch

das 3. zentrierte Moment der Poissonverteilung durch µ gegeben ist, hat die Poissonverteilung

immer eine positive Schiefe von 1/√

µ, also ”lange Auslaufer nach rechts”, auch wenn das in

Abb. (7) fur die großen µ nicht deutlich wird. Fur µ gegen ∞ nimmt die Poissonverteilung

symmetrische Gestalt an. Ein gutes Beispiel fur eine Poissonverteilung in der Meteorologie

ist die Verteilung von Stark-niederschlagen.

5.2 Kontinuierliche Verteilungen

Die meisten Variablen in der Meteorologie konnen einen kontinuierlichen Wert annehmen.

Temperatur, Niederschlag, Geopotential, Windgeschwindigkeit sind zumindest konzeptionell

nicht auf Integerwerte einer bestimmten Einheit beschrankt. Auch wenn Messwerte oder

Modellergebnisse auf diskrete Werte gerundet werden, so ist der Satz der moglichen Werte

in der Regel groß genug, um im weiteren die Variable als kontinuierlich Variable zu behandeln.

Die in der Statistik vorkommenden Verteilungen konnen in zwei Kategorien unterteilt

werden. Die einen werden benutzt, um die Daten zu reprasentieren, also Verteilungen, die

im Zusammenhang mit einem mathematischen Modell benutzt werden. Hierzu gehoren auch

die Binominal- und Poissonverteilung. Ich werde hier einige vorstellen (Gaußverteilung, Log-

Normalverteilung, Gamma-Verteilung, Beta-Verteilung,...). Eine zweite Kategorie von Ver-

teilungen dient zur Abschatzung der Unsicherheit einer Schatzung z. B. des Mittelwertes

oder der Varianz oder zum Vergleich von Mittelwert oder Varianz zweier ZVA. Naturlich

lassen sich einige Verteilungen beiden Kategorien zuordnen.

5.2.1 Gaussverteilung

Die univariate Gaußverteilung oder Normalverteilung (NV) ist die wichtigste Wahrschein-

lichkeitsdichtefunktion fur univariate, reelle ZVA, weil

• viele ZVA, die bei Experimenten beobachtet werden, einer NV entstammen.

• einige ZVA naherungsweise normalverteilt sind (bei unimodalen Verteilungen lassen

sich in vielen Fallen sinnvolle Ergebnisse unter der Annahme NV erzielen).

28


• einige ZVA sich durch geeignete Transformationen auf Normalverteilung bringen lassen

(etwa ZVA, die ein endliches Intervall und nicht die gesamte reelle Zahlenmenge als

Stichprobenraum haben).

• die klassische Statistik meist auf der Annahme der Normalverteilung basiert,

• der Zentrale Grenzwertsatz der Statistik oder central limit theorem gilt.

Sei X = (x, f(x)), x ∈ eine reelle univariate ZVA. X heißt normalverteilt, wenn f(x)

von der Form

f(x) =1√2πσ

exp(−1

2(x − µ

σ)2) (5.22)

ist. µ, σ nennt man dann auch die Parameter der Normalverteilung. Bei einer Gauß- oder

Normalverteilung mit µ = 0 und σ = 1 wird von einer Standard-Normalverteilung oder

Standard-Gaußverteilung geredet. Jede Gauß-verteilte ZVA kann durch die Transformation

Z =X − µ

σ(5.23)

in ihre Standardform gebracht werden.

µ bestimmt die Position des Maximums und den Symmetriepunkt, d.h. µ ist der Erwar-

tungswert der ZVA X. Die Varianz der ZVA X ist dann gegeben durch

Var(X) =

∫ ∞

−∞(x − µ)2f(x)dx = σ2

was man durch einfaches Nachrechnen mit partieller Integration beweisen kann. Dies bedeu-

tet, daß die Normalverteilung vollstandig durch die Varianz σ2 bzw. Streuung σ und den

Mittelwert µ der ZVA X bestimmt ist. Damit sind aber auch alle Eigenschaften der ZVA X

durch den Erwartungswert und die Streuung festgelegt. Hat man also E(X) und σ sowie die

Gewißheit oder die Annahme, daß eine ZVA X normalverteilt ist, ist die gesamte Statistik

der ZVA X bekannt.

Da es fur das Integral uber die Dichtefunktion der Gauß-Verteilung (5.22) keine ana-

lytische Losung gibt, gibt es fur die Verteilungsfunktion der NV oder auch kummulative

Dichtefunktion genannt, keine allgemeine Berechnungsvorschrift.

F (x) =1√2πσ

∫ x

−∞exp(−1

2(t − µ

σ)2)dt (5.24)

29


Fur den Fall, dass µ = 0 und σ = 1 ist, heisst die ZVA auch reduzierte ZVA (oder eben

standard-normalverteilt). Die Verteilungsfunktion F (x) ist dann die Fehlerfunktion (error

function) und wird mit Φ(x) oder erf(x) bezeichnet. Es gilt dann naturlich

F (x) = erf(x − µ

σ) =

2√π

∫ x

0

et2dt. (5.25)

Die Fehlerfunktion findet man tabelliert oder als Standardsubroutine in FORTRAN oder

MATLAB.

Die Quantile der NV kann man mit Hilfe der error - Funktion bestimmen:

• das 16%- (bzw. 84%) Quantil findet man bei µ ∓ σ

• das 2.5%- (bzw. 97.5%) Quantil findet man bei µ ∓ 1.96σ

• das 0.5%- (bzw. 99.5%) Quantil findet man bei µ ∓ 2.58σ

Als gangige Abkurzung wollen wir noch folgende Bezeichnung einfuhren: Sei X eine Nor-

malverteilte ZVA mit den Parametern µ, σ. Dann wird dies im folgenden auch einfach mit

X ∈ N (µ, σ) bezeichnet.

Abbildung 8 Johann Carl Friedrich Gauss (1777-1855)

5.2.2 Zentraler Grenzwertsatz der Statistik

Der zentrale Grenzwertsatz der Statistik ist von fundamentaler Bedeutung in der Statistik

und hat der Normalverteilung ihre herausragenden Rolle gegeben. Er besagt: Seien Xi, i =

1, . . . , n unabhangige und identisch, aber beliebig verteilte Zufallsvariablen mit E(Xi) = µ

und V ar(Xi) = σ2. Dann ist das arithmetische Mittel

X =1

n

n∑

i=1

Xi (5.26)

30


wiederum eine Zufallsvariable, die asymptotisch fur große n Normalverteilt ist. Es gilt also

limn→∞

1n

∑ni=1(Xi − µ)

1√nσ

∈ N (0, 1) (5.27)

Grob gesagt besagt dies, dass eine Zufallsvariable, welche sich zusammensetzt als Summe

vieler, unabhangiger, Zufallsvariablen mit gleicher Verteilung, Gaußverteilt ist. Es ist jedoch

nicht bekannt, wann diese Konvergenz eintritt, und manchmal muss n sehr gross sein, um

naherungsweise eine Normalverteilung zu erhalten.

Der zentrale Grenzwertsatz der Statistik lasst sich erweitern auf Summen von Zufallsvaria-

blen, die nicht zwangslaufig die gleiche Verteilung haben. Dazu werden die Zufallsvariablen

zentriert und mit (nV ar(Xi))−1/2 normiert, so dass

Xni =Xi − E(Xi)√

nV ar(Xi).

Es gilt dann, dass E(Xni) = 0 und V ar(Xi) = σ2i und fur σ2

ni = V ar(Xni) gilt

0 < σ2ni = V ar(Xni) < ∞.

Es kann ausserdem gezeigt werden, dass∑n

i=1 σ2ni = 1. Der zentrale Grenzwertsatz von

Lindeberg besagt nun: Falls fur jedes ε > 0

limn→∞

[n∑

i=1

∫

|x|>ε

x2pi(x)dx

]

= 0 (5.28)

dann ist die Summe Yn =∑n

i=1 Xni im Grenzfall n → ∞ standardnormalverteilt N (0, 1).

5.2.3 Die χ2-Verteilung

Die χ2-Verteilung wird definiert als die Verteilung eine Summe der Quadrate von unabhan-

gigen und standard-normalverteilten ZVA. Sie ist also nur auf dem Raum der postitiven

reellen Zahlen definiert. Seien X1, X2, . . . , Xn ∈ N (0, 1) unabhangige ZVA, von denen jede

den Erwartungswert E(Xi) = 0 und die Varianz V ar(XI) = E(X2I ) = 1 besitzt. Die Summe

der Quadrate der ZVA Xi wird im Allgemeinen mit χ2 bezeichnet.

χ2 =∑

i

X2i . (5.29)

Entsprechend heißt die Verteilung dieser Zufallsvariablen χ2 auch die χ2-Verteilung. Ihre

Wahrscheinlichkeitsdichte lautet

f(x) = Knx(n−2)/2e−x/2 fur x > 0 (5.30)

31


und f(x) = 0 fur x ≤ 0. n ist hier eine positive Zahl und representiert die Freiheitsgrade der

Verteilung. Kn ist eine Konstante, die sich aus der Normierungsbedingung, dass das Integral

uber die Wahrscheinlichkeitsdichte von −∞ bis ∞ eins sein muss, ergibt als

Kn =1

2n/2Γ(n2). (5.31)

Γ(α) ist die Gamma-Funktion3, eine der wohl wichtigsten nichtelementaren Funktionen. Ist

n geradzahlig, so ist

Γ(n

2

)

= (n

2− 1)!. (5.34)

Fur n = 1 ist

Γ

(1

2

)

=√

π (5.35)

und damit erhalten wir fur ungerade n

Γ

(3

2

)

=1

2Γ

(1

2

)

=1

2

√π, Γ

(5

2

)

=3

2Γ

(3

2

)

=3

4

√π (5.36)

Abbildung 9 zeigt die pdf der χ2-Verteilung fur verschiedene Freiheitsgrade n. Fur n = 1

und n = 2 fallen die Kurven der pdf monoton ab. Fur n > 2 hat die pdf der χ2-Verteilung

ein Maximum bei n − 2 (zu berechnen uber f ′(x) = 0).

Der Erwartungswert einer χ2-verteilten Variablen mit n Freiheitsgraden ist

E(χ2) = µ = n (5.37)

und die Varianz ist

V ar(χ2) = 2n (5.38)

Es lasst sich zeigen, dass die χ2-Verteilung fur große n durch die Normalverteilung brauchbar

approximiert werden kann.

3Die Gamma-Funktion ist definiert (Eulersche Definition) durch das Integral

Γ(α) =

∫∞

0

e−ttα−1dt. (5.32)

Sie hat eine besondere Eigenschaft, namlich dass Γ(α + 1) = αΓ(α), was sich durch partielle Integration

herleiten laßt. Setzten wir α = 1, so erhalten wir Γ(1) =∫∞

0e−tdt = 1 und mit der oben genannten

Beziehung, auch Γ(2) = 1 · Γ(1) = 1! und Γ(3) = 2 · Γ(2) = 2! oder allgemein fur n = 1, 2, . . .

Γ(n + 1) = n! (5.33)

Die Gamma-Funktion ist also eine Verallgemeinerung der Fakultat.

32


0 2 4 6 8 100

0.2

0.4

0.6

0.8

1

1.2

1.4χ2−PDF (1 dof)

0 2 4 6 8 100

0.1

0.2

0.3

0.4


0 5 10 15 200

0.05

0.1

0.15


0 5 10 15 200

0.02

0.04

0.06

0.08

0.1χ2−PDF (10 dof)

Abbildung 9 pdf der χ2-Verteilung fur verschiedene Parameter (degrees of freedom).

5.2.4 Die Student-t-Verteilung

Die t-Verteilung wurde von W. L. Gosset 1908, der unter dem Pseudonym ”Student” veroffent-

lichte, eingefuhrt. Die t-Verteilung bildet die Grundlage fur viele statistische Tests.

X ∈ N (0, 1) sei eine Standard-Normalverteilte ZVA und Y eine von X unabhangige ZVA,

die eine χ2-Verteilung mit n Freiheitsgraden bezitzt. Unter diesen Voraussetzungen besitzt

die Variable

T =X

√

Y/n(5.39)

eine Student-t-Verteilung. Die t-Verteilung hat die Wahrscheinlichkeitsdichte

f(t; n) =Γ(

n+12

)

√nπΓ

(n2

) (1 + t2

n

)(n+1)/2(5.40)

Die Formel fur die Verteilungsfunktion ist sehr kompliziert und ist in ? nachzuschagen.

Die t-Verteilung ist um Null symmetrisch. Fur n = 1 existiert das erste Moment oder der

Erwartungswert nicht. Dies laßt sich in Abbildung 10 nachvollziehen. Fur den Fall n = 1

konvergiert zwar die pdf fur große t → ±∞ gegen Null, jedoch so langsam, dass das Integral∫∞0

tf(t; 1)dt nicht existiert. Der Spezialfall n = 1 heißt auch Cauchy-Verteilung. Fur n ≥ 2

33


ist der Erwartungswert E(T ) = 0. Aus dem selben Grund wie bereits fur den Erwartungswert

bei n = 1 existiert das zweite zentrale Moment, also die Varianz, erst fur n ≥ 3 und lautet

V ar(T ) =n

n − 2fur n ≥ 3 (5.41)

Fur große n > 10 wird die t-Verteilung der Normalverteilung sehr ahnlich und fur n > 30

vernachlassignbar klein.

−5 0 50

0.05

0.1

0.15

0.2

0.25

0.3

0.35student−t PDF (1 dof)

pdf

x−5 0 50

0.1

0.2

0.3


pdf

x

−5 0 50

0.1

0.2

0.3


pdf

x−5 0 50

0.1

0.2

0.3

0.4

pdf

x

student−t PDF (50 dof)

Abbildung 10 pdf der Student-t-Verteilung fur verschiedene Parameter (DOF).

5.2.5 Die Fisher-F -Verteilung

Die F -Verteilung ist eine andere Verteilung, die ganz eng mit der Normalverteilung zusam-

menhangt. Es wird gesagt, eine Variable ist Fisher-F -verteilt mit p und q Freiheitsgraden,

wenn die Dichtefunktion lautet

f(x; p, q) =

(pq

) p

2

Γ(

p+q2

)

Γ(

p2

)Γ(

q2

) x(p−2)/2

(

1 +p

qx

)−(p+q)/2

. (5.42)

Insbesondere gilt fur zwei unabhangige χ2-verteilte ZVA X und Y , dass die Variable F ,

welche als Quotient der beiden χ2-verteilte ZVA definiert ist, Fisher-F -verteilt ist

F =X/p

Y/q. (5.43)

34


Fur q > 2 lautet der Erwartungswert von F

E(F ) =q

q − 2(5.44)

und fur q > 4 lautet die Varianz

V ar(F ) =2q2(p + q − 2)

p(q − 2)2(q − 4). (5.45)

Also wie fur die t-Verteilung existieren fur die F -Verteilung nicht alle Momente. Die F -

Verteilung ist fur alle festen Freiheitsgrade p schief. Fur q → ∞ allerdings nahert sich die

F -Verteilung einer normalisierten χ2-Verteilung an.

0 0.5 1 1.5 20

1

2

3

4PDF der F−Verteilung (1,1) DOF

x

pdf

0 0.5 1 1.5 20

1

2

3

4PDF der F−Verteilung (1,10) DOF

x

pdf

0 1 2 3 40

0.2

0.4

0.6

0.8PDF der F−Verteilung (10,1) DOF

x

pdf

0 1 2 3 40

0.2

0.4

0.6

0.8PDF der F−Verteilung (10,10) DOF

x

pdf

Abbildung 11 pdf (links) der F -Verteilung fur verschiedene Parameter p und q (DOF).

5.3 Weitere Verteilungen

Viele atmospharische Variablen haben eine asymmetrische und damit schiefe Verteilung. Die

tritt auf, wenn die Werte, die eine Variable annehmen kann, durch eine physikalische Be-

dingung begrenzt sind. Die ist der Fall fur Niederschlag oder Windgeschwindigkeit, die ganz

einfach nicht negativ werden konnen. Wurden wir also an soche Daten eine Gaußverteilung

35


anfitten, so bekamen wir zumindest theoretisch eine von Null verschiedene Wahrscheinlich-

keit fur negativen Niederschlag, und das ist naturlich Unsinn. Es existieren verschiedene

theoretische Dichteverteilungen, die durch Null begrenzt sind und eine positive Schiefe ha-

ben.

5.3.1 Log-Normalverteilung

Viele Variablen, die nur positive Werte annehmen konnen und außerdem uber mehrere

Großenordungen variieren, konnen durch die Log-Normalverteilung dargestellt werden. Da-

zu wird eine logarithmische Transformation Y = ln X durchgefuhrt. Ist die transformier-

te Variable Y normalverteilt, so sagen wir, dass die transformierte ZVA X logarithmisch-

normalverteilt, oder eben log-normalverteilt ist. Es gilt also, dass die transformierte ZVA

Y = ln X normalverteilt ist mit

fY (ln x) =1√

2πσy

exp(−1

2

(ln x − µy

σy

)2

)

x > 0, (5.46)

wobei µy der Erwartungswert E(ln x) und σ2y die Varianz V ar(lnx) ist. Es gilt die Normie-

rungsbedingung fur Wahrscheinlichkeitsdichten, dass∫ ∞

−∞fX(x)dx =

∫ ∞

−∞fY (lnx)d ln x = 1

und da fur x > 0 d lnx = dxx

, gilt

fX(x) =fY (ln x)

x.

Entsprechend lautet dann die Dichteverteilung der log-normalverteilten ZVA X

fX(x) =1

x√

2πσy

exp(−1

2

(ln x − µy

σy

)2

), fur x > 0,

fX(x) = 0, fur x ≤ 0. (5.47)

Abbildung 12 zeigt die pdf der Log-Normalverteilung und die pdf der transformierten ZVA.

Die Log-Normalverteilung ist nach unten hin durch 0 beschrankt und bezitzt einen Modus.

Alle Momente existieren fur die Log-Normalverteilung und die entsprechenden Parameter

µ und σ lassen sich aus µy und σy und umgekehrt bestimmen. Der Mittelwert der Log-

Normalverteilung lasst sich aus dem Mittelwert der transformierten ZVA Y bestimmen als

E(x) = µ = eµy+σ2y/2 (5.48)

36


und die Varianz bestimmt sich aus

E((x − µ)2) = σ2 = µ2(eσ2y − 1). (5.49)

Abbildung 12 Log-Normalverteilung: a) pdf der log-normalverteilten ZVA, b) pdf der transfor-

mierten ZVA.

Die Log-Normalverteilung hat ahnliche Eigenschaften wie die Normalverteilung, allerdings

werden die additiven Eigenschaften durch multiplikative Eigenschaften ersetzt. Wenn also

x log-normalverteilt ist, dann ist z = axb, wobei a und b konstanten sind, ebenfalls log-

normalverteilt. Fur den Erwartungswert der transformierten ZVA gilt, dass

E[ln(axb)] = ln a + bE(ln x)

E[(ln(axb) − µy)2] = V ar[ln(axb)] = b2σ2

y (5.50)

Ausserdem gilt, wenn x und y zwei unabhangige log-normalverteilte ZVA sind, das z = xy

ebenfall log-normalverteilt ist und deren Transformierte den Erwartungswert und die Varianz

E(ln z) = E(lnx) + E(ln y)

V ar(ln z) = V ar(ln x) + V ar(ln y) (5.51)

bezitzt. Analog konnen auch Erwartungswert und Varianz von z = xy

geschrieben werden,

wobei beim Erwartungswert das + durch ein − ersetzt wird, wahrend die Varianz die gleiche

bleibt.

37


Diese pdf wird z.B. gebraucht fur monatliche Summen des Niederschlags wobei dann der

Parameter µ = 0 gesetzt wird. Viele hydrologische Daten, aber auch in anderen Gebieten

der Wissenschaft, wie der Medizin, sind naherungsweise log-normalverteilt. Allerdings ist

die Log-Normalverteilung nicht die einzige Verteilung, die zum Beispiel zur Darstellung des

Niederschlags benutzt wird.

5.3.2 Gamma-Verteilung

Wohl die haufigste Verteilung, die benutzt wird um Niederschlag der mittleren Breiten dar-

zustellen, ist die Gammaverteilung. Sie ist definiert durch die Dichteverteilung

f(x) =(X

β)(α−1)e−

xβ

βΓ(α), x, α ≥ 0 und β > 0. (5.52)

Die Gammaverteilung ist eine Verteilung mit zwei Parametern, dem ”Shape”-Parameter α

und dem ”Scale”-Parameter β.

0 1 2 3 4 50

1

2

3

4

5

6PDF der Gamma−Verteilung α=0.5, β=1

x

pdf

0 1 2 3 4 50

0.2

0.4

0.6

0.8

1PDF der Gamma−Verteilung α=1, β=1

x

pdf

0 2 4 6 8 100

0.1

0.2

0.3

0.4PDF der Gamma−Verteilung α=2, β=1

x

pdf

0 2 4 6 8 100

0.05

0.1

0.15

0.2PDF der Gamma−Verteilung α=5, β=1

x

pdf

Abbildung 13 pdf der Gamma-Verteilung fur verschiedene ”Shape”-Parameter α, wobei der ”Sca-

le”-Parameter β = 1 konstant ist.

Der Erwartungswert und die Varianz einer Gammaverteilten ZVA mit den Parametern α

38


und β berechnen sich als

E(X) = αβ

V ar(X) = αβ2 (5.53)

Fur α < 1 ist die Dichteverteilung sehr schief, wobei die Wahrscheinlichkeitsdichte gegen

unendlich geht fur x → 0. Fur α = 1 schneidet die Funktion die y-Achse bei f(0) = 1β

und

fallt dann exponentiell ab. Fur diesen Fall wird die Gammaverteilung auch Exponentialver-

teilung genannt. Auch die χ2-Verteilung ist eine Spezialform der Gammaverteilung wenn der

”Scale”-Parameter β = 2 gesetzt wird.

Das Schatzen der Parameter ist nicht so einfach wie bei der Normal- oder Log-Normalverteilung,

da die Parameter nicht identisch mit den Momenten der Verteilung sind. Außerdem ist die

Dichtefunktion der Gammaverteilung nicht analytisch integrierbar und zur Abschatzung der

Quantile muss die Verteilungsfunktion numerisch oder aus Tabellen abgeschatzt werden.

5.3.3 Weibullverteilung

Auch die Weibullverteilung ist auf nichtnegative Werte beschrankt und hat eine positive

Schiefe. Sie wird mitunter als Naherung an die NV im Fall positiv semidefiniter ZVA (z.B.

Windgeschwindigkeiten) benutzt.

Die Wahrscheinlichkeitsdichte der Weibullverteilung lautet (x ≥ 0, α > 0, β > 0)

f(x) =α

β

(x

β

)α−1

exp

[

−(

x

β

)α]

, (5.54)

wobei α als ”Shape”-Parameter und β als ”Scale”-Parameter bezeichnet werden. Die Vertei-

lungsfunktion lautet

F (x) = 1 − exp

[

−(

x

β

)α]

(5.55)

Eine Weibullverteilung lasst sich nicht so einfach anfitten wie die Log-Normalverteilung

und es bedarf dazu iterative Verfahren. Der Erwartungswert der Weibullverteilung ist gege-

ben durch

E(X) = µ = βΓ(1 +1

α) (5.56)

und die Varianz

V ar(X) = β2

[

Γ(1 +2

α) − Γ2(1 +

1

α)

]

. (5.57)

39


0 1 2 3 4 50

1

2

3

4

5

x

pdf

PDF der Weibull−Verteilung α=0.5

0 1 2 3 4 50

0.2

0.4

0.6

0.8

1

x

pdf

PDF der Weibull−Verteilung α=1

0 1 2 3 4 50

0.2

0.4

0.6

0.8

1

x

pdf


0 1 2 3 4 50

0.5

1

1.5

2

x

pdf


Abbildung 14 pdf der Weibull-Verteilung fur verschiedene ”Shape”-Parameter α.

Der Spezialfall der Weibullverteilung fur α = 2 wird auch Rayleighverteilung genannt, mit

f(x) = (2x

β2) exp(−x

β

2

). (5.58)

5.3.4 Beta-Verteilung

Es gibt jedoch auch ZVA die nach beiden Seiten, also auf ein Intervall, beschrankt sind.

Ein Beispiel ist dafur der Bedeckungsgrad oder relative Feuchte oder eben auch die Wahr-

scheinlichkeitsdichte selbst. So kann es nutzlich sein, die Vorhersage eine Wahrscheinlich-

keit, zum Beispiel, dass Niederschlag fallt, uber eine solche Dichtefunktion, die nur auf dem

Intervall [0, 1] definiert ist, zu beschreiben. Eine Dichteverteilung, die dies erfullt, ist die

Beta-Verteilung. Ihre Wahrscheinlichkeitsdichtefunktion lautet

f(x) =

[Γ(p + q)

Γ(p)Γ(q)

]

xp−1(1 − x)q−1, (5.59)

wobei 0 ≤ x ≤ 1 ist, und p, q > 0 die zwei Parameter der Beta-Funktion sind. Der Erwar-

tungswert und die Varianz der Beta-Funktion berechnen sich aus den Parametern als

E(X) =p

p + q

V ar(X) =pq

(p + q)2(p + q + 1). (5.60)

40


Die Dichtefunktion fur verschiedene Parameter p und q ist dargestellt in Abbildung 15. Es

ist eine sehr flexible Dichtefunktion. Fur p < 1 liegt das Maximum der Verteilung bei 0. Wenn

beide Parameter kleiner 1 sind, dann hat die Verteilung eine U-Form und zwei Maxima nahe

0 und 1. Die wird verwandt fur ZVA auf einem abgeschlossenen Intervall, deren Extremwerte

sehr haufig, aber deren Mittelwert selten auftreten (z.B. Bedeckungsgrad in Bremerhaven).

Sind p und q großer 1, so hat die Verteilung ein Maximum, ist also unimodal.

0 0.2 0.4 0.6 0.8 10

1

2

3

4PDF der Beta−Verteilung p=0.5, q=1

x

pdf

0 0.2 0.4 0.6 0.8 10

2

4

6

8PDF der Beta−Verteilung p=0.5, q=2

x

pdf

0 0.2 0.4 0.6 0.8 10

2

4

6

8PDF der Beta−Verteilung p=2, q=0.5

x

pdf

0 0.2 0.4 0.6 0.8 10

0.5

1

1.5

2PDF der Beta−Verteilung p=2, q=2

x

pdf

Abbildung 15 pdf der Beta-Verteilung fur verschiedene Parameter p und q

5.3.5 Multivariate Normalverteilung

Sei

~X = (~x, f(~x)), ~x ∈ q (5.61)

eine q-dimensionale ZVA. ~x heißt multivariat NV, wenn f(~x) die Form

f(~x) =1

Zexp(−1

2(~x − ~µ)tB(~x − ~µ)) (5.62)

hat, wobei B eine symmetrische, positiv-definite Matrix ist (d.h. alle Eigenwerte sind positiv)

und Z der Normierungsfaktor. Bedenke, daß eigentlich f(~x) = f(~x, ~µ,B)! Diese multivariat

41


NV ZVA ist symmetrisch um ~µ, d.h.

∫ ∞

−∞. . .

∫ ∞

−∞(~x − ~µ)f(~x, ~µ,B) dx1dx2...dxq = ~0 (5.63)

Damit ist aber

E(~x − ~µ) = ~0

⇒ E(~x) = ~µ (5.64)

In der Bestimmungsgleichung von f(~x, ~µ,B) war B noch unbestimmt. Daher bildet man nun

~∇µ

∫ ∞

−∞. . .

∫ ∞

−∞(~x − ~µ) f(~x, ~µ,B) dx1dx2...dxq = ~0 (5.65)

Ausrechnen der Ableitung fuhrt auf (I ist die Einheitsmatrix, B = Bt)

∫ ∞

−∞. . .

∫ ∞

−∞(I − (~x − ~µ)(~x − ~µ)tB) f(~x, ~µ,B) dx1dx2...dxq = ~0 (5.66)

Damit wiederum gilt auch (O ist die Nullmatrix)

E(I − (~x − ~µ)(~x − ~µ)tB) = O (5.67)

und daraus folgend

E((~x − ~µ)(~x − ~µ)tB) = E(I) = I (5.68)

d.h. die Matrix B ist die Inverse der Kovarianzmatrix Σ. Damit ist im Fall der multivariaten

NV die gesamte Verteilung durch die Parameter ~µ und Σ vollstandig beschrieben.

42

6 Stichproben von ZVA


6.1 Definition

Wir haben bisher gesehen, daß ZVA mit kontinuierlichem Stichprobenraum durch ihre Verteilungs-

oder Wahrscheinlichkeitsdichtefunktion gekennzeichnet sind. Wenn ein Experiment durch-

gefuhrt wird, so erzeugt das Experiment Daten, von denen i.A. die Verteilungsfunktion (oder

die pdf) und die Momente unbekannt sind. Es gibt lediglich das Wissen, daß das Expe-

riment ZVA produziert. Die Aufgabe der Statistik ist es nun, aus den Realisierungen der

ZVA, die nur eine (moglicherweise sehr geringe) Teilmenge des Stichprobenraums umfassen,

Informationen uber die Gesamtheit der ZVA zu ermitteln. Diese Gesamtheit wollen wir im

folgenden auch die Grundgesamtheit (GG) der ZVA nennen. Die Eigenschaften der GG wer-

den vollstandig durch die Verteilungs- oder Wahrscheinlichkeitsdichtefunktion beschrieben.

Ziel der mathematischen Statistik ist es also, aus der durch das Experiment gewonnenen Teil-

menge des Stichprobenraums – der sogenannten Stichprobe – verlaßliche Aussagen uber

die GG herzuleiten.

Sei X = (x, f(x)), x ∈ IR eine univariate, reelle ZVA, deren m verschiedene Realisierun-

gen in einem Experiment die Werte xi, i = 1, ..., m annehmen sollen. Die Zahl xi ist dann

eine Reprasentierung der ZVA Xi, die die gleiche pdf wie die ZVA X hat. Wir wollen dann

sagen, daß die ZVA Xi der GG der ZVA X entnommen wurden. Dann ist die Vektorvariable

~Xm = (X1, . . . , Xm) = ((x1, . . . , xm), f(x1)f(x2) . . . f(xm)), (x1, . . . , xm) ∈ IRm

eine m− dimensionale multivariate ZVA. Die Wahl der multivariaten pdf f(~x) =∏m

i=1 f(xi)

bedeutet, daß die Einzelereignisse xi unabhangig voneinander sind. Die Einzelereignisse xi

konnen also als unabhangige Wiederholungen eines Experiments gelten, das jedesmal eine

ZVA Xi liefert. Den Vektor ~Xm nennt man dann auch eine Stichprobe vom Umfang m der

univariaten ZVA X und den Vektor (x1, . . . , xm) eine Reprasentierung der Stichproben-ZVA

~Xm. Es ist wichtig festzustellen, daß

• das Erheben einer Stichprobe (sei es auch nur ein einziger Wert) ebenfalls ein Zu-

fallsprozess ist

Wichtig ist weiterhin die Forderung, daß die Stichprobenentnahme zufallig erfolgen soll und

damit die Einzelereignisse xi unabhangig sind. Das kann man gar nicht genug betonen,

43


da schon in vielen statistischen Untersuchungen gegen diese grundlegende Voraussetzung

verstoßen wurde.

6.2 Schatzer

Es sei nun eine Realisierung der Stichproben-ZVA ~Xm der univariaten, reellen ZVA X gege-

ben. Ziel der Statistik ist es, die Eigenschaften der unbekannten Verteilungsfunktion oder pdf

der GG anhand der Realisierung zu ermitteln. Man kann zum einen versuchen, die pdf oder

die Verteilungsfunktion selbst naherungsweise aus der Realisierung der Stichprobe zu berech-

nen (”schatzen”). Zum anderen haben wir im letzten Kapitel gesehen, daß typische pdf ′s

durch ihre Parameter eindeutig beschrieben werden. Im Fall der Binomialverteilung waren

das die Zahlen n und p, im Fall der univariaten NV der Erwartungswert µ und die Streuung

σ. Man kann also auch aus der Realisierung der Stichprobe Parameterwerte schatzen und –

sofern diese es zulassen – von den geschatzten Parameterwerten auf die pdf der GG schlie-

ßen. Dieser letze Punkt ist sehr eng – wie man sich vorstellen kann – mit der Schatzung der

Momente der pdf der GG verbunden. Im folgenden sei gx ein Moment, ein Parameter oder

eine andere Eigenschaft der GG der ZVA X (z.B. die pdf selbst). gx ist keine ZVA!

Ein Schatzer fur gx sei die ZVA g( ~Xm), die ~Xm aus dem IRm abbildet in die Menge der

reellen Zahlen IR, mit dem Ziel, die eindeutig festgelegte Große gx so genau wie moglich zu be-

schreiben. Der Schatzer g ist eine ZVA mit pdf und Verteilungsfunktion im Stichprobenraum

von ZVA ~Xm. Die Große gx ist ein Moment, ein Parameter oder eine andere Eigenschaft der

GG (bspw. die pdf). Eine Realisierung eines Schatzers ist dagegen wieder das, was geschatzt

wird. Eine Realisierung eines Erwartungswertschatzers fur eine univariate ZVA ist also eine

Zahl. Eine Schatzer g heißt erwartungstreu, unverzerrt oder unverfalscht (engl. unbiased),

wenn gilt

E(g) = gx (6.1)

(wobei in der praktischen Arbeit das gx i.a. unbekannt ist). Gerne wird in der Literatur mit

dem Begriff Bias die Verzerrung eines Schatzers beschrieben. Das zweite, zentrierte Moment

eines unverzerrten Schatzers E((g−gx)2) heißt mittlerer quadratischer Fehler des Schatzers.

Sei g∗ ein weiterer unverzerrter Schatzer fur gx. Dann heißt g effizienter, wenn gilt

E((g − gx)2) < E((g∗ − gx)

2) (6.2)

44


Eine Schatzung heißt konsistent, wenn gilt

limm→∞

E((g − gx)2) = 0 (6.3)

Ziel ist es naturlich, Schatzer zu finden, die unverzerrt, konsistent und effizient sind. So-

bald man sich also einen Schatzer ausgedacht hat, sollte man die Eigenschaften uberprufen.

Manchmal erweist sich das allerdings als unmoglich. Hier helfen einem dann die Monte Carlo

Experimente. Aus vorgegebenen, bekannten GG (d.h. bekannten pdf ’s oder Verteilungsfunk-

tionen) werden viele Stichproben mit einer großen Anzahl von Realisierungen (Ereignissen)

entnommen. Aus jeder Stichprobe wird der Schatzer g(x) berechnet und die Menge aller

berechneten Schatzer wird als Realisierung einer Stichprobe der ZVA ”Schatzer fur gx” ge-

nommen, aus der man dann z.B. den mittleren quadratischen Fehler berechnen (weil ich

gx ja kenne) kann.

6.3 Schatzung der pdf, Haufigkeitsverteilung

Die Wahrscheinlichkeit der GG uber einem Intervall der Breite ∆j war in (3.12) schon defi-

niert worden als

p(∆j) =

∫

∆j

f(x) dx (6.4)

Das Intervall ∆j soll klein sein und muß a-priori d.h. ohne Information aus der Stichprobe,

zu Beginn der statistischen Untersuchung festgelegt werden. Die ∆j konnen unterschied-

lich breit sein. Liegt nun eine Stichprobe vor, deren Umfang m groß genug ist, so ist die

Wahrscheinlichkeit p(∆j) proportional zur relativen Haufigkeit der Stichprobenelemente xi

im Intervall ∆j. Im Grenzubergang m → ∞ gilt dann

p(∆j) = limm→∞

|xi ∈ ∆j|m

(6.5)

Die Bezeichnung |∗| steht fur die Anzahl der Elemente der entsprechenden Menge. Die

Folge H(∆j), j = 1, ..., k mit

H(∆j) =|xi ∈ ∆j|

m(6.6)

nennt man das Histogramm der Realisierung der Stichprobe ~Xm. Dabei uberdecke∑k

j=1 ∆j

den gesamten Wertebereich der Stichprobe. Ein Schatzer fur die pdf f(x) ist dann

gm(xi) = fm(xi) = ( |xi ∈ ∆j|m∆j

, P (xi)), xi ∈ ∆j (6.7)

45


bzw.

fm(xi) = fm(H(∆j)) = (H(∆j)

∆j, P (H(∆j))), H(∆j) ∈ [0, 1] (6.8)

6.4 Schatzer der Verteilungsfunktion,

Empirische Verteilungsfunktion

Sei X eine ZVA und x1, . . . , xm eine Realisierung der Stichproben-ZVA ~Xm. Dann ist ein

Schatzer der Verteilungsfunktion gegeben durch

F m(x) = ( |xi, xi ≤ x, i = 1, ..., m|m

, P (xi)), xi ∈ IR (6.9)

mit der gleichen Bedeutung der Notation |∗| wie oben. F m ist eine Treppenfunktion mit

den Stufen eines Vielfachen von 1m

und wird of empirische Verteilungsfunktion genannt.

Nimmt man als Werte der unabhangigen Variablen x die aufsteigend sortierten Werte der

Stichprobe, so springt die empirische Verteilungsfunktion (meistens) um genau den Wert 1m

.

Wann nicht ??.

• Dieser Schatzer der Verteilungsfunktion von X ist unverfalscht.

Beweis:

Sei die Stichprobenlange m fest und a eine beliebige reelle Zahl. Die Definition des Schatzers

F m bedeutet, daß mF m(a) die Anzahl der Stichprobenelemente xi ist mit xi ≤ a. Die Wahr-

scheinlichkeit, ein Stichprobenelement mit xi ≤ a zu finden, ist aber gemaß der Definition

der Verteilungsfunktion Prob(x ≤ a) = F (a). Also ist die Zufallsvariable

mF m(a) = (|xi, xi ≤ a, i = 1, m|, B(m, F (a), |xi, xi ≤ a, i = 1, m|)), xi ∈ IR (6.10)

eine binomialverteilte ZVA mit den Parametern F (a) und m. Der Erwartungswert einer

solchen ZVA ist aber (s.o.)

E(mF m(a)) = mF (a) (6.11)

oder, da m beliebig aber fest

E(F m(a)) = F (a) (6.12)

Entsprechend folgt aus der Binomialverteilung die Varianz des Schatzers F m zu

Var(mF m(a)) = mF (a)(1 − F (a)) (6.13)

46


oder

Var(F m(a)) =1

mF (a)(1 − F (a)) (6.14)

• Also ist F m ein konsistenter Schatzer von F (x).

Aus der Erwartungstreue des Schatzers der Verteilungsfunktion folgt auch die Erwartungs-

treue des Schatzers der pdf . Der Schatzer F m wird durch eine lineare Operation aus den

Haufigkeiten fm gewonnen (Summation):

E(

∫ b

a

fm(xi)dxi) = E(F m(b) − F m(a))

= F (b) − F (a) =

∫ b

a

f(x)dx (6.15)

oder – abgesehen von Mengen vom Maß Null –

E(fm(xi)) = f(x) (6.16)

6.5 Schatzung des Erwartungswertes

Der Erwartungswert µ1 (wird jetzt immer statt m1 benutzt) der zentrierten ZVA X war

definiert als

µ1 =

∫

xf(x)dx (6.17)

Nimmt man fur f(x) den oben (6.7 bzw. 6.8) hergeleiteten, fur das Intervall ∆j gultigen

Schatzer fm(xi), so erhalt man:

µ′1 =

k∑

j=1

∫

∆j

xH(∆j)

∆jdx (6.18)

Das Integral ist uber das Intervall ∆j zu bilden, die einzelnen Intervalle sind von 1 bis k zu

summieren.

Noch einmal zur Vergewisserung

Da die Stichprobe eine ZVA ist, ist das arithmetische Mittel der Stichprobenelemente

ebenfalls eine ZVA und damit ist der Schatzer des Erwartungswertes eine ZVA! Der

Erwartungswert selbst dagegen ist keine ZVA!

47


Sind die Intervalle ∆j zufallig a-priori genau so gelegt, daß nur ein Element der Realisierung

der Stichproben-ZVA in jedem Intervall liegt und das auch noch genau in der Mitte des

Intervalls, so erhalt man:

µ1 =m∑

i=1

1

mXi (6.19)

d.h., das arithmetische Mittel der Stichprobenrealisierung ist dann ein Schatzer des Erwar-

tungswertes. In diesem Spezialfall ist der Schatzer des Erwartungswertes unverfalscht.

Beweis:

E(µ1) = E(m∑

i=1

1

mXi) =

m∑

i=1

1

mE(Xi)

=

m∑

i=1

1

mE(X) =

m∑

i=1

1

mµ1 = µ1 (6.20)

Die Varianz des Schatzers µ1 ist

Var(µ1) = E((1

m

m∑

i=1

Xi) − µ1)2

= E((1

m

m∑

i=1

Xi)2 − 1

m2

m∑

i,j=1

µ21)

=1

m2

m∑

i,j=1

E(XiXj − µ21)

=1

m2

m∑

i,j=1

E((Xi − µ1)(Xj − µ1)) (6.21)

Wegen der Unabhangigkeit der Stichprobe folgt fur die Kovarianzmatrix

E((Xi − µ1)(Xj − µ1)) = σ2δi,j (6.22)

(δi,j ist das Kroneckersymbol). Dann folgt fur die Varianz des Erwartungsschatzers

Var(µ1) =1

m2

m∑

i=1

σ2 =1

mσ2 (6.23)

d.h. der Schatzer µ1 ist ein konsistenter Schatzer.

6.6 Schatzung der Varianz

Das zweite zentrierte Moment µ2 war definiert worden als

µ2 =

∫

(x − µ1)2f(x)dx (6.24)

48


Geht man vor wie beim Erwartungswert, erhalt man als Schatzer der Varianz µ2 von X

µ2 = σ2 =1

m

m∑

i=1

(Xi − µ1)2 (6.25)

Man berechnet den Erwartungswert dieses Schatzers folgendermaßen (mit m · µ1 =∑

Xi)

E(σ2) = E(1

m

m∑

i=1

(Xi − µ1)2) = E(

1

m

m∑

i=1

(Xi − µ1 − (µ1 − µ1))2)

=1

mE(

m∑

i=1

(Xi − µ1)2 − m(µ1 − µ1)

2) =1

m

m∑

i=1

σ2 − Var(µ1)

= (1 − 1

m)σ2 (6.26)

Der in (6.25) konstruierte Schatzer der Varianz ist also verzerrt und zwar wird die Varianz

der GG unterschatzt um die Varianz des Erwartungsschatzers (6.23). Der Schatzer ist asym-

ptotisch verzerrt, denn fur m → ∞ verschwindet die Verzerrung. Benutzt man statt dessen

als Schatzer fur σ2 folgenden Ausdruck

s2 =1

m − 1

m∑

i=1

(Xi − µ1)2 (6.27)

so erhalt man als Erwartungswert des Schatzers

E(s2) = σ2 (6.28)

also einen unverfalschten Schatzer. Der unverzerrte Varianzschatzer wird im Folgenden mit

s bezeichnet, um ihn von dem verzerrten Schtzer σ zu unterscheiden.

Die Varianz des ersten Schatzer fur µ2 laßt sich mit etwas Algebra bestimmen zu

Var(σ2) =1

m(µ4 − µ2

2) −2

m2(µ4 − 2µ2

2) +1

m3(µ4 − 3µ2

2) (6.29)

Ist die ZVA X normalverteilt, reduziert sich der Ausdruck wegen µ4 = 3µ22 zu

Var(σ2) =2(m − 1)

m2σ4 (6.30)

Berechnet man die Varianz des unverzerrten Varianzschatzers, so ist diese großer als die

des verzerrten (nur ”asymptotisch unverzerrten”) Schatzers. Der verzerrte Schatzer ist al-

so effizienter als der unverzerrte. Dies ist ein typischer Fall in der Statistik: die Qualitat

von Schatzern wird bestimmt von der Balance zwischen Varianz und Verzerrung (Bias) der

Schatzer.

49


6.7 Maximum Likelihood Methode

Bisher wurden die Schatzer fur Parameter von Verteilungsfunktionen oder Momente von ZVA

mehr oder weniger ad-hoc eingefuhrt. Es gibt jedoch auch ein allgemeines Verfahren fur die

Schatzung von Parametern von Verteilungsfunktionen: die Maximum-Likelihood Methode.

Sei X eine univariate reelle ZVA und ~Xm die Stichproben ZVA. Wenn f(x) die pdf fur X

ist, war die entsprechende pdf der Stichproben ZVA gegeben als

f(~x) =m∏

i=1

f(xi) (6.31)

Sei ~λ der Parametervektor der pdf f(x), also im Fall von NV ZVA ~λ = (µ, σ). Wenn

(x1, . . . , xm) eine Realisierung der Stichproben ZVA ist, so ist die Wahrscheinlichkeit, diese

Realisierung zu finden, gegeben durch

p((x1, . . . , xm), ~λ) =

m∏

i=1

(f(xi, ~λ) dxi) (6.32)

Die Maximum Likelihood Schatzung (MLS) des Parametervektors ~λ ist nun der Vektor ~λ,

der die Funktion L

L =m∏

i=1

f(xi, ~λ) (6.33)

maximiert. L heißt auch Likelihood Funktion. Dabei handelt es sich aber um eine Zufallsgroße

und nicht um eine analytische Funktion. Da der Logarithmus eine streng monoton steigende

Funktion ist, ist die MLS von ~λ auch der Wert, der die logarithmische Likelihood Funktion l

l =m∑

i=1

ln f(xi, ~λ) (6.34)

maximiert.

l(~λ)!= max (6.35)

Beispiel: die MLS des Parametervektors einer Stichprobe aus einer NV univariaten GG ist

(a) der arithmetische Mittelwertschatzer und (b) der verzerrte Schatzer der Varianz.

Beweis: Es gilt

f(x) =1√2πσ

exp(−1

2

(x − µ)2

σ2) (6.36)

und

f(xi) =1√2πσ

exp(−1

2

(xi − µ)2

σ2) (6.37)

50


Dann folgt fur die log-Likelihoodfunktion

l = −1

2

m∑

i=1

(xi − µ)2

σ2− m ln σ − C (6.38)

Die Maximumsbedingung lautet dann

∂l

∂µ=

m∑

i=1

(xi − µ)

σ2= 0 (6.39)

und∂l

∂σ=

1

σ3

m∑

i=1

(xi − µ)2 − m

σ= 0 (6.40)

Daraus ergibt sich die Losung

µ =1

m

m∑

i=1

xi (6.41)

und

σ2 =1

m

m∑

i=1

(xi − µ)2 (6.42)

Die MLS Methode ist eine sehr brauchbare Methode zur Bestimmung von Parametern aus

Stichproben, zumal aus der 2. Ableitung der (log-)Likelihoodfunktion auch noch ein Gutemaß

der geschatzten Parameter (Konfidenzintervall) berechnet werden kann. Dies geschieht hier

nicht. Was ein Konfidenzintervall ist und wie diese auch ohne MLS fur die Standardschatzer

berechnet werden konnen, soll in Kapitel 5.10 besprochen werden.

6.8 Ubung

Entnimm aus einer NV ZVA mit Erwartungswert 1 und Streuung 2 mit Hilfe eines Zufallszah-

lengenerators je 100 Stichproben vom Umfang m = 10, 20, 30, 40. (Monte Carlo Experiment)

1. Schatze die Verteilungsfunktion der GG durch die Daten jeder Realisierung. Plotte die

100 Schatzungen zusammen mit der Verteilungsfunktion der GG (erf(x)).

2. Schatze den Erwartungswert aus jeder Realisierung. Vergleiche mit dem vorgegebe-

nen Erwartungswert. Wie groß ist die zu erwartende Streuung der Schatzungen des

Erwartungswertes?

3. Schatze Varianz (Streuung) mit dem erwartungstreuen und dem verzerrten Schatzer.

Vergleiche mit der Varianz der GG. Kann man die Verzerrung des zweiten Schatzers

erkennen?

51


6.9 Verteilungen von Schatzern

Bisher wurden von den ZVA ’Schatzer’ Parameter berechnet (nicht geschatzt!). Denn der

Schatzer ist eine ’Formel’, in der die Werte der Stichprobe verwendet werden (= zur Rea-

lisierung der ZVA dienen). Mit dieser Formel kann aber der Parameter (Erwartungswert

oder Varianz) berechnet werden. Da ein Schatzer eine ZVA darstellt, gibt es eine pdf fur

den Schatzer. Nachdem zunachst beschrieben wurde, was wie geschatzt wird (namlich der

Parameter einer anderen ZVA) und dann nach den Parametern des verwendetet Schatzers

gefragt wurde, soll nun gezeigt werden wie die pdf eines Schatzers aussieht.

6.9.1 Verteilung eines Erwartungswertschatzers

Man betrachtet eine Stichprobe (X1, . . . , Xm) vom Umfang m aus einer normalverteilten GG

N (µ, σ). Die ZVA

µ =1

m

m∑

i=1

Xi (6.43)

ist dann ja ebenfalls eine NV ZVA mit Erwartungswert

E(µ) = µ (6.44)

und Varianz

σ2(µ) =σ2

m(6.45)

Der Beweis folgt aus dem Zentralen Grenzwertsatz. µ ist naturlich genau der Erwartungs-

wertschatzer (5.19) der mit der Maximum Likelihood Methode entwickelt worden war. Er

ist NV und in Kap.5.5 mit den dort genannten Voraussetzungen schon benutzt worden. Auf

den Index 1 wurde hier der Einfachheit halber verzichtet.

6.9.2 Verteilung eines Varianzschatzers - χ2 Verteilung

Seien die Xi allesamt N (0, 1). Dann ist die ZVA

χ2 =m∑

i=1

X2i (6.46)

χ2-verteilt mit m Freiheitsgraden (beachte, daß hier in der Notation nicht mehr zwischen

ZVA und deren Reprasentierung - sonst Groß-/Kleinschreibung - unterschieden werden kann)

χ2 = (χ2, f(χ2)), χ2 ∈ IR (6.47)

52


Die Wahrscheinlichkeitsdichte der ZVA χ2 ist

f(χ2) =1

Γ(λ)2λ(χ2)

λ−1exp(−χ2

2) (6.48)

wobei

λ =m

2(6.49)

und

Γ(λ) =

∫ ∞

0

uλ−1 exp(−u)du (6.50)

die Gammafunktion ist. m ist ein Parameter der χ2 Verteilung und entspricht der Anzahl

der Freiheitsgrade der Verteilung. Die Verteilungsfunktion hat die Form

F (χ2) =1

Γ(λ)2λ

∫ χ2

0

uλ−1 exp(−u

2)du (6.51)

Der Erwartungswert und die Varianz einer χ2 verteilten ZVA lassen sich berechnen zu

E(χ2) = m

Var(χ2) = 2m (6.52)

wenn man die pdf durch die Gammafunktion ausdruckt und berucksichtigt, daß

Γ(λ + 1) = λΓ(λ) (6.53)

Die Erweiterung auf NV ZVA Xi mit Mittelwert µ und Streuung σ erfolgt einfach dadurch,

daß man die ZVA

χ2 =m∑

i=1

(Xi − µ

σ)2 (6.54)

die ihrerseits wieder χ2-verteilt ist, betrachtet. Man verwendet also weiterhin die standardi-

sierte NV, jedoch mit veranderten Integrationsgrenzen (von x zu (x−µ)σ

).

Gesucht wird aber nach der Verteilung des Varianzschatzers (verzerrt oder unverzerrt)

σ2 = s2 =1

m − 1

m∑

i=1

(Xi − µ)2 (6.55)

Man kann unter den gegebenen Umstanden zeigen, daß auch die ZVA

(m − 1)s2

σ2(6.56)

mit dem unverzerrten Varianzschatzer aus (6.27) χ2-verteilt ist, jedoch mit nur m − 1 Frei-

heitsgraden.

53


Dazu mussen die xi ∈ N (µ, σ) orthogonal auf die yi einer neuen ZVA transformiert werden,

derart, daß Summen von xi die yi bilden. Dann sind die yi auch NV und haben bei geschickter

Wahl der Transformation den Mittelwert 0 und die Streuung 1. ym wird dabei ausgedruckt

durch√

mµ. Die Orthogonalitat zwischen x und y sorgt dafur, daß

m∑

i=1

x2i =

m∑

i=1

y2i (6.57)

Dadurch wird

(m − 1)σ2 =m∑

i=1

(xi − µ)2 =m∑

i=1

x2i − mµ2

=m∑

i=1

y2i − y2

m =m−1∑

i=1

y2i (6.58)

Somit ist auch die Große aus (6.56)) χ2-verteilt.

Alle Beweise siehe Brandt, Datenanalyse ([3]).

6.9.3 Beziehung zwischen Erwartungswert- und Varianzschatzer -

Student - t Verteilung

Sei X eine NV ZVA und Y eine χ2-verteilte ZVA mit m Freiheitsgraden. Weiterhin seien X

und Y unabhangig. Dann folgt die ZVA, die wie folgt gebildet wird

T =X

√

(Y/m)(6.59)

der sogenannten Student-t Wahrscheinlichkeitsdichte mit m Freiheitsgraden

f(t) =Γ(m+1

2)√

mπΓ(m2)(1 +

t2

m)−

m+1

2 (6.60)

Der Erwartungswert der Student-t ZVA ist fur m = 1 nicht definiert, fur m ≥ 2 folgt

E(T ) = 0. Die Varianz der Student-t ZVA ist fur m = 1, 2 nicht definiert und ist fur m ≥ 3

Var(T ) = m(m−2)

. Damit sind die Verteilungen fur Erwartungswert- und Varianzschatzer in

einer ZVA vereint. Die Verteilung des Quotienten ist bekannt.

54


6.9.4 Beziehung zwischen 2 Varianzschatzern - Fisher-F Verteilung

In engem Zusammenhang mit der in 5.9.2 vorgestellten χ2 Verteilung steht die von R.A.Fisher

([10]) 1924 erstmals urkundlich erwahnte F -Verteilung. Sie hat die Form

F (x) = 0 fur negative x

F (x) =Γ(mx+my

2)

Γ(mx

2)Γ(my

2)mmx/2

x mmy/2y

∫ x

0

u(mx−2)/2

(mx + my)(mx+my)/2du (6.61)

Fisher-F -verteilt sind ZVA vom Typ

X =X(x)

mx

my

X(y)(6.62)

Dabei folgen die ZVA X (x) und X(y) jeweils der χ2-Verteilung mit mx bzw. my Freiheits-

graden. Die Verteilungsfunktion der F -Verteilung kennzeichnet man daher auch oft mit der

Schreibweise F (x, mx, my). Sie hat die besondere Eigenschaft

F (x, mx, my) =1

F (x, my, mx)(6.63)

Folgende Kenngroßen der F -Verteilung kann man angeben

E(X) =my

my − 2fur my > 2

V ar(X) =2m2

y(mx + my − 2)

mx(my − 2)2(my − 4)fur my > 4 (6.64)

Insbesonders ist auch der Quotient zweier ZVA vom Typ

(m − 1)σ2

x

σ2y

(6.65)

die schon in (5.43) aufgetaucht waren, F -verteilt. Damit wird die F -Verteilung beim Vergleich

von Varianzen in Kap.7.4 Verwendung finden.

6.10 Konfidenzintervalle

Bisher haben wir das Problem behandelt, wie die Parameter der pdf oder die Momente der

ZVA geschatzt werden, wenn aus einer GG eine Stichprobe gegeben ist (Punktschatzungen).

Wir haben gesehen, daß der Prozeß der Stichprobenentnahme wieder eine Zufallsvariable ist

und somit die aus einer Realisierung der Stichproben ZVA berechneten Schatzer wieder ZVA

sind, die wiederum durch pdf ′s (bzw. ihre Momente) beschrieben werden. Eine andere Frage,

55


die man stellen kann, ist, wie groß ein Intervall [a, b] ist, in dem die Schatzung des Parame-

ters mit einer bestimmten, a-priori festgelegten Wahrscheinlichkeit liegt. Dieses Intervall

heißt Konfidenzintervall. Ist das Intervall klein und die festgelegte Wahrscheinlichkeit hoch,

so ist der Parameter relativ genau bestimmbar. Anhand eines etwas akademischen Beispiels

sei die Vorgehensweise im nachsten Unterkapitel beschrieben. Die etwas realistischeren An-

wendungen werden in den anderen Unterkapiteln besprochen.

6.10.1 Konfidenzintervall fur den Mittelwert bei bekannter Varianz einer

normalverteilten GG

Sei ~Xm die Stichprobenvariable fur eine normalverteilte GG N (µ, σ). Die Streuung σ sei als

bekannt vorausgesetzt. Der Erwartungswert sei geschatzt durch die ZVA

µ =1

m

m∑

i=1

Xi (6.66)

Dann ist die reduzierte ZVA Z ausgedruckt durch

z =√

mµ − µ

σ(6.67)

eine NV ZVA mit N (0, 1) (s. Ergebnisse oben). Sei γ ∈]0, 1[ die a-priori festgelegte Wahr-

scheinlichkeit, die ZVA Z in einem bestimmten Konfidenzintervall zu beobachten. Wir suchen

also die Zahlen a und b, so daß gilt

Prob(a ≤ z ≤ b) = γ (6.68)

Betrachtet man nur um 0 symmetrische Intervalle, folgt a=−b. Mit Hilfe der Fehler-Funktion

erf(x) laßt sich die linke Seite ausdrucken als

Prob(−b ≤ z ≤ b) = erf(b) − erf(−b) = γ (6.69)

Daraus folgt mit erf(−b) = 1 − erf(b) als Gleichung fur b:

erf(b) =1 + γ

2(6.70)

d.h. b ist das Quantil der Normalverteilung zum Wahrscheinlichkeitswert (1 + γ)/2. Wahlt

man also γ nahe an 1, so bedeutet das, daß die Wahrscheinlichkeit, die ZVA Z im Intervall

[−b, b] zu beobachten, sehr groß ist. Ist dabei b eine Zahl, die klein gegen σ ist, bedeutet

56


das, daß mit einer hohen Wahrscheinlichkeit die ZVA Z in einem kleinen Intervall liegt,

daß also die durch die Zufalligkeit der Stichprobe erzeugte Variabilitat des Schatzers µ mit

hoher Wahrscheinlichkeit gering ist. Damit ist also der gesuchte Parameter ”gut” schatz-

bar. Die Intervallgrenze b ist keine ZVA, da sie aus der theoretischen Verteilungsfunktion

fur die Schatzer (genauer aus der Inversen der Verteilungsfunktion) bestimmbar ist. b ist

fur die unterschiedlichsten Verteilungsfunktionen als Funktion der a-priori Wahrscheinlich-

keit γ tabelliert oder als FORTRAN Subroutine z.B. in der mathematischen Library IMSL

verfugbar.

Es ist ublich, das Konfidenzintervall der reduzierten ZVA wieder in ein Intervall um den

unbekannten Erwartungswert (allgemein um den unbekannten Parameter) µ umzurechnen.

Dies ist das Intervall, in dem man mit einer Wahrscheinlichkeit (aber nicht γ) den Parameter

vermutet. Deshalb nennen einige Autoren das so umgerechnete Konfidenzintervall auch ”Mu-

tungsbereich”. Fur den vorliegenden Fall ergibt sich mit b als Losung der letzten Gleichung

und der Definition der reduzierten ZVA Z

µ − bσ√m

≤ µ ≤ µ +bσ√m

(6.71)

Die so berechneten Intervallgrenzen sind naturlich wieder ZVA und damit von dem Konfi-

denzintervall der reduzierten ZVA Z deutlich zu unterscheiden.

6.10.2 Konfidenzintervall fur den Mittelwert einer normalverteilten GG bei

geschatzter Varianz

Sei wiederum ~Xm die Stichproben ZVA einer normalverteilten GG mit N (µ, σ). Als Schatzer

des Erwartungswerts und der Streuung seien der Stichprobenmittelwert 1m

∑mi=1 xi und der

unverzerrte Schatzer der Varianz (5.27) gewahlt. Dann kann man zeigen, daß die ZVA Z (s.

5.67) und Y unabangige ZVA sind, d.h. cov(Z, Y ) = 0 (Beweis siehe Kreyszig, S.381 [4]),

wenn man Y wie folgt festlegt:

Y =

∑mi=1(Xi − µ)2

σ2(6.72)

Da Z und Y unabhangig sind, ist ganz offensichtlich die ZVA T mit

T =Z

√

Y/(m − 1)(6.73)

eine Student-t verteilte ZVA mit m − 1 Freiheitsgraden. Das Konfidenzintervall [−b, b] zum

a-priori Wahrscheinlichkeitswert γ folgt dann analog zum letzten Unterkapitel, wobei die

57


erf -Funktion jedoch durch die Verteilungsfunktion der Student-t Verteilung FSt−t ersetzt

wird:

FSt−t(b) =1 + γ

2(6.74)

Dann kann man wieder den Mutungsbereich fur den Erwartungswert angeben als

µ − bσ√m

≤ µ ≤ µ +bσ√m

(6.75)

Es gilt naturlich wiederum: b ist keine ZVA, sondern wohldefiniert, die Intervallgrenzen des

Mutungsbereichs dagegen sind ZVA.

6.10.3 Konfidenzintervall fur den Schatzer der Varianz einer NV GG

Die ZVA Y laßt sich auch schreiben als

Y = (m − 1)σ2

σ2(6.76)

und ist damit eine χ2-verteilte ZVA mit m − 1 Freiheitsgraden. Es lassen sich nun auch

Konfidenzintervalle fur Y ausrechnen. Allerdings ist die χ2 Verteilung nicht symmetrisch, so

daß man die Losungen der Gleichungen (Fχ ist die Verteilungsfunktion der χ2- Verteilung)

Fχ(a) =1

2(1 − γ)

Fχ(b) =1

2(1 + γ) (6.77)

bestimmen muß, da gelten soll:

Fχ(b) − Fχ(a) = γ (6.78)

Die entsprechenden Losungen sind tabelliert oder als IMSL Routinen anwahlbar. Das ent-

sprechende Mutungsintervall ergibt sich dann als

m − 1

bσ2 ≤ σ2 ≤ m − 1

aσ2 (6.79)

58

7 Prufung statistischer Hypothesen, Tests


7.1 Allgemeine Bemerkungen

Bisher sind u.a. folgende Probleme der mathematischen Statistik behandelt worden (s.Kap.5)

• Schatzung von Parametern oder Momenten der pdf einer GG, aus der eine Stichprobe

~Xm gegeben war (Punktschatzung).

• Bestimmung von Vertrauensgrenzen oder die Berechnung der Gute der geschatzten

Parameter (Intervallschatzung).

Sehr oft liegt in der mathematischen Statistik das Problem vor, daß man ein Vorurteil bzw.

Vorwissen uber eine GG hat und dieses mit einer Stichprobe uberprufen mochte. So verfugt

man in der klimatologischen Forschung ja sogar immer nur uber Stichproben des Experiments

”Klimasystem”. Mit diesen verschafft man sich das ”Vorwissen” (eher wohl die Vermutung)

uber die GG dieses Experiments, die dem Menschen aber immer unbekannt bleiben wird.

Im Sprachgebrauch der Statistik bezeichnet man dies als Hypothese.

• Der Hypothesentest besteht nun darin, objektiv zu prufen, wie gut diese Vermutung

bezuglich der GG (i.a. handelt es sich um eine Vermutung uber die pdf der GG) mit

den Daten der Stichprobe zu vereinbaren ist.

Die Prufung kann allenfalls zur Ablehnung der Hypothese fuhren. Im gegenteiligen Falle

stellt man nur fest, daß die Aussage der Stichprobe nicht gegen das Vorwissen uber die GG

spricht. Man kann nie 100%ig sicher sein, die richtige Entscheidung zu treffen. Man kann

nur Signifikanz-/Irrtumsniveaus angeben, innerhalb derer die getroffene Entscheidung richtig

ist. Zu jeder Hypothese gibt es in naturlicher Weise zumindest eine Gegenhypothese (”Es ist

nicht so!”). Zur Unterscheidung nennt man die zu testende Hypothese die Nullhypothese

H0 und die Hypothese gegen die H0 getestet wird die Alternativhypothese H1. Erzielt

ein Wissenschaftler eine bisher unbekannte Erkenntnis, so muß er sich selbst den Zweifel der

wissenschaftlichen Gemeinschaft formulieren und mit einem Test versuchen, die virtuellen

Zweifler von seiner Erkenntnis zu uberzeugen.

Die Durchfuhrung statistischer Hypothesentests verlauft i.a. nach einem Schema, das im

Folgenden dargelegt werden soll. Zuerst wird das Hypothesenpaar aus Null- und Alterna-

tivhypothese explizit formuliert. Man sollte sich sogar angewohnen, das immer schriftlich

59


Es gilt in der GG Es gilt in der GG

Testausgang H0 ist wahr/H1 ist falsch H0 ist falsch/H1 ist wahr

u < uα ⇔ H0 akzeptieren richtig, (1 − α) Fehler 2.Art β

u > uα ⇔ H1 akzeptieren Fehler 1.Art, α richtig,(1 − β)

Tabelle 1 Entscheidungstabelle bei statistischen Hypothesentests, Definition Fehler 1. und

2. Art

zu fixieren! Dies legt zwei GG und entsprechende ZVA, unsere Testvariable, fest. Fur die

Nullhypothese lautet diese Testvariable U 0 = (u, f (0)(u)), u ∈ Su und fur die Alternativ-

hypothese U1 = (u, f (1)(u)), u ∈ Su. Die ZVA U i, i = 0, 1 sind zumeist – auch bei Tests

mit Stichproben aus multivariaten GG – univariate, reelle ZVA. Ziel des Tests ist es, eine

gegebene Stichprobe der entsprechenden GG H0 bzw. H1 zuzuordnen. Dazu wird die Test-

variable benutzt, der Stichprobenwert der Testvariablen u muss also entwederU 0 oder U1

entstammen. Naturlich ist eine solche Zuordnung immer mit einer Unsicherheit verbunden.

Man wahlt nun das Irrtumsniveau α. α ist die Wahrscheinlichkeit, mit der man H0

verwirft, obwohl die Nullhypothese richtig ist. Man nennt das den Fehler 1.Art. Je kleiner

ich α wahle, umso entfernter muß die Aussage der Stichprobe von der zugehorigen Aussage

der GG (=H0) sein. Anders herum gesagt ist es verstandlicher, entspricht aber nicht exakt

dem Vorgehen: Je entfernter die Daten von der Nullhypothese sind, umso kleiner ist die

Wahrscheinlichkeit, daß ich mich irre, wenn ich H0 ablehne. Ist die Aussage der Stichprobe

weit genug von der GG entfernt, lehne ich H0 mit einer Signifikanz von α ab. So ist das

in Strenge zu formulieren. Durchaus gebrauchlich und fur den Wissenden nicht verwirrend

ist es aber, in diesem Fall zu formulieren, daß die Nullhypothese auf dem Irrtumsniveau α

verworfen wird wird.

Hat man H0 (berechtigt oder unberechtigt) verworfen, so ist die Alternativhypothese als

unbewiesenes Vorurteil anzubieten. Unterscheiden sich H0 und H1 wenig in ihren Aussagen,

so hat das allerdings wenig Nutzen. Dies ist dem gesunden Menschenverstand zuganglich

(...und das in einer Statistikvorlesung!!!) und zeigt sich, wenn man den Test unter Einbezie-

hung der Alternativhypothese zuende fuhrt. Neben dem Fehler, H0 unberechtigt abzulehnen,

kann man auch noch den Fehler machen, H0 unberechtigt nicht abzulehnen (also unberech-

60


tigt zu akzeptieren). Es wird also die (falsche) Aussage getroffen, daß die Stichprobe nicht

gegen die mit H0 verbundene GG spricht obwohl sie in Wahrheit irgend einer anderen GG

entnommen wurde, bspw. der, die mit H1 verbunden ist. Die Wahrscheinlichkeit fur diesen

Fehler 2.Art nennt man β und sie ist abhangig von α und naturlich von H1, welche aber in

der Regel unbekannt ist. Leider vergroßert ein kleiner werdendes α den Fehler β. β. Daher

ist die Wahl der Testvariablen sehr wichtig (gerade bei multivariaten statistischen Hypothe-

sentests). In Tabelle (1) sind die moglichen Entscheidung bei statistischen Tests aufgelistet.

In Abb.16 wird versucht, diesen Sach-

Abbildung 16 Graphische Darstellung zum Begriff

der Fehler I. und II. Art bei Hypothesentests

verhalt anschaulich darzustellen. Mit dem

Begriff Hypothese darf man ruhig eine

pdf verbinden, die auf der Ordinaten

aufgetragen ist und mit der Große auf

der Abszisse die ZVA U 0 oder U1. Befin-

det sich die Stichprobe u rechts von dem

durch die Wahl von α festgelegten, kriti-

schen Wert uα, so wird H0 mit einer Si-

cherheit von (1-α) verworfen. Liegt da-

gegen u links von uα, so sprechen die

Daten mit der selben Sicherheit nicht

gegen H0. In diesem Fall ist es naturlich

trotzdem noch moglich, daß u eine Rea-

lisierung von U1 und nicht von U0 ist.

Dieser Fehler wird durch β beschrieben.

Prob (u ∈ ] −∞; uα] |H1) =

∫ uα

−∞f (1)(y) dy = β

Prob (u ∈ ]uα;∞[ |H1) =

∫ ∞

uα

f (1)(y) dy = 1 − β(7.1)

61


Analog kann man formulieren:

Prob (u ∈ ] −∞; uα[ |H0) =

∫ uα

−∞f (0)(y) dy = 1 − α

Prob (u ∈ [uα;∞[ |H0) =

∫ ∞

uα

f (0)(y) dy = α (7.2)

Fur besonders aussagekraftige – machtige – Tests wendet man gerne folgendes Verfahren

an: Das Vorurteil, das man mit der Stichprobe unterstutzen mochte, wahlt man als Alter-

nativhypothese H1. Getestet wird also der Widerstand gegen meine These. Wahlt man ein

kleines α, so kann man die gegnerische Hypothese H0 nur bei Daten, die sehr fur meine The-

se (= H1) sprechen (u > uα) mit hoher Wahrscheinlichkeit verwerfen. Und nur wenn ”das

Alte” durch ”das Neue” stark angegriffen wird, soll sich ”das Neue” durchsetzen konnen.

Man widerlegt lieber sein Vorurteil (in der Wissenschaft!....) auch wenn es richtig ist, als

daß man es akzeptiert, wenn es falsch ist. Man sieht das als Ansporn, noch bessere Hinweise

(Signale) fur seine These zu suchen.

Wie man aus Abb.8 schon erkennt, ist der Fehler β groß, wenn sich Hypothese und Alterna-

tivhypothese stark uberlappen. Die Große (1−β), die man als Macht des Tests bezeichnet,

ist dann klein. Es gibt eine hohe Wahrscheinlichkeit, daß eine Stichprobe, die tatsachlich der

GG H1 entstammt, zu einer Annahme von H0 fuhrt. Man kann sich bspw. vorstellen, daß

H0 sagt, eine Farbflache sei rosa und H1 stellt dagegen die Alternative, sie sei pink. Nutzen

und Prazision dieses Tests sind naturlich zweifelhaft.

Ein anderes Beispiel aus der bosen Welt der Geschaftemacher soll die Problematik be-

leuchten, die mit der richtigen Hypthesenwahl verbunden ist. Im Hamburger Hafen liege ein

Bananendampfer mit einer Ladung im Wert von 106 Euro. Der Bananenhandler sucht nun

einen Kunden (bspw. einen Großhandler auf dem Fischmarkt), der ihm die Ware abkauft.

Dazu macht er einen Test mit der Nullhypothese H0 ”Die Ware ist gut”. Er fuhrt den Test

durch mit einer Irrtumswahrscheinlichkeit α=0.01. Das bedeutet, daß der Test mit einer

Wahrscheinlichkeit von 1% das Ergebnis ”Ware ist schlecht” liefert, obwohl die Lieferung

o.k. ist. Es heißt nicht, daß 1% der Bananen verdorben sind! Es bedeutet aber, daß ein Ri-

siko besteht, daß 1 von 100 Lieferungen schlecht ist. Das Handlerrisiko ist 1%× 106 Euro.

Das Risiko des Kunden ist β. Die Große von β ist ungewiß, konnte bspw. β(α = 0.01) = 0.2

sein. Dann ist das Kundenrisiko 20% × 106 Euro = 200.000 Euro!

62


Schlauer ware es von dem Kunden, einen Test auf die Nullhypothese H0 ”Die Ware ist

schlecht” zu verlangen. Dann kann er das Kundenrisiko fest eingrenzen und den Uberseehand-

ler mit seinem nun ungewissen Handlerrisiko in schlaflose Nachte verfallen lassen.

7.2 Mittelwerttest bei einer NV GG mit bekannter Varianz

Die Grundgesamtheit, aus der die Stichprobe ~Xm vom Umfang m entnommen wird, sei

normalverteilt mit N (µ, σ). Die Varianz σ2 der GG sei (unrealistischerweise) bekannt. Mit

µ ist im folgenden ohne die Indizierung 1 das zentrierte 1. Moment dieser GG bezeichnet.

Sei weiterhin µ(0) eine Annahme (keine Schatzung!) uber den Erwartungswert der GG. Die

Variable µ(0) ist damit keine ZVA, sondern eine wohlbekannte reelle Zahl. Dann soll die

Nullhypothese H0 lauten

H0 : µ = µ(0) (7.3)

Als Alternativhypothese hat man drei Moglichkeiten:

H1 : µ > µ(0)

H1 : µ < µ(0)

H1 : µ 6= µ(0) (7.4)

Formuliert man eine der ersten beiden Alternativhypothesen, so fuhrt man einen sogenannten

einseitigen Test durch, im dritten Fall dagegen einen zweiseitigen Test. Als Schatzer fur den

Erwartungswert wahlen wir den arithmetischen Mittelwert – den ML Schatzer –

µ =1

m

m∑

i=1

xi (7.5)

µ ist eine NV ZVA mit N (µ, σ√m

). Gilt die Nullhypothese µ = µ(0), so ist die ZVA U

ausgedruckt durch

u =√

mµ − µ(0)

σ(7.6)

eine NV ZVA mit N (0, 1). Die pdf der Hypothese f 0(u) ist dann die Gauss’sche Wahrschein-

lichkeitsdichte mit den Parametern (0, 1). Fuhrt man den einseitigen Test nach rechts (>)

durch, so erhalt man (α fest vorgegeben):

Prob(u > uα) = α (7.7)

63


uα wird bestimmt durch

erf(uα) = 1 − α

⇐⇒∫ uα

−∞f 0(u) du = 1 − α (7.8)

mit

uα =√

mcα − µ(0)

σ(7.9)

wobei cα eine durch (6.9) festgelegte Zahl ist. Man findet nun

u ≤ uα → akzeptiere H0 (7.10)

bzw.

u > uα → akzeptiere H1 (7.11)

Macht man fur die Alternativhypothese eine konkrete Annahme uber den Erwartungswert

µ(1), so kann man die Macht des einseitigen, rechten Tests beschreiben durch

1 − β(α) = 1 − erf(√

mcα − µ(1)

σ)

= 1 − erf(uα +

√m

σ(µ(0) − µ(1))) (7.12)

Die Durchfuhrung des einseitigen, linken Tests (<) erfolgt analog mit uα → −uα. Ist man an

dem zweiseitigen Test interessiert, so ist ein symmetrisches Intervall [−uα, uα] gesucht mit

Prob(−uα ≤ u ≤ uα) = 1 − α (7.13)

oder

erf(uα) − erf(−uα) = 1 − α (7.14)

oder mit Hilfe der Beziehung erf(−uα) = 1 − erf(uα)

erf(uα) = 1 − α

2(7.15)

Man findet nun mit Hilfe des aus der Stichprobe gewonnenen Wertes u die gewunschte

Hypothesenentscheidung:

u ∈ [−uα, uα] → akzeptiere H0 (7.16)

bzw.

u 6∈ [−uα, uα] → akzeptiere H1 (7.17)

64


Bei gleichem Irrtumsniveau α sind die Entscheidungsgrenzen |uα| des zweiseitigen Tests

großer als beim einseitigen Test. D.h. bei gleichem Schatzwert µ wird die Nullhypothese eher

beim einseitigen Test als beim zweiseitigen Test abgelehnt. Das liegt naturlich daran, daß

bei dem einseitigen Test die zusatzliche ”a-priori” Information uber das Vorzeichen honoriert

wird. Die Macht des zweiseitigen Tests ist gegeben durch

1 − β(α) = 1 + erf(−uα +

√m

σ(µ(0) − µ(2))) − erf(uα +

√m

σ(µ(0) − µ(2))) (7.18)

wobei µ(2) die konkrete Annahme uber den Erwartungswert der ”linken” Alternativhypothese

ist.

7.3 Vergleich der Mittelwerte zweier NV mit identischer Varianz

Gegeben seien zwei Stichproben ~Xmx vom Umfang mx aus einer NV GG mit N (µx, σ) und

~Y my vom Umfang my aus einer NV GG mit N (µy, σ). Die Schatzer der Erwartungswerte seien

die arithmetischen Mittelwerte, als Schatzer fur die Varianz benutzen wir den unverzerrten

Schatzer der Stichprobenvarianz, also

µx =1

mx

mx∑

i=1

Xi

µy =1

my

my∑

i=1

Yi

s2x =

1

mx − 1

mx∑

i=1

(Xi − µx)2

s2y =

1

my − 1

my∑

i=1

(Yi − µy)2 (7.19)

Beide Stichproben seien unabhangig. Die Nullhypothese wird formuliert als

H0 : µx = µy (7.20)

Als Alternativhypothese bieten sich wieder drei Formulierungen an:

H1 : µx > µy

H1 : µx < µy

H1 : µx 6= µy (7.21)

65


Dann ist die ZVA U mit

u =

√mxmy(mx + my − 2)

mx + my

µx − µy√

(mx − 1)s2x + (my − 1)s2

y

(7.22)

Student-t verteilt mit (mx + my − 2) Freiheitsgraden. (Beweis [4],S.381) Trifft die Nullhypo-

these µx = µy zu, ist U zentral (d.h. E(U)=0) Student-t verteilt. Die pdf f 0(u) ist dann die

Student-t Wahrscheinlichkeitsdichte aus dem letzten Kapitel. Soll die einseitige, rechte (>)

Alternativhypothese gegen die Nullhypothese getestet werden, sucht man wieder

Prob(u ≤ uα) = 1 − α (7.23)

oder

FSt−t(uα, mx + my − 2) = 1 − α (7.24)

wobei FSt−t die Verteilungsfunktion der Student-t Verteilung mit mx+my−2 Freiheitsgraden

ist. Sei u die aus der Stichprobe berechnete Realisierung der Teststatistik U . Dann entscheidet

man

u ≤ uα → akzeptiere H0


Lautet die Alternativhypothese H1 : µx 6= µy, so wird ein Intervall [u−α , u+

α ] gesucht mit

Prob(u < u−α ) =

α

2

Prob(u > u+α ) =

α

2(7.26)

Da aber die Student-t Verteilung symmetrisch ist, ist u−α = −u+

α und uα wird aus der

Gleichung

F (uα) = 1 − α

2(7.27)

berechnet. Der Test erfolgt dann wie oben:

|u| ≤ uα → akzeptiere H0

|u| > uα → akzeptiere H1 (7.28)

Ebenso wie im letzen Unterkapitel sind die Entscheidungsgrenzen bei gleichem Irrtumsni-

veau fur den einseitigen Test geringer als beim zweiseitigen (Begrundung s. oben). Analog

laßt sich auch die Macht des Student-t Tests bestimmen; statt der erf-Funktion wird hier

aber die Verteilungsfunktion der nichtzentralen Student-t Verteilung mit dem Nichtzentra-

litatsparameter δ = (µx − µy) benotigt.

66


7.4 Vergleich der Varianz zweier NV

Eine wesentliche Voraussetzung des letzten Testverfahrens war die Einschrankung auf iden-

tische Varianzen der zugrundegelegten GG. Sind zwei voneinander unabhangige Stichproben

gegeben, sind naturlich die berechneten Realisierungen der Varianzschatzer unterschiedli-

che Zahlen. Ein Test dieser beiden Zahlen soll deshalb feststellen, ob die Varianzen der

GG identisch (H0) oder verschieden (H1) sind. Gegeben seien zwei Stichproben ~Xmx vom

Umfang mx aus einer NV GG mit N (µx, σx) und ~Y my vom Umfang my aus einer NV GG

mit N (µy, σy). Die Schatzer der Erwartungswerte und der Varianzen seien wie im letzten

Unterkapitel gewahlt. Die Nullhypothese sei

H0 : σ2x = σ2

y (7.29)

Als Alternativhypothese formulieren wir entweder einseitig

H1 : σ2x > σ2

y (7.30)

oder zweiseitig

H1 : σ2x 6= σ2

y (7.31)

Gilt die Nullhypothese, ist die Teststatistik U :

u = (σ2

x

σ2x

)/(σ2

y

σ2y

) (7.32)

Fisher-F verteilt mit (mx−1, my−1) Freiheitsgraden. Soll die einseitige Alternativhypothese

gelten, sucht man nach

Prob(u ≤ uα) = 1 − α (7.33)

oder uα als Losung der Gleichung

FFisher(uα, mx − 1, my − 1) = 1 − α (7.34)

wobei FFisher die Verteilungsfunktion einer (zentralen) Fisher-F ZVA ist mit (mx−1, my −1)

Freiheitsgraden. Hierbei bedeutet zentrale Fisher-F Verteilung, daß der Erwartungswert der

entsprechenden ZVA Eins ist. Mit u aus

u =σ2

x

σ2y

(7.35)

67


erfolgt die Testentscheidung wie



Im Fall der zweiseitigen Alternativhypothese ist zu bedenken, daß die Fisher-F Verteilung

nicht symmetrisch ist, d.h. man sucht ein Intervall [u−α , u+

α ] mit

Prob (u < u−α ) =

α

2

Prob (u ≤ u+α ) = 1 − α

2(7.37)

Die Intervallgrenzen findet man dann als die entsprechenden Quantile der zentralen Fisher-F

Verteilung mit den bereits angegebenen Freiheitsgraden zu

FFisher (u−α , mx − 1, my − 1) =

α

2

FFisher (u+α , mx − 1, my − 1) = 1 − α

2(7.38)

Die Testentscheidung wird dann wie folgt durchgefuhrt:

u ∈ [u−α , u+

α ] → akzeptiere H0

u 6∈ [u−α , u+

α ] → akzeptiere H1 (7.39)

7.5 Anpassungstests

Eine wesentliche Vorausetzung der bisher beschriebenen Testverfahren war die Einschrankung

der GG auf NV GG. Insbesondere der Fisher-F Test ist jedoch bekannt dafur, auf Abwei-

chungen von der NV-Annahme empfindlich zu reagieren (dies ist ein Ergebnis aus Monte

Carlo Experimenten). D.h sind die GG, aus denen die Stichproben entnommen werden,

nicht NV, so ist das Ergebnis des Fisher-F Tests zweifelhaft. Aus diesem Grund ist es notig,

zu testen, ob die pdf oder die Verteilungsfunktion einer GG, die aus der Stichprobe durch die

entsprechenden Schatzer berechnet wurde, eine bestimmte Form hat, etwa die Form der Nor-

malverteilung. Dies ist die Aufgabe der sogenannten Anpassungstests, mit denen Hypothesen

uber vermutete pdf bzw. Verteilungsfunktionen der GG uberpruft werden konnen.

68


7.5.1 Der χ2-Test

Mit Hilfe des χ2 Tests wird getestet, ob die pdff(x) einer GG mit einer Annahme uber diese

pdf (das ”Vorurteil”) vertraglich ist oder nicht. Das Vorurteil wird mit f (0) bezeichnet. Aus

der GG liegt eine Stichprobe ~Xm vom Umfang m vor. Damit kann man die pdff(x) durch

das Histogramm H(∆j), j = 1, ..., J schatzen. Als Null- bzw. Alternativhypothese formuliert

man

H0 : f(x) = f (0)(x)

H1 : f(x) 6= f (0)(x) (7.40)

Dabei wird als Schtzer der Verteilungsfunktion

f(x ∈ ∆j) =H(∆j)

∆j(7.41)

benutzt. Wenn die Nullhypothese richtig ist, ist die Wahrscheinlichkeit, die ZVA X im In-

tervall ∆j zu beobachten gegeben durch

pj =

∫

∆j

f (0)(x) dx (7.42)

Damit kann man die im Intervall ∆j zu erwartende Anzahl von Stichprobenelementen h bei

einer Stichprobe vom Umfang m berechnen zu

h(∆j) = mpj (7.43)

Die beobachtete Anzahl von Stichprobenelementen im Intervall ∆j liefert das Histogramm

H(∆j) aber zu

mH(∆j) = |x ∈ ∆j| (7.44)

Man kann zeigen (Beweis siehe [3]), daß die ZVA U mit

u =J∑

j=1

(mH(∆j) − mpj)2

mpj(7.45)

asymptotisch (d.h fur m → ∞) eine χ2-verteilte ZVA mit (J − 1) Freiheitsgraden ist. Bei

der Durchfuhrung des Tests ist also wiederum eine Zahl uα gesucht mit

Prob(u ≤ uα) = 1 − α (7.46)

69


oder mit Hilfe der χ2 Verteilungsfunktion das Quantil

Fχ2(uα, J − 1) = 1 − α (7.47)

Damit fuhrt man die Testentscheidung wie folgt durch



Werden zur Herleitung der pdff (0) aus der Stichprobe ~Xm noch p Parameter geschatzt (z.B.

fur eine Normalverteilung µ und σ, p = 2), so ist die ZVA U immer noch (asymptotisch) χ2

verteilt, jedoch mit J − p − 1 Freiheitsgraden.

7.5.2 Kolmogoroff - Smirnov Test

So wie der χ2 Test ein Test fur die pdf ist, ist der Kolmogoroff-Smirnov Test (KS-Test)

ein Test fur die Verteilungsfunktion. Sei also ~Xm eine Stichprobe vom Umfang m aus einer

GG mit der Verteilungsfunktion F (x). Diese Verteilungsfunktion sei geschatzt durch die

empirische Verteilungsfunktion F z.B. als Summe uber das Histogramm H(∆j). A-priori sei

eine Verteilungsfunktion F (x) vorgegeben. Die Null- bzw. Alternativhypothese lautet dann

H0 : F (x) = F (x)

H1 : F (x) 6= F (x) (7.49)

Bestimmen wir die maximale Distanz zwischen empirischer Verteilungsfunktion F (x) und

theoretischer Verteilungsfunktion F (x) als

u = supx∈S

|F (x) − F (x)|. (7.50)

Ist die Nullhypothese korrekt, folgt, dass die ZVA U naherungsweise der Verteilungsfunktion

FKS(u) ' 1 − 2 exp(−2mu2) (7.51)

folgt. FKS heißt auch die Kolmogoroff-Smirnov Verteilung. Es ist also wiederum eine Zahl

uα gesucht mit

Prob(u ≤ uα) = 1 − α (7.52)

oder

FKS(uα) = 1 − α (7.53)

70


Unter Benutzung der expliziten Darstellung der KS - Verteilung erhalt man dann

uα =

√

− ln(α2)

2m(7.54)

Damit fuhrt man die Testentscheidung wieder wie folgt durch



Ein Problem ergibt sich mit den KS-Test, wenn die Parameter der theoretischen Verteilung

aus der Stichprobe geschazt werden mussen. Dies lasst sich nicht, wie beim χ2-Test, einfach

durch die Anpassung der Freiheitsgrade korrigierten. Allerdings existiert ein Modifikation

des KS-Tests, welche auf den Lilliefors-Test fuhrt. Hier existiert eine andere Statistik, die

DL-Statistik, welche sich aus Tabellen ablesen lasst oder uber Approximationen hergeleitet

werden kann.

71

8 Statistische Untersuchung extremer Ereignisse


Bisher haben wir uns mit den Eigenschaften von Zufallsvariable beschaftig, die das Zentrum

der Dichteverteilung beschreiben, also im Wesentlichen mit Erwartungswert und Varianz,

evt. auch Schiefe oder Kurtosis. Ein weiteres Feld in der Meteorologie, der Hydrologie und

insbesondere der Okonomie ist die Untersuchung von Extremereignissen. Solche Extremereig-

nisse treten sehr selten auf, sind jedoch mit hohem wirtschaftlichen Schaden, oder schlimmer

mit Verlust von Menschenleben verbunden und damit wichtig fur Risikoabschatzungen. Sol-

che Ereignisse werden als ”Extreme Ereignisse” bezeichnet. Naturlich ist der Schaden, den

ein extremes Ereigniss verursacht, nicht nur von seiner Starke abhangig, sondern vor allem

auch vom Ort und Zeitpunkt seine Auftretens. Ein Sturmtief, welches uber eine nicht be-

siedelte Region zieht, wird u.U. gar nicht als ”Extremes Ereignis” wahrgenommen, wahrend

ein Sturm uber Paris schwere Schaden verursachen kann.

Wir wollen als ”Extreme Ereignisse” lieber solche Ereignisse bezeichnen, die selten auftre-

ten und damit in den Auslaufern der Dichtefunktion der ZVA liegen. Die bisher genannten

Verteilungen beschreiben das Verhalten der Zufallsvariable ausgehend von Ihrem Erwar-

tungswert: Mittelwert, Standardabweichung, Schiefe, Kurtosis, ect.. Ihre Auslaufer reprasen-

tieren das Verhalten der Extremwerte jedoch relativ schlecht. Bei der Statistik extremer

Ereignisse machen wir uns ein Theorem zu Nutze, welches ahnlich wie beim Grenzwertsatz

der Statistik, asymptotisch fur große Stichproben, das statistische Verhalten der extremen

Ereignisse beschreibt. Leider wird die Existenz dieser asymptotischen Verteilungen fur Ex-

treme oft ignoriert. Da Extreme per Definition selten auftreten (in der Risikoabschatzung

soll sogar die Eintrittswahrscheinlichkeit fur eventuell nie da gewesene Ereignisse abgeschatzt

werden) ist die statistische Behandlung auf Grund der kleinen Stichprobe mit großen Fehlern

behaftet. Diese konnen ”extreme” groß werden, wenn Verteilungen einen extremalen Prozess

schlecht beschreiben.

Es gibt zwei Moglichkeiten, eine extremes Ereignis zu definieren. Wir nehmen eine univa-

riate, unabhangig und identisch verteilte ZVA an. Nun konnen wir a) ein extremes Ereignis

als das Maximum einer Stichprobe einer bestimmten Lange definieren, oder b) als eine Ereig-

nis, welches einen gewissen Schwellenwert (”threshold”) uberschreitet. Bei der Definition a)

werden die so definierten extremen Ereignisse uber die Generalisierte Extremwertverteilung

(GEV fur generalized extrem value distribution) beschrieben, bei b) folgen sie der Genera-

72


lisierten Paretoverteilung (GPD fur generalized Pareto distribution). Wir beschaftigen uns

also im Folgenden mit diesen zwei Ansatzen der Statistik extremer Ereignisse. Einen guten

und ausfuhlichen Einstieg in die Extremwertanalyse bietet das Buch von Stuart Coles [11].

Wir konnen hier nur einen Uberblick uber die grundlegenden Konzepte der Extremwertana-

lyse geben.

8.1 Die Generalisierte Extremwertverteilung

Der in diesem Abschnitt beschriebene Ansatz der Extremwertstatistik beruht auf dem Fisher-

Tippett Theorem, welches diese 1928 veroffentlichten, und welches 1943 von Gnedenko ma-

themetisch bewiesen wurde. Sie zeigten, dass nur 3 Klassen von Grenzverteilungen fur Extre-

me in großen Zufallsstichproben existieren. Anwendung fand es als erstes in der Hydrologie.

Gumbel, dessen Buch ”Statistics of Extremes” 1958 erschien, entwickelte die praktische Um-

setzung der Extremwertstatistik. Spater wurden diese 3 Klassen von Verteilungen (Frechet,

Gumbel und Weibull) zu der Generalisierten Extremwertverteilung, welche 3 Parameter hat,

zusammmengefasst.

Wir haben nun n unabhangige ZVA X1, . . . , Xn mit der gleichen, unbeschrankten Ver-

teilungsfunktion F (x) = P (Xi ≤ x). Bei der Extremwertstatik interessieren wir uns fur

das Maximum eines solchen Samples von ZVA Mn = max(x1, x2, . . . , xn). Gleiches kann fur

Minima hergeleitet werden, indem die X1, . . . , Xn durch −X1, . . . ,−Xn erzetzt werden. Die

Verteilungsfunktion fur das Maximum Mn ist gegeben durch durch F n(x), denn

P (Mn ≤ x) = P (X1 ≤ x, . . . , Xn ≤ x)

= P (X1 ≤ x) · . . . · P (Xn ≤ x)

= F n(x). (8.1)

Nehmen wir an, wir lassen n gegen unendlich gehen, dann geht also die Wahrscheinlichkeit,

dass das Maximum unter einem bestimmten Wert x fallt, gegen 0, und der Wert Mn gegen

unendlich. Somit ist diese Grenzverteilung fur n → ∞ nicht geeignet, uns Informationen

uber das Verhalten von Maxima großer Stichproben zu geben.

Es wurden jedoch von Fisher und Tippett 1928 gezeigt, dass die Folge der Mn mit einer

Folge von an und bn normiert werden kann, so dass F n(anx+bn) gegen eine Verteilungsfunkti-

on H(x) konvergiert. Das Fisher-Tippett-Theorem besagt also, dass die Verteilungsfunktion

73


fur das normierte Maximum Mn = Mn−bn

angegen eine bestimmte Verteilung konvergiert

P (Mn − bn

an≤ x) = P (Mn ≤ anx + bn)

= F n(anx + bn)

limn→∞

F n(anx + bn) = H(x). (8.2)

Dabei existierten genau 3 Klassen von Grenzverteilungen:

? Gumbel-Verteilung:

H(x) = e−e−x

, −∞ < x < ∞ (8.3)

? Frechet-Verteilung:

H(x) = e−xα

, fur 0 < x < ∞

H(x) = 0 fur x ≤ 0 (8.4)

? Weibull-Verteilung:

H(x) = e−(−x)α

, fur −∞ < x < 0

H(x) = 0 fur ≥ 0 (8.5)

Die drei Klassen von Grenzverteilungen konnen zu einer Verteilung, der Generalisierte

Extremwertverteilung (GEV) kombiniert werden, die lautet

H(x) = exp(−(1 + ζx − µ

β)1/ζ , (8.6)

wobei µ der Ortsparameter, β der Skalenparameter und ζ der alles entscheidende ”Shape”-

Parameter sind, wobei der ”Shape”-Parameter die Klasse der Verteilung bestimmt. Fur ζ > 0

ist die GEV vom Typ Frechet und fur ζ < 0 vom Typ Weibull. Fur ζ = 0 erhalten wir die

Grenzverteilung

limζ→0

H(x; µ, β, ζ) = exp(−exp(−x − µ

β)). (8.7)

Diese Verteilung ist vom Typ Gumbel und wird oft als DIE Extremwertverteilung oder auch

Fisher-Tippett Typ I Verteilung bezeichnet.

Die Klasse der Verteilungen, fur die das Fisher-Tippett Theorem gilt, ist relativ groß. Dabei

entscheidet die Form der Auslaufer der Verteilung der Xi, zu welcher Klasse die Grenzvertei-

lung der Maxima (Extreme) konvergiert. Fur solche Verteilungen, deren Auslaufer langsam

74


Abbildung 17 Beispiel fur GEV mit Parameter ζ = 3/4 (Frechet),ζ = 0 (Gumbel) und ζ = −3/4

(Weibull).

gegen Eins mit

1 − F (x) ∼ cx−1/ζ wenn x → ∞, (8.8)

konvergieren, erhalten wir die Klasse der Frechet-Verteilungen. c > 0 und ζ > 0. Eine

exemplarische Verteilung, die nicht nach oben begrenzt ist, ist die Pareto-Verteilung. Die

einfachste Form der Paretoverteilung ist definiert als

f(x) = axa−1 a > 0 x > 0. (8.9)

Sie beschreibt zum Beispiel die Intensitat von Unwetterschaden oder eben Einkommen. End-

scheidend ist hier, dass beliebig große Werte endliche, nicht verschwindend kleine Wahr-

scheinlichkeiten haben. Wir hatten auch bei der Student-t-Verteilung gesehen, dass bestimm-

te Momente nicht existieren, da die Dichtefunktion zu langsam gegen Null abfallen.

Fur solche Verteilung, die sehr enge Auslaufer haben, erhalten wir die Weibull-Verteilung.

Mathematisch ausgedruckt, erhalten wir dann die Weibull-Verteilung, wenn die Verteilungs-

funktion F einen endlichen Endpunkt wF bezitzt, an dem F (wF ) = 1 ist, wobei F (x) < 1

fur jeden anderen Punkt x < wF gilt, so dass

1 − F (wF − y) ∼ cy−1/ζ wenn y → 0. (8.10)

c > 0 und ζ < 0.

75


Fur die meisten Verteilungen konvergiert die Verteilung der Maxima gegen die Gumbel-

Verteilung. Dabei liegt der Endpunkt wF der Verteilung im Undendlichen, allerdings kon-

vergiert der Auslaufer der Verteilung schneller gegen Eins als im Frechet-Fall. Die genauere

Bedingung ist die ”von Mises”-Bedingung

d

dx

(1 − F (x)

f(x)

)

→ 0 wenn x → wF , (8.11)

wobei f(x) die PDF der Verteilungsfunktion F (x) ist. Eine Gumbel-Verteilung erhalten wir

z.B., wenn die Verteilungsfunktion F (x) die Normalverteilung, die Log-Normalverteilung, die

Gamma-, oder Weibull-Verteilung u.a. annehmen, also Verteilungen, deren Auslaufer weder

besonders eng, noch besonders breit sind.

Einige Eigenschaften der GEV seien hier noch erwahnt. Der Erwartungswert existiert nur

fur ζ < 1 und die Varianz nur fur ζ < 12

oder allgemeiner: das k-te Moment einer GEV-

verteilten ZVA existiert nur fur ζ < 1k. Erwartungswert und Varianz berechnen sich zu

E(X) = µ +β

ζ(Γ(1 − ζ) − 1) fur ζ < 1 (8.12)

V ar(X) =β2

ζ2

(Γ(1 − 2ζ) − Γ2(1 − ζ)

)fur ζ <

1

2. (8.13)

Fur den Grenzfall ζ → 0 vereinfacht sich dies zu

E(X) = µ + βγ mit γ = 0.5772 . . . (Euler-Konstante) (8.14)

V ar(X) =β2π2

6(8.15)

8.2 Die Uberschreitung eines Schwellenwerts und die Generalisierte

Pareto-Verteilung

Eine alternative Methode der Extremwertstatistik ergibt sich aus der Definition extremer

Ereignisse durch die Uberschreitung eines Schwellenwertes (threshold). Hierbei wird ein Wert

u gewahlt und alle die Ereignisse untersucht, die diesen Schwellenwert u uberschreiten. Zwei

Fragen stellen sich bei diese Definition:

I wieviele Ereignisse uberschreiten den Schwellenwert u in einer Stichprobe einer vorge-

gebenen Lange, bzw. wieviele so definierte extreme Ereignisse finden in einem vorge-

gebenen Zeitraum statt?

76


II wie sind die einen Schwellenwert uberschreitenden Werte verteilt?4

8.2.1 Die Generalisierte Pareto-Verteilung

Gegeben seien unabhangig, identisch verteilte ZVA Xi ∈ IDD mit der Verteilung F (x). Die

einen Schwellwert u uberschreitenden ZVA Yi = Xi−u mit Xi > u beschreiben die extremen

Ereignisse. Die Verteilungsfunktion von Yi lasst sich herleiten uber

Fu(y) = P (Y ≤ y|X > u)

= P (X − u ≤ y|X > u) = P (X ≤ u + y|X > u)

=P (u < X ≤ u + y)

P (X > u)=

F (u + y) − F (u)

1 − F (u), (8.16)

wobei benutzt wurde, dass P (Y |X) = P (X,Y )P (X)

ist.

Interessant wird es, wenn sich der Schwellenwert u dem oberen Endpunkt wF (der end-

lich oder unendlich sein kann) nahert. Dann nahert sich die Verteilungsfunktion Fu(y) der

Uberschreitungen (analog zur Grenzverteilung des normierten Maximums großer (n → ∞)

Stichproben der GEV) der Generalisierten Pareto-Verteilung (GPD)

Fu(y) ≈ G(y; σu, ζ) = 1 −(

1 + ζy

σu

)− 1

ζ

. (8.17)

D.h. fur einen genugend großen Schwellenwert u existieren ein σu (welches abhangig ist von

u) und ein ζ (unabhangig von u), so dass die GPD eine Naherung der Verteilung Fu(y) der

Uberschreitungen ist.

Die Analogie zwischen den beiden Anzatzen der Extremwertstatistik prazisierte Pickands

1975 indem er zeigte, dass solche σu und ζ immer dann existieren, wenn auch eine Normierung

des Maximums einer Stichprobe existiert (siehe Gl. 8.2), so dass die Verteilung des normierten

Maximums gegen die GEV konvergiert. Die ζ der GEV und der GPD sind in diesem Fall

identisch.

Wie bei der GEV konnen verschieden Klassen von Verteilungen in Abhangigkeit von dem

Parameter ζ unterschieden werden.

4zu I.: Die ZVA Anzahl k der so definierten extremen Ereignisse kann bei genugend grossem Schwellenwert

(so dass das Ereignis ausreichend selten ist), durch eine Poisson-Verteilung (siehe Kapitel 5.1.2) beschrie-

ben werden. zu II.: Bei genugend großem Schwellenwert besitzten die extremen Ereignisse (analog zur

GEV) eine Generalisierte Pareto-Verteilung.

77


1. Wenn ζ > 0 ist, dann ist die GPD nur fur 0 < y < ∞ definiert. Die Auslaufer verhalten

sich mit 1 − G(y; , σu, ζ) ∼ cy−1/ζ , der klassische Pareto-Auslaufer.

2. Wenn ζ < 0 ist, dann bezitzt die GPD einen oberen Endpunkt bei wG = σu/|ζ|, analog

zur Weibull-Verteilung der GEV.

3. Fur den Grenzfall ζ → 0 erhalten wir

G(y; σu, 0) = 1 − e−y

σu ,

welches der Exponential-Verteilung mit Erwartungswert E(Y ) = σu entspricht.

Wiederum ist die Existenz bestimmter Momente von ζ abhangig. Erwartungswert und

Varianz berechnen sich als

E(Y ) =σu

1 − ζfur ζ < 1 (8.18)

V ar(Y ) =σ2

u

(1 − ζ)2(1 − 2ζ)fur ζ <

1

2. (8.19)

8.2.2 Das Poisson-GPD-Modell

Um nun ein vollstandiges Modell der Extremwerte zu erhalten, mussen sowohl I. (der Prozess

der Uberschreitung von u) als auch II. (die Verteilung der Uberschreitungen) beschrieben

werden. Letzteres wird durch die GPD beschrieben, wahrend die Uberschreitung durch einen

Poisson-Punktprozess dargestellt werden. Dieser gibt die Verteilung der Zufallsvariable k, al-

so die Anzahl der Uberschreitungen bei gegebener Stichprobenlange n, an. Wir kombinieren

also die Information uber die Verteilung der Uberschreitungen mit der Anzahl k der Uber-

schreitungen, und zwar fur den einfachsten Fall, dass die dem ganzen zu Grunde liegende

ZVA unabhangig und identisch verteilt ist.

Wir habe also eine ZVA X ∈ IID. Fur einen grossen Schwellenwert u, also genugend kleine

Anzahl von Uberschreitungen k beschreibt k eine Poissonverteilte ZVA mit

fu(k) =λk

k!e−λ und E(k) = λ, (8.20)

wobei, wir erinnern uns, λ = np die mittlere Rate der Uberschreitung, n die Lange der

Stichprobe und p die Wahrscheinlichkeit fur das Eintreten des Ereignisses ”Uberschreitung”

ist.

78


Die Uberschreitungen definieren neue ZVA Yi ∈ IDD mit einer GPD (8.17). Die Kombi-

nation der beiden ergibt das Poisson-GPD-Modell. Dazu wahlen wir einen Wert x > u und

fragen nach der Wahrscheinlichkeit, dass das Maximum der k Uberschreitungen Yi kleiner

ist als x. Wir wollen also eine Verteilungsfunktion fur das Maximum der Uberschreitungen

bestimmen.

P (max0≤i≤k

≤ x) = P (k = 0) +

∞∑

n=1

P (k = n, Y1 ≤ x, . . . , Yn ≤ x)

= e−λ +∞∑

n=1

λne−λ

n!

(

1 −(

1 + ζx − u

σu

)−1/ζ)n

=

∞∑

n=0

λne−λ

n!

(

1 −(

1 + ζx − u

σu

)−1/ζ)n

= e−λ∞∑

n=0

(

λ − λ(

1 + ζ x−uσu

)−1/ζ)n

n!

= exp

(

−λ

(

1 + ζx − u

σu

)−1/ζ)

(8.21)

dabei wurde benutzt, dass∑∞

n=0xn

n!= ex die naturliche Exponetialfunktion ergibt.ist.

Erinnern wir uns, dass die GEV definiert war als

H(x; µ, β, ζ) = exp

(

−(1 + ζx − µ

β)1/ζ)

)

. (8.22)

Dann sind diese beiden Ausdrucke identisch, wenn

σu = β + ζ(u − µ) (8.23)

λ =

(

1 + ζu − µ

β

)−1/ζ

. (8.24)

Damit sind die GEV und die GPD Modelle vollig konsistent miteinander.

79

9 Kleine Einfuhrung in die Bayesische Statistik


ACHTUNG: Vorlaufige Version !

Zu Beginn ein Beispiel, welches eine der Fallen des in Kapitel 7 vorgestellten Hypothesen-

tests darstellt. Fur die normalverteilte ZVA X sei X1, . . . , Xn eine Stichprobe mit bekannter

Varianz σ = 1. Getestet werden soll die Nullhypothese H0 : µ = 0 gegen HA : µ 6= 0. Bei

einem Irtumsniveau α = 0.05 wurde die Nullhypothese verworfen werden, wenn√

nµ > 1.96,

wobei µ das arithmetrische Mittel der Stichprobe ist. In Wirklichkeit ist es unwahrschein-

lich, dass die Nullhypothese exakt zutrifft. Bedenken wir, dass statistischen Hypthesen immer

Modelle der Wirklichkeit zu Grunde liegen, die immer mit einer Unsicherheit verbunden

sind (Skalen). Ist also unsere Stichprobe sehr groß, d.h. die Daten genauer als die Unsi-

cherheit des Modells, so werden wir fast sicher die Nullhypothese verwerfen, auch wenn die

Differenz zwischen µ und µ vollig unbedeutend fur uns ist. Eine wesentlich angemessenere

Nullhypothese ware daher z.B. H0 : |µ| ≤ 10−3.

Warum dieses Beispiel? Bisher hatten wir Wahrscheinlichkeiten nur fur zufallige Ereignis-

se, die aus Experimenten resultieren, definiert. Sie wurden als relative Haufigkeiten interpre-

tiert, mit denen ein Ereignis in einem Zufallsexperiment auftritt. Daher wird diese Ansatz

der Statistik auch als ”frequentistisch” bezeichnet. In der Bayes-Statistik wird der Be-

griff der Wahrscheinlichkeit auf alle Aussagen, insbesondere auch auf die in der

”klassischen” Statistik festen Parameter, aber auch auf alle Aussagen, erweitert.

Dabei wird der Begriff der Wahrscheinlichkeit als Grad der Plausibilitat einer Aussage oder

auch als Unsicherheit eines Parameters verstanden.

Ein weiterer wichtiger Unterschied zur frequentistische Statistik ist die ”Subjektivitat”

der Bayesischen Statistik. In der Bayesische Statistik wird vorhandenes Wissen in

die Beurteilung einbezogen. Die Grundlegende Frage der Bayesischen Statistik ist die

vom Presbyterier Monch Thomas Bayes im 18. Jahrhundert gestellte Frage: ”Wie sollte eine

Person seinen vorhandenes Wissen andern, wenn neue Hinweise vorliegen?”

Betrachten wir drei weitere Beispielen (frei nach Berger 1985 [12]):

I Eine Person behauptet, sie kann unterscheiden, ob in ihrem Milchkaffee zuerst die

Milch eingeschuttet oder ob die Milch in den Kaffee eingeruhrt wurden.

II Eine Dirigentin behauptet am Notenbild die Partitionen von Mozart und Haydn un-

80


terscheiden zu konnen.

III Eine betrunkene Kommilitonin behauptet, dass sie das Ergebnis eines Munzwurfes

vorhersagen kann.

Wir konnen uns gut vorstellen, dass die Dirigentin kann, was sie behauptet. Der betrunkenen

Kommilitonin wurden wir erstmal raten, ihren Rausch auszuschlafen, und ob wir Person

A glauben, hangt davon ab. Im Rahmen der frequentistischen Statistik wurden wir nun

eine Reihe unabhangiger Experimente durchfuhren, ein Signifikanzniveau festlegen und auf

Grund der Ergebnisse die entsprechende Hypothese H0: ”Die Person hat recht.” ablehnen

oder akzeptieren. Die wesentliche Schwierigkeit besteht in der Aufstellung der Hypothesen

und der Formulierung der Testvariablen.

Jede Person fuhrt also ihr Konnen 10 mal vor. Person A schafft es, in 9 von 10 Experi-

menten richtig zu erkennen, ob die Milch zuerst in den Kaffee geschuttet wurde oder nicht.

Person B ordnet 9 von 10 Partitionen richtig zu und unsere betrunkene Kommilitonin schafft

es 9 von 10 Munzwurfen richtig vorherzusagen. Beurteilen wir also nach dem Experient die

Aussagen aller drei Personen gleich? NEIN! Wir wurden der Person A vielleicht widerwillig

zugestehen, dass sie tatsachlich schmeckt, dass die Milch in den Kaffee eingeruhrt wurde.

Der Dirigentin wurden wir sagen: ”Klar kannst Du Partitionen unterscheiden.” Und der be-

trunkenen Kommilitonin wurden wir trotzdem nicht glauben - sie hat ganz einfach tierisch

Gluck gehabt.

Das Beispiel soll verdeutlichen, dass das Einbinden von ”subjektivem” Vorwissen in eine

Entscheidung durchaus sinnvoll sein kann und vor allem vielmehr der Wirklichkeit einer

Person entspricht, die Entscheidungen fallen muss. Ob wir also willens sind unsere Meinung

auf Grund neuer Daten zu korrigieren, ist von unserer a-priori Einstellung - oder eben der a-

priori Wahrscheinlichkeit - abhangig. Wenn ich 100% sicher bin, dass sich ein Munzwurf nicht

vorhersagen lasst, wird mich auch kein Experiment vom Gegenteil uberzeugen. Umgekehrt,

wenn ich mir sehr unsicher bin, werde ich jeden neuen Hinweis gerne nutzen, um mir eine

Meinung zu bilden. In der Bayesischen Statistik wird jeder Hinweis genutzt, der dazu dient

die Unsicherheit uber eine Aussage oder einen Parameter zu reduzieren. Es muss also nicht,

wie in der frequentistischen Statistik, erst solange gewartet werden, bis eine ausreichend

große Stichprobe zur Verfugung steht. So konnen Bayesische Netzwerke lernen und werden

zum Beispiel bei der Konstruktion von Spam-Filtern eingesetzt. Aus die nervige Office-

81


Buroklammer bei MS-Word soll Bayes benutzen.

9.1 Nicht-frequentistische Wahrscheinlichkeitsrechnung

Um das Bayes Theorem formal einzufuhren, mussen wir uns nochmal mit Wahrscheinlich-

keiten insbesondere mit bedingten Wahrscheinlichkeiten, befassen. Ausgangspunkt sei ein

Ereignisraum E, der in eine Menge sich gegenseitig ausschließender Ereignisse A1, . . . , An,

bzw. B1, . . . , Bm unterteilt ist. A und B beschreiben Ereignisse, welche wir jetzt o. E. d. A.

auch durch Parameter oder Aussagen ersetzen konnen.

Fur die Wahrscheinlichkeiten gelten folgende Axiome (Kolmogorov, 1933):

1. Die Wahrscheinlichkeit P(A) ist positiv semidefinit

P(A) ≥ 0 (9.1)

2. Das Ereignis E (Ereignisraum) hat die Wahrscheinlichkeit 1

P(E) = 1 (9.2)

3. Sind A und B zwei sich ausschließende Ereignisse, so ist die Wahrscheinlichkeit, daß

A oder B eintreten, geschrieben als das Ereignis (A + B)

P(A + B) = P(A) + P(B) (9.3)

Schließen sich die Ereignisse A und B nicht aus, so lasst Ereignis (A + B) sich aufspalten in

drei sich ausschließende Ereignisse

(A + B) : AB + AB + AB (9.4)

mit der Aufteilung des Ereignisses A

A : AB + AB (9.5)

und entsprechend fur B ergibt sich fur die Wahrscheinlichkeit P(A + B)

P(A + B) = P(AB + AB + AB)

= P(AB) + P(AB) + P(AB)

= P(A) − P(AB) + P(B) − P(AB) + P(AB)

= P(A) + P(B) − P(AB) (9.6)

82


Die ist das verallgemeinterte Summengesetzt fur Wahrscheinlichkeiten. Die Kettenregel fur

Wahrscheinlichkeiten lautet

P (AB) = P (A|B)P (B) = P (B|A)P (A). (9.7)

P (A|B) ist die auf B konditionierte oder bedingte Wahrscheinlichkeit von A. Nehmen wir

unser Beispiel I.: A sei die Aussage der Person, C sei das Vorwissen uber die Person, namlich

die Tatsache, dass es sich um eine Dirigentin handelt. P (A|C) ist also die Plausibilitat der

Aussage A gegeben die die Tatsache, dass die Aussage von einer Dirigentin gemacht wurde.

Bei mehreren sich nicht notwendigerweise ausschließenden Aussagen A1, A2, A3 lasst sich

die Kettenregen mehrfach anwenden und wir erhalten

P (A1A2A3) = P (A3|A1A2)P (A1A2) = P (A3|A1A2)P (A2|A1)P (A1). (9.8)

Was konnen wir nun mit diesen Wahrscheinlichkeiten anfangen, wenn A und B beliebige

Aussagen, Ereignisse oder Parameter sind. Nehmen wir das Ereignis A, dass auch geschrieben

werden kann als A = AB + AB. Die Wahrscheinlichkeit fur dieses Ereignis

P (A) = P (AB + AB) = P (AB) + P (AB).

Seien nun Bi, i = 1, . . . , n sich ausschließende Ereignisse, so folgt

P (A) =

n∑

i=1

P (ABi) =

n∑

i=1

P (A|Bi)P (Bi).

Somit kann also die Wahrscheinlichkeit von A ermittelt werden als Summe uber die Wahr-

scheinlichkeiten im Zusammenhang mit den sich ausschließenden Ereignissen Bi.

9.2 Bayes-Theorem fur Wahrscheinlichkeiten - der diskrete Fall

Aus Gleichung (9.7) lasst sich das Bayes-Theorem fur zwei Ereignisse herleiten:

P (A|B) =P (B|A)P (A)

P (B). (9.9)

P (A|B) heißt die Posteriori-Wahrscheinlichkeit, P (A) die Priori-Wahrscheinlichkeit

und P (B|A) die Likelihood. Wir konnen also jetzt als A die Aussage der Dirigentin ein-

setzen und als B das Ergebnis ihrer 10 Versuche. Die Wahrscheinlichkeit, die wir suchen ist

die Posteriori-Wahrscheinlichkeit, namlich gegeben das Experiment, dass wir durchgefuhrt

83


haben, wie hoch ist die Plausibilitat der der Aussagen A nachdem wir unsere Experiment

durchgefuhrt haben, wenn wir vor dem Experiment der Aussagen A eine Wahrscheinlichkeit

von P (A) (Priori-Wahrscheinlichkeit) zugeordnete haben. Die Likelihood gibt die Wahr-

scheinlichkeit des Ausgangs des Experiments unter der Bedingung an, dass die Aussage der

Dirigentin A zutrifft P (B|A) und wird aus den Daten bestimmt, oder anders formuliert ist

die Wahrscheinlichkeit der Daten B gegeben die Aussage A.

Existieren nun n disjunkte und den Ereignisraum erschopfende Aussagen A1, . . . , AN , so

lautet das Bayes-Theorem

P (Ai|B) =P (B|Ai)P (Ai)∑

i P (B|Ai)P (Ai)(9.10)

Die Normiertung c =∑

i P (B|Ai)P (Ai) wird jedoch haufig weggelassen, so dass das Bayes-

Theorem uber die Proportionalitatsbedingung

P (Ai|B) ∝ P (B|Ai)P (Ai)

Posteriori ∝ Likelihood ∗ Priori. (9.11)

Doch wie sehen diese Wahrscheinlichkeiten aus und wie werden sie bestimmt. Die Priori-

Wahrscheinlichkeiten wurden wir aus unserem Vorurteil ableiten. Dazu folgt spater mehr,

aber hier wurden wir eine Zahl zwischen 0 und 1 wahlen, die unsere Einschatzung der Plausi-

bilitat der Aussage widerspiegelt. Die Likelihood P (B|A) bestimmen wir aus unseren Daten,

die ergab, dass k = 9 von 10 Versuchen die Aussage bestatigt haben. k ist Binominalverteilt

mit den Parametern n = 10 und p. Der Parameter p gehort zur Aussage A, denn wir suchen

ja die von A bedingte Wahrscheinlichkeit. Die Aussage A musste also besser spezifiziert wer-

den (z.B. mit einer Wahrscheinlichkeit von p = 0.8 im Falle der Dirigentin). Die Likelihood

ware also

P (B|A) =

(n

k

)

pk(1 − p)k. (9.12)

Den Normierungsfaktor P (B) konnen wir eventuell bestimmen aus dem Integral uber alle

moglichen Aussagen, in unserem Fall aller moglichen pi mit

P (B) =

N∑

i=1

B(k|n, pi)π(pi), (9.13)

wobei π die PDF des Parameter p ist und die i = 1, . . . , N andeuten sollen, dass wir den p dis-

krete Werte zuordnen. Dies erfordert jedoch, dass wir nicht nur die Priori-Wahrscheinlichkeit

und damit p festlegen mussen, sondern wir mussen eine Verteilung der p festlegen. Dazu mehr

im Kapitel 9.4.4.

84


9.3 Bayesische Statistik fur Wahrscheinlichkeitsdichten

Die Rechenregeln fur die Wahrscheinlichkeiten und das Bayes-Theorem lassen sich naturlich

auch fur Wahrscheinlichkeitsdichten formulieren. Nehmen wir eine diskrete bivariate ZVA

~X = (X, Y ), wobei X ∈ [x1, . . . , xn] und Y ∈ [y1, . . . , ym] (Ereignisraume). Die bivariate

ZVA ~X hat die Dichteverteilung p(x, y). Als Randverteilung pX(x) wird die Summe der

bivariaten Dichteverteilung uber alle moglichen Ereignisse y ∈ [y1, . . . , ym] definiert

pX(x) =m∑

i=1

p(x, yi) =m∑

i=1

p(x|yi)pY (yi), (9.14)

wobei wir die Kettenregel fur Dichtefunktionen benutzt haben

p(x, y, z) = p(x|y, z)p(y, z) = p(x|y, z)p(y|z)p(z). (9.15)

Analog gilt fur eine kontinuierliche bivariate ZVA ~X = (X, Y ), mit X ∈ und Y ∈

pX(x) =

∫ ∞

−∞p(x, y)dy =

∫ ∞

−∞p(x|y)pY (y)dy. (9.16)

Dies lasst sich naturlich auf beliebige multivariate ZVA erweitern. Die Berechnung der Rand-

verteilung, also das Integrieren uber den vollstandigen Ereignisraum einer oder mehrerer

Komponente der multivariaten ZVA heisst auch Marginalisierung.

Wir mochten als nun mit der Bayesische Statistik einen Parameter θ schatzen, wobei

uns eine Realisierung der ZVA X (Daten, Beobachtungen, Ergebnisse eines Modells, ect.)

x vorliegt. Die Frage also, die wir beantworten wollen ist, wie sieht die Verteilung des zu

schatzenden Parameters gegeben die Beobachtung x und unser Vorwissen uber den Parame-

ter π(θ) aus. Das Bayes-Theorem fur Wahrscheinlichkeitsdichten lautet dann

π(θ|x) =l(θ)π(θ)

∫π(x|θ′)π(θ′)dθ′

(9.17)

π(θ|x) ∝ l(θ) π(θ) (9.18)

Posteriori-Dichte ∝ Likelihood ∗ Priori-Dichte. (9.19)

Die Likelihood l(θ) = π(x|θ) sagt aus, dass ein θ fur welches die Likelihood l(θ) groß ist,

wahrscheinlicher (”more likely”) ist als eine θ fur das die Likelihood klein ist.

Doch wie bekommen wir nun all die Wahrscheinlichkeitsdichten, also die Priori-Dichte, die

Likelihood und die Normierung φ(x) =∫

π(x|θ′)π(θ′)dθ′, in der ja wiederum die Likelihood

85


und die Priori-Dichte stecken? Um es vorweg zu nehmen: Das ganze ist verdammt kompli-

ziert! So lasst sich zwar ein Problem in Rahmen der Bayesische Statistik relativ anschaulich

formulieren, jedoch nur in den einfachsten Fallen tatsachlich (analytische) losen. Das war

auch der Grund weswegen die Bayesische Statistik erst in den letzten 20-30 Jahren uber-

haupt vermehrt zur Anwendung kommt. Denn heute existieren numerische Methoden, mit

denen sich die Priori-Dichten und die Likelihood relativ leicht bestimmen lassen (allerdings

manchmal noch mit recht großem Rechenaufwand). Eine sehr wichtige numerische Methode

zur Schatzung der unbekannten Dichten ist die ”Markov Chain Monte Carlo” Modellierung.

Dazu vielleicht spater noch ein Paar Worte.

9.4 Die Priori-Dichte

Zuerst wenden wir uns Methoden zur Schatzung von Priori-Dichte zu. Die Priori-Dichte soll

die Information ausdrucken, die bereits uber den Parameter θ existiert. Sie soll aber auch nur

genau diese beinhalten und nicht mehr, denn sonst wurde wir unser Ergebnis verfalschen.

9.4.1 Nichtinformative Priori-Dichten

Existiert kein Vorwissen uber den Parameter θ so werden sogenannte ”nichtinformative

Priori-Dichten” bestimmt. Fur einen diskreten Parameter θ ∈ Θ aus einem Ereignisraum

Θ min n Elementen ist es plausible, π(θi) so zu wahlen, dass kein θi bevorzugt wurde, was

bedeutet, dass θi gleichverteilt mit π(θi) = 1n

sein muss.

Fur einen kontinuierlichen Parameter θ ∈] − ∞,∞[ ist dann die nichtinformative Priori-

Dichte gegeben als

π(θ) ∝ c fur −∞ < θ < ∞.

c > 0 ist eine Konstante. Da∫∞−∞ π(θ)dθ 6= 1 ist, ist dies eigendlich keine Priori-Dichte. Es

lasst sich jedoch uber die Likelihood sicherstellen, dass die Normierungsbedingung zumindest

fur die Posteriori-Dichte∫∞−∞ π(θ|x)dθ = 1 gegeben ist.

Andere nichtinformative Priori-Dichte lassen sich uber Transformationen ableiten. Ist z.B.

der unbekannte Parameter eine Varianz θ = σ2 > 0, so lasst sich diese transformieren auf

θ′ = ln σ2.

86


Fur π(θ′) wird wiederum die Gleichverteilung benutzt und mit der Transformation dθ′

dσ2 = 1σ2

ergibt sich, dass die Priori-Dichte fur die Varianz lautet

π(θ) ∝ 1

σ2fur 0 < θ < ∞.

Ein Problem dabei ist, dass diese nicht mehr gleichverteilt ist, was bedeutet, dass die Form

der nichtinformativen Priori-Dichte nicht invariant unter Transformation ist.

Es gibt verschiedene Methoden, nichtinformative Priori-Dichten zu bestimmen, darauf will

ich hier nicht weiter eingehen. Außerdem gibt es viele Pros und Contras bezuglich nichtin-

formativer Priori-Dichten (siehe Berger 1985, p. 87 [12]).

9.4.2 Priori-Dichte mit Maximum Entropie Methode

Mit der Methode der Maximum Entropie lassen sich Priori-Dichten finden, die zwar die ge-

gebene Information beinhalten, aber ansonsten die Unsicherheit maximieren. Die Methode

sei hier nun kurz fur diskrete Parameter skizziert. Sei θ ein diskreter Parameter mit Ereig-

nisraum Θ und einer Wahrscheinlichkeitsdichte π(θ). Die Entropie der Dichtefunktion ist

definiert als

En(π) = −∑

Θ

π(θi)log π(θi).

Sie misst die Unsicherheit einer Dichtefunktion. Das vorhandene Priori-Wissen uber den

Parameter wird in der Regel uber eine Beschrankung der diskreten Dichtefunktion π(θ)

eingebunden der Form

Eπ[gk(θ)] =∑

i

π(θi)gk(θi) = µk, k = 1, . . . , m.

Die Losung dieses Maximierungsproblems sprengt selbst den Rahmen von [12], welches eins

der ausfuhrlichsten Bucher zu Bayesischer Entscheidungstheorie ist. Begnugen wir uns damit,

denn die Maximum Entropie Methode fur kontinuierliche Parameter ist noch weit kompli-

zierter. Trotzdem ist die Methode gerade in Fallen, bei denen vorhandene Information sich

in Form von Einschrankungen der Momente der Priori-Dichten ausdrucken lassen, enorm er-

folgreicht und bildet die Grundlage fur viele weitere Techniken, die haufig angewand werden.

9.4.3 Einschrankung der Priori-Dichten

Eine Moglichkeit, die Bestimmung der Priori-Dichten zu erleichten ist die Einschrankung auf

bestimmte Klassen von Dichtefunktionen.

87


1. Einschrankung der Priori-Dichten auf gegebene funktionale Form: Die Fa-

milie der moglichen Priori-Dichten Γ, also Auswahl der Priori-Dichten wird auf eine

bestimmte funktionale Form eingeschrankt

Γ = π : π(θ) = g(θ|~λ), ~λ ∈ Λ.

~λ ist der Parametervektor der Dichtefunktion g und heißen in diesem Fall Hyperpa-

rameter der Priori-Dichte. Die Wahl der Priori-Dichte wird also eingeschrankt auf die

Bestimmung der Hyperparameter. Diese wiederum lassen sich u.U. uber die Randver-

teilung der Daten (dazu mehr im nachsten Abschnitt) bestimmt werden.

2. Einschrankung der Priori-Dichten auf gegebene strukturelle Form: Dies be-

trifft die Bestimmung der Priori-Dichte fur multivariate Parameter Θ = (θ1, . . . , θn)T .

Die strukturelle Einschrankung bezieht sich dann auf den Zusammenhang zwischen

den Komponenten des Parameters.

3. Einschrankung der Priori-Dichten auf die Umgebung einer ausgewahlten

Priori-Dichte: Solche Priori-Dichten werden gewahlt um die Robustheit der Ergeb-

nisse zu testen. Ist eine Priori-Dichte π(θ)0 ausgewahlt, so wird eine ε-kontaminierte

Klasse von Verteilungen definiert als

Γ = π : π(θ) = (1 − ε)π0(θ) + εq(θ), q ∈ D,

wobei D die Klasse aller moglchen Konaminationen beschreibt.

Die Punkte 2. und 3. sich hier nur der Vollstandigkeit angefuhrt. Wir beschranken uns im

Folgenden darauf, dass wir die Wahl der Priori-Dichte, wenn uber auf, auf eine funktionale

Form einschranken.

9.4.4 Die Randverteilung zur Bestimmung der Priori-Dichte

Eine sehr wichtige Große zur Bestimmung der Priori-Dichte ist die Dichtefunktion der Rand-

verteilung von X, also die Randdichte m(x) der ZVA X (Daten).

Wenn X also die Dichtefunktion f(x|θ) besitzt und θ die Wahrscheinlichkeitsdichte π(θ),

dann lasst sich die gemeinsame Dichte von X und θ schreiben als Integral uber den Parameter

θ mit

h(x, θ) = f(x|θ)π(θ)

88


Wir definieren die Dichtefunktion der Randverteilung (Randdichte) bezuglich der Priori π(θ)

als

m(x|π) =

∫

Θ

f(x|θ)π(θ)dθ =

∫

Θ

f(x|θ)dF π(θ).

Die Randdichte m(x|π) ≡ m(x) ist die Dichteverteilung, mit der tatsachlich die ZVA X (die

Daten) auftreten.

Die Randdichte ist deshalb so interessant, weil sie die Wahrscheinlichkeitsdichte beschreibt,

mit der die ZVA Daten X tatsachlich auftritt. Die Randdichte kann zum Beispiel dazu be-

nutzt werden, die Annahme uber die Priori π(θ) oder das Modell, welches durch die Like-

lihood reprasentiert wird, zu testen. Denn wenn die Randdichte m(x), fur das tatsachlich

beobachtete x klein ist, so lieferte das Modell keile gute ”Vorhersage” der Daten. Die Wahl

der Priori-Dichte oder der Likelihood sind somit zumindest suspekt.

9.5 Die Maximum-Likelihood Typ II - Methode

Die Randdichte m(x|π) beschreibt also die Plausibilitat der Daten bezuglich einer bestimm-

ten Wahl von Priori-Dichte und Modell. Bei gegebenen Daten x bedeutet dies, dass wenn

die Randdichte bezuglich der Priori-Dichte π1 großer ist als bezugilch π2, also

m(x|π1) > m(x|π2),

dass die Daten die Priori π1 mehr unterstutzen als π2. Die Randdichte m(x|π) kann also als

Likelihood-Funktion der Priori-Dichte dienen.

Der naturliche Weg also, die Priori-Dichte zu bestimmen, ware also die maximierung der

Likelihood m(x|π) bezuglich π. Die Maximum-Likelihood Typ II Priori-Dichte π ist also die

Priori-Dichte, fur die gilt

m(x|π) = supπ∈Γ

m(x|π).

Γ beschreibt eine eventuelle Einschrankung der Priori-Dichten, welche die ML Methode

sehr vereinfachen kann. Beschreibt Γ eine funktionale Beschrankung

Γ = π : π(θ) = g(θ|~λ), ~λ ∈ Λ,

dann wird die Maximierung bezuglich der Hyperparameter ~λ durchgefuhrt

supπ∈Γ

m(x|π) = sup~λ∈Λ

m(x|g(θ|~λ)).

89


9.6 Die Momente-Methode

Anstatt der Maximum-Likelihood Typ II - Methode kann auch die so genannte Momente-

Methode benutzt werden, um eine auf eine funktionale Form eingeschrankte Priori-Dichte

zu bestimmen. Dabei werden die Momente der Randdichte in Verbindung gebracht mit den

Momenten der Priori-Dichte. Erstere kann z.B. aus den Daten geschatzt werden.

9.7 Konjugierten Priori-Dichten und die Posteriori

Ziel der Bayesische Statistik ist die Bestimmung der Posteriori-Dichte, welche resultiert aus

der Verknupfung des Vorwissens mit der Information aus den Daten (welche in der Regel

uber ein Modell geschieht, welches die Daten mit dem Parameter verbindet, der Likelihood).

Diese Posteriori dient dann als Grundlage aller Entscheidungen und Schlussfolgerungen. Die

Randdichte m(x) und die Posteriori sind jedoch i.A. nicht leicht zu berechnen. In vielen

Fallen existieren nur numerische Losungen.

Es ist jedoch moglich, die Klasse der Priori-Dichte so zu beschanken, dass die Klasse

der Posteriori-Dichte bekannt ist. Dies geschieht mit Hilfe konjugierter Familien von

Wahrscheinlichkeitsdichten. Sei F eine Klasse von Dichtefunktionen f(x|θ) (Likelihood).

Eine Klasse von Priodi-Dichten P heisst konjugierte Familie von F , wenn die Posteriori-

Dichte π(θ|x) in der gleichen Klasse P wie die Priori-Dichte ist, und zwar fur alle x ∈ X

und alle π ∈ P.

Das bedeutet, dass wir die Priori aus der Familie der zur Likelihood konjugierten Familie

wahlen, und die Posteriori dann der selben konjugierten Klasse angehort. Ist die Likelihood

Binominalverteilt, so ist die entsprechende konjugierte Dichte aus der Familie der Beta-

Verteilung. Die zur Normalverteilung konjugierten Dichten sind aus der Familie der Gam-

maverteilung oder der Normalverteilung. Die Poisson-Verteilung hat als konjugierte Dichte

die Gamma-Verteilung.

Die Anwendung konjugierter Priori-Dichten hat den angenehmen Effekt, dass nur die

Parameter bezuglich neuer Daten ”updated” werden, die funktionale Form verandert sich

nicht. Es bleibt naturlich die Frage, ob konjugierte Dichten existieren, die eine genugend

genaue Naherung der Priori darstellen.

90


9.8 Anwendungen Bayesische Statistik

9.8.1 Punktschatzung eines Parameters

Wie in der frequentistischen Statistik seien wir an einem Schatzer des Parameters θ in-

teressiert und mochten naturlich auch ein Maß fur die Gute der Schatzung erhalten. Die

Bayesische Statistik gibt uns die Posteriori-Dichte von θ an, π(θ|x), die wesentlich mehr

Information enthalt als eine Punktschatzung und deren Gute.

Erinnern wir uns an die Maximum Likelihood Methode zur Schatzung von Parametern

aus einer Stichprobe. Die zu maximierende Likelihood war die Dichte l(~λ) = f(x|~λ). Der

analoge Bayesische Schatzer ist der Generalisierte Maximum Likelihood Schatzer. Der Gene-

ralisierte Maximum Likelihood Schatzer ist das θ, welches die Posteriori-Dichte maximiert.

Dies entspricht dem Wahrscheinlichten Wert fur θ bei gegebenden Daten x und Priori π(θ).

Anstatt des Modus ließen sich naturlich auch noch Erwartungswert und Median angeben.

Die Gute der Schtzunge bestimmt sich auch der Varianz der Posteriori, der Posteriori

Standardabweichung. Die Posteriori Standardabweichung ist meistens (nicht immer!) kleiner

als die Standardabweichung des klassischen Schatzers σ, da die Einbindung von Vorwissen

die Unsicherheit der Schtzung reduziert.

Eine andere Moglichkeit um die Gute einer Schatzung anzugeben ist die Angabe von Mu-

tingsintervallen. In der Bayesischen Statistik heißen diese Kredibilitatsintervalle und lassen

sich direkt aus der Posteriori ableiten. Definiert sind fur den konzinuierlichen Fall als das

Intervall, in dem der Parameter θ mit einer Wahrscheinlichkeit 1 − α ist

P (C|x) =

∫

C

π(θ|x)dθ ≥ 1 − α.

9.8.2 Multivariate Parameterschatzung

9.8.3 Test statistischer Hypothesen

9.8.4 Bayesiche Entscheidungstheorie

91

Literatur

Literatur

[1] Kolmogoroff A., Grundbegriffe der Wahrscheinlichkeitsrechnung, Berlin, Springer, 1933

[2] Schonwiese, C.D., Praktische Statistik, Gebr. Borntraeger, Berlin 1985

[3] Brandt, S., Datenanalyse, BI Wissenschaftsverlag 1981

[4] Kreyszig, E., Statistische Methoden und ihre Anwendungen, Vandenhoeck und Ru-

precht, 1975

[5] Taubenheim, J., Statistische Auswertung geopysikalischer und meteorologischer Daten,

Leipzig, Akademische Verlagsgesellschaft, 1979 (wird nicht mehr aufgelegt)

[6] Press, W.H., Flannery, B.P., Teukalsky, S.A., Vetterling W.T., Numerical Recipes, Cam-

bridge University Press, 1986

[7] Schuster, Deterministic Chaos, An Introduction, Physik - Verlag, Weinheim

[8] Morrison, D.F., Multivariate Statistical Methods, McGraw Hill Series in Probability

and Statistics

[9] Anderson, T.W., An Introduction to Multivariate Statistical Analysis, 2nd Edition, J.

Wiley & Sons,

[10] Proc. Int. Math. Congress, Toronto 1924

[11] Coles, S., An Introduction to Statistical Modelling of Extreme Values. Springer Series

in Statistics, London 2001, 208p.

[12] Berger, J.O., Statistical Decision Theory and Bayesian Analysis, 2nd Edition, Springer

1985

92

Einf uhrung in die Statistik - Meteorologisches Institut · multivariate Statistik zu nden. Ich...

Documents

Transcript of Einf uhrung in die Statistik - Meteorologisches Institut · multivariate Statistik zu nden. Ich...