Einf uhrung in die Statistik - Meteorologisches Institut · multivariate Statistik zu nden. Ich...
Transcript of Einf uhrung in die Statistik - Meteorologisches Institut · multivariate Statistik zu nden. Ich...
Meteorologisches Institut der Universitat Bonn
Skript zur Vorlesung
Einfuhrung in die Statistik
Wintersemester 2004/2005
Andreas Hense
Thomas Burkhardt
Petra Friederichs
Version: 31. Oktober 2005
1
Inhaltsverzeichnis
1 Einfuhrung 1
2 Elemente der Wahrscheinlichkeitsrechnung 4
2.1 Ereignisse und Stichprobenraum . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Begriff der Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4 Unabhangige Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3 Zufallsvariable, Verteilung von Zufallsvariablen 8
3.1 Diskrete Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.2 Verteilung einer diskreten ZVA . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.3 Univariate reelle kontinuierliche ZVA’s . . . . . . . . . . . . . . . . . . . . . 9
3.4 Multivariate reelle ZVA’s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.5 Verallgemeinerte ZVA’s, Funktionen von ZVA’s . . . . . . . . . . . . . . . . 11
3.6 Realisierungen von ZVA’s . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.7 Momente einer Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . 15
3.7.1 Reduzierte Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . 17
3.8 Modus, Median und Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4 Erwartungswert einer Funktion einer ZVA 19
4.1 Momente multivariater ZVA’s . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5 Theoretische Wahrscheinlichkeitsdichteverteilungen 22
5.1 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.1.1 Binominalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.1.2 Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.2 Kontinuierliche Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.2.1 Gaussverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.2.2 Zentraler Grenzwertsatz der Statistik . . . . . . . . . . . . . . . . . . 30
5.2.3 Die χ2-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.2.4 Die Student-t-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.2.5 Die Fisher-F -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.3 Weitere Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.3.1 Log-Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.3.2 Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.3.3 Weibullverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.3.4 Beta-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.3.5 Multivariate Normalverteilung . . . . . . . . . . . . . . . . . . . . . . 41
6 Stichproben von ZVA 43
6.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.2 Schatzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
6.3 Schatzung der pdf, Haufigkeitsverteilung . . . . . . . . . . . . . . . . . . . . 45
6.4 Schatzer der Verteilungsfunktion,
Empirische Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . 46
6.5 Schatzung des Erwartungswertes . . . . . . . . . . . . . . . . . . . . . . . . 47
6.6 Schatzung der Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
6.7 Maximum Likelihood Methode . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6.8 Ubung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6.9 Verteilungen von Schatzern . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
6.9.1 Verteilung eines Erwartungswertschatzers . . . . . . . . . . . . . . . . 52
6.9.2 Verteilung eines Varianzschatzers - χ2 Verteilung . . . . . . . . . . . 52
6.9.3 Beziehung zwischen Erwartungswert- und Varianzschatzer -
Student - t Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.9.4 Beziehung zwischen 2 Varianzschatzern - Fisher-F Verteilung . . . . . 55
6.10 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.10.1 Konfidenzintervall fur den Mittelwert bei bekannter Varianz einer
normalverteilten GG . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6.10.2 Konfidenzintervall fur den Mittelwert einer normalverteilten GG bei
geschatzter Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
6.10.3 Konfidenzintervall fur den Schatzer der Varianz einer NV GG . . . . 58
7 Prufung statistischer Hypothesen, Tests 59
7.1 Allgemeine Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
7.2 Mittelwerttest bei einer NV GG mit bekannter Varianz . . . . . . . . . . . . 63
7.3 Vergleich der Mittelwerte zweier NV mit identischer Varianz . . . . . . . . . 65
7.4 Vergleich der Varianz zweier NV . . . . . . . . . . . . . . . . . . . . . . . . . 67
7.5 Anpassungstests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.5.1 Der χ2-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
7.5.2 Kolmogoroff - Smirnov Test . . . . . . . . . . . . . . . . . . . . . . . 70
8 Statistische Untersuchung extremer Ereignisse 72
8.1 Die Generalisierte Extremwertverteilung . . . . . . . . . . . . . . . . . . . . 73
8.2 Die Uberschreitung eines Schwellenwerts und die Generalisierte Pareto-Verteilung 76
8.2.1 Die Generalisierte Pareto-Verteilung . . . . . . . . . . . . . . . . . . 77
8.2.2 Das Poisson-GPD-Modell . . . . . . . . . . . . . . . . . . . . . . . . 78
9 Kleine Einfuhrung in die Bayesische Statistik 80
9.1 Nicht-frequentistische Wahrscheinlichkeitsrechnung . . . . . . . . . . . . . . 82
9.2 Bayes-Theorem fur Wahrscheinlichkeiten - der diskrete Fall . . . . . . . . . . 83
9.3 Bayesische Statistik fur Wahrscheinlichkeitsdichten . . . . . . . . . . . . . . 85
9.4 Die Priori-Dichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
9.4.1 Nichtinformative Priori-Dichten . . . . . . . . . . . . . . . . . . . . . 86
9.4.2 Priori-Dichte mit Maximum Entropie Methode . . . . . . . . . . . . . 87
9.4.3 Einschrankung der Priori-Dichten . . . . . . . . . . . . . . . . . . . . 87
9.4.4 Die Randverteilung zur Bestimmung der Priori-Dichte . . . . . . . . . 88
9.5 Die Maximum-Likelihood Typ II - Methode . . . . . . . . . . . . . . . . . . 89
9.6 Die Momente-Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
9.7 Konjugierten Priori-Dichten und die Posteriori . . . . . . . . . . . . . . . . . 90
9.8 Anwendungen Bayesische Statistik . . . . . . . . . . . . . . . . . . . . . . . . 91
9.8.1 Punktschatzung eines Parameters . . . . . . . . . . . . . . . . . . . . 91
9.8.2 Multivariate Parameterschatzung . . . . . . . . . . . . . . . . . . . . 91
9.8.3 Test statistischer Hypothesen . . . . . . . . . . . . . . . . . . . . . . 91
9.8.4 Bayesiche Entscheidungstheorie . . . . . . . . . . . . . . . . . . . . . 91
1 Einfuhrung
1 Einfuhrung
Warum wird in der Meteorologie Statistik betrieben? Meteorologie war und ist immer eine
datenorientierte Wissenschaft gewesen: dies ist in der Klimatologie offensichtlich, wird in der
Synoptik jeden Tag betrieben, jedes Grenzschichtexperiment lebt von den gemessenen Daten
und auch jedes numerische Modell stellt nichts anderes dar, als einen großen Komplex, mit
dem erstmal viele Daten erzeugt werden, die dann im nachhinein ausgewertet werden mussen.
Viele Daten – ob raumlich oder zeitlich verteilt – stehen an und mussen verarbeitet und
komprimiert werden, um zu einer Aussage zu kommen. Dies ist die Aufgabe der statistischen
Analyse (Beschreibende Statistik).
In der Vorlesung werden die Grundlagen der mathematischen, beschreibenden Statistik
– zunachst fur eine skalare Große (univariate Statistik) – vorgestellt und ihre Anwendung
auf Daten diskutiert. Ein Teil der Vorlesung soll der praktischen Anwendung der statisti-
schen Analyse mit Hilfe von PC’s und Programmen gewidmet sein. Zu Beginn der Vorlesung
werden die grundlegenden Begriffe wie Wahrscheinlichkeit, Zufallsvariable, Wahrscheinlich-
keitsdichtefunktionen u.a. eingefuhrt. Dann folgen die Grundlagen der Stichprobenentnahme,
das Schatzproblem, die Beurteilung der Qualitat der statistischen Analyse (Konfidenz) und
die Absicherung von Annahmen oder Hypothesen durch die (beliebten) statistischen Tests.
Man sollte sich aber im klaren sein, daß diese Begriffe weit uber die beschreibende Sta-
tistik hinaus Bedeutung haben. Die eigentliche Statistik setzt ein – fur meine Begriffe – bei
stochastischen dynamischen Systemen, der statistischen Behandlung nichtaufgeloster Bewe-
gungsformen in numerischen Modellen, der Bestimmung dynamisch konsistenter Analysen
meteorologischer Felder aus unregelmaßig in Raum und Zeit verteilten stochastischen Be-
obachtungen und vieles mehr. Aber alle diese Punkte kann man nicht verstehen, wenn die
Grundlagen der Statistik nicht vorliegen. Es ware deshalb auch uberheblich, die beschreiben-
de Statistik als Kinkerlitzchen oder reine Fingerubung zu verstehen. Ohne die Grundlagen
kann man die hoher angesiedelten Probleme nicht adaquat verstehen und behandeln. Als
ganz typisches Beispiel wird hier die Problematik der statistischen Tests auftauchen. Die
Grundlagen der beschreibenden Statistik machen hier die – vielleicht mitunter etwas verque-
ren – Gedankengebaude sichtbar, die man bei den Hypothesentests aufstellen muß die dann
aber bei den hoher angesiedelten Problemen vollig identisch auftreten und damit begrifflich
keine Schwierigkeiten mehr schaffen.
1
1 Einfuhrung
In einem anderen Teil der Vorlesung werden wir uns dann mit der Statistik von mehrdi-
mensionalen Großen (Vektoren) beschaftigen, der sogenannten multivariaten Statistik. Fur
moderne Anwendungen in der Klimatologie sind diese Methoden unabdingbar. Der speziellen
Statistik fur Zeitreihen ist dann eine weitere Vorlesung gewidmet.
Eine Warnung zum Schluß : Obwohl die Vorlesung mathematische Statistik heißt, bedeutet
dies nicht, daß die Datenanalyse vollig frei von subjektiven Einflussen der Experimentatoren
ist. Im Gegenteil: eine wichtige Erkenntnis der Vorlesung sollte sein, daß alle statistischen
Analysen durch das Vorwissen und die Anspruchen der Experimentatoren bestimmt werden.
Dies wird besonders deutlich bei der statistischen Analyse hochdimensionaler Daten (bspw.
meteorologische Felder, die an Gitterpunkten dargestellt werden sollen), ist aber auch bei
eindimensionalen Daten der Fall, etwa bei der Frage, ob ein zeitlicher Trend in einer Stichpro-
be wichtig fur die Analyse ist oder unwichtig und dann aus den Daten rausgefiltert werden
mußDiese Vorkenntnis der Experimentatoren wird meisten vornehm mit dem lateinischen
Ausdruck ”a-priori” umschrieben. A-priori Annahmen sind vollig legal, sollten allerdings
von den Experimentatoren als solche auch klar erkannt sein.
Andreas Hense
Bonn, Marz 1996
Fur das Wintersemester 1998/99 wurde die vergriffene Auflage von 1996 einer kleinen
Uberarbeitung unterzogen. Diese zielte zunachst auf die Entfernung von Druckfehlern, er-
brachte jedoch auch den einen oder anderen erweiterten Erklarungsversuch. Das Kapitel uber
die multivariaten Normalverteilungen ist jetzt in dem 1996 noch nicht existenten Skript uber
multivariate Statistik zu finden.
Ich danke Andreas Hense fur die Uberlassung des LaTeX-Skripts und fur seine strapa-
zierte Geduld bei der Beantwortung meiner Fragen. Weiterhin danke ich Jochen Elberskirch
fur seine Hilfe beim Korrekturlesen und Heiko Paeth fur seine Hilfe bei meinem ersten,
erschopfendem Kampf gegen das LaTeX.
Thomas Burkhardt
Bonn, November 1998
2
1 Einfuhrung
Auch in den Wintersemestern 2002/03 und 2004/05 wurde das Skript weiter uberarbeitet.
Vor allem wurde das Kapitel 5 uber die Verteilungsfunktionen erweitert. Die Statistik extre-
mer Ereignisse wird in dem neuen Kapitel 8 gesondert behandelt. Ein erster Versuch, eine
Einfuhrung in die Bayesische Statistik zu geben, findet sich in Kapitel 9 - Achtung! - dieses
Kapitel bedarf eventuell noch einiger Uberarbeitung und ist vielleicht nicht an allen Stellen
genugend verstandlich (Anregungen sind jederzeit willkommen). Wahrend die Kapitel 2 bis
7 essentielle Grundlagen der Statistik vermitteln, auf die alle weiteren Vorlesungen aufbau-
en, sollen Kapitel 8 und 9 erste Einblicke in besonders aktuelle Methoden der statistischen
Analyse geben. Viel Spaß!
Petra Friederichs
Bonn, Januar 2005
3
2 Elemente der Wahrscheinlichkeitsrechnung
2 Elemente der Wahrscheinlichkeitsrechnung
2.1 Ereignisse und Stichprobenraum
Statistik ist die Beschaftigung mit Daten,
Abbildung 1 Beispiel fur den Stichproben-
raum zweier kontinuierlicher Variablen: Feuch-
temessung an einem Punkt durch Trocken- und
Feuchttemperatur
Abbildung 2 Beispiel fur den Stichproben-
raum zweier kontinuierlicher Variablen (endlich
und unendlich ausgedehnt): Beobachtung Bede-
ckungsgrad und Niederschlag
die gemessen wurden oder – allgemeiner –
durch ein Experiment gewonnen wurden (z.B.
auch durch eine Computersimulation). Jede
Durchfuhrung eines identischen Experiments
nennen wir eine Realisierung oder auch Stich-
probenentnahme (s.unten). Die Ergebnisse, die
wahrend des Experiments gesammelt werden,
konnen aus diskreten oder auch aus kontinu-
ierlichen Wertebereichen stammen. Die Er-
gebnisse einer endlichen Anzahl an Experi-
menten werden einen bestimmten, endlichen
Bereich im Raum aller denkbaren Ergebnis-
se einnehmen. Die Vereinigungsmenge aller
Bereiche fur alle Großen, die wahrend aller
moglichen Realisierungen des Experiments ge-
sammelt werden, bilden den Stichprobenraum
S des Experiments. Der Stichprobenraum Skann endlich oder auch unendlich ausgedehnt
sein (vergleiche Abb. (1) bis (3)).
Die Ergebnisse einer einzelnen Realisierung
des Experiments liegen immer in einem Un-
terraum A von S. Dann wollen wir sagen:
• Fallt das Ergebnis des Experiments in den
Unterraum A, so liegt das Ereignis A vor.
• Fallt das Ergebnis des Experiments nicht in
den Unterraum A, so liegt das komplementare Ereignis A vor.
4
2 Elemente der Wahrscheinlichkeitsrechnung
Das Ereignis E umfasst den gesamten Stichprobenraum S, der jede denkbare Realisierung
des Experiments enthalt. Das komplementare Ereignis E ist dann die leere Menge ∅.
Abbildung 3 Beispiel fur den Stichprobenraum zweier diskreter, endlicher Stichprobenvariablen:
Monatswitterungsvorhersage nach Temperatur und Niederschlagsklassen
2.2 Begriff der Wahrscheinlichkeit
Es seien N Realisierungen des Experiments mit diskretem Stichprobenraum durchgefuhrt.
Das Ereignis A wird n(A) mal beobachtet (gemessen). Dann definiert man als Wahrschein-
lichkeit fur das Auftreten von A
P(A) = limN→∞
n(A)
N(2.1)
Fur die Wahrscheinlichkeiten gelten folgende Axiome (Kolmogorov, 1933):
1. Die Wahrscheinlichkeit P(A) ist positiv semidefinit
P(A) ≥ 0 (2.2)
2. Das Ereignis E (Stichprobenraum) hat die Wahrscheinlichkeit 1
P(E) = 1 (2.3)
3. Sind A und B zwei sich ausschließende Ereignisse, so ist die Wahrscheinlichkeit, daß
A oder B eintreten, geschrieben das Ereignis (A + B)
P(A + B) = P(A) + P(B) (2.4)
5
2 Elemente der Wahrscheinlichkeitsrechnung
Aus (1), (2) und (3) folgt, daß P(A) ≤ 1 (Ubung!). Wenn A das Komplement von A ist, so
gilt, dass die Wahrscheinlichkeit P(A) = 1 − P(A) ist und es folgt mit P(E) = 1, dass fur
die leere Menge gilt P(∅) = 0.
Schließen sich die Ereignisse A und B nicht aus, so gibt es eine Wahrscheinlichkeit fur das
gemeinsame Ereignis (AB): P(AB). Die Wahrscheinlichkeit fur (A + B) ist dann
P(A + B) = P(A) + P(B) − P(AB) (2.5)
Beweis: Das Ereignis (A + B) laßt sich aufspalten in drei sich ausschließende Ereignisse
(Mengenlehre laßt grußen, Abb. (4)):
(A + B) : AB + AB + AB (2.6)
Abbildung 4 Die Aufteilung des Ereignisses (A + B) in drei sich ausschließende Ereignisse, wenn
A und B sich nicht ausschließen
mit der Aufteilung des Ereignisses A
A : AB + AB (2.7)
und entsprechend fur B ergibt sich fur die Wahrscheinlichkeit P(A + B)
P(A + B) = P(AB + AB + AB)
P(A + B) = P(AB) + P(AB) + P(AB)
P(A + B) = P(A) − P(AB) + P(B) − P(AB) + P(AB) (2.8)
6
2 Elemente der Wahrscheinlichkeitsrechnung
2.3 Bedingte Wahrscheinlichkeiten
Das Ereignis A sei beobachtet. Die Wahrscheinlichkeit, daß zusatzlich auch noch das Ereignis
B auftritt, heißt bedingte Wahrscheinlichkeit
P(B|A) =P(AB)
P(A). (2.9)
Die Wahrscheinlichkeit P(B|A) ist nur auf dem Ereignis A definiert. Es lasst sich ausserdem
jede gemeinsame Wahrscheinlichkeit P(B|A) aufteilen in die bedingte Wahrscheinlichkeit
P(B|A) und die Randwahrscheinlichkeit P(A) oder vice versa
P(AB) = P(B|A)P(A) = P(A|B)P(B). (2.10)
2.4 Unabhangige Ereignisse
‘ Zwei Ereignisse A und B sind unabhangig, das heisst die Festlegung des Ereignisses A hat
keinen Einfluss auf das Auftreten des Ereignisses A. Es gilt also
P(A|B) = P(A) (2.11)
und umgekehrt
P(B|A) = P(B) (2.12)
Damit folgt, dass die Wahrscheinlichkeit fur das gemeinsame Ereignis AB gilt
P(AB) = P(A)P(B). (2.13)
7
3 Zufallsvariable, Verteilung von Zufallsvariablen
3 Zufallsvariable, Verteilung von Zufallsvariablen
3.1 Diskrete Zufallsvariable
Sei S ein diskreter Stichprobenraum. Jedes Ereignis A tritt mit der Wahrscheinlichkeit P(A)
auf. Dann heißt die Menge
a = (A, P(A)), A ∈ S (3.1)
(diskrete) Zufallsvariable (ZVA). Es ist wichtig, daß wir bei ZVA immer daran denken,
daß es sich um eine Menge und nicht um eine Zahl oder Funktion o.a. handelt.
Kann jedem Ereignis A eine reelle Zahl x zugeordnet werden, wollen wir auch die Menge
X = (x, P(x)), x ∈ S (3.2)
als diskrete ZVA bezeichnen.
ACHTUNG: Bisher wurden fur die Bezeichnung der Ereignisse Großbuchstaben verwendet
und fur die ZVA Kleinbuchstaben. Ist einem Ereignis aber eine reelle Zahl zugeordnet, wird
das Ereignis mit Klein- und die ZVA mit Großbuchstaben bezeichnet.
Ausfuhrlich geschrieben ist die Notation fur die ZVA X:
X = (x1, P(x1)), (x2, P(x2)), ...., (xm, P(xm))︸ ︷︷ ︸
m−mal
, xi ∈ S fur i = 1, ..., m, (3.3)
wobei m sowohl endlich als auch zahlbar unendlich sein kann.
Wegen der Normierungsbedingung (Axiom (2)) gilt
∑
x∈SP (x) = 1 (3.4)
Die folgenden Beispiele sollen den Begriff ZVA verdeutlichen.
1. Deterministische Vorgange: Sei fur ein bestimmtes Ereignis A ∈ S die Wahrschein-
lichkeit P(A) = 1 und entsprechend P(A) = 0, so ist der Ausgang eines Experiments
eindeutig determiniert: es kommt immer zum Ereignis A und sonst nichts.
2. Gleichverteilte ZVA (der allseits beliebte Munz- oder Wurfelwurf): S bestehe aus M
Elementen, fur alle Ereignisse Am sei P(Am) = 1M
, m=1,...,M. Dann heißt die ZVA
(Am,1
M), Am ∈ S (3.5)
8
3 Zufallsvariable, Verteilung von Zufallsvariablen
eine gleichverteilte ZVA. Im Fall der Munze gilt:
ZVAGeld = (Adler, 0.5), (Zahl, 0.5), Am ∈ Adler ∩ Zahl
Wie man sieht, muß nicht jedem Ereignis (hier Adler, Zahl) eine reelle Zahl zugeordnet
sein.
3. Binomialverteilte ZVA (siehe nachstes Kapitel): Der Stichprobenraum besteht immer
aus Zahlen zwischen 0 und n. Das Ereignis dieser ZVA wird im Gegensatz zu den
obigen festgelegt durch die Haufigkeit des Eintretens eines bestimmten Ereignisses bei
der n-maligen, unabhangigen Durchfuhrung eines Experiments (mit anderer ZVA), das
nur 2 Ereignisse zulaßt.
3.2 Verteilung einer diskreten ZVA
Sei X eine diskrete ZVA und in dem Stichprobenraum kann eine Ordnungsrelation ”großer
(>)” definiert werden. Dann heißt die Funktion
F (x) =∑
y≤x
P (y) (3.6)
die Verteilungsfunktion der ZVA X. Die Existenz einer Ordnungsrelation in S ist nicht trivial:
man denke z.B an die Zufallsvariablen Farbe, Wolkentyp oder Großwetterlage. Kann man
dem Ereignis X eine reelle Zahl x zuordnen, so ist die Ordnungsrelation i.A. aber gegeben.
Wie sieht die Verteilungsfunktion einer gleichverteilten ZVA aus?
Sei xmax = max(x, x ∈ S) und xmin entsprechend. Wie sieht F (xmax) und F (xmin) aus?
3.3 Univariate reelle kontinuierliche ZVA’s
Sei der Stichprobenraum S nicht mehr diskret, sondern das eindimensionale, geschlossene
und kontinuierliche Intervall [a, b] (Kann auch offen sein oder halboffen oder a, b = ±∞; spielt
keine Rolle). Dann kann keine Wahrscheinlichkeit P(x), die der Normierungsbedingung (3.4)
entspricht, fur die Definition der Zufallsvariablen verwendet werden. Man zieht sich deshalb
bei reellen ZVA auf die Verteilungsfunktion F(x) zuruck und definiert als univariate (wg. des
eindimensionalen Stichprobenraums), reelle ZVA X die Menge:
X = (x, F (x)), x ∈ [a, b] (3.7)
9
3 Zufallsvariable, Verteilung von Zufallsvariablen
wobei F eine monoton steigende (nicht notwendigerweise streng monoton steigende) Funkti-
on ist, die das Intervall [a, b] auf das Intervall [0, 1] abbildet und analog zu der Wahrschein-
lichkeit folgendes Axiome bezitzt:
• 0 ≤ F (a) ≤ F (b) ≤ 1
• limx→b F (x) = 1
• limx→a F (x) = 0
Ist der Stichprobenraum auf ein endliches Intervall [a, b] begrenzt, so gilt naturlich auch
F (b) = 1 und F (a) = 0.
Ist F (x) stetig differenzierbar f(x) = F ′(x), so kann man alternativ auch die Menge
X = (x, f(x)), x ∈ [a, b] (3.8)
als eine reelle ZVA definieren. F (x) heißt Verteilungsfunktion der ZVA X und f(x) die
Wahrscheinlichkeitsdichtefunktion (engl. probability density function = pdf). Wahrschein-
lichkeiten fur das Beobachten einzelner Zahlen wahrend der Realisierung eines Experiments
anzugeben ist nicht sinnvoll, da eine Zahl nicht beobachtbar ist, sondern nur Werte inner-
halb eines Intervalls (s. Ereignisdefinition in Kap.2.1). Dieses Intervall hat z.B. die Breite des
Messfehlers. Daher ruhrt auch das Versagen der Wahrscheinlichkeitsdefinition beim Uber-
gang von diskreten ZVA zu reellen ZVA und man kann bei kontinuierlichen, reellen ZVA’s nur
von Wahrscheinlichkeiten uber Intervallen reden: d.h. uber die Wahrscheinlichkeit, wahrend
der Realisierung eines Experimentes eine Zahl im Intervall [c, d] zu finden. Sie folgt aus der
Verteilungsfunktion fur a ≤ c < d ≤ b bzw. der Dichtefunktion die Wahrscheinlichkeit
P([c, d]) = F (d) − F (c) =
∫ d
c
f(t)dt. (3.9)
Insbesondere ist
F (b) =
∫ b
a
f(t)dt = 1, (3.10)
was aus der Definition fur F folgt. Die pdf f(x) kann man dann als die Wahrscheinlich-
keit interpretieren, mit der eine Realisierung einen Wert liefert, der in dem infinitesimalen
Intervall [x, x + dx] liegt.
Wie sehen die Verteilungsfunktion und die Dichtefunktion einer gleichverteilten reellen ZVA
uber einem endlichen Intervall [a, b] aus?
10
3 Zufallsvariable, Verteilung von Zufallsvariablen
3.4 Multivariate reelle ZVA’s
Sei Ω ∈ IRn ein vernunftiges Gebiet (oder gutartiges Gebiet: d.h. man kann alle Integra-
tionen ausfuhren). Ein Element dieses Gebietes sei durch den n-dimensionalen Vektor ~x
gekennzeichnet. Sei f eine Funktion von Ω in IR, die positiv semidefinit ist und fur die gilt
f(~x) ≥ 0∫
Ω
f(~x)d~x = 1 (3.11)
Dann heißt die Menge
~X = (~x, f(~x)), ~x ∈ Ω (3.12)
eine n-dimensionale (multivariate) ZVA. Die Verteilungsfunktion lautet dann
F (~x) =
∫ x1
−∞. . .
∫ xn
−∞f(~t)dt1 . . . dtn (3.13)
Wie lautet die Wahrscheinlichkeitsdichtefunktion fur eine gleichverteilte ZVA uber der Ein-
heitskugel?1
3.5 Verallgemeinerte ZVA’s, Funktionen von ZVA’s
Sei die Menge
X = (x, P(x)), x ∈ S (3.14)
eine diskrete ZVA und g(x) = y eine Abbildung von dem Stichprobenraum S in einen neuen
Stichprobenraum Sg. Dann ist auch die Menge
Y = (y, Pg(y)), y ∈ Sg (3.15)
eine diskrete ZVA, die identisch ist zur diskreten ZVA
g(X) = (g(x), P(x)), x ∈ S (3.16)
wenn man setzt
Pg(y) =∑
x∈S′
P (x) (3.17)
1
∫ 2π
0
∫ π/2
−π/2
cr2 cosϕdϕdλ = c2πr2 = 1
11
3 Zufallsvariable, Verteilung von Zufallsvariablen
Dabei entsteht S ′ durch die Abbildung g−1(y) von Sg in den Raum S ′. g(x) ist aber nun
keineswegs auf eindeutig umkehrbare Funktionen begrenzt. Zur Berechnung der Wahrschein-
lichkeit Pg(y) muß man ggf. g(x) in eindeutig umkehrbare Funktionsabschnitte unterteilen.
Die Verallgemeinerung auf reelle univariate oder multivariate ZVA folgt unmittelbar. Sei
~X = (~x, f(~x)), ~x ∈ Ω (3.18)
eine multivariate ZVA und ~g eine Abbildung von Ω in IRq mit ~g(~x) = ~y und ~g und ~g−1 stetig
differenzierbar. Dann ist die ZVA
~Y = (~y, fg(~y)), y ∈ Ωg (3.19)
identisch zur ZVA ~g( ~X) mit
~g( ~X) = (~g(~x), f(~x)), ~x ∈ Ω (3.20)
wenn man fur die pdf fg(~y) setzt:
fg(~y) = f(~g−1(~y)) |det ∂~g−1(~y)| (3.21)
2 wobei
|det ∂~g−1(~y)| (3.22)
die Funktionaldeterminante (Jacobische Determinante) der inversen Abbildung ~g−1 ist.
Diesen Zusammenhang kann man sich klar machen mit der Vorstellung, daß Wahrschein-
lichkeit und Wahrscheinlichkeitsdichte vergleichbar mit Masse und Massendichte sind und
nicht vernichtet oder erzeugt werden konnen. Dies gilt auch unter der Abbildung ~g. Die Wahr-
scheinlichkeitsmasse Prob (~x) im (q-dimensionalen) Volumenelement dqx um den Aufpunkt
x ist gegeben durch:
Prob(~x) = f(~x)dqx (3.23)
Unter der Abbildung ~g(~x) = ~y bzw. ~g−1(~y) = ~x muß diese Masse erhalten bleiben. Es muß
also gelten
f(~x)dqx = fg(~y)dqy (3.24)
2Dies folgt aus der Normierungsbedingung
∫
Ω
~f(~x)d~x =
∫
Ωg
~f(~g−1(~y))d(~g−1(~y)) =
∫
Ωg
~f(~g−1(~y))(∂y~g−1)d~y
12
3 Zufallsvariable, Verteilung von Zufallsvariablen
Da fg(~y) unbekannt ist, folgt mit Hilfe der Rechenregeln fur die Anderung des Volumenele-
mentes bei Koordinatentransformationen
dqx = |det ∂~g−1(~y)| dqy (3.25)
die oben angegebene Beziehung als Bestimmungsgleichung fur fg(~y) aus f(~x).
3.6 Realisierungen von ZVA’s
In vielen Anwendungsfallen ist es erwunscht, ZVA zu haben, die wohldefinierten Verteilungs-
funktionen unterliegen. Dies ist zu unterscheiden vom Schatzproblem (s.u.). Dabei sind aus
ZVA, die durch verschiedene Realisierungen eines Experiments entstanden sind, i.A. die Ver-
teilungsfunktion oder was damit zusammenhangt zu ”schatzen”. Typisches Beispiel fur das
erste Problem dagegen sind die sogenannten Monte Carlo Experimente: es werden Rea-
lisierungen einer oder auch mehrerer ZVA generiert, mit denen man dann seine statistischen
Analysen uberpruft. Man behandelt die kunstlich erzeugten Daten so, als ob sie einem rea-
len Experiment entnommen worden waren, weiß aber im Gegensatz zum realen Experiment,
welcher Verteilung sie unterliegen.
Wie erzeugt man nun ZVA mit wohldefinierten Verteilungsfunktionen? Strenggenommen
lassen sie sich nur auf dem Computer realisieren, wenngleich fruhe Experimentatoren (=Spie-
ler) schon interessante Erkenntnisse uber diskrete ZVA’s wie Munz- oder Wurfelwurf durch
viele tatsachliche Wurfe erzielt haben. Heute arbeitet man mit Zufallszahlengeneratoren
(ZZG), also Rechnerprogrammen, die ZVA erzeugen. Jede FORTRAN Library hat i.A. einen
solchen Generator standardmaßig implementiert. Numerical Recipes, Kapitel 7 gibt einen gu-
ten Uberblick, wie Zufallszahlengeneratoren arbeiten, wie man welche schreibt und auch, in
welche Fallen man tappen kann.
Die allgemeine Form eines ZZG ist folgende Iteration (stuckweise lineare Abbildung eines
Intervalls auf sich selbst):
In+1 = mod(aIn + c, m) (3.26)
wobei a, c, m positive Integer Zahlen sind und mod die modulo– Funktion bezeichnet. Rea-
lisierungen einer gleichverteilte ZVA im Intervall [0, 1[ erhalt man durch die Normierung
xn = In/m (3.27)
13
3 Zufallsvariable, Verteilung von Zufallsvariablen
”Gute” Werte fur die Konstanten a, c, m findet man in Numerical Recipes auf Seite 198. Den
Grund, warum Iterationen der obigen Art Zufallszahlen erzeugen, findet man am Beispiel
des ”Bernoulli shift” (a = 2, c = 0, m = 1), der zufallig verteilte Bitmuster erzeugen kann,
in Schuster, Deterministic Chaos, Seite 15ff (Abb. (5)).
Realisierungen von reellen, univariaten ZVA’s
Abbildung 5 Darstellung der Abbildung des
Bernoulli shift
mit einer beliebigen Verteilungsfunktion, wer-
den aus gleichverteilten ZVA’s gewonnen. Hier-
zu benutzen wir die Ergebnisse des Kapitels
uber verallgemeinerte ZVA’s. Sei g eine Ab-
bildung des Intervalls [0, 1] in IR und X ei-
ne gleichverteilte ZVA im Einheitsintervall.
Dann war die Wahrscheinlichkeitsdichte der
ZVA Y = g(X) gegeben durch
p(y) = p(x) | d
dyg−1(y)| (3.28)
p(x) ist aber konstant wg. der Gleichvertei-
lung, so daß die Wahrscheinlichkeitsverteilung
der ZVA Y durch die Ableitung der inversen Funktion zu g gegeben ist.
Beispiel: Die Abbildung
g = −ln(x)
erzeugt aus Realisierungen einer gleichverteilten ZVA Realisierungen einer exponentiell ver-
teilten ZVA, da
g−1 = exp(−y)
bzw.
| d
dyg−1(y)| = exp(−y)
Analog verfahrt man im Fall der multivariaten ZVA’s.
14
3 Zufallsvariable, Verteilung von Zufallsvariablen
3.7 Momente einer Verteilungsfunktion
Sei X = (x, P(x)), x ∈ S eine diskrete univariate ZVA. Dann nennt man
mk =∑
x∈SxkP(x) k = 0, 1, ...i (links Index, rechts Exponent) (3.29)
das k.te Moment der ZVA. Die Definition macht naturlich nur Sinn, wenn in S eine Addi-
tion definiert ist (bedeutet, daß die Ereignisse schon auf Zahlen projeziert sein mussen).
Sei X = (x, f(x)), x ∈ [a, b] eine kontinuierliche, univariate und reelle ZVA, dann
bezeichnet man mit
mk =
∫ b
a
xkf(x)dx (3.30)
das k.te zentrierte Moment von X und mit
µk =
∫ b
a
(x − m1)kf(x)dx (3.31)
das k.te zentrierte Moment.
Das erste Moment m1 bezeichnet man auch als Erwartungswert E(X) der ZVA X. In
der Theoretischen Mechanik ist das auch der Schwerpunkt der Massenverteilung P(x) (in der
Punktmechanik) bzw. der Massendichte f(x) in der Kontinuumsmechanik. Merke: der Er-
wartungswert (wie auch alle anderen Momente) einer univariaten ZVA ist selbstverstandlich
keine ZVA, sondern eine wohldefinierte reelle Zahl, da unter dem Integral nur reelle Zahlen
bzw. Funktionen stehen, die Teile der Menge X sind. Die Berechnung des Erwartungswertes
ist linear, d.h. es gilt (α, β feste aber beliebige reelle Zahlen)
E(X ′) = g(X) =
∫ b
a
(αx + β)f(x)dx
= α
∫ b
a
xf(x)dx + β
∫ b
a
f(x)dx
= αE(X) + β (3.32)
mit X ′ = (αx + β), f(x)), x ∈ [a, b]. Gerne schreibt man auch:
E(X ′) = E(αX + β) = αE(X) + β (3.33)
was aber naturlich nicht ganz exakt ist, weil man bei der mittleren Schreibweise im Argument
des Operators E() Mengen (X) mit reellen Zahlen (α) verknupft. Der Einfachheit halber
werden aber auch wir – nach diesem ausfuhrlichen Hinweis – diese Schreibweise verwenden.
15
3 Zufallsvariable, Verteilung von Zufallsvariablen
Es sei eine Wahrscheinlichkeitsdichtefunktion mit folgender Eigenschaft gegeben (c eine
reelle Zahl, der Stichprobenraum sei die gesamte reelle Zahlenachse)
f(x − c) = f(c − x) (3.34)
d.h. f ist um c symmetrisch. Dann gilt – sofern der Erwartungswert existiert –
E(X) = c (3.35)
Beweis fur c = 0
E(X) =
∫ ∞
−∞xf(x)dx
=
∫ 0
−∞xf(x)dx +
∫ ∞
0
xf(x)dx
=
∫ ∞
0
(−x)f(−x)dx +
∫ ∞
0
xf(x)dx
= −∫ ∞
0
xf(x)dx +
∫ ∞
0
xf(x)dx
= 0 (3.36)
Ist c 6= 0, setze y = x− c und benutze die Linearitat der Berechnung von E(X). Dann erhalt
man sofort E(X) = c.
Das zweite, zentrierte Moment µ2 einer ZVA wird Varianz oder Dispersion Var(X)
der ZVA genannt und ist ein Maß fur die mittlere quadratische Abweichung der ZVA von
ihrem Erwartungswert. Die Varianz ist groß wenn die Variabilitat der ZVA groß ist und
umgekehrt. Es gilt fur alle c ∈
Var(X) = E((X − E(X))2) (siehe obigen Hinweis zur Schreibweise!)
Var(X) = E(X2) − (E(X))2 Steiner‘scher Satz
Var(X − c) = Var(X)
Var(cX) = c2Var(X) (3.37)
Die Zahl σ(X) =√
Var(X) bezeichnet man als Streuung der ZVA X.
Das dritte, zentrierte Moment µ3 mit
µ3 = E((X − E(X))3) (3.38)
16
3 Zufallsvariable, Verteilung von Zufallsvariablen
kombiniert man mit σ(X) zu
γ =µ3
σ3(3.39)
und nennt es Schiefe (Skewness) der Verteilung f oder der ZVA. Hat die pdf lange Auslaufer
nach links (rechts), ist die Schiefe der Verteilung negativ (positiv). Die Schiefe einer symme-
trischen Verteilung ist Null.
Das vierte, zentrierte Moment
µ4 = E((X − E(X))4) (3.40)
kombiniert man mit σ4 zu
δ =µ4
σ4(3.41)
und nennt δ den Exzeß oder die Kurtosis (Wolbung) der Verteilung. Hat eine Verteilung
eine Kurtosis δ > 3 (δ < 3), so weist sie gegenuber ihrer ”Normalversion” erhohte (ernied-
rigte) Werte der pdf im Bereich des pdf -Maximums und erniedrigte (erhohte) Werte an den
Verteilungsenden auf. Die beiden letzten Momente (und naturlich auch alle noch hoheren)
haben i.A. selten grundlegende Bedeutung, weil in sehr vielen Anwendungen eine Normal-
verteilung der ZVA vorausgesetzt wird. Diese ist durch erstes und zweites Moment schon
vollstandig bestimmt.
3.7.1 Reduzierte Zufallsvariable
Sei µ1 der Erwartungswert und σ die Streuung einer ZVA X. Definiert man
z =x − µ1
σ, (3.42)
und existiert eine Abbildung g(x) = z vom Sx in den Sz so heißt die ZVA
Z = (z, f(z)), z ∈ Sz (3.43)
die reduzierte oder auch standardisierte ZVA von X mit E(Z) = 0 und Var(Z) = 1.
17
3 Zufallsvariable, Verteilung von Zufallsvariablen
3.8 Modus, Median und Quantile
Sei X = (x, f(x)), x ∈ [a, b] eine reelle, univariate ZVA. Dann nennt man xm den Modus
von X, wenn gilt
f(xm) = max
f′
(xm) = 0
f′′
(xm) < 0 (3.44)
Liegen relativ hochste Werte der pdf an nicht differenzierbaren Stellen des Stichprobenraums,
so liegt auch dort ein Modus vor. Existiert nur ein Modus, heißt die ZVA unimodal verteilt.
Existieren mehrere Modi, nennt man die ZVA multimodal (inbesondere bei 2 Modi: bimodal)
verteilt.
Sei die Verteilungsfunktion F (x) der ZVA X streng monoton steigend. Dann existiert eine
eindeutige Losung xp der Gleichung
F (xp) = p (3.45)
Die Zahl xp heißt p−Quantil der ZVA oder der Verteilung. Ist F (x) nur monoton steigend,
existiert moglicherweise nur ein Losungsintervall fur die Gleichung. Dann definiert man als
p−Quantil
xp = inf((x′p, F (x′
p) = p), x′p ∈ [a, b]) (3.46)
Der Median ist definiert als das 0.5 - Quantil (p = 0.5) einer ZVA. Der Median teilt den
Stichprobenraum einer univariaten, reellen ZVA in zwei Bereiche gleicher Wahrscheinlich-
keit. Wenn eine unimodale ZVA symmetrisch um das Dichtemaximum verteilt ist, die Ver-
teilungsfunktion zweimal stetig differenzierbar ist und der Erwartungswert existiert, dann
fallen Modus, Median und Erwartungswert zusammen.
Als oberes (unteres) Dezil bezeichnet man die Quantile zum Wert p = 0.9 (p = 0.1).
Modus, Median und Quantile sind selbstverstandlich auch keine ZVA, sondern wohldefinierte
reelle Zahlen.
Aufgabe: Berechne Erwartungswert, Varianz, Modus und Median einer gleichverteilten ZVA
im Intervall [0, 1] bzw. einer exponentiellverteilten ZVA.
18
4 Erwartungswert einer Funktion einer ZVA
4 Erwartungswert einer Funktion einer ZVA
Wir hatten bereits gesehen, dass sich der Erwartungswert eine diskreten ZVA bestimmt als
E[X] =∑
S
xP (x). (4.1)
Wie sieht nun der Erwartungswert E[g(X)] einer Funktion von X aus? Folgende Eigenschaft-
ten gelten fur die Funktionen von ZVA.
E[c] = c (4.2)
E[cg1(x)] = cE[g1(x)] (4.3)
E
[J∑
i=1
gi(x)
]
=J∑
i=1
E[gi(x)] (4.4)
Die dritte Eigenschaft ist wichtig, denn sie sagt uns, dass der Erwartungswert einer Summe
von ZVA gleich der Summe der Erwartungswerte von ZVA ist.
Die Nutzlichkeit dieser Eigenschaft kann am Erwartungswert der Funktion
g(x) = (x − µ)2 (4.5)
namlich die Varianz, gezeigt werden.
V ar[X] = E[(X − µ)2] =∑
x
(x − µ)2P (x) (4.6)
=∑
x
(x2 − 2xµ + µ2)P (x) (4.7)
=∑
x
x2P (x) − 2µ∑
x
xP (x) + µ2∑
x
P (x) (4.8)
= E[x2] − 2µE[x] + µ2 (4.9)
= E[x2] − µ2 (4.10)
4.1 Momente multivariater ZVA’s
Analog zum univariaten Fall definiert man den Erwartungswert einer multivariaten ZVA ~X
zu
E( ~X) =
∫
~xf(~x)d~x
E( ~X) =
∫
. . .
∫
~xf(x1, . . . , xn)dx1 . . . dxn
mit E(Xi) =
∫
. . .
∫
xif(x1, . . . , xn)dx1 . . . dxn) (4.11)
19
4 Erwartungswert einer Funktion einer ZVA
Der Erwartungswert eines Vektors ist selbst ein Vektor, dagegen gilt f(~x) ∈ IR. Bei den
weiteren Momenten kann der einfache Analogieschluß zu den Vorschriften bei univariaten
ZVA nur mit Vorsicht angewandt werden. Es ist zu beachten, daß bei der Multiplikation der
Vektoren ~x nicht das normale Skalarprodukt gebildet werden darf (also Zeilen- mal Spalten-
vektor), sondern das sogenannte außere Produkt gebildet werden muß. Dieses berechnet sich
durch ~x ·~xT , wobei wir Vektoren normalerweise als Spaltenvektoren verstehen und die Trans-
ponierte des Vektors als Zeilenvektor. Das Ergebnis des außeren Produkts zweier Vektoren
ist eine Matrix.
Das zweite Moment einer multivariaten ZVA stellt sich daher als die sogenannte Kovari-
anzmatrix der ZVA X dar. Die Varianz laßt sich nur komponentenweise angeben. Sie belegt
in der Kovarianzmatrix die Hauptdiagonale. Die Varianz einer Komponente Xi von ~X ist
gegeben durch
Var(Xi) = E((Xi − E(Xi))2) (4.12)
Die sogenannten Kovarianzen (in manchen Buchern auch ”1,1te Momente” genannt) berech-
nen sich zu
ci,j = cov(Xi, Xj) = E((Xi − E(Xi))(Xj − E(Xj))) i 6= j (4.13)
Sie belegen die durch ihre Indizierung festgelegten Platze in der Kovarianzmatrix Σ, die die
Dimension n × n hat. Man schreibt
Σ = E(( ~X − E( ~X))( ~X − E( ~X))T ) (4.14)
Die Kovarianzmatrix ist symmetrisch. Ihre Spur ist positiv definit.
Spur(Σ) =∑
i
Var(Xi) > 0 (4.15)
Damit sind die Eigenwerte der Kovarianzmatrix reell und positiv und die Eigenvektoren
bilden ein Orthonormalsystem.
Sei eine lineare Transformation der multivariaten ZVA X wie folgt definiert
~Y = T ~X + ~a (4.16)
mit der Transformationsmatrix T . (Beachte auch hier den Hinweis zur gemischten Schreib-
weise von Mengen und Vektoren aus Kap. 3.7!) Dann transformiert sich die Kovarianzmatrix
wie
ΣY = TΣXT T (4.17)
20
4 Erwartungswert einer Funktion einer ZVA
(Beweis:
ΣY = E((~Y − E(~Y ))(~Y − E(~Y ))T )
= E((T ~X + ~a − TE( ~X) − ~a)(T ~X + ~a − TE( ~X) − ~a)T )
= E((T ~X − TE( ~X))(T ~X − TE( ~X))T ) (wegen (AB)T = BT · AT )
= TE(( ~X − E( ~X))( ~X − E( ~X))T )T T
= TΣXT T ) (4.18)
Der Korrelationskoeffizient zwischen Komponente i und j einer multivariaten ZVA, wird
ausgedruckt durch
ρi,j =E((Xi − E(Xi))(Xj − E(Xj)))
√
Var(Xi)Var(Xj)=
cov(Xi, Xj)
σ(Xi) · σ(Xj)i 6= j (4.19)
Alle Korrelationskoeffizienten werden dann zur Korrelationsmatrix zusammengefaßt.
21
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
Wir wollen uns in diesem Kapitel mit einigen theoretischen Verteilungen beschaftigen. Solch
eine Verteilung ist die mathematische Formulierung, die die probabilistischen Eigenschaften
der vorliegenden ZVA beschreiben soll. In der Regel, ist dies eine Idealisierung der wirklichen,
meist unbekannten Verteilung und wird deshalb theoretisch genannt. Sie reprasentiert die
vorhandenen Daten somit nur approximativ, auch wenn die Naherung tatsachlich sehr gut
sein kann. Eine besondere Eigenschaft ist, dass theoretische Verteilungen durch einige wenige
Parameter vollstandig festgelegt sind und somit auch parametrische Verteilungen genannt
werden. So ist die Gauß-Normalverteilung eindeutig bestimmt, wenn wir die Verteilungspa-
rameter Erwartungswert µ und die Varianz σ kennen.
Es gibt mehrere Grunde, solche theoretischen Verteilungen zu benutzen.
1. Zum einen geben sie eine kompakte Beschreibung der probabilistischen Eigenschaften der
Daten. Die Eigenschaften der Daten konnen dann durch eine kleine Anzahl von Parametern
beschrieben werden.
2. Ein anderer Aspekt ist die Glattung und Interpolation von Daten. Wenn die Wahrschein-
lichkeitsdichtefunktion aus einer Reihe von Messungen zum Beispiel durch eine Haufigkeits-
verteilung abgeschatzt, so ist eine solche Schatzung sehr grob, mit Lochern und herausra-
genden Peaks. Eine solche Schatzung hat einen Stichprobenfehler und dieser wird geglattet,
indem an die Daten eine Verteilung angefittet wird.
3. Eine theoretische Verteilung kann auch zur Extrapolation dienen, um Wahrscheinlichkeits-
dichten fur Ereignisse zu schatzen, die außerhalb des beobachteten Bereichs liegen.
5.1 Diskrete Verteilungen
Es gibt zwei Arten von Zufallsvariablen, diskrete und kontinuierliche. Diskrete Variablen
sind solche, deren Werte entweder endlich oder zahlbar unendlich sind. Eine kontinuierlich
ZVA kann dagegen alle reellen Werte in einem bestimmten Intervall annehmen. Es gibt viele
diskrete Wahrscheinlichkeitsdichteverteilungen aber nur zwei werden in der Meteorologie
ofter benutzt: die Binominalverteilung und die Poissonverteilung.
22
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
5.1.1 Binominalverteilung
Die Binominalverteilung ist wahrscheinlich die einfachste theoretische Verteilung. Sie ent-
steht, wenn das Ergebnis einer Reihe von Versuchen in zwei Klassen eingeteilt wird und
dieser Versuch dann n-mal durchgefurt wird. Generell wird einem Ergebnis die ”1” und dem
anderen Ergebnis die ”0” zugeordnet. Die Anzahl der Versuche n kann eine beliebige positive
Integerzahl sein und die Zufallsvariable XB ist dann die Haufigkeit, mit der das Ergebnis
”1” bei n Versuchen beobachtet wurde.
Ein Experiment entspricht einer Realisierung einer ZVA X, die das Ergebnis ”1” oder
”0” hat, wobei das Ereignis ”1” mit der Wahrscheinlichtkeit p auftritt. Entsprechend ist die
Wahrscheinlichkeit fur das Ereignis ”0” (p− 1). Die ZVA fur das so formulierte Experiment
ist
X = (0, (1 − p)), (1, p),S = 0, 1 (5.1)
Ein so definiertes Experiment wird nun n mal durchgefuhrt. Zwei Bedingungen mussen dabei
erfullt sein:
1. dass die Wahrscheinlichkeiten mit denen wir das Ergebnis ”1” bzw. ”0” erhalten wahrend
des gesamten Experiments konstant bleiben und
2. dass die Ergebnisse der aufeinanderfolgenden Versuche unabhangig voneinander sind.
Das Ereignis des ”Binomial-Experiments” ist die Anzahl k des Auftretens von ”1” aus
den n obigen Versuchen. Der Stichprobenraum umfaßt also die Zahlen 0 bis n. Die Wahr-
scheinlichkeit fur das Eintreten eines bestimmten Ereignisses das ”k” zugeordnet wird, wie
1, 1, 1, 0, berechnet sich folgendermaßen
P (k : 1, . . . , 1︸ ︷︷ ︸
k−mal
, 0, . . . , 0︸ ︷︷ ︸
(n−k)−mal
) = p · p · ... · p︸ ︷︷ ︸
k−mal
(1 − p) · (1 − p) · ... · (1 − p)︸ ︷︷ ︸
(n−k)−mal
= pk · (1 − p)n−k (5.2)
”k” kann aber uber verschiedene Experimentablaufe erreicht werden. Bspw. erzeugen bei
n=4 die Beobachtungen (1,1,1,0), (1,1,0,1), (1,0,1,1) und (0,1,1,1) alle das Ereignis ”3”.
Diese Zahl laßt sich errechnen durch
n!
k!(n − k)!(5.3)
Das wird als Binomialkoeffizient bezeichnet und(
nk
)geschrieben. So erhalt man fur die
23
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
Wahrscheinlichkeit einer binomialverteilten ZVA folgenden Ausdruck:
B(k, n, p) =
(n
k
)
pk(1 − p)n−k (5.4)
Die binomialverteilte ZVA endlich kann man dann leicht schreiben als:
XB = (k, B(k, n, p)), k = 0, . . . , n (5.5)
Die festen Zahlen (n, p) nennt man die Parameter der Binominalverteilung (vergl. Abb. 6).
Wir konnen die ZVA XB auch uber eine Funktion darstellen als
g(X) = (g(x1, . . . , xn), P (x1, . . . , xn)), xi ∈ S = 0, 1, i = 1, . . . , n (5.6)
Fur den Spezialfall, dass der Stichprobenraum S = 0, 1 fur xi ist, lautet diese Abbildung
k = g(x1, . . . , xn) =
n∑
i=1
xi (5.7)
und ist genau unsere Binominal-ZV.
0 1 2 3 4 5 6 7 8 9 100
0.2
0.4(n,p) = 10, 0.1
0 1 2 3 4 5 6 7 8 9 100
0.2
0.4(n,p) = 10, 0.2
0 1 2 3 4 5 6 7 8 9 100
0.2
0.4(n,p) = 10, 0.5
0 1 2 3 4 5 6 7 8 9 100
0.2
0.4(n,p) = 10, 0.7
0 1 2 3 4 5 6 7 8 9 100
0.2
0.4(n,p) = 10, 0.9
0 1 2 3 4 5 6 7 8 9 100
0.5(n,p) = 10, 0.99
Abbildung 6 Binomialverteilungen mit verschiedenen Parametern (n, p).
Der Erwartungswert der ZVA XB laßt sich nach der Formel fur den Erwartungswert aus-
rechnen:
E(XB) =n∑
k=0
kB(n, p, k) =n∑
k=0
k ·(
n
k
)
pk(1 − p)n−k (5.8)
24
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
Dies geschieht in Kreyszig, S.111 (1998) [4] mit speziell konstruierten Funktionen. Fur unse-
ren oben schon festgelegten Spezialfall ist aber nur Standard-Arithmetik notig. Dabei fragen
wir nicht nach dem Erwartungswert der ZVA XB sondern nach dem von g(X). Wir konnen
also schreiben
E(g(X)) =∑
l=0,1
n∑
i=1
xi,l · P (xl)
=
n∑
i=1
∑
l=0,1
xi,l · P (xl)
=n∑
i=1
(p · 1 + (1 − p) · 0)
= np (5.9)
Tatsachlich ist das Ergebnis von (5.8) ebenfalls np. Leicht laßt sich aber auch ausrechnen,
daß fur den Stichprobenraum S = 1, 3 E(g(X)) = n(1−2p) ist. Dann gilt aber (5.7) nicht
mehr!
Die Berechnung der Varianz der ZVA XB lauft auf die Berechung des Erwartungswerts
von [g(X) − E(g(X))]2 heraus, also
V ar(XB) = E[(XB − E[XB])2] = E[(g(X) − E(g(X)))2]
= E[(∑
i
xi − E[∑
i
xi])2] = E[(
∑
i
xi −∑
i
E[xi])2]
= E[(∑
i
xi −∑
i
µi)2] = E[(
∑
i
(xi − µi))2]
=∑
i
E[(xi − µi)2] =
∑
i
[E[x2i ] − µ2
i ]
=∑
i
[∑
S
x2i P (x) − p2] =
∑
i
[12 · p + 02 · (1 − p) − p2]
=∑
i
p(1 − p) = np(1 − p) (5.10)
Da g(X) eine Summe von ZVA darstellt, entstehen bei der Quadrierung Mischglieder, was
zu Kovarianzen fuhrt. Man hat es also mit einer multivariaten ZVA zu tun. Die Berechung
wird erleichtert durch die Tatsache, daß xi unabhangig ist von xj fur i 6= j. Das bedeutet,
daß P (x1, x2, ..., xn) = P (x1) · P (x2) · ...P (xn) gilt. Man gelangt fur unseren Spezialfall zu
der einfachen Formel
Var(XB) = Var(X1) + Var(X2) + ... + Var(Xn) (5.11)
25
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
Die Varianz der ZVA Xi laßt sich leicht berechnen
Var(X) = E((Xi −E(Xi))2) =
∑
l=0,1
(xl −E(Xi))2P (xl) = (0− p)2(1− p) + (1− p)2p (5.12)
Damit gilt
Var(XB) = np(1 − p) (5.13)
5.1.2 Poissonverteilung
Die Poissonverteilung beschreibt die Anzahl von diskreten Ereignissen welche in einer Serie
auftreten und eine bestimmte Art von Unabhangigkeit haben. Ahnlich wie bei der Binominal-
verteilung fragen wir hier nach der Wahrscheinlichkeit des Auftretens von einer bestimmten
Anzahl von Ereignissen in einem bestimmten Zeitraum. Idealerweise ist das Ereignis so sel-
ten, also die Wahrscheinlichkeit p so klein, dass es sehr unwahrscheinlich ist, dass in dem
vorgegebenen Zeitraum mehr als ein Ereignis auftritt. Der Zeitraum oder anders gesagt die
Anzahl der Versuche n ist hingegen groß. Es macht also Sinn, den Grenzwert der Binomi-
nalverteilung fur n → ∞ zu bilden, wobei wir einen Parameter
λ = np = endlich = const (5.14)
definieren. Die Poissonverteilung hat einen Parameter λ, welche mit mittlere Rate des Auf-
tretens eines Ereignisses darstellt. Dieser Parameter wird auch als Intensitat bezeichnet.
Sei bei einer Serie von Experimenten, die binomialverteilte ZVA
B(k, n, p) =
(n
k
)
pk(1 − p)n−k
=n!
k!(n − k)!(λ
n)k (1 − λ
n)n
(1 − λn)k
=λk
k!
1
nk
(1 − λn)n
(1 − λn)k
k−1∏
i=0
(n − i)
=λk
k!(1 − λ
n)n (n−0
n)(n−1
n)(n−2
n) . . . (n−(k−1)
n)
(1 − λn)k
=λk
k!(1 − λ
n)n (1 − 0
n)(1 − 1
n)(1 − 2
n) . . . (1 − k−1
n)
(1 − λn)k
(5.15)
Bildet man die Grenzwerte
limn→∞
(1 − x
n) = 1 (5.16)
26
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
und
limn→∞
(1 − λ
n)n = exp(−λ) (5.17)
so verbleibt bei festem, aber beliebigen k
limn→∞
B(k, n, p) = f(k) =λk
k!exp(−λ) (5.18)
Abbildung 7 Poissonverteilung fur unterschiedliche Parameter λ
Die Dichteverteilung f(k) nennt man die Poissonverteilung und λ den Parameter der Pos-
sionverteilung. Sie gibt die Wahrscheinlichkeit an fur das Eintreten k ”unwahrscheinlicher”
Ereignisse bei n Beobachtungen, die jedes fur sich mit der kleinen Wahrscheinlichkeit p
eintreten. Der Erwartungswert der ZVA K
K = (k, f(k)), k = 0, . . . , n (5.19)
ergibt sich zu
E(K) =∞∑
k=0
k · λk
k!exp(−λ) = λ = µ (5.20)
27
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
und die Varianz zu
Var(K) = E(K2) − µ2 = µ (5.21)
Die Poissonverteilung fur verschiedene Parameter λ ist in der Abb. (7) dargestellt. Da auch
das 3. zentrierte Moment der Poissonverteilung durch µ gegeben ist, hat die Poissonverteilung
immer eine positive Schiefe von 1/√
µ, also ”lange Auslaufer nach rechts”, auch wenn das in
Abb. (7) fur die großen µ nicht deutlich wird. Fur µ gegen ∞ nimmt die Poissonverteilung
symmetrische Gestalt an. Ein gutes Beispiel fur eine Poissonverteilung in der Meteorologie
ist die Verteilung von Stark-niederschlagen.
5.2 Kontinuierliche Verteilungen
Die meisten Variablen in der Meteorologie konnen einen kontinuierlichen Wert annehmen.
Temperatur, Niederschlag, Geopotential, Windgeschwindigkeit sind zumindest konzeptionell
nicht auf Integerwerte einer bestimmten Einheit beschrankt. Auch wenn Messwerte oder
Modellergebnisse auf diskrete Werte gerundet werden, so ist der Satz der moglichen Werte
in der Regel groß genug, um im weiteren die Variable als kontinuierlich Variable zu behandeln.
Die in der Statistik vorkommenden Verteilungen konnen in zwei Kategorien unterteilt
werden. Die einen werden benutzt, um die Daten zu reprasentieren, also Verteilungen, die
im Zusammenhang mit einem mathematischen Modell benutzt werden. Hierzu gehoren auch
die Binominal- und Poissonverteilung. Ich werde hier einige vorstellen (Gaußverteilung, Log-
Normalverteilung, Gamma-Verteilung, Beta-Verteilung,...). Eine zweite Kategorie von Ver-
teilungen dient zur Abschatzung der Unsicherheit einer Schatzung z. B. des Mittelwertes
oder der Varianz oder zum Vergleich von Mittelwert oder Varianz zweier ZVA. Naturlich
lassen sich einige Verteilungen beiden Kategorien zuordnen.
5.2.1 Gaussverteilung
Die univariate Gaußverteilung oder Normalverteilung (NV) ist die wichtigste Wahrschein-
lichkeitsdichtefunktion fur univariate, reelle ZVA, weil
• viele ZVA, die bei Experimenten beobachtet werden, einer NV entstammen.
• einige ZVA naherungsweise normalverteilt sind (bei unimodalen Verteilungen lassen
sich in vielen Fallen sinnvolle Ergebnisse unter der Annahme NV erzielen).
28
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
• einige ZVA sich durch geeignete Transformationen auf Normalverteilung bringen lassen
(etwa ZVA, die ein endliches Intervall und nicht die gesamte reelle Zahlenmenge als
Stichprobenraum haben).
• die klassische Statistik meist auf der Annahme der Normalverteilung basiert,
• der Zentrale Grenzwertsatz der Statistik oder central limit theorem gilt.
Sei X = (x, f(x)), x ∈ eine reelle univariate ZVA. X heißt normalverteilt, wenn f(x)
von der Form
f(x) =1√2πσ
exp(−1
2(x − µ
σ)2) (5.22)
ist. µ, σ nennt man dann auch die Parameter der Normalverteilung. Bei einer Gauß- oder
Normalverteilung mit µ = 0 und σ = 1 wird von einer Standard-Normalverteilung oder
Standard-Gaußverteilung geredet. Jede Gauß-verteilte ZVA kann durch die Transformation
Z =X − µ
σ(5.23)
in ihre Standardform gebracht werden.
µ bestimmt die Position des Maximums und den Symmetriepunkt, d.h. µ ist der Erwar-
tungswert der ZVA X. Die Varianz der ZVA X ist dann gegeben durch
Var(X) =
∫ ∞
−∞(x − µ)2f(x)dx = σ2
was man durch einfaches Nachrechnen mit partieller Integration beweisen kann. Dies bedeu-
tet, daß die Normalverteilung vollstandig durch die Varianz σ2 bzw. Streuung σ und den
Mittelwert µ der ZVA X bestimmt ist. Damit sind aber auch alle Eigenschaften der ZVA X
durch den Erwartungswert und die Streuung festgelegt. Hat man also E(X) und σ sowie die
Gewißheit oder die Annahme, daß eine ZVA X normalverteilt ist, ist die gesamte Statistik
der ZVA X bekannt.
Da es fur das Integral uber die Dichtefunktion der Gauß-Verteilung (5.22) keine ana-
lytische Losung gibt, gibt es fur die Verteilungsfunktion der NV oder auch kummulative
Dichtefunktion genannt, keine allgemeine Berechnungsvorschrift.
F (x) =1√2πσ
∫ x
−∞exp(−1
2(t − µ
σ)2)dt (5.24)
29
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
Fur den Fall, dass µ = 0 und σ = 1 ist, heisst die ZVA auch reduzierte ZVA (oder eben
standard-normalverteilt). Die Verteilungsfunktion F (x) ist dann die Fehlerfunktion (error
function) und wird mit Φ(x) oder erf(x) bezeichnet. Es gilt dann naturlich
F (x) = erf(x − µ
σ) =
2√π
∫ x
0
et2dt. (5.25)
Die Fehlerfunktion findet man tabelliert oder als Standardsubroutine in FORTRAN oder
MATLAB.
Die Quantile der NV kann man mit Hilfe der error - Funktion bestimmen:
• das 16%- (bzw. 84%) Quantil findet man bei µ ∓ σ
• das 2.5%- (bzw. 97.5%) Quantil findet man bei µ ∓ 1.96σ
• das 0.5%- (bzw. 99.5%) Quantil findet man bei µ ∓ 2.58σ
Als gangige Abkurzung wollen wir noch folgende Bezeichnung einfuhren: Sei X eine Nor-
malverteilte ZVA mit den Parametern µ, σ. Dann wird dies im folgenden auch einfach mit
X ∈ N (µ, σ) bezeichnet.
Abbildung 8 Johann Carl Friedrich Gauss (1777-1855)
5.2.2 Zentraler Grenzwertsatz der Statistik
Der zentrale Grenzwertsatz der Statistik ist von fundamentaler Bedeutung in der Statistik
und hat der Normalverteilung ihre herausragenden Rolle gegeben. Er besagt: Seien Xi, i =
1, . . . , n unabhangige und identisch, aber beliebig verteilte Zufallsvariablen mit E(Xi) = µ
und V ar(Xi) = σ2. Dann ist das arithmetische Mittel
X =1
n
n∑
i=1
Xi (5.26)
30
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
wiederum eine Zufallsvariable, die asymptotisch fur große n Normalverteilt ist. Es gilt also
limn→∞
1n
∑ni=1(Xi − µ)
1√nσ
∈ N (0, 1) (5.27)
Grob gesagt besagt dies, dass eine Zufallsvariable, welche sich zusammensetzt als Summe
vieler, unabhangiger, Zufallsvariablen mit gleicher Verteilung, Gaußverteilt ist. Es ist jedoch
nicht bekannt, wann diese Konvergenz eintritt, und manchmal muss n sehr gross sein, um
naherungsweise eine Normalverteilung zu erhalten.
Der zentrale Grenzwertsatz der Statistik lasst sich erweitern auf Summen von Zufallsvaria-
blen, die nicht zwangslaufig die gleiche Verteilung haben. Dazu werden die Zufallsvariablen
zentriert und mit (nV ar(Xi))−1/2 normiert, so dass
Xni =Xi − E(Xi)√
nV ar(Xi).
Es gilt dann, dass E(Xni) = 0 und V ar(Xi) = σ2i und fur σ2
ni = V ar(Xni) gilt
0 < σ2ni = V ar(Xni) < ∞.
Es kann ausserdem gezeigt werden, dass∑n
i=1 σ2ni = 1. Der zentrale Grenzwertsatz von
Lindeberg besagt nun: Falls fur jedes ε > 0
limn→∞
[n∑
i=1
∫
|x|>ε
x2pi(x)dx
]
= 0 (5.28)
dann ist die Summe Yn =∑n
i=1 Xni im Grenzfall n → ∞ standardnormalverteilt N (0, 1).
5.2.3 Die χ2-Verteilung
Die χ2-Verteilung wird definiert als die Verteilung eine Summe der Quadrate von unabhan-
gigen und standard-normalverteilten ZVA. Sie ist also nur auf dem Raum der postitiven
reellen Zahlen definiert. Seien X1, X2, . . . , Xn ∈ N (0, 1) unabhangige ZVA, von denen jede
den Erwartungswert E(Xi) = 0 und die Varianz V ar(XI) = E(X2I ) = 1 besitzt. Die Summe
der Quadrate der ZVA Xi wird im Allgemeinen mit χ2 bezeichnet.
χ2 =∑
i
X2i . (5.29)
Entsprechend heißt die Verteilung dieser Zufallsvariablen χ2 auch die χ2-Verteilung. Ihre
Wahrscheinlichkeitsdichte lautet
f(x) = Knx(n−2)/2e−x/2 fur x > 0 (5.30)
31
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
und f(x) = 0 fur x ≤ 0. n ist hier eine positive Zahl und representiert die Freiheitsgrade der
Verteilung. Kn ist eine Konstante, die sich aus der Normierungsbedingung, dass das Integral
uber die Wahrscheinlichkeitsdichte von −∞ bis ∞ eins sein muss, ergibt als
Kn =1
2n/2Γ(n2). (5.31)
Γ(α) ist die Gamma-Funktion3, eine der wohl wichtigsten nichtelementaren Funktionen. Ist
n geradzahlig, so ist
Γ(n
2
)
= (n
2− 1)!. (5.34)
Fur n = 1 ist
Γ
(1
2
)
=√
π (5.35)
und damit erhalten wir fur ungerade n
Γ
(3
2
)
=1
2Γ
(1
2
)
=1
2
√π, Γ
(5
2
)
=3
2Γ
(3
2
)
=3
4
√π (5.36)
Abbildung 9 zeigt die pdf der χ2-Verteilung fur verschiedene Freiheitsgrade n. Fur n = 1
und n = 2 fallen die Kurven der pdf monoton ab. Fur n > 2 hat die pdf der χ2-Verteilung
ein Maximum bei n − 2 (zu berechnen uber f ′(x) = 0).
Der Erwartungswert einer χ2-verteilten Variablen mit n Freiheitsgraden ist
E(χ2) = µ = n (5.37)
und die Varianz ist
V ar(χ2) = 2n (5.38)
Es lasst sich zeigen, dass die χ2-Verteilung fur große n durch die Normalverteilung brauchbar
approximiert werden kann.
3Die Gamma-Funktion ist definiert (Eulersche Definition) durch das Integral
Γ(α) =
∫∞
0
e−ttα−1dt. (5.32)
Sie hat eine besondere Eigenschaft, namlich dass Γ(α + 1) = αΓ(α), was sich durch partielle Integration
herleiten laßt. Setzten wir α = 1, so erhalten wir Γ(1) =∫∞
0e−tdt = 1 und mit der oben genannten
Beziehung, auch Γ(2) = 1 · Γ(1) = 1! und Γ(3) = 2 · Γ(2) = 2! oder allgemein fur n = 1, 2, . . .
Γ(n + 1) = n! (5.33)
Die Gamma-Funktion ist also eine Verallgemeinerung der Fakultat.
32
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
0 2 4 6 8 100
0.2
0.4
0.6
0.8
1
1.2
1.4χ2−PDF (1 dof)
0 2 4 6 8 100
0.1
0.2
0.3
0.4
0.5χ2−PDF (2 dof)
0 5 10 15 200
0.05
0.1
0.15
0.2χ2−PDF (5 dof)
0 5 10 15 200
0.02
0.04
0.06
0.08
0.1χ2−PDF (10 dof)
Abbildung 9 pdf der χ2-Verteilung fur verschiedene Parameter (degrees of freedom).
5.2.4 Die Student-t-Verteilung
Die t-Verteilung wurde von W. L. Gosset 1908, der unter dem Pseudonym ”Student” veroffent-
lichte, eingefuhrt. Die t-Verteilung bildet die Grundlage fur viele statistische Tests.
X ∈ N (0, 1) sei eine Standard-Normalverteilte ZVA und Y eine von X unabhangige ZVA,
die eine χ2-Verteilung mit n Freiheitsgraden bezitzt. Unter diesen Voraussetzungen besitzt
die Variable
T =X
√
Y/n(5.39)
eine Student-t-Verteilung. Die t-Verteilung hat die Wahrscheinlichkeitsdichte
f(t; n) =Γ(
n+12
)
√nπΓ
(n2
) (1 + t2
n
)(n+1)/2(5.40)
Die Formel fur die Verteilungsfunktion ist sehr kompliziert und ist in ? nachzuschagen.
Die t-Verteilung ist um Null symmetrisch. Fur n = 1 existiert das erste Moment oder der
Erwartungswert nicht. Dies laßt sich in Abbildung 10 nachvollziehen. Fur den Fall n = 1
konvergiert zwar die pdf fur große t → ±∞ gegen Null, jedoch so langsam, dass das Integral∫∞0
tf(t; 1)dt nicht existiert. Der Spezialfall n = 1 heißt auch Cauchy-Verteilung. Fur n ≥ 2
33
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
ist der Erwartungswert E(T ) = 0. Aus dem selben Grund wie bereits fur den Erwartungswert
bei n = 1 existiert das zweite zentrale Moment, also die Varianz, erst fur n ≥ 3 und lautet
V ar(T ) =n
n − 2fur n ≥ 3 (5.41)
Fur große n > 10 wird die t-Verteilung der Normalverteilung sehr ahnlich und fur n > 30
vernachlassignbar klein.
−5 0 50
0.05
0.1
0.15
0.2
0.25
0.3
0.35student−t PDF (1 dof)
x−5 0 50
0.1
0.2
0.3
0.4student−t PDF (10 dof)
x
−5 0 50
0.1
0.2
0.3
0.4student−t PDF (20 dof)
x−5 0 50
0.1
0.2
0.3
0.4
x
student−t PDF (50 dof)
Abbildung 10 pdf der Student-t-Verteilung fur verschiedene Parameter (DOF).
5.2.5 Die Fisher-F -Verteilung
Die F -Verteilung ist eine andere Verteilung, die ganz eng mit der Normalverteilung zusam-
menhangt. Es wird gesagt, eine Variable ist Fisher-F -verteilt mit p und q Freiheitsgraden,
wenn die Dichtefunktion lautet
f(x; p, q) =
(pq
) p
2
Γ(
p+q2
)
Γ(
p2
)Γ(
q2
) x(p−2)/2
(
1 +p
qx
)−(p+q)/2
. (5.42)
Insbesondere gilt fur zwei unabhangige χ2-verteilte ZVA X und Y , dass die Variable F ,
welche als Quotient der beiden χ2-verteilte ZVA definiert ist, Fisher-F -verteilt ist
F =X/p
Y/q. (5.43)
34
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
Fur q > 2 lautet der Erwartungswert von F
E(F ) =q
q − 2(5.44)
und fur q > 4 lautet die Varianz
V ar(F ) =2q2(p + q − 2)
p(q − 2)2(q − 4). (5.45)
Also wie fur die t-Verteilung existieren fur die F -Verteilung nicht alle Momente. Die F -
Verteilung ist fur alle festen Freiheitsgrade p schief. Fur q → ∞ allerdings nahert sich die
F -Verteilung einer normalisierten χ2-Verteilung an.
0 0.5 1 1.5 20
1
2
3
4PDF der F−Verteilung (1,1) DOF
x
0 0.5 1 1.5 20
1
2
3
4PDF der F−Verteilung (1,10) DOF
x
0 1 2 3 40
0.2
0.4
0.6
0.8PDF der F−Verteilung (10,1) DOF
x
0 1 2 3 40
0.2
0.4
0.6
0.8PDF der F−Verteilung (10,10) DOF
x
Abbildung 11 pdf (links) der F -Verteilung fur verschiedene Parameter p und q (DOF).
5.3 Weitere Verteilungen
Viele atmospharische Variablen haben eine asymmetrische und damit schiefe Verteilung. Die
tritt auf, wenn die Werte, die eine Variable annehmen kann, durch eine physikalische Be-
dingung begrenzt sind. Die ist der Fall fur Niederschlag oder Windgeschwindigkeit, die ganz
einfach nicht negativ werden konnen. Wurden wir also an soche Daten eine Gaußverteilung
35
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
anfitten, so bekamen wir zumindest theoretisch eine von Null verschiedene Wahrscheinlich-
keit fur negativen Niederschlag, und das ist naturlich Unsinn. Es existieren verschiedene
theoretische Dichteverteilungen, die durch Null begrenzt sind und eine positive Schiefe ha-
ben.
5.3.1 Log-Normalverteilung
Viele Variablen, die nur positive Werte annehmen konnen und außerdem uber mehrere
Großenordungen variieren, konnen durch die Log-Normalverteilung dargestellt werden. Da-
zu wird eine logarithmische Transformation Y = ln X durchgefuhrt. Ist die transformier-
te Variable Y normalverteilt, so sagen wir, dass die transformierte ZVA X logarithmisch-
normalverteilt, oder eben log-normalverteilt ist. Es gilt also, dass die transformierte ZVA
Y = ln X normalverteilt ist mit
fY (ln x) =1√
2πσy
exp(−1
2
(ln x − µy
σy
)2
)
x > 0, (5.46)
wobei µy der Erwartungswert E(ln x) und σ2y die Varianz V ar(lnx) ist. Es gilt die Normie-
rungsbedingung fur Wahrscheinlichkeitsdichten, dass∫ ∞
−∞fX(x)dx =
∫ ∞
−∞fY (lnx)d ln x = 1
und da fur x > 0 d lnx = dxx
, gilt
fX(x) =fY (ln x)
x.
Entsprechend lautet dann die Dichteverteilung der log-normalverteilten ZVA X
fX(x) =1
x√
2πσy
exp(−1
2
(ln x − µy
σy
)2
), fur x > 0,
fX(x) = 0, fur x ≤ 0. (5.47)
Abbildung 12 zeigt die pdf der Log-Normalverteilung und die pdf der transformierten ZVA.
Die Log-Normalverteilung ist nach unten hin durch 0 beschrankt und bezitzt einen Modus.
Alle Momente existieren fur die Log-Normalverteilung und die entsprechenden Parameter
µ und σ lassen sich aus µy und σy und umgekehrt bestimmen. Der Mittelwert der Log-
Normalverteilung lasst sich aus dem Mittelwert der transformierten ZVA Y bestimmen als
E(x) = µ = eµy+σ2y/2 (5.48)
36
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
und die Varianz bestimmt sich aus
E((x − µ)2) = σ2 = µ2(eσ2y − 1). (5.49)
Abbildung 12 Log-Normalverteilung: a) pdf der log-normalverteilten ZVA, b) pdf der transfor-
mierten ZVA.
Die Log-Normalverteilung hat ahnliche Eigenschaften wie die Normalverteilung, allerdings
werden die additiven Eigenschaften durch multiplikative Eigenschaften ersetzt. Wenn also
x log-normalverteilt ist, dann ist z = axb, wobei a und b konstanten sind, ebenfalls log-
normalverteilt. Fur den Erwartungswert der transformierten ZVA gilt, dass
E[ln(axb)] = ln a + bE(ln x)
E[(ln(axb) − µy)2] = V ar[ln(axb)] = b2σ2
y (5.50)
Ausserdem gilt, wenn x und y zwei unabhangige log-normalverteilte ZVA sind, das z = xy
ebenfall log-normalverteilt ist und deren Transformierte den Erwartungswert und die Varianz
E(ln z) = E(lnx) + E(ln y)
V ar(ln z) = V ar(ln x) + V ar(ln y) (5.51)
bezitzt. Analog konnen auch Erwartungswert und Varianz von z = xy
geschrieben werden,
wobei beim Erwartungswert das + durch ein − ersetzt wird, wahrend die Varianz die gleiche
bleibt.
37
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
Diese pdf wird z.B. gebraucht fur monatliche Summen des Niederschlags wobei dann der
Parameter µ = 0 gesetzt wird. Viele hydrologische Daten, aber auch in anderen Gebieten
der Wissenschaft, wie der Medizin, sind naherungsweise log-normalverteilt. Allerdings ist
die Log-Normalverteilung nicht die einzige Verteilung, die zum Beispiel zur Darstellung des
Niederschlags benutzt wird.
5.3.2 Gamma-Verteilung
Wohl die haufigste Verteilung, die benutzt wird um Niederschlag der mittleren Breiten dar-
zustellen, ist die Gammaverteilung. Sie ist definiert durch die Dichteverteilung
f(x) =(X
β)(α−1)e−
xβ
βΓ(α), x, α ≥ 0 und β > 0. (5.52)
Die Gammaverteilung ist eine Verteilung mit zwei Parametern, dem ”Shape”-Parameter α
und dem ”Scale”-Parameter β.
0 1 2 3 4 50
1
2
3
4
5
6PDF der Gamma−Verteilung α=0.5, β=1
x
0 1 2 3 4 50
0.2
0.4
0.6
0.8
1PDF der Gamma−Verteilung α=1, β=1
x
0 2 4 6 8 100
0.1
0.2
0.3
0.4PDF der Gamma−Verteilung α=2, β=1
x
0 2 4 6 8 100
0.05
0.1
0.15
0.2PDF der Gamma−Verteilung α=5, β=1
x
Abbildung 13 pdf der Gamma-Verteilung fur verschiedene ”Shape”-Parameter α, wobei der ”Sca-
le”-Parameter β = 1 konstant ist.
Der Erwartungswert und die Varianz einer Gammaverteilten ZVA mit den Parametern α
38
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
und β berechnen sich als
E(X) = αβ
V ar(X) = αβ2 (5.53)
Fur α < 1 ist die Dichteverteilung sehr schief, wobei die Wahrscheinlichkeitsdichte gegen
unendlich geht fur x → 0. Fur α = 1 schneidet die Funktion die y-Achse bei f(0) = 1β
und
fallt dann exponentiell ab. Fur diesen Fall wird die Gammaverteilung auch Exponentialver-
teilung genannt. Auch die χ2-Verteilung ist eine Spezialform der Gammaverteilung wenn der
”Scale”-Parameter β = 2 gesetzt wird.
Das Schatzen der Parameter ist nicht so einfach wie bei der Normal- oder Log-Normalverteilung,
da die Parameter nicht identisch mit den Momenten der Verteilung sind. Außerdem ist die
Dichtefunktion der Gammaverteilung nicht analytisch integrierbar und zur Abschatzung der
Quantile muss die Verteilungsfunktion numerisch oder aus Tabellen abgeschatzt werden.
5.3.3 Weibullverteilung
Auch die Weibullverteilung ist auf nichtnegative Werte beschrankt und hat eine positive
Schiefe. Sie wird mitunter als Naherung an die NV im Fall positiv semidefiniter ZVA (z.B.
Windgeschwindigkeiten) benutzt.
Die Wahrscheinlichkeitsdichte der Weibullverteilung lautet (x ≥ 0, α > 0, β > 0)
f(x) =α
β
(x
β
)α−1
exp
[
−(
x
β
)α]
, (5.54)
wobei α als ”Shape”-Parameter und β als ”Scale”-Parameter bezeichnet werden. Die Vertei-
lungsfunktion lautet
F (x) = 1 − exp
[
−(
x
β
)α]
(5.55)
Eine Weibullverteilung lasst sich nicht so einfach anfitten wie die Log-Normalverteilung
und es bedarf dazu iterative Verfahren. Der Erwartungswert der Weibullverteilung ist gege-
ben durch
E(X) = µ = βΓ(1 +1
α) (5.56)
und die Varianz
V ar(X) = β2
[
Γ(1 +2
α) − Γ2(1 +
1
α)
]
. (5.57)
39
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
0 1 2 3 4 50
1
2
3
4
5
x
PDF der Weibull−Verteilung α=0.5
0 1 2 3 4 50
0.2
0.4
0.6
0.8
1
x
PDF der Weibull−Verteilung α=1
0 1 2 3 4 50
0.2
0.4
0.6
0.8
1
x
PDF der Weibull−Verteilung α=1
0 1 2 3 4 50
0.5
1
1.5
2
x
PDF der Weibull−Verteilung α=5
Abbildung 14 pdf der Weibull-Verteilung fur verschiedene ”Shape”-Parameter α.
Der Spezialfall der Weibullverteilung fur α = 2 wird auch Rayleighverteilung genannt, mit
f(x) = (2x
β2) exp(−x
β
2
). (5.58)
5.3.4 Beta-Verteilung
Es gibt jedoch auch ZVA die nach beiden Seiten, also auf ein Intervall, beschrankt sind.
Ein Beispiel ist dafur der Bedeckungsgrad oder relative Feuchte oder eben auch die Wahr-
scheinlichkeitsdichte selbst. So kann es nutzlich sein, die Vorhersage eine Wahrscheinlich-
keit, zum Beispiel, dass Niederschlag fallt, uber eine solche Dichtefunktion, die nur auf dem
Intervall [0, 1] definiert ist, zu beschreiben. Eine Dichteverteilung, die dies erfullt, ist die
Beta-Verteilung. Ihre Wahrscheinlichkeitsdichtefunktion lautet
f(x) =
[Γ(p + q)
Γ(p)Γ(q)
]
xp−1(1 − x)q−1, (5.59)
wobei 0 ≤ x ≤ 1 ist, und p, q > 0 die zwei Parameter der Beta-Funktion sind. Der Erwar-
tungswert und die Varianz der Beta-Funktion berechnen sich aus den Parametern als
E(X) =p
p + q
V ar(X) =pq
(p + q)2(p + q + 1). (5.60)
40
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
Die Dichtefunktion fur verschiedene Parameter p und q ist dargestellt in Abbildung 15. Es
ist eine sehr flexible Dichtefunktion. Fur p < 1 liegt das Maximum der Verteilung bei 0. Wenn
beide Parameter kleiner 1 sind, dann hat die Verteilung eine U-Form und zwei Maxima nahe
0 und 1. Die wird verwandt fur ZVA auf einem abgeschlossenen Intervall, deren Extremwerte
sehr haufig, aber deren Mittelwert selten auftreten (z.B. Bedeckungsgrad in Bremerhaven).
Sind p und q großer 1, so hat die Verteilung ein Maximum, ist also unimodal.
0 0.2 0.4 0.6 0.8 10
1
2
3
4PDF der Beta−Verteilung p=0.5, q=1
x
0 0.2 0.4 0.6 0.8 10
2
4
6
8PDF der Beta−Verteilung p=0.5, q=2
x
0 0.2 0.4 0.6 0.8 10
2
4
6
8PDF der Beta−Verteilung p=2, q=0.5
x
0 0.2 0.4 0.6 0.8 10
0.5
1
1.5
2PDF der Beta−Verteilung p=2, q=2
x
Abbildung 15 pdf der Beta-Verteilung fur verschiedene Parameter p und q
5.3.5 Multivariate Normalverteilung
Sei
~X = (~x, f(~x)), ~x ∈ q (5.61)
eine q-dimensionale ZVA. ~x heißt multivariat NV, wenn f(~x) die Form
f(~x) =1
Zexp(−1
2(~x − ~µ)tB(~x − ~µ)) (5.62)
hat, wobei B eine symmetrische, positiv-definite Matrix ist (d.h. alle Eigenwerte sind positiv)
und Z der Normierungsfaktor. Bedenke, daß eigentlich f(~x) = f(~x, ~µ,B)! Diese multivariat
41
5 Theoretische Wahrscheinlichkeitsdichteverteilungen
NV ZVA ist symmetrisch um ~µ, d.h.
∫ ∞
−∞. . .
∫ ∞
−∞(~x − ~µ)f(~x, ~µ,B) dx1dx2...dxq = ~0 (5.63)
Damit ist aber
E(~x − ~µ) = ~0
⇒ E(~x) = ~µ (5.64)
In der Bestimmungsgleichung von f(~x, ~µ,B) war B noch unbestimmt. Daher bildet man nun
~∇µ
∫ ∞
−∞. . .
∫ ∞
−∞(~x − ~µ) f(~x, ~µ,B) dx1dx2...dxq = ~0 (5.65)
Ausrechnen der Ableitung fuhrt auf (I ist die Einheitsmatrix, B = Bt)
∫ ∞
−∞. . .
∫ ∞
−∞(I − (~x − ~µ)(~x − ~µ)tB) f(~x, ~µ,B) dx1dx2...dxq = ~0 (5.66)
Damit wiederum gilt auch (O ist die Nullmatrix)
E(I − (~x − ~µ)(~x − ~µ)tB) = O (5.67)
und daraus folgend
E((~x − ~µ)(~x − ~µ)tB) = E(I) = I (5.68)
d.h. die Matrix B ist die Inverse der Kovarianzmatrix Σ. Damit ist im Fall der multivariaten
NV die gesamte Verteilung durch die Parameter ~µ und Σ vollstandig beschrieben.
42
6 Stichproben von ZVA
6 Stichproben von ZVA
6.1 Definition
Wir haben bisher gesehen, daß ZVA mit kontinuierlichem Stichprobenraum durch ihre Verteilungs-
oder Wahrscheinlichkeitsdichtefunktion gekennzeichnet sind. Wenn ein Experiment durch-
gefuhrt wird, so erzeugt das Experiment Daten, von denen i.A. die Verteilungsfunktion (oder
die pdf) und die Momente unbekannt sind. Es gibt lediglich das Wissen, daß das Expe-
riment ZVA produziert. Die Aufgabe der Statistik ist es nun, aus den Realisierungen der
ZVA, die nur eine (moglicherweise sehr geringe) Teilmenge des Stichprobenraums umfassen,
Informationen uber die Gesamtheit der ZVA zu ermitteln. Diese Gesamtheit wollen wir im
folgenden auch die Grundgesamtheit (GG) der ZVA nennen. Die Eigenschaften der GG wer-
den vollstandig durch die Verteilungs- oder Wahrscheinlichkeitsdichtefunktion beschrieben.
Ziel der mathematischen Statistik ist es also, aus der durch das Experiment gewonnenen Teil-
menge des Stichprobenraums – der sogenannten Stichprobe – verlaßliche Aussagen uber
die GG herzuleiten.
Sei X = (x, f(x)), x ∈ IR eine univariate, reelle ZVA, deren m verschiedene Realisierun-
gen in einem Experiment die Werte xi, i = 1, ..., m annehmen sollen. Die Zahl xi ist dann
eine Reprasentierung der ZVA Xi, die die gleiche pdf wie die ZVA X hat. Wir wollen dann
sagen, daß die ZVA Xi der GG der ZVA X entnommen wurden. Dann ist die Vektorvariable
~Xm = (X1, . . . , Xm) = ((x1, . . . , xm), f(x1)f(x2) . . . f(xm)), (x1, . . . , xm) ∈ IRm
eine m− dimensionale multivariate ZVA. Die Wahl der multivariaten pdf f(~x) =∏m
i=1 f(xi)
bedeutet, daß die Einzelereignisse xi unabhangig voneinander sind. Die Einzelereignisse xi
konnen also als unabhangige Wiederholungen eines Experiments gelten, das jedesmal eine
ZVA Xi liefert. Den Vektor ~Xm nennt man dann auch eine Stichprobe vom Umfang m der
univariaten ZVA X und den Vektor (x1, . . . , xm) eine Reprasentierung der Stichproben-ZVA
~Xm. Es ist wichtig festzustellen, daß
• das Erheben einer Stichprobe (sei es auch nur ein einziger Wert) ebenfalls ein Zu-
fallsprozess ist
Wichtig ist weiterhin die Forderung, daß die Stichprobenentnahme zufallig erfolgen soll und
damit die Einzelereignisse xi unabhangig sind. Das kann man gar nicht genug betonen,
43
6 Stichproben von ZVA
da schon in vielen statistischen Untersuchungen gegen diese grundlegende Voraussetzung
verstoßen wurde.
6.2 Schatzer
Es sei nun eine Realisierung der Stichproben-ZVA ~Xm der univariaten, reellen ZVA X gege-
ben. Ziel der Statistik ist es, die Eigenschaften der unbekannten Verteilungsfunktion oder pdf
der GG anhand der Realisierung zu ermitteln. Man kann zum einen versuchen, die pdf oder
die Verteilungsfunktion selbst naherungsweise aus der Realisierung der Stichprobe zu berech-
nen (”schatzen”). Zum anderen haben wir im letzten Kapitel gesehen, daß typische pdf ′s
durch ihre Parameter eindeutig beschrieben werden. Im Fall der Binomialverteilung waren
das die Zahlen n und p, im Fall der univariaten NV der Erwartungswert µ und die Streuung
σ. Man kann also auch aus der Realisierung der Stichprobe Parameterwerte schatzen und –
sofern diese es zulassen – von den geschatzten Parameterwerten auf die pdf der GG schlie-
ßen. Dieser letze Punkt ist sehr eng – wie man sich vorstellen kann – mit der Schatzung der
Momente der pdf der GG verbunden. Im folgenden sei gx ein Moment, ein Parameter oder
eine andere Eigenschaft der GG der ZVA X (z.B. die pdf selbst). gx ist keine ZVA!
Ein Schatzer fur gx sei die ZVA g( ~Xm), die ~Xm aus dem IRm abbildet in die Menge der
reellen Zahlen IR, mit dem Ziel, die eindeutig festgelegte Große gx so genau wie moglich zu be-
schreiben. Der Schatzer g ist eine ZVA mit pdf und Verteilungsfunktion im Stichprobenraum
von ZVA ~Xm. Die Große gx ist ein Moment, ein Parameter oder eine andere Eigenschaft der
GG (bspw. die pdf). Eine Realisierung eines Schatzers ist dagegen wieder das, was geschatzt
wird. Eine Realisierung eines Erwartungswertschatzers fur eine univariate ZVA ist also eine
Zahl. Eine Schatzer g heißt erwartungstreu, unverzerrt oder unverfalscht (engl. unbiased),
wenn gilt
E(g) = gx (6.1)
(wobei in der praktischen Arbeit das gx i.a. unbekannt ist). Gerne wird in der Literatur mit
dem Begriff Bias die Verzerrung eines Schatzers beschrieben. Das zweite, zentrierte Moment
eines unverzerrten Schatzers E((g−gx)2) heißt mittlerer quadratischer Fehler des Schatzers.
Sei g∗ ein weiterer unverzerrter Schatzer fur gx. Dann heißt g effizienter, wenn gilt
E((g − gx)2) < E((g∗ − gx)
2) (6.2)
44
6 Stichproben von ZVA
Eine Schatzung heißt konsistent, wenn gilt
limm→∞
E((g − gx)2) = 0 (6.3)
Ziel ist es naturlich, Schatzer zu finden, die unverzerrt, konsistent und effizient sind. So-
bald man sich also einen Schatzer ausgedacht hat, sollte man die Eigenschaften uberprufen.
Manchmal erweist sich das allerdings als unmoglich. Hier helfen einem dann die Monte Carlo
Experimente. Aus vorgegebenen, bekannten GG (d.h. bekannten pdf ’s oder Verteilungsfunk-
tionen) werden viele Stichproben mit einer großen Anzahl von Realisierungen (Ereignissen)
entnommen. Aus jeder Stichprobe wird der Schatzer g(x) berechnet und die Menge aller
berechneten Schatzer wird als Realisierung einer Stichprobe der ZVA ”Schatzer fur gx” ge-
nommen, aus der man dann z.B. den mittleren quadratischen Fehler berechnen (weil ich
gx ja kenne) kann.
6.3 Schatzung der pdf, Haufigkeitsverteilung
Die Wahrscheinlichkeit der GG uber einem Intervall der Breite ∆j war in (3.12) schon defi-
niert worden als
p(∆j) =
∫
∆j
f(x) dx (6.4)
Das Intervall ∆j soll klein sein und muß a-priori d.h. ohne Information aus der Stichprobe,
zu Beginn der statistischen Untersuchung festgelegt werden. Die ∆j konnen unterschied-
lich breit sein. Liegt nun eine Stichprobe vor, deren Umfang m groß genug ist, so ist die
Wahrscheinlichkeit p(∆j) proportional zur relativen Haufigkeit der Stichprobenelemente xi
im Intervall ∆j. Im Grenzubergang m → ∞ gilt dann
p(∆j) = limm→∞
|xi ∈ ∆j|m
(6.5)
Die Bezeichnung |∗| steht fur die Anzahl der Elemente der entsprechenden Menge. Die
Folge H(∆j), j = 1, ..., k mit
H(∆j) =|xi ∈ ∆j|
m(6.6)
nennt man das Histogramm der Realisierung der Stichprobe ~Xm. Dabei uberdecke∑k
j=1 ∆j
den gesamten Wertebereich der Stichprobe. Ein Schatzer fur die pdf f(x) ist dann
gm(xi) = fm(xi) = ( |xi ∈ ∆j|m∆j
, P (xi)), xi ∈ ∆j (6.7)
45
6 Stichproben von ZVA
bzw.
fm(xi) = fm(H(∆j)) = (H(∆j)
∆j, P (H(∆j))), H(∆j) ∈ [0, 1] (6.8)
6.4 Schatzer der Verteilungsfunktion,
Empirische Verteilungsfunktion
Sei X eine ZVA und x1, . . . , xm eine Realisierung der Stichproben-ZVA ~Xm. Dann ist ein
Schatzer der Verteilungsfunktion gegeben durch
F m(x) = ( |xi, xi ≤ x, i = 1, ..., m|m
, P (xi)), xi ∈ IR (6.9)
mit der gleichen Bedeutung der Notation |∗| wie oben. F m ist eine Treppenfunktion mit
den Stufen eines Vielfachen von 1m
und wird of empirische Verteilungsfunktion genannt.
Nimmt man als Werte der unabhangigen Variablen x die aufsteigend sortierten Werte der
Stichprobe, so springt die empirische Verteilungsfunktion (meistens) um genau den Wert 1m
.
Wann nicht ??.
• Dieser Schatzer der Verteilungsfunktion von X ist unverfalscht.
Beweis:
Sei die Stichprobenlange m fest und a eine beliebige reelle Zahl. Die Definition des Schatzers
F m bedeutet, daß mF m(a) die Anzahl der Stichprobenelemente xi ist mit xi ≤ a. Die Wahr-
scheinlichkeit, ein Stichprobenelement mit xi ≤ a zu finden, ist aber gemaß der Definition
der Verteilungsfunktion Prob(x ≤ a) = F (a). Also ist die Zufallsvariable
mF m(a) = (|xi, xi ≤ a, i = 1, m|, B(m, F (a), |xi, xi ≤ a, i = 1, m|)), xi ∈ IR (6.10)
eine binomialverteilte ZVA mit den Parametern F (a) und m. Der Erwartungswert einer
solchen ZVA ist aber (s.o.)
E(mF m(a)) = mF (a) (6.11)
oder, da m beliebig aber fest
E(F m(a)) = F (a) (6.12)
Entsprechend folgt aus der Binomialverteilung die Varianz des Schatzers F m zu
Var(mF m(a)) = mF (a)(1 − F (a)) (6.13)
46
6 Stichproben von ZVA
oder
Var(F m(a)) =1
mF (a)(1 − F (a)) (6.14)
• Also ist F m ein konsistenter Schatzer von F (x).
Aus der Erwartungstreue des Schatzers der Verteilungsfunktion folgt auch die Erwartungs-
treue des Schatzers der pdf . Der Schatzer F m wird durch eine lineare Operation aus den
Haufigkeiten fm gewonnen (Summation):
E(
∫ b
a
fm(xi)dxi) = E(F m(b) − F m(a))
= F (b) − F (a) =
∫ b
a
f(x)dx (6.15)
oder – abgesehen von Mengen vom Maß Null –
E(fm(xi)) = f(x) (6.16)
6.5 Schatzung des Erwartungswertes
Der Erwartungswert µ1 (wird jetzt immer statt m1 benutzt) der zentrierten ZVA X war
definiert als
µ1 =
∫
xf(x)dx (6.17)
Nimmt man fur f(x) den oben (6.7 bzw. 6.8) hergeleiteten, fur das Intervall ∆j gultigen
Schatzer fm(xi), so erhalt man:
µ′1 =
k∑
j=1
∫
∆j
xH(∆j)
∆jdx (6.18)
Das Integral ist uber das Intervall ∆j zu bilden, die einzelnen Intervalle sind von 1 bis k zu
summieren.
Noch einmal zur Vergewisserung
Da die Stichprobe eine ZVA ist, ist das arithmetische Mittel der Stichprobenelemente
ebenfalls eine ZVA und damit ist der Schatzer des Erwartungswertes eine ZVA! Der
Erwartungswert selbst dagegen ist keine ZVA!
47
6 Stichproben von ZVA
Sind die Intervalle ∆j zufallig a-priori genau so gelegt, daß nur ein Element der Realisierung
der Stichproben-ZVA in jedem Intervall liegt und das auch noch genau in der Mitte des
Intervalls, so erhalt man:
µ1 =m∑
i=1
1
mXi (6.19)
d.h., das arithmetische Mittel der Stichprobenrealisierung ist dann ein Schatzer des Erwar-
tungswertes. In diesem Spezialfall ist der Schatzer des Erwartungswertes unverfalscht.
Beweis:
E(µ1) = E(m∑
i=1
1
mXi) =
m∑
i=1
1
mE(Xi)
=
m∑
i=1
1
mE(X) =
m∑
i=1
1
mµ1 = µ1 (6.20)
Die Varianz des Schatzers µ1 ist
Var(µ1) = E((1
m
m∑
i=1
Xi) − µ1)2
= E((1
m
m∑
i=1
Xi)2 − 1
m2
m∑
i,j=1
µ21)
=1
m2
m∑
i,j=1
E(XiXj − µ21)
=1
m2
m∑
i,j=1
E((Xi − µ1)(Xj − µ1)) (6.21)
Wegen der Unabhangigkeit der Stichprobe folgt fur die Kovarianzmatrix
E((Xi − µ1)(Xj − µ1)) = σ2δi,j (6.22)
(δi,j ist das Kroneckersymbol). Dann folgt fur die Varianz des Erwartungsschatzers
Var(µ1) =1
m2
m∑
i=1
σ2 =1
mσ2 (6.23)
d.h. der Schatzer µ1 ist ein konsistenter Schatzer.
6.6 Schatzung der Varianz
Das zweite zentrierte Moment µ2 war definiert worden als
µ2 =
∫
(x − µ1)2f(x)dx (6.24)
48
6 Stichproben von ZVA
Geht man vor wie beim Erwartungswert, erhalt man als Schatzer der Varianz µ2 von X
µ2 = σ2 =1
m
m∑
i=1
(Xi − µ1)2 (6.25)
Man berechnet den Erwartungswert dieses Schatzers folgendermaßen (mit m · µ1 =∑
Xi)
E(σ2) = E(1
m
m∑
i=1
(Xi − µ1)2) = E(
1
m
m∑
i=1
(Xi − µ1 − (µ1 − µ1))2)
=1
mE(
m∑
i=1
(Xi − µ1)2 − m(µ1 − µ1)
2) =1
m
m∑
i=1
σ2 − Var(µ1)
= (1 − 1
m)σ2 (6.26)
Der in (6.25) konstruierte Schatzer der Varianz ist also verzerrt und zwar wird die Varianz
der GG unterschatzt um die Varianz des Erwartungsschatzers (6.23). Der Schatzer ist asym-
ptotisch verzerrt, denn fur m → ∞ verschwindet die Verzerrung. Benutzt man statt dessen
als Schatzer fur σ2 folgenden Ausdruck
s2 =1
m − 1
m∑
i=1
(Xi − µ1)2 (6.27)
so erhalt man als Erwartungswert des Schatzers
E(s2) = σ2 (6.28)
also einen unverfalschten Schatzer. Der unverzerrte Varianzschatzer wird im Folgenden mit
s bezeichnet, um ihn von dem verzerrten Schtzer σ zu unterscheiden.
Die Varianz des ersten Schatzer fur µ2 laßt sich mit etwas Algebra bestimmen zu
Var(σ2) =1
m(µ4 − µ2
2) −2
m2(µ4 − 2µ2
2) +1
m3(µ4 − 3µ2
2) (6.29)
Ist die ZVA X normalverteilt, reduziert sich der Ausdruck wegen µ4 = 3µ22 zu
Var(σ2) =2(m − 1)
m2σ4 (6.30)
Berechnet man die Varianz des unverzerrten Varianzschatzers, so ist diese großer als die
des verzerrten (nur ”asymptotisch unverzerrten”) Schatzers. Der verzerrte Schatzer ist al-
so effizienter als der unverzerrte. Dies ist ein typischer Fall in der Statistik: die Qualitat
von Schatzern wird bestimmt von der Balance zwischen Varianz und Verzerrung (Bias) der
Schatzer.
49
6 Stichproben von ZVA
6.7 Maximum Likelihood Methode
Bisher wurden die Schatzer fur Parameter von Verteilungsfunktionen oder Momente von ZVA
mehr oder weniger ad-hoc eingefuhrt. Es gibt jedoch auch ein allgemeines Verfahren fur die
Schatzung von Parametern von Verteilungsfunktionen: die Maximum-Likelihood Methode.
Sei X eine univariate reelle ZVA und ~Xm die Stichproben ZVA. Wenn f(x) die pdf fur X
ist, war die entsprechende pdf der Stichproben ZVA gegeben als
f(~x) =m∏
i=1
f(xi) (6.31)
Sei ~λ der Parametervektor der pdf f(x), also im Fall von NV ZVA ~λ = (µ, σ). Wenn
(x1, . . . , xm) eine Realisierung der Stichproben ZVA ist, so ist die Wahrscheinlichkeit, diese
Realisierung zu finden, gegeben durch
p((x1, . . . , xm), ~λ) =
m∏
i=1
(f(xi, ~λ) dxi) (6.32)
Die Maximum Likelihood Schatzung (MLS) des Parametervektors ~λ ist nun der Vektor ~λ,
der die Funktion L
L =m∏
i=1
f(xi, ~λ) (6.33)
maximiert. L heißt auch Likelihood Funktion. Dabei handelt es sich aber um eine Zufallsgroße
und nicht um eine analytische Funktion. Da der Logarithmus eine streng monoton steigende
Funktion ist, ist die MLS von ~λ auch der Wert, der die logarithmische Likelihood Funktion l
l =m∑
i=1
ln f(xi, ~λ) (6.34)
maximiert.
l(~λ)!= max (6.35)
Beispiel: die MLS des Parametervektors einer Stichprobe aus einer NV univariaten GG ist
(a) der arithmetische Mittelwertschatzer und (b) der verzerrte Schatzer der Varianz.
Beweis: Es gilt
f(x) =1√2πσ
exp(−1
2
(x − µ)2
σ2) (6.36)
und
f(xi) =1√2πσ
exp(−1
2
(xi − µ)2
σ2) (6.37)
50
6 Stichproben von ZVA
Dann folgt fur die log-Likelihoodfunktion
l = −1
2
m∑
i=1
(xi − µ)2
σ2− m ln σ − C (6.38)
Die Maximumsbedingung lautet dann
∂l
∂µ=
m∑
i=1
(xi − µ)
σ2= 0 (6.39)
und∂l
∂σ=
1
σ3
m∑
i=1
(xi − µ)2 − m
σ= 0 (6.40)
Daraus ergibt sich die Losung
µ =1
m
m∑
i=1
xi (6.41)
und
σ2 =1
m
m∑
i=1
(xi − µ)2 (6.42)
Die MLS Methode ist eine sehr brauchbare Methode zur Bestimmung von Parametern aus
Stichproben, zumal aus der 2. Ableitung der (log-)Likelihoodfunktion auch noch ein Gutemaß
der geschatzten Parameter (Konfidenzintervall) berechnet werden kann. Dies geschieht hier
nicht. Was ein Konfidenzintervall ist und wie diese auch ohne MLS fur die Standardschatzer
berechnet werden konnen, soll in Kapitel 5.10 besprochen werden.
6.8 Ubung
Entnimm aus einer NV ZVA mit Erwartungswert 1 und Streuung 2 mit Hilfe eines Zufallszah-
lengenerators je 100 Stichproben vom Umfang m = 10, 20, 30, 40. (Monte Carlo Experiment)
1. Schatze die Verteilungsfunktion der GG durch die Daten jeder Realisierung. Plotte die
100 Schatzungen zusammen mit der Verteilungsfunktion der GG (erf(x)).
2. Schatze den Erwartungswert aus jeder Realisierung. Vergleiche mit dem vorgegebe-
nen Erwartungswert. Wie groß ist die zu erwartende Streuung der Schatzungen des
Erwartungswertes?
3. Schatze Varianz (Streuung) mit dem erwartungstreuen und dem verzerrten Schatzer.
Vergleiche mit der Varianz der GG. Kann man die Verzerrung des zweiten Schatzers
erkennen?
51
6 Stichproben von ZVA
6.9 Verteilungen von Schatzern
Bisher wurden von den ZVA ’Schatzer’ Parameter berechnet (nicht geschatzt!). Denn der
Schatzer ist eine ’Formel’, in der die Werte der Stichprobe verwendet werden (= zur Rea-
lisierung der ZVA dienen). Mit dieser Formel kann aber der Parameter (Erwartungswert
oder Varianz) berechnet werden. Da ein Schatzer eine ZVA darstellt, gibt es eine pdf fur
den Schatzer. Nachdem zunachst beschrieben wurde, was wie geschatzt wird (namlich der
Parameter einer anderen ZVA) und dann nach den Parametern des verwendetet Schatzers
gefragt wurde, soll nun gezeigt werden wie die pdf eines Schatzers aussieht.
6.9.1 Verteilung eines Erwartungswertschatzers
Man betrachtet eine Stichprobe (X1, . . . , Xm) vom Umfang m aus einer normalverteilten GG
N (µ, σ). Die ZVA
µ =1
m
m∑
i=1
Xi (6.43)
ist dann ja ebenfalls eine NV ZVA mit Erwartungswert
E(µ) = µ (6.44)
und Varianz
σ2(µ) =σ2
m(6.45)
Der Beweis folgt aus dem Zentralen Grenzwertsatz. µ ist naturlich genau der Erwartungs-
wertschatzer (5.19) der mit der Maximum Likelihood Methode entwickelt worden war. Er
ist NV und in Kap.5.5 mit den dort genannten Voraussetzungen schon benutzt worden. Auf
den Index 1 wurde hier der Einfachheit halber verzichtet.
6.9.2 Verteilung eines Varianzschatzers - χ2 Verteilung
Seien die Xi allesamt N (0, 1). Dann ist die ZVA
χ2 =m∑
i=1
X2i (6.46)
χ2-verteilt mit m Freiheitsgraden (beachte, daß hier in der Notation nicht mehr zwischen
ZVA und deren Reprasentierung - sonst Groß-/Kleinschreibung - unterschieden werden kann)
χ2 = (χ2, f(χ2)), χ2 ∈ IR (6.47)
52
6 Stichproben von ZVA
Die Wahrscheinlichkeitsdichte der ZVA χ2 ist
f(χ2) =1
Γ(λ)2λ(χ2)
λ−1exp(−χ2
2) (6.48)
wobei
λ =m
2(6.49)
und
Γ(λ) =
∫ ∞
0
uλ−1 exp(−u)du (6.50)
die Gammafunktion ist. m ist ein Parameter der χ2 Verteilung und entspricht der Anzahl
der Freiheitsgrade der Verteilung. Die Verteilungsfunktion hat die Form
F (χ2) =1
Γ(λ)2λ
∫ χ2
0
uλ−1 exp(−u
2)du (6.51)
Der Erwartungswert und die Varianz einer χ2 verteilten ZVA lassen sich berechnen zu
E(χ2) = m
Var(χ2) = 2m (6.52)
wenn man die pdf durch die Gammafunktion ausdruckt und berucksichtigt, daß
Γ(λ + 1) = λΓ(λ) (6.53)
Die Erweiterung auf NV ZVA Xi mit Mittelwert µ und Streuung σ erfolgt einfach dadurch,
daß man die ZVA
χ2 =m∑
i=1
(Xi − µ
σ)2 (6.54)
die ihrerseits wieder χ2-verteilt ist, betrachtet. Man verwendet also weiterhin die standardi-
sierte NV, jedoch mit veranderten Integrationsgrenzen (von x zu (x−µ)σ
).
Gesucht wird aber nach der Verteilung des Varianzschatzers (verzerrt oder unverzerrt)
σ2 = s2 =1
m − 1
m∑
i=1
(Xi − µ)2 (6.55)
Man kann unter den gegebenen Umstanden zeigen, daß auch die ZVA
(m − 1)s2
σ2(6.56)
mit dem unverzerrten Varianzschatzer aus (6.27) χ2-verteilt ist, jedoch mit nur m − 1 Frei-
heitsgraden.
53
6 Stichproben von ZVA
Dazu mussen die xi ∈ N (µ, σ) orthogonal auf die yi einer neuen ZVA transformiert werden,
derart, daß Summen von xi die yi bilden. Dann sind die yi auch NV und haben bei geschickter
Wahl der Transformation den Mittelwert 0 und die Streuung 1. ym wird dabei ausgedruckt
durch√
mµ. Die Orthogonalitat zwischen x und y sorgt dafur, daß
m∑
i=1
x2i =
m∑
i=1
y2i (6.57)
Dadurch wird
(m − 1)σ2 =m∑
i=1
(xi − µ)2 =m∑
i=1
x2i − mµ2
=m∑
i=1
y2i − y2
m =m−1∑
i=1
y2i (6.58)
Somit ist auch die Große aus (6.56)) χ2-verteilt.
Alle Beweise siehe Brandt, Datenanalyse ([3]).
6.9.3 Beziehung zwischen Erwartungswert- und Varianzschatzer -
Student - t Verteilung
Sei X eine NV ZVA und Y eine χ2-verteilte ZVA mit m Freiheitsgraden. Weiterhin seien X
und Y unabhangig. Dann folgt die ZVA, die wie folgt gebildet wird
T =X
√
(Y/m)(6.59)
der sogenannten Student-t Wahrscheinlichkeitsdichte mit m Freiheitsgraden
f(t) =Γ(m+1
2)√
mπΓ(m2)(1 +
t2
m)−
m+1
2 (6.60)
Der Erwartungswert der Student-t ZVA ist fur m = 1 nicht definiert, fur m ≥ 2 folgt
E(T ) = 0. Die Varianz der Student-t ZVA ist fur m = 1, 2 nicht definiert und ist fur m ≥ 3
Var(T ) = m(m−2)
. Damit sind die Verteilungen fur Erwartungswert- und Varianzschatzer in
einer ZVA vereint. Die Verteilung des Quotienten ist bekannt.
54
6 Stichproben von ZVA
6.9.4 Beziehung zwischen 2 Varianzschatzern - Fisher-F Verteilung
In engem Zusammenhang mit der in 5.9.2 vorgestellten χ2 Verteilung steht die von R.A.Fisher
([10]) 1924 erstmals urkundlich erwahnte F -Verteilung. Sie hat die Form
F (x) = 0 fur negative x
F (x) =Γ(mx+my
2)
Γ(mx
2)Γ(my
2)mmx/2
x mmy/2y
∫ x
0
u(mx−2)/2
(mx + my)(mx+my)/2du (6.61)
Fisher-F -verteilt sind ZVA vom Typ
X =X(x)
mx
my
X(y)(6.62)
Dabei folgen die ZVA X (x) und X(y) jeweils der χ2-Verteilung mit mx bzw. my Freiheits-
graden. Die Verteilungsfunktion der F -Verteilung kennzeichnet man daher auch oft mit der
Schreibweise F (x, mx, my). Sie hat die besondere Eigenschaft
F (x, mx, my) =1
F (x, my, mx)(6.63)
Folgende Kenngroßen der F -Verteilung kann man angeben
E(X) =my
my − 2fur my > 2
V ar(X) =2m2
y(mx + my − 2)
mx(my − 2)2(my − 4)fur my > 4 (6.64)
Insbesonders ist auch der Quotient zweier ZVA vom Typ
(m − 1)σ2
x
σ2y
(6.65)
die schon in (5.43) aufgetaucht waren, F -verteilt. Damit wird die F -Verteilung beim Vergleich
von Varianzen in Kap.7.4 Verwendung finden.
6.10 Konfidenzintervalle
Bisher haben wir das Problem behandelt, wie die Parameter der pdf oder die Momente der
ZVA geschatzt werden, wenn aus einer GG eine Stichprobe gegeben ist (Punktschatzungen).
Wir haben gesehen, daß der Prozeß der Stichprobenentnahme wieder eine Zufallsvariable ist
und somit die aus einer Realisierung der Stichproben ZVA berechneten Schatzer wieder ZVA
sind, die wiederum durch pdf ′s (bzw. ihre Momente) beschrieben werden. Eine andere Frage,
55
6 Stichproben von ZVA
die man stellen kann, ist, wie groß ein Intervall [a, b] ist, in dem die Schatzung des Parame-
ters mit einer bestimmten, a-priori festgelegten Wahrscheinlichkeit liegt. Dieses Intervall
heißt Konfidenzintervall. Ist das Intervall klein und die festgelegte Wahrscheinlichkeit hoch,
so ist der Parameter relativ genau bestimmbar. Anhand eines etwas akademischen Beispiels
sei die Vorgehensweise im nachsten Unterkapitel beschrieben. Die etwas realistischeren An-
wendungen werden in den anderen Unterkapiteln besprochen.
6.10.1 Konfidenzintervall fur den Mittelwert bei bekannter Varianz einer
normalverteilten GG
Sei ~Xm die Stichprobenvariable fur eine normalverteilte GG N (µ, σ). Die Streuung σ sei als
bekannt vorausgesetzt. Der Erwartungswert sei geschatzt durch die ZVA
µ =1
m
m∑
i=1
Xi (6.66)
Dann ist die reduzierte ZVA Z ausgedruckt durch
z =√
mµ − µ
σ(6.67)
eine NV ZVA mit N (0, 1) (s. Ergebnisse oben). Sei γ ∈]0, 1[ die a-priori festgelegte Wahr-
scheinlichkeit, die ZVA Z in einem bestimmten Konfidenzintervall zu beobachten. Wir suchen
also die Zahlen a und b, so daß gilt
Prob(a ≤ z ≤ b) = γ (6.68)
Betrachtet man nur um 0 symmetrische Intervalle, folgt a=−b. Mit Hilfe der Fehler-Funktion
erf(x) laßt sich die linke Seite ausdrucken als
Prob(−b ≤ z ≤ b) = erf(b) − erf(−b) = γ (6.69)
Daraus folgt mit erf(−b) = 1 − erf(b) als Gleichung fur b:
erf(b) =1 + γ
2(6.70)
d.h. b ist das Quantil der Normalverteilung zum Wahrscheinlichkeitswert (1 + γ)/2. Wahlt
man also γ nahe an 1, so bedeutet das, daß die Wahrscheinlichkeit, die ZVA Z im Intervall
[−b, b] zu beobachten, sehr groß ist. Ist dabei b eine Zahl, die klein gegen σ ist, bedeutet
56
6 Stichproben von ZVA
das, daß mit einer hohen Wahrscheinlichkeit die ZVA Z in einem kleinen Intervall liegt,
daß also die durch die Zufalligkeit der Stichprobe erzeugte Variabilitat des Schatzers µ mit
hoher Wahrscheinlichkeit gering ist. Damit ist also der gesuchte Parameter ”gut” schatz-
bar. Die Intervallgrenze b ist keine ZVA, da sie aus der theoretischen Verteilungsfunktion
fur die Schatzer (genauer aus der Inversen der Verteilungsfunktion) bestimmbar ist. b ist
fur die unterschiedlichsten Verteilungsfunktionen als Funktion der a-priori Wahrscheinlich-
keit γ tabelliert oder als FORTRAN Subroutine z.B. in der mathematischen Library IMSL
verfugbar.
Es ist ublich, das Konfidenzintervall der reduzierten ZVA wieder in ein Intervall um den
unbekannten Erwartungswert (allgemein um den unbekannten Parameter) µ umzurechnen.
Dies ist das Intervall, in dem man mit einer Wahrscheinlichkeit (aber nicht γ) den Parameter
vermutet. Deshalb nennen einige Autoren das so umgerechnete Konfidenzintervall auch ”Mu-
tungsbereich”. Fur den vorliegenden Fall ergibt sich mit b als Losung der letzten Gleichung
und der Definition der reduzierten ZVA Z
µ − bσ√m
≤ µ ≤ µ +bσ√m
(6.71)
Die so berechneten Intervallgrenzen sind naturlich wieder ZVA und damit von dem Konfi-
denzintervall der reduzierten ZVA Z deutlich zu unterscheiden.
6.10.2 Konfidenzintervall fur den Mittelwert einer normalverteilten GG bei
geschatzter Varianz
Sei wiederum ~Xm die Stichproben ZVA einer normalverteilten GG mit N (µ, σ). Als Schatzer
des Erwartungswerts und der Streuung seien der Stichprobenmittelwert 1m
∑mi=1 xi und der
unverzerrte Schatzer der Varianz (5.27) gewahlt. Dann kann man zeigen, daß die ZVA Z (s.
5.67) und Y unabangige ZVA sind, d.h. cov(Z, Y ) = 0 (Beweis siehe Kreyszig, S.381 [4]),
wenn man Y wie folgt festlegt:
Y =
∑mi=1(Xi − µ)2
σ2(6.72)
Da Z und Y unabhangig sind, ist ganz offensichtlich die ZVA T mit
T =Z
√
Y/(m − 1)(6.73)
eine Student-t verteilte ZVA mit m − 1 Freiheitsgraden. Das Konfidenzintervall [−b, b] zum
a-priori Wahrscheinlichkeitswert γ folgt dann analog zum letzten Unterkapitel, wobei die
57
6 Stichproben von ZVA
erf -Funktion jedoch durch die Verteilungsfunktion der Student-t Verteilung FSt−t ersetzt
wird:
FSt−t(b) =1 + γ
2(6.74)
Dann kann man wieder den Mutungsbereich fur den Erwartungswert angeben als
µ − bσ√m
≤ µ ≤ µ +bσ√m
(6.75)
Es gilt naturlich wiederum: b ist keine ZVA, sondern wohldefiniert, die Intervallgrenzen des
Mutungsbereichs dagegen sind ZVA.
6.10.3 Konfidenzintervall fur den Schatzer der Varianz einer NV GG
Die ZVA Y laßt sich auch schreiben als
Y = (m − 1)σ2
σ2(6.76)
und ist damit eine χ2-verteilte ZVA mit m − 1 Freiheitsgraden. Es lassen sich nun auch
Konfidenzintervalle fur Y ausrechnen. Allerdings ist die χ2 Verteilung nicht symmetrisch, so
daß man die Losungen der Gleichungen (Fχ ist die Verteilungsfunktion der χ2- Verteilung)
Fχ(a) =1
2(1 − γ)
Fχ(b) =1
2(1 + γ) (6.77)
bestimmen muß, da gelten soll:
Fχ(b) − Fχ(a) = γ (6.78)
Die entsprechenden Losungen sind tabelliert oder als IMSL Routinen anwahlbar. Das ent-
sprechende Mutungsintervall ergibt sich dann als
m − 1
bσ2 ≤ σ2 ≤ m − 1
aσ2 (6.79)
58
7 Prufung statistischer Hypothesen, Tests
7 Prufung statistischer Hypothesen, Tests
7.1 Allgemeine Bemerkungen
Bisher sind u.a. folgende Probleme der mathematischen Statistik behandelt worden (s.Kap.5)
• Schatzung von Parametern oder Momenten der pdf einer GG, aus der eine Stichprobe
~Xm gegeben war (Punktschatzung).
• Bestimmung von Vertrauensgrenzen oder die Berechnung der Gute der geschatzten
Parameter (Intervallschatzung).
Sehr oft liegt in der mathematischen Statistik das Problem vor, daß man ein Vorurteil bzw.
Vorwissen uber eine GG hat und dieses mit einer Stichprobe uberprufen mochte. So verfugt
man in der klimatologischen Forschung ja sogar immer nur uber Stichproben des Experiments
”Klimasystem”. Mit diesen verschafft man sich das ”Vorwissen” (eher wohl die Vermutung)
uber die GG dieses Experiments, die dem Menschen aber immer unbekannt bleiben wird.
Im Sprachgebrauch der Statistik bezeichnet man dies als Hypothese.
• Der Hypothesentest besteht nun darin, objektiv zu prufen, wie gut diese Vermutung
bezuglich der GG (i.a. handelt es sich um eine Vermutung uber die pdf der GG) mit
den Daten der Stichprobe zu vereinbaren ist.
Die Prufung kann allenfalls zur Ablehnung der Hypothese fuhren. Im gegenteiligen Falle
stellt man nur fest, daß die Aussage der Stichprobe nicht gegen das Vorwissen uber die GG
spricht. Man kann nie 100%ig sicher sein, die richtige Entscheidung zu treffen. Man kann
nur Signifikanz-/Irrtumsniveaus angeben, innerhalb derer die getroffene Entscheidung richtig
ist. Zu jeder Hypothese gibt es in naturlicher Weise zumindest eine Gegenhypothese (”Es ist
nicht so!”). Zur Unterscheidung nennt man die zu testende Hypothese die Nullhypothese
H0 und die Hypothese gegen die H0 getestet wird die Alternativhypothese H1. Erzielt
ein Wissenschaftler eine bisher unbekannte Erkenntnis, so muß er sich selbst den Zweifel der
wissenschaftlichen Gemeinschaft formulieren und mit einem Test versuchen, die virtuellen
Zweifler von seiner Erkenntnis zu uberzeugen.
Die Durchfuhrung statistischer Hypothesentests verlauft i.a. nach einem Schema, das im
Folgenden dargelegt werden soll. Zuerst wird das Hypothesenpaar aus Null- und Alterna-
tivhypothese explizit formuliert. Man sollte sich sogar angewohnen, das immer schriftlich
59
7 Prufung statistischer Hypothesen, Tests
Es gilt in der GG Es gilt in der GG
Testausgang H0 ist wahr/H1 ist falsch H0 ist falsch/H1 ist wahr
u < uα ⇔ H0 akzeptieren richtig, (1 − α) Fehler 2.Art β
u > uα ⇔ H1 akzeptieren Fehler 1.Art, α richtig,(1 − β)
Tabelle 1 Entscheidungstabelle bei statistischen Hypothesentests, Definition Fehler 1. und
2. Art
zu fixieren! Dies legt zwei GG und entsprechende ZVA, unsere Testvariable, fest. Fur die
Nullhypothese lautet diese Testvariable U 0 = (u, f (0)(u)), u ∈ Su und fur die Alternativ-
hypothese U1 = (u, f (1)(u)), u ∈ Su. Die ZVA U i, i = 0, 1 sind zumeist – auch bei Tests
mit Stichproben aus multivariaten GG – univariate, reelle ZVA. Ziel des Tests ist es, eine
gegebene Stichprobe der entsprechenden GG H0 bzw. H1 zuzuordnen. Dazu wird die Test-
variable benutzt, der Stichprobenwert der Testvariablen u muss also entwederU 0 oder U1
entstammen. Naturlich ist eine solche Zuordnung immer mit einer Unsicherheit verbunden.
Man wahlt nun das Irrtumsniveau α. α ist die Wahrscheinlichkeit, mit der man H0
verwirft, obwohl die Nullhypothese richtig ist. Man nennt das den Fehler 1.Art. Je kleiner
ich α wahle, umso entfernter muß die Aussage der Stichprobe von der zugehorigen Aussage
der GG (=H0) sein. Anders herum gesagt ist es verstandlicher, entspricht aber nicht exakt
dem Vorgehen: Je entfernter die Daten von der Nullhypothese sind, umso kleiner ist die
Wahrscheinlichkeit, daß ich mich irre, wenn ich H0 ablehne. Ist die Aussage der Stichprobe
weit genug von der GG entfernt, lehne ich H0 mit einer Signifikanz von α ab. So ist das
in Strenge zu formulieren. Durchaus gebrauchlich und fur den Wissenden nicht verwirrend
ist es aber, in diesem Fall zu formulieren, daß die Nullhypothese auf dem Irrtumsniveau α
verworfen wird wird.
Hat man H0 (berechtigt oder unberechtigt) verworfen, so ist die Alternativhypothese als
unbewiesenes Vorurteil anzubieten. Unterscheiden sich H0 und H1 wenig in ihren Aussagen,
so hat das allerdings wenig Nutzen. Dies ist dem gesunden Menschenverstand zuganglich
(...und das in einer Statistikvorlesung!!!) und zeigt sich, wenn man den Test unter Einbezie-
hung der Alternativhypothese zuende fuhrt. Neben dem Fehler, H0 unberechtigt abzulehnen,
kann man auch noch den Fehler machen, H0 unberechtigt nicht abzulehnen (also unberech-
60
7 Prufung statistischer Hypothesen, Tests
tigt zu akzeptieren). Es wird also die (falsche) Aussage getroffen, daß die Stichprobe nicht
gegen die mit H0 verbundene GG spricht obwohl sie in Wahrheit irgend einer anderen GG
entnommen wurde, bspw. der, die mit H1 verbunden ist. Die Wahrscheinlichkeit fur diesen
Fehler 2.Art nennt man β und sie ist abhangig von α und naturlich von H1, welche aber in
der Regel unbekannt ist. Leider vergroßert ein kleiner werdendes α den Fehler β. β. Daher
ist die Wahl der Testvariablen sehr wichtig (gerade bei multivariaten statistischen Hypothe-
sentests). In Tabelle (1) sind die moglichen Entscheidung bei statistischen Tests aufgelistet.
In Abb.16 wird versucht, diesen Sach-
Abbildung 16 Graphische Darstellung zum Begriff
der Fehler I. und II. Art bei Hypothesentests
verhalt anschaulich darzustellen. Mit dem
Begriff Hypothese darf man ruhig eine
pdf verbinden, die auf der Ordinaten
aufgetragen ist und mit der Große auf
der Abszisse die ZVA U 0 oder U1. Befin-
det sich die Stichprobe u rechts von dem
durch die Wahl von α festgelegten, kriti-
schen Wert uα, so wird H0 mit einer Si-
cherheit von (1-α) verworfen. Liegt da-
gegen u links von uα, so sprechen die
Daten mit der selben Sicherheit nicht
gegen H0. In diesem Fall ist es naturlich
trotzdem noch moglich, daß u eine Rea-
lisierung von U1 und nicht von U0 ist.
Dieser Fehler wird durch β beschrieben.
Prob (u ∈ ] −∞; uα] |H1) =
∫ uα
−∞f (1)(y) dy = β
Prob (u ∈ ]uα;∞[ |H1) =
∫ ∞
uα
f (1)(y) dy = 1 − β(7.1)
61
7 Prufung statistischer Hypothesen, Tests
Analog kann man formulieren:
Prob (u ∈ ] −∞; uα[ |H0) =
∫ uα
−∞f (0)(y) dy = 1 − α
Prob (u ∈ [uα;∞[ |H0) =
∫ ∞
uα
f (0)(y) dy = α (7.2)
Fur besonders aussagekraftige – machtige – Tests wendet man gerne folgendes Verfahren
an: Das Vorurteil, das man mit der Stichprobe unterstutzen mochte, wahlt man als Alter-
nativhypothese H1. Getestet wird also der Widerstand gegen meine These. Wahlt man ein
kleines α, so kann man die gegnerische Hypothese H0 nur bei Daten, die sehr fur meine The-
se (= H1) sprechen (u > uα) mit hoher Wahrscheinlichkeit verwerfen. Und nur wenn ”das
Alte” durch ”das Neue” stark angegriffen wird, soll sich ”das Neue” durchsetzen konnen.
Man widerlegt lieber sein Vorurteil (in der Wissenschaft!....) auch wenn es richtig ist, als
daß man es akzeptiert, wenn es falsch ist. Man sieht das als Ansporn, noch bessere Hinweise
(Signale) fur seine These zu suchen.
Wie man aus Abb.8 schon erkennt, ist der Fehler β groß, wenn sich Hypothese und Alterna-
tivhypothese stark uberlappen. Die Große (1−β), die man als Macht des Tests bezeichnet,
ist dann klein. Es gibt eine hohe Wahrscheinlichkeit, daß eine Stichprobe, die tatsachlich der
GG H1 entstammt, zu einer Annahme von H0 fuhrt. Man kann sich bspw. vorstellen, daß
H0 sagt, eine Farbflache sei rosa und H1 stellt dagegen die Alternative, sie sei pink. Nutzen
und Prazision dieses Tests sind naturlich zweifelhaft.
Ein anderes Beispiel aus der bosen Welt der Geschaftemacher soll die Problematik be-
leuchten, die mit der richtigen Hypthesenwahl verbunden ist. Im Hamburger Hafen liege ein
Bananendampfer mit einer Ladung im Wert von 106 Euro. Der Bananenhandler sucht nun
einen Kunden (bspw. einen Großhandler auf dem Fischmarkt), der ihm die Ware abkauft.
Dazu macht er einen Test mit der Nullhypothese H0 ”Die Ware ist gut”. Er fuhrt den Test
durch mit einer Irrtumswahrscheinlichkeit α=0.01. Das bedeutet, daß der Test mit einer
Wahrscheinlichkeit von 1% das Ergebnis ”Ware ist schlecht” liefert, obwohl die Lieferung
o.k. ist. Es heißt nicht, daß 1% der Bananen verdorben sind! Es bedeutet aber, daß ein Ri-
siko besteht, daß 1 von 100 Lieferungen schlecht ist. Das Handlerrisiko ist 1%× 106 Euro.
Das Risiko des Kunden ist β. Die Große von β ist ungewiß, konnte bspw. β(α = 0.01) = 0.2
sein. Dann ist das Kundenrisiko 20% × 106 Euro = 200.000 Euro!
62
7 Prufung statistischer Hypothesen, Tests
Schlauer ware es von dem Kunden, einen Test auf die Nullhypothese H0 ”Die Ware ist
schlecht” zu verlangen. Dann kann er das Kundenrisiko fest eingrenzen und den Uberseehand-
ler mit seinem nun ungewissen Handlerrisiko in schlaflose Nachte verfallen lassen.
7.2 Mittelwerttest bei einer NV GG mit bekannter Varianz
Die Grundgesamtheit, aus der die Stichprobe ~Xm vom Umfang m entnommen wird, sei
normalverteilt mit N (µ, σ). Die Varianz σ2 der GG sei (unrealistischerweise) bekannt. Mit
µ ist im folgenden ohne die Indizierung 1 das zentrierte 1. Moment dieser GG bezeichnet.
Sei weiterhin µ(0) eine Annahme (keine Schatzung!) uber den Erwartungswert der GG. Die
Variable µ(0) ist damit keine ZVA, sondern eine wohlbekannte reelle Zahl. Dann soll die
Nullhypothese H0 lauten
H0 : µ = µ(0) (7.3)
Als Alternativhypothese hat man drei Moglichkeiten:
H1 : µ > µ(0)
H1 : µ < µ(0)
H1 : µ 6= µ(0) (7.4)
Formuliert man eine der ersten beiden Alternativhypothesen, so fuhrt man einen sogenannten
einseitigen Test durch, im dritten Fall dagegen einen zweiseitigen Test. Als Schatzer fur den
Erwartungswert wahlen wir den arithmetischen Mittelwert – den ML Schatzer –
µ =1
m
m∑
i=1
xi (7.5)
µ ist eine NV ZVA mit N (µ, σ√m
). Gilt die Nullhypothese µ = µ(0), so ist die ZVA U
ausgedruckt durch
u =√
mµ − µ(0)
σ(7.6)
eine NV ZVA mit N (0, 1). Die pdf der Hypothese f 0(u) ist dann die Gauss’sche Wahrschein-
lichkeitsdichte mit den Parametern (0, 1). Fuhrt man den einseitigen Test nach rechts (>)
durch, so erhalt man (α fest vorgegeben):
Prob(u > uα) = α (7.7)
63
7 Prufung statistischer Hypothesen, Tests
uα wird bestimmt durch
erf(uα) = 1 − α
⇐⇒∫ uα
−∞f 0(u) du = 1 − α (7.8)
mit
uα =√
mcα − µ(0)
σ(7.9)
wobei cα eine durch (6.9) festgelegte Zahl ist. Man findet nun
u ≤ uα → akzeptiere H0 (7.10)
bzw.
u > uα → akzeptiere H1 (7.11)
Macht man fur die Alternativhypothese eine konkrete Annahme uber den Erwartungswert
µ(1), so kann man die Macht des einseitigen, rechten Tests beschreiben durch
1 − β(α) = 1 − erf(√
mcα − µ(1)
σ)
= 1 − erf(uα +
√m
σ(µ(0) − µ(1))) (7.12)
Die Durchfuhrung des einseitigen, linken Tests (<) erfolgt analog mit uα → −uα. Ist man an
dem zweiseitigen Test interessiert, so ist ein symmetrisches Intervall [−uα, uα] gesucht mit
Prob(−uα ≤ u ≤ uα) = 1 − α (7.13)
oder
erf(uα) − erf(−uα) = 1 − α (7.14)
oder mit Hilfe der Beziehung erf(−uα) = 1 − erf(uα)
erf(uα) = 1 − α
2(7.15)
Man findet nun mit Hilfe des aus der Stichprobe gewonnenen Wertes u die gewunschte
Hypothesenentscheidung:
u ∈ [−uα, uα] → akzeptiere H0 (7.16)
bzw.
u 6∈ [−uα, uα] → akzeptiere H1 (7.17)
64
7 Prufung statistischer Hypothesen, Tests
Bei gleichem Irrtumsniveau α sind die Entscheidungsgrenzen |uα| des zweiseitigen Tests
großer als beim einseitigen Test. D.h. bei gleichem Schatzwert µ wird die Nullhypothese eher
beim einseitigen Test als beim zweiseitigen Test abgelehnt. Das liegt naturlich daran, daß
bei dem einseitigen Test die zusatzliche ”a-priori” Information uber das Vorzeichen honoriert
wird. Die Macht des zweiseitigen Tests ist gegeben durch
1 − β(α) = 1 + erf(−uα +
√m
σ(µ(0) − µ(2))) − erf(uα +
√m
σ(µ(0) − µ(2))) (7.18)
wobei µ(2) die konkrete Annahme uber den Erwartungswert der ”linken” Alternativhypothese
ist.
7.3 Vergleich der Mittelwerte zweier NV mit identischer Varianz
Gegeben seien zwei Stichproben ~Xmx vom Umfang mx aus einer NV GG mit N (µx, σ) und
~Y my vom Umfang my aus einer NV GG mit N (µy, σ). Die Schatzer der Erwartungswerte seien
die arithmetischen Mittelwerte, als Schatzer fur die Varianz benutzen wir den unverzerrten
Schatzer der Stichprobenvarianz, also
µx =1
mx
mx∑
i=1
Xi
µy =1
my
my∑
i=1
Yi
s2x =
1
mx − 1
mx∑
i=1
(Xi − µx)2
s2y =
1
my − 1
my∑
i=1
(Yi − µy)2 (7.19)
Beide Stichproben seien unabhangig. Die Nullhypothese wird formuliert als
H0 : µx = µy (7.20)
Als Alternativhypothese bieten sich wieder drei Formulierungen an:
H1 : µx > µy
H1 : µx < µy
H1 : µx 6= µy (7.21)
65
7 Prufung statistischer Hypothesen, Tests
Dann ist die ZVA U mit
u =
√mxmy(mx + my − 2)
mx + my
µx − µy√
(mx − 1)s2x + (my − 1)s2
y
(7.22)
Student-t verteilt mit (mx + my − 2) Freiheitsgraden. (Beweis [4],S.381) Trifft die Nullhypo-
these µx = µy zu, ist U zentral (d.h. E(U)=0) Student-t verteilt. Die pdf f 0(u) ist dann die
Student-t Wahrscheinlichkeitsdichte aus dem letzten Kapitel. Soll die einseitige, rechte (>)
Alternativhypothese gegen die Nullhypothese getestet werden, sucht man wieder
Prob(u ≤ uα) = 1 − α (7.23)
oder
FSt−t(uα, mx + my − 2) = 1 − α (7.24)
wobei FSt−t die Verteilungsfunktion der Student-t Verteilung mit mx+my−2 Freiheitsgraden
ist. Sei u die aus der Stichprobe berechnete Realisierung der Teststatistik U . Dann entscheidet
man
u ≤ uα → akzeptiere H0
u > uα → akzeptiere H1 (7.25)
Lautet die Alternativhypothese H1 : µx 6= µy, so wird ein Intervall [u−α , u+
α ] gesucht mit
Prob(u < u−α ) =
α
2
Prob(u > u+α ) =
α
2(7.26)
Da aber die Student-t Verteilung symmetrisch ist, ist u−α = −u+
α und uα wird aus der
Gleichung
F (uα) = 1 − α
2(7.27)
berechnet. Der Test erfolgt dann wie oben:
|u| ≤ uα → akzeptiere H0
|u| > uα → akzeptiere H1 (7.28)
Ebenso wie im letzen Unterkapitel sind die Entscheidungsgrenzen bei gleichem Irrtumsni-
veau fur den einseitigen Test geringer als beim zweiseitigen (Begrundung s. oben). Analog
laßt sich auch die Macht des Student-t Tests bestimmen; statt der erf-Funktion wird hier
aber die Verteilungsfunktion der nichtzentralen Student-t Verteilung mit dem Nichtzentra-
litatsparameter δ = (µx − µy) benotigt.
66
7 Prufung statistischer Hypothesen, Tests
7.4 Vergleich der Varianz zweier NV
Eine wesentliche Voraussetzung des letzten Testverfahrens war die Einschrankung auf iden-
tische Varianzen der zugrundegelegten GG. Sind zwei voneinander unabhangige Stichproben
gegeben, sind naturlich die berechneten Realisierungen der Varianzschatzer unterschiedli-
che Zahlen. Ein Test dieser beiden Zahlen soll deshalb feststellen, ob die Varianzen der
GG identisch (H0) oder verschieden (H1) sind. Gegeben seien zwei Stichproben ~Xmx vom
Umfang mx aus einer NV GG mit N (µx, σx) und ~Y my vom Umfang my aus einer NV GG
mit N (µy, σy). Die Schatzer der Erwartungswerte und der Varianzen seien wie im letzten
Unterkapitel gewahlt. Die Nullhypothese sei
H0 : σ2x = σ2
y (7.29)
Als Alternativhypothese formulieren wir entweder einseitig
H1 : σ2x > σ2
y (7.30)
oder zweiseitig
H1 : σ2x 6= σ2
y (7.31)
Gilt die Nullhypothese, ist die Teststatistik U :
u = (σ2
x
σ2x
)/(σ2
y
σ2y
) (7.32)
Fisher-F verteilt mit (mx−1, my−1) Freiheitsgraden. Soll die einseitige Alternativhypothese
gelten, sucht man nach
Prob(u ≤ uα) = 1 − α (7.33)
oder uα als Losung der Gleichung
FFisher(uα, mx − 1, my − 1) = 1 − α (7.34)
wobei FFisher die Verteilungsfunktion einer (zentralen) Fisher-F ZVA ist mit (mx−1, my −1)
Freiheitsgraden. Hierbei bedeutet zentrale Fisher-F Verteilung, daß der Erwartungswert der
entsprechenden ZVA Eins ist. Mit u aus
u =σ2
x
σ2y
(7.35)
67
7 Prufung statistischer Hypothesen, Tests
erfolgt die Testentscheidung wie
u ≤ uα → akzeptiere H0
u > uα → akzeptiere H1 (7.36)
Im Fall der zweiseitigen Alternativhypothese ist zu bedenken, daß die Fisher-F Verteilung
nicht symmetrisch ist, d.h. man sucht ein Intervall [u−α , u+
α ] mit
Prob (u < u−α ) =
α
2
Prob (u ≤ u+α ) = 1 − α
2(7.37)
Die Intervallgrenzen findet man dann als die entsprechenden Quantile der zentralen Fisher-F
Verteilung mit den bereits angegebenen Freiheitsgraden zu
FFisher (u−α , mx − 1, my − 1) =
α
2
FFisher (u+α , mx − 1, my − 1) = 1 − α
2(7.38)
Die Testentscheidung wird dann wie folgt durchgefuhrt:
u ∈ [u−α , u+
α ] → akzeptiere H0
u 6∈ [u−α , u+
α ] → akzeptiere H1 (7.39)
7.5 Anpassungstests
Eine wesentliche Vorausetzung der bisher beschriebenen Testverfahren war die Einschrankung
der GG auf NV GG. Insbesondere der Fisher-F Test ist jedoch bekannt dafur, auf Abwei-
chungen von der NV-Annahme empfindlich zu reagieren (dies ist ein Ergebnis aus Monte
Carlo Experimenten). D.h sind die GG, aus denen die Stichproben entnommen werden,
nicht NV, so ist das Ergebnis des Fisher-F Tests zweifelhaft. Aus diesem Grund ist es notig,
zu testen, ob die pdf oder die Verteilungsfunktion einer GG, die aus der Stichprobe durch die
entsprechenden Schatzer berechnet wurde, eine bestimmte Form hat, etwa die Form der Nor-
malverteilung. Dies ist die Aufgabe der sogenannten Anpassungstests, mit denen Hypothesen
uber vermutete pdf bzw. Verteilungsfunktionen der GG uberpruft werden konnen.
68
7 Prufung statistischer Hypothesen, Tests
7.5.1 Der χ2-Test
Mit Hilfe des χ2 Tests wird getestet, ob die pdff(x) einer GG mit einer Annahme uber diese
pdf (das ”Vorurteil”) vertraglich ist oder nicht. Das Vorurteil wird mit f (0) bezeichnet. Aus
der GG liegt eine Stichprobe ~Xm vom Umfang m vor. Damit kann man die pdff(x) durch
das Histogramm H(∆j), j = 1, ..., J schatzen. Als Null- bzw. Alternativhypothese formuliert
man
H0 : f(x) = f (0)(x)
H1 : f(x) 6= f (0)(x) (7.40)
Dabei wird als Schtzer der Verteilungsfunktion
f(x ∈ ∆j) =H(∆j)
∆j(7.41)
benutzt. Wenn die Nullhypothese richtig ist, ist die Wahrscheinlichkeit, die ZVA X im In-
tervall ∆j zu beobachten gegeben durch
pj =
∫
∆j
f (0)(x) dx (7.42)
Damit kann man die im Intervall ∆j zu erwartende Anzahl von Stichprobenelementen h bei
einer Stichprobe vom Umfang m berechnen zu
h(∆j) = mpj (7.43)
Die beobachtete Anzahl von Stichprobenelementen im Intervall ∆j liefert das Histogramm
H(∆j) aber zu
mH(∆j) = |x ∈ ∆j| (7.44)
Man kann zeigen (Beweis siehe [3]), daß die ZVA U mit
u =J∑
j=1
(mH(∆j) − mpj)2
mpj(7.45)
asymptotisch (d.h fur m → ∞) eine χ2-verteilte ZVA mit (J − 1) Freiheitsgraden ist. Bei
der Durchfuhrung des Tests ist also wiederum eine Zahl uα gesucht mit
Prob(u ≤ uα) = 1 − α (7.46)
69
7 Prufung statistischer Hypothesen, Tests
oder mit Hilfe der χ2 Verteilungsfunktion das Quantil
Fχ2(uα, J − 1) = 1 − α (7.47)
Damit fuhrt man die Testentscheidung wie folgt durch
u ≤ uα → akzeptiere H0
u > uα → akzeptiere H1 (7.48)
Werden zur Herleitung der pdff (0) aus der Stichprobe ~Xm noch p Parameter geschatzt (z.B.
fur eine Normalverteilung µ und σ, p = 2), so ist die ZVA U immer noch (asymptotisch) χ2
verteilt, jedoch mit J − p − 1 Freiheitsgraden.
7.5.2 Kolmogoroff - Smirnov Test
So wie der χ2 Test ein Test fur die pdf ist, ist der Kolmogoroff-Smirnov Test (KS-Test)
ein Test fur die Verteilungsfunktion. Sei also ~Xm eine Stichprobe vom Umfang m aus einer
GG mit der Verteilungsfunktion F (x). Diese Verteilungsfunktion sei geschatzt durch die
empirische Verteilungsfunktion F z.B. als Summe uber das Histogramm H(∆j). A-priori sei
eine Verteilungsfunktion F (x) vorgegeben. Die Null- bzw. Alternativhypothese lautet dann
H0 : F (x) = F (x)
H1 : F (x) 6= F (x) (7.49)
Bestimmen wir die maximale Distanz zwischen empirischer Verteilungsfunktion F (x) und
theoretischer Verteilungsfunktion F (x) als
u = supx∈S
|F (x) − F (x)|. (7.50)
Ist die Nullhypothese korrekt, folgt, dass die ZVA U naherungsweise der Verteilungsfunktion
FKS(u) ' 1 − 2 exp(−2mu2) (7.51)
folgt. FKS heißt auch die Kolmogoroff-Smirnov Verteilung. Es ist also wiederum eine Zahl
uα gesucht mit
Prob(u ≤ uα) = 1 − α (7.52)
oder
FKS(uα) = 1 − α (7.53)
70
7 Prufung statistischer Hypothesen, Tests
Unter Benutzung der expliziten Darstellung der KS - Verteilung erhalt man dann
uα =
√
− ln(α2)
2m(7.54)
Damit fuhrt man die Testentscheidung wieder wie folgt durch
u ≤ uα → akzeptiere H0
u > uα → akzeptiere H1 (7.55)
Ein Problem ergibt sich mit den KS-Test, wenn die Parameter der theoretischen Verteilung
aus der Stichprobe geschazt werden mussen. Dies lasst sich nicht, wie beim χ2-Test, einfach
durch die Anpassung der Freiheitsgrade korrigierten. Allerdings existiert ein Modifikation
des KS-Tests, welche auf den Lilliefors-Test fuhrt. Hier existiert eine andere Statistik, die
DL-Statistik, welche sich aus Tabellen ablesen lasst oder uber Approximationen hergeleitet
werden kann.
71
8 Statistische Untersuchung extremer Ereignisse
8 Statistische Untersuchung extremer Ereignisse
Bisher haben wir uns mit den Eigenschaften von Zufallsvariable beschaftig, die das Zentrum
der Dichteverteilung beschreiben, also im Wesentlichen mit Erwartungswert und Varianz,
evt. auch Schiefe oder Kurtosis. Ein weiteres Feld in der Meteorologie, der Hydrologie und
insbesondere der Okonomie ist die Untersuchung von Extremereignissen. Solche Extremereig-
nisse treten sehr selten auf, sind jedoch mit hohem wirtschaftlichen Schaden, oder schlimmer
mit Verlust von Menschenleben verbunden und damit wichtig fur Risikoabschatzungen. Sol-
che Ereignisse werden als ”Extreme Ereignisse” bezeichnet. Naturlich ist der Schaden, den
ein extremes Ereigniss verursacht, nicht nur von seiner Starke abhangig, sondern vor allem
auch vom Ort und Zeitpunkt seine Auftretens. Ein Sturmtief, welches uber eine nicht be-
siedelte Region zieht, wird u.U. gar nicht als ”Extremes Ereignis” wahrgenommen, wahrend
ein Sturm uber Paris schwere Schaden verursachen kann.
Wir wollen als ”Extreme Ereignisse” lieber solche Ereignisse bezeichnen, die selten auftre-
ten und damit in den Auslaufern der Dichtefunktion der ZVA liegen. Die bisher genannten
Verteilungen beschreiben das Verhalten der Zufallsvariable ausgehend von Ihrem Erwar-
tungswert: Mittelwert, Standardabweichung, Schiefe, Kurtosis, ect.. Ihre Auslaufer reprasen-
tieren das Verhalten der Extremwerte jedoch relativ schlecht. Bei der Statistik extremer
Ereignisse machen wir uns ein Theorem zu Nutze, welches ahnlich wie beim Grenzwertsatz
der Statistik, asymptotisch fur große Stichproben, das statistische Verhalten der extremen
Ereignisse beschreibt. Leider wird die Existenz dieser asymptotischen Verteilungen fur Ex-
treme oft ignoriert. Da Extreme per Definition selten auftreten (in der Risikoabschatzung
soll sogar die Eintrittswahrscheinlichkeit fur eventuell nie da gewesene Ereignisse abgeschatzt
werden) ist die statistische Behandlung auf Grund der kleinen Stichprobe mit großen Fehlern
behaftet. Diese konnen ”extreme” groß werden, wenn Verteilungen einen extremalen Prozess
schlecht beschreiben.
Es gibt zwei Moglichkeiten, eine extremes Ereignis zu definieren. Wir nehmen eine univa-
riate, unabhangig und identisch verteilte ZVA an. Nun konnen wir a) ein extremes Ereignis
als das Maximum einer Stichprobe einer bestimmten Lange definieren, oder b) als eine Ereig-
nis, welches einen gewissen Schwellenwert (”threshold”) uberschreitet. Bei der Definition a)
werden die so definierten extremen Ereignisse uber die Generalisierte Extremwertverteilung
(GEV fur generalized extrem value distribution) beschrieben, bei b) folgen sie der Genera-
72
8 Statistische Untersuchung extremer Ereignisse
lisierten Paretoverteilung (GPD fur generalized Pareto distribution). Wir beschaftigen uns
also im Folgenden mit diesen zwei Ansatzen der Statistik extremer Ereignisse. Einen guten
und ausfuhlichen Einstieg in die Extremwertanalyse bietet das Buch von Stuart Coles [11].
Wir konnen hier nur einen Uberblick uber die grundlegenden Konzepte der Extremwertana-
lyse geben.
8.1 Die Generalisierte Extremwertverteilung
Der in diesem Abschnitt beschriebene Ansatz der Extremwertstatistik beruht auf dem Fisher-
Tippett Theorem, welches diese 1928 veroffentlichten, und welches 1943 von Gnedenko ma-
themetisch bewiesen wurde. Sie zeigten, dass nur 3 Klassen von Grenzverteilungen fur Extre-
me in großen Zufallsstichproben existieren. Anwendung fand es als erstes in der Hydrologie.
Gumbel, dessen Buch ”Statistics of Extremes” 1958 erschien, entwickelte die praktische Um-
setzung der Extremwertstatistik. Spater wurden diese 3 Klassen von Verteilungen (Frechet,
Gumbel und Weibull) zu der Generalisierten Extremwertverteilung, welche 3 Parameter hat,
zusammmengefasst.
Wir haben nun n unabhangige ZVA X1, . . . , Xn mit der gleichen, unbeschrankten Ver-
teilungsfunktion F (x) = P (Xi ≤ x). Bei der Extremwertstatik interessieren wir uns fur
das Maximum eines solchen Samples von ZVA Mn = max(x1, x2, . . . , xn). Gleiches kann fur
Minima hergeleitet werden, indem die X1, . . . , Xn durch −X1, . . . ,−Xn erzetzt werden. Die
Verteilungsfunktion fur das Maximum Mn ist gegeben durch durch F n(x), denn
P (Mn ≤ x) = P (X1 ≤ x, . . . , Xn ≤ x)
= P (X1 ≤ x) · . . . · P (Xn ≤ x)
= F n(x). (8.1)
Nehmen wir an, wir lassen n gegen unendlich gehen, dann geht also die Wahrscheinlichkeit,
dass das Maximum unter einem bestimmten Wert x fallt, gegen 0, und der Wert Mn gegen
unendlich. Somit ist diese Grenzverteilung fur n → ∞ nicht geeignet, uns Informationen
uber das Verhalten von Maxima großer Stichproben zu geben.
Es wurden jedoch von Fisher und Tippett 1928 gezeigt, dass die Folge der Mn mit einer
Folge von an und bn normiert werden kann, so dass F n(anx+bn) gegen eine Verteilungsfunkti-
on H(x) konvergiert. Das Fisher-Tippett-Theorem besagt also, dass die Verteilungsfunktion
73
8 Statistische Untersuchung extremer Ereignisse
fur das normierte Maximum Mn = Mn−bn
angegen eine bestimmte Verteilung konvergiert
P (Mn − bn
an≤ x) = P (Mn ≤ anx + bn)
= F n(anx + bn)
limn→∞
F n(anx + bn) = H(x). (8.2)
Dabei existierten genau 3 Klassen von Grenzverteilungen:
? Gumbel-Verteilung:
H(x) = e−e−x
, −∞ < x < ∞ (8.3)
? Frechet-Verteilung:
H(x) = e−xα
, fur 0 < x < ∞
H(x) = 0 fur x ≤ 0 (8.4)
? Weibull-Verteilung:
H(x) = e−(−x)α
, fur −∞ < x < 0
H(x) = 0 fur ≥ 0 (8.5)
Die drei Klassen von Grenzverteilungen konnen zu einer Verteilung, der Generalisierte
Extremwertverteilung (GEV) kombiniert werden, die lautet
H(x) = exp(−(1 + ζx − µ
β)1/ζ , (8.6)
wobei µ der Ortsparameter, β der Skalenparameter und ζ der alles entscheidende ”Shape”-
Parameter sind, wobei der ”Shape”-Parameter die Klasse der Verteilung bestimmt. Fur ζ > 0
ist die GEV vom Typ Frechet und fur ζ < 0 vom Typ Weibull. Fur ζ = 0 erhalten wir die
Grenzverteilung
limζ→0
H(x; µ, β, ζ) = exp(−exp(−x − µ
β)). (8.7)
Diese Verteilung ist vom Typ Gumbel und wird oft als DIE Extremwertverteilung oder auch
Fisher-Tippett Typ I Verteilung bezeichnet.
Die Klasse der Verteilungen, fur die das Fisher-Tippett Theorem gilt, ist relativ groß. Dabei
entscheidet die Form der Auslaufer der Verteilung der Xi, zu welcher Klasse die Grenzvertei-
lung der Maxima (Extreme) konvergiert. Fur solche Verteilungen, deren Auslaufer langsam
74
8 Statistische Untersuchung extremer Ereignisse
Abbildung 17 Beispiel fur GEV mit Parameter ζ = 3/4 (Frechet),ζ = 0 (Gumbel) und ζ = −3/4
(Weibull).
gegen Eins mit
1 − F (x) ∼ cx−1/ζ wenn x → ∞, (8.8)
konvergieren, erhalten wir die Klasse der Frechet-Verteilungen. c > 0 und ζ > 0. Eine
exemplarische Verteilung, die nicht nach oben begrenzt ist, ist die Pareto-Verteilung. Die
einfachste Form der Paretoverteilung ist definiert als
f(x) = axa−1 a > 0 x > 0. (8.9)
Sie beschreibt zum Beispiel die Intensitat von Unwetterschaden oder eben Einkommen. End-
scheidend ist hier, dass beliebig große Werte endliche, nicht verschwindend kleine Wahr-
scheinlichkeiten haben. Wir hatten auch bei der Student-t-Verteilung gesehen, dass bestimm-
te Momente nicht existieren, da die Dichtefunktion zu langsam gegen Null abfallen.
Fur solche Verteilung, die sehr enge Auslaufer haben, erhalten wir die Weibull-Verteilung.
Mathematisch ausgedruckt, erhalten wir dann die Weibull-Verteilung, wenn die Verteilungs-
funktion F einen endlichen Endpunkt wF bezitzt, an dem F (wF ) = 1 ist, wobei F (x) < 1
fur jeden anderen Punkt x < wF gilt, so dass
1 − F (wF − y) ∼ cy−1/ζ wenn y → 0. (8.10)
c > 0 und ζ < 0.
75
8 Statistische Untersuchung extremer Ereignisse
Fur die meisten Verteilungen konvergiert die Verteilung der Maxima gegen die Gumbel-
Verteilung. Dabei liegt der Endpunkt wF der Verteilung im Undendlichen, allerdings kon-
vergiert der Auslaufer der Verteilung schneller gegen Eins als im Frechet-Fall. Die genauere
Bedingung ist die ”von Mises”-Bedingung
d
dx
(1 − F (x)
f(x)
)
→ 0 wenn x → wF , (8.11)
wobei f(x) die PDF der Verteilungsfunktion F (x) ist. Eine Gumbel-Verteilung erhalten wir
z.B., wenn die Verteilungsfunktion F (x) die Normalverteilung, die Log-Normalverteilung, die
Gamma-, oder Weibull-Verteilung u.a. annehmen, also Verteilungen, deren Auslaufer weder
besonders eng, noch besonders breit sind.
Einige Eigenschaften der GEV seien hier noch erwahnt. Der Erwartungswert existiert nur
fur ζ < 1 und die Varianz nur fur ζ < 12
oder allgemeiner: das k-te Moment einer GEV-
verteilten ZVA existiert nur fur ζ < 1k. Erwartungswert und Varianz berechnen sich zu
E(X) = µ +β
ζ(Γ(1 − ζ) − 1) fur ζ < 1 (8.12)
V ar(X) =β2
ζ2
(Γ(1 − 2ζ) − Γ2(1 − ζ)
)fur ζ <
1
2. (8.13)
Fur den Grenzfall ζ → 0 vereinfacht sich dies zu
E(X) = µ + βγ mit γ = 0.5772 . . . (Euler-Konstante) (8.14)
V ar(X) =β2π2
6(8.15)
8.2 Die Uberschreitung eines Schwellenwerts und die Generalisierte
Pareto-Verteilung
Eine alternative Methode der Extremwertstatistik ergibt sich aus der Definition extremer
Ereignisse durch die Uberschreitung eines Schwellenwertes (threshold). Hierbei wird ein Wert
u gewahlt und alle die Ereignisse untersucht, die diesen Schwellenwert u uberschreiten. Zwei
Fragen stellen sich bei diese Definition:
I wieviele Ereignisse uberschreiten den Schwellenwert u in einer Stichprobe einer vorge-
gebenen Lange, bzw. wieviele so definierte extreme Ereignisse finden in einem vorge-
gebenen Zeitraum statt?
76
8 Statistische Untersuchung extremer Ereignisse
II wie sind die einen Schwellenwert uberschreitenden Werte verteilt?4
8.2.1 Die Generalisierte Pareto-Verteilung
Gegeben seien unabhangig, identisch verteilte ZVA Xi ∈ IDD mit der Verteilung F (x). Die
einen Schwellwert u uberschreitenden ZVA Yi = Xi−u mit Xi > u beschreiben die extremen
Ereignisse. Die Verteilungsfunktion von Yi lasst sich herleiten uber
Fu(y) = P (Y ≤ y|X > u)
= P (X − u ≤ y|X > u) = P (X ≤ u + y|X > u)
=P (u < X ≤ u + y)
P (X > u)=
F (u + y) − F (u)
1 − F (u), (8.16)
wobei benutzt wurde, dass P (Y |X) = P (X,Y )P (X)
ist.
Interessant wird es, wenn sich der Schwellenwert u dem oberen Endpunkt wF (der end-
lich oder unendlich sein kann) nahert. Dann nahert sich die Verteilungsfunktion Fu(y) der
Uberschreitungen (analog zur Grenzverteilung des normierten Maximums großer (n → ∞)
Stichproben der GEV) der Generalisierten Pareto-Verteilung (GPD)
Fu(y) ≈ G(y; σu, ζ) = 1 −(
1 + ζy
σu
)− 1
ζ
. (8.17)
D.h. fur einen genugend großen Schwellenwert u existieren ein σu (welches abhangig ist von
u) und ein ζ (unabhangig von u), so dass die GPD eine Naherung der Verteilung Fu(y) der
Uberschreitungen ist.
Die Analogie zwischen den beiden Anzatzen der Extremwertstatistik prazisierte Pickands
1975 indem er zeigte, dass solche σu und ζ immer dann existieren, wenn auch eine Normierung
des Maximums einer Stichprobe existiert (siehe Gl. 8.2), so dass die Verteilung des normierten
Maximums gegen die GEV konvergiert. Die ζ der GEV und der GPD sind in diesem Fall
identisch.
Wie bei der GEV konnen verschieden Klassen von Verteilungen in Abhangigkeit von dem
Parameter ζ unterschieden werden.
4zu I.: Die ZVA Anzahl k der so definierten extremen Ereignisse kann bei genugend grossem Schwellenwert
(so dass das Ereignis ausreichend selten ist), durch eine Poisson-Verteilung (siehe Kapitel 5.1.2) beschrie-
ben werden. zu II.: Bei genugend großem Schwellenwert besitzten die extremen Ereignisse (analog zur
GEV) eine Generalisierte Pareto-Verteilung.
77
8 Statistische Untersuchung extremer Ereignisse
1. Wenn ζ > 0 ist, dann ist die GPD nur fur 0 < y < ∞ definiert. Die Auslaufer verhalten
sich mit 1 − G(y; , σu, ζ) ∼ cy−1/ζ , der klassische Pareto-Auslaufer.
2. Wenn ζ < 0 ist, dann bezitzt die GPD einen oberen Endpunkt bei wG = σu/|ζ|, analog
zur Weibull-Verteilung der GEV.
3. Fur den Grenzfall ζ → 0 erhalten wir
G(y; σu, 0) = 1 − e−y
σu ,
welches der Exponential-Verteilung mit Erwartungswert E(Y ) = σu entspricht.
Wiederum ist die Existenz bestimmter Momente von ζ abhangig. Erwartungswert und
Varianz berechnen sich als
E(Y ) =σu
1 − ζfur ζ < 1 (8.18)
V ar(Y ) =σ2
u
(1 − ζ)2(1 − 2ζ)fur ζ <
1
2. (8.19)
8.2.2 Das Poisson-GPD-Modell
Um nun ein vollstandiges Modell der Extremwerte zu erhalten, mussen sowohl I. (der Prozess
der Uberschreitung von u) als auch II. (die Verteilung der Uberschreitungen) beschrieben
werden. Letzteres wird durch die GPD beschrieben, wahrend die Uberschreitung durch einen
Poisson-Punktprozess dargestellt werden. Dieser gibt die Verteilung der Zufallsvariable k, al-
so die Anzahl der Uberschreitungen bei gegebener Stichprobenlange n, an. Wir kombinieren
also die Information uber die Verteilung der Uberschreitungen mit der Anzahl k der Uber-
schreitungen, und zwar fur den einfachsten Fall, dass die dem ganzen zu Grunde liegende
ZVA unabhangig und identisch verteilt ist.
Wir habe also eine ZVA X ∈ IID. Fur einen grossen Schwellenwert u, also genugend kleine
Anzahl von Uberschreitungen k beschreibt k eine Poissonverteilte ZVA mit
fu(k) =λk
k!e−λ und E(k) = λ, (8.20)
wobei, wir erinnern uns, λ = np die mittlere Rate der Uberschreitung, n die Lange der
Stichprobe und p die Wahrscheinlichkeit fur das Eintreten des Ereignisses ”Uberschreitung”
ist.
78
8 Statistische Untersuchung extremer Ereignisse
Die Uberschreitungen definieren neue ZVA Yi ∈ IDD mit einer GPD (8.17). Die Kombi-
nation der beiden ergibt das Poisson-GPD-Modell. Dazu wahlen wir einen Wert x > u und
fragen nach der Wahrscheinlichkeit, dass das Maximum der k Uberschreitungen Yi kleiner
ist als x. Wir wollen also eine Verteilungsfunktion fur das Maximum der Uberschreitungen
bestimmen.
P (max0≤i≤k
≤ x) = P (k = 0) +
∞∑
n=1
P (k = n, Y1 ≤ x, . . . , Yn ≤ x)
= e−λ +∞∑
n=1
λne−λ
n!
(
1 −(
1 + ζx − u
σu
)−1/ζ)n
=
∞∑
n=0
λne−λ
n!
(
1 −(
1 + ζx − u
σu
)−1/ζ)n
= e−λ∞∑
n=0
(
λ − λ(
1 + ζ x−uσu
)−1/ζ)n
n!
= exp
(
−λ
(
1 + ζx − u
σu
)−1/ζ)
(8.21)
dabei wurde benutzt, dass∑∞
n=0xn
n!= ex die naturliche Exponetialfunktion ergibt.ist.
Erinnern wir uns, dass die GEV definiert war als
H(x; µ, β, ζ) = exp
(
−(1 + ζx − µ
β)1/ζ)
)
. (8.22)
Dann sind diese beiden Ausdrucke identisch, wenn
σu = β + ζ(u − µ) (8.23)
λ =
(
1 + ζu − µ
β
)−1/ζ
. (8.24)
Damit sind die GEV und die GPD Modelle vollig konsistent miteinander.
79
9 Kleine Einfuhrung in die Bayesische Statistik
9 Kleine Einfuhrung in die Bayesische Statistik
ACHTUNG: Vorlaufige Version !
Zu Beginn ein Beispiel, welches eine der Fallen des in Kapitel 7 vorgestellten Hypothesen-
tests darstellt. Fur die normalverteilte ZVA X sei X1, . . . , Xn eine Stichprobe mit bekannter
Varianz σ = 1. Getestet werden soll die Nullhypothese H0 : µ = 0 gegen HA : µ 6= 0. Bei
einem Irtumsniveau α = 0.05 wurde die Nullhypothese verworfen werden, wenn√
nµ > 1.96,
wobei µ das arithmetrische Mittel der Stichprobe ist. In Wirklichkeit ist es unwahrschein-
lich, dass die Nullhypothese exakt zutrifft. Bedenken wir, dass statistischen Hypthesen immer
Modelle der Wirklichkeit zu Grunde liegen, die immer mit einer Unsicherheit verbunden
sind (Skalen). Ist also unsere Stichprobe sehr groß, d.h. die Daten genauer als die Unsi-
cherheit des Modells, so werden wir fast sicher die Nullhypothese verwerfen, auch wenn die
Differenz zwischen µ und µ vollig unbedeutend fur uns ist. Eine wesentlich angemessenere
Nullhypothese ware daher z.B. H0 : |µ| ≤ 10−3.
Warum dieses Beispiel? Bisher hatten wir Wahrscheinlichkeiten nur fur zufallige Ereignis-
se, die aus Experimenten resultieren, definiert. Sie wurden als relative Haufigkeiten interpre-
tiert, mit denen ein Ereignis in einem Zufallsexperiment auftritt. Daher wird diese Ansatz
der Statistik auch als ”frequentistisch” bezeichnet. In der Bayes-Statistik wird der Be-
griff der Wahrscheinlichkeit auf alle Aussagen, insbesondere auch auf die in der
”klassischen” Statistik festen Parameter, aber auch auf alle Aussagen, erweitert.
Dabei wird der Begriff der Wahrscheinlichkeit als Grad der Plausibilitat einer Aussage oder
auch als Unsicherheit eines Parameters verstanden.
Ein weiterer wichtiger Unterschied zur frequentistische Statistik ist die ”Subjektivitat”
der Bayesischen Statistik. In der Bayesische Statistik wird vorhandenes Wissen in
die Beurteilung einbezogen. Die Grundlegende Frage der Bayesischen Statistik ist die
vom Presbyterier Monch Thomas Bayes im 18. Jahrhundert gestellte Frage: ”Wie sollte eine
Person seinen vorhandenes Wissen andern, wenn neue Hinweise vorliegen?”
Betrachten wir drei weitere Beispielen (frei nach Berger 1985 [12]):
I Eine Person behauptet, sie kann unterscheiden, ob in ihrem Milchkaffee zuerst die
Milch eingeschuttet oder ob die Milch in den Kaffee eingeruhrt wurden.
II Eine Dirigentin behauptet am Notenbild die Partitionen von Mozart und Haydn un-
80
9 Kleine Einfuhrung in die Bayesische Statistik
terscheiden zu konnen.
III Eine betrunkene Kommilitonin behauptet, dass sie das Ergebnis eines Munzwurfes
vorhersagen kann.
Wir konnen uns gut vorstellen, dass die Dirigentin kann, was sie behauptet. Der betrunkenen
Kommilitonin wurden wir erstmal raten, ihren Rausch auszuschlafen, und ob wir Person
A glauben, hangt davon ab. Im Rahmen der frequentistischen Statistik wurden wir nun
eine Reihe unabhangiger Experimente durchfuhren, ein Signifikanzniveau festlegen und auf
Grund der Ergebnisse die entsprechende Hypothese H0: ”Die Person hat recht.” ablehnen
oder akzeptieren. Die wesentliche Schwierigkeit besteht in der Aufstellung der Hypothesen
und der Formulierung der Testvariablen.
Jede Person fuhrt also ihr Konnen 10 mal vor. Person A schafft es, in 9 von 10 Experi-
menten richtig zu erkennen, ob die Milch zuerst in den Kaffee geschuttet wurde oder nicht.
Person B ordnet 9 von 10 Partitionen richtig zu und unsere betrunkene Kommilitonin schafft
es 9 von 10 Munzwurfen richtig vorherzusagen. Beurteilen wir also nach dem Experient die
Aussagen aller drei Personen gleich? NEIN! Wir wurden der Person A vielleicht widerwillig
zugestehen, dass sie tatsachlich schmeckt, dass die Milch in den Kaffee eingeruhrt wurde.
Der Dirigentin wurden wir sagen: ”Klar kannst Du Partitionen unterscheiden.” Und der be-
trunkenen Kommilitonin wurden wir trotzdem nicht glauben - sie hat ganz einfach tierisch
Gluck gehabt.
Das Beispiel soll verdeutlichen, dass das Einbinden von ”subjektivem” Vorwissen in eine
Entscheidung durchaus sinnvoll sein kann und vor allem vielmehr der Wirklichkeit einer
Person entspricht, die Entscheidungen fallen muss. Ob wir also willens sind unsere Meinung
auf Grund neuer Daten zu korrigieren, ist von unserer a-priori Einstellung - oder eben der a-
priori Wahrscheinlichkeit - abhangig. Wenn ich 100% sicher bin, dass sich ein Munzwurf nicht
vorhersagen lasst, wird mich auch kein Experiment vom Gegenteil uberzeugen. Umgekehrt,
wenn ich mir sehr unsicher bin, werde ich jeden neuen Hinweis gerne nutzen, um mir eine
Meinung zu bilden. In der Bayesischen Statistik wird jeder Hinweis genutzt, der dazu dient
die Unsicherheit uber eine Aussage oder einen Parameter zu reduzieren. Es muss also nicht,
wie in der frequentistischen Statistik, erst solange gewartet werden, bis eine ausreichend
große Stichprobe zur Verfugung steht. So konnen Bayesische Netzwerke lernen und werden
zum Beispiel bei der Konstruktion von Spam-Filtern eingesetzt. Aus die nervige Office-
81
9 Kleine Einfuhrung in die Bayesische Statistik
Buroklammer bei MS-Word soll Bayes benutzen.
9.1 Nicht-frequentistische Wahrscheinlichkeitsrechnung
Um das Bayes Theorem formal einzufuhren, mussen wir uns nochmal mit Wahrscheinlich-
keiten insbesondere mit bedingten Wahrscheinlichkeiten, befassen. Ausgangspunkt sei ein
Ereignisraum E, der in eine Menge sich gegenseitig ausschließender Ereignisse A1, . . . , An,
bzw. B1, . . . , Bm unterteilt ist. A und B beschreiben Ereignisse, welche wir jetzt o. E. d. A.
auch durch Parameter oder Aussagen ersetzen konnen.
Fur die Wahrscheinlichkeiten gelten folgende Axiome (Kolmogorov, 1933):
1. Die Wahrscheinlichkeit P(A) ist positiv semidefinit
P(A) ≥ 0 (9.1)
2. Das Ereignis E (Ereignisraum) hat die Wahrscheinlichkeit 1
P(E) = 1 (9.2)
3. Sind A und B zwei sich ausschließende Ereignisse, so ist die Wahrscheinlichkeit, daß
A oder B eintreten, geschrieben als das Ereignis (A + B)
P(A + B) = P(A) + P(B) (9.3)
Schließen sich die Ereignisse A und B nicht aus, so lasst Ereignis (A + B) sich aufspalten in
drei sich ausschließende Ereignisse
(A + B) : AB + AB + AB (9.4)
mit der Aufteilung des Ereignisses A
A : AB + AB (9.5)
und entsprechend fur B ergibt sich fur die Wahrscheinlichkeit P(A + B)
P(A + B) = P(AB + AB + AB)
= P(AB) + P(AB) + P(AB)
= P(A) − P(AB) + P(B) − P(AB) + P(AB)
= P(A) + P(B) − P(AB) (9.6)
82
9 Kleine Einfuhrung in die Bayesische Statistik
Die ist das verallgemeinterte Summengesetzt fur Wahrscheinlichkeiten. Die Kettenregel fur
Wahrscheinlichkeiten lautet
P (AB) = P (A|B)P (B) = P (B|A)P (A). (9.7)
P (A|B) ist die auf B konditionierte oder bedingte Wahrscheinlichkeit von A. Nehmen wir
unser Beispiel I.: A sei die Aussage der Person, C sei das Vorwissen uber die Person, namlich
die Tatsache, dass es sich um eine Dirigentin handelt. P (A|C) ist also die Plausibilitat der
Aussage A gegeben die die Tatsache, dass die Aussage von einer Dirigentin gemacht wurde.
Bei mehreren sich nicht notwendigerweise ausschließenden Aussagen A1, A2, A3 lasst sich
die Kettenregen mehrfach anwenden und wir erhalten
P (A1A2A3) = P (A3|A1A2)P (A1A2) = P (A3|A1A2)P (A2|A1)P (A1). (9.8)
Was konnen wir nun mit diesen Wahrscheinlichkeiten anfangen, wenn A und B beliebige
Aussagen, Ereignisse oder Parameter sind. Nehmen wir das Ereignis A, dass auch geschrieben
werden kann als A = AB + AB. Die Wahrscheinlichkeit fur dieses Ereignis
P (A) = P (AB + AB) = P (AB) + P (AB).
Seien nun Bi, i = 1, . . . , n sich ausschließende Ereignisse, so folgt
P (A) =
n∑
i=1
P (ABi) =
n∑
i=1
P (A|Bi)P (Bi).
Somit kann also die Wahrscheinlichkeit von A ermittelt werden als Summe uber die Wahr-
scheinlichkeiten im Zusammenhang mit den sich ausschließenden Ereignissen Bi.
9.2 Bayes-Theorem fur Wahrscheinlichkeiten - der diskrete Fall
Aus Gleichung (9.7) lasst sich das Bayes-Theorem fur zwei Ereignisse herleiten:
P (A|B) =P (B|A)P (A)
P (B). (9.9)
P (A|B) heißt die Posteriori-Wahrscheinlichkeit, P (A) die Priori-Wahrscheinlichkeit
und P (B|A) die Likelihood. Wir konnen also jetzt als A die Aussage der Dirigentin ein-
setzen und als B das Ergebnis ihrer 10 Versuche. Die Wahrscheinlichkeit, die wir suchen ist
die Posteriori-Wahrscheinlichkeit, namlich gegeben das Experiment, dass wir durchgefuhrt
83
9 Kleine Einfuhrung in die Bayesische Statistik
haben, wie hoch ist die Plausibilitat der der Aussagen A nachdem wir unsere Experiment
durchgefuhrt haben, wenn wir vor dem Experiment der Aussagen A eine Wahrscheinlichkeit
von P (A) (Priori-Wahrscheinlichkeit) zugeordnete haben. Die Likelihood gibt die Wahr-
scheinlichkeit des Ausgangs des Experiments unter der Bedingung an, dass die Aussage der
Dirigentin A zutrifft P (B|A) und wird aus den Daten bestimmt, oder anders formuliert ist
die Wahrscheinlichkeit der Daten B gegeben die Aussage A.
Existieren nun n disjunkte und den Ereignisraum erschopfende Aussagen A1, . . . , AN , so
lautet das Bayes-Theorem
P (Ai|B) =P (B|Ai)P (Ai)∑
i P (B|Ai)P (Ai)(9.10)
Die Normiertung c =∑
i P (B|Ai)P (Ai) wird jedoch haufig weggelassen, so dass das Bayes-
Theorem uber die Proportionalitatsbedingung
P (Ai|B) ∝ P (B|Ai)P (Ai)
Posteriori ∝ Likelihood ∗ Priori. (9.11)
Doch wie sehen diese Wahrscheinlichkeiten aus und wie werden sie bestimmt. Die Priori-
Wahrscheinlichkeiten wurden wir aus unserem Vorurteil ableiten. Dazu folgt spater mehr,
aber hier wurden wir eine Zahl zwischen 0 und 1 wahlen, die unsere Einschatzung der Plausi-
bilitat der Aussage widerspiegelt. Die Likelihood P (B|A) bestimmen wir aus unseren Daten,
die ergab, dass k = 9 von 10 Versuchen die Aussage bestatigt haben. k ist Binominalverteilt
mit den Parametern n = 10 und p. Der Parameter p gehort zur Aussage A, denn wir suchen
ja die von A bedingte Wahrscheinlichkeit. Die Aussage A musste also besser spezifiziert wer-
den (z.B. mit einer Wahrscheinlichkeit von p = 0.8 im Falle der Dirigentin). Die Likelihood
ware also
P (B|A) =
(n
k
)
pk(1 − p)k. (9.12)
Den Normierungsfaktor P (B) konnen wir eventuell bestimmen aus dem Integral uber alle
moglichen Aussagen, in unserem Fall aller moglichen pi mit
P (B) =
N∑
i=1
B(k|n, pi)π(pi), (9.13)
wobei π die PDF des Parameter p ist und die i = 1, . . . , N andeuten sollen, dass wir den p dis-
krete Werte zuordnen. Dies erfordert jedoch, dass wir nicht nur die Priori-Wahrscheinlichkeit
und damit p festlegen mussen, sondern wir mussen eine Verteilung der p festlegen. Dazu mehr
im Kapitel 9.4.4.
84
9 Kleine Einfuhrung in die Bayesische Statistik
9.3 Bayesische Statistik fur Wahrscheinlichkeitsdichten
Die Rechenregeln fur die Wahrscheinlichkeiten und das Bayes-Theorem lassen sich naturlich
auch fur Wahrscheinlichkeitsdichten formulieren. Nehmen wir eine diskrete bivariate ZVA
~X = (X, Y ), wobei X ∈ [x1, . . . , xn] und Y ∈ [y1, . . . , ym] (Ereignisraume). Die bivariate
ZVA ~X hat die Dichteverteilung p(x, y). Als Randverteilung pX(x) wird die Summe der
bivariaten Dichteverteilung uber alle moglichen Ereignisse y ∈ [y1, . . . , ym] definiert
pX(x) =m∑
i=1
p(x, yi) =m∑
i=1
p(x|yi)pY (yi), (9.14)
wobei wir die Kettenregel fur Dichtefunktionen benutzt haben
p(x, y, z) = p(x|y, z)p(y, z) = p(x|y, z)p(y|z)p(z). (9.15)
Analog gilt fur eine kontinuierliche bivariate ZVA ~X = (X, Y ), mit X ∈ und Y ∈
pX(x) =
∫ ∞
−∞p(x, y)dy =
∫ ∞
−∞p(x|y)pY (y)dy. (9.16)
Dies lasst sich naturlich auf beliebige multivariate ZVA erweitern. Die Berechnung der Rand-
verteilung, also das Integrieren uber den vollstandigen Ereignisraum einer oder mehrerer
Komponente der multivariaten ZVA heisst auch Marginalisierung.
Wir mochten als nun mit der Bayesische Statistik einen Parameter θ schatzen, wobei
uns eine Realisierung der ZVA X (Daten, Beobachtungen, Ergebnisse eines Modells, ect.)
x vorliegt. Die Frage also, die wir beantworten wollen ist, wie sieht die Verteilung des zu
schatzenden Parameters gegeben die Beobachtung x und unser Vorwissen uber den Parame-
ter π(θ) aus. Das Bayes-Theorem fur Wahrscheinlichkeitsdichten lautet dann
π(θ|x) =l(θ)π(θ)
∫π(x|θ′)π(θ′)dθ′
(9.17)
π(θ|x) ∝ l(θ) π(θ) (9.18)
Posteriori-Dichte ∝ Likelihood ∗ Priori-Dichte. (9.19)
Die Likelihood l(θ) = π(x|θ) sagt aus, dass ein θ fur welches die Likelihood l(θ) groß ist,
wahrscheinlicher (”more likely”) ist als eine θ fur das die Likelihood klein ist.
Doch wie bekommen wir nun all die Wahrscheinlichkeitsdichten, also die Priori-Dichte, die
Likelihood und die Normierung φ(x) =∫
π(x|θ′)π(θ′)dθ′, in der ja wiederum die Likelihood
85
9 Kleine Einfuhrung in die Bayesische Statistik
und die Priori-Dichte stecken? Um es vorweg zu nehmen: Das ganze ist verdammt kompli-
ziert! So lasst sich zwar ein Problem in Rahmen der Bayesische Statistik relativ anschaulich
formulieren, jedoch nur in den einfachsten Fallen tatsachlich (analytische) losen. Das war
auch der Grund weswegen die Bayesische Statistik erst in den letzten 20-30 Jahren uber-
haupt vermehrt zur Anwendung kommt. Denn heute existieren numerische Methoden, mit
denen sich die Priori-Dichten und die Likelihood relativ leicht bestimmen lassen (allerdings
manchmal noch mit recht großem Rechenaufwand). Eine sehr wichtige numerische Methode
zur Schatzung der unbekannten Dichten ist die ”Markov Chain Monte Carlo” Modellierung.
Dazu vielleicht spater noch ein Paar Worte.
9.4 Die Priori-Dichte
Zuerst wenden wir uns Methoden zur Schatzung von Priori-Dichte zu. Die Priori-Dichte soll
die Information ausdrucken, die bereits uber den Parameter θ existiert. Sie soll aber auch nur
genau diese beinhalten und nicht mehr, denn sonst wurde wir unser Ergebnis verfalschen.
9.4.1 Nichtinformative Priori-Dichten
Existiert kein Vorwissen uber den Parameter θ so werden sogenannte ”nichtinformative
Priori-Dichten” bestimmt. Fur einen diskreten Parameter θ ∈ Θ aus einem Ereignisraum
Θ min n Elementen ist es plausible, π(θi) so zu wahlen, dass kein θi bevorzugt wurde, was
bedeutet, dass θi gleichverteilt mit π(θi) = 1n
sein muss.
Fur einen kontinuierlichen Parameter θ ∈] − ∞,∞[ ist dann die nichtinformative Priori-
Dichte gegeben als
π(θ) ∝ c fur −∞ < θ < ∞.
c > 0 ist eine Konstante. Da∫∞−∞ π(θ)dθ 6= 1 ist, ist dies eigendlich keine Priori-Dichte. Es
lasst sich jedoch uber die Likelihood sicherstellen, dass die Normierungsbedingung zumindest
fur die Posteriori-Dichte∫∞−∞ π(θ|x)dθ = 1 gegeben ist.
Andere nichtinformative Priori-Dichte lassen sich uber Transformationen ableiten. Ist z.B.
der unbekannte Parameter eine Varianz θ = σ2 > 0, so lasst sich diese transformieren auf
θ′ = ln σ2.
86
9 Kleine Einfuhrung in die Bayesische Statistik
Fur π(θ′) wird wiederum die Gleichverteilung benutzt und mit der Transformation dθ′
dσ2 = 1σ2
ergibt sich, dass die Priori-Dichte fur die Varianz lautet
π(θ) ∝ 1
σ2fur 0 < θ < ∞.
Ein Problem dabei ist, dass diese nicht mehr gleichverteilt ist, was bedeutet, dass die Form
der nichtinformativen Priori-Dichte nicht invariant unter Transformation ist.
Es gibt verschiedene Methoden, nichtinformative Priori-Dichten zu bestimmen, darauf will
ich hier nicht weiter eingehen. Außerdem gibt es viele Pros und Contras bezuglich nichtin-
formativer Priori-Dichten (siehe Berger 1985, p. 87 [12]).
9.4.2 Priori-Dichte mit Maximum Entropie Methode
Mit der Methode der Maximum Entropie lassen sich Priori-Dichten finden, die zwar die ge-
gebene Information beinhalten, aber ansonsten die Unsicherheit maximieren. Die Methode
sei hier nun kurz fur diskrete Parameter skizziert. Sei θ ein diskreter Parameter mit Ereig-
nisraum Θ und einer Wahrscheinlichkeitsdichte π(θ). Die Entropie der Dichtefunktion ist
definiert als
En(π) = −∑
Θ
π(θi)log π(θi).
Sie misst die Unsicherheit einer Dichtefunktion. Das vorhandene Priori-Wissen uber den
Parameter wird in der Regel uber eine Beschrankung der diskreten Dichtefunktion π(θ)
eingebunden der Form
Eπ[gk(θ)] =∑
i
π(θi)gk(θi) = µk, k = 1, . . . , m.
Die Losung dieses Maximierungsproblems sprengt selbst den Rahmen von [12], welches eins
der ausfuhrlichsten Bucher zu Bayesischer Entscheidungstheorie ist. Begnugen wir uns damit,
denn die Maximum Entropie Methode fur kontinuierliche Parameter ist noch weit kompli-
zierter. Trotzdem ist die Methode gerade in Fallen, bei denen vorhandene Information sich
in Form von Einschrankungen der Momente der Priori-Dichten ausdrucken lassen, enorm er-
folgreicht und bildet die Grundlage fur viele weitere Techniken, die haufig angewand werden.
9.4.3 Einschrankung der Priori-Dichten
Eine Moglichkeit, die Bestimmung der Priori-Dichten zu erleichten ist die Einschrankung auf
bestimmte Klassen von Dichtefunktionen.
87
9 Kleine Einfuhrung in die Bayesische Statistik
1. Einschrankung der Priori-Dichten auf gegebene funktionale Form: Die Fa-
milie der moglichen Priori-Dichten Γ, also Auswahl der Priori-Dichten wird auf eine
bestimmte funktionale Form eingeschrankt
Γ = π : π(θ) = g(θ|~λ), ~λ ∈ Λ.
~λ ist der Parametervektor der Dichtefunktion g und heißen in diesem Fall Hyperpa-
rameter der Priori-Dichte. Die Wahl der Priori-Dichte wird also eingeschrankt auf die
Bestimmung der Hyperparameter. Diese wiederum lassen sich u.U. uber die Randver-
teilung der Daten (dazu mehr im nachsten Abschnitt) bestimmt werden.
2. Einschrankung der Priori-Dichten auf gegebene strukturelle Form: Dies be-
trifft die Bestimmung der Priori-Dichte fur multivariate Parameter Θ = (θ1, . . . , θn)T .
Die strukturelle Einschrankung bezieht sich dann auf den Zusammenhang zwischen
den Komponenten des Parameters.
3. Einschrankung der Priori-Dichten auf die Umgebung einer ausgewahlten
Priori-Dichte: Solche Priori-Dichten werden gewahlt um die Robustheit der Ergeb-
nisse zu testen. Ist eine Priori-Dichte π(θ)0 ausgewahlt, so wird eine ε-kontaminierte
Klasse von Verteilungen definiert als
Γ = π : π(θ) = (1 − ε)π0(θ) + εq(θ), q ∈ D,
wobei D die Klasse aller moglchen Konaminationen beschreibt.
Die Punkte 2. und 3. sich hier nur der Vollstandigkeit angefuhrt. Wir beschranken uns im
Folgenden darauf, dass wir die Wahl der Priori-Dichte, wenn uber auf, auf eine funktionale
Form einschranken.
9.4.4 Die Randverteilung zur Bestimmung der Priori-Dichte
Eine sehr wichtige Große zur Bestimmung der Priori-Dichte ist die Dichtefunktion der Rand-
verteilung von X, also die Randdichte m(x) der ZVA X (Daten).
Wenn X also die Dichtefunktion f(x|θ) besitzt und θ die Wahrscheinlichkeitsdichte π(θ),
dann lasst sich die gemeinsame Dichte von X und θ schreiben als Integral uber den Parameter
θ mit
h(x, θ) = f(x|θ)π(θ)
88
9 Kleine Einfuhrung in die Bayesische Statistik
Wir definieren die Dichtefunktion der Randverteilung (Randdichte) bezuglich der Priori π(θ)
als
m(x|π) =
∫
Θ
f(x|θ)π(θ)dθ =
∫
Θ
f(x|θ)dF π(θ).
Die Randdichte m(x|π) ≡ m(x) ist die Dichteverteilung, mit der tatsachlich die ZVA X (die
Daten) auftreten.
Die Randdichte ist deshalb so interessant, weil sie die Wahrscheinlichkeitsdichte beschreibt,
mit der die ZVA Daten X tatsachlich auftritt. Die Randdichte kann zum Beispiel dazu be-
nutzt werden, die Annahme uber die Priori π(θ) oder das Modell, welches durch die Like-
lihood reprasentiert wird, zu testen. Denn wenn die Randdichte m(x), fur das tatsachlich
beobachtete x klein ist, so lieferte das Modell keile gute ”Vorhersage” der Daten. Die Wahl
der Priori-Dichte oder der Likelihood sind somit zumindest suspekt.
9.5 Die Maximum-Likelihood Typ II - Methode
Die Randdichte m(x|π) beschreibt also die Plausibilitat der Daten bezuglich einer bestimm-
ten Wahl von Priori-Dichte und Modell. Bei gegebenen Daten x bedeutet dies, dass wenn
die Randdichte bezuglich der Priori-Dichte π1 großer ist als bezugilch π2, also
m(x|π1) > m(x|π2),
dass die Daten die Priori π1 mehr unterstutzen als π2. Die Randdichte m(x|π) kann also als
Likelihood-Funktion der Priori-Dichte dienen.
Der naturliche Weg also, die Priori-Dichte zu bestimmen, ware also die maximierung der
Likelihood m(x|π) bezuglich π. Die Maximum-Likelihood Typ II Priori-Dichte π ist also die
Priori-Dichte, fur die gilt
m(x|π) = supπ∈Γ
m(x|π).
Γ beschreibt eine eventuelle Einschrankung der Priori-Dichten, welche die ML Methode
sehr vereinfachen kann. Beschreibt Γ eine funktionale Beschrankung
Γ = π : π(θ) = g(θ|~λ), ~λ ∈ Λ,
dann wird die Maximierung bezuglich der Hyperparameter ~λ durchgefuhrt
supπ∈Γ
m(x|π) = sup~λ∈Λ
m(x|g(θ|~λ)).
89
9 Kleine Einfuhrung in die Bayesische Statistik
9.6 Die Momente-Methode
Anstatt der Maximum-Likelihood Typ II - Methode kann auch die so genannte Momente-
Methode benutzt werden, um eine auf eine funktionale Form eingeschrankte Priori-Dichte
zu bestimmen. Dabei werden die Momente der Randdichte in Verbindung gebracht mit den
Momenten der Priori-Dichte. Erstere kann z.B. aus den Daten geschatzt werden.
9.7 Konjugierten Priori-Dichten und die Posteriori
Ziel der Bayesische Statistik ist die Bestimmung der Posteriori-Dichte, welche resultiert aus
der Verknupfung des Vorwissens mit der Information aus den Daten (welche in der Regel
uber ein Modell geschieht, welches die Daten mit dem Parameter verbindet, der Likelihood).
Diese Posteriori dient dann als Grundlage aller Entscheidungen und Schlussfolgerungen. Die
Randdichte m(x) und die Posteriori sind jedoch i.A. nicht leicht zu berechnen. In vielen
Fallen existieren nur numerische Losungen.
Es ist jedoch moglich, die Klasse der Priori-Dichte so zu beschanken, dass die Klasse
der Posteriori-Dichte bekannt ist. Dies geschieht mit Hilfe konjugierter Familien von
Wahrscheinlichkeitsdichten. Sei F eine Klasse von Dichtefunktionen f(x|θ) (Likelihood).
Eine Klasse von Priodi-Dichten P heisst konjugierte Familie von F , wenn die Posteriori-
Dichte π(θ|x) in der gleichen Klasse P wie die Priori-Dichte ist, und zwar fur alle x ∈ X
und alle π ∈ P.
Das bedeutet, dass wir die Priori aus der Familie der zur Likelihood konjugierten Familie
wahlen, und die Posteriori dann der selben konjugierten Klasse angehort. Ist die Likelihood
Binominalverteilt, so ist die entsprechende konjugierte Dichte aus der Familie der Beta-
Verteilung. Die zur Normalverteilung konjugierten Dichten sind aus der Familie der Gam-
maverteilung oder der Normalverteilung. Die Poisson-Verteilung hat als konjugierte Dichte
die Gamma-Verteilung.
Die Anwendung konjugierter Priori-Dichten hat den angenehmen Effekt, dass nur die
Parameter bezuglich neuer Daten ”updated” werden, die funktionale Form verandert sich
nicht. Es bleibt naturlich die Frage, ob konjugierte Dichten existieren, die eine genugend
genaue Naherung der Priori darstellen.
90
9 Kleine Einfuhrung in die Bayesische Statistik
9.8 Anwendungen Bayesische Statistik
9.8.1 Punktschatzung eines Parameters
Wie in der frequentistischen Statistik seien wir an einem Schatzer des Parameters θ in-
teressiert und mochten naturlich auch ein Maß fur die Gute der Schatzung erhalten. Die
Bayesische Statistik gibt uns die Posteriori-Dichte von θ an, π(θ|x), die wesentlich mehr
Information enthalt als eine Punktschatzung und deren Gute.
Erinnern wir uns an die Maximum Likelihood Methode zur Schatzung von Parametern
aus einer Stichprobe. Die zu maximierende Likelihood war die Dichte l(~λ) = f(x|~λ). Der
analoge Bayesische Schatzer ist der Generalisierte Maximum Likelihood Schatzer. Der Gene-
ralisierte Maximum Likelihood Schatzer ist das θ, welches die Posteriori-Dichte maximiert.
Dies entspricht dem Wahrscheinlichten Wert fur θ bei gegebenden Daten x und Priori π(θ).
Anstatt des Modus ließen sich naturlich auch noch Erwartungswert und Median angeben.
Die Gute der Schtzunge bestimmt sich auch der Varianz der Posteriori, der Posteriori
Standardabweichung. Die Posteriori Standardabweichung ist meistens (nicht immer!) kleiner
als die Standardabweichung des klassischen Schatzers σ, da die Einbindung von Vorwissen
die Unsicherheit der Schtzung reduziert.
Eine andere Moglichkeit um die Gute einer Schatzung anzugeben ist die Angabe von Mu-
tingsintervallen. In der Bayesischen Statistik heißen diese Kredibilitatsintervalle und lassen
sich direkt aus der Posteriori ableiten. Definiert sind fur den konzinuierlichen Fall als das
Intervall, in dem der Parameter θ mit einer Wahrscheinlichkeit 1 − α ist
P (C|x) =
∫
C
π(θ|x)dθ ≥ 1 − α.
9.8.2 Multivariate Parameterschatzung
9.8.3 Test statistischer Hypothesen
9.8.4 Bayesiche Entscheidungstheorie
91
Literatur
Literatur
[1] Kolmogoroff A., Grundbegriffe der Wahrscheinlichkeitsrechnung, Berlin, Springer, 1933
[2] Schonwiese, C.D., Praktische Statistik, Gebr. Borntraeger, Berlin 1985
[3] Brandt, S., Datenanalyse, BI Wissenschaftsverlag 1981
[4] Kreyszig, E., Statistische Methoden und ihre Anwendungen, Vandenhoeck und Ru-
precht, 1975
[5] Taubenheim, J., Statistische Auswertung geopysikalischer und meteorologischer Daten,
Leipzig, Akademische Verlagsgesellschaft, 1979 (wird nicht mehr aufgelegt)
[6] Press, W.H., Flannery, B.P., Teukalsky, S.A., Vetterling W.T., Numerical Recipes, Cam-
bridge University Press, 1986
[7] Schuster, Deterministic Chaos, An Introduction, Physik - Verlag, Weinheim
[8] Morrison, D.F., Multivariate Statistical Methods, McGraw Hill Series in Probability
and Statistics
[9] Anderson, T.W., An Introduction to Multivariate Statistical Analysis, 2nd Edition, J.
Wiley & Sons,
[10] Proc. Int. Math. Congress, Toronto 1924
[11] Coles, S., An Introduction to Statistical Modelling of Extreme Values. Springer Series
in Statistics, London 2001, 208p.
[12] Berger, J.O., Statistical Decision Theory and Bayesian Analysis, 2nd Edition, Springer
1985
92