Dr. Matthias Birkner€¦ · Dieses Skript wurde von Felix Hoffmann w¨ahrend der Vorlesung...
Transcript of Dr. Matthias Birkner€¦ · Dieses Skript wurde von Felix Hoffmann w¨ahrend der Vorlesung...
Angewandte StochastikDr. Matthias Birkner
VorlesungSommersemester 2008
Felix HoffmannUniversitat Bonn
22. Juli 2009
Vorwort
Dieses Werk ist unter einem Creative Commons Namensnennung-NichtKommerziell-Weitergabe unter gleichen Bedingungen-Lizenzvertrag lizensiert. Die vollstandige Lizenzist einzusehen unter:
http://creativecommons.org/licenses/by-nc-sa/2.0/de/deed.de
Dieses Skript wurde von Felix Hoffmann wahrend der Vorlesung Angewandte Stochastik vonMatthias Birkner im Sommersemester 2008 an der Rheinischen Friedrich-Wilhelms UniversitatBonn mitgeschrieben und anschließend von Matthias Birkner durchgesehen und erganzt.
Bei Fragen, Wunschen, Korrektur- oder Verbesserungsvorschlagen freuen wir uns uber jede E-Mailanbirkner(AT)wias-berlin.de,felix.hoffmann(AT)iam.uni-bonn.de
ii
Inhaltsverzeichnis
I. Statistik 1
1. Einfuhrung in die Statistik 31.0.1. Beispiel: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1. Definition und Sprechweise: statistisches Modell . . . . . . . . . . . . . . . . . . . . . 31.2. Definition und Sprechweise: parametrisches Modell . . . . . . . . . . . . . . . . . . . 4
1.2.1. Bemerkung: Uniforme Verteilung auf einer Cantormenge . . . . . . . . . . . . 41.3. Definition: Produktmodell zu (X ,F ,Pϑ : ϑ ∈ Θ): . . . . . . . . . . . . . . . . . . . . 41.4. Definiton: Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.5. Beispiel:
”Taxiproblem“, Schatzung des Wertebereichs: . . . . . . . . . . . . . . . . . 4
1.5.1. Bemerkung: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2. Das Maximum-Likelihood-Prinzip: 72.0.2. Beispiel: Qualitatskontrolle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1. Definition: Likelihood-Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.1.1. Beispiele: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.1.2. Beispiel: Uniforme Verteilung auf [0, ϑ] . . . . . . . . . . . . . . . . . . . . . . 82.1.3. Beispiel: Normales Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2. Sprechweisen: Erwartungstreu, Mittlerer quadratischer Fehler, Bias . . . . . . . . . . 92.3. Satz: Erwartungstreue Schatzer fur Varianz und Mittelwert . . . . . . . . . . . . . . 9
2.3.1. Definition und Beobachtung: Konsistenz . . . . . . . . . . . . . . . . . . . . . 10
3. Exponentielle Familien, Fisher-Information und beste Schatzer: 113.1. Definition: regular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.1.1. Bemerkung: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.2. Definition: Fisher-Information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2.1. Bemerkung: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.3. Definition: regularer Schatzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.4. Satz: Cramer-Rao-Schranke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.4.1. Beispiele: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.5. Definition: Cramer-Rao-effizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.6. Definition: exponentielles Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.6.1. Bemerkung: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143.7. Satz uber die
”Gutartigkeit“ von exponentiellen Modellen . . . . . . . . . . . . . . . 14
3.8. Korollar: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.8.1. Beispiel: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.9. Konsistenz des ML-Schatzers im Produktmodell: . . . . . . . . . . . . . . . . . . . . 163.9.1. Bemerkung: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.10. Satz und Definition: relative Entropie (Kullback-Leibler-Abstand) . . . . . . . . . . . 173.10.1. Beispiele: Poisson- und Exponentialverteilung . . . . . . . . . . . . . . . . . . 18
iii
3.11. Satz: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.11.1. Bemerkung: Asymptotische Konfidenzintervalle fur den ML-Schatzer: . . . . 19
3.11.2. Beobachtung: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4. Exkurs: Bedingte Erwartung und Anwendungen 21
4.1. Definition: Bedingte Erwartung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.2. Satz: Existenz und Eindeutigkeit der bedingten Erwartung: . . . . . . . . . . . . . . 21
4.3. Eigenschaften der bedingten Erwartung: . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.3.1. Bemerkung: Zur Existenz der regularen bedingten Verteilung . . . . . . . . . 23
4.4. Suffizienz: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.5. Satz von Rao-Blackwell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.6. Definition: Vollstandigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.6.1. Beispiel: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.6.2. Bemerkung: Eindeutigkeit der Rao-Blackwellisierung . . . . . . . . . . . . . . 24
4.7. Satz von Lehmann-Scheffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.7.1. Bemerkung: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5. Bayes-Schatzer 27
5.1. Definition: A-priori-Dichte und -Maß . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.2. Satz: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
6. Konfidenzintervalle: 29
6.1. Definition: Konfidenzbereich zum Irrtumsniveau α . . . . . . . . . . . . . . . . . . . 29
6.1.1. Beispiel: Konfidenzintervalle im Binomialmodell . . . . . . . . . . . . . . . . 29
6.2. Definition: Quantil, Fraktil und Median . . . . . . . . . . . . . . . . . . . . . . . . . 30
6.2.1. Lemma: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
6.2.2. Satz: exaktes Konfidenzintervall im Binomialmodell . . . . . . . . . . . . . . 32
6.3. Konfidenzintervalle im Gauß’schen Modell . . . . . . . . . . . . . . . . . . . . . . . . 32
6.3.1. Satz: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
7. Exkurs: mehrdimensionale Normalverteilung 35
7.1. Dichtentransformationssatz: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
7.2. Erinnerung: Γa,b-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
7.2.1. Proposition: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
7.2.2. Korollar: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
7.2.3. Proposition: Fisher-Verteilung mit m und n Freiheitsgraden . . . . . . . . . . 36
7.2.4. Korollar: Student’sches T . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
7.3. Satz: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
8. Konfidenzintervalle fur den Median 39
8.1. Satz uber die Konfidenzintervalle fur den Median . . . . . . . . . . . . . . . . . . . . 39
8.2. Korollar: Vorzeichentest fur den Median . . . . . . . . . . . . . . . . . . . . . . . . . 40
8.3. Die 2-Stichproben-Situation: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
8.3.1. Wilcoxon-Rangsummen-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
8.3.2. Proposition: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
8.4. Satz: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
8.5. Definition: stochastisch kleiner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
8.5.1. Satz: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
iv
8.5.2. Beispiel: Verkehrstote in Großbritannien 1969–1984 . . . . . . . . . . . . . . . 45
9. Testen von Hypothesen: 47
9.1. Definition: Test, Randomisierung und Gutefunktion . . . . . . . . . . . . . . . . . . 47
9.2. Definition: gleichmaßig bester Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
9.3. Alternativtest und das Neyman-Pearson-Lemma . . . . . . . . . . . . . . . . . . . . 47
9.3.1. Definition: Neyman-Pearson-Test . . . . . . . . . . . . . . . . . . . . . . . . . 48
9.3.2. Satz: (Neyman-Pearson-Lemma) . . . . . . . . . . . . . . . . . . . . . . . . . 48
9.4. Satz: (Lemma von Stein) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
9.4.1. Beispiel: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
10.Monotone Likelihood-Quotienten und beste einseitige Tests 53
10.1. Definition: Likelihood-Quotient Rϑ′,ϑ(x) . . . . . . . . . . . . . . . . . . . . . . . . . 53
10.1.1. Beobachtung: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
10.2. Satz: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
10.2.1. Beispiel: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
10.3. Tests im (2-parametrigen) Gauß’schen Modell . . . . . . . . . . . . . . . . . . . . . . 54
10.3.1. Satz: Linksseitiger χ2-Test fur die Varianz im Gauß’schen Modell . . . . . . . 55
10.3.2. Bemerkung: (Der rechtsseitige χ2-Test fur die Varianz) . . . . . . . . . . . . . 56
10.3.3. Satz: Einseitiger Student’scher t-Test . . . . . . . . . . . . . . . . . . . . . . . 56
11.χ2-Anpassungstest 59
11.1. Test auf eine vorgegebene Haufigkeitsverteilung . . . . . . . . . . . . . . . . . . . . . 59
11.1.1. Satz: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
11.1.2. Korollar: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
11.1.3. χ2-Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
11.2. χ2-Test auf Unabhangigkeit: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
11.2.1. Satz: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
11.2.2. Korollar: χ2-Test auf Unabhangigkeit . . . . . . . . . . . . . . . . . . . . . . 64
12.Regression und das lineare Modell 67
12.1.”Einfache“ Regression: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
12.1.1. Satz: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
12.2. Das lineare Modell: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
12.2.1. Satz von Gauß-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
12.3. Das normale lineare Modell: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
12.3.1. Verallgemeinerung des Satzes von Student . . . . . . . . . . . . . . . . . . . . 72
12.3.2. Korollar: Konfidenzbereiche im normalverteilten linearen Modell . . . . . . . 73
12.3.3. Korollar: Tests im normalverteilten linearen Modell . . . . . . . . . . . . . . . 74
12.3.4. Beispiel: Polynomielle Regression . . . . . . . . . . . . . . . . . . . . . . . . . 75
12.4. Varianzanalyse: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
12.4.1. Satz: Konfidenzbereich fur γ = (m1, . . . ,ms)t . . . . . . . . . . . . . . . . . . 77
12.4.2. Satz: F-Test auf Gleichheit der Gruppenmittelwerte . . . . . . . . . . . . . . 78
12.4.3. Korollar: t-Test auf Gleichheit der Mittelwerte fur zwei ungepaarte (normal-verteilte) Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
12.5. Zweifaktorielle Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
12.5.1. Beispiel: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
v
II. Finanzmathematik - Mathematische Modelle und Methoden zur Bewertung vonDerivaten 81
13.Einfuhrung in die Finanzmathematik 8313.1. Europaische Call- und Put-Option . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8313.2. Binomialmodell: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
13.2.1. Mehrperioden-Binomialmodell (CRR(=Cox-Ross-Rubinstein)-Modell (1979)) 8513.2.2. Beobachtung: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8513.2.3. Satz: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8613.2.4. Beispiel: Europaische Call-Option . . . . . . . . . . . . . . . . . . . . . . . . . 8813.2.5. Bemerkung: Call-Put-Paritat . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
13.3. Black-Scholes-Formel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8813.3.1. Satz: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9013.3.2. Korollar: Black-Scholes-Formel fur den Preis eines Calls . . . . . . . . . . . . 90
13.4. Fundamentalsatz der Preistheorie (in endlichen Markten) . . . . . . . . . . . . . . . 9013.4.1. Marktmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9013.4.2. Definition: selbstfinanzierend . . . . . . . . . . . . . . . . . . . . . . . . . . . 9113.4.3. Definition: (duplizierbarer) Claim, Hedge, vollstandiges Marktmodell, Arbitrage 9213.4.4. Korollar: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9213.4.5. Definition: Aqiuvalentes Martingalmaß . . . . . . . . . . . . . . . . . . . . . . 9213.4.6. Beobachtung: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9213.4.7. Fundamentalsatz der Preistheorie: . . . . . . . . . . . . . . . . . . . . . . . . 93
14.Exkurs: Stochastische Integration 9514.0.8. Definition: Stochastischer Prozess . . . . . . . . . . . . . . . . . . . . . . . . . 9514.0.9. Bemerkung: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9514.0.10.Lemma: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
14.1. Definition: Stochastischer Integrator, Ito-Integral . . . . . . . . . . . . . . . . . . . . 9714.1.1. Lemma: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9714.1.2. Definition: Fast sicher endliche Variation . . . . . . . . . . . . . . . . . . . . . 9714.1.3. Bemerkung: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9814.1.4. Satz: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
14.2. Satz: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10114.2.1. Erinnerung: Satz vom optionalen Stoppen . . . . . . . . . . . . . . . . . . . . 10114.2.2. Erinnerung: Doobs L 2-Ungleichung: . . . . . . . . . . . . . . . . . . . . . . . 101
14.3. Ito-Formel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10314.3.1. Satz: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
15.Die geometrische Brown’sche Bewegung und die Black-Scholes-Formel 105
III. Anhang 109
A. Verwendeter R-Code 111A.1. Konfidenzintervalle im Binomialmodell: Fur Abbildung 6.3 verwendeter R-Code . . . 111A.2. Temperaturdiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
vi
Teil I.
Statistik
1
1. Einfuhrung in die Statistik
1.0.1. Beispiel:
n u.a. Messungen (z.B. Gewicht eines Goldbarrens), aus denen Ruckschlusse auf den”wahren“ Wert
gezogen werden sollen.
Annahme: die Ergebnisse X1, . . . , Xn seien normalverteilt N (m,σ2) mit bekannter Varianz σ2
und unbekanntem Mittelwert m (d.h. Xi haben Dichte 1√2πσ
e−(x−m)2
2σ2 ).
Wir beobachten x1, . . . , xn.
Punktschatzer:
M(X) =1
n
n∑
i=1
Xi
Konfidenzintervall: P(m,σ2) [[M(X) − ε(X),M(X) + ε(X)] ∋ m] ≥ 1 − α ∀m ∈ R
Beobachtung: M(X) = 1n
n∑i=1
Xi!= 1
n
n∑i=1
(σZi +m) = m+ σn(Z1 + . . .+ Zn) ∼ N (m, σ
2
n )
∀m : P(m,σ2)
∣∣∣∣∣M(X) −m√
σn
∣∣∣∣∣ ≤ a
︸ ︷︷ ︸=M(X)− σ√
na≤m≤M(X)+ σ√
na
= 2Φ(a) − 1
Testen von Hypothesen: z.B.: Sprechen die Beobachtungen fur m ≤ m0?
Regel: Ist M(X) ≤ c entscheide fur Nullhypothese”m ≤ m0“
Ist jedoch M(X) > c entscheide fur Alternative”m > m0“
Verlange: P(m,σ2)[M(X) > c] ≤ α ∀m ≤ m0 (Wahrscheinlichkeit eines Fehlers 1. Art klein)
und P(m,σ2)[M(X) > c]!= moglichst groß ∀m > m0 (Wahrscheinlichkeit eines Fehlers
2. Art klein)
Vorschlag: c so, dass P(m,σ2)[M(X) > c] = P[Z > c−m0σ ] = α
1.1. Definition und Sprechweise: statistisches Modell
Ein statistisches Modell ist ein Tripel (X ,F ,Pϑ : ϑ ∈ Θ), wo (X ,F ) ein messbarer Raum (d.h.F ⊂ P(X ) ist eine σ-Algebra) und Pϑ auf (X ,F ) fur ϑ ∈ Θ ein Wahrscheinlichkeitsmaß ist, wobeidie Indexmenge Θ nicht einpunktig ist.
3
1.2. Definition und Sprechweise: parametrisches Modell
Das Modell heißt parametrisch, wenn ⊆ Rd und einparametrisch, wenn Θ ⊆ R, diskret, wenn Xabzahlbar, stetig, wenn X ⊆ Rk (messbar) und jedes Pϑ eine Dichte fϑ bzgl. des Lebesgue-Maßbesitzt.
Ein Modell heißt Standardmodell, falls es diskret oder stetig ist.
1.2.1. Bemerkung: Uniforme Verteilung auf einer Cantormenge
Wahle (Xn)n i.i.d. ∼ Ber(12), S =
∞∑n=1
2Xn ·3−n, die Verteilung von S ist weder diskret noch besitzt
sie eine Dichte bzgl. des Lebesgue-Maßes.
1.3. Definition: Produktmodell zu (X , F ,Pϑ : ϑ ∈ Θ):
Ein Produktmodell ist ein statistisches Modell der Form (X n,Fn,P⊗nϑ : ϑ ∈ Θ).
1.4. Definiton: Statistik
(i) Eine Zufallsgroße von (X ,F ) nach (Σ,S ) heißt eine Statistik.
(ii) τ : Θ → Σ, τ(ϑ) ist eine Kenngroße oder ein”Parametermerkmal“, T : X → Σ (messbar)
heißt ein Schatzer (fur τ).
1.5. Beispiel:”Taxiproblem“, Schatzung des Wertebereichs:
Angenommen alle Taxis einer Stadt sind mit den Nummern 1, . . . , N durchnummeriert und manbeobachtet die Nummern x1, . . . , xn mit n << N und den xi paarweise verschieden. Was ware dannein guter Schatzer fur N?
Wir modellieren kontinuierlich: Unter Pϑ sind X1, . . . , Xn unabhangig, uniform verteilt auf [0, ϑ].Wir betrachten folgende Schatzer fur ϑ:
Tn(x) := 21
n
n∑
i=1
Xi,
Tn(x) := maxX1, . . . , Xn,T ′n(x) := Tn(x) + minx1, . . . , xn.
Es gilt
Eϑ[Tn] =2
n
n∑
i=1
Eϑ[Xi] = ϑ,
Eϑ[Tn]1
=
ϑ∫
0
t · ntn−1
ϑn1[0,ϑ](t)dt
=n
n+ 1ϑ,
4
Eϑ[T′n] = Eϑ[Tn] + Eϑ[minX1, . . . , Xn]︸ ︷︷ ︸
=Eϑ[ minϑ−X1, . . . , ϑ−Xn︸ ︷︷ ︸ϑ+min−X1,...,−Xn=ϑ+maxX1,...,Xn
]
=n
n+ 1ϑ+ ϑ− n
n+ 1ϑ = ϑ.
Und die Varianz?
Varϑ(Tn) =4
n2nVarϑ(Xi)︸ ︷︷ ︸
=ϑ2
12
=ϑ2
3n,
Varϑ(Tn) = E[Tn2] − Eϑ[Tn]
2
=
ϑ∫
0
t2 · ntn−1
ϑndt−
ϑ∫
0
t · ntn−1
ϑndt
2
=ϑ2n
n+ 2− ϑ2n2
(n+ 1)2
=n
(n+ 1)2(n+ 2)ϑ2.
1.5.1. Bemerkung:
T ∗ :=n+ 1
nTn hat
EϑT∗n = ϑ
mit
Varϑ(T∗n) =
ϑ2
n(n+ 2)
Ubungsaufgabe: Varianz von T ′n berechnen.
Wir hatten gerne, dass
Eϑ[(T − ϑ)2]!= klein, glm fur alle ϑ,
d.h. der erwartete quadratische Fehler sollte moglichst (gleichmaßig) klein sein.
1Pϑ[Tn ≤ c] =
( c
ϑ
)n
, d.h. Tn hat die Dichtentn−1
ϑn1[0,ϑ](t)
5
2. Das Maximum-Likelihood-Prinzip:
2.0.2. Beispiel: Qualitatskontrolle
Es sind N Orangen angeliefert worden, darunter ϑ viele faul. Wir nehmen eine Stichprobe von nOrangen, von denen x faul sind.
Θ = 0, 1, . . . , N, ρϑ(x) =
(ϑx
)(N−ϑn−x
)(Nn
) ,
fur welche(s) ϑ ist ρϑ(x) maximal?
Betrachte:
ρϑ(x)
ρϑ−1(x)=
(ϑx
)(N−ϑn−x
)(Nn
)(ϑ−1x
)(N−ϑ+1n−x
)(Nn
)=
ϑ
ϑ− x
(N − ϑ+ 1 − n+ x)
(N − ϑ+ 1)≥ 1 ⇐⇒ ϑn ≤ (N + 1)x,
demnach ist T (x) = ⌊xn(N+1)⌋ (ein) Maximum-Likelihood-Schatzer fur ϑ. (Der Maximum-Likelihood-Schatzer ist hier eindeutig, es sei denn x
n(N + 1) ∈ N, dann sind xn(N + 1) und x
n(N + 1)− 1 beidesML-Schatzer.)
2.1. Definition: Likelihood-Funktion
Sei M = (X ,F ,Pϑ : ϑ ∈ Θ) ein statistisches Standardmodell. Die Funktion
ρ : X × Θ → R+,
wobei x 7→ ρ(x, ϑ) die Dichte von Pϑ bezuglich des Referenzmaßes ist, heißt Likelihood-Funktion.Wir schreiben auch ρ(x, ϑ) = ρϑ(x) = ρx(ϑ). Ein Schatzer T : X → Θ heißt (ein) Maximum-Likelihood-Schatzer (MLE1), wenn
ρ(x, T (x)) = maxϑ∈Θ
ρ(x, ϑ) ∀x ∈ X .
2.1.1. Beispiele:
Erfolgwahrscheinlichkeit beim Munzwurf (Schatzen des Erfolgsparameters einer Binomialvertei-lung): Wir werfen eine Munze n mal und zahlen die Anzahl Erfolge. Statistisches Modell:
(0, . . . , n,P(0, . . . , n), Bin(n, ϑ : ϑ :∈ [0, 1])).
Beobachte x Erfolge:
ρx(ϑ) =
(n
x
)ϑx(1 − ϑ)n−x ist maximal ⇐⇒
1MLE=“maximum likelihood estimator“, wird haufig mit ϑML bezeichnet
7
d
dϑlog ρx(ϑ) · d
dϑ(log(
(n
x
)) + x log ϑ+ (n− x) log(1 − ϑ)) =
x
ϑ− n− x
1 − ϑ
!= 0
⇐⇒ ϑ = xn , also ist T (x) = x
n der ML-Schatzer fur ϑ
2.1.2. Beispiel: Uniforme Verteilung auf [0, ϑ]
x1, . . . , Xn unter Pϑ i.i.d., ∼ unif([0, ϑ]).
ρ(x, ϑ) =1
ϑ1[0,ϑ](x), ρ
⊗n((x1, . . . , xn), ϑ) =
1ϑn falls x1, . . . , xn ∈ ϑ
0 sonst
Also ist maxX1, . . . , Xn der Maximum-Likelihood-Schatzer.
2.1.3. Beispiel: Normales Modell
Sei ϑ := (m, v) ∈ (−∞,∞) × (0,∞). Pϑ = N(m,v)
ρ(x, ϑ) =1√2πv
e−(x−m)2
2v ,
n Beobachtungen: (Qϑ = P⊗nϑ ),
ρ⊗n((x1, . . . , xn), ϑ) =1√
2πvn exp
(−
n∑
i=1
(xi −m)2
2v
)
Gesucht: ML-Schatzer fur ϑ = (m, v), basierend auf den Beobachtungen X1, . . . , Xn:
log ρ⊗n((X1, . . . , Xn), ϑ) = −n2
log 2πv − 1
2v
n∑
i=1
(Xi −m)2
Beobachtung: Steiner’scher Verschiebungssatz (siehe auch Abbildung 2.1)
Sei M(x) = M(x1, . . . , xn) := 1n
∑ni=1 xi der empirische Mittelwert der xi. Es gilt fur jedes m ∈ R:
1
n
n∑
i=1
(xi −m)2 =1
n
n∑
i=1
(xi −M(x)
)2+(M(x) −m
)2,
denn die rechte Seite ist gleich
1
n
n∑
i=1
x2i − 2M(x)
1
n
n∑
j=1
xj +M(x)2 +(M(x)2 − 2M(x)m+m2
)=
1
n
∑x2i − 2M(x)m+m2.
Zur Wahl von v:
0!=
d
dv
(−n
2log(2πv)
)− 1
2v
n∑
i=1
(Xi−M(X))2 =n
2v− 1
2v2
n∑
i=1
(Xi−M(X))2 ⇐⇒ v =1
n
n∑
i=1
(Xi−M(X))2,
d.h. empirischer Mittelwert und empirische Varianz sind die ML-Schatzer im normalen Produkt-modell.
8
〈(1, 1, . . . , 1)〉
M(x1, x2)
M(x1, x2)
(m,m)
(x1, x2)
Abbildung 2.1.: Unter allen Punkten auf der Diagonalen 〈(1, 1, . . . , 1)〉 hat (M(x),M(x), . . . ,M(x))den kleinsten euklidischen Abstand von (x1, . . . , xn).
2.2. Sprechweisen: Erwartungstreu, Mittlerer quadratischer Fehler,
Bias
Sei T ein Schatzer fur ein reelles Parametermerkmal τ(ϑ). T heißt erwartungstreu, wenn Eϑ[T ] =τ(ϑ),Bϑ(T ) = Eϑ[T ] − τ(ϑ) heißt Bias (Verzerrung).Mittlerer quadratischer Fehler : Fϑ(T ) = Eϑ[(T − τ(ϑ))2] = Varϑ(T ) +Bϑ(T )2.
2.3. Satz: Erwartungstreue Schatzer fur Varianz und Mittelwert
Betrachte ein Produktmodell (Rn,B⊗n(R),Q⊗nϑ : ϑ ∈ Θ) ( d.h. seien X1, . . . , Xn i.i.d. gem Qϑ, ϑ ∈
Θ), wo Qϑ Mittelwert m(ϑ) =∫
RxQϑ(dx) und Varianz v(ϑ) =
∫R
(x−m(ϑ)2)Qϑ(dx) hat.
M :=1
n
n∑i=1
Xi ist ein erwartungstreuer Schatzer fur m(ϑ) und V ∗ :=1
n− 1
n∑i=1
(Xi −M)2 ist ein
erwartungstreuer Schatzer fur v(ϑ).
9
Beweis:
Eϑ[M ] = m(ϑ) (Linearitat fur den Erwartungswert),
V =1
n
n∑
i=1
(Xi −M)2,
Eϑ[V ] =1
n
n∑
i=1
Eϑ[(Xi −M)2]
= Varϑ(X1 −M) = Varϑ(n− 1
nX1 −
1
n
n∑
i=2
Xi)
=
(n− 1
n
)2
+n− 1
n2Varϑ(X1)
=n− 1
nv(ϑ).
2.3.1. Definition und Beobachtung: Konsistenz
Man nennt eine Folge von Schatzern Tn fur τ(ϑ) konsistent, wennPϑ[|Tn − τ(ϑ)| > ε] → 0 ∀ε > 0,∀ϑ.
Sei Pϑ = Q⊗nϑ , Mn = 1
n
n∑i=1
Xi, V∗n = 1
n−1
n∑i=1
(Xi −M)2. Es gilt mit dem Schwachen GGZ:
Pϑ[|Mn −m(ϑ)| > ε]n→∞→ 0 ∀ε > 0,∀ϑ
undPϑ[|V ∗
n − v(ϑ)| > ε]n→∞→ 0 ∀ε > 0,∀ϑ
(Ubung, benutze schwGGZ), d.h. im Produktmodell ist (Mn)n∈N konsistent fur m(ϑ), (V ∗n )n∈N
(und ebenso (Vn)n∈N) konsistent fur v(ϑ).
10
3. Exponentielle Familien, Fisher-Informationund beste Schatzer:
Ein erwartungstreuer Schatzer T fur ein reelles Parametermerkmal τ(ϑ) heißt varianzminimierend(”gleichmaßig bester Schatzer“, UMVU1-estimator), falls
Varϑ(T ) ≤ Varϑ(S) ∀ϑ ∈ Θ,∀ anderen erwartungstreuen Schatzer S.
3.1. Definition: regular
Ein einparametriges Standardmodell heißt regular, falls
(i) Θ ⊂ R offenes Intervall,
(ii) ρ(x, ϑ) ist strikt positiv auf X × Θ, fur jedes x ist ϑ 7→ ρ(x, ϑ) stetig diffbar,
(iii) Uϑ(x) :=d
dϑlog ρ(x, ϑ)
(=
dρ(x,ϑ)dϑ
ρ(x, ϑ)
)erfullt Varϑ(Uϑ) ∈ (0,∞) (Uϑ heißt die Scorefunktion)
und es gilt∫X
ddϑρ(x, ϑ)dx = d
dϑ
∫Xρ(x, ϑ)dx (= 0).
3.1.1. Bemerkung:
Eϑ[Uϑ] =
∫
X
d
dxρ(x, ϑ)dx =
d
dϑ
∫
X
ρ(x, ϑ)dx = 0
3.2. Definition: Fisher-Information
I(ϑ) := Varϑ(Uϑ) heißt Fisher-Information.
3.2.1. Bemerkung:
(i) Wenn I(ϑ) ≡ 0 auf einem Teilintervall Θ1 ⊂ Θ, so ist ρ(x, ϑ) = ρ(x, ϑ′) fur ϑ, ϑ′ ∈ Θ1.
(ii) M ein regulares Standardmodell mit Fisher-Information I(ϑ), dann ist das n-facheProduktmodell ebenfalls ein regulares Standardmodell mit Fisher-InformationI⊗n(ϑ) = n · I(ϑ).
(Denn ρ⊗n((x1, . . . , xn), ϑ) =n∏i=1
ρ(xi, ϑ),
U⊗nϑ (x1, . . . , xn) =
n∑i=1
ddϑ log ρ(xi, ϑ),
1UMVU = uniformly minimum variance unbiased
11
Varϑ(U⊗nϑ ) =
n∑i=1
Varϑ(Uϑ(Xi)) = n · I(ϑ).)
3.3. Definition: regularer Schatzer
Ein Schatzer T heißt regular, wenn fur alle ϑ ∈ Θ gilt: ddϑ
∫T (x)ρ(x, ϑ)dx
︸ ︷︷ ︸=Eϑ[T ]
=∫T (x) d
dϑρ(x, ϑ)dx.
3.4. Satz: Cramer-Rao-Schranke
Sei M ein regulares Standardmodell, τ : Θ → R ein stetig differenzierbares Parametermerkmal, Tein regularer, erwartungstreuer Schatzer fur τ (d.h. Eϑ[T ] = τ(ϑ)).Dann gilt (Cramer-Rao-Schranke):
Varϑ(T ) ≥ (τ ′(ϑ))2
I(ϑ)∀ϑ ∈ Θ. (∗)
Gleichheit gilt fur alle ϑ genau dann, wenn
T (x) − τ(ϑ) =τ ′(ϑ)Uϑ(x)
I(ϑ),
d.h. wenn die Likelihood-Funktion die Form ρ(x, ϑ) = h(x) exp(a(ϑ)T (x) − b(ϑ)) hat. Hierbei ista : Θ → R eine Stammfunktion von I
τ ′ , h : X → (0,∞) meßbar, b(ϑ) = log∫ea(ϑ)T (x)h(x)dx
Beweis:
Covϑ(T,Uϑ) = Eϑ[T · Uϑ] − Eϑ[T ] · Eϑ[Uϑ]︸ ︷︷ ︸=0
=
∫T (x)
d
dϑlog ρ(x, ϑ) · ρ(x, ϑ)dx
=
∫T (x)
d
dϑρ(x, ϑ)dx
=d
dϑ
∫T (x)ρ(x, ϑ)dx
=d
dϑEϑ[T ]
= τ ′(ϑ)
Sei c(ϑ) = τ ′(ϑ)I(ϑ) . Es gilt
(∗∗) 0 ≤ Varϑ(T−c(ϑ)Uϑ) = Varϑ(T )+c(ϑ)2 · Varϑ(Uϑ)︸ ︷︷ ︸=
τ ′(ϑ)2
I(ϑ)
−2 c(ϑ) · Covϑ(T,Uϑ)︸ ︷︷ ︸=
(τ ′(ϑ))2
I(ϑ)
= Varϑ(T )−(τ ′(ϑ))2
I(ϑ),
12
was die Ungleichung in (∗) beweist. Fur Gleichheit in (∗∗), und damit in (∗), (fur ein ϑ) mussT − c(ϑ)Uϑ Pϑ-f.s. konstant (und somit gleich seinem Erwartungswert τ(ϑ)) sein, d.h.
x : T (x) − c(ϑ)Uϑ(x) 6= τ(ϑ) hat Maß 0 unter Pϑ,
da c(ϑ), Uϑ, τ(ϑ) als Funktion von ϑ stetig sind:
µ(x : T (x) − c(ϑ)Uϑ(x) 6= τ(ϑ) fur ein ϑ ∈ Θ) = 0
Also: Gleichheit in (∗∗) ⇐⇒d
dϑlog ρ(x, ϑ) = Uϑ(x) =
T (x) − τ(ϑ)
c(ϑ),
log ρ(x, ϑ) = log ρ(x, ϑ0) + T (x) ·ϑ∫
ϑ0
− I(σ)
τ ′(σ)dσ
︸ ︷︷ ︸=a(ϑ)−a(ϑ0)
−ϑ∫
ϑ0
I(σ)
τ ′(σ)· τ(σ)dσ
3.4.1. Beispiele:
(i) Binomialverteilung: Pϑ = Binn,ϑ, ϑ ∈ (0, 1). Dann ist
ρ(x, ϑ) =
(n
x
)ϑx(1 − ϑ)n−x =
(n
x
)exp
x
n︸︷︷︸T (x)
n log(ϑ
1 − ϑ)
︸ ︷︷ ︸=a(ϑ)
+n log(1 − ϑ)︸ ︷︷ ︸=b(ϑ)
(ii) Poissonverteilung: Pϑ = Pois(ϑ), ϑ ∈ (0,∞):
p(x, ϑ) = e−ϑϑx
x!=
1
x!︸︷︷︸=h(x)
e
T (x)︷︸︸︷x
=a(ϑ)︷︸︸︷log ϑ−
b(ϑ)︷︸︸︷ϑ
3.5. Definition: Cramer-Rao-effizient
Ein Schatzer, der die Gleichheit in der Cramer-Rao-Ungleichung (Schranke) realisiert, heißtCramer-Rao-effizient.
3.6. Definition: exponentielles Modell
Ein einparametriges statistisches Standardmodell M = (X ,F ,Pϑ : ϑ ∈ Θ) (mit Θ ⊆ R offenesIntervall) heißt exponentielles Modell bzgl. der Statistik T : X → R, wenn die Likelihood-Funktionvon der Form
ρ(x, ϑ) = h(x) · exp(a(ϑ) · T (x) − b(ϑ))
mit einer stetig differenzierbaren Funktion a : Θ → R mit a′ 6= 0 und h : X → R+ meßbar.2
(Pϑ)ϑ∈Θ heißt”exponentielle Familie“.
(Wir nehmen an, dass T nicht fast uberall konstant ist.)
2Wobei b(ϑ) = log∫
h(x)ea(ϑ)T (x)dx die Normierungsfunktion ist.
13
3.6.1. Bemerkung:
Das Produktmodell M⊗n eines exponentiellen Modells M bzgl. der Statistik T ist ebenfalls einexponentielles Modell, und die zugrundeliegende Statistik ist
Tn(x1, . . . , xn) =1
n
n∑
i=1
T (xi),
denn
ρ⊗n((x1, . . . , xn), ϑ) =n∏
i=1
ρ(xi, ϑ) =n∏
i=1
h(xi) exp
(na(ϑ) · 1
n·n∑
i=1
(T (xi)) − nb(ϑ)
).
3.7. Satz uber die”Gutartigkeit“ von exponentiellen Modellen
Sei M ein exponentielles Modell, dann gilt:
(i) b ist stetig differenzierbar auf ϑ mit b′(ϑ) = a′(ϑ)Eϑ[T ].
(ii) Jede Statistik S : X → R, deren Erwartungswert fur jedes ϑ ∈ Θ existiert, ist regular.Insbesondere sind M und T regular und τ(ϑ) := Eϑ[T ] ist stetig differenzierbar mitτ ′(ϑ) = a′(ϑ) · Varϑ(T ) > 0.
(iii) I(ϑ) = a′(ϑ)τ ′(ϑ)
Beweis:
Wir nehmen o.E. an, dass a(ϑ) = ϑ, ansonsten parametrisieren wir um und verwenden dieKettenregel.
(i) Sei S eine Statistik, deren Erwartungswert Eϑ[S] =∫XS(x)h(x)ea(ϑ)T (x)−b(ϑ)dx fur jedes ϑ
existiert (und endlich ist).Es sei weiter uS(ϑ) := eb(ϑ)Eϑ[S] =
∫S(x)h(x)eϑT (x)dx.
Wenn t so klein, dass ϑ± t ∈ Θ, dann:
∞∑
k=0
|t|kk!
∫h(x)|S(x)| · |T (x)|keϑT (x)dx
3
=
∫
X
∞∑
k=0
|t|kk!h(x)|S(x)| · |T (x)|keϑT (x)dx
=
∫
X
|S(x)|h(x)eϑT (x)+|tT (x)|dx
≤∫
|S(x)|h(x)e(ϑ+t)T (x)dx
︸ ︷︷ ︸<∞
+
∫|S(x)|h(x)e(ϑ−t)T (x)dx
︸ ︷︷ ︸<∞
< ∞
14
Insbesondere: ST k ∈ L 1(Pϑ) ∀ϑ und
∞∑
k=0
tk
k!
∫S(x)h(x)T (x)keϑT (x)dx konvergiert absolut zu
∫S(x)h(x)e(ϑ+t)T (x)dx = uS(ϑ+ t)
Also: ϑ 7→ uS(ϑ) ist analytisch, darf unter dem Integral abgeleitet werden.
u′s(ϑ) =
∫S(x)T (x)h(x)eϑT (x)dx
= eb(ϑ)Eϑ[ST ]
und mit der speziellen Wahl S ≡ 1
u′1(ϑ) = eb(ϑ)Eϑ[T ], u′′1(ϑ) = eb(ϑ)Eϑ[T2] mit
b′(ϑ) =d
dϑlog u1(ϑ) =
u′1(ϑ)
u1(ϑ)= Eϑ[T ] =: τ(ϑ) , d.h. (i) gilt und
τ ′(ϑ) = b′(ϑ) =u′′1(ϑ)
u1(ϑ)−(u′1(ϑ)
u1(ϑ)
)2
= Eϑ[T2] − (Eϑ[T ])2 = Varϑ(T ).
(ii) Betrachte nun fur eine allgemeine Statistik S:
d
dϑEϑ[S] =
d
dϑ(e−b(ϑ)uS(ϑ))
= (u′S(ϑ) − uS(ϑ)b′(ϑ))e−b(ϑ)
= Eϑ[ST ] − Eϑ[S]Eϑ[T ] = Covϑ(S, T )4
= Covϑ(S,Uϑ)
Wahle nun S = T :
τ ′(ϑ) =d
dϑ
∫T (x)ρ(x, ϑ)dx = Eϑ[TUϑ]
=
∫T (x)
ddϑρ(x, ϑ)
ρ(x, ϑ)· ρ(x, ϑ)dx
=
∫T (x)
d
dϑρ(x, ϑ)dx
Und weiter:d
dϑEϑ[S] =
d
dϑ
∫S(x)ρ(x, ϑ)dx =
∫S(x)
d
dϑρ(x, ϑ)dx,
d.h. (ii) gilt.
(iii) I(ϑ) = Varϑ(Uϑ) = Varϑ(T ) = τ ′(ϑ)
3Satz von der monotonen Konvergenz4Funktioniert, da die Kovarianz translationsinvariant ist und Uϑ(x) = d
dϑlog ρ(x, ϑ) = T (x) − b′(ϑ)
15
3.8. Korollar:
Wie wir bereits anhand der Cramer-Rao-Schranke gesehen haben, gilt: Fur ein (regulares)
exponentielles Modell ist T ein bester Schatzer fur τ(ϑ) := Eϑ[T ] = b′(ϑ)a′(ϑ) mit
Varϑ(T ) =τ ′(ϑ)
a′(ϑ)=τ ′(ϑ)2
I(ϑ).
3.8.1. Beispiel:
Schatzung des Erwartungswertes im normalen Modell bei bekannter Varianz v > 0: Pϑ = Nϑ,v
ρ(x, ϑ) =1√2πv
exp(− 1
2v(x− ϑ)2)
=1√2πv︸ ︷︷ ︸
=h(x)
· exp
x︸︷︷︸
=T (x)
ϑ
v︸︷︷︸a(ϑ)
− ϑ2
2v︸︷︷︸=b(ϑ)
Probe:
τ(ϑ) = Eϑ[T ] = ϑ =ϑv1v
=b′(ϑ)
a′(ϑ),Varϑ(T ) =
τ ′(ϑ)
a′(ϑ)=
11v
= v X
⇒ I(ϑ) = 1v
(Ubung: Schatzung der Varianz im normalen Modell bei bekanntem Mittelwert.)
3.9. Konsistenz des ML-Schatzers im Produktmodell:
Sei (X ,F ,Qϑ : ϑ ∈ Θ) ein einparametriges Standardmodell mit Likelihoodfunktion ρ(x, ϑ),Pϑ := Q⊗N
ϑ . Es gelte weiter:
(i) Θ ∈ R ein offenes Intervall und Qϑ 6= Qϑ′ fur ϑ 6= ϑ′.
(ii) Fur jedes (x1, . . . , xn) ∈ X n, n ∈ N ist
ϑ 7→ ρ⊗n((x1, . . . , xn), ϑ)︸ ︷︷ ︸=
n∏i=1
ρ(xi,ϑ)
unimodal, d.h. ∃ Tn = Tn(x1, . . . , xn), sodass ρ⊗n((x1, . . . , xn), ϑ) wachsend fur ϑ < Tn undfallend fur ϑ > Tn.
Dann ist die (eindeutig bestimmte) Folge von (ML-)Schatzern (Tn)n konsistent fur ϑ, d.h.
∀ε > 0 : Pϑ[|Tn − ϑ| > ε]n→∞→ 0.
16
Beweis:
Sei ϑ ∈ Θ, ε so klein, dass ϑ± ε ∈ Θ, 0 < δ < H(Qϑ|Qϑ±ε),
1
nlog
ρ⊗nϑρ⊗nϑ±ε︸ ︷︷ ︸
= 1n
n∑i=1
logρϑ(xi)
ρϑ±ε(xi)
> δ
⊆ρ⊗nϑ > ρ⊗nϑ±ε
Unimodalitat⊆ ϑ− ε < Tn < ϑ+ ε
Wir erwarten:1
n
n∑
i=1
logρϑ(xi)
ρϑ±ε(xi)GGZ→ EQϑ
[log
(ρϑ(xi)
ρϑ±ε(x1)
)],
Eϑ
[log
(ρϑ(xi)
ρϑ±ε(x1)
)]= H(Qϑ|Qϑ±ε) > 0.
Wir mussen noch zeigen (o.B.d.A. nur fur +ε):
Pϑ
[1
nlog
(ρ⊗nϑ (X1, . . . , Xn)
ρ⊗nϑ+ε(X1, . . . , Xn)
)> δ
]n→∞→ 1 (∗)
Falls H(Qϑ|Qϑ+ε) <∞, so folgt (∗).Falls H(Qϑ|Qϑ+ε) = ∞, aber Qϑ(ρϑ+ε(X) = 0) = 0.
Betrachte: hc(X) := log
(min
ρϑρϑ+ε
, c
)erfullt Eϑ[hc(X)] <∞, aber gemaß dem Satz von der
monotonen Konvergenz gilt limc→∞ Eϑ[hc(X)] = ∞.
Pϑ
[1
nlog
ρ⊗nϑ (X1, . . . , Xn)
ρ⊗nϑ+ε(X1, . . . , Xn)> δ
]≥ Pϑ
[1
n
n∑
i=1
hc(Xi) > δ
]
→ 1 fur n→ ∞
Falls Qϑ(ρϑ+ε(X) = 0) =: a > 0. Dann ist
Pϑ
[log
ρ⊗nϑ (X1, . . . , Xn)
ρ⊗nϑ+ε(X1, . . . , Xn)= ∞
]≥ 1 − (1 − a)n
→ 1 fur n→ ∞.
3.9.1. Bemerkung:
(ii) ist sicherlich erfullt, wenn ϑ 7→ log(ρ(x, ϑ)) fur jedes x konkav ist.
3.10. Satz und Definition: relative Entropie (Kullback-Leibler-Abstand)
Fur Maße P,Q mit Dichten ρ(x) bzw. σ(x) bzgl. des Lebesgue-Maßes (oder bzgl. des Zahlmaßes,wenn X abzahlbar ist) heißt
H(P|Q) :=
∫
X
ρ(x) logρ(x)
σ(x)dx
die relative Entropie von P bzgl. Q, es gilt: H(P|Q) ∈ [0,∞] und H(P|Q) = 0 ⇐⇒ P = Q.
17
1 2 3 4
Abbildung 3.1.: Darstellung von ψ(s) = 1 − s+ s log s
Die Funktion ψ(s) := 1 − s+ s log s ist konvex, setze f(x) :=
1 wenn σ(x) = 0,ρ(x)σ(x) sonst.
Es gilt
0 ≤∫ψ(f(x))σ(x) dx,
∫(1 − f(x))σ(x)dx =
∫σ(x) − ρ(x) dx = 0,
folglich ∫ψ(f(x))σ(x) dx =
∫(1 − f(x))σ(x)dx+
∫ρ(x)
σ(x)log
ρ(x)
σ(x)σ(x) dx,
d.h. H(P|Q) ≥ 0 und H(Q|Q) = 0.Umgekehrt: Sei H(P|Q) = 0 =
∫ψ(f(x))σ(x)dx ⇒ Q(x : ψ(f(x)) = 0︸ ︷︷ ︸
=x:f(x)=1=ρ(x)σ(x)
) = 1.
3.10.1. Beispiele: Poisson- und Exponentialverteilung
(i) Poissonverteilung: SeiE = Z+,F = P(Z+), ϑ ∈ (0,∞), ρ(x, ϑ) = e−ϑ ϑ
x
x! , log ρ(x, ϑ) = x log ϑ− ϑ− log(x!) ist(strikt) konkav.
Im Produktmodell ist Tn(X1, . . . , Xn) := 1n
n∑i=1
Xi der Maximum-Likelihood-Schatzer fur ϑ.
(ii) Exponentialverteilung: Sei ρ(x, ϑ) = ϑe−ϑx, der ML-Schatzer im Produktmodell ist
Tn =1
1n
n∑i=1
Xi
.
3.11. Satz:
Es gelten die Voraussetzungen des Satzes uber die Konsistenz des ML-Schatzers imProduktmodell und
(i) ϑ 7→ log ρ(x, ϑ) ist dreimal differenzierbar ∀x ∈ X , ϑ ∈ Θ,
(ii)∫ d
dϑρ(x, ϑ)dx = 0 =
∫ d2
dϑ2ρ(x, ϑ)dx ∀ϑ ∈ Θ,
18
(iii)
∣∣∣∣d3
dϑ3log ρ(x, ϑ)
∣∣∣∣ ≤M(x) fur eine Funktion M : X → R+ mit supϑ∈Θ
Eϑ[M(X)] <∞.
Dann gilt fur den ML-Schatzer Tn im n-fachen Produktmodell:
√n(Tn − ϑ) →
n→∞N(0,
1
I(ϑ)
)in Verteilung unter Pϑ.
3.11.1. Bemerkung: Asymptotische Konfidenzintervalle fur den ML-Schatzer:
Fur α > 0 wahle a so, dassa∫
−∞
1√2πe−
x2
2 dx =α
2
und sei Tn der ML-Schatzer in obigem Szenario.Dann ist
J :=
[Tn −
a√nI(Tn)
, Tn +a√
nI(Tn)
]
ein asymptotisches Konfidenzintervall fur ϑ zum Irrtumsniveau α, d.h. fur jedes ϑ ∈ Θ gilt
Pϑ[ϑ ∈ J ] →n→∞
1 − α.
3.11.2. Beobachtung:
Eϑ
[d2
dϑ2log ρ(X,ϑ)
]=
∫
X
d2
dϑ2(log ρ(x, ϑ))
︸ ︷︷ ︸d
dϑ(
ddϑρ(x, ϑ)
ρ(x, ϑ))=
d2
dϑ2 ρ(x, ϑ)
ρ(x, ϑ)−
ddϑρ(x, ϑ)
ρ(x, ϑ)
2
ρ(x, ϑ)dx
=
∫d2
dϑ2ρ(x, ϑ)dx
︸ ︷︷ ︸=0
−∫ ( d
dϑρ(x, ϑ)
ρ(x, ϑ)
)2
︸ ︷︷ ︸=Uϑ(x)
ρ(x, ϑ)dx
= −Varϑ(Uϑ) = −I(ϑ)
Beweis des Satzes:
Wir zeigen fur ϑ ∈ Θ:
(∗) √n(Tn − ϑ) · I(ϑ) − 1√
n
n∑
i=1
d
dϑlog ρ(Xi, ϑ)
︸ ︷︷ ︸Uϑ(Xi)
n→∞→ 0 in Verteilung unter Pϑ.
Aus (∗) folgt die Behauptung mit dem ZGWS, denn 1n
∑Uϑ(Xi)
d→ N (0, I(ϑ)) unter Pϑ.
19
Sei U⊗nϑ (X1, . . . , Xn) :=
d
dϑlog ρ⊗nϑ (X1, . . . , Xn) =
n∑i=1
Uϑ(Xi).
0 = U⊗nTn
(X1, . . . , Xn)
= U⊗nϑ (X1, . . . , Xn) + (Tn − ϑ)
d
dϑU⊗nϑ (X1, . . . , Xn) +
1
2(Tn − ϑ)2
d2
dϑ2U⊗nTn
(X1, . . . , Xn)
mit einem Tn ∈ [minTn, ϑ,maxTn, ϑ] (Taylorentwicklung).
Es ist
1
n
d
dϑU⊗nϑ (X1, . . . , Xn) =
1
n
n∑
i=1
d2
dϑ2log ρ(Xi, ϑ)
d→ Eϑ
[d2
dϑ2log ρ(X1, ϑ)
]= −I(ϑ)
und ∣∣∣∣1
n
d2
dϑ2U⊗nTn
(X1, . . . , Xn)
∣∣∣∣ =∣∣∣∣∣1
n
n∑
i=1
d3
dϑ3log ρ(Xi, Tn)
∣∣∣∣∣ ≤1
n
n∑
i=1
M(Xi),
also 1n
12(Tn − ϑ)
d2
dϑ2U⊗nTn
(X1, . . . , Xn)n→∞→ 0 in Verteilung unter Pϑ, den (Tn) ist konsistent fur ϑ.
Weiter gilt
√n(Tn − ϑ) =
− 1√nU⊗nϑ (X1, . . . , Xn)
1n
(ddϑU
⊗nϑ (X1, . . . , Xn) + 1
2(Tn − ϑ)d2
dϑ2U⊗nTn
(X1, . . . , Xn)
) ,
somit
√n(Tn − ϑ)I(ϑ) − 1√
nU⊗nϑ (X1, . . . , Xn)
= − 1√nU⊗nϑ (X1, . . . , Xn)
︸ ︷︷ ︸→N (0,I(ϑ))
· . . .
. . . ·
1 − I(ϑ)
1
n
d
dϑU⊗nϑ (X1, . . . , Xn)
︸ ︷︷ ︸→−I(ϑ)
+1
2n(Tn − ϑ)
d2
dϑ2U⊗nTn
(X1, . . . , Xn)︸ ︷︷ ︸
→0
→ 0 in Verteilung.
Bemerkung:
Seien Yn, Zn ZVn, Znd→ Z, Yn
d→ 0, dann gilt Yn · Zn d→ 0.
20
4. Exkurs: Bedingte Erwartung undAnwendungen
(o) Diskreter Fall: X,Y reellwertig, mit abzahlbarem Wertebereich, gemeinsame GewichteρX,Y (x, y), Marginalgewichte ρX(x) =
∑yρX,Y (x, y), ρY (x) =
∑xρX,Y (x, y). Weiter gelte:
E[|X|] <∞. Sei
ϕ(y) :=∑
x
xρX,Y (x, y)
ρY (y),
ϕ(Y ) ist in diesem Szenario die bedingte Erwartung von X gegeben Y .
(i) Seien X,Y reellwertig mit gemeinsamer Dichte fX,Y bzgl. Lebesgue-Maß (d.h.P[(X,Y ) ∈ A] =
∫A
fX,Y (x, y) d(x, y)), Marginaldichten fX , bzw. fY , es gelte E[|X|] <∞.
ϕ(y) =
∫
T
xfX,Y (x, y)
fY (y)dx,
ϕ(Y ) wurden wir in diesem Szenario plausiblerweise die bedingte Erwartung von X gegebenY nennen.
(ii) Allgemeiner Fall: Sei (Ω,F ,P) ein Wahrscheinlichkeitsraum, X eine reellwertige ZV auf(Ω,F ,P) mit endlichem Erwartungswert (X ∈ L 1(Ω,F ,P)), G ⊆ F eine Teil-σ-Algebra.
4.1. Definition: Bedingte Erwartung
Eine reellwertige ZV Z heißt bedingte Erwartung von X gegeben G (schreibe E[X|G ]),wenn gilt
(1) Z ist G -messbar, d.h. Z ∈ B ∈ G fur jede messbare Teilmenge B ⊂ R,
(2) E[H · Z] = E[H ·X] fur alle beschrankten G -messbaren ZVn H.
4.2. Satz: Existenz und Eindeutigkeit der bedingten Erwartung:
Fur Y mit E[|X|] <∞ existiert E[X|G ] und ist eindeutig (bis auf f.s. Gleichheit)1.
Beobachtung:
Im Szenario von (o): Betrachte G = σ(Y ) = Y −1(B) : B ∈ P(EY ), mit EY = Wertebereich vonY . Z := ϕ(Y ) ist σ(Y )-messbar. Sei H = h(Y ) (Ubung: Jede σ(Y )-messbare ZV ist hier vondieser Form). Dann gilt
1Wir fassen X und X ′ als (fast sicher) gleich auf, wenn P[X 6= X ′] = 0.
21
E[H · Z] =∑yh(y) ϕ(y)︸︷︷︸
= 1ρY (y)
∑xxρX,Y (x,y)
ρY (y) =∑x,yh(y)xρX,Y (x, y) = E[H ·X].
Beweis:
Eindeutigkeit: Seien Z,Z ′ bedingte Erwartungen.
E[Z · 1Z>Z′] = E[X · 1Z>Z′] = E[Z ′1Z>Z′]
⇒ E[(Z − Z ′) · 1Z>Z′] = 0 ⇒ P[Z > Z ′] = 0,
analog P[Z < Z ′] = 0 ⇒ P[Z = Z ′] = 1 ⇒ Z = Z ′ fast sicher.
Existenz: Betrachte zunachst X mit E[X2] <∞.
Bemerkung: H = L 2(Ω,F ,P) ist ein Hilbertraum mit Skalarprodukt< X,Y >= E[X · Y ].
Betrachte nun H′ := L 2(Ω,G ,P) ⊆ H ist ein Unterraum, Z := prH′(X), d.h. Z istdasjenige Element von H′ mit E[(X − Z)2] ≤ E[(X − Z ′)2] ∀Z ′ ∈ H.Sei H ∈ H′ (beschrankt), dann ist < Z −X,H >= 0 = E[(Z −X)H] ⇒ (ii) X.
Rucktransfer nach L 1: Fur X ∈ L 1 zerlege X = X+ −X−, E[(minX+, n)|G ] =: Z+
existiert (Monotonie). Dann folgt
E[X|G ] = Z+ − Z−.
4.3. Eigenschaften der bedingten Erwartung:
(i) E[aX + bY |G ] = aE[X|F ] + bE[Y |G ] fur a, b ∈ R, X, Y ∈ L 1(Ω,F ,P)
(ii) X ≥ Y f.s. ⇒ E[X|G ] ≥ E[Y |G ]
(iii) E[|XY |] <∞, Y G -messbar ⇒ E[XY |G ] = Y · E[X|G ]
(iv) Sind X und G unabhangig (P[X ∈ B ∩A] = P[X ∈ B]P[A] ∀A ∈ G , B ∈ B(R)), so istE[X|G ] = E[X].
(v) E[E[X|G ]] = E[X]
Beweis:
(ii) A = E[X|G ] < E[Y |G ] ∈ G ,
0 ≤ E[(X − Y ) · 1A] = E[(E[X|G ] − E[Y |G ])1A]
⇒ P[A] = 0
(iii) Betrachte zunachst Y beschrankt, dann gilt
E[
=H′︷ ︸︸ ︷H · Y E[X|G ]] = E[XH ′] = E[(XY )H]
fur jedes beschrankte G -messbare H.
Allgemeiner Fall via Approximation und monotone Konvergenz.
22
4.3.1. Bemerkung: Zur Existenz der regularen bedingten Verteilung
Fur A ∈ F ist P[A|G ] := E[1A|G ] die bedingte Wahrscheinlichkeit von A gegeben G. ImAllgemeinen ist P[A|G ] nur bis auf P-Nullmenge definiert, und es ist zunachst unklar, ob die(u.U. uberabzahlbar vielen) Ausnahme-Nullmengen, die sich ergeben, wenn man A uber ganz Fvariiert, kompatibel gewahlt werden konnen. Insbesondere wunschen wir uns
P
[⋃
n
An
∣∣∣∣∣G]
=∑
n
P[An|G ]
fur jede abzahlbare Familie (An) ⊂ F von (paarw.) disjunkten An.
Seien (Ω1,F1), (Ω2,F2) messbare Raume, k : Ω1 × F2 → [0, 1] heißt stochastischer Kern, wenn
(i) ω1 7→ k(ω1, B) messbar ist ∀B ∈ F2 und
(ii) ∀ω1 ∈ Ω1 : k(ω1, · ) ein Wahrscheinlichkeitsmaß auf Ω2 ist.
Sei (Ω,A ,P), Y reellwertige ZV auf (Ω,A ,P), F ⊆ A Teil-σ-Algebra, dann gibt es einenstochastischen Kern kY |F von (Ω,F ) nach (R,B(R)) mit
kY |F (ω,B) = E[1B(Y )|F ], B ∈ B(R)
fur P-f.a. ω.
Wir konstruieren dazu eine zufallige Verteilungsfunktion. Betrachte B = (−∞, r], r ∈ Q, setze
Fr := E[1(−∞,r](Y )|F ].
Dann gilt wie gewunscht P-f.s.: Fr ≤ Fr′ , fur r < r′, (r, r′ ∈ Q), limnFr+ 1
n= Fr fur r ∈ Q,
limn→∞
Fn = 1, limn→−∞
Fn = 0.
Wegen der Abzahlbarkeit von Q gibt es N ∈ A mit P(N) = 0, so dass obiges fur ω ∈ Ω \N undalle r, r′ ∈ Q gilt. Dann definiert
Fs :=
infFr : r ≥ s, r ∈ Q, ω ∈ Ω \N,F s, ω ∈ N,
wobei F irgendeine Verteilungsfunktion ist, die (zufallige) Verteilungsfunktion von kY |F . Detailsfinden sich beispielsweise in A. Klenke, Wahrscheinichkeitstheorie, Abschn. 8.28, oder inUbungsaufgabe 3 auf Blatt 3, in der wir den allgemeinen Fall polnischer Wertebereiche behandelthaben.
4.4. Suffizienz:
Sei (X ,F ,Pϑ, ϑ ∈ Θ) ein statistisches (Standard-)Modell. Eine Statistik T : X → Σ heißtsuffizient, wenn Pϑ[ · |T = t] = Qt(·) fur alle ϑ ∈ Θ und t aus dem Wertebereich von T (d.h. wenndie Verteilung von X gegeben T nicht von ϑ abhangt).
23
Bemerkung:
Fur ein Standardmodell mit Likelihood funktion ρ(x, ϑ) ist T suffizient ⇐⇒ρ(x, ϑ) = h(x) ·Ψϑ(T (x)), fur ein h : X → R+,Ψ·(·) : Θ×Σ → R+. In einer exponentiellen Familiemit Likelihood-Funktion ρ(x, ϑ) = h(x) · exp(a(ϑ)T (x) − b(ϑ)) ist T eine suffiziente Statistik.
4.5. Satz von Rao-Blackwell
Sei (X ,F ,Pϑ : ϑ ∈ Θ) ein statistisches Modell, T eine suffiziente Statistik, S ein erwartungstreuerSchatzer fur τ(= τ(ϑ)), Eϑ[S
2] <∞, gS(t) := Eϑ[S|T = t] = EQt [S] und .
Dann ist S = gS(T ) ein erwartungstreuer Schatzer fur τ(ϑ) mit Varϑ(S) ≤ Varϑ(S) ∀ϑ ∈ Θ(Ungleichung ist strikt, es sei denn S ist eine Funktion von T ).
Beweis:
Eϑ[S] = Eϑ[Eϑ[S|T ]] = Eϑ[S] = τ(ϑ)
Es gilt allgemein:
Var(X) = Var(E[X|F ])︸ ︷︷ ︸=E[(E[X|F ])2]−E[X]2
+E[ V (X|F )︸ ︷︷ ︸:=E[X2|F ]−E[X|F ]2
]
= E[E[X2|F ]] − E[X]2
= E[X2] − E[X]2
Demnach ist
Varϑ(S) = Varϑ(
S︷ ︸︸ ︷Eϑ[S|T ]) + E[Varϑ(S|T )︸ ︷︷ ︸
≥0
] ⇒ Varϑ(S) ≥ Varϑ(S)
4.6. Definition: Vollstandigkeit
Eine Statistik T heißt vollstandig, wenn fur alle messbaren g : Σ → R mit Eϑ[|g(T )|] <∞ ausEϑ[g(T )] = 0 ∀ϑ ∈ Θ folgt g ≡ 0 Pϑ-f.s. ∀ϑ.
4.6.1. Beispiel:
Seien X1, . . . , Xn i.i.d. Ber(ϑ), ϑ ∈ [0, 1]. Dann ist Tn =n∑i=1
Xin ist vollstandig.
4.6.2. Bemerkung: Eindeutigkeit der Rao-Blackwellisierung
Fur ein vollstandiges T ist die”Rao-Blackwellisierung“ erwartungstreuer Schatzer fur τ(ϑ)
eindeutig.
4.7. Satz von Lehmann-Scheffe
Sei T suffizient und vollstandig, S, S′ erwartungstreue Schatzer fur τ(ϑ), dann giltS = E
ϑ[S|T ] = E
ϑ[S′|T ] und S ist der beste Schatzer fur τ(ϑ).
24
Beweis:
g(t) = EQt [S] − EQt [S′],Eϑ[g(T )] = τ(ϑ) − τ(ϑ) = 0, d.h. g ≡ 0. Nach dem Satz von
Rao-Blackwell gilt Varϑ(S) ≤ Varϑ(S) ∀ϑ ∀ erwartungstreue Schatzer S.
4.7.1. Bemerkung:
In einer (einparametrigen) exponentiellen Familie (ρ(x, ϑ) = h(x) · exp(a(ϑ)T (x) − b(ϑ))) ist Teine vollstandige und suffiziente Statistik.
Zur Vollstandigkeit: (o.B.d.A. a(ϑ) = ϑ)
0 =
∫
X
g(T (x))h(x)eϑT (x)−b(ϑ)dx =
∫
Σ
g(t)eϑtν(dt) =
∫
Σ
g+(t)eϑtν(dt) −∫
Σ
g−(t)eϑtν(dt),
wobei ν das Bildmaß von h(x)dx ist unter der Abbildung x 7→ T (x) ist, und g = g+ − g− mitg+, g− ≥ 0. Die Eindeutigkeit der Laplace-Transformierten erzwingt dann g+ = g−, also g = 0, furDetails siehe z.B. Erich Lehmann, Testing statistical hypotheses, S. 132.
25
5. Bayes-Schatzer
Erinnerung (Satz von Bayes):
Fur Ereignisse A,B, mit P[A],P[B] > 0 gilt
P[A|B] =P[B|A] · P[A]
P[B].
5.1. Definition: A-priori-Dichte und -Maß
Sei (X ,F ,Pϑ : ϑ ∈ Θ ⊆ Rd) ein parametrisches Standardmodell mit F ⊗ B(Θ)-messbarerLikelihood-Funktion ρ(x, ϑ). Wir nennen eine Wahrscheinlichkeitsdichte α : Θ → R+ eineA-priori-Dichte. (Das Maß mit Dichte α heißt A-priori-Maß oder Vorbewertung)
πx(ϑ) :=α(ϑ)ρ(x, ϑ)∫
Θ
α(t)ρ(x, t) dt
heißt dann die A-posteriori-Dichte.
Sei τ : Θ → R (mit∫
(τ(ϑ))2α(ϑ) dϑ <∞). Dann heißt
T (x) := Eπx [τ ] =
∫τ(ϑ)πx(ϑ) dϑ
Bayes-Schatzer fur τ (zur Vorbewertung α(ϑ)dϑ).
Fα(S) :=
∫
Θ
∫
X
(S(x) − τ(ϑ))2ρ(x, ϑ) dxα(ϑ)dϑ
heißt der erwartete quadratische Fehler (zur Vorbewertung α(ϑ)dϑ).
Beispiel:
Eine Situation, in der diese Philosophie sinnvoll ist, konnte folgende sein: Nehmen wir an, einVersicherungsnehmer hat jedes Jahr mit einer gewissen (zu ihm
”gehorigen“) Wahrscheinlichkeit ϑ
einen Schadensfall (unabhangig uber die Jahre), und α(ϑ)dϑ beschreibt die Verteilung derSchadenswahrscheinlichkeiten aller Kunden dieser Versicherung (diese Verteilung sei derVersicherung aus Erfahrungswerten bekannt).
Mit ρ(x, ϑ) = Binn,ϑ(x) ist dann die Wahrscheinlichkeit, dass ein”typischer Kunde“ in n Jahren
k Schadensfalle verursacht∫ 10 α(ϑ)ρ(k, ϑ) dϑ, und πk(ϑ) ist die Verteilung der
Schadenswahrscheinlichkeit pro Jahr eines Kunden, bedingt darauf, dass er in den letzten nJahren k Schaden hatte. Diese Information kann die Versicherung beispielsweise furVertragsverlangerung, Tarifanpassung, etc. benutzen.
27
5.2. Satz:
Der Bayes-Schatzer T fur τ(ϑ) minimiert den erwarteten quadratischen Fehler (jeweils zurVorbewertung α(ϑ)dϑ).
Beweis:
Fα(S) − Fα(T ) =
∫
Θ
∫
X
(S(x) − τ(ϑ))2 − (T (x) − τ(ϑ))2︸ ︷︷ ︸
=S(x)2−2S(x)τ(ϑ)−T (x)2+2T (x)τ(ϑ)
=πx(ϑ)·
=:ρα(x)︷ ︸︸ ︷∫
Θ
α(t)ρ(x, t)dt
︷ ︸︸ ︷ρ(x, ϑ)α(ϑ) dxdϑ
Fubini=
∫
X
∫
Θ
(S(x)2 − 2S(x)τ(ϑ) − T (x)2 + 2T (x)τ(ϑ)
)πx(ϑ)dϑρα(x)dx)
=
∫
X
(S(x)2 − 2S(x)T (x) − T (x)2)︸ ︷︷ ︸=(S(x)−T (x))2
ρα(x)dx
≥ 0.
28
6. Konfidenzintervalle:
6.1. Definition: Konfidenzbereich zum Irrtumsniveau α
Sei (X ,F ,Pϑ : ϑ ∈ Θ) ein statistisches Modell, τ : Θ → Σ ein Parametermerkmal, α ∈ (0, 1).
Eine Abbildung C : X → P(Σ) heißt ein Konfidenzbereich zum Irrtumsniveau α (oder zumSicherheitsniveau 1 − α), wenn
∀ϑ ∈ Θ : Pϑ[x : C(x) ∋ τ(ϑ)] ≥ 1 − α.
Bemerkung:
Stets ist C(x) = Σ ein (trivialer) Konfidenzbereich.
6.1.1. Beispiel: Konfidenzintervalle im Binomialmodell
Wir betrachten das statistische Modell (X = 0, 1 . . . , n,F = P(X ),Pϑ = Binn,ϑ).
Erinnerung:
T = Xn ist der beste Schatzer fur ϑ, wenn X die Anzahl der Einsen zahlt.
(i) Anwendung der Cebysev-Ungleichung, Ansatz:
C(x) = (x
n− ε,
x
n+ ε).
Pϑ[C(X) ∋ ϑ] = Pϑ
[|Xn
− ϑ| > ε
],
1−Pϑ[C(X) ∋ ϑ] = Pϑ
[∣∣∣∣X
n− ϑ
∣∣∣∣ > ε
]Chebyshev
≤ 1
ε2Varϑ
(X
n
)=ϑ(1 − ϑ)
ε2n
supϑ∈[0,1]
ϑ(1−ϑ)= 14
≤ 1
4ε2n
!= α,
d.h. wahle ε =1√4nα
.
(ii) Normalapproximation: (Xn ≈ N (ϑ, ϑ(1−ϑ)n )).
Pϑ
[∣∣∣∣X
n− ϑ
∣∣∣∣ < ε
]≈ Pϑ
[∣∣∣∣∣
√ϑ(1 − ϑ)
nZ
∣∣∣∣∣ < ε
]mit Z ∼ N (0, 1)
= Φ
(ε ·√ϑ(1 − ϑ)
n
)− Φ
(−ε ·
√ϑ(1 − ϑ)
n
)
= 2Φ
(ε
√ϑ(1 − ϑ)
n
)− 1,
wahle ε ≥√ϑ(1 − ϑ)
nΦ−1(1 − α
2 ) (praktisch: ε :=1
2√n
Φ−1(1 − α2 )).
29
1 2 3 4 5 6 7 X
Θ
(x, ϑ) : ϑ ∈ C(x)
ϑ
Cϑ := x : C(x) ∋ ϑ
x
Abbildung 6.1.: Darstellung von Konfidenzbereichen in der x-ϑ-Ebene: Es soll Pϑ[Cϑ] ≥ 1 − αgelten.
Fur ein Standardmodell (mit Likelihood-Funktion ρ(x, ϑ)) setze Cϑ := x : ρ(x, ϑ) ≥ cϑ fur cϑ sogroß wie moglich, sodass immer noch Pϑ[Cϑ] ≥ 1 − α erfullt ist.
6.2. Definition: Quantil, Fraktil und Median
Sei µ ein Wahrscheinlichkeitsmaß auf R, α ∈ (0, 1). q ∈ R heißt α-Quantil von µ, wennµ((−∞, q)) ≥ α und µ([q,∞)) ≥ 1 − α (eindeutig, wenn die Verteilungsfunktion Fµ striktmonoton wachst). Sprechweise: Ein (1 − α)-Quantil heißt auch ein α-Fraktil , ein 1
2 -Quantil heißtauch Median.
Fortsetzung des Beispieles zum Binomialmodell:
(iii) Exakte Konfidenzintervalle im Binomialmodell:
6.2.1. Lemma:
(1) Fur ϑ ∈ (0, 1) ist 0, . . . , n ∋ x 7→ Binn,ϑ(x) strikt wachsend auf0, 1, . . . , ⌈(n+ 1)ϑ− 1⌉, strikt fallend auf ⌊(n+ 1)ϑ⌋, . . . , n, also maximal aufx = ⌊(n+ 1)ϑ⌋ (und auf (n+ 1)ϑ− 1, wenn (n+ 1)ϑ ∈ Z).
(2) Fur x ∈ 1, . . . , n ist [0, 1] ∋ ϑ 7→ Binn,ϑ(x, x+ 1, . . . , n) stetig, strikt monotonwachsend mit
Binn,ϑ(x, x+ 1, . . . , n) = Bx,n−x+1([0, ϑ]),
30
1 2 3 4 5 6 7 8 9 10 11 12q
α
Abbildung 6.2.: Darstellung des α-Quantils q einer Verteilung mit stetiger, strikt monoton wach-sender Verteilungsfunktion (die blaue Kurve)
wo Ba,b (die Beta-Verteilung) die Dichte
fBa,b(u) =
Γ(a+ b)
Γ(a)Γ(b)ua−1(1 − u)b−1
auf (0, 1) hat.
Beweis:
(1)
Binnϑ(x)Binnϑ(x− 1) =
(nx
)ϑx(1 − ϑ)n−x(
nx−1
)ϑx−1(1 − ϑ)n−x+1
=(n− x+ 1)ϑ
x(1 − ϑ)
> 1
⇐⇒ x < (n+ 1)ϑ
(2) U1, . . . , Un unabhangig und uniform auf [0, 1],
Sϑ :=n∑
i=1
1[0,ϑ](Ui)
ist Binn,ϑ-verteilt.
Sei U(1) < U(2) < . . . < U(n) die”Ordnungsstatistik“.
31
Binn,ϑ(x, . . . , n)= P[Sϑ ≥ x]
= P[U(x) ≤ ϑ]
=n∑
k=1
∑
B⊆1,...,n\k|B|=x−1
P[Uk ≤ ϑ,Um ≤ Uk fur m ∈ B,Ul > Uk fur l ∈ 1, . . . , n \ (k ∪B)]︸ ︷︷ ︸=
ϑ∫0
u|B|(1−u)n−|B|−1du=ϑ∫0
ux−1(1−u)n−xdu
= n
(n− 1
x− 1
)
︸ ︷︷ ︸=
n!
(x− 1)!(n− x)!=
Γ(n+ 1)
Γ(x)Γ(n− x+ 1)
ϑ∫
0
ux−1(1 − u)n−xdu
Zuruck zum Binomialmodell:Wahle Cϑ := x−(ϑ), x−(ϑ) + 1, . . . , x+(ϑ) mitx−(ϑ) = maxx : Binn,ϑ(0, . . . , x− 1) ≤ α
2 undx+(ϑ) = minx : Binn,ϑ(x+ 1, . . . , n) ≤ α
2 .Es gilt:
• x ≤ x+(ϑ) ⇐⇒ Binn,ϑ(x, . . . , n) = Bx,n−x+1([0, ϑ]) > α2
⇐⇒ ϑ > p−(x) := α2 -Quantil von Bx,n−x+1.
• x ≥ x+(ϑ) ⇐⇒ Binn,ϑ(0, . . . , x) = 1 −Bin(x+ 1, . . . , n) = Bx+1,n−x([ϑ, 1]) ≥ α2 .
⇐⇒ ϑ < p+(x) := α2 -Fraktil von Bx+1,n−x.
6.2.2. Satz: exaktes Konfidenzintervall im Binomialmodell
Die Abbildung x 7→ (p−(x), p+(x)) definiert im Binomialmodell ein Konfidenzintervall fur ϑ zumIrrtumsniveau α.
Siehe auch Abbildung 6.3 fur Illustration und Vergleich der in diesem Abschnitt betrachtetenKonfidenzintervalle.
6.3. Konfidenzintervalle im Gauß’schen Modell
Sei X1, . . . , Xn i.i.d. ∼ N (m, v),M :=1
n
n∑i=1
Xi, V∗ :=
1
n− 1
n∑i=1
(Xi −M)2 sind erwartungstreue
Schatzer fur m bzw. v.Ansatz fur ein Konfidenzintervall fur m: (M ± a
√V ∗).
Behauptung:
M −m und V ∗ sind unabhangig, und fur jedes (m, v) ist
√n(M −m)√
V ∗ Student-verteilt mit n− 1
Freiheitsgraden (”tn−1-verteilt“).
32
6.3.1. Satz:
Sei α ∈ (0, 1), t := α2 -Fraktil der tn−1-Verteilung. Dann ist
(M − t
√V ∗
n,M + t
√V ∗
n)
ein Konfidenzintervall fur m zum Sicherheitsniveau 1 − α.
Beweis:
Klar, denn
Pm,v
[∣∣∣∣√n(M −m)√
V ∗
∣∣∣∣ ≥ t
]= α.
33
0.0 0.1 0.2 0.3 0.4 0.5
0.0
0.2
0.4
0.6
0.8
Konfidenzintervalle für die Binomialverteilungzum Irrtumsniveau 0.05 (n=20)
Beobachteter Anteil
ChebychevN.approxExakt
0.0 0.1 0.2 0.3 0.4 0.5
0.0
0.2
0.4
0.6
0.8
Konfidenzintervalle für die Binomialverteilungzum Irrtumsniveau 0.05 (n=50)
Beobachteter Anteil
ChebychevN.approxExakt
0.0 0.1 0.2 0.3 0.4 0.5
0.0
0.2
0.4
0.6
0.8
Konfidenzintervalle für die Binomialverteilungzum Irrtumsniveau 0.05 (n=100)
Beobachteter Anteil
ChebychevN.approxExakt
Abbildung 6.3.: Konfidenzintervalle zum Niveau 0.05 fur den Erfolgsparameter im Binomialmodell,basierend auf Chebyshev-Ungleichung, Normalapproximation und auf Satz 6.2.2,als Funktion des beobachteten Anteils der Erfolge, fur n ∈ 20, 50, 100. SieheAbschnitt A.1 fur den R-Code zur Erzeugung dieser Bilder.
34
7. Exkurs: mehrdimensionale Normalverteilung
7.1. Dichtentransformationssatz:
Sei X ⊆ Rn offen, P ein Wahrscheinlichkeitsmaß auf X mit Dichte ρ, Y ⊆ Rn offen undT : X → Y Diffeomorphismus1. Sei
DT =
(∂Tj∂xi
)die Jacobi-Matrix, detDT 6= 0 auf X .
Dann hat Q := P T−1 die Dichte |detDT−1(y)|ρ(T−1(y))
7.2. Erinnerung: Γa,b-Verteilung
Sei Γa,b die Gamma-Verteilung mit Skalenparameter a und Formparameter b. Sie hat die Dichte
ab
Γ(b)xb−1e−ax auf (0,∞)
Bemerkung: X ∼ Γa,b ⇒ cX ∼ Γac,b
Beobachtung:
• X ∼ N (0, 1), so ist X2 ∼ Γ 12, 12
(diese Verteilung heißt auch χ21-Verteilung).
• |X| hat Dichte2√2πe−
x2
2 auf (0,∞).
Betrachte T : (0,∞) → (0,∞), x 7→ x2. Dann ist
T−1(y) =√y,
d
dyT−1(y) = 2y,
also hat X2 die Dichte
1
2√y
2√2πe−
y2 =
(1
2
) 12 1
Γ(12)y
12−1e−
12y.
7.2.1. Proposition:
Sei a, r, s > 0. X ∼ Γa,r, Y ∼ Γa,s unabhangig. Dann sind X + Y undX
X + Yunabhangig und
X + Y ∼ Γa,r+s,X
X + Y∼ Br,s2
1d.h. bijektiv, T und T−1 stetig differenzierbar.2Die Beta-Verteilung Br,s hat die Dichte
Γ(r + s)
Γ(r)Γ(s)u
r−1(1 − u)s−1.
35
Beweis:
(X,Y ) hat Dichtear+s
Γ(r)Γ(s)xr−1ys−1e−a(x+y) auf (0,∞)2.
Sei
T (x, y) =
(x+ yx
x+y
), T−1(z, u) =
(zu
z(1 − u)
), DT−1(z, u) =
(u (1 − u)z −z
), |det DT−1(z, w)| = z
Dann ist mit Satz 7.1 und Z := X + Y, U := XX+Y die Dichte von (Z,U):
f(Z,U) = z · ar+s
Γ(r)Γ(s)(zu)r−1(z(1 − u))s−1e−az
=ar+s
Γ(r + s)zr+s−1e−az
︸ ︷︷ ︸Dichte der Γ-Verteilung
Γ(r + s)
Γ(r)Γ(s)ur−1(1 − u)s−1
︸ ︷︷ ︸Dichte der B-Verteilung
7.2.2. Korollar:
(i) X ∼ Γa,r, Y ∼ Γa,s unabhangig, so ist X + Y ∼ Γa,r+s.
(ii) X1, . . . , Xn i.i.d., ∼ N (0, 1), so istn∑i=1
X2i ∼ Γ 1
2,n2
(χ2-Verteilung mit n Freiheitsgraden,
χ2n-Verteilung).
7.2.3. Proposition: Fisher-Verteilung mit m und n Freiheitsgraden
Seien X1, . . . , Xm, Y1, . . . , Yn unabhangig Standard-normalverteilt. Dann hat
Fm,n :=
1m
m∑i=1
X2i
1n
n∑j=1
Y 2j
die Dichte
fm,n(x) =Γ(n+m
2 )
Γ(m2 )Γ(n2 )m
m2 n
n2
xm2−1
(n+mx)(m+n)
2
.
Beweis:
Sei X :=m∑i=1
X2i ∼ Γ 1
2,m
2, Y :=
n∑j=1
Y 2j ∼ Γ 1
2,n2
unabhangig, also ist U :=X
X + Y∼ Bm
2,n2. Dann ist
Fm,n =nX
mY=
n
m
XX+YY
X+Y
=n
m
U
1 − U,
mit
T : (0, 1) → (0,∞), u 7→ n
m
u
1 − u, T−1(z) =
mz
n+mz,
d
dzT−1(z) =
mnz
(n+mz)2
ist Fm,n = T (U), hat also die Dichte
fm,n(z) =mnz
(n+mz)2Γ(m+n
2 )
Γ(n2 )Γ(m2 )
(mz
n+mz
)m2−1( n
n+mz
)n2−1
.
36
7.2.4. Korollar: Student’sches T
X,Y1, . . . , Yn i.i.d. ∼ N (0, 1), dann hat
T :=X√
1n
n∑i=1
Y 2i
die Dichte
τn(x) =Γ(n+1
2 )
Γ(12)Γ(1
2)
1√n
(1 +x2
n)−
n+12 .
Diese Verteilung heißt Student’sche t-Verteilung mit n Freiheitsgraden, tn-Verteilung
Beweis:
T 2 hat Dichte f1,n,
ϕ(z) =√z, ϕ−1(y) = y2,
d
dyϕ−1(y) = 2y.
|T | hat Dichte 2tf1,n(t2), da T symmetrisch um 0 verteilt ist, hat T die Dichte |t|f1,n(t
2).
7.3. Satz:
Seien X1, . . . , Xn u.i.v. ∼ N (m, v),M := 1n
n∑i=1
Xi, V∗ =
1
n− 1
n∑i=1
(Xi −M)2. Dann gilt:
(i) M und V ∗ sind unabhangig,
(ii) M ∼ N (m, vn), n−1v V ∗ ∼ χ2
n−1,
(iii) T :=
√n(M −m)√
V ∗ ist Student-(n− 1)-verteilt (∼ tn).
Sei
Z =
Z1
...Zn
mit Z1, . . . , Zn unabhangig und N (0, 1). Die Verteilung heißt die n-dimensionaleStandardnormalverteilung mit Dichte
(2π)−n2 e
− 12
n∑i=1
Z2i
= (2π)−n2 e−
12||z||2
auf Rn. Sei weiter O eine orthogonale (n× n)-Matrix (d.h. OTO = Idn). Dann ist Y := OZwieder n-dimensional Standard-normalverteilt (wie man beispielsweise mit demDichtentransformationssatz sieht). Insbesondere sind die Koordinaten Y1, . . . , Yn unabhangig.
37
Beweis:
O.B.d.A. m = 0, v = 1, sonst gehe uber zu X ′i =
Xi −m√v
.
Sei
z1 =
1√n
...1√n
,
erganze zu Orthonormalbasis z1, . . . , zn von Rn. Sei weiter
O =
zt1zt2...ztn
ist orthogonal, Y = OX
, X =
X1
...Xn
,
Y ist ebenfalls n-dimensional Standard-normalverteilt.
Y1 = (OX)1 =n∑i=1
1√nXi =
√nM (insbesondere ist M ∼ N (0, 1
n)),
(n− 1)V ∗ =n∑i=1
(Xi −M)2 =n∑
i=1
X2i
︸ ︷︷ ︸=||X||2=||Y ||2
−nM2︸ ︷︷ ︸=Y 2
1
=n∑i=2
Y 2i ∼ χ2
n−1,
also ist (n− 1)V ∗ ∼ χ2-verteilt mit n− 1 Freiheitsgraden und unabhangig von Y1.
38
8. Konfidenzintervalle fur den Median
Szenario: Seien X1, . . . , Xn u.i.v. reellwertig, mit (unbekannter) Verteilung P, P habe stetigeVerteilungsfunktion. m(P) sei ein Median von P (d.h. P[(−∞,m(P)]] = 1
2 = P[[m(P),∞)]).
Die zugehorige Ordnungsstatistik ist
X(1) < X(2) < . . . < X(n).
Bemerkung:
Da P stetige Verteilungsfunktion hat, gilt
P⊗n[Xi = Xj ] = 0 fur i 6= j.
Beobachtung:
P⊗n[X(k) > m(P)] = P⊗n[|1 ≤ i ≤ n : Xi ≤ m(P)| ≤ k − 1] = Binn, 12(0, . . . , k − 1), analog:
P⊗n[X(n−k−1) < m(P)] = Binn, 12(n− k + 1, . . . , n)
8.1. Satz uber die Konfidenzintervalle fur den Median
Zu α ∈ (0, 1) wahle k maximal, so dass Binn, 12(0, . . . , k − 1) ≤ α
2 , dann ist
C(X) := [X(k), X(n−k+1)]
ein Konfidenzintervall fur den Median m(P) zum Irrtumsniveau α.
Beweis:
P⊗n[[X(k), X(n−k+1)] ∋ m(P)] = P⊗n[X(k) > m(P) ∪ X(n−k+1) < m(P)]≤ P⊗n[X(k) > m(P)] + P⊗n[X(n−k+1) < m(P)]= 2 · α
2= α
Beobachtung: Konfidenzintervalle und Tests
Sei C(X) ein Konfidenzbereich fur τ(P) zum Sicherheitsniveau 1 − α, d.h.
P⊗n[τ(P) ∈ C(X)] ≥ 1 − α ∀P (aus einer gewissen Klasse).
Betrachte die Hypothese H0 : τ(P) = τ0 und die Alternative H1 : τ(P) 6= τ0 und folgenden Test:Lehne H0 ab, wenn C(X) ∋ τ0, sonst nehme H0 an.
Die”Wahrscheinlichkeit, die Nullhypothese falschlicherweise anzulehnen“, ist
supP:τ(P)=τ0
P[”lehne H0 ab“] = sup
P:τ(P)=τ0
P[τ(P) 6∈ C(X)] = supP:τ(p)=τ0
P[τ0 6∈ C(X)] ≤ α.
Diese Große nennt man (die Wahrscheinlichkeit eines) Fehler(s) 1. Art.
39
8.2. Korollar: Vorzeichentest fur den Median
Seien X1, . . . , Xn u.i.v. reellwertig, gemaß P (P habe stetige Verteilungsfunktion), α ∈ (0, 1),wahle k maximal mit Binn, 1
2(0, . . . , k − 1) ≤ α
2 , teste H0 : m(P) = m0 gegen H1 : m(P) 6= m0
folgendermaßen:
Wenn [X(k), X(n−k+1)] ∋ m0, so nehme H0 an, sonst lehne H0 ab und nehme H1 an. Der Fehler1. Art dieses Tests ist ≤ α.
Analog fur H0 : m(P) ≤ m0 gegen H1 : m(P) > m0:
Wenn X(k′) > m0, so lehne H0 ab, wo k′ so gewahlt ist, dass Binn, 12(0, . . . , k′ − 1) ≤ α (und k′
maximal mit dieser Eigenschaft).
8.3. Die 2-Stichproben-Situation:
8.3.1. Wilcoxon-Rangsummen-Test
Sei n = k + l,X1, . . . , Xk u.i.v. gemaß P und Xk+1, . . . , Xk+l u.i.v. gemaß Q, mit P,QWahrscheinlichkeitsmaße auf R mit stetiger Verteilungsfunktion.
Wie kann man prufen, ob unter P”typischerweise kleinere Werte angenommen werden?“
Ri = |1 ≤ j ≤ n : Xj ≤ Xi|,Dann ist
W =k∑
i=1
Ri die Wilcoxon-Rangsummen-Statistik.
Beobachtung:
•n∑i=1
Ri =n(n+ 1)
2
• W = U + k(k+1)2 , wo U = Uk,l =
k∑i=1
k+l∑j=k+1
1(Xi>Xj)
O.B.d.A. nehme an, dass X1 < . . . < Xk (denn U,W invariant unter Permutation vonX1, . . . , Xk), dann ist
Ri = i+k+l∑
j=k+1
1(Xi>Xj).
8.3.2. Proposition:
Sei P stetige Verteilung auf R, n = k + l,X1, . . . , Xn i.i.d gemaß P, U wie oben. Dann gilt furm ∈ 0, 1, . . . , k · l:
P⊗n[U = m] =1(nk
) ·N(m; k, l),
wobei
N(m; k, l) =
∣∣∣∣∣
(m1, . . . ,mk) ∈ 0, 1, . . . , lk : m1 ≤ . . . ≤ mk,
k∑
i=1
mi = m
∣∣∣∣∣ .
40
Bemerkung:
U ist also”verteilungsfrei“ in dem Sinn, dass seine Verteilung nicht von P abhangt (die Gewichte
sind”rein kombinatorische“ Terme).
b b b b b b b
b b b b b b
b b b b
b b b
...
...
...
...
...
...
...
b b
b
b b b
b b b b
b b b b b
m1 :
m2 :
m3 :
m4 :
mk :
l
k
Abbildung 8.1.: Darstellung der kombinatorischen Große N(m; k, l), als Anzahl der Wege durchdieses k × l-Gitter, so dass unter dem Weg nur m =
∑mi viele Punkte liegen
Es gilt
N(m; k, l) = N(m; l, k) = N(kl −m; k, l) und N(m; k, l) =k∑
j=0
N(m− j; j, l − 1).
Fur die erste Gleichung vertausche Zeilen und Spalten in Abb. 8.1, fur die zweite Gleichungvertausche die Rollen von
”rot“ und
”schwarz“ (und dann Zeilen und Spalten) in Abb. 8.1, die
dritte Gleichung ergibt sich durch Zerlegung nach der Anzahl schwarzer Punkte in der erstenSpalte.
Beweis:
(R1, . . . , Rn) ist unter P⊗n uniform verteilt auf allen Permutationen von 1, . . . , n, denn
P⊗n[Xσ(1) < Xσ(2) < . . . < Xσ(n)] =1
n!.
Demnach ist R1, . . . , Rk uniform verteilt auf den k-elementigen Teilmengen von 1, . . . , n.Parametrisiere A ⊆ 1, . . . , n mit |A| = k als (r1, . . . , rk), 1 ≤ r1 < r2 < . . . < rk ≤ n. Dann ist
(m1, . . . ,mk)(A) := (r1 − 1, r2 − 2, . . . , rk − k) ∈ 0, 1, . . . , lk,
mi(A) = |s ∈ 1, . . . , n \A : s < ri|.Somit
P⊗n[U = m] =∑
A⊆1,...,n|A|=k
m1(A)+...+mk(A)=m
P⊗n[R1, . . . , Rk = A]︸ ︷︷ ︸= 1
(nk)
.
41
Ohne Einschrankung seien X1, . . . , Xn unabhangig ∼ unif([0, 1]) (n = k + l),
Uk,l :=k∑
i=1
k+l∑
j=k+1
1Xi>Xj .
Es gilt E[Uk,l] = 12kl,
Var(Uk,l) = Cov(Uk,l, Uk,l)
=k∑
i=1
k+l∑
j=k+1
k∑
i′=1
k+l∑
j′=k+1
Cov(1(Xi>Xj),1(Xi′<Xj′ ))
1
=1
4· kl + 1
12kl(l − 1) +
1
12lk(k − 1)
=kl(k + l + 1)
12=: Vk,l.
8.4. Satz:
U∗k,l :=
Uk,l − 12kl√
Vk,l
in Vert.−→k,l→∞
N (0, 1)
Beweis:
Idee: Approximiere 1Xi>Xj − 12 durch Xi −Xj . Definiere weiter
Zk,l :=
k∑
i=1
k+l∑
j=k+1
(Xi −Xj) = l
k∑
i=1
Xi − k
k+l∑
j=k+1
Xj .
Dann ist
E[Zk,l] = 0 und Var(Zk,l) = l2k1
12+ k2l
1
12=kl(k + l)
12.
1
Cov(1(Xi>Xj),1(Xi′<Xj′ )) =
0 wenn i 6= i′ und j 6= j′
P[X1 > X2, X1 > X3] −14
= 13− 1
4= 1
12wenn i = i′ und j 6= j′ oder i 6= i′ und j = j′
12− 1
4= 1
4wenn i = i′ und j = j′
42
Sei nun Z∗k,l :=
Zk,l√Vk,l
. Wir wollen dann noch zeigen, dass Var(U∗k,l − Z∗
k,l) −→k,l→∞
0:
Cov(Uk,l, Zk,l) = lk∑
i=1
Cov(Uk,l, Xi) − kk+l∑
j=k+1
Cov(Uk,l, Xj),
Cov(Uk,l, Xi) =
k∑
i′=1
k+l∑
j′=k+1
Cov(1Xi′>Xj′ , Xi)︸ ︷︷ ︸
=
0 fur i 6= i′
Cov(1X1>X2 , X1)
=
∫ 1
0
∫ 1
01x1>x2x1dx2
︸ ︷︷ ︸x1
dx1 −1
4= 1
12 falls i = i′
= l1
12,
Cov(Uk,l, Xi) = − k
12analog.
Also Cov(Uk,l, Zk,l) =kl(k + l)
12, somit
Var(Uk,l − Zk,l) = Var(Uk,l) − 2Cov(Uk,l, Zk,l) + Var(Zk,l) =kl
12
und Var(U∗k,l − Z∗
k,l) =1
k + l + 1−→k,l→∞
0.
Z∗k,l =
√√√√√l
k + l + 1︸ ︷︷ ︸=:ak,l
· S∗k −
√√√√√k
k + l + 1︸ ︷︷ ︸=:bk,l
T ∗l
mit S∗k =
1√k12
k∑i=1
(Xi − 12), T ∗
l =1√l
12
k+l∑j=k+1
(Xj − 12).
Nach ZGWS:
(S∗k , T
∗l )
in Vert.−→k,l→∞
(S, T ), mit S, T unabhangig und N (0, 1) verteilt.
Sei (ki, li)i∈N mit ki → ∞, li → ∞, dann gibt es eine Teilfolge (kij , lij ), sodass akij,lij
→ a und
bkij,lij
→ b und a+ b = 1.
Demnach Z∗kij
,lij
in Vert.→j→∞
√aS︸︷︷︸
∼N (0,a)
+√bT︸︷︷︸
∼N (0,b)
∼ N (0, a+ b︸ ︷︷ ︸=1
).
8.5. Definition: stochastisch kleiner
Seien P,Q zwei Wahrscheinlichkeitsmaße auf R, so heißt P stochastisch kleiner als Q, P 4 Q,wenn
P[[c,∞)] ≤ Q[[c,∞)] ∀c ∈ R,
d.h. fur die zugehorigen Verteilungsfunktionen gilt FP ≥ FQ.
43
Bemerkung:
P 4 Q ⇐⇒ ∃ Zufallsvariablen X,Y (auf einem gemeinsamen Wahrscheinlichkeitsraum(Ω,F ,P)) mit X ≤ Y P-f.s., P X−1 = P und P Y −1 = Q.
Beweis der Bemerkung:
”⇐ “: P[[c,∞)] = P[X ≥ c] ≤ P[Y ≥ c] = Q[[c,∞)]
”⇒ “: Sei F−1
P (u) := infx : FP(x) ≥ u und analog F−1Q . Sei weiter U uniform auf [0, 1],
X := F−1P (U) ≤ Y := F−1
Q (U), denn F−1P (u) ≤ F−1
Q (u).
1
1 2 3 4 5 6 7 8 9 10 11 12
b
FP
FQ
Abbildung 8.2.: Darstellung der Verteilungsfunktionen von P und Q, wenn P 4 Q
Bemerkung:
X ∼ P, c > 0, X + c ∼ Q, dann ist P 4 Q, insbesondere ist N (m1, v) 4 N (m2, v), wennm1 ≤ m2.
8.5.1. Satz:
Sei n = k + l, X1, . . . , Xk i.i.d. gemaß Q1 und Xk+1, . . . , Xk+l i.i.d. gemaß Q2, Q1,Q2 stetigeVerteilungen auf R, α ∈ (0, 1). Bestimme c so, dass
P[Uk,l ≤ c] ≤ α.
Test: Berechne Uk,l anhand der Daten und lehne H0: Q1 = Q2 ab, wenn Uk,l ≤ c zugunsten derAlternative H1 : Q1 4 Q2, sonst nehme H0 an.Dann ist die Wahrscheinlichkeit fur einen Fehler 1. Art (d.h. H0 falschlicherweise anzulehnen)≤ α. (Dies ist ein Test von H0 gegen H1 zum Niveau α.)
44
8.5.2. Beispiel: Verkehrstote in Großbritannien 1969–1984
Der mit R mitgelieferte Datensatz Seatbelts2 enthalt (u.A.) fur jeden Monat im ZeitraumJanuar 1969 bis Dezember 1984 die Anzahl bei Verkehrsunfallen in Großbritannien getotetenAutofahrer.
R version 2.4.0 Patched (2006-11-25 r39997)
Copyright (C) 2006 The R Foundation for Statistical Computing
ISBN 3-900051-07-0
...
> data(Seatbelts)
> plot(Seatbelts[,1], xlab="Zeit", ylab="Tote/Monat",main="Anzahl bei
Verkehrsunfallen in Großbritannien getoteter Autofahrer")
Anzahl bei Verkehrsunfällen in Großbritannien getöteter Autofahrer
Zeit
Tot
e/M
onat
1970 1975 1980 1985
6080
100
120
140
160
180
200
Am 31. Januar 1983 wurde in Großbritannien die Gurtpflicht eingefuhrt, wir spalten die Datenentsprechend:
> A<-Seatbelts[Seatbelts[,8]==0,1]
> B<-Seatbelts[Seatbelts[,8]==1,1]
(Seatbelts[,8] ist 0, wenn im betreffenden Monat keine Gurtpflicht galt, A enthalt nun dieMonate ohne Gurtpflicht, B die mit.)
Ein Boxplot zeigt, dass die Werte in A tendenziell großer als die in B sind:> boxplot(list("Ohne"=A,"Mit"=B))
2Basierend auf A. C. Harvey and J. Durbin, The effects of seat belt legislation on British road casualties: A casestudy in structural time series modelling, J. Roy. Stat. Soc. B 149, 187–227 (1986).
45
Ohne Mit
6080
100
120
140
160
180
200
Ein Rangsummen-Test zeigt, dass die Werte in A tatsachlich signifikant kleiner sind als die in B:
> wilcox.test(B,A,alt="less")
Wilcoxon rank sum test with continuity correction
data: B and A
W = 829, p-value = 4.171e-06
alternative hypothesis: true location shift is less than 0
Bemerkung:”Machtlosigkeit“ des Rangsummentests gegen unterschiedliche Varianzen
Zur Illustration simulieren wir 100 N (0, 1)- und 100 N (0, 2)-verteilte Werte. Obwohl dieseVerteilungen deutlich verschieden sind, schlagt der Rangsummentest hier typischerweise nicht an:
> C<-rnorm(100,mean=0,sd=1)
> D<-rnorm(100,mean=0,sd=sqrt(2))
> wilcox.test(C,D)
Wilcoxon rank sum test with continuity correction
data: C and D
W = 5066, p-value = 0.8728
alternative hypothesis: true location shift is not equal to 0
46
9. Testen von Hypothesen:
9.1. Definition: Test, Randomisierung und Gutefunktion
Sei (X ,F ,Pϑ : ϑ ∈ Θ) ein statistisches Modell, Θ = Θ0∪Θ1 (Zerlegung in”Nullhypothese“ und
”Alternative“).
Eine Statistik ϕ : X → [0, 1] (interpretiert als Entscheidungsregel: Bei gegebener Beobachtung xentscheide mit Wahrscheinlichkeit ϕ(x) fur die Alternative) heißt ein Test von Θ0 gegen Θ1.
Der Test heißt randomisiert, wenn ϕ(X ) 6⊆ 0, 1, sonst nicht-randomisiert.
Fur nicht randomisierte Tests heißt
x : ϕ(x) = 1 der Ablehnungs- oder Verwerfungsbereich.
Weiter heißtGϕ(ϑ) = Eϑ[ϕ] die Gutefunktion von ϕ,
supϑ∈Θ0
Gϕ(ϑ)
heißt Umfang oder effektives Niveau von ϕ ϕ heißt ein Test zum Irrtumsniveau α ∈ (0, 1), wennsupϑ∈Θ0
Gϕ(ϑ) ≤ α. Fur ϑ ∈ Θ1 heißt Gϕ(ϑ) die Macht oder Scharfe von ϕ (engl.”Power“) bei ϑ.
9.2. Definition: gleichmaßig bester Test
Ein Test von Θ0 gegen Θ1 heißt ein gleichmaßig bester Test zum Niveau α ∈ (0, 1), wenn er dasNiveau α einhalt, d.h.
supϑ∈Θ0
Gϕ(ϑ) ≤ α,
und fur jeden Test ψ, der das Niveau α einhalt,
Gϕ(ϑ) ≥ Gψ(ϑ) ∀ϑ ∈ Θ1
gilt.
9.3. Alternativtest und das Neyman-Pearson-Lemma
Betrachte ein Standardmodell, Θ = 0, 1, d.h.
P0[dx] = ρ(x, 0)dx, P1[dx] = ρ(x, 1) dx
(bzw. analog fur X diskret). Setze
R(x) :=
ρ(x, 1)
ρ(x, 0)wenn ρ(x, 0) > 0,
∞ sonst.
R heißt Likelihood-Quotient.
47
9.3.1. Definition: Neyman-Pearson-Test
Ein Test ϕ von P0 gegen P1 der Form
ϕ(x) =
1 fur R(x) > c,
0 fur R(x) < c,
heißt ein Neyman-Pearson-Test zum Schwellenwert c.
9.3.2. Satz: (Neyman-Pearson-Lemma)
Betrachte Standardmodell mit einpunktiger Nullhypothese und einpunktiger Alternative,α ∈ (0, 1).
(i) Es gibt einen Neyman-Pearson-Test ϕ mit E0[ϕ] = α.
(ii) Jeder Neyman-Pearson-Test ϕ mit E0[ϕ] = α ist ein gleichmaßig bester Test zum Niveau α,und jeder gleichmaßig beste Test zum Niveau α ist ununterscheidbar von einem (gewissen)Neyman-Pearson-Test.
Beweis:
(i) Wahle c mit P0[R ≥ c] ≥ α und P0[R ≤ c] ≥ 1 − α
1 2 3−1−2−3
bα
c
P0[R ≤ x]
Abbildung 9.1.: Abbildung zur Wahl von c, falls die Verteilungsfunktion gerade an dieser Stelleeinen Sprung hat. Deswegen kann es in manchen Fallen auch sinnvoll sein, denTest zu randomisieren.
Falls P0[R = c] = 0, so ist ϕ = 1R(x)>c ein Neyman-Pearson-Test mit E0[ϕ] = α wiegewunscht.
Falls P0[R = c] > 0, setze γ :=α− P0[R > c]
P0[R = c]∈ [0, 1] und
ϕ :=
1 wenn R(x) > c,
γ wenn R(x) = c,
0 wenn R(x) < c,
48
denn P0[R > c] = 1 − P0[R ≤ c] ≤ α undP0[R = c] = P0[R ≥ c] − P0[R > c] ≥ α− P0[R > c].
Dies ist ein Neyman-Pearson-Test mitE0[ϕ] = 1 · P0[R > c] + γP0[R = c] + 0 · P0[R < c] = α.
(ii) Sei ϕ ein Neyman-Pearson-Test (mit Schwellenwert c) mit E0[ϕ] = α, ψ irgendein Test mitE0[ψ] = α. Es gilt
∀x : (ϕ(x) − ψ(x))(ρ(x, 1) − cρ(x, 0)) ≥ 0,
denn die beiden Faktoren haben dasselbe Vorzeichen (sofern der zweite 6= 0):ϕ(x) ≥ 1(ρ(x, 1) > cρ(x, 0)), also
(∗∗) f1(x) := (ϕ(x) − ψ(x))ρ(x, 1) ≥ c(ϕ(x) − ψ(x))ρ(x, 0) =: cf0(x),
und demnach
(∗) E1[ϕ] − E1[ψ]1
=
∫
X
f1(x)dx ≥ c
∫
X
f0(x)dx = c(α− E0[ψ]) ≥ 0
Also ist die Macht von ϕ großergleich der von ψ.
Sei ψ ebenfalls ein bester Test mit E0[ψ] = α, dann gilt Gleichheit in (∗), folglich giltGleichheit in (∗∗) (unter Umstanden bis auf x aus einer Lebesgue-Nullmenge N), d.h.
(ϕ(x) − ψ(x)) · (ρ(x, 1) − cρ(x, 0)) = 0,
d.h. ϕ = ψ fur x 6∈ N mit R(x) 6= c. In diesem Sinne sind die beiden Tests ununterscheidbar.
9.4. Satz: (Lemma von Stein)
Im unendlichen Produktmodell (XN,F⊗N,P⊗N
ϑ : ϑ ∈ 0, 1), sei ϕn ein Neyman-Pearson-Test mitE0[ϕn] = α, der nur von den Beobachtungen X1, . . . , Xn abhangt. Dann gilt:
limn→∞
1
nlog(1 − E1[ϕn]) = −H(P0|P1),
d.h. E[ϕn] ≈ 1 − e−nH(P0|P1), die Macht von ϕ konvergiert exponentiell schnell gegen 1.
Beweis:
Sei
Rn :=ρ⊗n1 (X1, . . . , Xn)
ρ⊗n0 (X1, . . . , Xn)=
n∏
i=1
ρ1(Xi)
ρ0(Xi),
hn := − 1
nlogRn =
1
n
n∑
i=1
h(Xi),
1Im Diskreten statt Integral naturlich eine Summe.
49
wo h(x) = log
(ρ0(x)
ρ1(x)
). Dabei bemerken wir, dass
E0[h(X1)] = H(P0|P1).
Dann ist
ϕn =
1 wenn hn < an
0 wenn hn > an
fur ein an. Sei a < E0[h],
P⊗N
0 [hn ≤ a] −→n→∞
0 mit dem Gesetz großer Zahlen,
also an > a fur n genugend groß,
1 − ϕn > 0 ⊆ hn ≥ an = ρ⊗n0 ≥ enanρ⊗n1
Somit
1 ≥ E0[1 − ϕn] ≥ enanE1[1 − ϕn],
d.h.
lim supn→∞
1
nlog(1 − E1[ϕn]) ≤ −a,
also auch
lim supn→∞
1
nlog(1 − E1[ϕn]) ≤ −E0[h].
Sei a > E0[h] (und ohne Einschrankung E0[h] <∞), dann ist
P⊗N
0 [ρ⊗n1 ≥ e−naρ⊗n0 ] = P⊗N
0 [hn ≤ a] ≥ 1 + α
2
fur n genugend groß.
E1[1 − ϕn] = E0[(1 − ϕn)ρ⊗n1
ρ⊗n0
]
≥ e−naE0[(1 − ϕn)1hn≤a]
≥ e−na(P⊗N
0 [hn ≤ a] − E0[ϕn]︸ ︷︷ ︸=α
)
≥ e−na1 − α
2
Somit
lim infn→∞
1
nlog E1[1 − ϕn] ≥ −a,
mit aց E0[h] folgt die Behauptung.
50
9.4.1. Beispiel:
Gegeben: X1, . . . , Xn, P0 = N ⊗n(m0, v),P1 = N ⊗n(m1, v), v > 0 fest, o.B.d.A. m0 < m1.Teste H0 : m = m0 gegen H1 : m = m1.
Sei
Rn = exp
(− 1
2v
n∑
i=1
(Xi −m1)2 +
1
2v
n∑
i=1
(Xi −m0)2
)= exp
− n
2v(2(m1 −m0) Mn︸︷︷︸
=: 1n
n∑i=1
Xi
+m21 −m2
0)
Betrachte nun
hn = − 1
nlogRn =
m0 −m1
vMn −
m21 −m2
0
2v.
Fur α ∈ (0, 1) wahle an so, dass P0[hn < an] = α, also
an =m0 −m1
v
(√n
vΦ−1(1 − α) +
m21 −m2
0
2(m0 −m1)+m0
).
51
10. Monotone Likelihood-Quotienten und besteeinseitige Tests
10.1. Definition: Likelihood-Quotient Rϑ′,ϑ(x)
Ein Standardmodell (X ,F ,Pϑ : ϑ ∈ Θ) mit Θ ⊆ R hat wachsende Likelihood-Quotienten (bzgl.einer reellwertigen Statistik T ), wenn fur alle ϑ < ϑ′ der Likelihood-Quotient
Rϑ′,ϑ(x) :=ρϑ′(x)
ρϑ(x)
eine wachsende Funktion von T ist, d.h. Rϑ′,ϑ(x) = fϑ′,ϑ(T (x)) = (fϑ′,ϑ T )(x) fur eine wachsendeFunktion fϑ′,ϑ.
10.1.1. Beobachtung:
Jedes einparametrige exponentielle Modell hat wachsende Likelihood-Quotienten:
ρ(x, ϑ) = h(x)ea(ϑ)T (x)−b(ϑ)
mit a strikt wachsend oder strikt fallend, demnach
Rϑ′,ϑ(x) =ρϑ′(x)
ρϑ(x)= exp
((a(ϑ′) − a(ϑ)T (x) − b(ϑ′) + b(ϑ))
).
Klar, falls a streng monoton wachsend, sonst gehe zu −T uber.
10.2. Satz:
Sei (X ,F ,Pϑ : ϑ ∈ Θ),Θ ⊆ R ein Standardmodell mit wachsenden Likelihoodquotienten bzgl.T, ϑ0 ∈ Θ, α ∈ (0, 1). Ein gleichmaßig bester Test von H0 : ϑ ≤ ϑ0 gegen H1 : ϑ > ϑ0 zum Niveauα hat die Form
ϕ(x) =
1 ⇐⇒ T (x) > c
γ ⇐⇒ T (x) = c
0 ⇐⇒ T (x) < c
fur gewisse c ∈ R, γ ∈ [0, 1], die durch die Bedingung Gϕ(ϑ0) = α festgelegt sind. DieGutefunktion ist monoton wachsend in ϑ.
Bemerkung:
Um H0 : ϑ ≥ ϑ0 gegen H1 : ϑ < ϑ0 zu testen, vertausche”<“ und
”>“ der Definition von ϕ
(formal: multipliziere ϑ und T jeweils mit −1).
53
Beweis:
Setze Θ0 := Θ ∩ (−∞, ϑ0],Θ1 := Θ ∩ (ϑ0,∞). Sei ψ irgendein Test von H0 gegen H1 der dasNiveau α einhalt, d.h. sup
ϑ∈Θ0
Gψ(ϑ) ≤ α, ϑ′ ∈ Θ1. Fasse ϕ und ψ auf als Tests von ϑ0 gegen ϑ′;in diesem Szenario ist dann ϕ ein Neyman-Pearson-Test mit Eϑ0 [ϕ] = α.
Demnach
Gϕ(ϑ′) ≥ Gψ(ϑ′) ∀ϑ′ ∈ Θ1.
Zur Monotonie: Sei ϑ < ϑ′, fasse ϕ auf als einen (Neyman-Pearson-)Test von ϑ gegen ϑ′ mitNiveau β := Gϕ(ϑ).
Vergleiche mit dem (trivialen) Test ψβ(x) ≡ β, der ebenfalls Niveau β hat.
Gemaß dem Neyman-Pearson-Lemma ist Gϕ(ϑ′) ≥ Gψβ(ϑ′) = β = Gϕ(ϑ), insbesondere ist
ϑ 7→ Gϕ(ϑ) monton wachsend, also
supϑ∈Θ0
Gϕ(ϑ)(<)= α.
10.2.1. Beispiel:
(i) Sei X1, . . . , Xn u.i.v gemaß N (ϑ, v), v > 0 fest, ϑ ∈ R. Teste ϑ ≤ m0 gegen ϑ > m0folgendermaßen:
Dies ist ein exponentielles Modell bzgl. Mn = 1n
n∑i=1
Xi. Der beste Test zum Niveau α hat
AblehnungsbereichMn > m0 +
√v
nΦ−1(1 − α)
.
(ii) Sei X1, . . . , Xn u.i.v gemaß N (m,ϑ), m fest, ϑ > 0. Teste ϑ ≥ ϑ0 gegen ϑ < ϑ0: Dies ist
eine exponentielle Familie bzgl. T :=1
n
n∑i=1
(Xi −m)2, der beste Test zum Niveau α hat dann
den Ablehnungsbereich T <
1
nϑ0 · χ2
n,α
,
wobei χ2n,α das α-Quantil von χ2
n.
10.3. Tests im (2-parametrigen) Gauß’schen Modell
Szenario: Sei (m, v) ∈ R × (0,∞), (X1, . . . , Xn) ∼ N (m, v)⊗n︸ ︷︷ ︸=P(m,v)
, Mn :=1
n
n∑i=1
Xi.
Beobachtung
1
v
n∑
i=1
(Xi −Mn)2 ist unter P(m,v) χ
2n−1-verteilt.
54
10.3.1. Satz: Linksseitiger χ2-Test fur die Varianz im Gauß’schen Modell
Der Test ϕ mit Ablehnungsbereich1
n∑
i=1
(Xi −Mn)2 > v0χ
2n−1,1−α
ist ein gleichmaßig bester Test von H0 : v ≤ v0 gegen H1 : v > v0 zum Niveau α, wobeiχ2n−1,1−α = (1 − α)-Quantil von χ2
n−1.
D.h.(∗) E(m,v)[ϕ] ≤ α ∀(m, v) ∈ Θ0
und fur jeden Test ψ, der auch Niveau α einhalt, gilt
E(m,v)[ϕ] ≥ E(m,v)[ψ] ∀(m, v) ∈ Θ1.
Beweis:
Zu (∗):
P(m,v)[ϕ = 1] = P(m,v)
[1
v
n∑
i=1
(Xi −Mn)2 >
v0vχ2n−1,1−α
]≤ α ∀(m, v) ∈ Θ0.
Fixiere (m1, v1) ∈ Θ1, fur v ∈ (0, v1] sei
Pv :=
∫P(m,v)wv(dm)
mit wv = N (m1,v1−vn )2, Pv1 = P(m1,v1).
Die Likelihood-Funktion ist
ρv(X1, . . . , Xn) =
∞∫
−∞
(2πv)−n2 e
− 12v
n∑i=1
(Xi−m)2
·(
2πv1 − v
n
)− 12
e− (m−m1)2
2(v1−v)/n dm
= c1(v)
∞∫
−∞
exp
(− (m−m1)
2
2(v1 − v)/n− 1
2v
n∑
i=1
(Xi −m)2
)dm
3
= c1(v)e−n−1
2v·V ∗
∞∫
−∞
exp
(− (m−m1)
2
2(v1 − v)/n− (m−Mn)
2
2v/n
)dm
︸ ︷︷ ︸=const.e
− (m1−Mn)2
2v1/n
= c2(v) exp
(−n− 1
2v· V ∗ − (m1 −Mn)
2
2v1/n
),
1D.h. ϕ := 1 n∑i=1
(Xi−Mn)2>v0χ2
n−1,1−α
2Bemerkung: Mn unter Pv hat Verteilung N (m1,v1
n), denn wenn Z ∼ N (0, 1) betrachte:
√v1
nZ + M
55
d.h. Pv, v ≤ v1 sind eine exponentielle Famile (bzgl. V ∗).
Demnach: ϕ = 1V ∗>c (wo c so gewahlt, dass Pv0 [V∗ > c] = α, mit
Pv0 [V∗ > c] =
∫P(m,v)[V
∗ > c]wv0(dm) = P(0,v0)[V∗ > c]) ist ein gleichmaßig bester Test von
Pv : v ≤ v0 gegen Pv1 zum Niveau α (und eigentlich ϕ = ϕ). c = v0n−1χ
2n−1;1−α
Sei ψ ein Test von Θ0 gegen Θ1 zum Niveau α,
Gψ(v) =
∫Gψ((m, v))︸ ︷︷ ︸
≤α
wvdm ≤ α
∫ωvdm = α · 1 = α,
also liefert die Optimalitat von ϕ: Gψ((m1, v1)) = Gψ(v1) ≤ Gϕ(v1) = Gϕ((m1, v1)).
10.3.2. Bemerkung: (Der rechtsseitige χ2-Test fur die Varianz)
Der Test ϕ = 1
n∑i=1
(Xi−Mn)<voχ2n−1,α
von H0 : v ≥ v0 gegen H1 : v < v0 hat das Niveau α und ist
unverfalscht , d.h.sup
(m,v)∈Θ0
Gϕ((m, v)) ≤ α ≤ inf(m,v)∈Θ1
Gϕ((m, v)).
(Er entscheidet mit großerer Wahrscheinlichkeit fur die Alternative, wenn sie zutrifft, als wennwenn sie nicht zutrifft.) Er hat unter allen unverfalschten Tests von H0 gegen H1 zum Niveau αdie großte Macht (d.h. die Macht ist punktweise nicht kleiner), aber es gibt zu α ∈ (0, 1) (viele)Tests, die Niveau α einhalten und auf Teilen der Alternative großere Macht haben. Fur m ∈ R sei
ϕm = 1 n∑i=1
(Xi−m)2<v0χ2n,α
.
ϕm hat Niveau α: (m′, v) ∈ Θ0.
P(m′,v)[ϕm = 1] ≤ P(m,v)[ϕm = 1] ≤ P(m,v0)[ϕm = 1] = α
(Ubung: N (0, 1)⊗n(Br(x)) ≤ N (0, 1)⊗n(Br(0))).
Fur m × [v0,∞) gegen m × (0, v0) ist ϕm ein bester Test, insbesondere (Ubung: echt) besserals ϕ.
Andererseits:Gϕm((m′, v)) →
m′→∞0 fur jedes v, insbesondere fur v < v0.
10.3.3. Satz: Einseitiger Student’scher t-Test
Im Gauß’schen Produktmodell ist ϕ = 1√n(Mn−m0)√
V ∗ >tn−1,1−α
(tn−1,1−α = (1 − α)-Quantil der
Student’schen-Verteilung mit n− 1 Freiheitsgraden) ein bester unverfalschter Test vonH0 : m ≤ m0 gegen H1 : m > m0 zum Niveau α.
3mit
V∗ =
1
n − 1
n∑
i=1
(Xi − Mn)2
56
Beweis:
O.B.d.A. m0 = 0. Re-parametrisiere µ = m√n
v , η := 12v .
ρ(µ,η)(X1, . . . , Xn) = (2πv)−n2 e
− 12v
n∑i=1
(Xi−m)2
= (2πv)−n2 exp
(− 1
2v
n∑
i=1
Xi +m
vn ·Mn −
nm2
2v
)
= c(µ, η) exp(−µMn − ηS
)
mit Mn =√nMn, S =
n∑i=1
X2i .
T0 =
√nMn
V ∗
=Mn
√n− 1√
S − (Mn)2,
denn (n− 1)V ∗ = S − nM2n.
T0 > tn−1,1−α =
Mn√S − (Mn)2
>tn−1,1−α√n− 1
= Mn > f(s)
mit f(S) = r√
S1+r2
, r =tn−1,1−α√
n−1.
Sei ψ ein unverfalschter Test von Θ0 gegen Θ1 zum Niveau α. Dann gilt
E(0,η)[ψ] = α ∀η > 0
und
E(0,η)[ϕ] = α ∀η > 0.
Behauptung: (∗) E(0,η) [h(S)(ϕ− ψ)] = 0 ∀h : [0,∞) → R, die subexponentiell wachsen, d.h.
h(x)e−δxx→∞→ 0 ∀δ > 0.
Zu (∗): Sei γ ∈ R, k ∈ N E(0,γ+k)[ϕ− ψ] =c(0, γ + k)
c(0, γ)E(0,γ)[e
−kS(ϕ− ψ)] = 0 ∀k, also
E(0,η)[g(e−S)(ϕ− ψ)] = 0
fur jedes Polynom g, gemaß dem Weierstraß’schen Approximationssatz also fur jedes stetigeg : [0, 1] → R und jedes η > 0. Fur gegebenes h setze
gδ(x) :=
h(log(1/x))xδ, 0 < x ≤ 1,
0, x = 0,
57
(gδ ist stetig, und gδ(e−s) = h(s)e−δs), demnach
E(0,η)
[h(S)e−δS(ϕ− ψ)
]= E(0,η)[gδ(e
−S)(ϕ− ψ)] = 0
fur jedes δ > 0, was (∗) impliziert.
Betrachte ein (µ, η) ∈ Θ1, der Likelihood-Quotient hat die Gestalt
R(µ,η),(0,η) = c(µ, η)eµMn .
Demnach hat der Verwerfungsbereich von ϕ die Form
R(µ,η),(0,η) > h(S) mit h(S) = c(µ,η)eµf(S),
also
E(µ,η)[ϕ− ψ] = E(0,η)[R(µ,η),(0,η)(ϕ− ψ)] − E(0,η)[h(S)(ϕ− ψ)]︸ ︷︷ ︸
=0 gemaß (∗)
= E(0,η)
[(R(µ,η),(0,η) − h(S))(ϕ− ψ)︸ ︷︷ ︸
≥0
]≥ 0,
d.h. die Macht von ϕ ist nicht kleiner als die von ψ.
58
11. χ2-Anpassungstest
11.1. Test auf eine vorgegebene Haufigkeitsverteilung
Gregor Mendels Erbsenexperimente
Form: rund oder kantig, Farbe: gelb oder grun. Nennen wir A rund, a kantig und B gelb, b grun.Dabei sind in diesem diploiden Genmodell A und B dominant.
Betrachte die Nachkommen eines AaBb: Es gibt nun 4 Moglichkeiten fur den Phanotyp, mit(theoretische) Haufigkeiten gemaß den Mendel’schen Vererberungsregeln:
gelb grun
rund 916
34 · 1
4 = 316
kantig 316
116
Mendel beobachtete in n = 556 Versuchen:
gelb grun
rund 315 108kantig 101 32
oder in relativen Haufigkeiten:
gelb grun
rund 0.567 0.194kantig 0.181 0.058
Experiment mit s moglichen Ausgangen, Ausgang i mit Wahrscheinlichkeit ρ(i), n unabhangigeWiederholungen.
Xm Ausgang des m-ten Experiments
hn(i) := |1 ≤ m ≤ n : Xm = i|,
P[hn(1) = a1, . . . , hn(s) = as] =
(n
a1,a2,...,as
)ρ(1)a1 · . . . · ρ(s)as falls a1 + a2 + . . .+ as = n
0 sonst
Diese Verteilung heißt Multinomialverteilung.
s∑
i=1
(hn(i) − nρ(i))2
nρ(i)=: Dn,ρ(X1, . . . , Xm)
Ziel: Die Verteilung von Dn,ρ(X) unter der Multinomial(n; ρ(1), ρ(2), . . . , ρ(s))-Verteilung
studieren. Sei h∗n(i) =hn(i) − nρ(i)√
nρ(i). Dann ist
s∑
i=1
√ρ(i) · h∗n(i) = 0
59
und
Hρ := x ∈ Rs : xt · uρ = 0, uρ = (√ρ(1), . . . ,
√ρ(s))t,
Πρ : R2 → Hρ die Projektion auf Hρ.
Sei O eine orthogonale s× s-Matrix, deren letzte Spalte uρ ist. Dann wahle
Hρ
x
Πρ(x)
Abbildung 11.1.: Darstellung der orthogonalen Projektion im Zweidimensionalen auf einen eindi-mensionalen Unterraum
Πρ = O ·
1 0. . .
10 0
Ot
Multivariate Standardnormalverteilung auf Hρ:
N (0, 1)⊗s · Π−1ρ = Nρ
Bemerkung:
(N (0, 1)⊗(s−1) ⊗ δ0) Ot = Nρ
11.1.1. Satz:
(h∗n(1), . . . , h∗n(s))t v→n→∞
Nρ
Erinnerung:
Ynv→
n→∞Q : ⇐⇒ P[Yn ∈ A]
n→∞→ Q(A) ∀A mit Q[∂A] = 0. Fur die Konvergenz genugt es,
P[Yn ∈ A] → Q(A) fur A der Form (−∞, a1] × (−∞, a2] × . . .× (−∞, as] mit ai ∈ R zu zeigen.
Beobachtung:
Zk(i), k = 1, 2, . . . , 1 ≤ i ≤ s unabhangig und Zk(i) ∼ Pois(ρ(i)).
Betrachte Sn(i) :=n∑k=1
Zk(i), Nn := Sn(1) + Sn(2) + . . .+ Sn(s). Dann ist Sn(i) ∼ Pois(nρ(i)),
Sn(i) sind unabhangig, Nn ∼ Pois(n) und gegeben Nn = m ist (Sn(1), . . . , Sn(s))
60
Multinomial(n; ρ(1), . . . , ρ(s))-verteilt, denn
P[Sn(1) = a1, . . . , Sn(s) = as|Nn = m] =1
e−n nm
m!
s∏
i=1
e−ρ(i)n(nρ(i))ai
ai!=
(m
a1, . . . , as
)ρ(1)a1 ·. . .·ρ(s)as .
Setze
S∗n(i) :=
Sn(i) − nρ(i)√nρ(i)
, so gilt (mit dem ZGWS) S∗n :=
S∗n(1)...
S∗n(s)
v→ N (0, 1)⊗s.
Sei weiter
N∗n :=
s∑
i=1
√ρ(i)S∗
n(i) =Nn − n√
n
undY ∗n := OtS∗
n, Y∗n (s) = N∗
n.
Es gilt: Y ∗n
v→n→∞
N (0, 1)⊗s,
P[h∗n ∈ A] = P[S∗n ∈ A|N∗
n = n] = P[Y ∗n ∈ OtA|Y ∗
n (s) = 0].
Zeige: ∀ε > 0: P[h∗n ∈ A] ≤ P[S∗n ∈ A|N∗
n ∈ [−ε, 0]] und P[h∗n ∈ A] ≥ P[S∗n ∈ A|N∗
n ∈ [0, ε]] fur Ader Form (−∞, a1] × . . .× (−∞, as].
Sei h∗m,n(i) :=hm(i) − nρ(i)√
nρ(i), qm,n := P[h∗m,n ∈ A].
h∗m+1,n ∈ A ⊂ h∗m,n ∈ A, d.h. qm+1,n ≤ qm,n, also
qn,n ≥⌊n+ε
√n⌋∑
m=n
qm,nP[Nn = m|N∗n ∈ [0, ε]] = P[S∗
n ∈ A|N∗n ∈ [0, ε]],
analog die andere Ungleichung q,n ≤ P[S∗n ∈ A|N∗
n ∈ [−ε, 0]].
P[S∗n ∈ A] →
s∏
i=1
ai∫
−∞
1√2πe−
t2
2 dt
Sei weiter Uε := x ∈ Rs : xs ∈ [0, ε]. Dann gilt:
P[S∗n ∈ A|N∗
n ∈ [0, ε]] =P[Y ∗
n ∈ OtA ∩ Uε]P[Y ∗
n (s) ∈ [0, ε]]→
n→∞N (0, 1)⊗s(OtA|Uε) =: qε
Dann ist
qε =1
N (0, 1)([0, ε])
ε∫
0
1√2πe−
r2
2 N (0, 1)⊗(s−1)(x ∈ Rs−1 : (x, r) ∈ OtA)︸ ︷︷ ︸r→0→ Nρ(A)
drε→0→ Nρ(A).
Demnach lim inf qn,m ≥ Nρ(A), analog fur lim sup.
61
11.1.2. Korollar:
Unter Pρ gilt:s∑
i=1
(h∗n(i))2 = Dn,ρ
v→n→∞
χ2s−1,
denn
Pρ
[s∑
i=1
(h∗n(i))2 ≤ c
]= Pρ[h
∗n ∈ x ∈ Rs : ||x||2 ≤ c]
→n→∞
Nρ(x : ||x||2 ≤ c) =(N (0, 1)⊗(s−1) ⊗ δ0
)(x ∈ Rs : ||x||2 ≤ c) = χ2
s−1([0, c]).
11.1.3. χ2-Anpassungstest
Zu α ∈ (0, 1) sei c = (1 − α)-Quantil von χ2s−1. Der Test von H0 : ϑ = ρ gegen H1 : ϑ 6= ρ mit
Ablehungsbereich Dn > c hat (asymptotisches) Niveau α.
Zuruck zu Mendel:
D556 = 0.47, χ23([0, 0.47]) = 0.075, der χ2-Test lehnt H0 nicht ab.
11.2. χ2-Test auf Unabhangigkeit:
Seien X1, X2, . . . unabhangige Werte in E = 1, . . . , a × 1, . . . , b =: A×B, a, b > 1Pϑ[X1 = (i, j)] = ϑ(i, j),
Θ = ϑ = (ϑ(i, j))i∈A,j∈B : ϑ(i, j) > 0,∑
i,j
ϑ(i, j) = 1
Marginalverteilungen:
ϑ(i, ·) :=∑
j∈Bϑ(i, j), ϑ(·, j) :=
∑
i∈Aϑ(i, j)
Θ0 := ϑ ∈ Θ : ϑ(i, j) = ϑ(i, ·)ϑ(·, j) ∀i, j= ϑ ∈ Θ : ϑ(i, j) = α(i) · β(j) fur W’keitsvektoren α auf A und β auf B
Betrachte nun
hn(i, j) = |1 ≤ k ≤ n : Xk = (i, j)|und berechne
Dn :=∑
i,j
hn(i, j) − n · 1nhn(i, ·) · 1
nhn(·, j)1nhn(i, ·) · hn(·, j)
=∑
i,j
hn(i, j) − 1nhn(i, ·) · hn(·, j)
1nhn(i, ·) · hn(·, j)
.
11.2.1. Satz:
Fur ϑ = α⊗ β ∈ Θ0, c > 0 gilt
Pϑ[Dn ≤ c] →n→∞
χ2(a−1)(b−1)([0, c]).
62
Beweis:
Sei s = a · b, r = (a− 1) · (b− 1), ϑ = α⊗ β
hn(i, j) :=hn(i, j) − 1
nhn(i, ·)hn(·, j)√1nhn(i, ·)hn(·, j)
,
somit Dn = ||hn||2.
Beweisidee:
h∗n,αβ :=
(hn(i, j) − nα(i)β(j)√
nα(i)β(j)
)
ij
≈ Nα⊗β unter Pα⊗β
(gemaß Satz 11.1.1)
Definiere:
hn(i, j) =hn(i, j) − 1
nhn(i, ·)hn(·, j)√nα(i)β(j)
,
sei
al = (al(i, j)) = (√α(i)δjl) =
√α(1)
0... 0√α(a)
,
wobei
√α(1)...√α(a)
der l-te Spaltenvektor von b-vielen Spalten ist.
und
bk = (bk(i, j)) = (√β(j)δki) =
0√β(1) . . .
√β(b)
0
Es gilt hn · al = 0, hn · bk = 0, M = span(al, bk, l = 1, . . . , b, k = 1, . . . , a)
Behauptung: dimM = a+ b− 1:
b∑
1
√β(l)al =
a∑
1
√α(k)bk = (
√α(i) ·
√β(j))i,j =: us,
also dimM ≤ a+ b− 1, zeige a1, . . . , ab, b1, . . . , ba−1 sind linear unabhangig.(Ubung)
L := orthogonales Komplement von M , hn ∈ L.Erganze us zu Orthonormalbasis ur+1, ur+2, . . . , . . . , us von M , diese zu Orthonormalbasisu1, . . . , us von Rs = L⊕M . Setze:
Oαβ :=
u1 . . . us| || |
ist orthogonal, Παβ = Oαβ
1. . .
10
. . .
0
Otαβ
63
wobei in der Diagonalen nur r-viele 1-er stehen, ist die Projektion auf L.
Zeige:∣∣∣∣∣∣hn − Παβh
∗n,αβ
∣∣∣∣∣∣ →n→∞
0 in Verteilung unter Pα⊗β .
Es gilt:
Παβh∗n,αβ(i, j) =
hn(i, j) + nα(i)β(j) − α(i)hn(·, j) − hn(i, ·)β(j)√nα(i)β(j)
,
denn rechte Seite ⊥al, bk, also rechte Seite ∈ L und h∗n − Rechte Seite ∈ span(al, bk) = L⊥.
(hn − Παβh∗n,αβ)(i, j) = ηAn (i) · ηBn (j),
wo ηAn (i) := n14√α(i)
( 1nhn(i, ·) − α(i)),ηBn (j) := n
14√β(j)
( 1nhn(·, j) − β(j)) und es gilt
ηAn (i), ηBn (j)V→
n→∞0 unter Pα⊗β
(mit ZGWS oder Cebysev-Ungleichung).
Wir wissen:
h∗n,αV→
n→∞Nα⊗β = (N (0, 1)⊗(s−1) ⊗ δ0) O−1
αβ
11.2.2. Korollar: χ2-Test auf Unabhangigkeit
Sei α ∈ (0, 1), c = (1−α)-Quantil von χ2(a−1)(b−1). Der Test von H0 : ϑ ∈ Θ0 gegen H1 : ϑ ∈ Θ \Θ0
mit Ablehungsbereich Dn > c hat asymptotisches Niveau α.
Bemerkung:
dim Θ = a · b− 1 und dim(Θ0) = a− 1 + b− 1. Es ist:
(a− 1)(b− 1) = ab− 1 − ((a− 1) + (b− 1)).
Das Schatzen der unbekannten Marginalverteilungen”verbraucht“ a+ b− 2 Freiheitsgrade.
Beispiel: Zulassungsstatistik der Berkeley-Kandidaten, Simpson-Paradoxon
Im Herbst 1973 haben sich an der Universitat Berkeley 12763 Kandidaten fur ein Studiumbeworben, davon 8442 Manner und 4321 Frauen. Es kam zu folgenden Zulassungszahlen:
Aufgenommen Abgelehnt
Manner 3738 4704
Frauen 1494 2827
Demnach betrug die Zulassungsquote bei den Mannern ca. 44%, bei den Frauen nur ca. 35%. Einχ2-Test auf Unabhangigkeit (mit R) zeigt, dass eine solche Unverhaltnismaßigkeit nur mitverschwindend kleiner Wahrscheinlichkeit durch
”reinen Zufall“ entsteht:
64
> berkeley <- matrix(c(3738,4704,1494,2827),nrow=2,byrow=TRUE)
> berkeley
[,1] [,2]
[1,] 3738 4704
[2,] 1494 2827
> chisq.test(berkeley)
Pearson’s Chi-squared test with Yates’ continuity correction
data: berkeley
X-squared = 110.8489, df = 1, p-value < 2.2e-16
Dieser Fall hat einiges Aufsehen erregt, er wurde u.A. diskutiert in P.J. Bickel, E.A. Hammel,J.W. O’Connell, Sex Bias in Graduate Admissions: Data from Berkeley, Science, 187, no. 4175,398–404 (1975). Bemerkenswerterweise verschwindet das Ungleichgewicht, wenn man dieZulassungszahlen nach Departments aufspaltet: Es stellt sich heraus, dass innerhalb derDepartments die Aufnahmewahrscheinlichkeiten nicht signifikant vom Geschlecht abhangen, abersich Frauen haufiger bei Departments mit (absolut) niedriger Aufnahmequote beworben haben alsManner – dies ist ein Beispiel fur das sogenannte Simpson-Paradox. Die genauen nachDepartments aufgeschlusselten Bewerber- und Zulassungszahlen sind leider nicht offentlichzuganglich (siehe aber Abb. 1 in Bickel et. al, loc. cit, fur eine grafische Aufbereitung der Daten,die den Simpson-Effekt zeigt). Bickel et. al demonstrieren das Phanomen mittels eineshypothetischen Beispiels:
Aufgenommen Abgelehnt
Department of machismathicsManner 200 200
Frauen 100 100
Department of social warfareManner 50 100
Frauen 150 300
GesamtManner 250 300
Frauen 250 400
65
12. Regression und das lineare Modell
12.1.”Einfache“ Regression:
Modell:
Seien Xk = γ0 + γ1 · tk +√vξk, k = 1, . . . , n unsere Beobachtungen (Zielvariablen), wo γ1, γ2 die
unbekannten Koeffizienten, t1, . . . , tn bekannte Werte (die Ausgangs- oder Regressorvariable) undξ1, . . . , ξn Storgroßen (mit E[ξi] = 0,Var(ξi) = 1), sowie v > 0 der Varianzparameter. (Wirnehmen dabei an, dass nicht alle ti identisch sind.)
Problem:
Anhand der Xi und ti auf γ0 und γ1 schließen.
Abbildung 12.1.: Ausgleichsgerade zu gegebenen Punkten
Vorschlag: Regressionsgerade via kleinste Quadrate
Fur γ =
(γ0
γ1
)und Realisierungen x1, . . . xn von X1, . . . , Xn sei
Fγ :=1
n
n∑
i=1
(xi − (γ0 + γ1 · ti))2
=1
n
∣∣X − (γ01 + γ1~t)∣∣2
wahle γ so, dass Fγ = minγFγ .
67
Bemerkung:
Die Abbildung γ 7→ Fγ ist glatt und lim|γ|→∞
Fγ = ∞.
0 =∂
∂γ0Fγ
= − 2
n
n∑
i=1
(Xi − (γ0 + γ1t))
und
0 =∂
∂γ1Fγ
= − 2
n
n∑
i=1
ti(Xi − γ0 − γ1t))
⇐⇒ γ0 + γ1M(t) = M(X) (1),
wo M(u) = 1n
n∑i=1
ui und
γ0M(t) + γ11
n
n∑
i=1
t2i =1
n
n∑
i=1
tiXi (2)
Weiter gilt:
(2) ⇐⇒ γ0M(t) + γ1(V (t) +M(t)2) = C(X, t) +M(X)M(t) (3),
mit V (t) = 1n
(n∑i=1
t2i
)−M(t)2 und C(X, t) = 1
n
(n∑i=1
tiXi
)−M(X)M(t)
Setze (1) in (3) ein:γ1 · V (t) = C(X, t)
12.1.1. Satz:
γ1 =C(X, t)
V (t), γ0 = M(X) − M(t)
V (t)C(X, t)
sind die eindeutig bestimmten kleinste-Quadrate-Schatzer fur γ. Sie sind erwartungstreueSchatzer fur γ.
Beweis:
Eindeutigkeit ist klar.Zur Erwartungstreue: Sei ϑ := (γ, v). Dann
Eϑ[γ1] =1
V (t)E
[1
n
n∑
i=1
tiXi −M(t)1
n
n∑
i=1
Xi
]
=1
V (t)E
[1
n
n∑
i=1
ti(γ0 + γ1ti +√vξi) −M(t)
1
n
n∑
i=1
(γ0 + γ1ti +√vξi)
]
=γ1V (t)
V (t)
68
und ebenso:
Eϑ[γ0] = Eϑ[M(X)]︸ ︷︷ ︸γ0+γ1M(t)
−M(t)
V (t)Eϑ
[1
n
n∑
i=1
ti(γ0 + γ1ti +√vξi) −M(t)
1
n
n∑
i=1
(γ0 + γ1ti +√vξi)
]
︸ ︷︷ ︸=M(t)
V (t)·γ1V (t)
Bemerkung:
(i) Die Regressionsgerade verlauft durch den Schwerpunkt (M(t),M(X))t der”Punktwolke.“
(ii) Der”Regressionsvektor“
γ0~1 + γ1~t = γ0
11...1
+ γ1 ·
t1t2...tn
ist die (orthogonale) Projektion auf L = span(~1,~t).
12.2. Das lineare Modell:
Szenario:
Sei n, s ∈ N, s < n, Parameter γ ∈ Rs, Varianzparameter v > 0,”Designmatrix“ (n× s)-Matrix A
mit Rang s, ξ1, . . . , ξn Storgroßen, E[ξi] = 0,Var(ξi) = 1, unkorreliert.Beobachtungen X = (X1, . . . , Xn)
t entsteht als
X = A · γ +√vξ.
Bemerkung:
Sei L = Aη : η ∈ Rs der Spaltenraum von A, ΠL : Rn → L die orthogonale Projektion auf L.Dabei gilt fur alle x ∈ Rn:
(i) ΠLx ∈ L und |x− ΠLx|2 ≤ minu∈L
|x− u|2
(ii) ΠLx ∈ L und x− ΠLx⊥L
(und ΠLx ist durch (i) und durch (ii) charakterisiert)
(ii)⇔(ii)’ ΠLx ∈ L und ut(x− ΠL) = 0 fur u aus einer Basis von L ⇐⇒ At(x− ΠLx) = 0
Bemerkung:
AtA ist invertierbar, und ΠL = A(AtA)−1At.
69
Beweis der Bemerkung:
Angenommen AtAc = 0 fur ein c ∈ Rs \ 0. Dann ist
|Ac|2 = ctAtAc = 0 im zu Rang(A) = s.
Weiterhin ist
A(AtA)−1Atx ∈ L, At(x−A(AtA)−1Atx) = Atx−Atx = 0 fur jedes x ∈ Rn.
12.2.1. Satz von Gauß-Markov
Die Storgroßen ξi erfullen E[ξi] = 0,Var(ξi) = 1 und seien unkorreliert. Dann gilt:
(i) Der kleinste Quadrate Schatzer γ = (AtA)−1AtX ist erwartungstreu fur γ.
(ii) Ist τ : Rs → R eine lineare Kenngroße von γ (d.h. τ(γ) = ctγ fur ein c ∈ Rs), dann istT := ctγ erwartungstreuer Schatzer fur τ(γ) und hat unter allen erwartungstreuen linearenSchatzern fur τ(γ) die kleinste Varianz.
(iii) V ∗ :=|X − ΠLX|2
n− s=
|X|2 − |ΠLX|2n− s
=|X −Aγ|2n− s
ist ein erwartungstreuer Schatzer fur die
Varianz v.
Beweis:
Sei ϑ = (γ, v).
(i)
Eϑ(γ1)...
Eϑ(γ1)
= Eϑ[γ]
= Eϑ[(AtA)−1AtX]
= (AtA)−1AtEϑ[X]︸ ︷︷ ︸=Aγ
= γ
(Beobachtung: ΠLX = A (AtA)−1AtX︸ ︷︷ ︸=γ
, also ist es der kleinste-Quadrate-Schatzer.)
(ii) Eϑ[T ] = ctEϑ[γ] = ctγ = τ(γ), also erwartungstreu fur τ(γ).
Sei a := A(AtA)−1c(∈ L). Zeige: T = atX.Klar, denn
ΠLa = a ⇐⇒ atΠL = at, Ata = c ⇒ atA = ct,
somit τ(γ) = ctγ = atAγ, τ(γ) = atA(AtA)−1AX = atX.
Sei S := btX irgendein linearer Schatzer mit Eϑ[S] = τ(γ) (∀ϑ = (γ, v)), alsobtAγ = Eϑ[b
tX] = τ(γ) = Eϑ[atX] = atAγ fur jedes γ ∈ Rs, d.h. (b− a)tu = 0 ∀u ∈ L,
70
( ⇐⇒ b− a⊥L), folglich ist a = ΠLb, insbesondere |a|2 ≤ |b|2.
Varϑ(S) − Varϑ(T ) = Eϑ[(bt (X −Aγ)︸ ︷︷ ︸√
vξ
)2 − (at (X −Aγ)︸ ︷︷ ︸√vξ
)2]
= vEϑ[btξξtb− atξξta]
= v(btEϑ[ξξt]︸ ︷︷ ︸
=In
b− atEϑ[ξξt]︸ ︷︷ ︸
=In
a)
= v(|b|2 − |a|2) ≥ 0
(iii) Sei u1, . . . , us eine Orthonormalbasis von L, erganze zu ONB u1, . . . un von Rn. Betrachte
die Matrix O :=
(u1 u2 . . . un| | . . . |
),ΠL = O
1 0. . .
10
. . .
0 0
Ot mit s Einsen in
der Diagonalen ist die Projektion auf L, η = Otξ.
Es ist
(n− s)V ∗ = |Aγ +√vξ − Πl(Aγ +
√vξ)|2
= v|ξ − ΠLξ|2
= v
∣∣∣∣∣∣∣∣∣∣∣∣∣∣
Oη −O
1 0. . .
10
. . .
0 0
OtO︸︷︷︸=In
η
∣∣∣∣∣∣∣∣∣∣∣∣∣∣
= v
∣∣∣∣∣∣∣∣∣∣∣∣∣∣
η −
1 0. . .
10
. . .
0 0
η
∣∣∣∣∣∣∣∣∣∣∣∣∣∣
= vn∑
k=s+1
η2k,
und
Eϑ[η2k] = Eϑ
∑
i,j
OikOjkξiξj
=
∑
i
OikOik =∑
i
OikOtki = (OOt)ii = 1.
12.3. Das normale lineare Modell:
Wir nehmen nun zusatzlich an, dass die ξi u.a., N (0, 1)-verteilt sind.
71
12.3.1. Verallgemeinerung des Satzes von Student
Im normalverteilten linearen Modell gilt unter P(γ,v):
(i) γ ∼ N (γ, v(AtA)−1)
(ii) n−sv V ∗ ist χ2
n−s-verteilt und unabhangig von γ.
(iii) 1v |A(γ − γ)|2 = 1
v |ΠLX −E(γ,v)[X]|2 ist χ2s-verteilt und ist unabhangig von V ∗, insbesondere:
|A(γ − γ)|2s · V ∗ ist Fishers,n−s-verteilt
(iv) H ⊂ L linearer Teilraum von L, dimH = r < s und Aγ ∈ H, dann ist 1v |ΠLX − ΠHX|
χ2s−r-verteilt und es ist unabhangig von V ∗, insbesondere ist
FH,L :=n− s
s− r
|ΠLX − ΠHX|2|X − ΠLX|2 =
|Aγ − ΠHX|2(s− r)V ∗ Fishers−r,n−s-verteilt.
Bemerkung:
x
y
z
L
H
bX
b ΠLX
b
ΠHX
Abbildung 12.2.: Darstellung der Projektionen eines Punktes X im R3 auf H ⊂ L ⊂ R3, L istdabei die Ebene, die durch das Rechteck L dargestellt werden soll und H derUnterraum, der von der blauen Geraden aufgespannt wird.
Es gilt
|ΠLX − ΠHX|2 = |ΠLX|2 − |ΠHX|2 = |X − ΠHX|2 − |X − ΠLX|2 (Pythagoras)
und
|X − ΠLX|2 = |X|2 − |ΠLX|2.
72
Beweis des Satzes:
(i) γ ist s-dimensional normalverteilt; es gilt:
E(γ,v)[γ] = (AtA)−1A · E(γ,v)[X] = γ
undCov(γ) = (AtA)−1A · vIn ·At((AtA)−1)t = v(AtA)−1.
(ii) Sei o.B.d.A. u1, . . . , un eine ONB von Rn mit H = span(u1, . . . , ur), L = span(u1, . . . , us),O = (u1, . . . , un), η := Otξ, η ist N (0, 1)⊗n-verteilt.
n− s
vV ∗ =
1
v|Aγ +
√vξ − ΠL(Aγ +
√vξ)|2
= |ξ − ΠLξ|2
=n∑
i=s+1
η2i ∼ χ2
n−s
(iii)
1
v|ΠLX −Aγ|2 = |ΠLξ|2 =
s∑
i=1
η2i ∼ χ2
s
und ist unabhangig von V ∗.
(iv) 1v |ΠLX − ΠHX|2 = |ΠLξ − ΠHξ|2 =
s∑i=r+1
η2i ∼ χ2
s−r und unabhangig von V ∗.
12.3.2. Korollar: Konfidenzbereiche im normalverteilten linearen Modell
Sei α ∈ (0, 1).
(i) Cγ := γ ∈ Rs : |A(γ − γ)|2 < s · V ∗ · fs,n−s;1−α ist ein Konfidenzbereich fur γ zumSicherheitsniveau 1− α, wobei fs,n−s;1−α das (1− α)-Quantil der Fisherverteilung mit s undn− s Freiheitsgraden ist.
(ii) Sei τ(γ) = ctγ (c ∈ Rs) ein lineares Parametermerkmal.
Cτ = (ctγ − δ√V ∗, ctγ + δ
√V ∗),
wo δ =√ct(AtA)−1c · tn−s,1−α
2mit tn−s,1−α
2dem (1 − α
2 )-Quantil der Student’schenVerteilung mit n− s-Freiheitsgraden, ist ein Konfidenzintervall fur τ(γ) zumSicherheitsniveau α.
(iii) Cv := ( n−sχ2
n−s,1−α2
V ∗, n−sχ2
n−s, α2
V ∗) ist ein Konfidenzintervall fur v zum Sicherheitsniveau 1 − α.
Beweis:
(i) Mit |A(γ−γ)|2sV ∗ ∼ fs,n−s-verteilt X
(ii) Z := ctγ ∼ N (ctγ, vct(AtA)−1c), also ist Z∗ = Z−ctγ√vct(AtA)−1c
∼ N (0, 1) und somit
T :=Z∗√
V ∗v
∼ tn−s. Dann ist P(γ,v)[|T | ≤ tn−s,1−α2] = α.
73
(iii)
P(γ,v)
[v ∈ (
n− s
χ2n−s,1−α
2
,n− s
χ2n−s,α
2
)
]= P(γ,v)
[χ2n−s,α
2<n− s
vV ∗ < χ2
n−s,1−α2
]= 1 − α
12.3.3. Korollar: Tests im normalverteilten linearen Modell
Sei α ∈ (0, 1).
(i) (t-Test fur ctγ = m0, bzw. ≤ oder ≥)
Der Ablehnungsbereich
|ctγ −m0| > tn−s,1−α
2·√ct(AtA)−1cV ∗
definiert einen Test von H0 : ctγ = m0 gegen H1 : ctγ 6= m0 zum Irrtumsniveau α.
Analog definiert ctγ −m0
>< tn−s,1−α ·
√ct(AtA)−1cV ∗
einen (einseitgen) Test von H0 : ctγ≤≥ m0 gegen H1 : ctγ >
< m0.
(ii) Sei H ⊆ L linearer Unterraum, dimH = r < s,
FH,L :=n− s
s− r
|ΠLX − ΠHX|2|X − ΠL|2
.
Der Ablehnungsbereich
FH,L > fs−r,n−s;1−α
mit fs−r,n−s;1−α = (1 − α)-Quantil der Fishers−r,n−s-Verteilung definiert einen Test vonH0 : Aγ ∈ H gegen H1 : Aγ 6∈ H zum Niveau α.
(iii) Sei v0 > 0. Der Ablehnungsbereich
(n− s)V ∗ >< v0χ
2n−s,1−α
definiert einen Test von H0 : v≤≥ v0 gegen H1 : v >
< v0 zum Niveau α.
Beweis:
Wir betrachten exemplarisch (ii): Fur jedes γ ∈ H0, v > 0 ist FH,L unter P(γ,v)
Fishers−r,n−s-verteilt, demnach gilt
P(γ,v)[FH,L > fs−r,n−s,1−α] = α.
74
12.3.4. Beispiel: Polynomielle Regression
Seien t1, . . . , tn die (Werte der) Regressor-Variable, Xi = γ0 +d∑j=1
γjtji +
√vξi, s = d+ 1,
A =
1 t1 t21 . . . td1...
......
...
1 tn t2n . . . tdn
Auf der Website http://www.klimadiagramme.de finden sich u.A. dieDurchschnittstemperaturen in Karlsruhe im August in den Jahren 1800 bis 2007 (n = 206Beobachtungen, denn die Jahre 1854 und 1945 fehlen):
1.80 1.85 1.90 1.95 2.00
1618
2022
24
Mittlere Augusttemperatur in Karlsruhe
Jahr/1000
Tem
p
Grad 1Grad 2Grad 3
August-Durchschnittstemperaturen in Karlsruhe und Ausgleichspolynomet1(x) = 0.064x+ 16.804, t2(x) = 177.9x2 − 676.3x+ 660.8,
t3(x) = 1190x3 − 6618x2 + 12252x− 7532(ti ist jeweils das Polynom vom Grad ≤ i, das die quadratische Abweichung minimiert).
Um beispielsweise zu testen, ob (wenn man normalverteilte Fehlerterme unterstellt) derKoeffizient γ1 in t1(x) = γ1x+ γ0 signifikant von 0 verschieden ist, konnen wir Korollar 12.3.3verwenden: Es ist
AtA =
(1 . . . 1t1 . . . tn
)
1 t1...
...1 tn
=
(n
∑ti∑
ti∑t2i
), (AtA)−1 =
1
Var(ti)
(∑t2i
∑ti∑
ti1n
)
75
Dann ist c =
(01
), ct(AtA)−1c = 1
n·Var(ti)und
0.064 − 0√V ∗
(n·Var(ti))
≈ 0.614 < t206−2,1−0.01/2 = 2.60,
d.h. die Nullhypothese γ1 = 0 kann nicht zum Niveau α = 0.01 verworfen werden.
Siehe Abschnitt A.2 fur den zur Berechnung verwendeten R-Code.
12.4. Varianzanalyse:
Bemerkung: In der englischen Literatur ist das Akronym ANOVA=ANalysis Of VArianceublich.
Seien X1, . . . , Xn n Beobachtungen in s Gruppen (gem. s moglichen Werten eines”Faktors“).
n1 + . . .+ ns = n.Modell: Sei Xi,k die Beobachtung k in Gruppe i. Dann ist
Xi,k = mi +√vξi,k mit ξi,k u.i.v. ∼ N (0, 1)
(”Wortlicher“ Bezug zum linearen Modell:
X = (X1,1, X1,2, . . . , X1,n1 , X2,1, . . . , X2,n2 , . . . , Xs,1, . . . , Xs,ns), γ = (m1, . . . ,m2)t ∈ Rs,
Designmatrix: A =
1 0 . . . 0...
......
1 0 . . ....
0 1 . . ....
......
...... 1
...... 0 . . .
......
... 0...
... 1...
......
0 0 1
, wobei in der ersten Zeile n1 viele Einsen stehen und in Zeile
2 n2 viele Einsen stehen usw; L der Spaltenraum von A. Somit ist X = Aγ +√vξ mit
ξ ∼ N (0, 1)⊗n)
Es gilt:
(AtA) =
n1 0 . . . 0
0 n2. . .
......
. . .. . . 0
0 . . . 0 ns
und
AtX = (n1M1, . . . , nsMs)t
76
mit Mi = 1ni
ni∑k=1
Xi,k, γ = (AtA)−1AtX = (M1, . . . ,Ms)t,
V ∗ =1
n− s|X −Aγ|2
=1
n− s|X − (M1, . . . ,M1︸ ︷︷ ︸
n1
,M2, . . . ,M2︸ ︷︷ ︸n2
, . . . ,Ms, . . . ,Ms︸ ︷︷ ︸ns
)|2
=1
n− s
s∑
i=1
ni∑
k=1
(Xi,k −Mi)2
=s∑
i=1
ni − 1
n− sV ∗i
mit V ∗i = 1
ni−1
ni∑k=1
(Xi,k −Mi)2.
Schreibweise: V ∗iG := V ∗,
”Varianz innerhalb der Gruppen“
Bemerkung:”Streuungszerlegung“
Mit M := 1n
s∑i=1
ni∑k=1
Xi,k ist
V ∗tot :=
1
n− 1
s∑
i=1
ni∑
k=1
(Xi,k −M)2
=1
n− 1|X −M · 1|2
=1
n− 1(|X − ΠLX|2 + |ΠLX −M · 1|2),
also
(n− 1)V ∗tot = (n− s)V ∗
iG + (s− 1)V ∗zG
mit V ∗zG :=
1
s− 1
s∑
i=1
ni(Mi −M)2 =1
s− 1|ΠLX −M · 1|2 (
”Varianz zwischen den Gruppen“).
12.4.1. Satz: Konfidenzbereich fur γ = (m1, . . . ,ms)t
Fur α ∈ (0, 1) ist
C :=
m = (m1, . . . , ms) :
1
s
s∑
i=1
ni(mi −Mi)2 < V ∗
iG · fs,n−s;1−α
(wo fs,n−s;1−α = (1 − α)-Quantil der Fishers,n−s-Verteilung) ein Konfidenzbereich (oderKonfidenzellipsoid) zum Irrtumsniveau α.
77
Beweis:
P(γ,v)[γ ∈ C] = P(γ,v)
1s
s∑i=1
ni(γi −Mi)2
V ∗iG
< fs,n−s;1−α
= P(0,v)
1v1v
1s
s∑i=1
ni(Mi)2
V ∗iG
< fs,n−s;1−α
= 1 − α
12.4.2. Satz: F-Test auf Gleichheit der Gruppenmittelwerte
H = m · 1 : m ∈ R ⊂ L(⊂ Rn), (d.h. Aγ ∈ H ⇐⇒ m1 = m2 = . . . = ms).Der Ablehnungsbereich
V ∗zG > fs−1,n−s;1−αV
∗iG
definiert einen Test von H0 : m1 = . . . = ms gegen H1 : “nicht alle mi sind gleich“ zum Niveau α.
Beweis:
Sei v > 0, γ ∈ Rs mit Aγ ∈ H. Betrachte
V ∗zG
V ∗iG
=1s−1 |ΠLX − ΠHX|2
1n−s |X − ΠLX|2 , dies ist unter Pγ,v Fishers−1,n−s-verteilt.
12.4.3. Korollar: t-Test auf Gleichheit der Mittelwerte fur zwei ungepaarte(normalverteilte) Stichproben
Seien X1,1, . . . , X1,n1 u.i.v. ∼ N (m1, v), X2,1, . . . , X2,n2 u.i.v. ∼ N (m2, v) und
M1 = 1n1
n1∑k=1
X1,k,M2 = 1n2
n2∑k=1
X2,k,
V ∗iG =
1
n− 2
(n1∑
k=1
(X1,k −M1)2 +
n2∑
k=1
(X2,k −M2)2
).
Der Ablehnungsbereich
|M1 −M2|√( 1n1
+ 1n2
)V ∗iG
> tn−2,1−α2
(wo tn−2,1−α2
= (1 − α2 )-Quantil der Student’schen t-Verteilung mit n− 2 Freiheitsgraden)
definiert einen Test von H0 : m1 = m2 gegen H1 : m1 6= m2 zum Niveau α.
78
Beweis:
Es ist M = 1n1+n2
(∑n1i=1X1,i +
∑n2i=1X2,i
)= n1
n1+n2M1 + n2
n1+n2M2, also
V ∗zG = n1(M1 −M)2 + n2(M2 −M)2 = (M1−M2)2
1n1
+ 1n2
. Nach obigem ist
V ∗zG
V ∗iG
=(M1 −M2)
2
(1n1
+ 1n2
)V ∗iG
Fisher1,n−2-verteilt, und die”symmetrisch signierte“ Wurzel einer Fisher1,n−2-verteilten
Zufallsgroße ist tn−2-verteilt.
12.5. Zweifaktorielle Varianzanalyse
Modell: Es gibt 2 Faktoren mit s1 bzw. s2 ”Stufen“. Xi,j,k ist die k-te Beobachtung zur Stufe i des
ersten Faktors und Stufe j des 2. Faktors.
Xi,j,k = mi,j +√vξi,j,k, i ∈ 1, . . . , s1, j ∈ 1, . . . , s2, 1 ≤ k ≤ ni,j
(insgesamt: n =s1∑i=1
s2∑j=1
ni,j , s = s1 · s2).
m·,· =1
s
∑
i,j
mi,j ,mi,· =1
s2
s2∑
j=1
mi,j ,m·,j =1
s1
s1∑
i=1
mi,j
Schreibe mi,j = m·,· + αi + βj + γi,j mit αi = mi,· −m·,· (i-ter Zeileneffekt) und βj = m·,j −m·,·(j-ter Spalteneffekt), sowie γi,j = mi,j −mi,· −m·,j +m·,· (
”Wechselwirkungseffekt“ bei (i, j)) mit
Designmatrix A und ihrem Spaltenraum L.
12.5.1. Beispiel:
Sei H = Am′ : m′ ∈ Rs : m′i,j = m′
i,· +m′·,j, und wir nehmen an, dass nij = ℓ fur alle i, j.
(Ubung: (ΠHX)i,j,k = (Mi,j −Mi,· −M·,j +M·,·), i ∈ 1, . . . , s1, j ∈ 1, . . . , s2, 1 ≤ k ≤ ni,j)
Betrachte nun
|ΠLX−ΠHX|2 =
∑
i,j
ni,j(M·,·−Mi,·−M·,j)2 =: (s1·s2−(s1+s2−1))V ∗
zG1−2 = (s1−1)·(s2−1)V ∗zG1−2,
der Ablehnungsbereich V ∗zG1−2
V ∗iG
> f(s1−1)(s2−1),n−s1·s2;1−α
definiert einen Test fur H0 : γi,j ≡ 0 (keine Wechselwirkungseffekte) gegen H1 : γi,j 6≡ 0.
79
Teil II.
Finanzmathematik - MathematischeModelle und Methoden zur Bewertung
von Derivaten
81
13. Einfuhrung in die Finanzmathematik
Beispiele:
Eine Aktie habe heute den Wert S0 = 400 Euro, zu einem zukunftigen Zeitpunkt T gelte
ST =
500 Euro mit Wahrscheinlichkeit p = 1
2 ,
350 Euro mit Wahrscheinlichkeit 1 − p = 12
.
13.1. Europaische Call- und Put-Option
Eine europaische Call-Option auf die Aktie (mit Falligkeit (”maturity“) T ) und Ausubungspreis
(”strike“) K: Das Recht (aber nicht die Pflicht), zum Zeitpunkt T eine Aktie zum Preis K zu
kaufen.
Wert des Calls zum Zeitpunkt T :
CT = (ST −K)+
Analog: Europaische Put-Option, Wert zur Zeit T :
PT = (K − ST )+
Was ist der”faire“ Preis der Call-Option?
Beispiel: K = 440Euro.
”Naiver Ansatz“: E[CT ] = 1
260Euro + 120Euro = 30Euro
Beobachtung: (”Hedging strategy“)
Mit einem Startkapital von 20Euro kann man das Auszahlungsprofil der Call-Option replizieren.Zeit 0: Leihe 140 Euro, kaufe 0.4 Aktien (zahle dafur 0.4 · 400Euro = 20Euro + 140Euro)Zeit T : Wenn ST = 500Euro: Wert des Portfolios: 0.4 · 500Euro − 140Euro = 60EuroWenn ST = 350Euro: Wert des Portfolios: 0.4 · 350Euro − 140Euro = 0
Demnach ist der faire Preis π(C) = 20Euro, sonst gabe es eine Arbitrage-Moglichkeit in diesemMarkt.
Beobachtung:
π(C) = Ep∗[CT ] fur p∗ = 13 .
Betrache einen allgemeinen”contingent claim“ H mit Falligkeit T ,
HT =
Hb wenn ST = 500Euro
Ha wenn ST = 350Euro
83
Beobachtung:
π(H) = Ep∗ [HT ] = p∗Hb + (1 − p∗)Ha, denn betrachte folgende Handelsstrategie:
Zur Zeit 0 kaufe
Θ1 :=Hb −Ha
150EuroAktien
und verleihe
Θ0 = Hb − Hb −Ha
150Euro· 500Euro
Wert des Portfolios zur Zeit T :
Θ1ST + Θ0 =
Hb−Ha
150 500 +Hb − Hb−Ha
150 500 = Hb , wenn ST = 500EuroHb−Ha
150 350 +Hb − Hb−Ha
150 500 = Ha , wenn ST = 350Euro
Wert des Portfolios zur Zeit 0:
Θ1 · 400Euro + Θ0 =Hb −Ha
150· 400 +Hb − Hb −Ha
150500 =
1
3Hb +
2
3Ha = Ep∗ [HT ] = π(H)
Beobachtung:
Ep∗ [ST1 ] = 1
3500Euro + 23350Euro = 400Euro = S0
1Das Wahrscheinlichkeitsmaß P ∗ heißt auch
”risikoneutrales Maß“ oder
”Aquivalentes
Martingalmaß“.
13.2. Binomialmodell:
(i) Eine Periode:Handelszeitpunkte T = 0, 1.Wertpapiere:
• Bankkonto mit Zinssatz r ≥ 0:
S00 = 1, S0
1 = (1 + r)
• risikobehaftetes Wertpapier:
S10 fest, S1
1 ZV mit P[S11 =
Sb
︷ ︸︸ ︷S1
0(1 + b)] = p = 1 − P[S11 =
Sa
︷ ︸︸ ︷S1
0(1 + a)]
Wir nehmen an, dass a < r < b, denn wenn r < mina, b oder r > maxa, b, so gibtes Arbitrage im Modell.
Portfolio:
Θ0t := Betrag auf Bankkonto im Intervall (t− 1, t]
Θ1t := Einheiten der risikobehafteten Anlage im Intervall (t− 1, t]
84
Wertprozess: V0 = Θ01 · S0
0 + Θ11S
10 , Vt = Θ0
tS0t + Θ1
tSt, (t≥= 1)
Betrachte einen contingent claim H mit H1 =
Ha wenn S1
1 = S10(1 + a),
Hb wenn S11 = S1
0(1 + b).
Gesucht: Hedging-Strategie und fairer Preis π(H) := V0 (Wert zur Zeit t = 0 des replizierendenPortfolios).
Hb = (1 + r)V0 + Θ11((1 + b)S1
0 − (1 + r)S10)
Ha = (1 + r)V0 + Θ11((1 + a)S1
0 − (1 + r)S10)
Dann
Θ11 =
Hb −Ha
(b− a)S10
=Hb −Ha
(b− a)S10
”Delta“
Hb = (1 + r)Θ01 +
Hb −Ha
(b− a)S10
(1 + b)S10 ⇒ Θ0
1 =1
1 + r
(1 + b)Ha − (1 + a)Hb
b− a
V0 =1
1 + r
H
a b− r
b− a︸ ︷︷ ︸1−p∗
+Hb · r − a
b− a︸ ︷︷ ︸=:p∗
=
1
1 + rEp∗ [H1] = Ep∗ [
H1
S01
]
13.2.1. Mehrperioden-Binomialmodell (CRR(=Cox-Ross-Rubinstein)-Modell (1979))
Sei T = 0, 1, . . . , T und es gebe zwei Wertpapiere:
(i) S0t = (1 + r)t
(ii) S1t = S1
0 ·X1 · · ·Xt, wo X1, . . . , XT unabhangig mit P[Xi = 1 + b] = p = 1 − P[Xi = 1 + a]mit −1 < a < r < b und 0 < p < 1
Sei Ft = σ(Siu, 1 ≤ u ≤ t, i ∈ 0, 1)(= σ(X1, . . . , Xt)). Es gilt Ft ⊂ Ft+1, d.h. die Familie(Ft)t=0,...,T ist eine Filtration.
Gegeben: Eine europaische Option H mit Falligkeit T und Basiswertpapier S1, d.h. HT = f(S1T ).
Gesucht: Fairer Preis, zugehorige selbstfinanzierende Replikationsstrategie.
Unter dem Maß Q sei X1, . . . , XT unabhangig verteilt mit
Q[Xi = 1 + b] = p∗ = 1 − Q[Xi = 1 + a], p∗ :=r − a
b− a.
Q heißt”aquivalentes Martingalmaß“ oder
”risikoneutrales Maß“.
13.2.2. Beobachtung:
EQ
[S1t+1
S0t+1
∣∣∣∣Ft
]= EQ
[S1
0X1 · · ·Xt+1
(1 + r)S0t
∣∣∣∣Ft
]=S1
0X1 · · ·Xt
S0t
=1
︷ ︸︸ ︷EQ
[Xt+1
(1 + r)
∣∣∣∣Ft
]=S1t
S0t
,
1 1r+1
· ( r−ab−a
(1 + b) + b−rb−a
(1 + a)) = r+rb−a−ab+b+ab−r−ra(1+r)(b−a)
= 1
85
d.h.
(S1t
S0t
)
t=0,1,...,T
ist (Q, (Ft))-Martingal.
Sei Ht der Wert der Option zur Zeit t ≤ T (Schreibe Hx1,...,xtt fur den Wert auf
X1 = x1, . . . , XT = xt).Notiere Portfolio folgendermaßen:Θ1t . . . Anzahl S1, die im Intervall (t− 1, t] gehalten werden,
Θ0t . . . Anzahl S0, die im Intervall (t− 1, t] gehalten werden.
Dann ist
Vt = Θ1tS
1t + Θ0
tS0t (notiere V0 = Θ1
1S10 + Θ0
1S00)
der Wert des Portfolios zur Zeit t.
Es soll die sogenannte”Selbstfinanzierungsbedingung“ gelten:
Θ1t+1S
1t + Θ0
t+1S0t = Vt = Θ1
tS1t + Θ0
tS0t , t = 1, . . . , T − 1,
d.h. wahrend der Laufzeit der Option wird dem Portfolio weder Kapital entnommen nochzugefuhrt.
Die Strategie soll pravisibel sein, d.h. Θ0t ,Θ
1t sind Ft−1-messbar — die Investitionsentscheidungen
uber das Zeitintervall (t− 1, t] mussen zum Zeitpunkt t− 1 getroffen werden, ohne”Blick in die
Zukunft“.
13.2.3. Satz:
Im CRR-Modell giltHt
S0t
= EQ
[HT
S0T
∣∣∣∣Ft
], (t = 0, . . . , T ),
die zugehorige (selbstfinanzierende) duplizierende Handelsstrategie hat folgende Form (auf demEreignis X1 = x1, . . . , Xt−1 = xt−1):
Θ1t =
Hx1,...,xt−1,1+bt −H
x1,...,xt−1,1+at
(b− a)S1t−1
,Θ0t =
1
1 + r
(1 + b)Hx1,...,xt−1,1+bt − (1 + a)H
x1,...,xt−1,1+at
(b− a)S0t−1
.
Beobachtung:
EQ
[Ht+1
S0t+1
∣∣∣∣Ft
]= EQ
[EQ
[HT
S0T
∣∣∣∣Ft
]∣∣∣∣Ft
]= EQ
[HT
S0T
∣∣∣∣Ft
]=Ht
S0t
,
d.h. (Ht/S0t )t=0,1,...,T ist ein Q-Martingal.
Beweis des Satzes
Beweis durch Ruckwartsinduktion:Zum Zeitpunkt T − 1, auf dem Ereignis X1 = x1, . . . , XT−1 = xT−1 handelt es sich um ein
”1-Perioden-(Binomial-)Modell“ (schlage Formeln vom letzten Modell nach).
Angenommen die Behauptung gilt fur t, t+ 1, . . . , T − 1: Fasse Ht = Ht als Claim in einem1-Perioden-Modell (von t− 1 nach t) auf.
86
Auf X1 = x1, . . . , Xt−1 = xt−1: Kaufe
Θ1t :=
HX1,...,Xt−1,1+bt −H
X1,...,Xt−1,1+at
(b− a)S1t−1
viele Einheiten S1 und
Θ1t :=
1
r + 1
(1 + b)HX1,...,Xt−1,1+at − (1 + a)H
X1,...,Xt−1,1+bt
(b− a)S0t−1
viele Einheiten von S0.Wert dieses Portfolios zur Zeit t:
• Falls S1t = S1
t−1 · (1 + b):
Vt
= S1t−1(1 + b)
HX1,...,Xt−1,1+bt −H
X1,...,Xt−1,1+at
(b− a)S1t−1
+S0t−1(1 + r)
(1 + b)HX1,...,Xt−1,1+at − (1 + a)H
X1,...,Xt−1,1+bt
(b− a)S0t−1
=(1 + b)H
X1,...,Xt−1,1+bt − (1 + b)H
X1,...,Xt−1,1+at + (1 + b)H
X1,...,Xt−1,1+at − (1 + a)H
X1,...,Xt−1,1+bt
b− a
= HX1,...,Xt−1,1+bt .
• Ebenso falls S1t = S1
t−1 · (1 + a): Vt = HX1,...,Xt−1,1+at .
Aus den Ergebnissen des Ein-Perioden-Modells folgt daruberhinaus, dass
HX1,...,Xt−1
t−1 =1
1 + rEQ
[Ht
∣∣Ft−1
].
Zur Selbstfinanzierungs-Bedingung: Wir mussen zeigen, dass
Θ1t+1S
1t + Θ0
t+1S0t
!= Vt = Θ1
tS1t + Θ0
tS0t .
Rechte Seite =Ht (denn das Portfolio repliziert die Option H).Die linke Seite ist
1 + r
1 + r
HX1,...,Xt−1,Xt,1+bt −H
X1,...,Xt−1,Xt,1+at
(b− a)S1t
S1t
+1
1 + r
(1 + b)HX1,...,Xt−1,Xt,1+at − (1 + a)H
X1,...,Xt−1,Xt,1+bt
(b− a)S0t
S0t
=1
1 + r
(r − a)HX1,...,Xt−1,Xt,1+bt + (b− r)H
X1,...,Xt−1,Xt,1+at
b− a
=1
1 + rEQ
[Ht+1
∣∣Ft
],
was nach Induktionsvoraussetzung = Ht ist.
87
13.2.4. Beispiel: Europaische Call-Option
CT = (S1T −K)+, S1
T = S10(1 + b)N (1 + a)T−N , wo N = |i ≤ T : Xi = 1 + b|, unter Q ist N
Bin(T, p∗)-verteilt.Sei A = minn ∈ Z : S1
0(1 + b)n(1 + a)T−n > K.
1
(1 + r)TEQ
[(S1
0(1 + b)N (1 + a)T−N −K)+]
=1
(1 + r)T
T∑
n=A
(T
n
)(p∗)n(1 − p∗)T−n(S1
0(1 + b)n(1 + a)T−n −K)
= S01Bin(T, p′)(A,A+ 1, . . . , T) − 1
(1 + r)TK ·Bin(T, p∗)(A, . . . , T)
mit p′ =p∗(1 + b)
1 + r
13.2.5. Bemerkung: Call-Put-Paritat
CT = (S1T −K)+, PT = (K − S1
T )+, also CT − PT = S1T −K, d.h. fairer Preis ware:
π(CT − PT ) = π(CT ) − π(PT ) = π(S1T −K) = S1
0 − (1 + r)−TK.
(Der Vertrag mit Auszahlungsprofil S1T −K heißt
”Forward“.) Demnach bestimmt der Preis des
europaischen Calls den des Puts mit demselben Ausubungspreis und umgekehrt.
13.3. Black-Scholes-Formel
(Fisher Black, Merton Scholes 1973, Robert Merton 1973; Merton und Scholes haben fur dieseArbeiten 1997 den Nobelpreis fur Wirtschaftswissenschaften erhalten.)
Sei T der Zeithorizont, N · T die Anzahl der Handelsperioden (i-te Periode entspricht
”Realzeitintervall“ ( (i−1)
N , iN )), r die instantane Zinsrate ≥ 0
rN := rN , aN := − σ√
N, bN := σ√
N, pN := 1
2 + 12
µ
σ√N
, wo σ > 0 die”Volatilitat“, µ ∈ R der
”Renditeparameter“, S1
0 sei fest gegebener Wert.
Beobachtung:
S0NT,N = (1 + rN )NT =
(1 +
r
N
)NT−→N→∞
erT
88
Betrachte
S1tN,N = S1
0 ·tN∏
i=1
X(N)i fur tN ∈ N0
= S10 ·
tN∏
i=1
(1 +R(N)i )(N)mit R
(N)i = X
(N)i − 1 =
S1i,N − S1
i−1,N
S1i−1,N
”Rendite der Aktie uber das i-te Handelsintervall
((i− 1)
N,i
N
)“
= S10 exp
(tN∑
i=1
log(1 +R(N)i )
)
Beobachtung:
R(N)i =
σ√N
mit Wahrscheinlichkeit 12 + 1
2µ
σ√N
− σ√N
mit Wahrscheinlichkeit 12 − 1
2µ
σ√N
und log(1 + r) = r − 12r
2 +O(r3) fur r aus einer Umgebung der 0, also
log
(S1tN,N
S10
)=
Nt∑
i=1
(R
(N)i − 1
2(R
(N)i )2
)+ RestN,t
mit
|RestN,t| ≤C√N
fur eine Konstante C.
Es gilt
E[R(N)i ] =
1
2
(1 +
µ
σ√N
)σ√N
+1
2
(1 − µ
σ√N
) −σ√N
=µ
N
und
E[(R(N)i )2] =
σ2
N, Var(R
(N)i ) =
σ2
N− µ2
N2,
also
E
[R
(N)i − 1
2(R
(N)i )2
]=µ− 1
2σ2
N,
Var
(R
(N)i − 1
2(R
(N)i )2
)= Var(R
(N)i ) =
σ2
N− µ2
N2.
Demnach konvergiert S1⌊Nt⌋,N in Verteilung gegen
S10 exp
(σBt + t(µ− 1
2σ2)
),
wo Bt ∼ N (0, t)
Es gilt
p∗N =rN − aNbN − aN
=
rN + σ√
N2σ√N
=1
2+
1
2
r
σ√N.
89
Demnach konvergiert unter P∗N mit N → ∞
S1NT,N
d→ S10 exp
(σBT +
(r − σ2
2
)T
),
wobei BT ∼ N (0, T )
13.3.1. Satz:
f : R → R stetiges, beschranktes Auszahlungsprofil einer Option HT,N = f(S1NT,N ).
Die Folge πN (HT,N ) der fairen Preise konvergiert gegen
e−rT ·∞∫
−∞
f(S1
0eσ√Ty+rT− 1
2σ2T) 1√
2πe−
y2
2 dy.
13.3.2. Korollar: Black-Scholes-Formel fur den Preis eines Calls
f(s) = (s−K)+,
v(x, T ) = e−rT∞∫
−∞
(xeσ√Ty+rT− 1
2σ2T −K)+ · 1√
2πe−
y2
2 dy
= xΦ(d+(x, T )) − e−rTKΦ(d−(x, T ))
mit d−(x, T ) =log x
K + (r − 12σ
2)T
σ√T
, d+(x, T ) = d−(x, T ) + σ√T =
log xK + (r + 1
2σ2)T
σ√T
und Φ die
Verteilungsfunktion von N (0, 1).
Bemerkung: Das Auszahlungsprofil des Calls ist nicht beschrankt. Um Satz 13.3.1 wortlichanzuwenden, betrachte zunachst den entsprechenden Put, dessen Auszahlungsprofil beschranktist, und benutze dann die Call-Put-Paritat.
13.4. Fundamentalsatz der Preistheorie (in endlichen Markten)
13.4.1. Marktmodell
Sei (Ω,F ,P) ein Wahrscheinlichkeitsraum mit |Ω| <∞, T = 0, 1, . . . , T eine endliche Mengevon Handelszeiten und (Ft)t∈T die zugehorige Filtration, d.h. Ft ⊂ Ft+1 undF0 = ∅,Ω,FT = F . Weiter seien S0, S1, . . . , Sd die d+ 1 Wertpapiere mit Sit = Wert des i-tenWertpapiers zur Zeit t, welches positive Ft-messbare Zufallsvariablen sind, d.h. (Sit)t∈T ist(Ft)t∈T-adaptiert.
S0t sei > 0 und deterministisch (eine risikolose Anlage).
Betrachte
Sit :=
SitS0t
(”diskontierte“ Preise).
Wir benutzen S0 als”Numeraire.“
90
Handelsstrategien: Ein stochastischer Prozess
(Θt)t=1,...,T =((Θi
t)t=1,...,T , i = 0, . . . , d)
ist eine Handelsstrategie, wenn Θit Ft−1-messbar ist (fur i = 0, . . . , d; t = 1, . . . , T ). Man
nennt((Θi
t)t=1,...,T , i = 0, . . . , d)
dann pravisibel.
Interpretation: Halte Θit Einheiten von Wertpapier i uber das Intervall (t− 1, t].
Wertprozess: Vt(Θ) = 〈Θt, St〉 =d∑i=0
ΘitSit , t = 1, . . . , T mit V0(Θ) = Θ1 · S0
Zugewinnprozess: G0(Θ) = 0 und Gt(Θ) =t∑
n=1〈Θn,∆Sn〉 mit ∆Sn = Sn − Sn−1
13.4.2. Definition: selbstfinanzierend
Eine Handelstrategie heißt selbstfinanzierend, wenn
Vt(Θ) = V0(Θ) +Gt(Θ) ∀t ∈ T
gilt. Sei W die Menge der selbstfinanzierenden Handelsstrategien.
Bemerkung:
(i) W ist ein Vektorraum.
(ii) Θ ∈W ⇐⇒ 〈∆Θt, St−1〉 = 0 ∀t ∈ 1, . . . , T⇐⇒ 〈∆Θt, St−1〉 = 0 ∀t ∈ 1, . . . , T
(iii)
V t(Θ) =Vt(Θ)
S0t
= Θ0t +
d∑
i=1
ΘitSit = V 0(Θ) +
t∑
s=1
d∑
i=1
Θis∆S
is,
also ist
Θ0t = V 0(Θ) +
t∑
s=1
d∑
i=1
Θis∆S
is −
d∑
i=1
ΘitSit,
d.h. fur eine selbstfinanzierende Handelsstrategie genugt es, V0(Θ) und Θ1, . . . ,Θd
festzulegen.
Beweis der Bemerkung:
Zu (ii):
〈∆Θt, St−1〉 =d∑
i=0
(Θit − Θi
t−1)Sit−1
=d∑
i=0
Θit(S
it − Sit + Sit−1) −
d∑
i=0
Θit−1S
it−1
= Vt(Θ) − ∆Gt(Θ) − Vt−1(Θ)
91
13.4.3. Definition: (duplizierbarer) Claim, Hedge, vollstandiges Marktmodell,Arbitrage
Eine Zufallsvariable H auf (Ω,F ,P), aufgefasst als Auszahlung zum Zeitpunkt T heißt ein Claim.
H heißt duplizierbar (replizierbar, “attainable“), wenn es Θ ∈W gibt mit VT (Θ) = H.
Ein solches Θ heißt ein Hedge fur H.
Ein Marktmodell heißt vollstandig, wenn jedes H duplizierbar ist.
Eine Arbitragemoglichkeit ist eine selbstfinanzierende Handelsstrategie mit V0(Θ) = 0, VT (Θ) ≥ 0und P[VT (Θ) > 0] > 0 Ein Markt(-modell) heißt arbitragefrei, wenn es keineArbitragemoglichkeiten gibt.
Ist H ein Claim, (Ht)t∈T ein adaptierter stochastischer Prozess mit HT = H, so dass der umSd+1t := (Ht) erweiterte Markt arbitragefrei ist, so heißt (Ht) (ein) Arbitragepreisprozess fur H,π((H)t) := H0 ein Arbitragepreis.
Beobachtung:
Sei der Markt arbitragefrei und Θ ∈W mit VT (Θ) = 0. Dann gilt Vt(Θ) = 0 ∀t ∈ T.
Beweis der Beobachtung:
Angenommen es gabe ein t ∈ T und ein c < 0, so dass P[Vt(Θ) = c] > 0, dann beobachte denMarkt bis t und steige in den Markt ein, sofern Vt(Θ) = c, verfolge dann Θ bis T . Dies ergibt
dann den sicheren Gewinn (−c) · S0T
S0t, im Widerspruch zur angenommenen Arbitragefreiheit.
Analog, wenn c > 0: Verfolge Θ′ = −Θ.
13.4.4. Korollar:
In einem arbitragefreien Markt ist der Arbitrageprozess eines replizierbaren Claims H eindeutigfestgelegt (als Wertprozess des Hedge).
13.4.5. Definition: Aqiuvalentes Martingalmaß
Ein Wahrscheinlichkeitsmaß Q auf (Ω,F ) heißt ein aquivalentes Martingalmaß , wenn P ∼ Q,
d.h. P[ω] > 0 ⇐⇒ Q[ω] > 0 ∀ω ∈ Ω in diesem Kontext, und jedes (Sit)t∈R ein Q-Martingal
ist, i = 0, 1, . . . , d.
P∗ := Q : Q ist aquivalentes Martingalmaß
13.4.6. Beobachtung:
Sei Q ∈ P∗,Θ ∈W , dann ist (V t(Θ))t∈T ein Q-Martingal, denn
EQ[V t(Θ) − V t−1(Θ)|Ft−1] = EQ
[d∑
i=0
Θit(S
it − S
it−1)
∣∣∣∣∣Ft−1
]=
d∑
i=0
ΘitEQ
[Sit − S
it−1
∣∣∣Ft−1
]
︸ ︷︷ ︸=0
= 0
92
13.4.7. Fundamentalsatz der Preistheorie:
Das Marktmodell ist arbitragefrei ⇐⇒ |P∗| ≥ 1.
Das Marktmodell ist arbitragefrei und vollstandig ⇒ |P∗| = 1.
Beweis:
Sei Q ∈ P∗, Θ selbstfinanzierende Handelsstrategie mit VT (Θ) ≥ 0 und P[VT (Θ) > 0] > 0.
Dann gilt Q[VT (Θ) > 0] > 0 und V0(Θ)S0
0= EQ[VT (Θ)
S0T
] > 0, d.h. es gibt keine Arbitragemoglichkeit.
Sei der Markt arbitragefrei:Betrachte U := V T (Θ) : Θ ∈W,V0(Θ) = 0 ⊆ L 2(Ω,F ,P) (∼= R|Ω|),C := X ∈ L 2(Ω,F ,P) : X ≥ 0,E[X] = 1.Beobachtung: U ist ein Untervektorraum, C ist konvex und kompakt als Teilmenge von R|Ω|. AusArbitragefreiheit folgt: U ∩ C = ∅.Nach dem Trennungssatz2 gibt es X ∈ L 2(Ω,F ,P) mit 〈X,G〉 = 0 ∀G ∈ U und 〈X,Y 〉 > 0 furY ∈ C.
Sei A ∈ F (mit P[A] > 0), 1AP[A] ∈ C, also 〈X, 1A
P[A]〉 = 1P[A]E[X · 1A] > 0, d.h. X > 0.
Setze Q[A] := 1E[X]E[X · 1A], es ist Q ∼ P.
Sei A ∈ Ft, i ∈ 1, . . . , d, betrachte selbstfinanzierende Handelsstrategie Θ mitΘis = 1A1s>t,Θ
js ≡ 0, j ∈ 1, . . . , d \ i.
V T (Θ) − V t(Θ) = 1A(SiT − S
it) ∈ U,
demnach
0 = 〈X,V T (Θ) − V t(Θ)〉= E[X · (V T (Θ) − V t(Θ))]
= E[X · 1A(SiT − S
it)]
= E[X] · EQ[1A(SiT − S
it)],
d.h. unter Q sind die SiMartingale.
Sei der Markt nun arbitragefrei und vollstandig.Sei A ∈ F ,1A ist ein duplizierbarer Claim; also sei Θ eine selbstfinanzierende Handelsstrategiemit VT (Θ) = 1A.
Seien Q,Q′ ∈ P∗.V0(Θ)
S00
= EQ
[VT (Θ)
S0T
]=
1
S0T
Q[A]
2In diesem endlich-dimensionalen Kontext kann man leicht folgendermaßen argumentieren: Sei πU : R|Ω| → U dieorthogonale Projektion, dann ist πU (C) kompakt, und es gibt c0 ∈ C, so dass mit u0 := πU (c0) gilt
inf|u − c| : c ∈ C, u ∈ U = |u0 − c0| > 0.
Dann gilt fur X := c0 − u0 (6= 0) : 〈X, u〉 = 〈c0, u〉 − 〈πU (c0), u〉 = 0 fur alle u ∈ U ; fur c ∈ C und λ ∈ [0, 1] istc0 + λ(c − c0) ∈ C (Konvexitat), somit |u0 − (c0 + λ(c − c0))| ≥ |u0 − c0| > 0. Also
0 ≤d
dλ|λ=0|u0 − (c0 + λ(c − c0))|
2 = −2〈u0 − c0, c − c0〉 = 2〈X, c − c0〉,
folglich 〈X, c〉 ≥ 〈X, c0〉 = 〈X, c0 − u0〉 = 〈X, X〉 = |X|2 > 0 fur jedes c ∈ C.
93
Aber auchV0(Θ)
S00
= EQ′
[VT (Θ)
S0T
]=
1
S0T
Q′[A],
also Q = Q′.
Bemerkung und Beispiel:
Sei Ω = 1, 2, 3, S00 = S0
1 = 1, S10 = 1, S1
1 = si auf Atom i, mins1, s2, s3 < 1 < maxs1, s2, s3.Dieses Modell ist arbitragefrei, aber nicht vollstandig (und es gibt viele aquivalenteMartingalmaße).
94
14. Exkurs: Stochastische Integration
14.0.8. Definition: Stochastischer Prozess
Sei (Ω,F ,P) ein Wahrscheinlichkeitsraum, (Ft)t≥0 eine Filtration.Eine Familie (Xt)t≥0 von (reellwertigen) Zufallsvariablen heißt ein stochastischer Prozess.Wir wollen annehmen, dass die betreffenden Prozesse (P-fast-sicher) cadlag-Pfade (continue adroite, limite a gauche) haben.
∀t ≥ 0 : limhց0
Xt+h = Xt, ∀t > 0 : limhց0
Xt−h =: Xt− existieren.
Solche Prozesse nennen wir regular. Sei X = (Xt)t≥0 heißt ((Ft)-)adaptiert , wenn Xt Ft-messbar∀t ≥ 0. Eine Zufallsvariable τ mit Werten in [0,∞] heißt ((Ft)-)Stoppzeit, wenn τ < t ∈ Ft
∀t ≥ 0.Fur eine Stoppzeit τ heißt
F [τ ] = A ∈ F : A ∩ τ < t ∈ Ft ∀t ≥ 0
die τ -Vergangenheit.
Bemerkung:
Ist X adaptiert und τ eine Stoppzeit, so ist auch (Xmint,τ)t≥0 adaptiert.
Seien τ1, . . . , τk Stoppzeiten und L1, . . . , Lk die Sprunglevel; Li sei F [τi]-messbar.
Fur einen regularen Prozess Y = (Yt)t≥0 der Gestalt Yt =k∑i=1
Li1τi≤t und einen adaptierten
regularen Prozess X definieren wir einen stochastischen Prozess via
t∫
0
Y−dX :=k∑
i=1
Li(Xt −Xmint,τi) =k∑
i=1
Li1τi<t(Xt −Xτi), t ≥ 0.
Wir nennen dies ein elementares stochastisches Integral.
14.0.9. Bemerkung:
(i)
(t∫0
Y−dX
)
t≥0
ist ein adaptierter, regularer stochastischer Prozess.
(ii) Fur (etwaige) Sprunge gilt:
∆
·∫
0
Y−dX
t
=
t∫
0
Y−dX −t−∫
0
Y−dX = Yt−(Xt −Xt−) = Yt−∆Xt
95
(iii) Wir schreiben Ht = Yt− fur die linksstetige Version von Y .
(iv)”kanonische“ Darstellung eines adaptierten linksstetigen H mit hochstens k Sprungen:τ0 := 0, τi := inft > τi−1 : Ht 6= Hτi−1, i = 1, 2, . . . , k (τk+1 = ∞),
Ht =k∑i=0
Hτi+1τi<t≤τi+1. Das stochastische Integral∫HdX hat dann die Gestalt
t∫
0
HdX :=∑
i
Hτi+(Xminτi+1,t −Xminτi,t).
Definition:
Fur f, g : [0,∞) → R sei dlg(f, g) = infε > 0 : |f(t) − g(t)| ≤ ε ∀t ≤ 1ε, dies ist metrisiert die
lokal gleichmaßige Konvergenz.
Wir schreiben Xn stochastisch→ X, wenn P[dlg(Xn, X) > ε]
n→∞→ 0 ∀ε > 0
14.0.10. Lemma:
Das elementare stochastische Integral ist wohldefiniert und linear (in Y ).
Beweis:
Linearitat ist klar, fur die Wohldefiniertheit genugt es zu zeigen:
Sei Yt− = Ht =k∑i=1
Li1τi<t = 0 ∀t ≥ 0, dann gilt aucht∫0
HdX = 0.
Betrachtet∫
0
HdX = Yt︸︷︷︸=0
Xt −k∑
i=1
LiXτi1τi≤t
ist konstant bis auf hochstens k Sprunge, die aufgrund von Bemerkung (ii) die Hohe 0 haben
mussen, wegen0∫0
HdX = 0, alsot∫0
HdX = 0 ∀t ≥ 0.
Beobachtung:
Jeder adaptierte linksstetiger Prozess H kann durch eine Folge von elementaren Integrandenapproximiert werden: Sei εn > 0 eine Nullfolge,
τ(n)0 := 0, inft > τ
(n)i : |Ht+ −H
τ(n)i +
| > εn =: τ(n)i+1, kn ∈ N so groß, dass P[τ
(n)kn
≥ 1εn
] ≤ εn.
Die Folge der approximierenden Prozesse:
Hnt :=
kn−1∑
i=0
Hτ(n)i +
1τ (n)i <t≤τ (n)
i+1
erfulltsupt<τ
(n)kn
|Hnt −Ht| ≤ εn,
demnachHn stoch.→ H.
96
Bemerkung / Erinnerung:
Sind X1, X2, . . . , X reelle Zufallsvariablen auf (Ω,F ,P), dann gilt Xn → X stochastisch ⇐⇒jede Teilfolge der (Xn) enthalt eine Teilteilfolge, die P-f.s. gegen X konvergiert.
In diesem Sinne hangt die Theorie der stochastischen Integration nur von den Nullmengen von P
ab.
14.1. Definition: Stochastischer Integrator, Ito-Integral
Ein adaptierter regularer Prozess X heißt ein stochastischer Integrator, falls fur jeden Integranden
H ein adaptierter Prozess I, geschrieben It =t∫0
HdX (=t∫0
HsdXs), existiert mit folgender
Eigenschaft:
Hn elementare Integranden mit Hn stoch.→ H, so gilt∫HndX
stoch→ I.∫HdX heißt Ito-Integral von H bezuglich X
14.1.1. Lemma:
X ist genau dann ein Integrator, falls fur jede Folge Hn von elementaren Integranden mit
Hn stoch.→ 0 gilt∫HndX
stoch.→ 0
Beweis:
Notwendige Bedingung: X
Hinreichende Bedingung: Angenommen es gibt Folge Hn von elementaren Integranden mit
Hn stoch.→ H, aber∫HndX
stoch−→∫HdX, d.h. ∃ (rn), (sn), ε > 0 mit
dlg(∫HsndX,
∫HrndX) ≥ ε > 0.
Dann gilt fur Hn := Hrn −Hsnstoch→ 0, aber
∫HndX konvergiert nicht.
14.1.2. Definition: Fast sicher endliche Variation
X hat f.s. endliche Variation, wenn es fur jedes t > 0 eine reelle Zufallsvariable Vt gibt mit
k−1∑
i=0
|Xti+1 −Xti | ≤ Vt f.s.
fur alle Zerlegungen 0 = t0 < t1 ≤ . . . ≤ tk = t, k ∈ N.
Beobachtung:
Ein Prozess X mit endlicher Variation ist ein (stochastischer) Integrator:
97
Fur elementaren Integranden Ht =k−1∑i=0
Hτi+ · 1τi<t≤τi+1 ist
∣∣∣∣∣∣
t∫
0
HdX
∣∣∣∣∣∣=
∣∣∣∣∣
k−1∑
i=0
Hτi+ · (Xminτi,t −Xminτi,t)
∣∣∣∣∣
≤ sups≤t
|Hs| ·k−1∑
i=0
|Xminτi,t −Xminτi,t|︸ ︷︷ ︸
≤Vt
,
demnach gilt∫HndX
stoch→ 0, sofern Hn stoch→ 0.
(Dieses Integral ist das (Lebesgue-)Stieltjes-Integral.)
14.1.3. Bemerkung:
(i) Die Prozesse mit endlicher Variation sind ein Vektorraum.
(ii) Wenn X (f.s.) wachsende Pfade hat, so ist X von endlicher Variation.
(iii) X ist (fast sicher) von endlicher Variation ⇐⇒ X = X ′ −X ′′ (f.s.) fur X ′, X ′′ Prozesse mitwachsenden Pfaden
Betrachte zufallige Partition T = (τ0, . . . , τk) mit 0 =: τ0 ≤ τ1 ≤ . . . ≤ τk ≤ τk+1 = ∞ Stoppzeiten.
Definiton
Eine Folge von Partitionen Tn := (τ(n)0 , . . . , τ
(n)kn
) heißt asymptotisch fein auf [0, t], wenn ∀ε > 0
P
[maxi:τ
(n)i ≤t
|τ (n)i+1 − τ
(n)i | > ε
]n→∞→ 0
und asymptotisch fein, wenn dies fur jedes t > 0 gilt.
Zu einem Integranden H und Partitionsfolge (Tn) bilde HTnt =
kn∑i=0
Hτ(n)i +
· 1τ (n)i <t≤τ (n)
i+1, fur
asymptotisch feine (Tn) gilt HTnstoch.→ H
Beobachtung:
Es gilt∫HTndX
stoch→∫HdX.
98
Beobachtung und Definition:
Sei X ein Integrator und 0 =: τ0 ≤ τ1 ≤ . . . ≤ τk = t Stoppzeiten, so gilt:
k−1∑
i=0
(Xτi+1 −Xτi)2 =
k−1∑
i=0
(X2τi+1
−X2τi) − 2
k−1∑
i=0
Xτi(Xτi+1 −Xτi)
= X2t −X2
0 − 2k−1∑
i=0
Xτi(Xτi+1 −Xτi)
= X2t −X2
0 − 2
∫ t
0XT
−dX
.
Fur eine asymptotisch feine Folge (Tn) gilt:
k−1∑
i=0
(Xmint,τi+1 −Xminτi , t)2stoch→ X2
t −X20 − 2
∫ t
0X−dX =: [X]t
Der Prozess ([X]t)t∈R+ heißt quadratische Variation von X.
Fur Integratoren X,Y heißt der Prozess ([X,Y ]t)t∈R+ mit
[X,Y ]t = XtYt −X0Y0 −t∫
0
Y−dX −t∫
0
X−dY
quadratische Kovariation von X und Y .
Bemerkung:
[X]t = 0, wenn X endliche Variation hat.
14.1.4. Satz:
Seien X,Y, Z Integratoren und H,K Integranden.
(i) Es gilt (f.s.)
[X,Y ] = [Y,X], [X,X] = [X], [λX+µY,Z] = λ[X,Z]+µ[Y, Z] ∀λ, µ ∈ R, [X,Y ] ≤ [X]·[Y ].
(ii) [X] und [X,Y ] haben Pfade von endlicher Variation.
(iii) I :=∫HdX ist ebenfalls ein Integrator und
∫KdI =
∫KHdX.
(iv) Ist 0 =: τ(n)0 ≤ τ
(n)1 ≤ . . . ≤ τ
(n)kn
asymptotisch fein auf [0, t], so gilt
kn−1∑
i=0
Hτ(n)i +
(Xτ(n)i+1
−X(n)τi )(Y
τ(n)i+1
− Y (n)τi )
stoch→t∫
0
Hd[X,Y ],
weiter ist[∫
HdX
]=
∫H2d[X] und
[∫HdX,
∫KdY
]=
∫HKd[X,Y ].
99
Beweis:
Beobachtung: Sei (Tn) asymptotisch feine Folge. Dann ist
∑
i
(Xmint,τ (n)
i+1−X
(n)mint,τi)(Ymint,τ (n)
i+1− Y
(n)mint,τi)
stoch→ [X,Y ]
(i) Nach Definition und Beobachtung klar. X (verwende Cauchy-Schwarz fur die letzteUngleichung)
(ii) [X] hat wachsende Pfade, ist folglich von endlicher Variation, [X,Y ] = 14 [X + Y ]− 1
4 [X − Y ]ist somit ebenfalls von endlicher Variation
(iii) (Beweisskizze:)Seien Ht := L1τ<t, Kt := L′
1τ ′<t.Dann ist Yt := L(Xt −Xminτ,t),
t∫
0
KdY = L′(Yt − Ymint,τ ′)
= L′ · L(Xt −Xmint,τ −Xmint,τ ′ +Xmint,τ,τ ′)
= L′ · L(Xt −Xmint,maxτ,τ ′)
=
t∫
0
KHdX.
Der allgemeine Fall ergibt sich durch Approximation mit elementaren Integranden.
(iv) Sei Z := XY −X0Y0, dies ist ein Integrator1
∑Hτi+(Xτi+1 −Xτi)(Yτi+1 − Yτi)
=∑
Hτi+(Zτi+1 − Zτi) −∑
Hτi+Xτi(Yτi+1 − Yτi) −∑
Hτi+Yτi(Xτi+1 −Xτi)
stoch→∫HdZ −
∫HX−dY −
∫HY−dX
fur eine asymptotisch feine Folge von Partitionen. (ersetze
”dZ = d[X,Y ] +X−dY + Y−dX“)
Wir zeigen schließlich[∫HdX,
∫KdY
]=∫HKd[X,Y ]:
Sei H elementar, K ≡ 1, I :=∫HdX. Sei weiter Tn asymptotisch feine Folge von
1Denn Z = [X, Y ]+∫
Y−dX +∫
X−dY , [X, Y ] hat endliche Variation,∫
Y−dX und∫
X−dY sind nach (iii) ebenfallsIntegratoren.
100
Partitionen (die jeweils die Sprunge von H enthalten). Es gilt
Iτ(n)i+1
− Iτ(n)i
= Hτ(n)i +
(Xτ(n)i+1
−Xτ(n)i
),
kn∑
i=0
(Iτ(n)i+1
− Iτ(n)i
)︸ ︷︷ ︸
=Hτ(n)i
+(X
τ(n)i+1
−Xτ(n)i
)
·(Yτ(n)i+1
− Yτ(n)i
)stoch→ [I, Y ]
=
kn∑
i=0
Hτ(n)i +
(Xτ(n)i+1
−Xτ(n)i
) · (Yτ(n)i+1
− Yτ(n)i
)
stoch→∫Hd[X,Y ].
Fur allgemeines H: Betrachte Hn elementar mit Hn stoch→ H, also
In :=∫HndX
stoch→∫HdX,
[In, Y ]t = Int Yt − In0 Y0 −t∫
0
In−dY −t∫
0
Y−dIn,
[∫HdX,
∫KdY
]=
[I,
∫KdY
]=
∫Kd[I, Y ] =
∫KHd[X,Y ].
14.2. Satz:
Ein Martingal (Xt) mit E[X2t ] <∞ ∀t ist ein Integrator und fur jeden Integrand H mit
E[sups≤t
|Hs|2] <∞ ∀t (⋆)
ist dann∫HdX ein Martingal.
14.2.1. Erinnerung: Satz vom optionalen Stoppen
Sei τ f.s. beschrankte Stoppzeit, M ein Martingal, so gilt E[Mt|F [τ ]] = Mmint,τ.
14.2.2. Erinnerung: Doobs L 2-Ungleichung:
Sei (Mt) ein L 2-Martingal, dann gilt
P[sups≤t
|Ms| ≥ ε] ≤ ε−2 · E[M2t ].
101
Beweis des Satzes (14.2):
(i) Sei H f.s. beschrankter elementarer Integrand, zeige∫HdX ist Martingal, o.E.
Ht = L1τ<t. Sei s < t:
E
t∫
0
HdX
∣∣∣∣∣∣F [maxs, τ]
= E[L1τ<t(Xt −Xτ )|F [maxs, τ]]
= L · E[1τ<t(Xt −Xτ )|F [maxs, τ]]= L · (Xmint,maxs,τ −Xmint,τ,maxs,τ)
= L1τ≤s(Xs −Xmins,τ) + L1τ>s (Xmint,τ −Xmint,τ)︸ ︷︷ ︸=0
= L1τ≤s(Xs −Xmins,τ) ist Fs-messbar,
also
E
[∫ t
0HdX|Fs
]= E [E [. . . |F [maxs, τ]] |Fs]
= L1τ≤s(Xs −Xmins,τ)
=
∫ s
0HdX.
(ii) Sei Ht =k∑i=0
Li1τi<t≤τi+1 mit |Li| ≤ c f.s. Fur i < j ist
E[Li · (Xmint,τi+1 −Xmint,τi) · Lj · (Xmint,τj+1 −Xmint,τj)|F [τj ]]
= Li(Xmint,τi+1 −Xmint,τi) · Lj · E[Xmint,τj+1 −Xmint,τj|F [τj ]]︸ ︷︷ ︸=0
= 0 f.s.,
also
E
t∫
0
HdX
2 = E
k∑
i,j=0
Li(Xmint,τi+1 −Xmint,τi) · Lj(Xmint,τi+1 −Xmint,τj)
=k∑
i=0
E[L2i (Xmint,τi+1 −Xmint,τi)
2]
≤ c2E[(Xt −X0)2].
(iii) Sei Hn eine Folge von elementaren Integranden mit Hn stoch→ 0,Kn := maxminHn, c, (−c),
P
sups≤t
∣∣∣∣∣∣
s∫
0
HndX
∣∣∣∣∣∣> ε
≤ P
[sups≤t
|Hs| > c
]+ P
[sups≤t
∣∣∣∣∫ s
0KndX
∣∣∣∣ > ε
]
︸ ︷︷ ︸
≤ε−2E
(
t∫0
KndX
)2≤ε−2c2E[(Xt−X0)2]
102
(nach Doobs Ungleichung), folglich
lim supn→∞
P
[sups≤t
∣∣∣∣∫ s
0HndX
∣∣∣∣ > ε
]= 0 ∀ε > 0.
(iv) Nach obigem ist∫HdX ein (L 2-)Martingal fur beschranktes H, fur allgemeines H, das (⋆)
erfullt, ergibt sich dies mittels Approximation. Die entscheidende Beobachtung ist, dass die
fur die”kanonischen“ Approximanden Hn stoch→ H gilt supn∈N E
[( ∫ t0 H
ndX)2]
<∞.
Bericht:
Die allgemeinsten stochastischen Integratoren sind sog. Semimartingale, d.h. stochastischeProzesse, die sich als Summe aus einem (lokalen) Martingal und einem Prozess von f.s. endlicherVariation darstellen lassen (siehe z.B. Philip Protter, Stochastic integration and differentialequations. A new approach. Springer, 1990).
Bemerkung/Bericht:
Die Brown’sche Bewegung ist ein (L 2-)Martingal.
14.3. Ito-Formel
14.3.1. Satz:
Seien X1, . . . , Xd Integratoren mit fast sicher stetigen Pfaden, f ∈ C2(Rd). Dann gilt fast sicher:
f(Xt) = f(X0) +d∑
i=1
t∫
0
fxi(Xs)dXis +
1
2
d∑
i,j=1
t∫
0
fxi,xj (Xs)d[Xis, X
js ]
(mit fxi =∂
∂Xif, fxi,xj =
∂2
∂Xi∂Xjf).
Beweis:
Sei 0 ≤ u ≤ v ≤ t, |Xu −Xv| ≤ η, sups≤t
|Xs| ≤ K. Gemaß Taylor-Entwicklung gilt
f(Xv) = f(Xu) +d∑
i=1
fxi(Xu)(Xiv −Xi
u) +1
2
d∑
i,j=1
fxi,xj (Xu)(Xiv −Xi
u)(Xjv −Xj
u) +R(u, v),
wobei
|R(u, v)| ≤ supx∈S(u,v)
∣∣∣∣∣∣
d∑
i,j=1
(fxi,xj (x) − fxi,xj (Xu))(Xiv −Xi
u)(Xjv −Xj
u)
∣∣∣∣∣∣≤ C|Xv −Xu|2 · max
i,j=1,...,dmax
y,z∈BK(0),|y−z|≤η|fxi,xj (y) − fxi,xj (z)|
︸ ︷︷ ︸ϕ(K,η)
,
103
wobei S(u, v) = Strecke zwischen Xu und Xv.
(Beobachtung: Fur jedes K ≥ 0 gilt ϕ(K, η)η→0→ 0, da die zweiten Ableitungen auf jeder
kompakten Menge gleichmaßig stetig sind.)
Sei τ0 ≤ τ1 ≤ . . . ≤ τk, τk = t eine Partition mit |Xτl+1−Xτl | ≤ η:
1sups≤t
|Xs|≤K∣∣∣f(Xt) − f(X0) −
k∑
l=0
d∑
i=1
fxi(Xτl)(Xiτl+1
−Xiτl)
−k∑
l=0
d∑
i,j=1
fxi,xj (Xτl)(Xiτl+1
−Xiτl)(Xj
τl+1−Xj
τl)∣∣∣
≤ C · ϕ(K, η)
k∑
l=0
d∑
i=1
(Xiτl+1
−Xiτl)2
Langs einer asymptotisch feinen Folge von Partitionen konvergiert die linke Seite gegen
1sups≤t
|Xs|≤K∣∣∣f(Xt) − f(X0) −
d∑
i=1
t∫
0
fxi(Xs)dXis −
1
2
d∑
i,j=1
t∫
0
fxi,xj (Xs)d[Xis, X
js ]∣∣∣,
die rechte Seite gegen
Cϕ(K, η)d∑
i=1
[Xi]t.
Die Behauptung folgt mit η → 0, dann K → ∞.
104
15. Die geometrische Brown’sche Bewegung unddie Black-Scholes-Formel
In Abschnitt 13.3 hatten wir die Black-Scholes-Formel als Limes des fairen Preises einer(europaischen) Option in einer Folge von Cox-Ross-Rubinstein-Modellen hergeleitet, in der dieAnzahl Handelsperioden in geeigneter Weise unendlich groß wird. Dieser Zugang gestattete, dieBS-Formel mit
”elementaren“ Methoden (im Wesentlichen dem Zentralen Grenzwertsatz)
herzuleiten, andererseits verliert man dabei die Limesdynamik des Preisprozesses und derHedgingstrategien
”aus dem Blick.“ Wir tragen hier nach, wie die Theorie der stochastischen
Integration aus Abschnitt 14 diese Lucke fullen kann.
Sei (Bt)t≥0 eine Brownsche Bewegung, d.h. ein stochastischer Prozess mit unabhangigenZuwachsen und stetigen Pfaden, bei dem Bt+h −Bt ∼ N (0, h) fur alle t, h ≥ 0, und B0 = 0.(Existenz hatten wir in Ubungsaufgabe 3 auf Blatt 11 gesehen.) Offenbar ist (Bt)t≥0 ein Martingal(mit EB2
t = t <∞ fur jedes t ≥ 0), und somit nach Satz 14.2 ein stochastischer Integrator.
Beobachtung (quadratische Variation der Brown’schen Bewegung)
Es gilt [B]t = t, was man gelegentlich auch suggestiv schreibt als”(dBt)
2 = dt“.
Beweis:
Wegen
E[B2t+h
∣∣Ft
]= E
[B2t + 2Bt(Bt+h −Bt) + (Bt+h −Bt)
2∣∣Ft
]= B2
t + E[(Bt+h −Bt)
2∣∣Ft
]= B2
t + h
ist Mt := B2t − t ein stetiges Martingal (mit EM2
t <∞ fur jedes t ≥ 0), andererseits ist nachSatz 14.2 auch
M ′t := B2
t − [B]t = 2
∫ t
0BsdBs
ein Martingal, somit auch M ′′t := Mt −M ′
t = [B]t − t. Daruberhinaus ist [M ′′]t ≡ 0, denn M ′′ hatoffensichtlich Pfade von beschrankter Variation, somit ist auch
(M ′′t )2 = 2
∫ t
0M ′′s dM
′′s
ein Martingal. Folglich gilt E (M ′′t )2 = E (M ′′
0 )2 = 0, d.h. M ′′ ≡ 0 f.s., also [B]t = t.
(Hinter diesem Beweis steckt die allgemeine Beobachtung, dass die quadratische Variation einesMartingals X charakterisiert ist als derjenige Prozess V , fur den X2 − V wiederum ein Martingalist. Alternativ kann man im Fall der Brown’schen Bewegung auch explizit quadrierte Inkrementelangs einer geeigneten Partitionsfolge aufsummieren.)
Geometrische Brown’sche Bewegung
Sei S0 F0-adaptiert, µ ∈ R, σ > 0. Die Losung (St)t≥0 der (stochastischen Integral-)Gleichung
(∗) St = S0 +
∫ t
0µSu du+
∫ t
0σSu dBu, t ≥ 0
105
ist gegeben durch
(∗∗) St = S0 exp(σBt +
(µ− 1
2σ2)t), t ≥ 0.
S heißt geometrische Brown’sche Bewegung. Man schreibt (*) auch haufig in der suggestiven Formeiner stochastischen Differentialgleichung
dSt = µSt dt+ σSt dBt.
Beweis: Anwendung der Ito-Formel auf f(Bt, t) mit f(b, t) := exp(σb+ (µ− σ2/2)t
)
(fb(b, t) = σf(b, t), fbb(b, t) = σ2f(b, t), ft(b, t) = (µ− σ2/2)f(b, t)) liefert
f(Bt, t) = f(B0, 0)︸ ︷︷ ︸=1
+
∫ t
0σf(Bs, s) dBs +
∫ t
0(µ− σ2/2)f(Bs, s) ds+
1
2
∫ t
0σ2f(Bs, s) d[B]s
= 1 +
∫ t
0µf(Bs, s) ds+
∫ t
0σf(Bs, s) dBs,
denn [B]s = s und mit It = t ist [I] = [I,B] ≡ 0. Durch Multiplikation mit S0 folgt (*).
Black-Scholes-Gleichung
Seien eine Volatilitat σ > 0, risikoloser Zinssatz r ≥ 0 und ein (beschranktes) stetigesAuszahlungsprofil f : R+ → R gegeben. Wie wir in Abschnitt 13.3 gesehen haben, ist derBlack-Scholes-Preis der europaischen Option mit Auszahlungsprofil f und Laufzeit t ≥ 0 beiaktuellem Kurs x des Basiswertpapiers gegeben durch
v(x, t) = e−rt∫ ∞
−∞
1√2πt
e−b2/(2t)f
(xeσb+(r−σ2/2)t
)db
= e−rtE[f(xeσBt+(r−σ2/2)t
)].
Die Wertfunktion v lost folgendes Cauchy-Problem (die Black-Scholes-Gleichung)
∂
∂tv(x, t) = rx
∂
∂xv(x, t) +
1
2σ2x2 ∂
2
∂x2v(x, t) − rv(x, t), x, t > 0,
v(x, 0) = f(x), x > 0.
Black-Scholes-Modell, ∆-Hedge
Das Black-Scholes-Modell ist ein zeitkontinuierliches Marktmodell, in dem es zwei Wertpapieregibt: Eine festverzinsliche Anleihe S0
t = ert mit risikolosem Zinssatz r ≥ 0, und ein risikobehaftetesWertpapier S1, dessen Dynamik durch eine geometrische Brown’sche Bewegung gegeben ist,
dS1t = µS1
t dt+ σS1t dBt
(dieses ist die Limesdynamik der in Abschnitt 13.3 betrachteten Folge von Modellen).
106
Wir betrachten eine (europaische) Option mit Falligkeit T > 0 und Auszahlungsprofil f(S1T ). Nach
obigem ist der Wert zur Zeit t, t ∈ [0, T ], gegeben durch Vt := v(S1t , T − t). Die Ito-Formel liefert
dVt = vx(S1t , T − t)dS1
t +1
2vxx(S
1t , T − t) d[S1]t︸ ︷︷ ︸
=σ2(S1t )2dt
− vt(st, T − t)dt
= vx(S1t , T − t)dS1
t + r(v(St, T − t) − Stvx(S
1t , T − t)
)dt
= vx(S1t , T − t)︸ ︷︷ ︸=:Θ1
t
dS1t +
Vt − S1t vx(S
1t , T − t)
S0t︸ ︷︷ ︸
=:Θ0t
dS0t
(wobei wir benutzen, dass 12vxx− vt = r(v − xvx) gemaß der Black-Scholes-Gleichung, und
dS0t = rS0
t dt nach Annahme).Demnach ist das Portfolio, das zur Zeit t aus Θ0
t Einheiten S0 und Θ1t Einheiten S1 besteht (also
den Wert Vt = Θ0tS
0t + Θ1
tS1t hat), selbstfinanzierend, d.h. es genugt der Bedingung
Vt = V0 +
∫ t
0Θ0u dS
0u +
∫ t
0Θ1u dS
1u,
und es dupliziert das gewunschte Auszahlungsprofil, denn VT = v(ST , T − T ) = f(ST ).
Diese Replikationsstrategie heißt ∆-Hedge: Die Anzahl gehaltener Aktien ist gerade die Ableitungdes aktuellen Werts der Option nach dem Basiskurs, das sogenannte ∆ der Option. Eineumfassendere Diskussion findet sich beispielsweise in Abschnitt 5.6 des Buches von Hans Follmerund Alexander Schied, Stochastic finance. An introduction in discrete time, 2nd Ed., de Gruyter,2004.
107
Teil III.
Anhang
109
A. Verwendeter R-Code
A.1. Konfidenzintervalle im Binomialmodell: Fur Abbildung 6.3
verwendeter R-Code
# Konfidenzintervalle fuer den Erfolgsparameter bei der
# Binomialverteilung
# Exaktes Konfidenzintervall basierend auf Beta-Quantilen
bin.konf.ex <- function(n, x, a)
c(qbeta(a/2,x,n-x+1), qbeta(a/2,x+1,n-x,lower.tail=FALSE))
# Auf Normalapproximation basiertes Konfidenzintervall
bin.konf.nappr <- function(n, x, a)
c(x/n-qnorm(1-a/2)/(2*sqrt(n)), x/n+qnorm(1-a/2)/(2*sqrt(n)))
# Auf Chebychev-Ungleichung basiertes Konfidenzintervall
bin.konf.cheby <- function(n, x, a)
c(x/n-1/sqrt(4*n*a), x/n+1/sqrt(4*n*a))
anteile <- c(0.05, 0.1, 0.15, 0.2, 0.25, 0.3, 0.35, 0.4, 0.45, 0.5)
erzeuge.bild <- function(n, alpha)
linientyp <- c(3,2,1)
ve <- 0.01
br <- 0.005
plot(c(-1,-1), xlim=c(0,0.5), ylim=c(0,0.8),
xlab="Beobachteter Anteil", ylab="" ,
main=c("Konfidenzintervalle fur die Binomialverteilung",
paste("zum Irrtumsniveau ",alpha," (n=",n,")",sep="")))
abline(1,0)
for (a in anteile)
x <- round(n*a)
i <- bin.konf.cheby(n,x,alpha)
lines(c(a-ve,a-ve), i, lty=linientyp[1])
111
lines(c(a-ve-br,a-ve+br), c(i[1],i[1]), lty=linientyp[1])
lines(c(a-ve-br,a-ve+br), c(i[2],i[2]), lty=linientyp[1])
i <- bin.konf.nappr(n,x,alpha)
lines(c(a,a), i, lty=linientyp[2])
lines(c(a-br,a+br), c(i[1],i[1]), lty=linientyp[2])
lines(c(a-br,a+br), c(i[2],i[2]), lty=linientyp[2])
i <- bin.konf.ex(n,x,alpha)
lines(c(a+ve,a+ve), i, lty=linientyp[3])
lines(c(a+ve-br,a+ve+br), c(i[1],i[1]), lty=linientyp[3])
lines(c(a+ve-br,a+ve+br), c(i[2],i[2]), lty=linientyp[3])
legend(0.0, 0.8, c("Chebychev","N.approx","Exakt"), lty=linientyp)
erzeuge.bild(20,0.05)
erzeuge.bild(50,0.05)
erzeuge.bild(100,0.05)
A.2. Temperaturdiagramm
In Abschnitt 12.3.4 verwendeter R-Code.
> a<-read.table("karlsruhe_august.dat", header=TRUE)
> attach(a)
> Zeit<-Jahr/1000
> b<-data.frame(Temp=Temp, Zeit=Zeit, Zeit2=Zeit^2, Zeit3=Zeit^3)
> m1<-lm(Temp~Zeit, data=b)
> m1
Call:
lm(formula = Temp ~ Zeit, data = b)
Coefficients:
(Intercept) Zeit
16.804 1.064
> m2<-lm(Temp~Zeit+Zeit2, data=b)
> m2
Call:
lm(formula = Temp ~ Zeit + Zeit2, data = b)
Coefficients:
(Intercept) Zeit Zeit2
660.8 -676.3 177.9
112
> m3<-lm(Temp~Zeit+Zeit2+Zeit3, data=b)
> m3
Call:
lm(formula = Temp ~ Zeit + Zeit2 + Zeit3, data = b)
Coefficients:
(Intercept) Zeit Zeit2 Zeit3
-7532 12252 -6618 1190
> plot(Zeit, Temp, main="Mittlere Augusttemperatur in Karlsruhe",
> xlab="Jahr/1000",ylab="Temp")
> points(Zeit,fitted.values(m1),type=’l’,lty=1)
> points(Zeit,fitted.values(m2),type=’l’,lty=2)
> points(Zeit,fitted.values(m3),type=’l’,lty=3)
> legend(1.87,24,legend=c("Grad 1","Grad 2","Grad 3"),lty=c(1,2,3))
>
> dev.copy2eps(file="karlsruhe.eps")
X11
2
> Var.ti <- sum(Zeit^2)/length(Zeit)-mean(Zeit)^2
> V.stern <- sum(residuals(m1)^2)/(206-2)
> 1.064/sqrt(V.stern/(206*Var.ti))
[1] 0.6136871
> qt(0.995,df=204)
[1] 2.600144
113
Abbildungsverzeichnis
2.1. Unter allen Punkten auf der Diagonalen 〈(1, 1, . . . , 1)〉 hat (M(x),M(x), . . . ,M(x))den kleinsten euklidischen Abstand von (x1, . . . , xn). . . . . . . . . . . . . . . . . . . 9
3.1. Darstellung von ψ(s) = 1 − s+ s log s . . . . . . . . . . . . . . . . . . . . . . . . . . 18
6.1. Darstellung von Konfidenzbereichen in der x-ϑ-Ebene . . . . . . . . . . . . . . . . . 306.2. Darstellung des α-Quantils q . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316.3. Konfidenzintervalle zum Niveau 0.05 fur den Erfolgsparameter im Binomialmodell,
basierend auf Chebyshev-Ungleichung, Normalapproximation und auf Satz 6.2.2, alsFunktion des beobachteten Anteils der Erfolge, fur n ∈ 20, 50, 100. Siehe Ab-schnitt A.1 fur den R-Code zur Erzeugung dieser Bilder. . . . . . . . . . . . . . . . . 34
8.1. Darstellung der kombinatorischen GroßeN(m; k, l), als Anzahl der Wege durch diesesk × l-Gitter, so dass unter dem Weg nur m =
∑mi viele Punkte liegen . . . . . . . 41
8.2. Darstellung der Verteilungsfunktionen von P und Q, wenn P 4 Q . . . . . . . . . . 44
9.1. Abbildung zur Wahl von c, falls die Verteilungsfunktion gerade an dieser Stelle einenSprung hat. Deswegen kann es in manchen Fallen auch sinnvoll sein, den Test zurandomisieren. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
11.1. Darstellung der orthogonalen Projektion im Zweidimensionalen auf einen eindimen-sionalen Unterraum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
12.1. Ausgleichsgerade zu gegebenen Punkten . . . . . . . . . . . . . . . . . . . . . . . . . 6712.2. Darstellung der Projektionen eines Punktes X im R3 auf H ⊂ L ⊂ R3, L ist dabei
die Ebene, die durch das Rechteck L dargestellt werden soll und H der Unterraum,der von der blauen Geraden aufgespannt wird. . . . . . . . . . . . . . . . . . . . . . 72
115
Index
χ2-Verteilung, 36
A-posteriori-Dichte, 27A-priori-Dichte, 27A-priori-Maß, 27adaptiert, 95Arbitrage, 83
-frei, 92-moglichkeit, 92-preis, 92-preisprozess, 92
Bayes-Schatzer, 27Bias, 9
Call-Put-Paritat, 88Claim, 92
duplizierbarer -, 92Contingent claim, 83Cramer-Rao-effizient, 13
DichteA-posteriori-, 27A-priori-, 27
Doob−sL 2-Ungleichung, 101
Entropierelative, 17
Erwartungstreue, 9Erwartungswert
bedingter, 21Exponentialverteilung, 18
Fehler- 1.Art, 39
Filtration, 85Fisher-Information, 11Fisherverteilung, 36Formel
Black-Scholes-, 88
Ito-, 103Forward, 88Fraktil, 30
Handelsstrategie, 91Hedge, 92Hypothese
Alternativ-, 39Null-, 39Testen von -n, 3
IntegralIto-, 97
Integratorstochastischer -, 97
Irrtumsniveau, 29Ito
-Formel, 103
Konfidenzbereich, 29, 32-e im normalverteilten linearen Modell,
73Konfidenzintervall, 3Konsistenz, 10, 16Kullback-Leibler-Abstand, 17
Lemma- von Stein, 49Neyman-Pearson-, 47
Likelihood-Funktion, 7-Quotient, 53
Maßaquivalentes Martingal-, 92A-priori-, 27
Marktmodellvollstandiges -, 92
Maximum-Likelihood-Prinzip, 7
117
-Schatzer, 7, 16Median, 30
Konfidenzintervalle fur -, 39Mittlerer quadratischer Fehler, 9Modell
Gauß’sches-, 54CRR-, 85exponentielles, 13lineares -, 69Normales, 8parametrisches, 4Standard-, 4statistisches, 3
OptionCall-, 83Put-, 83
Parametermerkmal, 4Poisson
Verteilung, 18pravisibel, 86Prozess
Arbitragepreis-, 92stochastischer -, 95Wert-, 91Zugewinn-, 91
Punkt-Schatzer, 3
Quantile, 30
Rao-Blackwellisierung, 24Regression, 67Regularitat, 11
Satz- vom optionalen Stoppen, 101- von Gauß-Markov, 70von Lehmann-Scheffe, 24Dichtentransformations-, 35Fundamentals. der Preistheorie, 90Steiner’scher Verschiebungs-, 8Verallgemeinerter S. von Student, 72von Cramer-Rao, 12von Rao-Blackwell, 24
SchatzerBayes-, 27kleinste-Quadrate-, 68
Maximum-Likelihood-, 7regularer, 12
Scorefunktion, 11selbstfinanzierend, 91Simpson-Paradoxon, 64Statistik, 4
Ordnungs-, 31stochastisch kleiner, 43Stoppzeit, 95Suffizienz, 23
Taxiproblem, 4Test, 47
t-T. auf Gleichheit der Mittelwerte, 78Alternativ-, 47χ2-, 55χ2-Anpassungs-, 59χ2-T. auf Unabhangigkeit, 62χ2-Anpassungs-, 62effektives Niveau eines -s, 47F-T. auf Gleichheit der
Gruppenmittelwerte, 78Gutefunktion eines -s, 47gleichmaßig bester -, 47Macht des -s, 47Neyman-Pearson-, 48randomisierter -, 47Student’scher t-, 56Umfang eines -s, 47
unverfalscht, 56
Varianz-analyse, 76
Variationf.s. endliche -, 97
Verteilungχ2n, 36
Beta-, 31Fisher, 36Multinomial-, 59Multivariate Standardnormal-, 60Student’sche-, 37
Vollstandigkeit, 24
Wilcoxon-Rangsummen-Statistik, 40
118