Univ.-Prof. Dr. Walter GutjahrOskar-Morgenstern-Platz 1Tel. 4277 [email protected]
Univ.-Doz. Dr. Florian FrommletSpitalgasse 21Tel. 40400 [email protected]
1
Organisatorisches
• Vorlesungstermine:
Mo 09.45 - 11.15 HS 6, wöchentlichDi 15.00 - 16.30 HS 6, wöchentlich
Letzter Vorlesungstermin:Di 13.12.2014
Achtung: Der Di-Termin am 22.11. wird einmalig einmal auf Mi(23.11., 13.15 - 14.45) verschoben.
• Voraussichtliche Prüfungstermine:1) Do 09.01.20152) Do 30.01.2015(Bitte Anmeldefristen beachten!!)
• Übungsgruppen:Parallele Gruppen, Ort und Zeit laut Vorlesungsverzeichnis!
2
Tutorium
• Tutor: Raphael Rath
Zeit und Ort: Mo 15.00 - 16.30 im HS 13
3
E-learning Plattform
Moodle Plattform
https://moodle.univie.ac.at
• Generelle Information
• Downloads der Folien
• Forum
• Noten
4
Inhalt der Vorlesung
1. Einführung
(a) Wahrscheinlichkeitsbegriff
(b) Einfaches Rechnen mit diskreten Wahrscheinlichkeiten
2. Diskrete Verteilungen
3. Stetige Verteilungen
4. Mehrdimensionale Verteilungen
5. Verteilungen von Stichprobenkennzahlen
6. Grenzwertsätze
Danksagung: Für Anregungen zum Inhalt danken wir Univ.-Prof. Dr. Karl
Schlag!
5
Literatur
Die Reihenfolge entspricht dem Grad an Relevanz speziell fürdiese Lehrveranstaltung
• Karl Bosch: Elementare Einführung in dieWahrscheinlichkeitsrechnung
• Sheldon Ross: A First Course in Probability
Bücher gibt es mindestens 10 mal in Lehrbuchsammlung
• Dimitri Bertsekas, John Tsitsiklis: Introduction to Probability
• Brannath / Futschik: Statistik für Wirtschaftswissenschafter
• John Rice: Mathematical statistics and data analysis
• Robert Hafner: Wahrscheinlichkeitsrechnung und Statistik
• Walter Oberhofer: Wahrscheinlichkeitstheorie
• Jim Pitmann: Probability
6
Einführung
Mathematische Modellierung
Deterministisch
Stochastisch (Zufälligkeit, Unsicherheit)
Experiment mit verschiedenen möglichen Ausgängen – Ereignisse
Wahrscheinlichkeitsmodelle haben nicht den Anspruch exakteVorhersagen zu liefern
Modell liefert Aussagen über Wahrscheinlichkeit von Ereignissen
7
Beispiele
Konzeptionell einfach:
• Münzwurf
• Würfelspiele / Kartenspiele / Lotto
Konzeptionell etwas schwieriger:
• Nicht faire Münze
Konzeptionell schwierig:
• Wahlprognosen
• Kreditrückzahlung (Insolvenzprognoseverfahren)
• Sportwetten
8
Interpretation von Wahrscheinlichkeit
1. Laplace: Endlich viele Ereignisse
Alle Ereignisse gleiche Wahrscheinlichkeit
2. Frequentistisch:
Idee: Experiment das beliebig oft wiederholt werden kann
Relative Häufigkeit: Anzahl des Auftretens eines Ereignissesbei n Wiederholungen des Experiments
Wahrscheinlichkeit: Relative Häufigkeit für n → ∞
3. Subjektiv: Nicht immer taucht Wahrscheinlichkeit im Kontextvon beliebig oft wiederholbaren Ereignissen auf
Beispiel: Ärztliche Prognose, Sportwetten,Investitionsentscheidungen
9
Wahrscheinlichkeitsrechnung
Unabhängig von der Interpretation!
Axiomatische Wahrscheinlichkeitstheorie ⇒ Kolmogorov (1933)
• Ergebnisraum Ω (die Elemente ω ∈ Ω heißen Ergebnisse)
• Menge A aller zulässigen Ereignisse A: jedes zulässigeEreignis A ist ein Teilmenge von Ω
• Wahrscheinlichkeitsverteilung P : eine Funktion, die jedemEreignis A ∈ A eine Wahrscheinlichkeit P (A) zuordnet.
Die Funktion A 7→ P (A) hat folgende Eigenschaften
1. 0 ≤ P (A) ≤ 1
2. P (∅) = 0, P (Ω) = 1
3. P (A ∪B) = P (A) + P (B) falls A ∩B = ∅.
10
Beispiel 1: Münzwurf
Ergebnisraum: Ω = Kopf, Zahl
Ereignisse: ∅, Kopf, Zahl, Kopf oder Zahl
Wahrscheinlichkeitsverteilung: Falls faire Münze
P (Kopf) = 1/2, P (Zahl) = 1/2 (Elementarereignisse)
P (Kopf oder Zahl) = P (Kopf) + P (Zahl) = 1/2 + 1/2 = 1
P (weder Kopf noch Zahl) = P (∅) = 0
Interpretation: Laplace’scher Wahrscheinlichkeitsbegriff
Elementarereignis: A ⊂ Ω mit |A| = 1
d.h. einelementige Teilmenge
11
Übungen
Fairer Würfel
Ergebnisraum:
Ereignisse:
Wahrscheinlichkeitsverteilung:
Zwei faire Münzen
Ergebnisraum:
Ereignisse:
Wahrscheinlichkeitsverteilung:
12
Wahrscheinlichkeitsrechnungfür Statistik und VWLWS 2016/17
1 Grundbegriffe
1. Mengenlehre
2. Rechnen mit Wahrscheinlichkeiten
3. Kombinatorik
4. Bedingte Wahrscheinlichkeit
1
1.1 Mengenlehre
Ereignis: Teilmenge von Ω
Ac := Ω\A . . . KomplementA ∪B . . . VereinigungA ∩B . . . DurchschnittA ∩B = ∅ . . . Disjunkte Mengen
A\B := A ∩Bc
B ⊆ Ac ⇒ A\B =?
Venn Diagramm:
Ω
A
B
Indexschreibweise: Gegeben die Ereignisse A1, A2, . . . , An
⋃n
i=1 Ai = A1 ∪A2 ∪ · · · ∪ An
⋂
n
i=1 Ai = A1 ∩A2 ∩ · · · ∩ An
2
Rechenregeln
• Kommutativgesetz: A ∪B = B ∪A
• Assoziativgesetz: (A ∪B) ∪ C = A ∪ (B ∪ C)
• Distributivgesetz: (A ∪B) ∩ C = (A ∩ C) ∪ (B ∩ C)
• de Morgan: (A ∪B)c = Ac ∩Bc
Alle Regeln gelten auch wenn man ∪ und ∩ konsequentvertauscht!
Weiters gilt (Übung):
A ∩Ac = A ∪ Ac =
A ∪ Ω = A ∩ Ω =
A ∪ ∅ = A ∩ ∅ =
A ∪A = A ∩A =
3
Übung: Zwei Würfel
Es werden ein weisser und ein schwarzer Würfel geworfen.
• Ergebnisraum Ω:
• Welche Teilmengen entsprechen den folgenden Ereignissen
A : = Ein Würfel zeigt 4, der andere 2
B : = der schwarze Würfel zeigt eine gerade Augenzahl derweisse eine ungerade
C := die Summe der Augenzahlen beträgt 8
• Welche der genannten Ereignisse sind disjunkt?
• Bilde (A ∪B)c ∩ C ∪ [A ∩ (B ∪ C)]
4
1.2 Rechnen mit Wahrscheinlichkeiten
1. 0 ≤ P(A) ≤ 1
2. P(∅) = 0, P(Ω) = 1
3. P(A ∪B) = P(A) + P(B) falls A ∩B = ∅.
Einfache Folgerungen:
• A1, . . . , An paarweise disjunkt, dann gilt
P
(
n⋃
i=1
Ai
)
=
n∑
i=1
P(Ai)
• P(A ∪B) = P(A) + P(B)− P(A ∩B) ≤ P(A) + P(B)
• B ⊂ A ⇒ P(B) ≤ P(A)
• P(A\B) = P(A)− P(B ∩A) P(Ac) = 1− P(A)
5
Übung
A,B und C seien Ereignisse (Teilmengen von Ω) jeweils mitWahrscheinlichkeit P(A) = 0.8,P(B) = 0.3,P(C) = 0.7.
Weiters gelte
A ∪ C = Ω, B ⊂ A, B und C sind disjunkt
1. Berechne P(A ∩ C)
2. Welche der folgenden Aussagen sind richtig
(a) A ⊂ C?
(b) C ⊂ A?
(c) B ∪ C = Ω?
6
Ereignisse mit Wahrscheinlichkeit null
Der Formalismus der Wahrscheinlichkeitsrechnung erlaubt auchden Fall, dass ein Ereignis A, obwohl es logisch gesehen möglichist, dennoch Wahrscheinlichkeit null hat: Aus P(A) = 0 folgt nichtzwingend, dass A = ∅.
Beispiel: Wenn wir annehmen, dass ein Punkt X zufällig aus demIntervall [0, 1] gewählt wird, ohne dass irgendein Teilbereich diesesIntervalls bei der Auswahl bevorzugt wird (wir werden später vonGleichverteilung auf [0, 1] sprechen), hat z.B. das Ereignis X = 0.5
die Wahrscheinlichkeit null. Dennoch ist es nicht logisch unmöglich(sonst wäre überhaupt kein Ergebnis möglich!).
Der exakte Aufbau der Wahrscheinlichkeitsrechung wird durch dieBerücksichtigung von Ereignissen mit Wahrscheinlichkeit nullkomplizierter; viele Aussagen brauchen z.B. den Zusatz “mitWahrscheinlichkeit 1”.
7
Laplace’sche Wahrscheinlichkeit
|Ω| = n < ∞ . . . Ergebnisraum mit endlich vielen Elementen
Alle Elementarereignisse gleiche Wahrscheinlichkeit
⇒ P(A) = |A|/n
Berechnung der Wahrscheinlichkeit durch Zählen der Elementeeiner Menge ⇒ Kombinatorik
Beispiel : Urne mit 5 schwarzen und 6 weißen Bällen
Wie groß ist die Wahrscheinlichkeit dass zwei gezogene Bälle weißsind?
a) Mit Zurücklegen: P = 6/11 · 6/11 = 36/121 ∼ 0.2975
b) Ohne Zurücklegen: P = 6/11 · 5/10 = 30/110 ∼ 0.2727
8
1.3 Grundbegriffe der Kombinatorik
Permutation: Anzahl der möglichen Anordnungen von n
verschiedenen Elementen
n! = n · (n− 1) · · · · 1
Beispiel: Auf wie viele verschieden Arten kann man abc anordnen?
abc, acb, bac, bca, cab, cba 3! = 3 · 2 · 1 = 6
Auf wie viele verschieden Arten kann man abcd anordnen?abcd, acbd, bacd, bcad, cabd, cbadabdc, acdb, badc, bcda, cadb, cbdaadbc, adcb, bdac, bdca, cdab, cdbadabc, dacb, dbac, dbca, dcab, dcba
4! = 4 · 3 · 2 · 1 = 24
Man definiert: 0! = 1
9
r - Permutation mit Wiederholung
Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n
Elementen zu ziehen:
Mit zurücklegen, Reihenfolge wesentlich
Beispiel: n = 4, r = 2
aa, ab, ac, ad, ba, bb, bc, bd, ca, cb, cc, cd, da, db, dc, dd
n Möglichkeiten für jede der r Positionen ⇒ nr Möglichkeiten
Übung: Wie viele Zahlen kann man mit allen 10-stelligenZiffernkombinationen im Dualsystem (Ziffern 0 und 1) darstellen?
10
r - Permutation ohne Wiederholung
Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n
Elementen zu ziehen:
Ohne zurücklegen, Reihenfolge wesentlich
Beispiel: n = 4, r = 2 ab, ac, ad, ba, bc, bd, ca, cb, cd, da, db, dc
Nicht mehr relevant: aa, bb, cc, dd
n Möglichkeiten für die erste Position, n− 1 für die zweite, . . .n− r + 1 für die r−te Position
⇒ n · (n− 1) · · · (n− r + 1) = n!(n−r)! Möglichkeiten
Bemerkung: Es muss gelten: r ≤ n
r = n gibt als Spezialfall die normale Permutation
11
r - Kombination ohne Wiederholung
Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n
Elementen zu ziehen:
Ohne zurücklegen, Reihenfolge egal
Beispiel: n = 4, r = 2 ab, ac, ad, bc, bd, cd
Nicht mehr relevant: ba, ca, da, cb, db, dc
Es gibt r! Möglichkeiten die Elemente innerhalb von einer Gruppeanzuordnen
⇒(
n
r
)
:= n·(n−1)···(n−r+1)r! = n!
(n−r)!r! Möglichkeiten
Bemerkung: Es muss klarerweise wieder gelten: r ≤ n
12
r - Kombination mit Wiederholung
Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n
Elementen zu ziehen:
Mit zurücklegen, Reihenfolge egal
Beispiel: n = 4, r = 2 aa, ab, ac, ad, bb, bc, bd, cc, cd, dd
Hinzugekommen: aa, bb, cc, dd
Anzahl der Möglichkeiten:
(
n+r−1r
)
= (n+r−1)!(n−1)! r! =
(n+r−1)···nr!
n = 4, r = 2 : 5!3! 2! =
5·42 = 10
13
Beispiel: r - Kombination mit Wiederholung
Hochzeitsgesellschaft, 30 Gäste, 3 Menüs zur Auswahl
Wieviele Möglichkeiten gibt es 30 Menüs zu bestellen?
Eine Möglichkeit: 8 mal Menü A, 12 mal Menü B, 10 mal Menü C
AAAAAAAA | BBBBBBBBBBBB |CCCCCCCCCC
Durch die beiden Trennsymbole | wird diese Kombination eindeutigfestgelegt
Somit Fragestellung äquivalent dazu, wie viele Möglichkeiten gibtes "zwei Trennwände" zu setzen
Wähle 2 (= n− 1) von 32 (= n+ r − 1) Positionen, Reihenfolgeegal, ohne zurücklegen(
n+r−1n−1
)
=(
n+r−1r
)
=(
322
)
= 31 · 16 = 496
14
Zusammenfassung
Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n
Elementen zu ziehen:
Reihenfolge mit Wiederholung ohne Wiederholung (n ≥ r)
relevant nr
n!/(n− r)!
egal(
n+r−1r
) (
n
r
)
Faktorielle (auch Fakultät):
n! = n · (n− 1) · · · 1, 0! = 1
Binomialkoeffizient:(
n
r
)
= n·(n−1)···(n−r+1)r! = n!
(n−r)! r!
15
Beispiel
8 Männer und 6 Frauen sollen eine Kommitee bestehend aus 3Männern und 3 Frauen bilden. Wieviele mögliche Kommitees gibtes, wenna) 2 Frauen nicht kooperieren wollen?b) 2 Männer nicht kooperieren wollen?c) Ein Mann und eine Frau nicht kooperieren wollen?
Lösung :Ohne Konflikte:
(
83
)(
63
)
= 1120 KommiteesSubtrahiere davon jeweils die Anzahl der unmöglichen Komitees:a)
(
83
) [(
63
)
− 4]
= 896
b)(
63
) [(
83
)
− 6]
= 1000
c)(
83
)(
63
)
−(
72
)(
52
)
= 910
16
Übungsaufgabe (etwas schwierig)
In einem Dorf gibt es 4 Frisöre, und 4 verschiedene Personenwollen zu einem Frisör. Wie groß ist die Wahrscheinlichkeit, dassgenau i Frisöre einen Auftrag erhalten.
Lösung :
• P(i = 1) = 1/64
• P(i = 2) = 21/64
• P(i = 3) = 36/64
• P(i = 4) = 6/64
17
Einschub: Binomischer Lehrsatz
(x+ y)n =n∑
k=0
(
n
k
)
xkyn−k
Beweis durch vollständige Induktion:
1) n = 1 :(
10
)
x0y1−0 +(
11
)
x1y1−1 = x+ y
2) (n− 1) → n : Angenommen der Satz ist richtig für n− 1.
Schreibe (x+ y)n = (x+ y)(x+ y)n−1, verwende den binomischenLehrsatz für (x+ y)n−1 und zeige damit, dass sich die rechte Seite
tatsächlich alsn∑
k=0
(
n
k
)
xkyn−k schreiben läßt.
Hilfreiche Identität für den Beweis:(
n
r
)
=
(
n− 1
r − 1
)
+
(
n− 1
r
)
18
Einschub: Pascalsches Dreieck
Schema der Binomialkoeffizienten:
n = 0 1
n = 1 1 1
n = 2 1 2 1
n = 3 1 3 3 1
n = 4 1 4 6 4 1
n = 5 1 5 10 10 5 1
(x+ y)2 = x2 + 2xy + y
2
(x+ y)3 = x3 + 3x2
y + 3xy2 + y3
(x+ y)4 = x4 + 4x3
y + 6x2y2 + 4xy3 + y
4
19
Übungen
Zug mit 10 Waggons, Schaffner kontrolliert 2 davon; pro Waggonkontrolliert er 2 PersonenEinzigen 4 Schwarzfahrer in einem Waggon mit 12 Fahrgästen
1. Wieviele Möglichkeiten hat Schaffner Waggons zu wählen
2. Mit welcher Wahrscheinlichkeit erwischt er Waggon mit denSchwarzfahrern?
3. Mit welcher Wahrscheinlichkeit erwischt er mindestens einenSchwarzfahrer, wenn er ihren Waggon kennt?
4. Mit welcher Wahrscheinlichkeit erwischt er mindestens einenSchwarzfahrer, wenn er ihren Waggon nicht kennt?
20
1.4 Bedingte Wahrscheinlichkeit
Noch mal Beispiel der Urne mit 5 schwarzen und 6 weißen Bällen.
Wahrscheinlichkeit dass zwei gezogene Bälle weiß sind?
Ohne Zurücklegen: P = 6/11 · 5/10 = 30/110 ∼ 0.2727
In Worten: 6/11 . . . Wahrscheinlichkeit, dass erste Kugel weiß
5/10 . . . Wahrscheinlichkeit, dass zweite Kugel weiß,
falls erste Kugel weiß war
Formal: A . . . erste Kugel weiß
B . . . zweite Kugel weiß
B|A . . .B wenn A, oder B unter der Bedingung A,
d.h. zweite Kugel weiß falls erste Kugel weiß
P(B ∩A) = P(A)P(B|A)
21
Definition bedingte Wahrscheinlichkeit
P(B|A) = P(B ∩ A)/P(A)
Interpretation: Ω und P : Ω → [0, 1] repräsentieren Information zuBeginn eines Experiments, Ω enthält alle möglichen Ereignisse
Zusätzliche Information ⇒ nur Ereignisse möglich, die Teilmengenvon A sind. A wird zum neuen (reduzierten) Ergebnisraum.
Die bedingte Wahrscheinlichkeit eines Ereignisses B entsprichtdem ‘Anteil’ von B an A.
Wir nennen fortan Ω gemeinsam mit P : Ω → [0, 1] einenWahrscheinlichkeitsraum(Bemerkung: Genaugenommen braucht man auch noch eine sog.σ - Algebra A. Wir betrachten zunächst endlicheWahrscheinlichkeitsräume, hier ist A die Potenzmenge von Ω.)
22
Fortsetzung: Bedingte Wahrscheinlichkeit
Die bedingte Wahrscheinlichkeit ist tatsächlich eineWahrscheinlichkeit:
Reduzierter Ergebnisraum A
P(A|A) = P(A ∩A)/P(A) = 1
B ∩ C = ∅ ⇒ P(B ∪ C|A) = P(B|A) + P(C|A)
Übung: In einer LVA gab es zwei Beurteilungstests. 50% derStudierenden bestanden den ersten Test und 35% bestandenbeide Tests. Wieviele Prozent der Studierenden die den erstenTest schafften scheiterten am zweiten Test?
23
Produktformel
Manchmal hilfreich:
P(⋂n
i=1Ai) = P(A1)P(A2|A1)P(A3|A1 ∩A2) · · ·P(An|⋂n−1
i=1 Ai)
Beweis: Iteratives Anwenden der Definition von bed. Wahrsch.
Übung: Übliches Set von Spielkarten zufällig in vier Stapel zu je13 Karten aufgeteilt
Berechne Wahrscheinlichkeit, dass in jedem Stapel ein As
Hinweis: Definiere die Ereignisse
A1 = Pik As befindet sich in irgendeinem Stapel A2 = Pik As und Herz As in verschiedenen Stapeln
A3 = Pik, Herz und Karo As in verschiedenen Stapeln
A4 = Alle Asse in verschiedenen Stapeln
Lösung: 0.1055
24
Satz von der totalen Wahrscheinlichkeit
Seien A1, A2, . . . , An disjunkte Ereignisse und Ω =n⋃
i=1
Ai
Dann gilt
P(A) = P(A1)P(A|A1) + · · ·+ P(An)P(A|An)
Beweis:
Rechte Seite: P(A ∩A1) + · · ·+ P(A ∩An)
Ai disjunkt ⇒ R.S. = P
(
n⋃
i=1
(A ∩Ai)
)
Ai vollständig ⇒n⋃
i=1
(A ∩Ai) = A
25
Satz von Bayes
Seien A und B Ereignisse mit positiver Wahrscheinlichkeit
Dann gilt:
P(A|B) = P(A)P(B|A)/P(B)
Beweis: P(A)P(B|A) = P(B)P(A|B) = P(A ∩B)
Aufgrund des Satzes der totalen Wahrscheinlichkeit gilt auch
P(A|B) =P(A)P(B|A)
P(A)P(B|A) + P(Ac)P(B|Ac)
Typische Anwendung: Bayesianische Statistik
26
Übung Bayes, Totale Wahrscheinlichkeit
Versicherung teilt Autofahrer in 3 Klassen
Prozent P(Unfall im ersten Jahr)
schlecht 30 0.6
mittel 60 0.1
gut 10 0.01
a) Wahrscheinlichkeit für Unfall im ersten Jahr von beliebigemAutofahrer?
Lösung: 0.241
b) Wahrscheinlichkeit, dass jemand der im ersten Jahr einen Unfallhat ein guter Autofahrer ist?
Lösung: 0.00415
27
Interpretation medizinischer Testergebnisse
Gigerenzer et al. (z.B. in “Helping doctors and patients make senseof health statistics”, 2008) zeigen, dass nicht nur Patienten,sondern sogar Ärzte die aus medizinischen Tests abgeleitetenWahrscheinlichkeiten häufig völlig falsch einschätzen.
Beispiel: Ein Labortest auf HIV habe folgende Kennzahlen:
95% Sensitivität (Test positiv falls tatsächlich krank)99% Spezifität (Test negativ falls gesund)
In der untersuchten Region sind 0.5% der Bevölkerung HIV-positiv.
a) Schätze die Wahrscheinlichkeit, dass jemand mit einempositiven Test tatsächlich erkrankt ist!
b) Berechne die Wahrscheinlichkeit, dass jemand mit einempositiven Test tatsächlich erkrankt ist!
28
Unabhängige Ereignisse
Noch mal Beispiel der Urne mit 5 schwarzen und 6 weißen Bällen.
Wahrscheinlichkeit dass zwei gezogene Bälle weiß sind?
Mit Zurücklegen: P = 6/11 · 6/11 = 36/121 ∼ 0.2975
Durch das Zurücklegen werden die beiden EreignisseA = (erste Kugel weiß) und B = (zweite Kugel weiß)voneinander unabhängig: P(B|A) = P(B) = 6/11
Das wissen um A liefert keine Information für B
Allgemeine Definition: Zwei Ereignisse A und B unabhängig falls
P(A ∩B) = P(A)P(B)
Beispiele: Mehrere Würfel, Münzen, etc.
29
Beispiel Unabhängigkeit
In einer Gruppe von Leuten befinden sich 8 Raucher und12 Raucherinnen, sowie 10 Nichtraucher.
Wieviele Nichtraucherinnen sind in der Gruppe, falls bei derzufälligen Wahl einer Person das Geschlecht vom Rauchverhaltenunabhängig ist?
Lösung: Sei x die Zahl der Nichtraucherinnen
P(raucht) = 20/(30 + x) P(männlich) = 18/(30 + x)
P(raucht und männlich) = 8/(30 + x)
Unabhängigkeit: (20/(30 + x)) · (18/(30 + x)) = 8/(30 + x)
⇒ 18 · 20 = 8 · (30 + x) ⇒ 45 = 30 + x
Somit x = 15 Nichtraucherinnen.
30
Multiple Unabhängigkeit
Drei Ereignisse A, B und C heissen unabhängig falls
1. alle 3 Ereignisse jeweils paarweise unabhängig
2. P(A ∩B ∩ C) = P(A)P(B)P(C)
Aus paarweiser Unabhängigkeit folgt NICHT multipleUnabhängigkeit!
Übung: Zwei faire Würfel
Ereignis A: Erster Würfel fällt auf 4
Ereignis B: Zweiter Würfel fällt auf 3
Ereignis C: Summe der Würfel gibt 7
31
Übungen - Wiederholung
1. Urne mit 3 blauen und 2 roten Kugeln,
ziehe 3 mal mit zurücklegen
Mit welcher Wahrscheinlichkeit
• ist die zweite gezogene Kugel blau?
• sind alle gezogenen Kugeln rot?
• sind alle gezogenen Kugeln blau?
• werden 2 rote Kugeln gezogen?
2. Wie 1) aber ziehen ohne zurücklegen!
Hinweis:X . . . Anzahl der gezogenen roten Kugeln ist eine Zufallsvariable
32
Inverse Fallacy
Der falsche Umgang mit bedingten Wahrscheinlichkeiten gehört zuden häufigsten Fehlerquellen in der Anwendung derWahrscheinlichkeitsrechung. Ein verbreiteter Fehlertyp ist diesogenannte inverse fallacy, die intuitive Gleichsetzung von P (A|B)
mit P (B|A) (vgl. auch das obige Beispiel der Interpretationmedizinischer Testergebnisse).
Beispiel: Bei den meisten Unfällen ist das Unfallsopfer weniger als25 km von daheim entfernt. (Irrtümliche) Folgerung: Am sicherstenist man, wenn man so weit von daheim weg ist wie möglich.
P( Entfernung ≤ 25 | Unfall) > P( Entfernung > 25 | Unfall)
ist richtig, nicht aber
P( Unfall | Entfernung ≤ 25) > P( Unfall | Entfernung > 25).
33
Das Drei-Türen-Problem
Ein weiterer Typ von Fehlern im Zusammenhang mit bedingtenWahrscheinlichkeiten resultiert aus der Vernachlässigung desEinflusses neuer Informationen auf die bedingteWahrscheinlichkeit.
Das Drei-Türen-Problem illustriert diesen Effekt. Marilyn vosSavant stellte in ihrer Kolumne im Magazin Parade im Jahr 1990folgende Frage:
“Angenommen Sie sind in einer Gewinnshow und haben die Wahl zwischen 3
Türen: Hinter einer Tür ist ein Auto, hinter den beiden anderen Türen Ziegen. Sie
wählen eine Tür, sagen wir Nr. 1, und der Quizmaster, der weiss, was hinter den
Türen ist, öffnet eine andere Tür, sagen wir Nr. 3, die eine Ziege dahinter hat. Er
sagt dann zu Ihnen: ‘Wollen Sie Tür Nr. 2?’ Ist es vorteilhaft zu wechseln?”
34
Drei-Türen-Problem – Kontroverse
Antwort von vos Savant: Ja, man sollte wechseln.
Zahlreiche Leserbriefschreiber bestritten die Korrektheit derAntwort mit dem Argument: Türen 1 und 2 haben dieselbeWahrscheinlichkeit, auf das Auto zu führen. Was soll sich durchdas Öffnen von Tür 3 (hinter der kein Auto steht) daran ändern? Esbringt also nichts, die ursprüngliche Entscheidung zu revidieren.
Dieses Argument ist falsch . Unter einschränkendenVoraussetzungen (nächste Folie) kann gezeigt werden, dass dieWahrscheinlichkeit, durch Wechseln das Auto zu erhalten, 2/3beträgt, durch Beharren auf der ursprünglichen Wahl hingegennur 1/3.
35
Drei-Türen – Präzisierung
Voraussetzungen:
1. Die Wahrscheinlichkeit, mit der das Quiz-Team vor der Showdas Auto hinter einer der Türen versteckt, ist für jede Türdieselbe.
2. Der Quizmaster öffnet in jedem Fall eine Tür, die kein Autoenthält, und wenn er dabei die Wahl zwischen zwei Türen hat,gibt er beiden Türen dieselbe Wahrscheinlichkeit.
Ohne diese Voraussetzungen ist das Problem wesentlichkomplexer (vgl. etwa Richard Gill 2010).
36
Drei-Türen-Problem – Wahrscheinlichkeiten
Angenommen, der Kandidat wählt Tür Nr. 1.
A = Nr. der Tür, hinter der das Auto ist
B = Nr. der Tür, die der Quizmaster öffnet
Voraussetzung 1 besagt:
P(A = 1) = P(A = 2) = P(A = 3) = 1/3
Voraussetzung 2 besagt:
P(B = 2 |A = 1) = P(B = 3 |A = 1) = 1/2
P(B = 2 | A = 2) = P(B = 3 |A = 3) = 0
P(B = 3 | A = 2) = P(B = 2 |A = 3) = 1
37
Drei-Türen-Problem – Lösung
Anwendung des Satzes von Bayes liefert:
P(A = 1 |B = 3) = P(B = 3 |A = 1) ·P(A = 1)
P(B = 3)=
1
2·
13
P(B = 3)
P(A = 2 |B = 3) = P(B = 3 |A = 2) ·P(A = 2)
P(B = 3)= 1 ·
13
P(B = 3)
also ist die Gewinnwahrscheinlichkeit bei Wechseln doppelt sogross wie bei Beharren auf der ersten Wahl.
(Anwendung des Satzes von der totalen Wahrscheinlichkeit liefertP(B = 3) = 1/2 und damit die Werte 1/3 bzw. 2/3 für die beidenobigen Wahrscheinlichkeiten.)
38
Wahrscheinlichkeitsrechnungfür Statistik und VWLWS 2016/17
2 Diskrete Verteilungen
1. Einführung
2. Erwartungswert und Varianz
3. Die Binomialverteilung
4. Die Poissonverteilung
5. Andere diskrete Verteilungen
1
2.1 Einführung
Beispiel: Fairer Würfel, Beobachtungen: 1, 2, 3, 4, 5, 6
Jede Augenzahl hat Wahrscheinlichkeit pi = 1/6 (i = 1, . . . , 6).
Beim Würfeln beobachten wir Realisierungen einerZufallsvariablen.
(Reelle) Zufallsvariable: Abbildung einesWahrscheinlichkeitsraums in die Menge der reellen Zahlen:
X : Ω → R
Im Beispiel:
Ω = 1, 2, 3, 4, 5, 6
X(i) = i
2
Fortsetzung Beispiel
Zwei faire Würfel, X = Summe der Augenzahlen.
Ω = 1, 2, 3, 4, 5, 6 × 1, 2, 3, 4, 5, 6.
Wahrscheinlichkeit pij für (i, j) ist 1/36 für jedes Paar (i, j).
Zufallsvariable X : Ω → R gegeben durch X(i, j) = i+ j.
P (2) = P (12) = 1/36
P (3) = P (11) = 2/36
P (4) = P (10) = 3/36
P (5) = P (9) = 4/36
P (6) = P (8) = 5/36
P (7) = 6/36
Wertebereich: X = X(Ω) = 2, . . . , 12.
3
Weiteres Beispiel
Faire Münze: Werfe entweder Kopf (K) oder Zahl (Z)
Ω = K,Z
Spiel: Bei Kopf Gewinn von 10 Euro, sonst 10 Euro Verlust
X : Ω → R
X(K) = 10, X(Z) = −10,
P (10) = P(X = 10) = P(K) = 0.5
P (−10) = P(X = −10) = P(Z) = 0.5
Wertebereich: X = X(Ω) = −10, 10.
Bemerkung: In den letzten beiden Beispielen wurden dieElementarereignisse in Ω nicht mit den möglichen Werten derZufallsvariable identifiziert!
4
Diskrete Zufallsvariable
Ergebnisraum Ω mit endlich oder abzählbar vielen Elementen,
d.h. indizierbar mit 1, 2, . . .: Ω = ω1, ω2, ω3, . . .
Eine (reelle) Zufallsvariable X ist eine Funktion der FormX : Ω → R
Der Zufallsvariablen X ist die Wahrscheinlichkeitsfunktion P = PX
wie folgt zugeordnet:
P : X → [0, 1], P (x) = P(X = x) =∑
ω∈Ω:X(ω)=x pω,
wobei pω die Wahrscheinlichkeit des Elementarereignisses ω ∈ Ω
ist.
Wahrscheinlichkeiten der Elementarereignisse beschreibenVerteilung einer diskreten Zufallsvariable vollständig.
5
Verteilungsfunktion
Englisch: Cumulative distribution function (cdf)
F : R → [0, 1], F (x) = P(X ≤ x) =∑
xi≤x P(X = xi)
Beispiel Würfel:
−2 0 2 4 6 8
0
0.2
0.4
0.6
0.8
1
F(x
) =
P(X
≤ x
)
x
6
Gleichverteilung
n mögliche Ereignisse mit gleicher Wahrscheinlichkeit
Ω = 1, . . . , n pi = 1/n
Wählen X(i) = i, d.h. X = Ω.
Verteilungsfunktion:
F (x) =
0, x < 1
i/n, i ≤ x < i+ 1, i = 1, . . . , n− 1
1, x ≥ n
An den Stellen x ∈ Ω springt Verteilungsfunktion um den Wert 1/n
Auch bei anderer Wahl der pi gilt folgender Zusammenhangzwischen Verteilungsfunktion und Wahrscheinlichkeitsfunktion:
P (i) = F (i)− F (i− 1), falls i ∈ Ω = 1, . . . , n
7
Eigenschaften der Verteilungsfunktion
Für diskrete Zufallsvariablen gilt:
Die Verteilungsfunktion ist eine monoton wachsendeTreppenfunktion mit Sprungstellen bei Ereignissen mit positiverWahrscheinlichkeit.
Es gilt allgemein für Verteilungsfunktionen:
• P (x) = F (x)− F (x−), wobei F (x−) = limh→x,h<x
F (h)
Folgt aus der Definition von F (x) = P(X ≤ x)
• P(a < X ≤ b) = F (b)− F (a)
• lima→−∞
F (a) = 0, limb→∞
F (b) = 1
• F (x) monoton wachsend
8
Übung
Die Verteilungsfunktion einer Zufallsvariablen X sei
F (x) =
0, x < 1
1− 2−k, k ≤ x < k + 1, k = 1, 2, . . .
1. Zeiche die Verteilungsfunktion im Bereich x ∈ [0, 5]
2. Bestimme die Wahrscheinlichkeitsfunktion von X
3. Mit welcher Wahrscheinlichkeit ist X > 5?
9
2.2 Erwartungswert und Varianz
Wesentliche Kenngrößen von Verteilungen
Werden in der Praxis häufig verwendet
⇒ Reduktion der Information von Daten
Erwartungswert ist ein Maß für die zentrale Lage einer Verteilung,entspricht dem arithmetischen Mittel einer Stichprobe
Varianz ist ein Maß für die Streuung einer Verteilung,entspricht den Abweichungen vom Mittelwert die man in einerStichprobe erwarten kann
Beide Kennzahlen basieren auf Momenten der Verteilung, und sindspeziell für die Normalverteilung von großer Bedeutung
10
Erwartungswert
Diskrete Zufallsvariable X auf Ω mit Wahrscheinlichkeitsfunktion P
Definition Erwartungswert:
E(X) =∑
x∈X
xP (x)
wobei wieder X = X(Ω) = Wertebereich von X .
Gewichtete Summe der Werte, Gewichte sindWahrscheinlichkeiten.
Übliche Notation: µ = E(X)
Beispiel Würfel:
E(X) = 1 · 1/6 + 2 · 1/6 + · · ·+ 6 · 1/6
=1 + 2 + 3 + 4 + 5 + 6
6= 21/6 = 3.5
11
Median
Unter einem Median einer Zufallsvariablen X auf Ω versteht maneine Zahl m mit den Eigenschaften
P(X ≤ m) ≥ 1/2, P(X ≥ m) ≥ 1/2.
Der Median muss nicht eindeutig sein. Z.B. hat eine auf 1, . . . , 5gleichverteilte Zufallsvariable einen eindeutigen Median (m = 3).Für eine auf 1, . . . , 6 gleichverteilte Zufallsvariable hingegen istjede Zahl m mit 3 < m < 4 ein Median. Meist nimmt man in diesemFall den mittleren Wert (hier 3.5) als Repräsentaten.
Der Median kann sich vom Erwartungswert stark unterscheiden(typisches Beispiel: Einkommensverteilung!). Für eine auf4, 5, 6, 8, 13, 18, 93 gleichverteilte Zufallsvariable etwa ist derMedian 8, der Erwartungswert 21.
12
Funktionen von Zufallsvariablen
Erweitern eine Zufallsvariable X auf Ω durch Verknüpfung mit einerFunktion g:
X : Ω → R, g : R → R.
Y (ω) := (g X)(ω) = g(X(ω)).
Y : Ω → R, ist also wieder eine Zufallsvariable.
Die Wahrscheinlichkeitsfunktion von Y wird ganz analog gebildetwie die von X :
PY (y) = PY (Y = y) =∑
ω∈Ω:Y (ω)=y pω.
Der Wertebereich Y von Y ist Y = Y (Ω) = g(X(Ω)) = g(X ).
D.h. die Werte x werden transformiert zu Werten g(x).Wahrscheinlichkeiten addiert für alle x mit gleichem Wert g(x).
13
Beispiele für Funktionen von Zufallsvariablen
1. Würfel, Ω = 1, . . . , 6, X(ω) = ω, Funktion g(x) = x2
Die Zufallsvariable Y = X2 hat WertebereichY = 1, 4, 9, 16, 25, 36 und WF
PY (1) = PY (4) = PY (9) = PY (16) = PY (25) = PY (36) = 1/6
2. Würfel, Ω = 1, . . . , 6, Funktion g(x) = (x− 3.5)2.
Die Zufallsvariable Z = (X − 3.5)2 hat WertebereichZ = 2.52, 1.52, 0.52 = 6.25, 2.25, 0.25 und WF
P (6.25) = p1 + p6 = 1/3
P (2.25) = p2 + p5 = 1/3
P (0.25) = p3 + p4 = 1/3
Übung: Ω = −1, 0, 1, X(ω) = ω,
P(X = −1) = P(X = 1) = 1/4, P(X = 0) = 1/2
Berechne WF von Y = X2 und Z = X
3
14
Erwartungswert von Funktionen
Beispiel: Würfel – Fortsetzung:
1) E(g(X)) = E(Y ) = 1 · 1/6 + 4 · 1/6 + · · ·+ 36 · 1/6
=1 + 4 + 9 + 16 + 25 + 36
6= 91/6 = 15.1667
2) E(g(X)) = E(Z) = 6.25/3 + 2.25/3 + 0.25/3 = 2.9167
Allgemein: Berechnung des Erwartungswerts von g(X):
E(g(X)) =∑
x∈X
g(x)P (x)
Alternative Darstellung:∑
x∈X
g(x)P (x) =∑
y∈Y
yPY (y)
15
Anwendungsbeispiel: Erwartungsnutzentheorie
Wenn die Zufallsvariable X “Gewinn” repräsentiert, kann voneinem risikoneutralen Entscheidungsträger vermutet werden,dass er/sie bestrebt ist, E(X) zu maximieren.
Menschen sind selten risikoneutral. Was hätten Sie lieber:
• 1 000 000 Euro mit Sicherheit, oder
• 2 000 001 Euro mit Wahrscheinlichkeit 0.5?
Ein klassischer Erklärungsansatz für Risikoaversion liegt in derAnnahme, dass der Entscheidungsträger nicht E(X) maximiert,sondern E(g(X)), wobei g eine konkave Nutzenfunktion ist(Expected Utility Theory).
16
Lineare Transformation
Allgemein gilt für a, b ∈ R:
E(aX + b) = aE(X) + b
Beweis:
E(aX + b) =∑
x∈X
(ax+ b)P (x)
= a
∑
x∈X
xP (x) + b
∑
x∈X
P (x)
= aE(X) + b
Speziell gilt: E(X − µ) = E(X − E(X)) = 0
17
Varianz
Definition : Var (X) := E(X − µ)2
Folgende Formel, die mitunter leichter zu berechnen ist alsE(X − µ)2, ist äquivalent:
Var (X) = E(X2)− µ2
Beweis:
E(X − µ)2 =∑
x∈X
(x− µ)2P (x) =∑
x∈X
(x2 − 2µx+ µ2)P (x)
=∑
x∈X
x2P (x)− 2µ
∑
x∈X
xP (x) + µ2∑
x∈X
P (x)
= E(X2)− 2µ2 + µ2 = E(X2)− µ
2
Übung: Varianz Augenzahl Würfelwurf mit beiden Formeln
18
Beispiel zur Varianz
Drei Zufallsvariablen X1, X2, X3
X1 = 0 mit Wahrscheinlichkeit 1
X2 gleichverteilt auf −1, 0, 1
X3 gleichverteilt auf −50,−25, 0, 25, 50
Alle drei Zufallsvariabeln haben Erwartungswert 0
Var (X1) = 02 · P (0) = 0
Var (X2) = (−1)2 · 1/3 + 12 · 1/3 = 2/3
Var (X3) = (−50)2 · 1/5 + (−25)2 · 1/5 + 252 · 1/5 + 502 · 1/5 = 1250
Varianz plus MW gibt mehr Information über Verteilung alsMittelwert allein
19
Eigenschaften der Varianz
Allgemein gilt für a, b ∈ R:
Var (aX + b) = a2Var (X)
Beweis :
Var (aX + b) = E(aX + b− aµ− b)2 = a2E(X − µ)2
Speziell: Var (−X) = Var (X)
Var (X + b) = Var (X)
Übliche Notation : σ2 = Var (X)
σ . . . Standardabweichung: SD(X) =√
Var (X)
20
Warum ist die Varianz ein gutes Maß?
Man kann sich fragen, weshalb nicht anstelle der Varianz diemittlere Absolutabweichung E(|X − µ|) als Streuungsmaßgenommen wird.
Die Varianz hat jedoch mehrere thoretische und praktischeVorteile. Z.B. hätte man gerne, dass das Maß für die Abweichungvon einem Wert µ′ dann am niedrigsten ist, wenn µ
′ derErwartungswert µ ist. Dies ist jedoch für die mittlereAbsolutabweichung nicht der Fall: Für Gleichverteilung auf 0, 4, 5etwa ist µ = 3, aber E(|X − 3|) = 2 > 5/3 = E(|X − 4|).Quadrieren der Abweichungen erfüllt die angegebene Forderung,denn
E((X − µ′)2) = E([(X − µ) + (µ− µ
′)]2)
= Var (X) + (µ− µ′)2 +2E((X − µ)(µ− µ
′)) = Var (X) + (µ− µ′)2.
21
Momente von Verteilungen
k-tes Moment einer Zufallsvariable: mk := E(Xk)
k-tes zentriertes Moment: zk = E((X − µ)k)
m1 . . . Mittelwert
z2 = m2 −m21 . . . Varianz
Weiters von Bedeutung sind das dritte und das vierte Moment
Schiefe: ν(X) := z3σ3 = E(X3
∗) wobei X
∗:= (X − µ)/σ
• ν(X) = 0 . . . symmetrische Verteilung
• ν(X) < 0 . . . linksschief
• ν(X) > 0 . . . rechtsschief
Kurtosis: z4σ4 = E(X4
∗) (auch Wölbung)
22
Übung: Schiefe
Eine Zufallsvariable X habe folgende Wahrscheinlichkeits-verteilung:
P (1) = 0.05, P (2) = 0.1, P (3) = 0.3, P (4) = 0.5, P (5) = 0.05
Zeichne Wahrscheinlichkeitsfunktion und Verteilungsfunktion
Berechne die Schiefe!
Lösung: −0.6720.843/2 ∼ −0.8729
Wie lautet die Schiefe für die folgende leicht veränderte Verteilung?
P (1) = 0.05, P (2) = 0.3, P (3) = 0.3, P (4) = 0.3, P (5) = 0.05
23
2.3 Binomialverteilung
Bernoulli - Experiment: Zwei mögliche Ergebnisse (0 oder 1)
P(X = 1) = p, P(X = 0) = q wobei q = 1− p
Zum Beispiel faire Münze: p = 1/2
Beispiel: Werfe unfaire Münze zwei mal. P(Kopf) = p = 0.7
Wahrscheinlichkeitsverteilung der Anzahl der Köpfe Z?
Ω = 0, 12, Wertebereich von Z ist Z = 0, 1, 2
Die beiden Würfe sind voneinander unabhängig!
P(Z = 0) = P(X1=0, X2=0) = P(X1=0)P(X2=0) = 0.32 = 0.09
P(Z = 1) = P(X1=0, X2=1) + P(X1=1, X2=0) =
= 2 · P(X1=0)P(X2=1) = 2 · 0.3 · 0.7 = 0.42
P(Z = 2) = P(X1=1, X2=1) = P(X1=1)P(X2=1) = 0.72 = 0.49
24
Binomialverteilung
n unabhängige Bernoulli Experimente mit P(X = 1) = p
Y := Anzahl der Experimente mit Ausgang 1 binomialverteilt:
P(Y = k) =(
n
k
)
pkqn−k
Beweis: Unabhängigkeit ⇒ Wahrscheinlichkeit für jedeeinzelne Sequenz mit k mal 1 und n− k mal 0 (in irgendeinerfesten Reihenfolge) ist pk(1− p)n−k
Anzahl der Sequenzen mit dieser Eigenschaft: k-Kombination ohneWiederholung
Notation: Y ∼ B(n, p)
Übung: Fünf unabhängige Würfe einer fairen Münze
Berechne Wahrscheinlichkeitsfunktion der Anzahl der Köpfe!
25
Beispiel Binomialverteilung
Prüfung mit Durchfallsquote von 20%
Anzahl der Erfolge beim Antritt von 10 Studierenden?
P(X = 7) =
(
10
7
)
· 0.87 · 0.23 = 0.2013
0 1 2 3 4 5 6 7 8 9 100
0.05
0.1
0.15
0.2
0.25
0.3
0.35
26
Beispiele Binomialverteilung: n = 10
p = 0.1
0 1 2 3 4 5 6 7 8 9 100
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0 1 2 3 4 5 6 7 8 9 100
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
p = 0.2
p = 0.3
0 1 2 3 4 5 6 7 8 9 100
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0 1 2 3 4 5 6 7 8 9 100
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
p = 0.5
27
Anwendung: Ziehen mit Zurücklegen
Grundgesamtheit mit N Objekten
• M der N Objekte erfüllen Eigenschaft E
• Ziehe n Objekte mit zurücklegen
Die Zahl X der gezogenen Objekte, die Eigenschaft E erfüllen istbinomialverteilt:
X ∼ B(n,M/N)
Übung: Urne mit 3 schwarzen und 9 weißen Kugeln; ziehe 5Kugeln mit zurücklegen, X . . . Zahl der gezogenen schwarzenKugeln
• Wahrscheinlichkeitsfunktion von X?
• Erwartungswert von X?
28
Erwartungswert der Binomialverteilung
X ∼ B(n, p) ⇒ E(X) = np
Unter Verwendung von k(
n
k
)
= n(
n−1k−1
)
E(X) =n∑
k=1
k
(
n
k
)
pkqn−k = np
n∑
k=1
(
n− 1
k − 1
)
pk−1
qn−k
= np
n−1∑
i=0
(
n− 1
i
)
piqn−1−i
und aufgrund des binomischen Lehrsatzes
n−1∑
i=0
(
n− 1
i
)
piqn−1−i = (p+ q)n−1 = 1
Alternativer Beweis: Differenziere (p+ q)n nach p
29
Varianz der Binomialverteilung
X ∼ B(n, p) ⇒ Var (X) = npq
Wiederum unter Verwendung von k(
nk
)
= n(
n−1k−1
)
E(X2) =
n∑
k=1
k2
(
n
k
)
pkqn−k = np
n∑
k=1
k
(
n− 1
k − 1
)
pk−1
qn−k
= np
n−1∑
i=0
(i+ 1)
(
n− 1
i
)
piqn−1−i = np (n− 1)p+ 1
und daher
Var (X) = E(X2)− µ2 = np (n− 1)p+ 1 − (np)2 = np(1− p)
Alternativer Beweis: Differenziere (p+ q)n zwei mal nach p
30
2.4 Die Poissonverteilung
Definition: X = N0 = 0, 1, 2, · · ·
P(X = k) = λk
k! e−λ
, λ > 0
Notation: X ∼ P(λ)
Poisson-verteilte Zufallsvariable kann im Prinzip beliebig großeWerte annehmen, allerdings mit sehr geringer Wahrscheinlichkeit
Beispiel: λ = 2
P(X ≤ 1) =20
0!e−2 +
21
1!e−2 = (1 + 2)e−2 = 0.4060
P(X > 4) = 1− P(X ≤ 4) = 1− (1 + 2 +4
2+
8
6+
16
24)e−2
= 1− 0.9473 = 0.0527
31
Beispiele Poissonverteilung
λ = 1
0 1 2 3 4 5 6 7 8 9 10 11 120
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0 1 2 3 4 5 6 7 8 9 10 11 120
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
λ = 1.5
λ = 3
0 1 2 3 4 5 6 7 8 9 10 11 120
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0 1 2 3 4 5 6 7 8 9 10 11 120
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
λ = 5
32
Anwendung
Modellierung von seltenen Ereignissen
Beispiele
• Zahl der Kunden innerhalb eines bestimmten Zeitraums
• Radioaktiver Zerfall
• Zahl von Tippfehlern pro Folie
• Zahl von Menschen älter als 100 Jahre (pro 1 000 000)
• Zahl von Fehlalarmen an einem Tag
• etc.
Zusammenhang zwischen Poisson-verteilten Ereignissen und derWartezeit zwischen zwei Ereignissen ⇒ Exponentialverteilung
33
Erwartungswert und Varianz
X ∼ P(λ) ⇒ E(X) = λ
Beweis:
E(X) =
∞
∑
k=0
kλk
k!e−λ = e
−λ
∞
∑
k=1
λk
(k − 1)!= λe
−λ
∞
∑
j=0
λj
j!
X ∼ P(λ) ⇒ Var (X) = λ
Beweis:
E(X2)=∞
∑
k=0
k2λ
k
k!e−λ=e
−λ
∞
∑
k=1
kλk
(k − 1)!=λe
−λ
∞
∑
j=0
(j + 1)λj
j!=λ(λ+1)
E(X2)− E(X)2 = λ(λ+ 1)− λ2 = λ
34
Approximation der Binomialverteilung
X ∼ B(n, p), wobei n groß und p klein (z. Bsp. n > 10 und p < 0.05)
⇒ X ∼ P(np) approximativ,d.h. X ist näherungsweise Poisson-verteilt mit Parameter λ = np
Motivation: Setze λ := np
P(X = k) =n!
k! (n− k)!pkqn−k
=n(n− 1) · · · (n− k + 1)
k!·λk
nk·(1− λ/n)n
(1− λ/n)k
Für n groß und moderates λ (d.h. p klein) gilt
n(n− 1) · · · (n− k + 1)
nk≈ 1 (1−λ/n)k ≈ 1 (1−λ/n)n ≈ e
−λ
und daher P(X = k) ≈ λk
k! e−λ
35
Beispiel Poissonapproximation
Vergleich Poissonapproximation (λ = 0.5) mit exakterVerteilungsfunktion einer Binomialverteilung (n = 10, p = 0.05)
0 1 2 3 4 5 60.55
0.6
0.65
0.7
0.75
0.8
0.85
0.9
0.95
1
Blau: X ∼ B(10, 0.05)
Grün: X ∼ P(0.5)
Binomial:
P(X ≤ 3) = 0.9510 + 10 · 0.05 · 0.959
+ 45 · 0.052 · 0.958 + 120 · 0.053 · 0.957
= 0.99897150206211
Poissonapproximation:
P(X ≤ 3) =
≈
(
1 + 0.5 +0.52
2+
0.53
6
)
e−0.5
= 0.99824837744371
36
2.5 Andere diskrete Verteilungen
Wir werden behandeln:
• Geometrisch
• Hypergeometrisch
Weitere Verteilungen (hier nicht behandelt):
• Negativ binomial
• Verallgemeinerte Poisson
• Zetaverteilung
• etc.
37
Geometrische Verteilung
Unabhängige Bernoulli - Experimente mit Wahrscheinlichkeit p
X . . . Anzahl der Versuche bis zum ersten Erfolg
Es gilt: P(X = k) = qk−1 p
k − 1 Miserfolge mit Wahrscheinlichkeit q = 1− p
Übung: Urne mit N weißen und M schwarzen Bällen
Ziehen mit zurücklegen
a) Wahrscheinlichkeit, dass man exakt k Versuche braucht, biseine schwarze Kugel gezogen wird
b) Wahrscheinlichkeit, dass man höchstens k Versuche braucht,bis eine schwarze Kugel gezogen wird
38
Erwartungswert und Varianz
Beachte:∞∑
k=0
qk = 11−q
und daher∞∑
k=1
qk−1p = p
1−q= p
p= 1
Differenzieren liefert:∞∑
k=1
kqk−1 = d
dq
∞∑
k=0
qk = 1
(1−q)2
E(X) =∞
∑
k=1
kqk−1
p =p
(1− q)2=
1
p
Nochmals Differenzieren:∞∑
k=1
k(k − 1)qk−2 = d2
dq2
∞∑
k=0
qk = 2
(1−q)3
E(X2) =∞
∑
k=1
k2qk−1
p = pq
∞
∑
k=1
k(k−1)qk−2+p
∞
∑
k=1
kqk−1 =
2pq
p3+
1
p
Und daher: Var (X) = E(X2)− E(X)2 = 2p2 − 1
p− 1
p2 = 1−p
p2
39
Beispiel: Iterierte Spiele
Für die Theorie der Iterierten Spiele ist folgendes Beispielgrundlegend: Ein Spiel kann mehrere Runden hindurch fortgesetztwerden. Nach jeder Runde kommt es mit einer Wahrscheinlichkeitq < 1 zu einer weiteren Runde; andernfalls wird die Serieabgebrochen. In Runde k (k = 1, 2, . . .) erzielt der Spieler einenGewinn der Höhe ak. Wie hoch ist der erwartete Gesamtgewinn?
Offensichtlich ist die Anzahl der gespielten Runden geometrischverteilt. Die Wahrscheinlichkeit, dass Runde k zustandekommt, istqk−1.
E(Gesamtgewinn) =∞
∑
k=1
akqk−1 =
∞
∑
k=0
ak+1qk.
Für ak ≡ a ergibt das z.B. a/(1− q).
40
Beispiel: St.-Petersburg-Paradoxon
Das folgende klassische Beispiel, das ebenfalls auf dergeometrischen Verteilung beruht, weist auf die Grenzen desKonzepts “Erwartungswert” hin:
St.-Petersburg-Paradoxon. Ein Casino bietet eine Spielvariantegemäß folgenden Regeln an: Eine Münze wird so lange geworfen,bis zum ersten Mal “Kopf” kommt. Sei K die Anzahl der dafürnötigen Münzwürfe. Der Spieler erhält eine Auszahlung der HöheX = 2K .
Wieviel sollte der Spieler bereit sein zu bezahlen, um dieses Spielspielen zu dürfen?
41
St.-Petersburg-Paradoxon: Fortsetzung
Fair ist das Spiel offenbar dann, wenn der Einsatz des Spielersgerade den Erwartungswert der Auszahlung kompensiert. Dieserist jedoch
E(X) =
∞
∑
k=1
2k · (1/2)k−1 · (1/2) =∞
∑
k=1
1 = ∞,
denn die Zufallsvariable K ist geometrisch verteilt mit q = 1/2.
Obwohl die tatsächlich resultierende Auszahlung mitWahrscheinlichkeit 1 nur endlich ist (da die geometrisch verteilteZufallsvariable K m.W. 1 einen endlichen Wert annimmt), scheintdas Spiel einen unendlich hohen Einsatz wert zu sein!
Konsequenz: Der Erwartungswert ist nur dann ein sinnvolles Maß,wenn er endlich ist.
42
Hypergeometrische Verteilung
Binomialverteilung: Ziehen aus einer Urne mit Zurücklegen
Übung: Urne, 3 Kugeln schwarz, 5 Kugeln weiß,Ziehe 4 Kugeln mit bzw. ohne Zurücklegen.
Berechne jeweils Verteilung der gezogenen schwarzen Kugeln!
0 1 2 3 40
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
Mit Zurücklegen
0 1 2 3 40
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
Ohne Zurücklegen
43
Hypergeometrische Verteilung
N Objekte von denen M eine Eigenschaft E erfüllen. Ziehe n
Objekte ohne zurücklegen, X die Anzahl der gezogenen Objektemit Eigenschaft E .
P(X = k) =(Mk )(
N−Mn−k )
(Nn)
Wir verwenden hier die Definition(
ab
)
= 0, falls a < b
Klarerweise gilt P(X = k) = 0 falls M < k
Ich kann nicht mehr schwarze Kugeln ziehen als vorhanden
Ebenfalls klar dass P(X = k) = 0 falls N −M < n− k
Ich kann nicht mehr weiße Kugeln ziehen als vorhanden
Insgesamt: X = k : max(0, n−N +M) ≤ k ≤ min(n,M)
44
Erwartungswert und Varianz
Ohne Beweis gilt (Berechnungen nicht schwierig aber länglich)
E(X) = nMN
, Var (X) = nMN
(1− MN)N−nN−1 ,
Definiere p := MN
und betrachte Ähnlichkeit zurBinomialverteilung
E(X) = np gleiche Formel wie bei Binomial
Var (X) = np(1− p)N−nN−1 asymptotisch wie bei Binomial
Nämlich limN→∞
N−nN−1 = 1
Wenn N und M sehr groß im Vergleich zu n, dann giltnäherungsweise X ∼ B(n, M
N) (ohne Beweis)
45
Beispiel Hypergeometrische Verteilung
Qualitätskontrolle: Lieferung von 30 Kartons mit Eiern,10 Kartons enthalten zumindest ein zerbrochenes Ei,Stichprobe der Größe 6
• Mit welcher Wahrscheinlichkeit enthalten zwei der sechsentnommenen Kartons kaputte Eier?
N = 30,M = 10, n = 6
P(X = 2) =
(
102
)(
204
)
(
306
) = 0.3672
• Erwartungswert und Varianz für die Anzahl der Kartons in derStichprobe mit kaputten Eiern?
E(X) = 6 · 1030 = 2; Var (X) = 6 · 1
3 · 23 · 24
29 = 1.1034
46
Übung Approximation durch Binomialverteilung
Lotterie mit 1000 Losen, davon 200 GewinnloseKaufe 5 Lose
1. Berechne die Wahrscheinlichkeit, dass mindestens ein Losgewinnt
Lösung: 0.6731
2. Berechne die Gewinnwahrscheinlichkeit von 1. mittelsBinomial-Approximation
Lösung: 0.6723
47
Zusammenfassung diskrete Verteilungen
• Gleichverteilung: X = x1, . . . , xn , P(X = xk) = 1/n
• Binomialverteilung: X ∼ B(n, p), P(X = k) =(
nk
)
pkqn−k
Es gilt E(X) = np, Var (X) = npq X = 0, . . . , n
• Poissonverteilung: X ∼ P(λ), P(X = k) = λk
k! e−λ
Es gilt E(X) = λ, Var (X) = λ X = 0, 1, 2 . . .
• Geometrische Verteilung: P(X = k) = p qk−1
Es gilt E(X) = p−1
, Var (X) = q p−2 X = 1, 2 . . .
• Hypergeometrische: P(X = k) =(
M
k
)(
N−M
n−k
)
/(
N
n
)
Es gilt E(X) = np, Var (X) = np(1− p)N−nN−1 , p = M
N
48
Wahrscheinlichkeitsrechnungfür Statistik und VWLWS 2016/17
3 Stetige Verteilungen
1. Einführung
2. Exponentialverteilung
3. Normalverteilung
4. Normalverteilungsapproximation
5. Andere stetige Verteilungen
1
3.1 Einführung
Diskrete Zufallsvariable: Ω endlich oder abzählbar
Stetige Zufallsvariable: Ω ist ein Intervall des Raums R (oder einkartesisches Produkt von Intervallen im Raum R
n)
Beispiele:
• Wartezeit auf den nächsten Kunden
• Größe bzw. Alter einer Person
• Umsatz einer Firma
• Gewicht eines Gegenstandes
Reelle (auch: metrische) Variable: Wert lässt sich durch eine reelleZahl beschreiben
2
Verteilungsfunktion
Einer stetigen Zufallsvariable ist eine stetige Verteilungsfunktionzugeordnet:
F (x) = P(X ≤ x) stetig in x
Beispiel: Gleichverteilung auf Intervall [0, 1]
−1 −0.5 0 0.5 1 1.5 2−1
−0.5
0
0.5
1
1.5
2
x
F(x
)
3
Berechnung von Wahrscheinlichkeiten
Wahrscheinlichkeit für bestimmtes Ereignis immer gleich 0:
P(X = x) = F (x)− F (x−) = 0 wegen Stetigkeit von F
Es macht mehr Sinn, nach Wahrscheinlichkeit zu fragen, mit der Xeinen Wert in einem Intervall [a, b] annimmt:
P(a ≤ X ≤ b) = F (b)− F (a)
So gilt für eine gleichverteilte Zufallsvariable XId auf [0, 1], falls0 ≤ a < b ≤ 1:
P(a < XId < b) = b− a
Beachte: P(X ≤ b) = P(X < b) + P(X = b) = P(X < b)
4
Dichtefunktion
Sei F (x) differenzierbar.
Definition: f(x) := F′(x) Dichtefunktion der Zufallsvariable X
Hauptsatz der Analysis:
F (x) =∫
f(x)dx+ c
und daher
P(a < X ≤ b) = F (b)− F (a) =
b∫
x=a
f(x)dx
Zum Vergleich: Bei diskreten Zufallsvariablen ist
P(a < X ≤ b) = F (b)− F (a) =∑
a<x≤b
P (x)
5
Eigenschaften der Dichtefunktion
Für die Dichtefunktion (kurz Dichte) gilt
• f(x) ≥ 0, ∀x ∈ R
•∞∫
x=−∞
f(x)dx = 1
Die Dichtefunktion f(x) ist nicht die Wahrscheinlichkeit dafür, dassX den Wert x annimmt!
Für kleines ǫ gilt
P(x− ǫ < X ≤ x+ ǫ) ≈ f(x) · 2ǫ
6
Beispiele
1) X gleichverteilt auf dem Intervall [0, 1]
F (x) = x, x ∈ [0, 1] ⇒ f(x) = 1, x ∈ [0, 1]
2) X gleichverteilt auf dem Intervall [l, r], l < r, l, r ∈ R
f(x) = c, x ∈ [l, r]
Welchen Wert hat c?
3) X mit Dichte f(x) =
cx2, x ∈ [0, 1]
0 sonst
Welchen Wert hat c?
Berechne P(0.25 < X < 0.75)
7
Erwartungswert und Varianz von stetigen ZV
Analog zur Definition bei diskreten ZV:
E(X) =∞∫
x=−∞
xf(x)dx
und
Var (X) =∞∫
x=−∞
(x− µ)2f(x)dx
Es gilt wiederum: E(aX + b) = aE(X) + b
Var (aX + b) = a2Var (X)
Übung: X gleichverteilt auf [0, 1]. Berechne Erwartungswert undVarianz!
8
Erwartungswert von Funktionen von ZV
Analog zum Fall von diskreten ZV gilt für stetige ZV (ohne Beweis):
E(g(X)) =∞∫
x=−∞
g(x)f(x)dx
Daher folgt: Var (X) = E(X − E(X))2
Und auch: Var (X) = E(X2)− E(X)2
∞∫
x=−∞
(x− µ)2f(x)dx =
∞∫
x=−∞
(x2 − 2µx+ µ2)f(x)dx
=
∞∫
x=−∞
x2f(x)dx− 2µ
∞∫
x=−∞
xf(x)dx+ µ2
9
Funktionen von stetigen Zufallsvariablen
Sei g eine reellwertige Funktion g : X → R und g(X ) = Y.
Falls g streng monoton wachsend, existiert Umkehrabbildungg−1 : Y → X
Verteilungsfunktion von Y = g(X) berechnet man wie folgt:
FY (y) = P(g(X) ≤ y) = P(X ≤ g−1(y)) = F (g−1(y))
Beispiel: X gleichverteilt auf [0, 1], Y := g(X) = eX
g−1(y) = ln(y)
Y = g(X ) = [e0, e1] = [1, e]
FY (y) = P(Y ≤ y) = FX(ln(y)) = ln(y), y ∈ [1, e]
10
Funktionen von stetigen Zufallsvariablen
Interpretation: Koordinatenwechsel
Die Werte der Zufallsvariable werden transformiert
Bei streng monotoner Transformation bleiben dieWahrscheinlichkeiten der transformierten Intervalle gleich(vgl. diskrete Zufallsvariable)
−1 −0.5 0 0.5 1 1.5 2−1
−0.5
0
0.5
1
1.5
2
x
F(x
)
0.5 1 1.5 2 2.5 3−1
−0.5
0
0.5
1
1.5
2
y = g(x)
FY(y
)
11
Funktionen von stetigen Zufallsvariablen
Falls g streng monoton fallend ⇒ g−1 existiert
P(g(X) ≤ y) = P(X ≥ g−1(y)) = 1−P(X < g
−1(y)) = 1−F (g−1(y))
Im allgemeinen Fall (keine Monotonie von g) wird der Urbildraumvon g zerlegt in Intervalle wo g monoton fällt bzw. monoton wächst
Beispiel: X gleichverteilt auf [0, 1], Y := g(X) = (X − 12 )
2
g ist m.f. auf [0, 12 ], m.w. auf [ 12 , 1] g−1(y) = 1
2 ±√y
P((X − µ)2 ≤ y) = P(1/2−√y ≤ X ≤ 1/2 +
√y)
= FX(1/2 +√y)− FX(1/2−
√y)
12
Dichte von transformierten Zufallsvariablen
g streng monoton und differenzierbar
Wie lautet Dichte von Y = g(X)?
fY (y) =ddyFY (y) =
ddyF (g−1(y)) = fX(g−1(y)) · d
dyg−1(y)
(Differenzieren der transformierten Verteilungsfunktion unterBeachtung der Kettenregel!)
Beispiel: (Fortsetzung) X gleichverteilt auf [0, 1], Y = g(X) = eX
FY (y) = ln(y), y ∈ [1, e] ⇒ fY (y) =1y, y ∈ [1, e]
Oder mit Formel: fX(g−1(y)) = 1 denn fX(x) ≡ 1
d
dyg−1(y) =
1
y
13
3.2 Exponentialverteilung
Stetige Zufallsvariable X ist exponentialverteilt mit Parameterλ > 0 falls Dichte
f(x) =
λe−λx
, x ≥ 0
0, x < 0
Zugehörige Verteilungsfunktion
F (x) =
1− e−λx
, x ≥ 0
0, x < 0
Beweis: Einfache Integration
14
Plots Exponentialverteilung
Dichte und Verteilungsfunktion für Parameter λ = 1, 2 und 3
0 0.5 1 1.5 2 2.5 30
0.5
1
1.5
2
2.5
3
x
f(x)
λ = 1λ = 2λ = 3
0 0.5 1 1.5 2 2.5 30
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
x
F(x
)
λ = 1λ = 2λ = 3
Je größer λ desto schneller fällt die Dichtefunktion.
Wir vermuten daher: Je größer λ desto kleiner µ und auch σ.
15
Erwartungswert
X exponentialverteilt mit Parameter λ
Partielle Integration∫
u′v = uv| −∫
uv′ anwenden.
E(X) =
∞∫
x=0
xλe−λx
dx = −xe−λx∣
∣
∞
0+
∞∫
x=0
e−λx
dx
= 0−e−λx
λ
∣
∣
∣
∣
∞
0
=1
λ
E(X2) =
∞∫
x=0
x2λe
−λxdx = −x2
e−λx
∣
∣
∞
0+
∞∫
x=0
2xe−λxdx
= 0 +2
λE(X) =
2
λ2
und daher Var (X) = 2λ2 −
1λ2 = 1
λ2
16
Übung
Angenommen die Länge eines Telephongespräches in Minuten istexponentialverteilt und dauert im Mittel 10 Minuten. Du kommst zueiner Telephonzelle wo unmittelbar zuvor jemand ein Gesprächbegonnen hat.
Wie groß ist die Wahrscheinlichkeit dass du
1. weniger als 10 Minuten
2. genau 10 Minuten
3. zwischen 10 und 20 Minuten
4. länger als 20 Minuten
warten mußt bis die Telephonzelle frei wird?
17
Zusammenhang mit Poissonverteilung
Die folgenden beiden Eigenschaften sind äquivalent (o. Bew.):
• Die Zeit T zwischen dem Eintreffen zweieraufeinanderfolgender Ereignisse ist (unabhängig)exponentialverteilt mit Parameter λ.
• Für jedes Zeitintervall [t1, t2] ist die Häufigkeit der während[t1, t2] auftretenden Ereignisse poissonverteilt mit Parameterλ(t2 − t1).
t1 t2
x1
x2
T
Wartezeit zwischen zwei Ereignissen T ∼ Exp (λ),λ . . . erwartete Anzahl von Ereignissen für Zeitraum der Länge 1.
18
Übung
X Häufigkeit wie oft eine Maschine in bestimmtem Zeitraumausfällt (Maschinen laufen 24h durchgehend)
Im Mittel fallen 3 Maschinen pro Tag aus
Annahme X poissonverteilt
a) Verteilung der Zeit, die zwischen 2 Ausfällen vergeht?
b) Mit welcher Wahrscheinlichkeit fällt für mehr als 5 Stunden keineMaschine aus?
c) Mit welcher Wahrscheinlichkeit fallen innerhalb von 5 Stundenzwei Maschinen aus?
19
Gedächtnislosigkeit
Die Verteilung von X ist gedächtnislos, wenn
P(X > s+ t|X > t) = P(X > s)
D.h. Vorgeschichte bietet keinerlei Information
Exponentialverteilung ist gedächtnislos:
Definition ist äquivalent zu P(X > s+ t) = P(X > s)P(X > t)
und es gilt e−λ(s+t) = e−λse−λt
Exponentialverteilung ist einzige gedächtnislose stetige Verteilung!
Übung: Im diskreten Fall geometrische Verteilung gedächtnislos
(Diskretes Analogon zur Exponentialverteilung)
20
3.3 Normalverteilung
X ∼ N (µ, σ2) falls f(x) = 1√
2π σe−(x−µ)2/2σ2
Standardnormalverteilung N (0, 1):
−3 −2 −1 0 1 2 30
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
Gaußsche Glockenkurve
21
Normalverteilung
Wesentliche Bedeutung in Wahrscheinlichkeitsrechnung undStatistik aufgrund des zentralen Grenzwertsatzes!
f ist tatsächlich Wahrscheinlichkeitsdichte:
1√2π σ
∞∫
x=−∞
e−(x−µ)2/2σ2
dx =1√2π
∞∫
z=−∞
e−z2/2
dz = 1
Zunächst Variablensubstitution z ← x−µ
σ
dann verschiedene Möglichkeiten zur Berechnung desuneigentlichen Integrals
Verteilungsfunktion F (x) =x∫
y=−∞
f(y)dy lässt sich nicht in
geschlossener Form darstellen (keine einfache Formel)
⇒ Tabellen für die Normalverteilung
22
Standardnormalverteilung
X ∼ N (0, 1), übliche Notation: Φ(x) := P(X ≤ x)
ϕ(x) := Φ′(x) =1√2π
e−x2/2
Tabellen von Φ(x) für x ∈ (0, 4) (z.B. Bosch-Buch oder Internet)
Grund: ϕ ist symmetrisch und somit
ϕ(−x) = ϕ(x) ⇒ Φ(−x) = 1− Φ(x)
Beispiel: Wahrscheinlichkeit dass X zwischen -2 und 1 liegt
P(−1 ≤ X ≤ 2) = P(X ≤ 2)− P(X < −1) = Φ(2)− 1− Φ(1)
= 0.9772− 1 + 0.8413 = 0.8186
Werte von Φ(2) und Φ(1) aus Tabelle
23
Verteilungsfunktion der SNV
Einige wesentliche Werte von Φ(x):
Φ(0) = 0.5; Φ(1.645) = 0.95; Φ(1.96) = 0.975
Der Graph von Φ(x):
−3 −2 −1 0 1 2 30
0.2
0.4
0.6
0.8
1
24
Erwartungswert
Sei X ∼ N (µ, σ2)
Substitution z ← x−µ
σliefert
E(X) =1
√2π σ
∞∫
x=−∞
xe−(x−µ)2/2σ2
dx
=1√2π
∞∫
z=−∞
(σz + µ)e−z2/2dz = µ
da g(z) := z e−z2/2 antisymmetrisch (d.h. g(−z) = −g(z))
und 1√
2π
∞∫
x=−∞
e−z2/2 dz = 1
25
Varianz
Wiederum Substitution z ← x−µ
σund anschließend partielle
Integration liefert
Var (X) =1
√2π σ
∞∫
x=−∞
(x− µ)2e−(x−µ)2/2σ2
dx
=σ2
√2π
∞∫
z=−∞
z2e−z2/2
dz
=σ2
√2π
−ze−z2/2∣
∣
∣
∞
−∞
+
∞∫
z=−∞
e−z2/2
dz
= σ2
Somit gezeigt: X ∼ N (µ, σ2) ⇒ E(X) = µ, Var (X) = σ2
26
Lineare Transformation
Wesentliche Eigenschaft:
X ∼ N (µ, σ2) ⇒ Y := aX + b ∼ N (aµ+ b, a2σ2)
Beweis: Nehmen a > 0 an. (Fall a < 0 analog.)Transformationssatz für Dichten:
fY (y) = fX(g−1(y)) ·d
dyg−1(y)
Hier: g(x) = ax+ b ⇒ g−1(y) = (y − b)/a, d
dyg−1(y) = 1/a
Und somit
fY (y) = fX((y − a)/b) · 1/a
=1
√2πσa
e−(y−aµ−b)2/2a2σ2
Dies ist die Dichte einer N (aµ+ b, a2σ2)
27
Normalisierung
Daraus folgt unmittelbar
X ∼ N (µ, σ2) ⇒ Z := X−µ
σ∼ N (0, 1)
Normalverteilung für verschiedene µ und σ
−5 −4 −3 −2 −1 0 1 2 3 4 50
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
µ = 0µ = −2 µ = 2
µ . . . Mittelwert
−3 −2 −1 0 1 2 30
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
σ = 1/2
σ = 1
σ = 2
σ2 . . . Varianz
28
Beispiel
Sei X ∼ N (3, 9), berechne folgende Wahrscheinlichkeiten:
1. P(2 < X < 5)
2. P(X > 0)
3. P(|X − 3| > 6)
Lösungen
1) P
(
2− 3
3<
X − 3
3<
5− 3
3
)
= Φ
(
2
3
)
− Φ
(
−1
3
)
≈ 0.7486− (1− 0.6293) = 0.3779
2) P
(
0− 3
3<
X − 3
3
)
= Φ(1) ≈ 0.8413
3) 2 · P
(
6− 3
3<
X − 3
3
)
= 2 · (1− Φ(2)) ≈ 0.0456
29
Quantile der Normalverteilung
Definition: X habe Verteilungsfunktion F und γ ∈ [0, 1] sei eineWahrscheinlichkeit
γ - Quantil xγ jene Zahl für die F (xγ) = γ
xγ = F−1(γ), wobei F−1 Umkehrabbildung der Verteilungsfunktion
Normalverteilung:explizite Berechnungnicht möglich
⇒ Tabellen odermittels Computer
Standard-NV:xγ = Φ−1(γ) −3 −2 −1 0 1 2 3
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
γ
xγ
30
Symmetrische Intervalle
X ∼ N (µ, σ2) ⇒ P(|X − µ| ≤ x) = 2 · Φ( xσ)− 1
Beweis:
P(−x+ µ ≤ X ≤ x+ µ) = 2 · P(X ≤ x+ µ)− 1
Sei γ eine vorgegebene Wahrscheinlichkeit, dann gilt:
P(|X − µ| ≤ zγ) = γ für zγ = σ Φ−1(
1+γ
2
)
Übung: Sei X normalverteilt mit σ2 = 4
Bestimme x derart, dass P(X − µ ≤ x) = 0.95
bzw. P(|X − µ| ≤ x) = 0.95
31
3.4 Normalverteilungsapproximation
Betrachte für großes n die Wahrscheinlichkeitsfunktion einerBinomialverteilung und vergleiche mit der Dichtefunktion derNormalverteilung
30 35 40 45 50 55 60 65 700
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
X ∼ B(100, 0.5)
−3 −2 −1 0 1 2 30
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
X ∼ N (0, 1)
32
Grenzwertsatz nach DeMoivre - Laplace
Sn . . . Anzahl der Erfolge bei n unabhängigen Versuchen mitErfolgswahrscheinlichkeit p.
Dann gilt für a < b:
P
(
a ≤ Sn−np√
npq≤ b
)
→ Φ(b)− Φ(a) für n→∞
d.h. standardisierte Binomialverteilung (Sn − µ)/σ konvergiertgegen Standardnormalverteilung
Beweis: Spezialfall des zentralen Grenzwertsatzes. ZentralerGrenzwertsatz gilt für Summen unabhängiger Zufallsvariablen. IstSn binomialverteilt, so ist es Summe unabhängiger"Bernoulli-Variablen", d.h. Variablen X ∼ B(1, p).
Anwendbarkeit: npq ≥ 9.
33
Stetigkeitskorrektur
B(n, p) diskret, d.h. Verteilungsfunktion ist eine Treppenfunktion
N (0, 1) stetig, d.h. Verteilungsfunktion ist stetig
⇒ Stetigkeitskorrektur:
P (a ≤ Sn ≤ b) ≈ Φ(
b+0.5−np√
npq
)
− Φ(
a−0.5−np√
npq
)
blau: B(40, 0.5)grün: N (20, 10)
15 16 17 18 19 20 21 22 23 24 250
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
34
Übung
Angenommen 30% der Bevölkerung kennen ein Produkt.
Befragung von 200 Personen. Wie groß ist Wahrscheinlichkeitdass
1. genau 55 Personen das Produkt kennen
2. mehr als 55 Personen das Produkt kennen
3. 55 bis 64 Personen das Produkt kennen
Löse mit Normalverteilungsapproximation
Versuche 1. auch unmittelbar mit Binomialverteilung zu berechnen– worin liegt das Problem?
35
Normalverteilungsapproximation fürhypergeometrische Verteilung
Analog zur Binomialverteilung gilt auch für eine hypergeometrischverteilte Zufallsvariable mit Parametern N,M und n:
P (a ≤ Sn ≤ b) ≈ Φ(
b+0.5−µ
σ
)
− Φ(
a−0.5−µ
σ
)
wobei hier µ = nMN
und σ2 = nMN(1− M
N)N−nN−1
Anwendbarkeit: σ2 ≥ 9 und N ≥ 2n
Übung: Lieferung von 2500 Milchpackungen, 12 % verdorbenZufällige Stichprobe von 100 Packungen, p sei Anteil derentdeckten verdorbenen Packungen
Mit welcher Wahrscheinlichkeit liegt p zwischen 5% und 15%
36
3.5 Andere stetige Verteilungen
Große Vielfalt an stetigen Verteilungen
Besprechen hier nur zwei wichtige Familien:
• Gamma - Verteilung
Verallgemeinerung der Exponentialverteilung
• Beta - Verteilung
Verteilungen mit Träger auf Intervall [0, 1]
Sowohl Beta- als auch Gamma - Verteilung hängt von zweiParametern ab
Für unterschiedliche Parameter ganz unterschiedliche Form⇒ Modellierung von verschiedenen Sachverhalten
37
Gamma - Verteilung
Exponentialverteilung ist ein Spezialfall der Gammaverteilung
X ist Γ-verteilt mit Parametern t > 0 und λ > 0 falls Dichte
f(x) =
λe−λx(λx)t−1
Γ(t) , x ≥ 0
0, x < 0
wobei Γ(t) =∞∫
x=0
e−xxt−1 dx
Diese Definition garantiert, dass f tatsächlich Dichtefunktion
t = 1 ⇒ Exponentialverteilung
t = n ∈ N ⇒ Verteilung der Wartezeit bis n Ereignisseaufgetreten sind
38
Eigenschaften von Γ - Funktion und Γ - Verteilung
Γ - Funktion: Γ(t) =∞∫
x=0
e−x
xt−1
dx
Partielle Integration liefert: Γ(t) = (t− 1)Γ(t− 1)
Spezialfall der Rekursionsformel für t = n ∈ N:
Γ(n) = (n− 1)Γ(n− 1) = · · · = (n− 1)(n− 2) · · ·Γ(1) = (n− 1)!
da ja Γ(1) = 1
Notation: X ∼ Γ(t, λ) . . .Γ-Verteilung mit Parametern t und λ,
Mit Hilfe der Rekursionsformel zeigt man leicht
E(X) = tλ, Var (X) = t
λ2
39
Beispiele für Gamma - Verteilung
• Γ(1, λ) . . . ExponentialverteilungΓ(n, λ) . . . Wartezeiten auf n Ereignisse
• Γ(n2 ,12 ) . . . χ
2-Verteilung mit n Freiheitsgraden
0 1 2 3 4 50
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8t=1t=2t=3t=4t=6
t ∈ N, λ = 1
0 1 2 3 4 50
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8t=1/2t=1t=3/2t=2t=3
2t ∈ N, λ = 1/2
40
Beispiele für Gamma - Verteilung 2
Γ(t, 1) . . . Standard Γ-Verteilung
Es gilt: X ∼ Γ(t, λ) ⇒ λX ∼ Γ(t, 1)
Abhängigkeit von t
0 0.5 1 1.50
0.5
1
1.5
2
2.5
3
3.5
4t=1t=2t=3t=4t=6
t ∈ N, λ = 5
Abhängigkeit von λ
0 0.5 1 1.50
0.5
1
1.5
2
2.5
3
3.5
4λ=1λ=2λ=3λ=4λ=6
t = 4/3, λ ∈ N
41
Beta - Verteilung
Famile von Verteilungen mit beschränktem Träger
X ist B-verteilt mit Parametern a, b > 0 falls Dichte
f(x) =
xa−1(1−x)b−1
B(a,b) , 0 < x < 1
0, sonst
wobei B(a, b) =1∫
x=0
xa−1(1− x)b−1
dx
Diese Definition garantiert wiederum, dass f tatsächlichDichtefunktion
Zur Modellierung von Zufallsereignis Y im Bereich [l, r]
⇒ Variablentransformation 0← l und 1← r d.h. X = Y−lr−l
42
Mittelwert und Varianz
Es gilt für die B-Funktion
B(a, b) =Γ(a)Γ(b)
Γ(a+ b)
(ohne Beweis)
Unter Verwendung der Eigenschaften der Γ-Funktion oder mittelspartieller Intergration zeigt man leicht,
B(a+ 1, b) =a
a+ bB(a, b)
und für X Beta-verteilt mit Parametern a und b gilt:
E(X) = aa+b
, Var (X) = ab(a+b)2(a+b+1)
43
Beispiele von Beta - Verteilungen
Falls a = b ⇒ symmetrische Verteilung
• a = b = 1, . . . Gleichverteilung
• a = b > 1, . . . Unimodal
• a = b < 1, . . . U - förmig
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.5
1
1.5
2
2.5
3
3.5
4a=b=1a=b=2a=b=3a=b=4a=b=6
a = b ≥ 1,
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.5
1
1.5
2
2.5
3
3.5
4
a=b=1a=b=1/2a=b=1/3a=b=1/4a=b=1/6
a = b ≤ 1,
44
Weitere Beispiele von Beta - Verteilungenb = 1.5
a ≥ 1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.5
1
1.5
2
2.5
3
3.5
4
a=1a=2a=3a=4a=6
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.5
1
1.5
2
2.5
3
3.5
4a=1a=1/2a=1/3a=1/4a=1/6
a ≤ 1,
b ≥ 1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.5
1
1.5
2
2.5
3
3.5
4b=1b=2b=3b=4b=6
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.5
1
1.5
2
2.5
3
3.5
4b=1b=1/2b=1/3b=1/4b=1/6
b ≤ 1
a = 2
45
Wahrscheinlichkeitsrechnungfür Statistik und VWLWS 2016/17
4 Mehrdimensionale Verteilungen
1. Einführung
2. Unabhängige Zufallsvariablen
3. Kovarianz, Korrelation
4. Bedingte Verteilung
5. Bivariate Normalverteilung
1
4.1 Einführung
Wahrscheinlichkeitsrechnung mit mehr als einer Zufallsvariablen
zwei Zufallsvariablen . . . bivariat
zwei oder mehr ZV . . . multivariat
Konzepte:
• Gemeinsame Verteilungsfunktion
• rein diskret: Gemeinsame Wahrscheinlichkeitsfunktion
• rein stetig: Gemeinsame Dichte
2
Gemeinsame Verteilungsfunktion
Zunächst bivariat, Zufallsvariablen X und Y
Definiere die gemeinsame Verteilungsfunktion als
F (x, y) := P(X ≤ x, Y ≤ y), −∞ < x, y <∞
Bivariate Verteilung dadurch vollständig charakterisiert
P(x1<X≤x2, y1<Y≤y2) = F (x2, y2)−F (x1, y2)−F (x2, y1)+F (x1, y1)
für x1 < x2 und y1 < y2
Randverteilung: FX(x) := P(X ≤ x) = F (x,∞)
Idee: P(X ≤ x) = P(X ≤ x, Y <∞) = limy→∞
F (x, y)
Analog FY (y) := P(Y ≤ y) = F (∞, y)
3
Bivariate stetige Zufallsvariable
X und Y heißen gemeinsam stetig falls gemeinsameDichtefunktion existiert:
f(x, y) =∂2
∂x ∂yF (x, y)
Gemeinsame Verteilungsfunktion ergibt sich mittels Integration
F (a, b) =
b∫
y=−∞
a∫
x=−∞
f(x, y) dxdy
Erhalte Dichte der Randverteilung durch Integrieren über Y:
fX(x) =
∞∫
y=−∞
f(x, y) dy
Werden später speziell bivariate Normalverteilung besprechen
4
Beispiel: Bivariate Gleichverteilung
X und Y bivariat gleichverteilt auf [0, 1]× [0, 1] ⇒ Dichte
f(x, y) = 1, 0 ≤ x, y ≤ 1.
Gemeinsame Verteilungsfunktion
F (a, b) =
b∫
y=0
a∫
x=0
f(x, y) dxdy = a b, 0 ≤ a, b ≤ 1.
Dichte der Randverteilung:
fX(x) =
∞∫
y=−∞
f(x, y) dy = 1, 0 ≤ x ≤ 1
gibt Dichte der univariaten Gleichverteilung
5
Übung: Bivariate Gleichverteilung
X und Y bivariat gleichverteilt auf [−1, 1]× [−1, 1]
• Berechne die Wahrscheinlichkeit, dass max|X |, |Y | < 1/2.
• Berechne die Wahrscheinlichkeit, dass X2 + Y
2< 1.
Hinweis: Im Falle der bivariaten Gleichverteilung ist eine formaleIntegration nicht wirklich notwendig. Berechnung vonWahrscheinlichkeiten ergibt sich unmittelbar durch Vergleich vonFlächen.
6
Bivariate diskrete Zufallsvariable
X und Y beide diskret
Definiere die gemeinsame Wahrscheinlichkeitsfunktion
p(x, y) = P(X = x, Y = y)
Es gilt natürlichp(x, y) = F (x, y)− F (x−, y)− F (x, y−) + F (x−, y−)
Erhalte Wahrscheinlichkeitsfunktion von X durch Summierenüber Y:
pX(x) = P(X = x) =∑
y∈Y
p(x, y)
7
Beispiel
Urne mit 3 roten, 4 weißen und 5 blauen Bällen;ziehe zufällig 3 Bälle ohne Zurücklegen
X . . . Anzahl der roten gezogenen Kugeln
Y . . . Anzahl der weißen gezogenen Kugeln
z. Bsp.: p(0, 1) = P(0R, 1W, 2B) =(
30
)(
41
)(
52
)
/(
123
)
= 40/220
j
i 0 1 2 3 pX
0 10/220 40/220 30/220 4/220 84/220
1 30/220 60/220 18/220 0 108/220
2 15/220 12/220 0 0 27/220
3 1/220 0 0 0 1/220
pY 56/220 112/220 48/220 4/220 220/220
8
Multivariate Zufallsvariablen
Mehr als zwei Zuvallsvariablen
Gemeinsame Verteilungsfunktion für n Zufallsvariablen
F (x1, . . . , xn) = P(X1 ≤ x1, . . . , Xn ≤ xn)
Diskret: Gemeinsame Wahrscheinlichkeitsfunktion:
p(x1, . . . , xn) = P(X1 = x1, . . . , Xn = xn)
Randverteilung wiederum durch Summieren über alleKomponenten, die gerade nicht von Interesse, z. Bsp.
pX1(x1) =
∑
x2∈X2
· · ·∑
xn∈Xn
p(x1, . . . , xn)
9
Multinomialverteilung
Eine der wichtigsten multivariaten diskreten Verteilungen
n unabhängige Experimente mit r möglichen Ausgängen mitWahrscheinlichkeiten p1, . . . , pr
Sei Xi die Anzahl der Experimente mit Ausgang i, dann gilt
P(X1 = n1, . . . , Xr = nr) =n!
n1!···nr !pn1
1 · · · pnr
r
falls∑r
i=1 ni = n.
Verallgemeinerung der Binomialverteilung (r = 2)
Übung: Werfe 5 Würfel,
Wahrscheinlichkeit für Strasse, Poker, bzw. Full House
10
4.2 Unabhängige Zufallsvariablen
Zwei Zufallsvariablen X und Y heißen unabhängig falls für alleEreignisse A und B gilt
P(X ∈ A, Y ∈ B) = P(X ∈ A)P(Y ∈ B)
Information über den Wert von X ändert nicht die Verteilung von Y
X und Y genau dann unabhängig falls
P(X ≤ a, Y ≤ b) = P(X ≤ a)P(Y ≤ b)
d.h. F (a, b) = FX(a) FY (b) für alle a, b.
Ebenfalls äquivalent zu f(x, y) = fX(x) fY (y) im stetigen Fall undzu p(x, y) = pX(x) pY (y) im diskreten Fall für alle x, y
11
Einfaches Beispiel
Seien X und Y unabhängig
X = 0, 1, P (X = 0) = 1/3, P (X = 1) = 2/3
Y = −1, 0, 1, P (Y =−1) = P (Y =1) = 1/4, P (Y =0) = 1/2
Die gemeinsame Wahrscheinlichkeitsfunktion lautet:
j
i −1 0 1 pX
0 1/12 1/6 1/12 1/3
1 2/12 2/6 2/12 2/3
pY 1/4 1/2 1/4 1
Beachte, dass sowohl die Spalten als auch die Zeilen jeweilsproportional zueinander sind ⇒ Unabhängigkeit
12
Stetiges Beispiel: Gleichverteilung
Seien X und Y unabhängig, jeweils gleichverteilt auf [0, 1].
d.h. fX(x) = 1 für 0 ≤ x ≤ 1, fY (y) = 1 für 0 ≤ y ≤ 1,
Dann offensichtlich X und Y bivariat gleichverteilt auf [0, 1]× [0, 1]
Umkehrung
X und Y bivariat gleichverteilt auf [0, 1]× [0, 1] ⇒ Dichte
f(x, y) = 1, 0 ≤ x, y ≤ 1.
Berechne die Randdichten fX(x) und fY (y)
Es folgt unmittelbar, dass X und Y jeweils gleichverteilt auf [0, 1],und auch dass die beiden unabhängig sind
Bemerkung: Unabhängigkeit gilt für Gleichverteilung aufRechtecken, nicht jedoch für allgemeinere Bereiche.
13
Beispiel: Zwei Würfel
X, Y . . . gleichverteilt auf 1, . . . , 6
Aufgrund der Unabhängigkeit gilt p(x, y) = pX(x) pY (y) =136
Verteilungsfunktion:FX(x) = FY (x) = ⌊x⌋/6, falls 0 < x < 7
F (x, y) = FX(x)FY (y) =⌊x⌋·⌊y⌋
36
Welche Verteilung hat X + Y ?
P (X + Y = 2) = p(1, 1) = 1/36
P (X + Y = 3) = p(1, 2) + p(2, 1) = 2/36
P (X + Y = 4) = p(1, 3) + p(2, 2) + p(3, 1) = 3/36
P (X + Y = k) = p(1, k − 1) + p(2, k − 2) + · · ·+ p(k − 1, 1)
14
Summe von unabhängigen Verteilungen
Summe von Zufallsvariablen selbst wieder eine ZV
Berechnung der Verteilung mittels Faltung
Stetige Verteilungen:
fX+Y (x) =
∞∫
y=−∞
fX(x− y)fY (y)dy
Diskrete Verteilungen:
P(X + Y = k) =∑
x+y=k
pX(x)pY (y)
Übung: X1 ∼ P(λ1), X2 ∼ P(λ2) unabhängig
⇒ X1 +X2 ∼ P(λ1 + λ2)
15
Beispiel (Umkehrung)
Z ∼ P(λ) . . . Anzahl der Tippfehler pro Seite eines ManuskriptsLektor findet p Prozent der Fehler
X . . . Anzahl der gefundenen FehlerY . . . Anzahl der nicht gefundenen Fehler
Es gilt: X, Y unabhängig poissonverteilt mit Parameter pλ bzw. qλ
Lösung:
P(X= i, Y =j) = P(X= i, Y =j|X + Y = i+ j)P(X + Y = i+ j)
Per Definitionem:P(X= i, Y =j|X + Y = i+ j) =
(
i+ji
)
piqj
P(X + Y = i+ j) = e−λ λi+j
(i+j)!
Liefert insgesamt:
P(X= i, Y =j) = e−λ (λp)i
i!j! (λq)j = e−λp (λp)i
i! e−λq (λq)j
j!
16
Beispiel für Faltung: stetiger Fall
X , Y unabhängig, gleichverteilt auf [0, 1]i.e. f(x, y) = 1, (x, y) ∈ [0, 1]× [0, 1]
fX(x) = 1, 0 ≤ x ≤ 1, fY (y) = 1, 0 ≤ y ≤ 1
Berechnung der Dichte Z := X + Y
fZ(x) =
∞∫
y=−∞
fX(x− y)fY (y)dy
=
x∫
y=0
dy = x, 0 < x ≤ 1
1∫
y=x−1
dy = 2− x, 1 < x ≤ 2
Grund: fY (y) = 1 für 0 ≤ y ≤ 1
fX(x− y) = 1 für 0 ≤ x− y ≤ 1 ⇔ y ≤ x ≤ y + 1
17
Additionstheorem für Γ-Verteilung
X , Y unabhängig, Γ−verteilt mit Parametern t1, t2 und gleichem λ
fX(x) = λe−λx(λx)t1−1
Γ(t1), fY (y) =
λe−λy(λy)t2−1
Γ(t2), x, y ≥ 0,
fZ(x) =
∞∫
y=−∞
fX(x− y)fY (y)dy
=
x∫
y=0
λe−λ(x−y)(λ(x− y))t1−1
Γ(t1)
λe−λy(λy)t2−1
Γ(t2)dy
=λt1+t2e
−λx
Γ(t1)Γ(t2)
x∫
y=0
(x− y)t1−1yt2−1
dy
=
∣
∣
∣
∣
∣
y = xz
dy = xdz
∣
∣
∣
∣
∣
=λe
−λx(λx)t1+t2−1
Γ(t1 + t2)
18
Erwartungswert für bivariate ZV, diskret
X und Y diskret mit gemeinsamer Wahrscheinlichkeitsfunktion
Wie im eindimensionalen gilt:
E(g(X, Y )) =∑
x∈X
∑
y∈Y
g(x, y)p(x, y)
Übung:
Seien X und Y die Augenzahlen von zwei fairen Würfeln(unabhängig)
Berechne den Erwartungswert der Differenz |X − Y |
19
Erwartungswert für bivariate ZV, stetig
X und Y stetig mit gemeinsamer Dichte f(x, y)
Wie im eindimensionalen gilt:
E(g(X, Y )) =∞∫
y=−∞
∞∫
x=−∞
g(x, y)f(x, y) dx dy
Übung (optional):
Unfall auf einer Straße der Länge L, Unfallort X und Position Y
eines Krankenwagens unabhängig gleichverteilt
Berechne den Erwartungswert vom Abstand |X − Y | zwischenUnfallort und Krankenwagen
20
Erwartungswert der Summe zweier ZV
X und Y stetig mit gemeinsamer Dichte f(X, Y )
Mit g(x, y) = x+ y folgt
E(X + Y ) =∞∫
y=−∞
∞∫
x=−∞
(x+ y)f(x, y) dx dy = E(X) + E(Y )
Geht genau so für den diskreten Fall:
E(X + Y ) =∑
x∈X
∑
y∈Y
(x+ y)p(x, y) dx dy = E(X) + E(Y )
ACHTUNG: Additivität für Varianzen im allgemeinen nicht richtig!
21
4.3 Kovarianz und Korrelation
Maßzahlen für die Beziehung zwischen zwei Zufallsvariablen
Definition Kovarianz:
Cov (X, Y ) = E[(X − E(X))(Y − E(Y ))]
Man schreibt mitunter σXY := Cov (X, Y )
Es gilt ähnlich wie für die Varianz
σXY = E(XY )− E(X)E(Y )
Definition Korrelation:
ρ(X, Y ) := σXY
σXσY
22
Beispiel Korrelation
ρ = 0.9
−4 −3 −2 −1 0 1 2 3−3
−2
−1
0
1
2
3
−3 −2 −1 0 1 2 3−3
−2.5
−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
ρ=−0.6
ρ = 0.3
−3 −2 −1 0 1 2 3−3
−2
−1
0
1
2
3
−3 −2 −1 0 1 2 3 4−3
−2
−1
0
1
2
3
4
ρ = 0.0
23
Beispiel Kovarianz
Diskrete bivariate Verteilung (X = Y = 0, 1, 2, 3) mit
j
i 0 1 2 3 pX
0 1/20 4/20 3/20 2/20 10/20
1 3/20 2/20 2/20 0 7/20
2 1/20 1/20 0 0 2/20
3 1/20 0 0 0 1/20
pY 6/20 7/20 5/20 2/20 20/20
Berechne Cov (X, Y )
Lösung : Cov (X, Y ) = E(XY )−E(X)E(Y ) = 820 −
1420 ·
2320 = − 162
400
24
Kovarianz für unabhängige ZV
X und Y unabhängig ⇒ σXY = 0
folgt unmittelbar aus σXY = E(XY )− E(X)E(Y )
und E(XY ) =∫∫
xyf(x, y) =∫
xf(x)∫
yf(y)
Umkehrung ist falsch:
X gleichverteilt auf −1, 0, 1 und Y =
0, X 6= 0
1, X = 0
E(X) = 0
XY = 0 ⇒ E(XY ) = 0
daher Cov (X, Y ) = 0, obwohl X und Y nicht unabhängig:
z.Bsp. P(X = 1, Y = 0) = P(X = 1) = 1/3, P(Y = 0) = 2/3
25
Eigenschaften der Kovarianz
Offensichtlich gilt
Cov (X, Y ) = Cov (Y,X), und Cov (X,X) = Var (X)
Die Kovarianz ist eine Bilinearform:
Cov (aX, Y ) = a Cov (X, Y ), a ∈ R
und
Cov
n∑
i=1
Xi,
m∑
j=1
Yj
=n∑
i=1
m∑
j=1
Cov (Xi, Yj)
Beweis durch ausrechnen . . .
26
Varianz von Summen
Aufgrund der zuvor gezeigten Eigenschaften gilt
Var
(
n∑
i=1
Xi
)
=n∑
i=1
n∑
j=1
Cov (Xi, Xj)
=n∑
i=1
Var (Xi) +n∑
i=1
∑
j 6=i
Cov (Xi, Xj)
Extremfälle:
• unabhängige ZV: Var(
n∑
i=1
Xi
)
=n∑
i=1
Var (Xi)
• X1 = X2 = · · · = Xn: Var(
n∑
i=1
Xi
)
= n2 Var (X1)
27
Korrelation
Definition: ρ(X, Y ) := σXY
σXσY
Es gilt:
−1 ≤ ρ(X, Y ) ≤ 1
Beweis:
0 ≤ Var(
X
σX
+Y
σY
)
=Var (X)
σ2X
+Var (Y )
σ2Y
+2Cov (X, Y )
σXσY
= 2[1 + ρ(X, Y )]
0 ≤ Var(
X
σX
−Y
σY
)
=Var (X)
σ2X
+Var (Y )
σ2Y
−2Cov (X, Y )
σXσY
= 2[1− ρ(X, Y )]
28
Korrelation – Fortsetzung
Falls ρ(X, Y ) = 0, heißen X und Y unkorreliert . Dies ist offenbargleichbedeutend damit, dass Cov (X, Y ) = 0. Somit ist“unabhängig” stärker als “unkorreliert”.
Korrelationskoeefizienten, die sich (signifikant) von nullunterscheiden, lassen auf einen direkten oder indirektenZusammenhang zwischen den beiden Variablen schließen.Einfachster Fall: Die beiden Variablen X und Y können zueinanderin einer Ursache-Wirkung-Beziehung stehen, wobei offen bleibt,welche Variable auf welche wirkt. Es können aber auchkomplexere Beziehungen bestehen, z.B. kann eine dritteVariable Z einen Einfluss sowohl auf X als auch auf Y ausüben.
Beispiel: Es besteht eine Korrelation zwischen der Zahl derKindergeburten und der Zahl der Storchenpaare in einer Region.Ein direkter Kausalzusammenhang ist wohl nicht anzunehmen.
29
Übung Korrelation
Seien X und Y unabhängig gleichverteilt auf [0, 1]
Berechne die Korrelation zwischen X und Z für
1. Z = X + Y
2. Z = X2 + Y
2
3. Z = (X + Y )2
30
4.4 Bedingte Verteilungen
Bedingte Wahrscheinlichkeit für zwei Ereignisse A und B:
P(A|B) =P(AB)
P(B)
Entsprechende Definitionen für Zufallsvariablen X und Y
Diskret: pX|Y (x|y) := P(X = x|Y = y) = p(x,y)pY (y)
Übung: Gegeben p(x, y) durch
p(0, 0) = 0.4, p(0, 1) = 0.2, p(1, 0) = 0.1, p(1, 1) = 0.3,
Berechne bedingte Wahrscheinlichkeitsfunktion von X wenn Y = 1
31
Diskrete bedingte Verteilungen
Bedingte Verteilungsfunktion:
FX|Y (x|y) := P(X ≤ x|Y = y) =∑
k≤x
pX|Y (k|y)
Sind X und Y unabhängig so gilt pX|Y (x|y) = pX(x)
Beweis: Nachrechnen
Beispiel: Seien X ∼ P(λ1) und Y ∼ P(λ2) unabhängig.
Berechne bedingte Verteilung von X , wenn X + Y = n
P(X = k|X + Y = n) = P(X=k)P(Y=n−k)P(X+Y=n) ,
X + Y ∼ P(λ1 + λ2) ⇒ X |(X + Y = n) ∼ B(
n,λ1
λ1+λ2
)
32
Stetige bedingte Verteilungen
Stetig: fX|Y (x|y) :=f(x,y)fY (y) für fY (y) > 0
Definition im stetigen Fall läßt sich über diskreten Fall motivieren(Wahrscheinlichkeiten für kleine Umgebungen von x und y)
Berechne damit bedingte Wahrscheinlichkeiten:
P(X ∈ A|Y = y) =
∫
A
fX|Y (x|y) dx
Bedingte Verteilungsfunktion:
FX|Y (a|y) := P(X ∈ (−∞, a)|Y = y) =
a∫
x=−∞
fX|Y (x|y) dx
33
Beispiel
Gemeinsame Dichte von X und Y gegeben durch
f(x, y) =
c x(2− x− y), x ∈ [0, 1], y ∈ [0, 1],
0, sonst.
Berechne fX|Y (x|y) und die P(X < 1/2|Y = 1/3)
Lösung:
fY (y) = c
1∫
x=0
x(2− x− y) dx = c( 23 −y
2 )
fX|Y (x|y) =f(x,y)fY (y) = x(2−x−y)
2
3−
y
2
= 6x(2−x−y)4−3y
P(X < 1/2|Y = 1/3) =1/2∫
x=0
6x(2−x−1/3)4−3/3 dx = · · · = 1/3
34
Bedingter Erwartungswert
Berechnung mittels bedingter Wahrscheinlichkeitsfunktion bzw.bedingter Dichte
E(X |Y = y) =
∞∫
x=−∞
xfX|Y (x|y)dx
Beispiel: Fortsetzung
E(X |Y = y) =
1∫
x=0
6x2(2− x− y)
4− 3ydx =
5/2− 2y
4− 3y
Speziell E(X |Y = 1/3) = 1118
35
Erwartungswert durch Konditionierung
E(X |Y = y) ist eine Funktion von y,kann somit als Zufallsvariable in y betrachtet werden
Es gilt: E(X) = E(E(X |Y ))
Beweis:
E(E(X |Y )) =
∞∫
y=−∞
E(X |Y = y)fY (y) dy
=
∞∫
y=−∞
∞∫
x=−∞
xfX|Y =y(x)fY (y) dx dy
=
∞∫
y=−∞
∞∫
x=−∞
xf(x, y)
fY (y)fY (y) dx dy = E(X)
Übung: Verifiziere die Formel für obiges Beispiel
36
Bedingte Varianz
Formeln für den diskreten Fall (mit bedingter WF):
E(X |Y = y) =∑
x∈X
xpX|Y (x|y)
Var (X |Y = y) =∑
x∈X
(x− E(X |Y = y))2pX|Y (x|y)
Übung: Berechne Erwartungswert und Varianz von X wenn Y = j
j
i 0 1 2 3 pX
0 1/20 4/20 3/20 2/20 10/20
1 3/20 2/20 2/20 0 7/20
2 1/20 1/20 0 0 2/20
3 1/20 0 0 0 1/20
pY 6/20 7/20 5/20 2/20 20/20
37
Varianz mittels Konditionierung
Var (X) = E(Var (X |Y )) + Var (E(X |Y ))
Beweis: Wegen
Var (X |Y ) = E(X2|Y )− (E(X |Y ))2
gilt
E(Var (X |Y )) = E(E(X2|Y ))−E((E(X |Y ))2) = E(X2)−E(E(X |Y )2)
Andererseits
Var (E(X |Y )) = E(E(X |Y )2)−(E(E(X |Y )))2 = E(E(X |Y )2)−E(X)2
Die Summe beider Ausdrücke liefert das Resultat
Formel wesentlich für die Theorie der linearen Regression!
38
4.5 Bivariate Normalverteilung
Univariate Normalverteilung: f(x) = 1√
2π σe−(x−µ)2/2σ2
Standardnormalverteilung: φ(x) = 1√
2πe−x2/2
X1 und X2 unabhängig, jeweils normalverteilt N (µi, σ2i ), i = 1, 2
⇒ f(x1, x2) =1
2π σ1σ2e−(x1−µ1)
2/2σ2
1−(x2−µ2)
2/2σ2
2
=1
2π |Σ|1/2e−(x−µ)TΣ−1(x−µ)/2
wobei x =(
x1
x2
)
, µ =(
µ1
µ2
)
, Σ =(
σ2
10
0 σ2
2
)
39
Dichtefunktion allgemein (Vektorform)
X = (X1, X2) normalverteilt falls gemeinsame Dichtefunktion
f(x) = 12π |Σ|
1/2e−(x−µ)TΣ−1(x−µ)/2
Kovarianzmatrix: Σ =
σ21 σ12
σ12 σ22
Notation: ρ := σ12
σ1σ2
• |Σ| = σ21σ
22 − σ2
12 = σ21σ
22(1− ρ2)
• Σ−1 = 1σ2
1σ2
2(1−ρ2)
σ22 −ρσ1σ2
−ρσ1σ2 σ21
40
Bivariate Normalverteilung
X und Y jeweils standardnormalverteilt N (0, 1), ρ = 0:
−2−1
01
2
−2
−1
0
1
20
0.05
0.1
0.15
0.2
41
Beispiel bivariate Normalverteilungens
x2 = 1, s
y2 = 1, ρ = 0
−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
sx2 = 1, s
y2 = 1, ρ = 0.5
−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
sx2 = 4, s
y2 = 1/4, ρ = 0
−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
sx2 = 4, s
y2 = 1/4, ρ = −0.5
−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−2
−1.5
−1
−0.5
0
0.5
1
1.5
2
42
Beispiel Dichtefunktion
(X, Y ) bivariat normalverteilt mit µi = 0, σi = 1 (i = 1, 2) undρ = 1/2
Berechne die gemeinsame Dichte!
Lösung: µ =(
00
)
, Σ =( 1 1/21/2 1
)
|Σ| = 1− 1/4 = 3/4, Σ−1 = 43
(
1 −1/2−1/2 1
)
(x, y)Σ−1(
x
y
)
= 23 (x, y)
(
2x−y
−x+2y
)
= 43 (x
2 − xy + y2)
f(x, y) =1√3π
e−
2
3(x2
−xy+y2)
Äquivalente Darstellung:
f(x, y) =1√2π
e−
1
2x2 1√
2π 3/4e−
(y−x/2)2
2·3/4
43
Beispiel Fortsezung
f(x, y) =1√2π
e−
1
2x2 1√
2π 3/4e−
(y−x/2)2
2·3/4
Gemeinsame Dichte ist Produkt der Dichte vonStandardnormalverteilung (in x) und Normalverteilung (in y) mitMittelwert x/2 und Varianz 3/4.
Berechne Dichte von X :
fX(x) =1√2π
e−
1
2x2
∞∫
y=−∞
1√
2π 3/4e−
(y−x/2)2
2·3/4 dy =1√2π
e−
1
2x2
fX(x) ist Dichte von Standardnormalverteilung
Integral ergibt 1, weil wir über eine Dichte integrieren!
44
Dichtefunktion allgemein
Von der Formel in Vektorform erhalten wir
f(x1, x2) =1
2πσ1σ2
√1−ρ2
exp
−z2
1−2ρz1z2+z2
2
2(1−ρ2)
wobei z1 = x1−µ1
σ1
und z2 = x2−µ2
σ2
(vgl. Normalisierung)
Notation deutet darauf hin, dass µi und σ2i jeweils Erwartungswert
und Varianz von Xi, den beiden Randverteilungen,und dass ρ die Korrelation zwischen X1 und X2
Es gilt: f(x1, x2) =1
√
2πσ1
e−
z21
2 · 1√2π(1−ρ2)σ2
e−
(ρz1−z2)2
2(1−ρ2)
Ergänzung auf vollständiges Quadrat im Exponenten
45
Bedeutung von µi, σ2
i und ρ
Allgemein gilt für bivariate Normalverteilung
1. X1 ∼ N (µ1, σ21) und X2 ∼ N (µ2, σ
22)
2. Korrelationskoeffizient ρ(X1, X2) =σ12
σ1σ2
Beweis:
1.Bilde vollst. Quadrat im Exponenten und integriere:
fX1(x1)=
1√2πσ1
e−
z21
2
∞∫
x2=−∞
1√
2π(1− ρ2)σ2
e−
(ρz1−z2)2
2(1−ρ2) dx2
=1
√2πσ1
e−
z21
2
∞∫
s=−∞
1√2π
e−
(
ρz1√
1−ρ2−s
)
2
2 ds =1
√2πσ1
e−
z21
2
mit Substitution s← z2/√
1− ρ2 = (x2 − µ2)/(√
1− ρ2σ2)
46
Fortsetzung Beweis
2. Wiederum Formel mit vollst. Quadrat und Substitutionz1 ← (x1 − µ1)/σ1, z2 ← (x2 − µ2)/σ2:
Cov (X1, X2) =
∞∫
x1=−∞
∞∫
x2=−∞
(x1 − µ1)(x2 − µ2)f(x1, x2) dx2dx1
=
∞∫
x1=−∞
x1 − µ1√2πσ1
e−
z21
2
∞∫
x2=−∞
x2 − µ2√
2π(1− ρ2)σ2
e−
(ρz1−z2)2
2(1−ρ2) dx2dx1
=
∫
z1
z1φ(z1)
∫
z2
z2√
1− ρ2φ
(
ρz1 − z2√
1− ρ2
)
σ2dz2σ1dz1
= σ1σ2
∫
z1
z1φ(z1)ρz1dz1 = σ1σ2ρ = σ12
47
Bedingte Verteilung
Interpretation für die Formel
f(x1, x2) =1
√
2πσ1
e−z21
2 · 1√2π(1−ρ2)σ2
e−
(ρz1−z2)2
2(1−ρ2)
f(x1, x2) = f1(x1)f2|1(x2|x1)
Aus (ρz1−z2)2
(1−ρ2) = (µ2+σ2ρz1−x2)2
σ2
2(1−ρ2)
folgt:
Bedingte Verteilung ist wieder normalverteilt mitµ2|1 = µ2 + ρ(x1 − µ1)
σ2
σ1
, σ2|1 = σ22(1− ρ2)
Für bivariate Normalverteilung: ρ = 0⇒ Unabhängigkeit
Ist im allgemeinen nicht richtig!
48
Summe von bivariat normalverteilten ZV
Sei X1, X2 bivariat normal mit µ1, µ2, σ21 , σ
22 , σ12
Dann ist Z = X1 +X2 wieder normalverteilt, mit
X1 +X2 ∼ N (µ1 + µ2, σ21 + σ
22 + 2σ12)
Beweis: Für die Dichte der Summe gilt
fZ(z) =
∞∫
x2=−∞
f(z − x2, x2) dx2
Man erhält das Resultat wieder durch Vervollständigung desQuadrats im Exponenten (etwas längere Rechnung)
Intuition : Mittelwert und Varianz von Z entsprechen derallgemeinen Formel!
49
Wahrscheinlichkeitsrechnungfür Statistik und VWLWS 2016/17
5 Verteilungen vonStichprobenkennzahlen
1. Stichprobe
2. χ2 - Verteilung
3. t-Verteilung
4. F -Verteilung
1
5.1 Stichprobe
X1, . . . , Xn unabhängige ZV
P (X1 ∈ A1, . . . , Xn ∈ An) = P (X1 ∈ A1) · · ·P (Xn ∈ An)
für jede beliebige Wahl von Ereignissen A1, . . . An.
Stichprobe . . .n unabhängige Zufallsvariablen, die alle gleichverteilt sind
Englisch: identically independently distributed (i.i.d)
Beispiel: Binomialverteilung B(n, p) erhalte ich als Summe von n
unabhängigen Bernoulli-Variablen
X =
n∑
i=1
Xi
wobei Xi ∼ B(1, p) i.i.d.
2
Mittelwert von Stichproben
X1, . . . , Xn i.i.d. wie X ,
Definition: X := 1n
n∑
i=1
Xi
Mit E(X) = µ und Var (X) = σ2 gilt:
E(
X)
= µ, Var (X) = σ2
n
Beweis:
E
(
n∑
i=1
Xi
)
=n∑
i=1
E(Xi)
Var(
n∑
i=1
Xi
)
=n∑
i=1
Var (Xi)
Letzte Gleichung wegen Unabhängigkeit der Beobachtungen
3
Normalverteilte Stichproben
X1, . . . , Xn i.i.d. N (µ, σ2) ⇒ X ∼ N (µ, σ2/n)
Zentraler Grenzwertsatz: Selbst für nicht normalverteilteStichprobe X1, . . . , Xn ist X für große n näherungsweisenormalverteilt (Siehe Kapitel 6)
Beispiel: Gewicht X von Brotlaib einer Bäckerei hat im Mittel 1kgbei einer Varianz von 0.1 kg, Annahme das Gewicht istnormalverteilt.Stichprobe von 10 Broten, welche Verteilung hat X?Mit welcher Wahrscheinlichkeit liegt X zwischen 0.95 und 1.05?
σ2X
= σ2X/10 = 0.01 ⇒ X ∼ N (1, 0.01)
P (0.95 ≤ X ≤ 1.05) = Φ(
1.05−10.1
)
− Φ(
0.95−10.1
)
= 2Φ(0.5)−1=0.383
4
5.2 χ2 - Verteilung
Motivation: Gegeben Stichprobe X1, . . . , Xn i.i.d.
X kann verwendet werden, um unbekanntes µ zu schätzen.
Typische andere statistische Fragestellungen:
Wie kann ich unbekanntes σ schätzen?
Möglicher Zugang: σ2 = E(X − µ)2
Somit könnten Quadratsummen der Stichprobe interessant sein:
• µ bekannt:n∑
i=1
(Xi − µ)2
• µ unbekannt:n∑
i=1
(Xi − X)2
Welche Verteilung haben diese Quadratsummen?
5
Mittelwerte von Quadratsummen
X1, . . . , Xn i.i.d. wie X , E(X) = µ, Var (X) = σ2
Es gilt:
E
(
n∑
i=1
(Xi − µ)2)
= nσ2
Beweis: Vertausche Summe und Erwartungswert
Weiters gilt:
E
(
n∑
i=1
(Xi − X)2)
= (n− 1)σ2
Beweis: Übung
6
Verteilung von Z2
Erinnerung: X ∼ Γ(t, λ) . . . f(x) = λe−λx(λx)t−1
Γ(t) , für x ≥ 0
Es gilt:
Z ∼ N (0, 1) ⇒ Y = Z2 ∼ Γ( 12 ,12 )
In Worten: Das Quadrat einer standardnormalverteiltenZufallsvariable ist Γ-verteilt mit Parametern t = 1/2 und λ = 1/2.
Beweis: P (Y ≤ y) = P (−√y ≤ Z ≤
√y) = Φ(
√y)− Φ(−
√y)
⇒ fY (y) = ϕ(√y)
1
2√y+ ϕ(−
√y)
1
2√y= ϕ(
√y)
1√y
=1
√2πy
e−y/2 =
12e
−
y
2 ( y2 )1
2−1
Γ( 12 ), weil Γ(
1
2) =
√π.
7
Additionstheorem für Γ−Verteilung
Y1, . . . , Yn unabhängig, Γ(ti, λ), mit beliebigen ti
d.h. fYi(y) =
λe−λy(λy)ti−1
Γ(ti), für y ≥ 0
dann S :=n∑
i=1
Yi auch Γ−verteilt, nämlich S ∼ Γ(n∑
i=1
ti, λ)
d.h. fS(s) =λe−λs(λs)T−1
Γ(T ), für s ≥ 0, mit T :=
n∑
i=1
ti
Beweis: Iteratives Anwenden der Faltungsformel für dieΓ−Verteilung (vgl. Beispiel im Kapitel 4)
Bemerkung: Vergleiche Additionstheorem für Xi ∼ N (µi, σ2i ) i.i.d.
8
Definition der χ2 - Verteilung
Man bezeichnet Y ∼ Γ(n2 ,12 ) als χ
2-verteilt mit n Freiheitsgraden
Notation: Y ∼ χ2n
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
df=1df=2df=3df=4df=6
Dichte der χ2-Verteilung für verschiedene Freiheitsgrade
9
Verteilung der Quadratsumme, bekanntes µ
Wir haben gesehen: Z ∼ N (0, 1) ⇒ Z2 ∼ Γ( 12 ,
12 ) = χ
21
Aus dem Additionstheorem folgt unmittelbar:
Zi ∼ N (0, 1) i.i.d ⇒ Y :=n∑
i=1
Z2i ∼ χ2
n
Damit können wir unsere erste Frage beantworten:Für eine Stichprobe der Größe n von normalverteiltenZufallsvariablen Xi ∼ N (µ, σ2) gilt:
n∑
i=1
(Xi − µ)2 = σ2
n∑
i=1
(Xi−µ)2
σ2 ∼ σ2χ2n
10
Verteilung der Quadratsumme, unbekanntes µ
Wenn wir µ durch X ersetzen so gilt (ohne Beweis):
n∑
i=1
(Xi − X)2 ∼ σ2χ2n−1
Es gilt: Y ∼ χ2n−1 ⇒ E(Y ) = n− 1
Daher üblicher Schätzer für die Varianz S2 := 1n−1
n∑
i=1
(Xi − X)2
Interpretation für den Begriff Freiheitsgrad:
• µ bekannt: Alle Xi zur Schätzung von σ2 unabhängig
⇒ daher n Freiheitsgrade
• µ unbekannt: Ein Parameter wird aus den Daten geschätzt
⇒ daher n− 1 Freiheitsgrade
11
5.3 t - Verteilung
Motivation:
1. Standardisierung für X ∼ N (µ, σ2): Z = X−µ
σ
2. Für Stichprobe X1, . . . , Xn i.i.d. wie X ,
Standardisierung für X: X−µ
σ/√
n
3. Ersetze σ2 durch S2 = 1n−1
n∑
i=1
(Xi − X)2
d.h. wir interessieren uns für T :=√n
X−µ
S
Es gilt: T =√n
1
n
n∑
i=1
Zi
√
1
n−1
n∑
i=1
(Zi−1
n
n∑
j=1
Zj)2wobei Zi =
Xi−µ
σ
Beweis: Nachrechnen
12
Eigenschaften der T -Statistik
T =√n− 1
1√
n
n∑
i=1
Zi
√
n∑
i=1
(Zi−1
n
n∑
j=1
Zj)2wobei Zi = N (0, 1)
Wir wissen bereits:
Z := 1√
n
n∑
i=1
Zi ∼ N (0, 1),
Y :=n∑
i=1
(Zi −1n
n∑
j=1
Zj)2 ∼ χ2
n−1
Somit insgesamt
T =√
n(X−µ)S
=√n− 1 Z
√
Y
Zusätzlich gilt (ohne Beweis):
X und S2 sind unabhängige ZV, (daher auch Z und Y )
13
Definition der t-Verteilung
Seien Z ∼ N (0, 1), Y ∼ χ2n unabhängig, dann heißt
T :=√n
Z√
YStudent- oder t-verteilt mit n Freiheitsgraden
Dichte der t-Verteilung für verschiedene Freiheitsgrade
−3 −2 −1 0 1 2 30
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45t=1t=2t=3t=4t=6
Für n groß nahezu standardnormalverteilt
14
5.4 F - Verteilung
Motivation:
Häufig in der Statistik von Interesse: Vergleich von Varianzen.Eine Möglichkeit → betrachte Quotienten σ
21/σ
22
Zum Beispiel zwei Gruppen, Stichproben X(1)1 , . . . , X
(1)n1
bzw.
X(2)1 , . . . , X
(2)n2
.
Seien Y1 und Y2 die jeweiligen Quadratsummen der Stichproben,sodass Yj = σ
2j Yj mit Yj ∼ χ
2nj−1 (j = 1, 2).
Für Schätzer von σ2j gilt S2
j =Yj
nj−1 =σ2
jYj
nj−1 .
Falls σ1 = σ2 (“Nullhypothese”), gilt also für den Quotienten derSchätzer
S21
S22
=Y1/(n1 − 1)
Y2/(n2 − 1)
15
Definition der F -Verteilung
Y1 ∼ χ2n1
, Y2 ∼ χ2n2
unabhängig, dann heißt
Q := Y1/n1
Y2/n2
F -verteilt mit n1 und n2 Freiheitsgraden
Dichte der F -Verteilung für verschiedene n1 und für n2 = 25
0 0.5 1 1.5 2 2.50
0.5
1
1.5n
1=1
n1=2
n1=3
n1=4
n1=6
16
Eigenschaften der F - Verteilung
Sei Q ∼ F(n1, n2) F -verteilt mit Freiheitsgraden n1, n2.Dichte der F -Verteilung etwas kompliziert
• µF(n1,n2) =
n2
n2−2
Beweis als Übung.
• 1Q
∼ F(n2, n1)
folgt unmittelbar aus Definition
• Sei T Student-verteilt mit n Freiheitsgraden:
T 2 ∼ F(1, n)
aus der Darstellung T =√n
Z√
Y, wobei Z ∼ N (0, 1), Y ∼ χ2
n
folgt T2 = Z2/1
Y/nwobei Z
2 ∼ χ21
17
Quantile
In der Praxis werden sehr häufig die Quantile der χ2-,t- undF -Verteilung benötigt
Nicht elementar berechenbar ⇒ Tabellen (oder Computer)
Zu beachten:
• t-Verteilung mit unendlich vielen Freiheitsgraden entsprichtNormalverteilung
• γp(n1, n2) sei p-Quantil von F(n1, n2), dann gilt:
γp(n1, n2) =1
γ1−p(n2,n1)
Beweis: p = P (Q ≤ γp(n1, n2)) wobei Q = Y1/n1
Y2/n2
1− p = P (Q > γp(n1, n2)) = P (Q−1 <1
γp(n1,n2))
18
Wahrscheinlichkeitsrechnungfür Statistik und VWLWS 2016/17
6 Grenzwertsätze
1. Einführung
2. Gesetze der großen Zahlen
3. Der Zentraler Grenzwertsatz
1
6.1 Einführung
Grenzwertsätze grundlegend für Wahrscheinlichkeitstheorie
Zwei wesentliche Gruppen:
1. Gesetze der großen Zahl
Geben Bedingungen unter welchen Mittelwert einerZahlenfolge gegen theoretischen Erwartungswert konvergieren
2. Zentrale Grenzwertsätze
Bedingungen unter welchen die Summe einer großen Zahl vonVerteilungen gegen Normalverteilung konvergiert
Verschiedene Versionen, je nach Art der Konvergenz
2
Markov Ungleichung
X nichtnegative Zufallsvariable, d.h. X ⊂ R+0
Dann gilt für jedes a > 0:
P (X ≥ a) ≤ 1aE(X)
Beweis:
Definiere Y :=
1, X ≥ a
0, X < a
X ≥ 0 ⇒ Y ≤ Xa
⇒ E(Y ) ≤ E(X)a
und E(Y ) = P (X ≥ a)
3
Chebyshev Ungleichung
X Zufallsvariable mit E(X) = µ ∈ R und Var (X) = σ2< ∞,
dann gilt für jedes k > 0
P (|X − µ| ≥ k) ≤ σ2
k2
Beweis:
Anwendung der Markov Ungleichung für (X − µ)2 ≥ 0 und a = k2
P ((X − µ)2 ≥ k2) ≤
1
k2E(X − µ)2
Verwendung: Abschätzungen für Zufallsvariablen, wenn nur µ undσ2 bekannt.
4
6.2 Gesetze der großen Zahl
Das schwache Gesetz der großen Zahlen :
X1, X2, . . . i.i.d. Folge von Zufallsvariablen, E(Xi) = µ
Dann gilt für jedes ε > 0
P(∣
∣
X1+···+Xn
n− µ
∣
∣ ≥ ε)
→ 0 für n → ∞
Beweis: (Verwende zusätzlich Var (Xi) = σ2 < ∞ )
E(
X1+···+Xn
n
)
= µ, Var(
X1+···+Xn
n
)
= σ2
n
Chebyshev Ungleichung:
P
(∣
∣
∣
∣
X1 + · · ·+Xn
n− µ
∣
∣
∣
∣
≥ ε
)
≤σ2
nε2
5
Das starke Gesetz der großen Zahlen
X1, X2, . . . i.i.d. Folge von Zufallsvariablen, E(Xi) = µ
Dann gilt mit Wahrscheinlichkeit 1, dass
X1+···+Xn
n→ µ für n → ∞
Ohne Beweis
Starkes Gesetz tatsächlich stärker als schwaches Gesetz:
Mit Wahrscheinlichkeit 1 gibt es für jedes ε ein N(ε), so dass∣
∣
X1+···+Xn
n− µ
∣
∣ < ε für alle n > N(ε)
d.h. ab einem gewissen Index N(ε) sind (mit Wahrscheinlichkeit 1)alle weiteren Mittelwerte X1+···+Xn
nentsprechend nahe bei µ
Im Vergleich dazu läßt das schwache Gesetz die Möglichkeit offen,dass immer wieder ein Mittelwert X1+···+Xn
nweiter von µ entfernt
ist, aber mit immer kleiner werdender Wahrscheinlichkeit
6
6.3 Der zentrale Grenzwertsatz
X1, X2, . . . i.i.d. Folge von Zufallsvariablen,
E(Xi) = µ, Var (Xi) = σ2, dann gilt
P
(
X1+···+Xn−nµ
σ√
n≤ a
)
→ Φ(a) für n → ∞
In Worten: Die Summe einer großen Anzahl von unabhängigenidentisch verteilten Zufallsvariablen ist approximativ normalverteiltmit Mittelwert nµ und Varianz nσ
2
X1 + · · ·+Xn ∼ N (nµ, nσ2)
Ohne Beweis!
Literatur: Viele verschiedene Möglichkeiten diesen Satz zubeweisen
Spezialfall: Normalverteilungsapprox. der Binomialverteilung
7
Annäherung an Normalverteilung
0 10 20 30 40 50 60 70 80 90 1000
0.5
1
1.5
2
2.5x 10
4
0 10 20 30 40 50 60 70 80 90 1000
0.5
1
1.5
2
2.5x 10
4
0 10 20 30 40 50 60 70 80 90 1000
0.5
1
1.5
2
2.5x 10
4
0 10 20 30 40 50 60 70 80 90 1000
0.5
1
1.5
2
2.5x 10
4
Verteilungen der (normierten) Summen∑
n
i=1Xi mit Xi gleichverteilt, für n = 1, 2
(oben) und n = 3, 10 (unten).
8
Konvergenzbegriffe
I. Falls P (|Xn − a| ≥ ǫ) → 0 (n → ∞) für jedes ǫ > 0, sagt man,dass die Folge Xn von Zufallsvariablen in Wahrscheinlichkeitgegen die Zahl a konvergiert. Man schreibt dann Xn
p→ a. Das
schwache Gesetz der großen Zahlen besagt somit, dass
Xnp→ µ.
II. Falls die Verteilungsfunktionen von Xn gegen dieVerteilungsfunktion einer bestimmte Verteilung D konvergieren,spricht man von schwacher Konvergenz. Man schreibt dannXn
w→ D. Der zentrale Grenzwertsatz besagt somit, dass (unter
den angegebenen Voraussetzungen)
Xn − µ
σ√
n
w→ N (0, 1).
9