Organisatorisches - univie.ac.at

Univ.-Prof. Dr. Walter GutjahrOskar-Morgenstern-Platz 1Tel. 4277 [email protected]

Univ.-Doz. Dr. Florian FrommletSpitalgasse 21Tel. 40400 [email protected]

1

Organisatorisches

• Vorlesungstermine:

Mo 09.45 - 11.15 HS 6, wöchentlichDi 15.00 - 16.30 HS 6, wöchentlich

Letzter Vorlesungstermin:Di 13.12.2014

Achtung: Der Di-Termin am 22.11. wird einmalig einmal auf Mi(23.11., 13.15 - 14.45) verschoben.

• Voraussichtliche Prüfungstermine:1) Do 09.01.20152) Do 30.01.2015(Bitte Anmeldefristen beachten!!)

• Übungsgruppen:Parallele Gruppen, Ort und Zeit laut Vorlesungsverzeichnis!

2

Page 3: Organisatorisches - univie.ac.at

Tutorium

• Tutor: Raphael Rath

Zeit und Ort: Mo 15.00 - 16.30 im HS 13

3

Page 4: Organisatorisches - univie.ac.at

E-learning Plattform

Moodle Plattform

https://moodle.univie.ac.at

• Generelle Information

• Downloads der Folien

• Forum

• Noten

4

Page 5: Organisatorisches - univie.ac.at

Inhalt der Vorlesung

1. Einführung

(a) Wahrscheinlichkeitsbegriff

(b) Einfaches Rechnen mit diskreten Wahrscheinlichkeiten

2. Diskrete Verteilungen

3. Stetige Verteilungen

4. Mehrdimensionale Verteilungen

5. Verteilungen von Stichprobenkennzahlen

6. Grenzwertsätze

Danksagung: Für Anregungen zum Inhalt danken wir Univ.-Prof. Dr. Karl

Schlag!

5

Page 6: Organisatorisches - univie.ac.at

Literatur

Die Reihenfolge entspricht dem Grad an Relevanz speziell fürdiese Lehrveranstaltung

• Karl Bosch: Elementare Einführung in dieWahrscheinlichkeitsrechnung

• Sheldon Ross: A First Course in Probability

Bücher gibt es mindestens 10 mal in Lehrbuchsammlung

• Dimitri Bertsekas, John Tsitsiklis: Introduction to Probability

• Brannath / Futschik: Statistik für Wirtschaftswissenschafter

• John Rice: Mathematical statistics and data analysis

• Robert Hafner: Wahrscheinlichkeitsrechnung und Statistik

• Walter Oberhofer: Wahrscheinlichkeitstheorie

• Jim Pitmann: Probability

6

Page 7: Organisatorisches - univie.ac.at

Einführung

Mathematische Modellierung

Deterministisch

Stochastisch (Zufälligkeit, Unsicherheit)

Experiment mit verschiedenen möglichen Ausgängen – Ereignisse

Wahrscheinlichkeitsmodelle haben nicht den Anspruch exakteVorhersagen zu liefern

Modell liefert Aussagen über Wahrscheinlichkeit von Ereignissen

7

Page 8: Organisatorisches - univie.ac.at

Beispiele

Konzeptionell einfach:

• Münzwurf

• Würfelspiele / Kartenspiele / Lotto

Konzeptionell etwas schwieriger:

• Nicht faire Münze

Konzeptionell schwierig:

• Wahlprognosen

• Kreditrückzahlung (Insolvenzprognoseverfahren)

• Sportwetten

8

Page 9: Organisatorisches - univie.ac.at

Interpretation von Wahrscheinlichkeit

1. Laplace: Endlich viele Ereignisse

Alle Ereignisse gleiche Wahrscheinlichkeit

2. Frequentistisch:

Idee: Experiment das beliebig oft wiederholt werden kann

Relative Häufigkeit: Anzahl des Auftretens eines Ereignissesbei n Wiederholungen des Experiments

Wahrscheinlichkeit: Relative Häufigkeit für n → ∞

3. Subjektiv: Nicht immer taucht Wahrscheinlichkeit im Kontextvon beliebig oft wiederholbaren Ereignissen auf

Beispiel: Ärztliche Prognose, Sportwetten,Investitionsentscheidungen

9

Page 10: Organisatorisches - univie.ac.at

Wahrscheinlichkeitsrechnung

Unabhängig von der Interpretation!

Axiomatische Wahrscheinlichkeitstheorie ⇒ Kolmogorov (1933)

• Ergebnisraum Ω (die Elemente ω ∈ Ω heißen Ergebnisse)

• Menge A aller zulässigen Ereignisse A: jedes zulässigeEreignis A ist ein Teilmenge von Ω

• Wahrscheinlichkeitsverteilung P : eine Funktion, die jedemEreignis A ∈ A eine Wahrscheinlichkeit P (A) zuordnet.

Die Funktion A 7→ P (A) hat folgende Eigenschaften

1. 0 ≤ P (A) ≤ 1

2. P (∅) = 0, P (Ω) = 1

3. P (A ∪B) = P (A) + P (B) falls A ∩B = ∅.

10

Page 11: Organisatorisches - univie.ac.at

Beispiel 1: Münzwurf

Ergebnisraum: Ω = Kopf, Zahl

Ereignisse: ∅, Kopf, Zahl, Kopf oder Zahl

Wahrscheinlichkeitsverteilung: Falls faire Münze

P (Kopf) = 1/2, P (Zahl) = 1/2 (Elementarereignisse)

P (Kopf oder Zahl) = P (Kopf) + P (Zahl) = 1/2 + 1/2 = 1

P (weder Kopf noch Zahl) = P (∅) = 0

Interpretation: Laplace’scher Wahrscheinlichkeitsbegriff

Elementarereignis: A ⊂ Ω mit |A| = 1

d.h. einelementige Teilmenge

11

Page 12: Organisatorisches - univie.ac.at

Übungen

Fairer Würfel

Ergebnisraum:

Ereignisse:

Wahrscheinlichkeitsverteilung:

Zwei faire Münzen

Ergebnisraum:

Ereignisse:

Wahrscheinlichkeitsverteilung:

12

Page 13: Organisatorisches - univie.ac.at

Wahrscheinlichkeitsrechnungfür Statistik und VWLWS 2016/17

1 Grundbegriffe

1. Mengenlehre

2. Rechnen mit Wahrscheinlichkeiten

3. Kombinatorik

4. Bedingte Wahrscheinlichkeit

1

Page 14: Organisatorisches - univie.ac.at

1.1 Mengenlehre

Ereignis: Teilmenge von Ω

Ac := Ω\A . . . KomplementA ∪B . . . VereinigungA ∩B . . . DurchschnittA ∩B = ∅ . . . Disjunkte Mengen

A\B := A ∩Bc

B ⊆ Ac ⇒ A\B =?

Venn Diagramm:

Ω

A

B

Indexschreibweise: Gegeben die Ereignisse A1, A2, . . . , An

⋃n

i=1 Ai = A1 ∪A2 ∪ · · · ∪ An

⋂

n

i=1 Ai = A1 ∩A2 ∩ · · · ∩ An

2

Page 15: Organisatorisches - univie.ac.at

Rechenregeln

• Kommutativgesetz: A ∪B = B ∪A

• Assoziativgesetz: (A ∪B) ∪ C = A ∪ (B ∪ C)

• Distributivgesetz: (A ∪B) ∩ C = (A ∩ C) ∪ (B ∩ C)

• de Morgan: (A ∪B)c = Ac ∩Bc

Alle Regeln gelten auch wenn man ∪ und ∩ konsequentvertauscht!

Weiters gilt (Übung):

A ∩Ac = A ∪ Ac =

A ∪ Ω = A ∩ Ω =

A ∪ ∅ = A ∩ ∅ =

A ∪A = A ∩A =

3

Page 16: Organisatorisches - univie.ac.at

Übung: Zwei Würfel

Es werden ein weisser und ein schwarzer Würfel geworfen.

• Ergebnisraum Ω:

• Welche Teilmengen entsprechen den folgenden Ereignissen

A : = Ein Würfel zeigt 4, der andere 2

B : = der schwarze Würfel zeigt eine gerade Augenzahl derweisse eine ungerade

C := die Summe der Augenzahlen beträgt 8

• Welche der genannten Ereignisse sind disjunkt?

• Bilde (A ∪B)c ∩ C ∪ [A ∩ (B ∪ C)]

4

Page 17: Organisatorisches - univie.ac.at

1.2 Rechnen mit Wahrscheinlichkeiten

1. 0 ≤ P(A) ≤ 1

2. P(∅) = 0, P(Ω) = 1

3. P(A ∪B) = P(A) + P(B) falls A ∩B = ∅.

Einfache Folgerungen:

• A1, . . . , An paarweise disjunkt, dann gilt

P

(

n⋃

i=1

Ai

)

=

n∑

i=1

P(Ai)

• P(A ∪B) = P(A) + P(B)− P(A ∩B) ≤ P(A) + P(B)

• B ⊂ A ⇒ P(B) ≤ P(A)

• P(A\B) = P(A)− P(B ∩A) P(Ac) = 1− P(A)

5

Page 18: Organisatorisches - univie.ac.at

Übung

A,B und C seien Ereignisse (Teilmengen von Ω) jeweils mitWahrscheinlichkeit P(A) = 0.8,P(B) = 0.3,P(C) = 0.7.

Weiters gelte

A ∪ C = Ω, B ⊂ A, B und C sind disjunkt

1. Berechne P(A ∩ C)

2. Welche der folgenden Aussagen sind richtig

(a) A ⊂ C?

(b) C ⊂ A?

(c) B ∪ C = Ω?

6

Page 19: Organisatorisches - univie.ac.at

Ereignisse mit Wahrscheinlichkeit null

Der Formalismus der Wahrscheinlichkeitsrechnung erlaubt auchden Fall, dass ein Ereignis A, obwohl es logisch gesehen möglichist, dennoch Wahrscheinlichkeit null hat: Aus P(A) = 0 folgt nichtzwingend, dass A = ∅.

Beispiel: Wenn wir annehmen, dass ein Punkt X zufällig aus demIntervall [0, 1] gewählt wird, ohne dass irgendein Teilbereich diesesIntervalls bei der Auswahl bevorzugt wird (wir werden später vonGleichverteilung auf [0, 1] sprechen), hat z.B. das Ereignis X = 0.5

die Wahrscheinlichkeit null. Dennoch ist es nicht logisch unmöglich(sonst wäre überhaupt kein Ergebnis möglich!).

Der exakte Aufbau der Wahrscheinlichkeitsrechung wird durch dieBerücksichtigung von Ereignissen mit Wahrscheinlichkeit nullkomplizierter; viele Aussagen brauchen z.B. den Zusatz “mitWahrscheinlichkeit 1”.

7

Page 20: Organisatorisches - univie.ac.at

Laplace’sche Wahrscheinlichkeit

|Ω| = n < ∞ . . . Ergebnisraum mit endlich vielen Elementen

Alle Elementarereignisse gleiche Wahrscheinlichkeit

⇒ P(A) = |A|/n

Berechnung der Wahrscheinlichkeit durch Zählen der Elementeeiner Menge ⇒ Kombinatorik

Beispiel : Urne mit 5 schwarzen und 6 weißen Bällen

Wie groß ist die Wahrscheinlichkeit dass zwei gezogene Bälle weißsind?

a) Mit Zurücklegen: P = 6/11 · 6/11 = 36/121 ∼ 0.2975

b) Ohne Zurücklegen: P = 6/11 · 5/10 = 30/110 ∼ 0.2727

8

Page 21: Organisatorisches - univie.ac.at

1.3 Grundbegriffe der Kombinatorik

Permutation: Anzahl der möglichen Anordnungen von n

verschiedenen Elementen

n! = n · (n− 1) · · · · 1

Beispiel: Auf wie viele verschieden Arten kann man abc anordnen?

abc, acb, bac, bca, cab, cba 3! = 3 · 2 · 1 = 6

Auf wie viele verschieden Arten kann man abcd anordnen?abcd, acbd, bacd, bcad, cabd, cbadabdc, acdb, badc, bcda, cadb, cbdaadbc, adcb, bdac, bdca, cdab, cdbadabc, dacb, dbac, dbca, dcab, dcba

4! = 4 · 3 · 2 · 1 = 24

Man definiert: 0! = 1

9

Page 22: Organisatorisches - univie.ac.at

r - Permutation mit Wiederholung

Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n

Elementen zu ziehen:

Mit zurücklegen, Reihenfolge wesentlich

Beispiel: n = 4, r = 2

aa, ab, ac, ad, ba, bb, bc, bd, ca, cb, cc, cd, da, db, dc, dd

n Möglichkeiten für jede der r Positionen ⇒ nr Möglichkeiten

Übung: Wie viele Zahlen kann man mit allen 10-stelligenZiffernkombinationen im Dualsystem (Ziffern 0 und 1) darstellen?

10

Page 23: Organisatorisches - univie.ac.at

r - Permutation ohne Wiederholung

Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n

Elementen zu ziehen:

Ohne zurücklegen, Reihenfolge wesentlich

Beispiel: n = 4, r = 2 ab, ac, ad, ba, bc, bd, ca, cb, cd, da, db, dc

Nicht mehr relevant: aa, bb, cc, dd

n Möglichkeiten für die erste Position, n− 1 für die zweite, . . .n− r + 1 für die r−te Position

⇒ n · (n− 1) · · · (n− r + 1) = n!(n−r)! Möglichkeiten

Bemerkung: Es muss gelten: r ≤ n

r = n gibt als Spezialfall die normale Permutation

11

Page 24: Organisatorisches - univie.ac.at

r - Kombination ohne Wiederholung

Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n

Elementen zu ziehen:

Ohne zurücklegen, Reihenfolge egal

Beispiel: n = 4, r = 2 ab, ac, ad, bc, bd, cd

Nicht mehr relevant: ba, ca, da, cb, db, dc

Es gibt r! Möglichkeiten die Elemente innerhalb von einer Gruppeanzuordnen

⇒(

n

r

)

:= n·(n−1)···(n−r+1)r! = n!

(n−r)!r! Möglichkeiten

Bemerkung: Es muss klarerweise wieder gelten: r ≤ n

12

Page 25: Organisatorisches - univie.ac.at

r - Kombination mit Wiederholung

Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n

Elementen zu ziehen:

Mit zurücklegen, Reihenfolge egal

Beispiel: n = 4, r = 2 aa, ab, ac, ad, bb, bc, bd, cc, cd, dd

Hinzugekommen: aa, bb, cc, dd

Anzahl der Möglichkeiten:

(

n+r−1r

)

= (n+r−1)!(n−1)! r! =

(n+r−1)···nr!

n = 4, r = 2 : 5!3! 2! =

5·42 = 10

13

Page 26: Organisatorisches - univie.ac.at

Beispiel: r - Kombination mit Wiederholung

Hochzeitsgesellschaft, 30 Gäste, 3 Menüs zur Auswahl

Wieviele Möglichkeiten gibt es 30 Menüs zu bestellen?

Eine Möglichkeit: 8 mal Menü A, 12 mal Menü B, 10 mal Menü C

AAAAAAAA | BBBBBBBBBBBB |CCCCCCCCCC

Durch die beiden Trennsymbole | wird diese Kombination eindeutigfestgelegt

Somit Fragestellung äquivalent dazu, wie viele Möglichkeiten gibtes "zwei Trennwände" zu setzen

Wähle 2 (= n− 1) von 32 (= n+ r − 1) Positionen, Reihenfolgeegal, ohne zurücklegen(

n+r−1n−1

)

=(

n+r−1r

)

=(

322

)

= 31 · 16 = 496

14

Page 27: Organisatorisches - univie.ac.at

Zusammenfassung

Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n

Elementen zu ziehen:

Reihenfolge mit Wiederholung ohne Wiederholung (n ≥ r)

relevant nr

n!/(n− r)!

egal(

n+r−1r

) (

n

r

)

Faktorielle (auch Fakultät):

n! = n · (n− 1) · · · 1, 0! = 1

Binomialkoeffizient:(

n

r

)

= n·(n−1)···(n−r+1)r! = n!

(n−r)! r!

15

Page 28: Organisatorisches - univie.ac.at

Beispiel

8 Männer und 6 Frauen sollen eine Kommitee bestehend aus 3Männern und 3 Frauen bilden. Wieviele mögliche Kommitees gibtes, wenna) 2 Frauen nicht kooperieren wollen?b) 2 Männer nicht kooperieren wollen?c) Ein Mann und eine Frau nicht kooperieren wollen?

Lösung :Ohne Konflikte:

(

83

)(

63

)

= 1120 KommiteesSubtrahiere davon jeweils die Anzahl der unmöglichen Komitees:a)

(

83

) [(

63

)

− 4]

= 896

b)(

63

) [(

83

)

− 6]

= 1000

c)(

83

)(

63

)

−(

72

)(

52

)

= 910

16

Page 29: Organisatorisches - univie.ac.at

Übungsaufgabe (etwas schwierig)

In einem Dorf gibt es 4 Frisöre, und 4 verschiedene Personenwollen zu einem Frisör. Wie groß ist die Wahrscheinlichkeit, dassgenau i Frisöre einen Auftrag erhalten.

Lösung :

• P(i = 1) = 1/64

• P(i = 2) = 21/64

• P(i = 3) = 36/64

• P(i = 4) = 6/64

17

Page 30: Organisatorisches - univie.ac.at

Einschub: Binomischer Lehrsatz

(x+ y)n =n∑

k=0

(

n

k

)

xkyn−k

Beweis durch vollständige Induktion:

1) n = 1 :(

10

)

x0y1−0 +(

11

)

x1y1−1 = x+ y

2) (n− 1) → n : Angenommen der Satz ist richtig für n− 1.

Schreibe (x+ y)n = (x+ y)(x+ y)n−1, verwende den binomischenLehrsatz für (x+ y)n−1 und zeige damit, dass sich die rechte Seite

tatsächlich alsn∑

k=0

(

n

k

)

xkyn−k schreiben läßt.

Hilfreiche Identität für den Beweis:(

n

r

)

=

(

n− 1

r − 1

)

+

(

n− 1

r

)

18

Page 31: Organisatorisches - univie.ac.at

Einschub: Pascalsches Dreieck

Schema der Binomialkoeffizienten:

n = 0 1

n = 1 1 1

n = 2 1 2 1

n = 3 1 3 3 1

n = 4 1 4 6 4 1

n = 5 1 5 10 10 5 1

(x+ y)2 = x2 + 2xy + y

2

(x+ y)3 = x3 + 3x2

y + 3xy2 + y3

(x+ y)4 = x4 + 4x3

y + 6x2y2 + 4xy3 + y

4

19

Page 32: Organisatorisches - univie.ac.at

Übungen

Zug mit 10 Waggons, Schaffner kontrolliert 2 davon; pro Waggonkontrolliert er 2 PersonenEinzigen 4 Schwarzfahrer in einem Waggon mit 12 Fahrgästen

1. Wieviele Möglichkeiten hat Schaffner Waggons zu wählen

2. Mit welcher Wahrscheinlichkeit erwischt er Waggon mit denSchwarzfahrern?

3. Mit welcher Wahrscheinlichkeit erwischt er mindestens einenSchwarzfahrer, wenn er ihren Waggon kennt?

4. Mit welcher Wahrscheinlichkeit erwischt er mindestens einenSchwarzfahrer, wenn er ihren Waggon nicht kennt?

20

Page 33: Organisatorisches - univie.ac.at

1.4 Bedingte Wahrscheinlichkeit

Noch mal Beispiel der Urne mit 5 schwarzen und 6 weißen Bällen.

Wahrscheinlichkeit dass zwei gezogene Bälle weiß sind?

Ohne Zurücklegen: P = 6/11 · 5/10 = 30/110 ∼ 0.2727

In Worten: 6/11 . . . Wahrscheinlichkeit, dass erste Kugel weiß

5/10 . . . Wahrscheinlichkeit, dass zweite Kugel weiß,

falls erste Kugel weiß war

Formal: A . . . erste Kugel weiß

B . . . zweite Kugel weiß

B|A . . .B wenn A, oder B unter der Bedingung A,

d.h. zweite Kugel weiß falls erste Kugel weiß

P(B ∩A) = P(A)P(B|A)

21

Page 34: Organisatorisches - univie.ac.at

Definition bedingte Wahrscheinlichkeit

P(B|A) = P(B ∩ A)/P(A)

Interpretation: Ω und P : Ω → [0, 1] repräsentieren Information zuBeginn eines Experiments, Ω enthält alle möglichen Ereignisse

Zusätzliche Information ⇒ nur Ereignisse möglich, die Teilmengenvon A sind. A wird zum neuen (reduzierten) Ergebnisraum.

Die bedingte Wahrscheinlichkeit eines Ereignisses B entsprichtdem ‘Anteil’ von B an A.

Wir nennen fortan Ω gemeinsam mit P : Ω → [0, 1] einenWahrscheinlichkeitsraum(Bemerkung: Genaugenommen braucht man auch noch eine sog.σ - Algebra A. Wir betrachten zunächst endlicheWahrscheinlichkeitsräume, hier ist A die Potenzmenge von Ω.)

22

Page 35: Organisatorisches - univie.ac.at

Fortsetzung: Bedingte Wahrscheinlichkeit

Die bedingte Wahrscheinlichkeit ist tatsächlich eineWahrscheinlichkeit:

Reduzierter Ergebnisraum A

P(A|A) = P(A ∩A)/P(A) = 1

B ∩ C = ∅ ⇒ P(B ∪ C|A) = P(B|A) + P(C|A)

Übung: In einer LVA gab es zwei Beurteilungstests. 50% derStudierenden bestanden den ersten Test und 35% bestandenbeide Tests. Wieviele Prozent der Studierenden die den erstenTest schafften scheiterten am zweiten Test?

23

Page 36: Organisatorisches - univie.ac.at

Produktformel

Manchmal hilfreich:

P(⋂n

i=1Ai) = P(A1)P(A2|A1)P(A3|A1 ∩A2) · · ·P(An|⋂n−1

i=1 Ai)

Beweis: Iteratives Anwenden der Definition von bed. Wahrsch.

Übung: Übliches Set von Spielkarten zufällig in vier Stapel zu je13 Karten aufgeteilt

Berechne Wahrscheinlichkeit, dass in jedem Stapel ein As

Hinweis: Definiere die Ereignisse

A1 = Pik As befindet sich in irgendeinem Stapel A2 = Pik As und Herz As in verschiedenen Stapeln

A3 = Pik, Herz und Karo As in verschiedenen Stapeln

A4 = Alle Asse in verschiedenen Stapeln

Lösung: 0.1055

24

Page 37: Organisatorisches - univie.ac.at

Satz von der totalen Wahrscheinlichkeit

Seien A1, A2, . . . , An disjunkte Ereignisse und Ω =n⋃

i=1

Ai

Dann gilt

P(A) = P(A1)P(A|A1) + · · ·+ P(An)P(A|An)

Beweis:

Rechte Seite: P(A ∩A1) + · · ·+ P(A ∩An)

Ai disjunkt ⇒ R.S. = P

(

n⋃

i=1

(A ∩Ai)

)

Ai vollständig ⇒n⋃

i=1

(A ∩Ai) = A

25

Page 38: Organisatorisches - univie.ac.at

Satz von Bayes

Seien A und B Ereignisse mit positiver Wahrscheinlichkeit

Dann gilt:

P(A|B) = P(A)P(B|A)/P(B)

Beweis: P(A)P(B|A) = P(B)P(A|B) = P(A ∩B)

Aufgrund des Satzes der totalen Wahrscheinlichkeit gilt auch

P(A|B) =P(A)P(B|A)

P(A)P(B|A) + P(Ac)P(B|Ac)

Typische Anwendung: Bayesianische Statistik

26

Page 39: Organisatorisches - univie.ac.at

Übung Bayes, Totale Wahrscheinlichkeit

Versicherung teilt Autofahrer in 3 Klassen

Prozent P(Unfall im ersten Jahr)

schlecht 30 0.6

mittel 60 0.1

gut 10 0.01

a) Wahrscheinlichkeit für Unfall im ersten Jahr von beliebigemAutofahrer?

Lösung: 0.241

b) Wahrscheinlichkeit, dass jemand der im ersten Jahr einen Unfallhat ein guter Autofahrer ist?

Lösung: 0.00415

27

Page 40: Organisatorisches - univie.ac.at

Interpretation medizinischer Testergebnisse

Gigerenzer et al. (z.B. in “Helping doctors and patients make senseof health statistics”, 2008) zeigen, dass nicht nur Patienten,sondern sogar Ärzte die aus medizinischen Tests abgeleitetenWahrscheinlichkeiten häufig völlig falsch einschätzen.

Beispiel: Ein Labortest auf HIV habe folgende Kennzahlen:

95% Sensitivität (Test positiv falls tatsächlich krank)99% Spezifität (Test negativ falls gesund)

In der untersuchten Region sind 0.5% der Bevölkerung HIV-positiv.

a) Schätze die Wahrscheinlichkeit, dass jemand mit einempositiven Test tatsächlich erkrankt ist!

b) Berechne die Wahrscheinlichkeit, dass jemand mit einempositiven Test tatsächlich erkrankt ist!

28

Page 41: Organisatorisches - univie.ac.at

Unabhängige Ereignisse

Noch mal Beispiel der Urne mit 5 schwarzen und 6 weißen Bällen.

Wahrscheinlichkeit dass zwei gezogene Bälle weiß sind?

Mit Zurücklegen: P = 6/11 · 6/11 = 36/121 ∼ 0.2975

Durch das Zurücklegen werden die beiden EreignisseA = (erste Kugel weiß) und B = (zweite Kugel weiß)voneinander unabhängig: P(B|A) = P(B) = 6/11

Das wissen um A liefert keine Information für B

Allgemeine Definition: Zwei Ereignisse A und B unabhängig falls

P(A ∩B) = P(A)P(B)

Beispiele: Mehrere Würfel, Münzen, etc.

29

Page 42: Organisatorisches - univie.ac.at

Beispiel Unabhängigkeit

In einer Gruppe von Leuten befinden sich 8 Raucher und12 Raucherinnen, sowie 10 Nichtraucher.

Wieviele Nichtraucherinnen sind in der Gruppe, falls bei derzufälligen Wahl einer Person das Geschlecht vom Rauchverhaltenunabhängig ist?

Lösung: Sei x die Zahl der Nichtraucherinnen

P(raucht) = 20/(30 + x) P(männlich) = 18/(30 + x)

P(raucht und männlich) = 8/(30 + x)

Unabhängigkeit: (20/(30 + x)) · (18/(30 + x)) = 8/(30 + x)

⇒ 18 · 20 = 8 · (30 + x) ⇒ 45 = 30 + x

Somit x = 15 Nichtraucherinnen.

30

Page 43: Organisatorisches - univie.ac.at

Multiple Unabhängigkeit

Drei Ereignisse A, B und C heissen unabhängig falls

1. alle 3 Ereignisse jeweils paarweise unabhängig

2. P(A ∩B ∩ C) = P(A)P(B)P(C)

Aus paarweiser Unabhängigkeit folgt NICHT multipleUnabhängigkeit!

Übung: Zwei faire Würfel

Ereignis A: Erster Würfel fällt auf 4

Ereignis B: Zweiter Würfel fällt auf 3

Ereignis C: Summe der Würfel gibt 7

31

Page 44: Organisatorisches - univie.ac.at

Übungen - Wiederholung

1. Urne mit 3 blauen und 2 roten Kugeln,

ziehe 3 mal mit zurücklegen

Mit welcher Wahrscheinlichkeit

• ist die zweite gezogene Kugel blau?

• sind alle gezogenen Kugeln rot?

• sind alle gezogenen Kugeln blau?

• werden 2 rote Kugeln gezogen?

2. Wie 1) aber ziehen ohne zurücklegen!

Hinweis:X . . . Anzahl der gezogenen roten Kugeln ist eine Zufallsvariable

32

Page 45: Organisatorisches - univie.ac.at

Inverse Fallacy

Der falsche Umgang mit bedingten Wahrscheinlichkeiten gehört zuden häufigsten Fehlerquellen in der Anwendung derWahrscheinlichkeitsrechung. Ein verbreiteter Fehlertyp ist diesogenannte inverse fallacy, die intuitive Gleichsetzung von P (A|B)

mit P (B|A) (vgl. auch das obige Beispiel der Interpretationmedizinischer Testergebnisse).

Beispiel: Bei den meisten Unfällen ist das Unfallsopfer weniger als25 km von daheim entfernt. (Irrtümliche) Folgerung: Am sicherstenist man, wenn man so weit von daheim weg ist wie möglich.

P( Entfernung ≤ 25 | Unfall) > P( Entfernung > 25 | Unfall)

ist richtig, nicht aber

P( Unfall | Entfernung ≤ 25) > P( Unfall | Entfernung > 25).

33

Page 46: Organisatorisches - univie.ac.at

Das Drei-Türen-Problem

Ein weiterer Typ von Fehlern im Zusammenhang mit bedingtenWahrscheinlichkeiten resultiert aus der Vernachlässigung desEinflusses neuer Informationen auf die bedingteWahrscheinlichkeit.

Das Drei-Türen-Problem illustriert diesen Effekt. Marilyn vosSavant stellte in ihrer Kolumne im Magazin Parade im Jahr 1990folgende Frage:

“Angenommen Sie sind in einer Gewinnshow und haben die Wahl zwischen 3

Türen: Hinter einer Tür ist ein Auto, hinter den beiden anderen Türen Ziegen. Sie

wählen eine Tür, sagen wir Nr. 1, und der Quizmaster, der weiss, was hinter den

Türen ist, öffnet eine andere Tür, sagen wir Nr. 3, die eine Ziege dahinter hat. Er

sagt dann zu Ihnen: ‘Wollen Sie Tür Nr. 2?’ Ist es vorteilhaft zu wechseln?”

34

Page 47: Organisatorisches - univie.ac.at

Drei-Türen-Problem – Kontroverse

Antwort von vos Savant: Ja, man sollte wechseln.

Zahlreiche Leserbriefschreiber bestritten die Korrektheit derAntwort mit dem Argument: Türen 1 und 2 haben dieselbeWahrscheinlichkeit, auf das Auto zu führen. Was soll sich durchdas Öffnen von Tür 3 (hinter der kein Auto steht) daran ändern? Esbringt also nichts, die ursprüngliche Entscheidung zu revidieren.

Dieses Argument ist falsch . Unter einschränkendenVoraussetzungen (nächste Folie) kann gezeigt werden, dass dieWahrscheinlichkeit, durch Wechseln das Auto zu erhalten, 2/3beträgt, durch Beharren auf der ursprünglichen Wahl hingegennur 1/3.

35

Page 48: Organisatorisches - univie.ac.at

Drei-Türen – Präzisierung

Voraussetzungen:

1. Die Wahrscheinlichkeit, mit der das Quiz-Team vor der Showdas Auto hinter einer der Türen versteckt, ist für jede Türdieselbe.

2. Der Quizmaster öffnet in jedem Fall eine Tür, die kein Autoenthält, und wenn er dabei die Wahl zwischen zwei Türen hat,gibt er beiden Türen dieselbe Wahrscheinlichkeit.

Ohne diese Voraussetzungen ist das Problem wesentlichkomplexer (vgl. etwa Richard Gill 2010).

36

Page 49: Organisatorisches - univie.ac.at

Drei-Türen-Problem – Wahrscheinlichkeiten

Angenommen, der Kandidat wählt Tür Nr. 1.

A = Nr. der Tür, hinter der das Auto ist

B = Nr. der Tür, die der Quizmaster öffnet

Voraussetzung 1 besagt:

P(A = 1) = P(A = 2) = P(A = 3) = 1/3

Voraussetzung 2 besagt:

P(B = 2 |A = 1) = P(B = 3 |A = 1) = 1/2

P(B = 2 | A = 2) = P(B = 3 |A = 3) = 0

P(B = 3 | A = 2) = P(B = 2 |A = 3) = 1

37

Page 50: Organisatorisches - univie.ac.at

Drei-Türen-Problem – Lösung

Anwendung des Satzes von Bayes liefert:

P(A = 1 |B = 3) = P(B = 3 |A = 1) ·P(A = 1)

P(B = 3)=

1

2·

13

P(B = 3)

P(A = 2 |B = 3) = P(B = 3 |A = 2) ·P(A = 2)

P(B = 3)= 1 ·

13

P(B = 3)

also ist die Gewinnwahrscheinlichkeit bei Wechseln doppelt sogross wie bei Beharren auf der ersten Wahl.

(Anwendung des Satzes von der totalen Wahrscheinlichkeit liefertP(B = 3) = 1/2 und damit die Werte 1/3 bzw. 2/3 für die beidenobigen Wahrscheinlichkeiten.)

38

Page 51: Organisatorisches - univie.ac.at

Wahrscheinlichkeitsrechnungfür Statistik und VWLWS 2016/17

2 Diskrete Verteilungen

1. Einführung

2. Erwartungswert und Varianz

3. Die Binomialverteilung

4. Die Poissonverteilung

5. Andere diskrete Verteilungen

1

Page 52: Organisatorisches - univie.ac.at

2.1 Einführung

Beispiel: Fairer Würfel, Beobachtungen: 1, 2, 3, 4, 5, 6

Jede Augenzahl hat Wahrscheinlichkeit pi = 1/6 (i = 1, . . . , 6).

Beim Würfeln beobachten wir Realisierungen einerZufallsvariablen.

(Reelle) Zufallsvariable: Abbildung einesWahrscheinlichkeitsraums in die Menge der reellen Zahlen:

X : Ω → R

Im Beispiel:

Ω = 1, 2, 3, 4, 5, 6

X(i) = i

2

Page 53: Organisatorisches - univie.ac.at

Fortsetzung Beispiel

Zwei faire Würfel, X = Summe der Augenzahlen.

Ω = 1, 2, 3, 4, 5, 6 × 1, 2, 3, 4, 5, 6.

Wahrscheinlichkeit pij für (i, j) ist 1/36 für jedes Paar (i, j).

Zufallsvariable X : Ω → R gegeben durch X(i, j) = i+ j.

P (2) = P (12) = 1/36

P (3) = P (11) = 2/36

P (4) = P (10) = 3/36

P (5) = P (9) = 4/36

P (6) = P (8) = 5/36

P (7) = 6/36

Wertebereich: X = X(Ω) = 2, . . . , 12.

3

Page 54: Organisatorisches - univie.ac.at

Weiteres Beispiel

Faire Münze: Werfe entweder Kopf (K) oder Zahl (Z)

Ω = K,Z

Spiel: Bei Kopf Gewinn von 10 Euro, sonst 10 Euro Verlust

X : Ω → R

X(K) = 10, X(Z) = −10,

P (10) = P(X = 10) = P(K) = 0.5

P (−10) = P(X = −10) = P(Z) = 0.5

Wertebereich: X = X(Ω) = −10, 10.

Bemerkung: In den letzten beiden Beispielen wurden dieElementarereignisse in Ω nicht mit den möglichen Werten derZufallsvariable identifiziert!

4

Page 55: Organisatorisches - univie.ac.at

Diskrete Zufallsvariable

Ergebnisraum Ω mit endlich oder abzählbar vielen Elementen,

d.h. indizierbar mit 1, 2, . . .: Ω = ω1, ω2, ω3, . . .

Eine (reelle) Zufallsvariable X ist eine Funktion der FormX : Ω → R

Der Zufallsvariablen X ist die Wahrscheinlichkeitsfunktion P = PX

wie folgt zugeordnet:

P : X → [0, 1], P (x) = P(X = x) =∑

ω∈Ω:X(ω)=x pω,

wobei pω die Wahrscheinlichkeit des Elementarereignisses ω ∈ Ω

ist.

Wahrscheinlichkeiten der Elementarereignisse beschreibenVerteilung einer diskreten Zufallsvariable vollständig.

5

Page 56: Organisatorisches - univie.ac.at

Verteilungsfunktion

Englisch: Cumulative distribution function (cdf)

F : R → [0, 1], F (x) = P(X ≤ x) =∑

xi≤x P(X = xi)

Beispiel Würfel:

−2 0 2 4 6 8

0

0.2

0.4

0.6

0.8

1

F(x

) =

P(X

≤ x

)

x

6

Page 57: Organisatorisches - univie.ac.at

Gleichverteilung

n mögliche Ereignisse mit gleicher Wahrscheinlichkeit

Ω = 1, . . . , n pi = 1/n

Wählen X(i) = i, d.h. X = Ω.

Verteilungsfunktion:

F (x) =

0, x < 1

i/n, i ≤ x < i+ 1, i = 1, . . . , n− 1

1, x ≥ n

An den Stellen x ∈ Ω springt Verteilungsfunktion um den Wert 1/n

Auch bei anderer Wahl der pi gilt folgender Zusammenhangzwischen Verteilungsfunktion und Wahrscheinlichkeitsfunktion:

P (i) = F (i)− F (i− 1), falls i ∈ Ω = 1, . . . , n

7

Page 58: Organisatorisches - univie.ac.at

Eigenschaften der Verteilungsfunktion

Für diskrete Zufallsvariablen gilt:

Die Verteilungsfunktion ist eine monoton wachsendeTreppenfunktion mit Sprungstellen bei Ereignissen mit positiverWahrscheinlichkeit.

Es gilt allgemein für Verteilungsfunktionen:

• P (x) = F (x)− F (x−), wobei F (x−) = limh→x,h<x

F (h)

Folgt aus der Definition von F (x) = P(X ≤ x)

• P(a < X ≤ b) = F (b)− F (a)

• lima→−∞

F (a) = 0, limb→∞

F (b) = 1

• F (x) monoton wachsend

8

Page 59: Organisatorisches - univie.ac.at

Übung

Die Verteilungsfunktion einer Zufallsvariablen X sei

F (x) =

0, x < 1

1− 2−k, k ≤ x < k + 1, k = 1, 2, . . .

1. Zeiche die Verteilungsfunktion im Bereich x ∈ [0, 5]

2. Bestimme die Wahrscheinlichkeitsfunktion von X

3. Mit welcher Wahrscheinlichkeit ist X > 5?

9

Page 60: Organisatorisches - univie.ac.at

2.2 Erwartungswert und Varianz

Wesentliche Kenngrößen von Verteilungen

Werden in der Praxis häufig verwendet

⇒ Reduktion der Information von Daten

Erwartungswert ist ein Maß für die zentrale Lage einer Verteilung,entspricht dem arithmetischen Mittel einer Stichprobe

Varianz ist ein Maß für die Streuung einer Verteilung,entspricht den Abweichungen vom Mittelwert die man in einerStichprobe erwarten kann

Beide Kennzahlen basieren auf Momenten der Verteilung, und sindspeziell für die Normalverteilung von großer Bedeutung

10

Page 61: Organisatorisches - univie.ac.at

Erwartungswert

Diskrete Zufallsvariable X auf Ω mit Wahrscheinlichkeitsfunktion P

Definition Erwartungswert:

E(X) =∑

x∈X

xP (x)

wobei wieder X = X(Ω) = Wertebereich von X .

Gewichtete Summe der Werte, Gewichte sindWahrscheinlichkeiten.

Übliche Notation: µ = E(X)

Beispiel Würfel:

E(X) = 1 · 1/6 + 2 · 1/6 + · · ·+ 6 · 1/6

=1 + 2 + 3 + 4 + 5 + 6

6= 21/6 = 3.5

11

Page 62: Organisatorisches - univie.ac.at

Median

Unter einem Median einer Zufallsvariablen X auf Ω versteht maneine Zahl m mit den Eigenschaften

P(X ≤ m) ≥ 1/2, P(X ≥ m) ≥ 1/2.

Der Median muss nicht eindeutig sein. Z.B. hat eine auf 1, . . . , 5gleichverteilte Zufallsvariable einen eindeutigen Median (m = 3).Für eine auf 1, . . . , 6 gleichverteilte Zufallsvariable hingegen istjede Zahl m mit 3 < m < 4 ein Median. Meist nimmt man in diesemFall den mittleren Wert (hier 3.5) als Repräsentaten.

Der Median kann sich vom Erwartungswert stark unterscheiden(typisches Beispiel: Einkommensverteilung!). Für eine auf4, 5, 6, 8, 13, 18, 93 gleichverteilte Zufallsvariable etwa ist derMedian 8, der Erwartungswert 21.

12

Page 63: Organisatorisches - univie.ac.at

Funktionen von Zufallsvariablen

Erweitern eine Zufallsvariable X auf Ω durch Verknüpfung mit einerFunktion g:

X : Ω → R, g : R → R.

Y (ω) := (g X)(ω) = g(X(ω)).

Y : Ω → R, ist also wieder eine Zufallsvariable.

Die Wahrscheinlichkeitsfunktion von Y wird ganz analog gebildetwie die von X :

PY (y) = PY (Y = y) =∑

ω∈Ω:Y (ω)=y pω.

Der Wertebereich Y von Y ist Y = Y (Ω) = g(X(Ω)) = g(X ).

D.h. die Werte x werden transformiert zu Werten g(x).Wahrscheinlichkeiten addiert für alle x mit gleichem Wert g(x).

13

Page 64: Organisatorisches - univie.ac.at

Beispiele für Funktionen von Zufallsvariablen

1. Würfel, Ω = 1, . . . , 6, X(ω) = ω, Funktion g(x) = x2

Die Zufallsvariable Y = X2 hat WertebereichY = 1, 4, 9, 16, 25, 36 und WF

PY (1) = PY (4) = PY (9) = PY (16) = PY (25) = PY (36) = 1/6

2. Würfel, Ω = 1, . . . , 6, Funktion g(x) = (x− 3.5)2.

Die Zufallsvariable Z = (X − 3.5)2 hat WertebereichZ = 2.52, 1.52, 0.52 = 6.25, 2.25, 0.25 und WF

P (6.25) = p1 + p6 = 1/3

P (2.25) = p2 + p5 = 1/3

P (0.25) = p3 + p4 = 1/3

Übung: Ω = −1, 0, 1, X(ω) = ω,

P(X = −1) = P(X = 1) = 1/4, P(X = 0) = 1/2

Berechne WF von Y = X2 und Z = X

3

14

Page 65: Organisatorisches - univie.ac.at

Erwartungswert von Funktionen

Beispiel: Würfel – Fortsetzung:

1) E(g(X)) = E(Y ) = 1 · 1/6 + 4 · 1/6 + · · ·+ 36 · 1/6

=1 + 4 + 9 + 16 + 25 + 36

6= 91/6 = 15.1667

2) E(g(X)) = E(Z) = 6.25/3 + 2.25/3 + 0.25/3 = 2.9167

Allgemein: Berechnung des Erwartungswerts von g(X):

E(g(X)) =∑

x∈X

g(x)P (x)

Alternative Darstellung:∑

x∈X

g(x)P (x) =∑

y∈Y

yPY (y)

15

Page 66: Organisatorisches - univie.ac.at

Anwendungsbeispiel: Erwartungsnutzentheorie

Wenn die Zufallsvariable X “Gewinn” repräsentiert, kann voneinem risikoneutralen Entscheidungsträger vermutet werden,dass er/sie bestrebt ist, E(X) zu maximieren.

Menschen sind selten risikoneutral. Was hätten Sie lieber:

• 1 000 000 Euro mit Sicherheit, oder

• 2 000 001 Euro mit Wahrscheinlichkeit 0.5?

Ein klassischer Erklärungsansatz für Risikoaversion liegt in derAnnahme, dass der Entscheidungsträger nicht E(X) maximiert,sondern E(g(X)), wobei g eine konkave Nutzenfunktion ist(Expected Utility Theory).

16

Page 67: Organisatorisches - univie.ac.at

Lineare Transformation

Allgemein gilt für a, b ∈ R:

E(aX + b) = aE(X) + b

Beweis:

E(aX + b) =∑

x∈X

(ax+ b)P (x)

= a

∑

x∈X

xP (x) + b

∑

x∈X

P (x)

= aE(X) + b

Speziell gilt: E(X − µ) = E(X − E(X)) = 0

17

Page 68: Organisatorisches - univie.ac.at

Varianz

Definition : Var (X) := E(X − µ)2

Folgende Formel, die mitunter leichter zu berechnen ist alsE(X − µ)2, ist äquivalent:

Var (X) = E(X2)− µ2

Beweis:

E(X − µ)2 =∑

x∈X

(x− µ)2P (x) =∑

x∈X

(x2 − 2µx+ µ2)P (x)

=∑

x∈X

x2P (x)− 2µ

∑

x∈X

xP (x) + µ2∑

x∈X

P (x)

= E(X2)− 2µ2 + µ2 = E(X2)− µ

2

Übung: Varianz Augenzahl Würfelwurf mit beiden Formeln

18

Page 69: Organisatorisches - univie.ac.at

Beispiel zur Varianz

Drei Zufallsvariablen X1, X2, X3

X1 = 0 mit Wahrscheinlichkeit 1

X2 gleichverteilt auf −1, 0, 1

X3 gleichverteilt auf −50,−25, 0, 25, 50

Alle drei Zufallsvariabeln haben Erwartungswert 0

Var (X1) = 02 · P (0) = 0

Var (X2) = (−1)2 · 1/3 + 12 · 1/3 = 2/3

Var (X3) = (−50)2 · 1/5 + (−25)2 · 1/5 + 252 · 1/5 + 502 · 1/5 = 1250

Varianz plus MW gibt mehr Information über Verteilung alsMittelwert allein

19

Page 70: Organisatorisches - univie.ac.at

Eigenschaften der Varianz

Allgemein gilt für a, b ∈ R:

Var (aX + b) = a2Var (X)

Beweis :

Var (aX + b) = E(aX + b− aµ− b)2 = a2E(X − µ)2

Speziell: Var (−X) = Var (X)

Var (X + b) = Var (X)

Übliche Notation : σ2 = Var (X)

σ . . . Standardabweichung: SD(X) =√

Var (X)

20

Page 71: Organisatorisches - univie.ac.at

Warum ist die Varianz ein gutes Maß?

Man kann sich fragen, weshalb nicht anstelle der Varianz diemittlere Absolutabweichung E(|X − µ|) als Streuungsmaßgenommen wird.

Die Varianz hat jedoch mehrere thoretische und praktischeVorteile. Z.B. hätte man gerne, dass das Maß für die Abweichungvon einem Wert µ′ dann am niedrigsten ist, wenn µ

′ derErwartungswert µ ist. Dies ist jedoch für die mittlereAbsolutabweichung nicht der Fall: Für Gleichverteilung auf 0, 4, 5etwa ist µ = 3, aber E(|X − 3|) = 2 > 5/3 = E(|X − 4|).Quadrieren der Abweichungen erfüllt die angegebene Forderung,denn

E((X − µ′)2) = E([(X − µ) + (µ− µ

′)]2)

= Var (X) + (µ− µ′)2 +2E((X − µ)(µ− µ

′)) = Var (X) + (µ− µ′)2.

21

Page 72: Organisatorisches - univie.ac.at

Momente von Verteilungen

k-tes Moment einer Zufallsvariable: mk := E(Xk)

k-tes zentriertes Moment: zk = E((X − µ)k)

m1 . . . Mittelwert

z2 = m2 −m21 . . . Varianz

Weiters von Bedeutung sind das dritte und das vierte Moment

Schiefe: ν(X) := z3σ3 = E(X3

∗) wobei X

∗:= (X − µ)/σ

• ν(X) = 0 . . . symmetrische Verteilung

• ν(X) < 0 . . . linksschief

• ν(X) > 0 . . . rechtsschief

Kurtosis: z4σ4 = E(X4

∗) (auch Wölbung)

22

Page 73: Organisatorisches - univie.ac.at

Übung: Schiefe

Eine Zufallsvariable X habe folgende Wahrscheinlichkeits-verteilung:

P (1) = 0.05, P (2) = 0.1, P (3) = 0.3, P (4) = 0.5, P (5) = 0.05

Zeichne Wahrscheinlichkeitsfunktion und Verteilungsfunktion

Berechne die Schiefe!

Lösung: −0.6720.843/2 ∼ −0.8729

Wie lautet die Schiefe für die folgende leicht veränderte Verteilung?

P (1) = 0.05, P (2) = 0.3, P (3) = 0.3, P (4) = 0.3, P (5) = 0.05

23

Page 74: Organisatorisches - univie.ac.at

2.3 Binomialverteilung

Bernoulli - Experiment: Zwei mögliche Ergebnisse (0 oder 1)

P(X = 1) = p, P(X = 0) = q wobei q = 1− p

Zum Beispiel faire Münze: p = 1/2

Beispiel: Werfe unfaire Münze zwei mal. P(Kopf) = p = 0.7

Wahrscheinlichkeitsverteilung der Anzahl der Köpfe Z?

Ω = 0, 12, Wertebereich von Z ist Z = 0, 1, 2

Die beiden Würfe sind voneinander unabhängig!

P(Z = 0) = P(X1=0, X2=0) = P(X1=0)P(X2=0) = 0.32 = 0.09

P(Z = 1) = P(X1=0, X2=1) + P(X1=1, X2=0) =

= 2 · P(X1=0)P(X2=1) = 2 · 0.3 · 0.7 = 0.42

P(Z = 2) = P(X1=1, X2=1) = P(X1=1)P(X2=1) = 0.72 = 0.49

24

Page 75: Organisatorisches - univie.ac.at

Binomialverteilung

n unabhängige Bernoulli Experimente mit P(X = 1) = p

Y := Anzahl der Experimente mit Ausgang 1 binomialverteilt:

P(Y = k) =(

n

k

)

pkqn−k

Beweis: Unabhängigkeit ⇒ Wahrscheinlichkeit für jedeeinzelne Sequenz mit k mal 1 und n− k mal 0 (in irgendeinerfesten Reihenfolge) ist pk(1− p)n−k

Anzahl der Sequenzen mit dieser Eigenschaft: k-Kombination ohneWiederholung

Notation: Y ∼ B(n, p)

Übung: Fünf unabhängige Würfe einer fairen Münze

Berechne Wahrscheinlichkeitsfunktion der Anzahl der Köpfe!

25

Page 76: Organisatorisches - univie.ac.at

Beispiel Binomialverteilung

Prüfung mit Durchfallsquote von 20%

Anzahl der Erfolge beim Antritt von 10 Studierenden?

P(X = 7) =

(

10

7

)

· 0.87 · 0.23 = 0.2013

0 1 2 3 4 5 6 7 8 9 100

0.05

0.1

0.15

0.2

0.25

0.3

0.35

26

Page 77: Organisatorisches - univie.ac.at

Beispiele Binomialverteilung: n = 10

p = 0.1

0 1 2 3 4 5 6 7 8 9 100

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0 1 2 3 4 5 6 7 8 9 100

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

p = 0.2

p = 0.3

0 1 2 3 4 5 6 7 8 9 100

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0 1 2 3 4 5 6 7 8 9 100

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

p = 0.5

27

Page 78: Organisatorisches - univie.ac.at

Anwendung: Ziehen mit Zurücklegen

Grundgesamtheit mit N Objekten

• M der N Objekte erfüllen Eigenschaft E

• Ziehe n Objekte mit zurücklegen

Die Zahl X der gezogenen Objekte, die Eigenschaft E erfüllen istbinomialverteilt:

X ∼ B(n,M/N)

Übung: Urne mit 3 schwarzen und 9 weißen Kugeln; ziehe 5Kugeln mit zurücklegen, X . . . Zahl der gezogenen schwarzenKugeln

• Wahrscheinlichkeitsfunktion von X?

• Erwartungswert von X?

28

Page 79: Organisatorisches - univie.ac.at

Erwartungswert der Binomialverteilung

X ∼ B(n, p) ⇒ E(X) = np

Unter Verwendung von k(

n

k

)

= n(

n−1k−1

)

E(X) =n∑

k=1

k

(

n

k

)

pkqn−k = np

n∑

k=1

(

n− 1

k − 1

)

pk−1

qn−k

= np

n−1∑

i=0

(

n− 1

i

)

piqn−1−i

und aufgrund des binomischen Lehrsatzes

n−1∑

i=0

(

n− 1

i

)

piqn−1−i = (p+ q)n−1 = 1

Alternativer Beweis: Differenziere (p+ q)n nach p

29

Page 80: Organisatorisches - univie.ac.at

Varianz der Binomialverteilung

X ∼ B(n, p) ⇒ Var (X) = npq

Wiederum unter Verwendung von k(

nk

)

= n(

n−1k−1

)

E(X2) =

n∑

k=1

k2

(

n

k

)

pkqn−k = np

n∑

k=1

k

(

n− 1

k − 1

)

pk−1

qn−k

= np

n−1∑

i=0

(i+ 1)

(

n− 1

i

)

piqn−1−i = np (n− 1)p+ 1

und daher

Var (X) = E(X2)− µ2 = np (n− 1)p+ 1 − (np)2 = np(1− p)

Alternativer Beweis: Differenziere (p+ q)n zwei mal nach p

30

Page 81: Organisatorisches - univie.ac.at

2.4 Die Poissonverteilung

Definition: X = N0 = 0, 1, 2, · · ·

P(X = k) = λk

k! e−λ

, λ > 0

Notation: X ∼ P(λ)

Poisson-verteilte Zufallsvariable kann im Prinzip beliebig großeWerte annehmen, allerdings mit sehr geringer Wahrscheinlichkeit

Beispiel: λ = 2

P(X ≤ 1) =20

0!e−2 +

21

1!e−2 = (1 + 2)e−2 = 0.4060

P(X > 4) = 1− P(X ≤ 4) = 1− (1 + 2 +4

2+

8

6+

16

24)e−2

= 1− 0.9473 = 0.0527

31

Page 82: Organisatorisches - univie.ac.at

Beispiele Poissonverteilung

λ = 1

0 1 2 3 4 5 6 7 8 9 10 11 120

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0 1 2 3 4 5 6 7 8 9 10 11 120

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

λ = 1.5

λ = 3

0 1 2 3 4 5 6 7 8 9 10 11 120

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0 1 2 3 4 5 6 7 8 9 10 11 120

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

λ = 5

32

Page 83: Organisatorisches - univie.ac.at

Anwendung

Modellierung von seltenen Ereignissen

Beispiele

• Zahl der Kunden innerhalb eines bestimmten Zeitraums

• Radioaktiver Zerfall

• Zahl von Tippfehlern pro Folie

• Zahl von Menschen älter als 100 Jahre (pro 1 000 000)

• Zahl von Fehlalarmen an einem Tag

• etc.

Zusammenhang zwischen Poisson-verteilten Ereignissen und derWartezeit zwischen zwei Ereignissen ⇒ Exponentialverteilung

33

Page 84: Organisatorisches - univie.ac.at

Erwartungswert und Varianz

X ∼ P(λ) ⇒ E(X) = λ

Beweis:

E(X) =

∞

∑

k=0

kλk

k!e−λ = e

−λ

∞

∑

k=1

λk

(k − 1)!= λe

−λ

∞

∑

j=0

λj

j!

X ∼ P(λ) ⇒ Var (X) = λ

Beweis:

E(X2)=∞

∑

k=0

k2λ

k

k!e−λ=e

−λ

∞

∑

k=1

kλk

(k − 1)!=λe

−λ

∞

∑

j=0

(j + 1)λj

j!=λ(λ+1)

E(X2)− E(X)2 = λ(λ+ 1)− λ2 = λ

34

Page 85: Organisatorisches - univie.ac.at

Approximation der Binomialverteilung

X ∼ B(n, p), wobei n groß und p klein (z. Bsp. n > 10 und p < 0.05)

⇒ X ∼ P(np) approximativ,d.h. X ist näherungsweise Poisson-verteilt mit Parameter λ = np

Motivation: Setze λ := np

P(X = k) =n!

k! (n− k)!pkqn−k

=n(n− 1) · · · (n− k + 1)

k!·λk

nk·(1− λ/n)n

(1− λ/n)k

Für n groß und moderates λ (d.h. p klein) gilt

n(n− 1) · · · (n− k + 1)

nk≈ 1 (1−λ/n)k ≈ 1 (1−λ/n)n ≈ e

−λ

und daher P(X = k) ≈ λk

k! e−λ

35

Page 86: Organisatorisches - univie.ac.at

Beispiel Poissonapproximation

Vergleich Poissonapproximation (λ = 0.5) mit exakterVerteilungsfunktion einer Binomialverteilung (n = 10, p = 0.05)

0 1 2 3 4 5 60.55

0.6

0.65

0.7

0.75

0.8

0.85

0.9

0.95

1

Blau: X ∼ B(10, 0.05)

Grün: X ∼ P(0.5)

Binomial:

P(X ≤ 3) = 0.9510 + 10 · 0.05 · 0.959

+ 45 · 0.052 · 0.958 + 120 · 0.053 · 0.957

= 0.99897150206211

Poissonapproximation:

P(X ≤ 3) =

≈

(

1 + 0.5 +0.52

2+

0.53

6

)

e−0.5

= 0.99824837744371

36

Page 87: Organisatorisches - univie.ac.at

2.5 Andere diskrete Verteilungen

Wir werden behandeln:

• Geometrisch

• Hypergeometrisch

Weitere Verteilungen (hier nicht behandelt):

• Negativ binomial

• Verallgemeinerte Poisson

• Zetaverteilung

• etc.

37

Page 88: Organisatorisches - univie.ac.at

Geometrische Verteilung

Unabhängige Bernoulli - Experimente mit Wahrscheinlichkeit p

X . . . Anzahl der Versuche bis zum ersten Erfolg

Es gilt: P(X = k) = qk−1 p

k − 1 Miserfolge mit Wahrscheinlichkeit q = 1− p

Übung: Urne mit N weißen und M schwarzen Bällen

Ziehen mit zurücklegen

a) Wahrscheinlichkeit, dass man exakt k Versuche braucht, biseine schwarze Kugel gezogen wird

b) Wahrscheinlichkeit, dass man höchstens k Versuche braucht,bis eine schwarze Kugel gezogen wird

38

Page 89: Organisatorisches - univie.ac.at

Erwartungswert und Varianz

Beachte:∞∑

k=0

qk = 11−q

und daher∞∑

k=1

qk−1p = p

1−q= p

p= 1

Differenzieren liefert:∞∑

k=1

kqk−1 = d

dq

∞∑

k=0

qk = 1

(1−q)2

E(X) =∞

∑

k=1

kqk−1

p =p

(1− q)2=

1

p

Nochmals Differenzieren:∞∑

k=1

k(k − 1)qk−2 = d2

dq2

∞∑

k=0

qk = 2

(1−q)3

E(X2) =∞

∑

k=1

k2qk−1

p = pq

∞

∑

k=1

k(k−1)qk−2+p

∞

∑

k=1

kqk−1 =

2pq

p3+

1

p

Und daher: Var (X) = E(X2)− E(X)2 = 2p2 − 1

p− 1

p2 = 1−p

p2

39

Page 90: Organisatorisches - univie.ac.at

Beispiel: Iterierte Spiele

Für die Theorie der Iterierten Spiele ist folgendes Beispielgrundlegend: Ein Spiel kann mehrere Runden hindurch fortgesetztwerden. Nach jeder Runde kommt es mit einer Wahrscheinlichkeitq < 1 zu einer weiteren Runde; andernfalls wird die Serieabgebrochen. In Runde k (k = 1, 2, . . .) erzielt der Spieler einenGewinn der Höhe ak. Wie hoch ist der erwartete Gesamtgewinn?

Offensichtlich ist die Anzahl der gespielten Runden geometrischverteilt. Die Wahrscheinlichkeit, dass Runde k zustandekommt, istqk−1.

E(Gesamtgewinn) =∞

∑

k=1

akqk−1 =

∞

∑

k=0

ak+1qk.

Für ak ≡ a ergibt das z.B. a/(1− q).

40

Page 91: Organisatorisches - univie.ac.at

Beispiel: St.-Petersburg-Paradoxon

Das folgende klassische Beispiel, das ebenfalls auf dergeometrischen Verteilung beruht, weist auf die Grenzen desKonzepts “Erwartungswert” hin:

St.-Petersburg-Paradoxon. Ein Casino bietet eine Spielvariantegemäß folgenden Regeln an: Eine Münze wird so lange geworfen,bis zum ersten Mal “Kopf” kommt. Sei K die Anzahl der dafürnötigen Münzwürfe. Der Spieler erhält eine Auszahlung der HöheX = 2K .

Wieviel sollte der Spieler bereit sein zu bezahlen, um dieses Spielspielen zu dürfen?

41

Page 92: Organisatorisches - univie.ac.at

St.-Petersburg-Paradoxon: Fortsetzung

Fair ist das Spiel offenbar dann, wenn der Einsatz des Spielersgerade den Erwartungswert der Auszahlung kompensiert. Dieserist jedoch

E(X) =

∞

∑

k=1

2k · (1/2)k−1 · (1/2) =∞

∑

k=1

1 = ∞,

denn die Zufallsvariable K ist geometrisch verteilt mit q = 1/2.

Obwohl die tatsächlich resultierende Auszahlung mitWahrscheinlichkeit 1 nur endlich ist (da die geometrisch verteilteZufallsvariable K m.W. 1 einen endlichen Wert annimmt), scheintdas Spiel einen unendlich hohen Einsatz wert zu sein!

Konsequenz: Der Erwartungswert ist nur dann ein sinnvolles Maß,wenn er endlich ist.

42

Page 93: Organisatorisches - univie.ac.at

Hypergeometrische Verteilung

Binomialverteilung: Ziehen aus einer Urne mit Zurücklegen

Übung: Urne, 3 Kugeln schwarz, 5 Kugeln weiß,Ziehe 4 Kugeln mit bzw. ohne Zurücklegen.

Berechne jeweils Verteilung der gezogenen schwarzen Kugeln!

0 1 2 3 40

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

Mit Zurücklegen

0 1 2 3 40

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

Ohne Zurücklegen

43

Page 94: Organisatorisches - univie.ac.at

Hypergeometrische Verteilung

N Objekte von denen M eine Eigenschaft E erfüllen. Ziehe n

Objekte ohne zurücklegen, X die Anzahl der gezogenen Objektemit Eigenschaft E .

P(X = k) =(Mk )(

N−Mn−k )

(Nn)

Wir verwenden hier die Definition(

ab

)

= 0, falls a < b

Klarerweise gilt P(X = k) = 0 falls M < k

Ich kann nicht mehr schwarze Kugeln ziehen als vorhanden

Ebenfalls klar dass P(X = k) = 0 falls N −M < n− k

Ich kann nicht mehr weiße Kugeln ziehen als vorhanden

Insgesamt: X = k : max(0, n−N +M) ≤ k ≤ min(n,M)

44

Page 95: Organisatorisches - univie.ac.at

Erwartungswert und Varianz

Ohne Beweis gilt (Berechnungen nicht schwierig aber länglich)

E(X) = nMN

, Var (X) = nMN

(1− MN)N−nN−1 ,

Definiere p := MN

und betrachte Ähnlichkeit zurBinomialverteilung

E(X) = np gleiche Formel wie bei Binomial

Var (X) = np(1− p)N−nN−1 asymptotisch wie bei Binomial

Nämlich limN→∞

N−nN−1 = 1

Wenn N und M sehr groß im Vergleich zu n, dann giltnäherungsweise X ∼ B(n, M

N) (ohne Beweis)

45

Page 96: Organisatorisches - univie.ac.at

Beispiel Hypergeometrische Verteilung

Qualitätskontrolle: Lieferung von 30 Kartons mit Eiern,10 Kartons enthalten zumindest ein zerbrochenes Ei,Stichprobe der Größe 6

• Mit welcher Wahrscheinlichkeit enthalten zwei der sechsentnommenen Kartons kaputte Eier?

N = 30,M = 10, n = 6

P(X = 2) =

(

102

)(

204

)

(

306

) = 0.3672

• Erwartungswert und Varianz für die Anzahl der Kartons in derStichprobe mit kaputten Eiern?

E(X) = 6 · 1030 = 2; Var (X) = 6 · 1

3 · 23 · 24

29 = 1.1034

46

Page 97: Organisatorisches - univie.ac.at

Übung Approximation durch Binomialverteilung

Lotterie mit 1000 Losen, davon 200 GewinnloseKaufe 5 Lose

1. Berechne die Wahrscheinlichkeit, dass mindestens ein Losgewinnt

Lösung: 0.6731

2. Berechne die Gewinnwahrscheinlichkeit von 1. mittelsBinomial-Approximation

Lösung: 0.6723

47

Page 98: Organisatorisches - univie.ac.at

Zusammenfassung diskrete Verteilungen

• Gleichverteilung: X = x1, . . . , xn , P(X = xk) = 1/n

• Binomialverteilung: X ∼ B(n, p), P(X = k) =(

nk

)

pkqn−k

Es gilt E(X) = np, Var (X) = npq X = 0, . . . , n

• Poissonverteilung: X ∼ P(λ), P(X = k) = λk

k! e−λ

Es gilt E(X) = λ, Var (X) = λ X = 0, 1, 2 . . .

• Geometrische Verteilung: P(X = k) = p qk−1

Es gilt E(X) = p−1

, Var (X) = q p−2 X = 1, 2 . . .

• Hypergeometrische: P(X = k) =(

M

k

)(

N−M

n−k

)

/(

N

n

)

Es gilt E(X) = np, Var (X) = np(1− p)N−nN−1 , p = M

N

48

Page 99: Organisatorisches - univie.ac.at

Wahrscheinlichkeitsrechnungfür Statistik und VWLWS 2016/17

3 Stetige Verteilungen

1. Einführung

2. Exponentialverteilung

3. Normalverteilung

4. Normalverteilungsapproximation

5. Andere stetige Verteilungen

1

Page 100: Organisatorisches - univie.ac.at

3.1 Einführung

Diskrete Zufallsvariable: Ω endlich oder abzählbar

Stetige Zufallsvariable: Ω ist ein Intervall des Raums R (oder einkartesisches Produkt von Intervallen im Raum R

n)

Beispiele:

• Wartezeit auf den nächsten Kunden

• Größe bzw. Alter einer Person

• Umsatz einer Firma

• Gewicht eines Gegenstandes

Reelle (auch: metrische) Variable: Wert lässt sich durch eine reelleZahl beschreiben

2

Page 101: Organisatorisches - univie.ac.at

Verteilungsfunktion

Einer stetigen Zufallsvariable ist eine stetige Verteilungsfunktionzugeordnet:

F (x) = P(X ≤ x) stetig in x

Beispiel: Gleichverteilung auf Intervall [0, 1]

−1 −0.5 0 0.5 1 1.5 2−1

−0.5

0

0.5

1

1.5

2

x

F(x

)

3

Page 102: Organisatorisches - univie.ac.at

Berechnung von Wahrscheinlichkeiten

Wahrscheinlichkeit für bestimmtes Ereignis immer gleich 0:

P(X = x) = F (x)− F (x−) = 0 wegen Stetigkeit von F

Es macht mehr Sinn, nach Wahrscheinlichkeit zu fragen, mit der Xeinen Wert in einem Intervall [a, b] annimmt:

P(a ≤ X ≤ b) = F (b)− F (a)

So gilt für eine gleichverteilte Zufallsvariable XId auf [0, 1], falls0 ≤ a < b ≤ 1:

P(a < XId < b) = b− a

Beachte: P(X ≤ b) = P(X < b) + P(X = b) = P(X < b)

4

Page 103: Organisatorisches - univie.ac.at

Dichtefunktion

Sei F (x) differenzierbar.

Definition: f(x) := F′(x) Dichtefunktion der Zufallsvariable X

Hauptsatz der Analysis:

F (x) =∫

f(x)dx+ c

und daher

P(a < X ≤ b) = F (b)− F (a) =

b∫

x=a

f(x)dx

Zum Vergleich: Bei diskreten Zufallsvariablen ist

P(a < X ≤ b) = F (b)− F (a) =∑

a<x≤b

P (x)

5

Page 104: Organisatorisches - univie.ac.at

Eigenschaften der Dichtefunktion

Für die Dichtefunktion (kurz Dichte) gilt

• f(x) ≥ 0, ∀x ∈ R

•∞∫

x=−∞

f(x)dx = 1

Die Dichtefunktion f(x) ist nicht die Wahrscheinlichkeit dafür, dassX den Wert x annimmt!

Für kleines ǫ gilt

P(x− ǫ < X ≤ x+ ǫ) ≈ f(x) · 2ǫ

6

Page 105: Organisatorisches - univie.ac.at

Beispiele

1) X gleichverteilt auf dem Intervall [0, 1]

F (x) = x, x ∈ [0, 1] ⇒ f(x) = 1, x ∈ [0, 1]

2) X gleichverteilt auf dem Intervall [l, r], l < r, l, r ∈ R

f(x) = c, x ∈ [l, r]

Welchen Wert hat c?

3) X mit Dichte f(x) =

cx2, x ∈ [0, 1]

0 sonst

Welchen Wert hat c?

Berechne P(0.25 < X < 0.75)

7

Page 106: Organisatorisches - univie.ac.at

Erwartungswert und Varianz von stetigen ZV

Analog zur Definition bei diskreten ZV:

E(X) =∞∫

x=−∞

xf(x)dx

und

Var (X) =∞∫

x=−∞

(x− µ)2f(x)dx

Es gilt wiederum: E(aX + b) = aE(X) + b

Var (aX + b) = a2Var (X)

Übung: X gleichverteilt auf [0, 1]. Berechne Erwartungswert undVarianz!

8

Page 107: Organisatorisches - univie.ac.at

Erwartungswert von Funktionen von ZV

Analog zum Fall von diskreten ZV gilt für stetige ZV (ohne Beweis):

E(g(X)) =∞∫

x=−∞

g(x)f(x)dx

Daher folgt: Var (X) = E(X − E(X))2

Und auch: Var (X) = E(X2)− E(X)2

∞∫

x=−∞

(x− µ)2f(x)dx =

∞∫

x=−∞

(x2 − 2µx+ µ2)f(x)dx

=

∞∫

x=−∞

x2f(x)dx− 2µ

∞∫

x=−∞

xf(x)dx+ µ2

9

Page 108: Organisatorisches - univie.ac.at

Funktionen von stetigen Zufallsvariablen

Sei g eine reellwertige Funktion g : X → R und g(X ) = Y.

Falls g streng monoton wachsend, existiert Umkehrabbildungg−1 : Y → X

Verteilungsfunktion von Y = g(X) berechnet man wie folgt:

FY (y) = P(g(X) ≤ y) = P(X ≤ g−1(y)) = F (g−1(y))

Beispiel: X gleichverteilt auf [0, 1], Y := g(X) = eX

g−1(y) = ln(y)

Y = g(X ) = [e0, e1] = [1, e]

FY (y) = P(Y ≤ y) = FX(ln(y)) = ln(y), y ∈ [1, e]

10

Page 109: Organisatorisches - univie.ac.at

Funktionen von stetigen Zufallsvariablen

Interpretation: Koordinatenwechsel

Die Werte der Zufallsvariable werden transformiert

Bei streng monotoner Transformation bleiben dieWahrscheinlichkeiten der transformierten Intervalle gleich(vgl. diskrete Zufallsvariable)

−1 −0.5 0 0.5 1 1.5 2−1

−0.5

0

0.5

1

1.5

2

x

F(x

)

0.5 1 1.5 2 2.5 3−1

−0.5

0

0.5

1

1.5

2

y = g(x)

FY(y

)

11

Page 110: Organisatorisches - univie.ac.at

Funktionen von stetigen Zufallsvariablen

Falls g streng monoton fallend ⇒ g−1 existiert

P(g(X) ≤ y) = P(X ≥ g−1(y)) = 1−P(X < g

−1(y)) = 1−F (g−1(y))

Im allgemeinen Fall (keine Monotonie von g) wird der Urbildraumvon g zerlegt in Intervalle wo g monoton fällt bzw. monoton wächst

Beispiel: X gleichverteilt auf [0, 1], Y := g(X) = (X − 12 )

2

g ist m.f. auf [0, 12 ], m.w. auf [ 12 , 1] g−1(y) = 1

2 ±√y

P((X − µ)2 ≤ y) = P(1/2−√y ≤ X ≤ 1/2 +

√y)

= FX(1/2 +√y)− FX(1/2−

√y)

12

Page 111: Organisatorisches - univie.ac.at

Dichte von transformierten Zufallsvariablen

g streng monoton und differenzierbar

Wie lautet Dichte von Y = g(X)?

fY (y) =ddyFY (y) =

ddyF (g−1(y)) = fX(g−1(y)) · d

dyg−1(y)

(Differenzieren der transformierten Verteilungsfunktion unterBeachtung der Kettenregel!)

Beispiel: (Fortsetzung) X gleichverteilt auf [0, 1], Y = g(X) = eX

FY (y) = ln(y), y ∈ [1, e] ⇒ fY (y) =1y, y ∈ [1, e]

Oder mit Formel: fX(g−1(y)) = 1 denn fX(x) ≡ 1

d

dyg−1(y) =

1

y

13

Page 112: Organisatorisches - univie.ac.at

3.2 Exponentialverteilung

Stetige Zufallsvariable X ist exponentialverteilt mit Parameterλ > 0 falls Dichte

f(x) =

λe−λx

, x ≥ 0

0, x < 0

Zugehörige Verteilungsfunktion

F (x) =

1− e−λx

, x ≥ 0

0, x < 0

Beweis: Einfache Integration

14

Page 113: Organisatorisches - univie.ac.at

Plots Exponentialverteilung

Dichte und Verteilungsfunktion für Parameter λ = 1, 2 und 3

0 0.5 1 1.5 2 2.5 30

0.5

1

1.5

2

2.5

3

x

f(x)

λ = 1λ = 2λ = 3

0 0.5 1 1.5 2 2.5 30

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

F(x

)

λ = 1λ = 2λ = 3

Je größer λ desto schneller fällt die Dichtefunktion.

Wir vermuten daher: Je größer λ desto kleiner µ und auch σ.

15

Page 114: Organisatorisches - univie.ac.at

Erwartungswert

X exponentialverteilt mit Parameter λ

Partielle Integration∫

u′v = uv| −∫

uv′ anwenden.

E(X) =

∞∫

x=0

xλe−λx

dx = −xe−λx∣

∣

∞

0+

∞∫

x=0

e−λx

dx

= 0−e−λx

λ

∣

∞

0

=1

λ

E(X2) =

∞∫

x=0

x2λe

−λxdx = −x2

e−λx

∣

∞

0+

∞∫

x=0

2xe−λxdx

= 0 +2

λE(X) =

2

λ2

und daher Var (X) = 2λ2 −

1λ2 = 1

λ2

16

Page 115: Organisatorisches - univie.ac.at

Übung

Angenommen die Länge eines Telephongespräches in Minuten istexponentialverteilt und dauert im Mittel 10 Minuten. Du kommst zueiner Telephonzelle wo unmittelbar zuvor jemand ein Gesprächbegonnen hat.

Wie groß ist die Wahrscheinlichkeit dass du

1. weniger als 10 Minuten

2. genau 10 Minuten

3. zwischen 10 und 20 Minuten

4. länger als 20 Minuten

warten mußt bis die Telephonzelle frei wird?

17

Page 116: Organisatorisches - univie.ac.at

Zusammenhang mit Poissonverteilung

Die folgenden beiden Eigenschaften sind äquivalent (o. Bew.):

• Die Zeit T zwischen dem Eintreffen zweieraufeinanderfolgender Ereignisse ist (unabhängig)exponentialverteilt mit Parameter λ.

• Für jedes Zeitintervall [t1, t2] ist die Häufigkeit der während[t1, t2] auftretenden Ereignisse poissonverteilt mit Parameterλ(t2 − t1).

t1 t2

x1

x2

T

Wartezeit zwischen zwei Ereignissen T ∼ Exp (λ),λ . . . erwartete Anzahl von Ereignissen für Zeitraum der Länge 1.

18

Page 117: Organisatorisches - univie.ac.at

Übung

X Häufigkeit wie oft eine Maschine in bestimmtem Zeitraumausfällt (Maschinen laufen 24h durchgehend)

Im Mittel fallen 3 Maschinen pro Tag aus

Annahme X poissonverteilt

a) Verteilung der Zeit, die zwischen 2 Ausfällen vergeht?

b) Mit welcher Wahrscheinlichkeit fällt für mehr als 5 Stunden keineMaschine aus?

c) Mit welcher Wahrscheinlichkeit fallen innerhalb von 5 Stundenzwei Maschinen aus?

19

Page 118: Organisatorisches - univie.ac.at

Gedächtnislosigkeit

Die Verteilung von X ist gedächtnislos, wenn

P(X > s+ t|X > t) = P(X > s)

D.h. Vorgeschichte bietet keinerlei Information

Exponentialverteilung ist gedächtnislos:

Definition ist äquivalent zu P(X > s+ t) = P(X > s)P(X > t)

und es gilt e−λ(s+t) = e−λse−λt

Exponentialverteilung ist einzige gedächtnislose stetige Verteilung!

Übung: Im diskreten Fall geometrische Verteilung gedächtnislos

(Diskretes Analogon zur Exponentialverteilung)

20

Page 119: Organisatorisches - univie.ac.at

3.3 Normalverteilung

X ∼ N (µ, σ2) falls f(x) = 1√

2π σe−(x−µ)2/2σ2

Standardnormalverteilung N (0, 1):

−3 −2 −1 0 1 2 30

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

Gaußsche Glockenkurve

21

Page 120: Organisatorisches - univie.ac.at

Normalverteilung

Wesentliche Bedeutung in Wahrscheinlichkeitsrechnung undStatistik aufgrund des zentralen Grenzwertsatzes!

f ist tatsächlich Wahrscheinlichkeitsdichte:

1√2π σ

∞∫

x=−∞

e−(x−µ)2/2σ2

dx =1√2π

∞∫

z=−∞

e−z2/2

dz = 1

Zunächst Variablensubstitution z ← x−µ

σ

dann verschiedene Möglichkeiten zur Berechnung desuneigentlichen Integrals

Verteilungsfunktion F (x) =x∫

y=−∞

f(y)dy lässt sich nicht in

geschlossener Form darstellen (keine einfache Formel)

⇒ Tabellen für die Normalverteilung

22

Page 121: Organisatorisches - univie.ac.at

Standardnormalverteilung

X ∼ N (0, 1), übliche Notation: Φ(x) := P(X ≤ x)

ϕ(x) := Φ′(x) =1√2π

e−x2/2

Tabellen von Φ(x) für x ∈ (0, 4) (z.B. Bosch-Buch oder Internet)

Grund: ϕ ist symmetrisch und somit

ϕ(−x) = ϕ(x) ⇒ Φ(−x) = 1− Φ(x)

Beispiel: Wahrscheinlichkeit dass X zwischen -2 und 1 liegt

P(−1 ≤ X ≤ 2) = P(X ≤ 2)− P(X < −1) = Φ(2)− 1− Φ(1)

= 0.9772− 1 + 0.8413 = 0.8186

Werte von Φ(2) und Φ(1) aus Tabelle

23

Page 122: Organisatorisches - univie.ac.at

Verteilungsfunktion der SNV

Einige wesentliche Werte von Φ(x):

Φ(0) = 0.5; Φ(1.645) = 0.95; Φ(1.96) = 0.975

Der Graph von Φ(x):

−3 −2 −1 0 1 2 30

0.2

0.4

0.6

0.8

1

24

Page 123: Organisatorisches - univie.ac.at

Erwartungswert

Sei X ∼ N (µ, σ2)

Substitution z ← x−µ

σliefert

E(X) =1

√2π σ

∞∫

x=−∞

xe−(x−µ)2/2σ2

dx

=1√2π

∞∫

z=−∞

(σz + µ)e−z2/2dz = µ

da g(z) := z e−z2/2 antisymmetrisch (d.h. g(−z) = −g(z))

und 1√

2π

∞∫

x=−∞

e−z2/2 dz = 1

25

Page 124: Organisatorisches - univie.ac.at

Varianz

Wiederum Substitution z ← x−µ

σund anschließend partielle

Integration liefert

Var (X) =1

√2π σ

∞∫

x=−∞

(x− µ)2e−(x−µ)2/2σ2

dx

=σ2

√2π

∞∫

z=−∞

z2e−z2/2

dz

=σ2

√2π

−ze−z2/2∣

∣

∞

−∞

+

∞∫

z=−∞

e−z2/2

dz

= σ2

Somit gezeigt: X ∼ N (µ, σ2) ⇒ E(X) = µ, Var (X) = σ2

26

Page 125: Organisatorisches - univie.ac.at

Lineare Transformation

Wesentliche Eigenschaft:

X ∼ N (µ, σ2) ⇒ Y := aX + b ∼ N (aµ+ b, a2σ2)

Beweis: Nehmen a > 0 an. (Fall a < 0 analog.)Transformationssatz für Dichten:

fY (y) = fX(g−1(y)) ·d

dyg−1(y)

Hier: g(x) = ax+ b ⇒ g−1(y) = (y − b)/a, d

dyg−1(y) = 1/a

Und somit

fY (y) = fX((y − a)/b) · 1/a

=1

√2πσa

e−(y−aµ−b)2/2a2σ2

Dies ist die Dichte einer N (aµ+ b, a2σ2)

27

Page 126: Organisatorisches - univie.ac.at

Normalisierung

Daraus folgt unmittelbar

X ∼ N (µ, σ2) ⇒ Z := X−µ

σ∼ N (0, 1)

Normalverteilung für verschiedene µ und σ

−5 −4 −3 −2 −1 0 1 2 3 4 50

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

µ = 0µ = −2 µ = 2

µ . . . Mittelwert

−3 −2 −1 0 1 2 30

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

σ = 1/2

σ = 1

σ = 2

σ2 . . . Varianz

28

Page 127: Organisatorisches - univie.ac.at

Beispiel

Sei X ∼ N (3, 9), berechne folgende Wahrscheinlichkeiten:

1. P(2 < X < 5)

2. P(X > 0)

3. P(|X − 3| > 6)

Lösungen

1) P

(

2− 3

3<

X − 3

3<

5− 3

3

)

= Φ

(

2

3

)

− Φ

(

−1

3

)

≈ 0.7486− (1− 0.6293) = 0.3779

2) P

(

0− 3

3<

X − 3

3

)

= Φ(1) ≈ 0.8413

3) 2 · P

(

6− 3

3<

X − 3

3

)

= 2 · (1− Φ(2)) ≈ 0.0456

29

Page 128: Organisatorisches - univie.ac.at

Quantile der Normalverteilung

Definition: X habe Verteilungsfunktion F und γ ∈ [0, 1] sei eineWahrscheinlichkeit

γ - Quantil xγ jene Zahl für die F (xγ) = γ

xγ = F−1(γ), wobei F−1 Umkehrabbildung der Verteilungsfunktion

Normalverteilung:explizite Berechnungnicht möglich

⇒ Tabellen odermittels Computer

Standard-NV:xγ = Φ−1(γ) −3 −2 −1 0 1 2 3

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

γ

xγ

30

Page 129: Organisatorisches - univie.ac.at

Symmetrische Intervalle

X ∼ N (µ, σ2) ⇒ P(|X − µ| ≤ x) = 2 · Φ( xσ)− 1

Beweis:

P(−x+ µ ≤ X ≤ x+ µ) = 2 · P(X ≤ x+ µ)− 1

Sei γ eine vorgegebene Wahrscheinlichkeit, dann gilt:

P(|X − µ| ≤ zγ) = γ für zγ = σ Φ−1(

1+γ

2

)

Übung: Sei X normalverteilt mit σ2 = 4

Bestimme x derart, dass P(X − µ ≤ x) = 0.95

bzw. P(|X − µ| ≤ x) = 0.95

31

Page 130: Organisatorisches - univie.ac.at

3.4 Normalverteilungsapproximation

Betrachte für großes n die Wahrscheinlichkeitsfunktion einerBinomialverteilung und vergleiche mit der Dichtefunktion derNormalverteilung

30 35 40 45 50 55 60 65 700

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

X ∼ B(100, 0.5)

−3 −2 −1 0 1 2 30

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

X ∼ N (0, 1)

32

Page 131: Organisatorisches - univie.ac.at

Grenzwertsatz nach DeMoivre - Laplace

Sn . . . Anzahl der Erfolge bei n unabhängigen Versuchen mitErfolgswahrscheinlichkeit p.

Dann gilt für a < b:

P

(

a ≤ Sn−np√

npq≤ b

)

→ Φ(b)− Φ(a) für n→∞

d.h. standardisierte Binomialverteilung (Sn − µ)/σ konvergiertgegen Standardnormalverteilung

Beweis: Spezialfall des zentralen Grenzwertsatzes. ZentralerGrenzwertsatz gilt für Summen unabhängiger Zufallsvariablen. IstSn binomialverteilt, so ist es Summe unabhängiger"Bernoulli-Variablen", d.h. Variablen X ∼ B(1, p).

Anwendbarkeit: npq ≥ 9.

33

Page 132: Organisatorisches - univie.ac.at

Stetigkeitskorrektur

B(n, p) diskret, d.h. Verteilungsfunktion ist eine Treppenfunktion

N (0, 1) stetig, d.h. Verteilungsfunktion ist stetig

⇒ Stetigkeitskorrektur:

P (a ≤ Sn ≤ b) ≈ Φ(

b+0.5−np√

npq

)

− Φ(

a−0.5−np√

npq

)

blau: B(40, 0.5)grün: N (20, 10)

15 16 17 18 19 20 21 22 23 24 250

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

34

Page 133: Organisatorisches - univie.ac.at

Übung

Angenommen 30% der Bevölkerung kennen ein Produkt.

Befragung von 200 Personen. Wie groß ist Wahrscheinlichkeitdass

1. genau 55 Personen das Produkt kennen

2. mehr als 55 Personen das Produkt kennen

3. 55 bis 64 Personen das Produkt kennen

Löse mit Normalverteilungsapproximation

Versuche 1. auch unmittelbar mit Binomialverteilung zu berechnen– worin liegt das Problem?

35

Page 134: Organisatorisches - univie.ac.at

Normalverteilungsapproximation fürhypergeometrische Verteilung

Analog zur Binomialverteilung gilt auch für eine hypergeometrischverteilte Zufallsvariable mit Parametern N,M und n:

P (a ≤ Sn ≤ b) ≈ Φ(

b+0.5−µ

σ

)

− Φ(

a−0.5−µ

σ

)

wobei hier µ = nMN

und σ2 = nMN(1− M

N)N−nN−1

Anwendbarkeit: σ2 ≥ 9 und N ≥ 2n

Übung: Lieferung von 2500 Milchpackungen, 12 % verdorbenZufällige Stichprobe von 100 Packungen, p sei Anteil derentdeckten verdorbenen Packungen

Mit welcher Wahrscheinlichkeit liegt p zwischen 5% und 15%

36

Page 135: Organisatorisches - univie.ac.at

3.5 Andere stetige Verteilungen

Große Vielfalt an stetigen Verteilungen

Besprechen hier nur zwei wichtige Familien:

• Gamma - Verteilung

Verallgemeinerung der Exponentialverteilung

• Beta - Verteilung

Verteilungen mit Träger auf Intervall [0, 1]

Sowohl Beta- als auch Gamma - Verteilung hängt von zweiParametern ab

Für unterschiedliche Parameter ganz unterschiedliche Form⇒ Modellierung von verschiedenen Sachverhalten

37

Page 136: Organisatorisches - univie.ac.at

Gamma - Verteilung

Exponentialverteilung ist ein Spezialfall der Gammaverteilung

X ist Γ-verteilt mit Parametern t > 0 und λ > 0 falls Dichte

f(x) =

λe−λx(λx)t−1

Γ(t) , x ≥ 0

0, x < 0

wobei Γ(t) =∞∫

x=0

e−xxt−1 dx

Diese Definition garantiert, dass f tatsächlich Dichtefunktion

t = 1 ⇒ Exponentialverteilung

t = n ∈ N ⇒ Verteilung der Wartezeit bis n Ereignisseaufgetreten sind

38

Page 137: Organisatorisches - univie.ac.at

Eigenschaften von Γ - Funktion und Γ - Verteilung

Γ - Funktion: Γ(t) =∞∫

x=0

e−x

xt−1

dx

Partielle Integration liefert: Γ(t) = (t− 1)Γ(t− 1)

Spezialfall der Rekursionsformel für t = n ∈ N:

Γ(n) = (n− 1)Γ(n− 1) = · · · = (n− 1)(n− 2) · · ·Γ(1) = (n− 1)!

da ja Γ(1) = 1

Notation: X ∼ Γ(t, λ) . . .Γ-Verteilung mit Parametern t und λ,

Mit Hilfe der Rekursionsformel zeigt man leicht

E(X) = tλ, Var (X) = t

λ2

39

Page 138: Organisatorisches - univie.ac.at

Beispiele für Gamma - Verteilung

• Γ(1, λ) . . . ExponentialverteilungΓ(n, λ) . . . Wartezeiten auf n Ereignisse

• Γ(n2 ,12 ) . . . χ

2-Verteilung mit n Freiheitsgraden

0 1 2 3 4 50

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8t=1t=2t=3t=4t=6

t ∈ N, λ = 1

0 1 2 3 4 50

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8t=1/2t=1t=3/2t=2t=3

2t ∈ N, λ = 1/2

40

Page 139: Organisatorisches - univie.ac.at

Beispiele für Gamma - Verteilung 2

Γ(t, 1) . . . Standard Γ-Verteilung

Es gilt: X ∼ Γ(t, λ) ⇒ λX ∼ Γ(t, 1)

Abhängigkeit von t

0 0.5 1 1.50

0.5

1

1.5

2

2.5

3

3.5

4t=1t=2t=3t=4t=6

t ∈ N, λ = 5

Abhängigkeit von λ

0 0.5 1 1.50

0.5

1

1.5

2

2.5

3

3.5

4λ=1λ=2λ=3λ=4λ=6

t = 4/3, λ ∈ N

41

Page 140: Organisatorisches - univie.ac.at

Beta - Verteilung

Famile von Verteilungen mit beschränktem Träger

X ist B-verteilt mit Parametern a, b > 0 falls Dichte

f(x) =

xa−1(1−x)b−1

B(a,b) , 0 < x < 1

0, sonst

wobei B(a, b) =1∫

x=0

xa−1(1− x)b−1

dx

Diese Definition garantiert wiederum, dass f tatsächlichDichtefunktion

Zur Modellierung von Zufallsereignis Y im Bereich [l, r]

⇒ Variablentransformation 0← l und 1← r d.h. X = Y−lr−l

42

Page 141: Organisatorisches - univie.ac.at

Mittelwert und Varianz

Es gilt für die B-Funktion

B(a, b) =Γ(a)Γ(b)

Γ(a+ b)

(ohne Beweis)

Unter Verwendung der Eigenschaften der Γ-Funktion oder mittelspartieller Intergration zeigt man leicht,

B(a+ 1, b) =a

a+ bB(a, b)

und für X Beta-verteilt mit Parametern a und b gilt:

E(X) = aa+b

, Var (X) = ab(a+b)2(a+b+1)

43

Page 142: Organisatorisches - univie.ac.at

Beispiele von Beta - Verteilungen

Falls a = b ⇒ symmetrische Verteilung

• a = b = 1, . . . Gleichverteilung

• a = b > 1, . . . Unimodal

• a = b < 1, . . . U - förmig

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.5

1

1.5

2

2.5

3

3.5

4a=b=1a=b=2a=b=3a=b=4a=b=6

a = b ≥ 1,

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.5

1

1.5

2

2.5

3

3.5

4

a=b=1a=b=1/2a=b=1/3a=b=1/4a=b=1/6

a = b ≤ 1,

44

Page 143: Organisatorisches - univie.ac.at

Weitere Beispiele von Beta - Verteilungenb = 1.5

a ≥ 1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.5

1

1.5

2

2.5

3

3.5

4

a=1a=2a=3a=4a=6

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.5

1

1.5

2

2.5

3

3.5

4a=1a=1/2a=1/3a=1/4a=1/6

a ≤ 1,

b ≥ 1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.5

1

1.5

2

2.5

3

3.5

4b=1b=2b=3b=4b=6

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.5

1

1.5

2

2.5

3

3.5

4b=1b=1/2b=1/3b=1/4b=1/6

b ≤ 1

a = 2

45

Page 144: Organisatorisches - univie.ac.at

Wahrscheinlichkeitsrechnungfür Statistik und VWLWS 2016/17

4 Mehrdimensionale Verteilungen

1. Einführung

2. Unabhängige Zufallsvariablen

3. Kovarianz, Korrelation

4. Bedingte Verteilung

5. Bivariate Normalverteilung

1

Page 145: Organisatorisches - univie.ac.at

4.1 Einführung

Wahrscheinlichkeitsrechnung mit mehr als einer Zufallsvariablen

zwei Zufallsvariablen . . . bivariat

zwei oder mehr ZV . . . multivariat

Konzepte:

• Gemeinsame Verteilungsfunktion

• rein diskret: Gemeinsame Wahrscheinlichkeitsfunktion

• rein stetig: Gemeinsame Dichte

2

Page 146: Organisatorisches - univie.ac.at

Gemeinsame Verteilungsfunktion

Zunächst bivariat, Zufallsvariablen X und Y

Definiere die gemeinsame Verteilungsfunktion als

F (x, y) := P(X ≤ x, Y ≤ y), −∞ < x, y <∞

Bivariate Verteilung dadurch vollständig charakterisiert

P(x1<X≤x2, y1<Y≤y2) = F (x2, y2)−F (x1, y2)−F (x2, y1)+F (x1, y1)

für x1 < x2 und y1 < y2

Randverteilung: FX(x) := P(X ≤ x) = F (x,∞)

Idee: P(X ≤ x) = P(X ≤ x, Y <∞) = limy→∞

F (x, y)

Analog FY (y) := P(Y ≤ y) = F (∞, y)

3

Page 147: Organisatorisches - univie.ac.at

Bivariate stetige Zufallsvariable

X und Y heißen gemeinsam stetig falls gemeinsameDichtefunktion existiert:

f(x, y) =∂2

∂x ∂yF (x, y)

Gemeinsame Verteilungsfunktion ergibt sich mittels Integration

F (a, b) =

b∫

y=−∞

a∫

x=−∞

f(x, y) dxdy

Erhalte Dichte der Randverteilung durch Integrieren über Y:

fX(x) =

∞∫

y=−∞

f(x, y) dy

Werden später speziell bivariate Normalverteilung besprechen

4

Page 148: Organisatorisches - univie.ac.at

Beispiel: Bivariate Gleichverteilung

X und Y bivariat gleichverteilt auf [0, 1]× [0, 1] ⇒ Dichte

f(x, y) = 1, 0 ≤ x, y ≤ 1.

Gemeinsame Verteilungsfunktion

F (a, b) =

b∫

y=0

a∫

x=0

f(x, y) dxdy = a b, 0 ≤ a, b ≤ 1.

Dichte der Randverteilung:

fX(x) =

∞∫

y=−∞

f(x, y) dy = 1, 0 ≤ x ≤ 1

gibt Dichte der univariaten Gleichverteilung

5

Page 149: Organisatorisches - univie.ac.at

Übung: Bivariate Gleichverteilung

X und Y bivariat gleichverteilt auf [−1, 1]× [−1, 1]

• Berechne die Wahrscheinlichkeit, dass max|X |, |Y | < 1/2.

• Berechne die Wahrscheinlichkeit, dass X2 + Y

2< 1.

Hinweis: Im Falle der bivariaten Gleichverteilung ist eine formaleIntegration nicht wirklich notwendig. Berechnung vonWahrscheinlichkeiten ergibt sich unmittelbar durch Vergleich vonFlächen.

6

Page 150: Organisatorisches - univie.ac.at

Bivariate diskrete Zufallsvariable

X und Y beide diskret

Definiere die gemeinsame Wahrscheinlichkeitsfunktion

p(x, y) = P(X = x, Y = y)

Es gilt natürlichp(x, y) = F (x, y)− F (x−, y)− F (x, y−) + F (x−, y−)

Erhalte Wahrscheinlichkeitsfunktion von X durch Summierenüber Y:

pX(x) = P(X = x) =∑

y∈Y

p(x, y)

7

Page 151: Organisatorisches - univie.ac.at

Beispiel

Urne mit 3 roten, 4 weißen und 5 blauen Bällen;ziehe zufällig 3 Bälle ohne Zurücklegen

X . . . Anzahl der roten gezogenen Kugeln

Y . . . Anzahl der weißen gezogenen Kugeln

z. Bsp.: p(0, 1) = P(0R, 1W, 2B) =(

30

)(

41

)(

52

)

/(

123

)

= 40/220

j

i 0 1 2 3 pX

0 10/220 40/220 30/220 4/220 84/220

1 30/220 60/220 18/220 0 108/220

2 15/220 12/220 0 0 27/220

3 1/220 0 0 0 1/220

pY 56/220 112/220 48/220 4/220 220/220

8

Page 152: Organisatorisches - univie.ac.at

Multivariate Zufallsvariablen

Mehr als zwei Zuvallsvariablen

Gemeinsame Verteilungsfunktion für n Zufallsvariablen

F (x1, . . . , xn) = P(X1 ≤ x1, . . . , Xn ≤ xn)

Diskret: Gemeinsame Wahrscheinlichkeitsfunktion:

p(x1, . . . , xn) = P(X1 = x1, . . . , Xn = xn)

Randverteilung wiederum durch Summieren über alleKomponenten, die gerade nicht von Interesse, z. Bsp.

pX1(x1) =

∑

x2∈X2

· · ·∑

xn∈Xn

p(x1, . . . , xn)

9

Page 153: Organisatorisches - univie.ac.at

Multinomialverteilung

Eine der wichtigsten multivariaten diskreten Verteilungen

n unabhängige Experimente mit r möglichen Ausgängen mitWahrscheinlichkeiten p1, . . . , pr

Sei Xi die Anzahl der Experimente mit Ausgang i, dann gilt

P(X1 = n1, . . . , Xr = nr) =n!

n1!···nr !pn1

1 · · · pnr

r

falls∑r

i=1 ni = n.

Verallgemeinerung der Binomialverteilung (r = 2)

Übung: Werfe 5 Würfel,

Wahrscheinlichkeit für Strasse, Poker, bzw. Full House

10

Page 154: Organisatorisches - univie.ac.at

4.2 Unabhängige Zufallsvariablen

Zwei Zufallsvariablen X und Y heißen unabhängig falls für alleEreignisse A und B gilt

P(X ∈ A, Y ∈ B) = P(X ∈ A)P(Y ∈ B)

Information über den Wert von X ändert nicht die Verteilung von Y

X und Y genau dann unabhängig falls

P(X ≤ a, Y ≤ b) = P(X ≤ a)P(Y ≤ b)

d.h. F (a, b) = FX(a) FY (b) für alle a, b.

Ebenfalls äquivalent zu f(x, y) = fX(x) fY (y) im stetigen Fall undzu p(x, y) = pX(x) pY (y) im diskreten Fall für alle x, y

11

Page 155: Organisatorisches - univie.ac.at

Einfaches Beispiel

Seien X und Y unabhängig

X = 0, 1, P (X = 0) = 1/3, P (X = 1) = 2/3

Y = −1, 0, 1, P (Y =−1) = P (Y =1) = 1/4, P (Y =0) = 1/2

Die gemeinsame Wahrscheinlichkeitsfunktion lautet:

j

i −1 0 1 pX

0 1/12 1/6 1/12 1/3

1 2/12 2/6 2/12 2/3

pY 1/4 1/2 1/4 1

Beachte, dass sowohl die Spalten als auch die Zeilen jeweilsproportional zueinander sind ⇒ Unabhängigkeit

12

Page 156: Organisatorisches - univie.ac.at

Stetiges Beispiel: Gleichverteilung

Seien X und Y unabhängig, jeweils gleichverteilt auf [0, 1].

d.h. fX(x) = 1 für 0 ≤ x ≤ 1, fY (y) = 1 für 0 ≤ y ≤ 1,

Dann offensichtlich X und Y bivariat gleichverteilt auf [0, 1]× [0, 1]

Umkehrung

X und Y bivariat gleichverteilt auf [0, 1]× [0, 1] ⇒ Dichte

f(x, y) = 1, 0 ≤ x, y ≤ 1.

Berechne die Randdichten fX(x) und fY (y)

Es folgt unmittelbar, dass X und Y jeweils gleichverteilt auf [0, 1],und auch dass die beiden unabhängig sind

Bemerkung: Unabhängigkeit gilt für Gleichverteilung aufRechtecken, nicht jedoch für allgemeinere Bereiche.

13

Page 157: Organisatorisches - univie.ac.at

Beispiel: Zwei Würfel

X, Y . . . gleichverteilt auf 1, . . . , 6

Aufgrund der Unabhängigkeit gilt p(x, y) = pX(x) pY (y) =136

Verteilungsfunktion:FX(x) = FY (x) = ⌊x⌋/6, falls 0 < x < 7

F (x, y) = FX(x)FY (y) =⌊x⌋·⌊y⌋

36

Welche Verteilung hat X + Y ?

P (X + Y = 2) = p(1, 1) = 1/36

P (X + Y = 3) = p(1, 2) + p(2, 1) = 2/36

P (X + Y = 4) = p(1, 3) + p(2, 2) + p(3, 1) = 3/36

P (X + Y = k) = p(1, k − 1) + p(2, k − 2) + · · ·+ p(k − 1, 1)

14

Page 158: Organisatorisches - univie.ac.at

Summe von unabhängigen Verteilungen

Summe von Zufallsvariablen selbst wieder eine ZV

Berechnung der Verteilung mittels Faltung

Stetige Verteilungen:

fX+Y (x) =

∞∫

y=−∞

fX(x− y)fY (y)dy

Diskrete Verteilungen:

P(X + Y = k) =∑

x+y=k

pX(x)pY (y)

Übung: X1 ∼ P(λ1), X2 ∼ P(λ2) unabhängig

⇒ X1 +X2 ∼ P(λ1 + λ2)

15

Page 159: Organisatorisches - univie.ac.at

Beispiel (Umkehrung)

Z ∼ P(λ) . . . Anzahl der Tippfehler pro Seite eines ManuskriptsLektor findet p Prozent der Fehler

X . . . Anzahl der gefundenen FehlerY . . . Anzahl der nicht gefundenen Fehler

Es gilt: X, Y unabhängig poissonverteilt mit Parameter pλ bzw. qλ

Lösung:

P(X= i, Y =j) = P(X= i, Y =j|X + Y = i+ j)P(X + Y = i+ j)

Per Definitionem:P(X= i, Y =j|X + Y = i+ j) =

(

i+ji

)

piqj

P(X + Y = i+ j) = e−λ λi+j

(i+j)!

Liefert insgesamt:

P(X= i, Y =j) = e−λ (λp)i

i!j! (λq)j = e−λp (λp)i

i! e−λq (λq)j

j!

16

Page 160: Organisatorisches - univie.ac.at

Beispiel für Faltung: stetiger Fall

X , Y unabhängig, gleichverteilt auf [0, 1]i.e. f(x, y) = 1, (x, y) ∈ [0, 1]× [0, 1]

fX(x) = 1, 0 ≤ x ≤ 1, fY (y) = 1, 0 ≤ y ≤ 1

Berechnung der Dichte Z := X + Y

fZ(x) =

∞∫

y=−∞

fX(x− y)fY (y)dy

=

x∫

y=0

dy = x, 0 < x ≤ 1

1∫

y=x−1

dy = 2− x, 1 < x ≤ 2

Grund: fY (y) = 1 für 0 ≤ y ≤ 1

fX(x− y) = 1 für 0 ≤ x− y ≤ 1 ⇔ y ≤ x ≤ y + 1

17

Page 161: Organisatorisches - univie.ac.at

Additionstheorem für Γ-Verteilung

X , Y unabhängig, Γ−verteilt mit Parametern t1, t2 und gleichem λ

fX(x) = λe−λx(λx)t1−1

Γ(t1), fY (y) =

λe−λy(λy)t2−1

Γ(t2), x, y ≥ 0,

fZ(x) =

∞∫

y=−∞

fX(x− y)fY (y)dy

=

x∫

y=0

λe−λ(x−y)(λ(x− y))t1−1

Γ(t1)

λe−λy(λy)t2−1

Γ(t2)dy

=λt1+t2e

−λx

Γ(t1)Γ(t2)

x∫

y=0

(x− y)t1−1yt2−1

dy

=

∣

y = xz

dy = xdz

∣

=λe

−λx(λx)t1+t2−1

Γ(t1 + t2)

18

Page 162: Organisatorisches - univie.ac.at

Erwartungswert für bivariate ZV, diskret

X und Y diskret mit gemeinsamer Wahrscheinlichkeitsfunktion

Wie im eindimensionalen gilt:

E(g(X, Y )) =∑

x∈X

∑

y∈Y

g(x, y)p(x, y)

Übung:

Seien X und Y die Augenzahlen von zwei fairen Würfeln(unabhängig)

Berechne den Erwartungswert der Differenz |X − Y |

19

Page 163: Organisatorisches - univie.ac.at

Erwartungswert für bivariate ZV, stetig

X und Y stetig mit gemeinsamer Dichte f(x, y)

Wie im eindimensionalen gilt:

E(g(X, Y )) =∞∫

y=−∞

∞∫

x=−∞

g(x, y)f(x, y) dx dy

Übung (optional):

Unfall auf einer Straße der Länge L, Unfallort X und Position Y

eines Krankenwagens unabhängig gleichverteilt

Berechne den Erwartungswert vom Abstand |X − Y | zwischenUnfallort und Krankenwagen

20

Page 164: Organisatorisches - univie.ac.at

Erwartungswert der Summe zweier ZV

X und Y stetig mit gemeinsamer Dichte f(X, Y )

Mit g(x, y) = x+ y folgt

E(X + Y ) =∞∫

y=−∞

∞∫

x=−∞

(x+ y)f(x, y) dx dy = E(X) + E(Y )

Geht genau so für den diskreten Fall:

E(X + Y ) =∑

x∈X

∑

y∈Y

(x+ y)p(x, y) dx dy = E(X) + E(Y )

ACHTUNG: Additivität für Varianzen im allgemeinen nicht richtig!

21

Page 165: Organisatorisches - univie.ac.at

4.3 Kovarianz und Korrelation

Maßzahlen für die Beziehung zwischen zwei Zufallsvariablen

Definition Kovarianz:

Cov (X, Y ) = E[(X − E(X))(Y − E(Y ))]

Man schreibt mitunter σXY := Cov (X, Y )

Es gilt ähnlich wie für die Varianz

σXY = E(XY )− E(X)E(Y )

Definition Korrelation:

ρ(X, Y ) := σXY

σXσY

22

Page 166: Organisatorisches - univie.ac.at

Beispiel Korrelation

ρ = 0.9

−4 −3 −2 −1 0 1 2 3−3

−2

−1

0

1

2

3

−3 −2 −1 0 1 2 3−3

−2.5

−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

ρ=−0.6

ρ = 0.3

−3 −2 −1 0 1 2 3−3

−2

−1

0

1

2

3

−3 −2 −1 0 1 2 3 4−3

−2

−1

0

1

2

3

4

ρ = 0.0

23

Page 167: Organisatorisches - univie.ac.at

Beispiel Kovarianz

Diskrete bivariate Verteilung (X = Y = 0, 1, 2, 3) mit

j

i 0 1 2 3 pX

0 1/20 4/20 3/20 2/20 10/20

1 3/20 2/20 2/20 0 7/20

2 1/20 1/20 0 0 2/20

3 1/20 0 0 0 1/20

pY 6/20 7/20 5/20 2/20 20/20

Berechne Cov (X, Y )

Lösung : Cov (X, Y ) = E(XY )−E(X)E(Y ) = 820 −

1420 ·

2320 = − 162

400

24

Page 168: Organisatorisches - univie.ac.at

Kovarianz für unabhängige ZV

X und Y unabhängig ⇒ σXY = 0

folgt unmittelbar aus σXY = E(XY )− E(X)E(Y )

und E(XY ) =∫∫

xyf(x, y) =∫

xf(x)∫

yf(y)

Umkehrung ist falsch:

X gleichverteilt auf −1, 0, 1 und Y =

0, X 6= 0

1, X = 0

E(X) = 0

XY = 0 ⇒ E(XY ) = 0

daher Cov (X, Y ) = 0, obwohl X und Y nicht unabhängig:

z.Bsp. P(X = 1, Y = 0) = P(X = 1) = 1/3, P(Y = 0) = 2/3

25

Page 169: Organisatorisches - univie.ac.at

Eigenschaften der Kovarianz

Offensichtlich gilt

Cov (X, Y ) = Cov (Y,X), und Cov (X,X) = Var (X)

Die Kovarianz ist eine Bilinearform:

Cov (aX, Y ) = a Cov (X, Y ), a ∈ R

und

Cov

n∑

i=1

Xi,

m∑

j=1

Yj

=n∑

i=1

m∑

j=1

Cov (Xi, Yj)

Beweis durch ausrechnen . . .

26

Page 170: Organisatorisches - univie.ac.at

Varianz von Summen

Aufgrund der zuvor gezeigten Eigenschaften gilt

Var

(

n∑

i=1

Xi

)

=n∑

i=1

n∑

j=1

Cov (Xi, Xj)

=n∑

i=1

Var (Xi) +n∑

i=1

∑

j 6=i

Cov (Xi, Xj)

Extremfälle:

• unabhängige ZV: Var(

n∑

i=1

Xi

)

=n∑

i=1

Var (Xi)

• X1 = X2 = · · · = Xn: Var(

n∑

i=1

Xi

)

= n2 Var (X1)

27

Page 171: Organisatorisches - univie.ac.at

Korrelation

Definition: ρ(X, Y ) := σXY

σXσY

Es gilt:

−1 ≤ ρ(X, Y ) ≤ 1

Beweis:

0 ≤ Var(

X

σX

+Y

σY

)

=Var (X)

σ2X

+Var (Y )

σ2Y

+2Cov (X, Y )

σXσY

= 2[1 + ρ(X, Y )]

0 ≤ Var(

X

σX

−Y

σY

)

=Var (X)

σ2X

+Var (Y )

σ2Y

−2Cov (X, Y )

σXσY

= 2[1− ρ(X, Y )]

28

Page 172: Organisatorisches - univie.ac.at

Korrelation – Fortsetzung

Falls ρ(X, Y ) = 0, heißen X und Y unkorreliert . Dies ist offenbargleichbedeutend damit, dass Cov (X, Y ) = 0. Somit ist“unabhängig” stärker als “unkorreliert”.

Korrelationskoeefizienten, die sich (signifikant) von nullunterscheiden, lassen auf einen direkten oder indirektenZusammenhang zwischen den beiden Variablen schließen.Einfachster Fall: Die beiden Variablen X und Y können zueinanderin einer Ursache-Wirkung-Beziehung stehen, wobei offen bleibt,welche Variable auf welche wirkt. Es können aber auchkomplexere Beziehungen bestehen, z.B. kann eine dritteVariable Z einen Einfluss sowohl auf X als auch auf Y ausüben.

Beispiel: Es besteht eine Korrelation zwischen der Zahl derKindergeburten und der Zahl der Storchenpaare in einer Region.Ein direkter Kausalzusammenhang ist wohl nicht anzunehmen.

29

Page 173: Organisatorisches - univie.ac.at

Übung Korrelation

Seien X und Y unabhängig gleichverteilt auf [0, 1]

Berechne die Korrelation zwischen X und Z für

1. Z = X + Y

2. Z = X2 + Y

2

3. Z = (X + Y )2

30

Page 174: Organisatorisches - univie.ac.at

4.4 Bedingte Verteilungen

Bedingte Wahrscheinlichkeit für zwei Ereignisse A und B:

P(A|B) =P(AB)

P(B)

Entsprechende Definitionen für Zufallsvariablen X und Y

Diskret: pX|Y (x|y) := P(X = x|Y = y) = p(x,y)pY (y)

Übung: Gegeben p(x, y) durch

p(0, 0) = 0.4, p(0, 1) = 0.2, p(1, 0) = 0.1, p(1, 1) = 0.3,

Berechne bedingte Wahrscheinlichkeitsfunktion von X wenn Y = 1

31

Page 175: Organisatorisches - univie.ac.at

Diskrete bedingte Verteilungen

Bedingte Verteilungsfunktion:

FX|Y (x|y) := P(X ≤ x|Y = y) =∑

k≤x

pX|Y (k|y)

Sind X und Y unabhängig so gilt pX|Y (x|y) = pX(x)

Beweis: Nachrechnen

Beispiel: Seien X ∼ P(λ1) und Y ∼ P(λ2) unabhängig.

Berechne bedingte Verteilung von X , wenn X + Y = n

P(X = k|X + Y = n) = P(X=k)P(Y=n−k)P(X+Y=n) ,

X + Y ∼ P(λ1 + λ2) ⇒ X |(X + Y = n) ∼ B(

n,λ1

λ1+λ2

)

32

Page 176: Organisatorisches - univie.ac.at

Stetige bedingte Verteilungen

Stetig: fX|Y (x|y) :=f(x,y)fY (y) für fY (y) > 0

Definition im stetigen Fall läßt sich über diskreten Fall motivieren(Wahrscheinlichkeiten für kleine Umgebungen von x und y)

Berechne damit bedingte Wahrscheinlichkeiten:

P(X ∈ A|Y = y) =

∫

A

fX|Y (x|y) dx

Bedingte Verteilungsfunktion:

FX|Y (a|y) := P(X ∈ (−∞, a)|Y = y) =

a∫

x=−∞

fX|Y (x|y) dx

33

Page 177: Organisatorisches - univie.ac.at

Beispiel

Gemeinsame Dichte von X und Y gegeben durch

f(x, y) =

c x(2− x− y), x ∈ [0, 1], y ∈ [0, 1],

0, sonst.

Berechne fX|Y (x|y) und die P(X < 1/2|Y = 1/3)

Lösung:

fY (y) = c

1∫

x=0

x(2− x− y) dx = c( 23 −y

2 )

fX|Y (x|y) =f(x,y)fY (y) = x(2−x−y)

2

3−

y

2

= 6x(2−x−y)4−3y

P(X < 1/2|Y = 1/3) =1/2∫

x=0

6x(2−x−1/3)4−3/3 dx = · · · = 1/3

34

Page 178: Organisatorisches - univie.ac.at

Bedingter Erwartungswert

Berechnung mittels bedingter Wahrscheinlichkeitsfunktion bzw.bedingter Dichte

E(X |Y = y) =

∞∫

x=−∞

xfX|Y (x|y)dx

Beispiel: Fortsetzung

E(X |Y = y) =

1∫

x=0

6x2(2− x− y)

4− 3ydx =

5/2− 2y

4− 3y

Speziell E(X |Y = 1/3) = 1118

35

Page 179: Organisatorisches - univie.ac.at

Erwartungswert durch Konditionierung

E(X |Y = y) ist eine Funktion von y,kann somit als Zufallsvariable in y betrachtet werden

Es gilt: E(X) = E(E(X |Y ))

Beweis:

E(E(X |Y )) =

∞∫

y=−∞

E(X |Y = y)fY (y) dy

=

∞∫

y=−∞

∞∫

x=−∞

xfX|Y =y(x)fY (y) dx dy

=

∞∫

y=−∞

∞∫

x=−∞

xf(x, y)

fY (y)fY (y) dx dy = E(X)

Übung: Verifiziere die Formel für obiges Beispiel

36

Page 180: Organisatorisches - univie.ac.at

Bedingte Varianz

Formeln für den diskreten Fall (mit bedingter WF):

E(X |Y = y) =∑

x∈X

xpX|Y (x|y)

Var (X |Y = y) =∑

x∈X

(x− E(X |Y = y))2pX|Y (x|y)

Übung: Berechne Erwartungswert und Varianz von X wenn Y = j

j

i 0 1 2 3 pX

0 1/20 4/20 3/20 2/20 10/20

1 3/20 2/20 2/20 0 7/20

2 1/20 1/20 0 0 2/20

3 1/20 0 0 0 1/20

pY 6/20 7/20 5/20 2/20 20/20

37

Page 181: Organisatorisches - univie.ac.at

Varianz mittels Konditionierung

Var (X) = E(Var (X |Y )) + Var (E(X |Y ))

Beweis: Wegen

Var (X |Y ) = E(X2|Y )− (E(X |Y ))2

gilt

E(Var (X |Y )) = E(E(X2|Y ))−E((E(X |Y ))2) = E(X2)−E(E(X |Y )2)

Andererseits

Var (E(X |Y )) = E(E(X |Y )2)−(E(E(X |Y )))2 = E(E(X |Y )2)−E(X)2

Die Summe beider Ausdrücke liefert das Resultat

Formel wesentlich für die Theorie der linearen Regression!

38

Page 182: Organisatorisches - univie.ac.at

4.5 Bivariate Normalverteilung

Univariate Normalverteilung: f(x) = 1√

2π σe−(x−µ)2/2σ2

Standardnormalverteilung: φ(x) = 1√

2πe−x2/2

X1 und X2 unabhängig, jeweils normalverteilt N (µi, σ2i ), i = 1, 2

⇒ f(x1, x2) =1

2π σ1σ2e−(x1−µ1)

2/2σ2

1−(x2−µ2)

2/2σ2

2

=1

2π |Σ|1/2e−(x−µ)TΣ−1(x−µ)/2

wobei x =(

x1

x2

)

, µ =(

µ1

µ2

)

, Σ =(

σ2

10

0 σ2

2

)

39

Page 183: Organisatorisches - univie.ac.at

Dichtefunktion allgemein (Vektorform)

X = (X1, X2) normalverteilt falls gemeinsame Dichtefunktion

f(x) = 12π |Σ|

1/2e−(x−µ)TΣ−1(x−µ)/2

Kovarianzmatrix: Σ =

σ21 σ12

σ12 σ22

Notation: ρ := σ12

σ1σ2

• |Σ| = σ21σ

22 − σ2

12 = σ21σ

22(1− ρ2)

• Σ−1 = 1σ2

1σ2

2(1−ρ2)

σ22 −ρσ1σ2

−ρσ1σ2 σ21

40

Page 184: Organisatorisches - univie.ac.at

Bivariate Normalverteilung

X und Y jeweils standardnormalverteilt N (0, 1), ρ = 0:

−2−1

01

2

−2

−1

0

1

20

0.05

0.1

0.15

0.2

41

Page 185: Organisatorisches - univie.ac.at

Beispiel bivariate Normalverteilungens

x2 = 1, s

y2 = 1, ρ = 0

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

sx2 = 1, s

y2 = 1, ρ = 0.5

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

sx2 = 4, s

y2 = 1/4, ρ = 0

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

sx2 = 4, s

y2 = 1/4, ρ = −0.5

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

42

Page 186: Organisatorisches - univie.ac.at

Beispiel Dichtefunktion

(X, Y ) bivariat normalverteilt mit µi = 0, σi = 1 (i = 1, 2) undρ = 1/2

Berechne die gemeinsame Dichte!

Lösung: µ =(

00

)

, Σ =( 1 1/21/2 1

)

|Σ| = 1− 1/4 = 3/4, Σ−1 = 43

(

1 −1/2−1/2 1

)

(x, y)Σ−1(

x

y

)

= 23 (x, y)

(

2x−y

−x+2y

)

= 43 (x

2 − xy + y2)

f(x, y) =1√3π

e−

2

3(x2

−xy+y2)

Äquivalente Darstellung:

f(x, y) =1√2π

e−

1

2x2 1√

2π 3/4e−

(y−x/2)2

2·3/4

43

Page 187: Organisatorisches - univie.ac.at

Beispiel Fortsezung

f(x, y) =1√2π

e−

1

2x2 1√

2π 3/4e−

(y−x/2)2

2·3/4

Gemeinsame Dichte ist Produkt der Dichte vonStandardnormalverteilung (in x) und Normalverteilung (in y) mitMittelwert x/2 und Varianz 3/4.

Berechne Dichte von X :

fX(x) =1√2π

e−

1

2x2

∞∫

y=−∞

1√

2π 3/4e−

(y−x/2)2

2·3/4 dy =1√2π

e−

1

2x2

fX(x) ist Dichte von Standardnormalverteilung

Integral ergibt 1, weil wir über eine Dichte integrieren!

44

Page 188: Organisatorisches - univie.ac.at

Dichtefunktion allgemein

Von der Formel in Vektorform erhalten wir

f(x1, x2) =1

2πσ1σ2

√1−ρ2

exp

−z2

1−2ρz1z2+z2

2

2(1−ρ2)

wobei z1 = x1−µ1

σ1

und z2 = x2−µ2

σ2

(vgl. Normalisierung)

Notation deutet darauf hin, dass µi und σ2i jeweils Erwartungswert

und Varianz von Xi, den beiden Randverteilungen,und dass ρ die Korrelation zwischen X1 und X2

Es gilt: f(x1, x2) =1

√

2πσ1

e−

z21

2 · 1√2π(1−ρ2)σ2

e−

(ρz1−z2)2

2(1−ρ2)

Ergänzung auf vollständiges Quadrat im Exponenten

45

Page 189: Organisatorisches - univie.ac.at

Bedeutung von µi, σ2

i und ρ

Allgemein gilt für bivariate Normalverteilung

1. X1 ∼ N (µ1, σ21) und X2 ∼ N (µ2, σ

22)

2. Korrelationskoeffizient ρ(X1, X2) =σ12

σ1σ2

Beweis:

1.Bilde vollst. Quadrat im Exponenten und integriere:

fX1(x1)=

1√2πσ1

e−

z21

2

∞∫

x2=−∞

1√

2π(1− ρ2)σ2

e−

(ρz1−z2)2

2(1−ρ2) dx2

=1

√2πσ1

e−

z21

2

∞∫

s=−∞

1√2π

e−

(

ρz1√

1−ρ2−s

)

2

2 ds =1

√2πσ1

e−

z21

2

mit Substitution s← z2/√

1− ρ2 = (x2 − µ2)/(√

1− ρ2σ2)

46

Page 190: Organisatorisches - univie.ac.at

Fortsetzung Beweis

2. Wiederum Formel mit vollst. Quadrat und Substitutionz1 ← (x1 − µ1)/σ1, z2 ← (x2 − µ2)/σ2:

Cov (X1, X2) =

∞∫

x1=−∞

∞∫

x2=−∞

(x1 − µ1)(x2 − µ2)f(x1, x2) dx2dx1

=

∞∫

x1=−∞

x1 − µ1√2πσ1

e−

z21

2

∞∫

x2=−∞

x2 − µ2√

2π(1− ρ2)σ2

e−

(ρz1−z2)2

2(1−ρ2) dx2dx1

=

∫

z1

z1φ(z1)

∫

z2

z2√

1− ρ2φ

(

ρz1 − z2√

1− ρ2

)

σ2dz2σ1dz1

= σ1σ2

∫

z1

z1φ(z1)ρz1dz1 = σ1σ2ρ = σ12

47

Page 191: Organisatorisches - univie.ac.at

Bedingte Verteilung

Interpretation für die Formel

f(x1, x2) =1

√

2πσ1

e−z21

2 · 1√2π(1−ρ2)σ2

e−

(ρz1−z2)2

2(1−ρ2)

f(x1, x2) = f1(x1)f2|1(x2|x1)

Aus (ρz1−z2)2

(1−ρ2) = (µ2+σ2ρz1−x2)2

σ2

2(1−ρ2)

folgt:

Bedingte Verteilung ist wieder normalverteilt mitµ2|1 = µ2 + ρ(x1 − µ1)

σ2

σ1

, σ2|1 = σ22(1− ρ2)

Für bivariate Normalverteilung: ρ = 0⇒ Unabhängigkeit

Ist im allgemeinen nicht richtig!

48

Page 192: Organisatorisches - univie.ac.at

Summe von bivariat normalverteilten ZV

Sei X1, X2 bivariat normal mit µ1, µ2, σ21 , σ

22 , σ12

Dann ist Z = X1 +X2 wieder normalverteilt, mit

X1 +X2 ∼ N (µ1 + µ2, σ21 + σ

22 + 2σ12)

Beweis: Für die Dichte der Summe gilt

fZ(z) =

∞∫

x2=−∞

f(z − x2, x2) dx2

Man erhält das Resultat wieder durch Vervollständigung desQuadrats im Exponenten (etwas längere Rechnung)

Intuition : Mittelwert und Varianz von Z entsprechen derallgemeinen Formel!

49

Page 193: Organisatorisches - univie.ac.at

Wahrscheinlichkeitsrechnungfür Statistik und VWLWS 2016/17

5 Verteilungen vonStichprobenkennzahlen

1. Stichprobe

2. χ2 - Verteilung

3. t-Verteilung

4. F -Verteilung

1

Page 194: Organisatorisches - univie.ac.at

5.1 Stichprobe

X1, . . . , Xn unabhängige ZV

P (X1 ∈ A1, . . . , Xn ∈ An) = P (X1 ∈ A1) · · ·P (Xn ∈ An)

für jede beliebige Wahl von Ereignissen A1, . . . An.

Stichprobe . . .n unabhängige Zufallsvariablen, die alle gleichverteilt sind

Englisch: identically independently distributed (i.i.d)

Beispiel: Binomialverteilung B(n, p) erhalte ich als Summe von n

unabhängigen Bernoulli-Variablen

X =

n∑

i=1

Xi

wobei Xi ∼ B(1, p) i.i.d.

2

Page 195: Organisatorisches - univie.ac.at

Mittelwert von Stichproben

X1, . . . , Xn i.i.d. wie X ,

Definition: X := 1n

n∑

i=1

Xi

Mit E(X) = µ und Var (X) = σ2 gilt:

E(

X)

= µ, Var (X) = σ2

n

Beweis:

E

(

n∑

i=1

Xi

)

=n∑

i=1

E(Xi)

Var(

n∑

i=1

Xi

)

=n∑

i=1

Var (Xi)

Letzte Gleichung wegen Unabhängigkeit der Beobachtungen

3

Page 196: Organisatorisches - univie.ac.at

Normalverteilte Stichproben

X1, . . . , Xn i.i.d. N (µ, σ2) ⇒ X ∼ N (µ, σ2/n)

Zentraler Grenzwertsatz: Selbst für nicht normalverteilteStichprobe X1, . . . , Xn ist X für große n näherungsweisenormalverteilt (Siehe Kapitel 6)

Beispiel: Gewicht X von Brotlaib einer Bäckerei hat im Mittel 1kgbei einer Varianz von 0.1 kg, Annahme das Gewicht istnormalverteilt.Stichprobe von 10 Broten, welche Verteilung hat X?Mit welcher Wahrscheinlichkeit liegt X zwischen 0.95 und 1.05?

σ2X

= σ2X/10 = 0.01 ⇒ X ∼ N (1, 0.01)

P (0.95 ≤ X ≤ 1.05) = Φ(

1.05−10.1

)

− Φ(

0.95−10.1

)

= 2Φ(0.5)−1=0.383

4

Page 197: Organisatorisches - univie.ac.at

5.2 χ2 - Verteilung

Motivation: Gegeben Stichprobe X1, . . . , Xn i.i.d.

X kann verwendet werden, um unbekanntes µ zu schätzen.

Typische andere statistische Fragestellungen:

Wie kann ich unbekanntes σ schätzen?

Möglicher Zugang: σ2 = E(X − µ)2

Somit könnten Quadratsummen der Stichprobe interessant sein:

• µ bekannt:n∑

i=1

(Xi − µ)2

• µ unbekannt:n∑

i=1

(Xi − X)2

Welche Verteilung haben diese Quadratsummen?

5

Page 198: Organisatorisches - univie.ac.at

Mittelwerte von Quadratsummen

X1, . . . , Xn i.i.d. wie X , E(X) = µ, Var (X) = σ2

Es gilt:

E

(

n∑

i=1

(Xi − µ)2)

= nσ2

Beweis: Vertausche Summe und Erwartungswert

Weiters gilt:

E

(

n∑

i=1

(Xi − X)2)

= (n− 1)σ2

Beweis: Übung

6

Page 199: Organisatorisches - univie.ac.at

Verteilung von Z2

Erinnerung: X ∼ Γ(t, λ) . . . f(x) = λe−λx(λx)t−1

Γ(t) , für x ≥ 0

Es gilt:

Z ∼ N (0, 1) ⇒ Y = Z2 ∼ Γ( 12 ,12 )

In Worten: Das Quadrat einer standardnormalverteiltenZufallsvariable ist Γ-verteilt mit Parametern t = 1/2 und λ = 1/2.

Beweis: P (Y ≤ y) = P (−√y ≤ Z ≤

√y) = Φ(

√y)− Φ(−

√y)

⇒ fY (y) = ϕ(√y)

1

2√y+ ϕ(−

√y)

1

2√y= ϕ(

√y)

1√y

=1

√2πy

e−y/2 =

12e

−

y

2 ( y2 )1

2−1

Γ( 12 ), weil Γ(

1

2) =

√π.

7

Page 200: Organisatorisches - univie.ac.at

Additionstheorem für Γ−Verteilung

Y1, . . . , Yn unabhängig, Γ(ti, λ), mit beliebigen ti

d.h. fYi(y) =

λe−λy(λy)ti−1

Γ(ti), für y ≥ 0

dann S :=n∑

i=1

Yi auch Γ−verteilt, nämlich S ∼ Γ(n∑

i=1

ti, λ)

d.h. fS(s) =λe−λs(λs)T−1

Γ(T ), für s ≥ 0, mit T :=

n∑

i=1

ti

Beweis: Iteratives Anwenden der Faltungsformel für dieΓ−Verteilung (vgl. Beispiel im Kapitel 4)

Bemerkung: Vergleiche Additionstheorem für Xi ∼ N (µi, σ2i ) i.i.d.

8

Page 201: Organisatorisches - univie.ac.at

Definition der χ2 - Verteilung

Man bezeichnet Y ∼ Γ(n2 ,12 ) als χ

2-verteilt mit n Freiheitsgraden

Notation: Y ∼ χ2n

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

df=1df=2df=3df=4df=6

Dichte der χ2-Verteilung für verschiedene Freiheitsgrade

9

Page 202: Organisatorisches - univie.ac.at

Verteilung der Quadratsumme, bekanntes µ

Wir haben gesehen: Z ∼ N (0, 1) ⇒ Z2 ∼ Γ( 12 ,

12 ) = χ

21

Aus dem Additionstheorem folgt unmittelbar:

Zi ∼ N (0, 1) i.i.d ⇒ Y :=n∑

i=1

Z2i ∼ χ2

n

Damit können wir unsere erste Frage beantworten:Für eine Stichprobe der Größe n von normalverteiltenZufallsvariablen Xi ∼ N (µ, σ2) gilt:

n∑

i=1

(Xi − µ)2 = σ2

n∑

i=1

(Xi−µ)2

σ2 ∼ σ2χ2n

10

Page 203: Organisatorisches - univie.ac.at

Verteilung der Quadratsumme, unbekanntes µ

Wenn wir µ durch X ersetzen so gilt (ohne Beweis):

n∑

i=1

(Xi − X)2 ∼ σ2χ2n−1

Es gilt: Y ∼ χ2n−1 ⇒ E(Y ) = n− 1

Daher üblicher Schätzer für die Varianz S2 := 1n−1

n∑

i=1

(Xi − X)2

Interpretation für den Begriff Freiheitsgrad:

• µ bekannt: Alle Xi zur Schätzung von σ2 unabhängig

⇒ daher n Freiheitsgrade

• µ unbekannt: Ein Parameter wird aus den Daten geschätzt

⇒ daher n− 1 Freiheitsgrade

11

Page 204: Organisatorisches - univie.ac.at

5.3 t - Verteilung

Motivation:

1. Standardisierung für X ∼ N (µ, σ2): Z = X−µ

σ

2. Für Stichprobe X1, . . . , Xn i.i.d. wie X ,

Standardisierung für X: X−µ

σ/√

n

3. Ersetze σ2 durch S2 = 1n−1

n∑

i=1

(Xi − X)2

d.h. wir interessieren uns für T :=√n

X−µ

S

Es gilt: T =√n

1

n

n∑

i=1

Zi

√

1

n−1

n∑

i=1

(Zi−1

n

n∑

j=1

Zj)2wobei Zi =

Xi−µ

σ

Beweis: Nachrechnen

12

Page 205: Organisatorisches - univie.ac.at

Eigenschaften der T -Statistik

T =√n− 1

1√

n

n∑

i=1

Zi

√

n∑

i=1

(Zi−1

n

n∑

j=1

Zj)2wobei Zi = N (0, 1)

Wir wissen bereits:

Z := 1√

n

n∑

i=1

Zi ∼ N (0, 1),

Y :=n∑

i=1

(Zi −1n

n∑

j=1

Zj)2 ∼ χ2

n−1

Somit insgesamt

T =√

n(X−µ)S

=√n− 1 Z

√

Y

Zusätzlich gilt (ohne Beweis):

X und S2 sind unabhängige ZV, (daher auch Z und Y )

13

Page 206: Organisatorisches - univie.ac.at

Definition der t-Verteilung

Seien Z ∼ N (0, 1), Y ∼ χ2n unabhängig, dann heißt

T :=√n

Z√

YStudent- oder t-verteilt mit n Freiheitsgraden

Dichte der t-Verteilung für verschiedene Freiheitsgrade

−3 −2 −1 0 1 2 30

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45t=1t=2t=3t=4t=6

Für n groß nahezu standardnormalverteilt

14

Page 207: Organisatorisches - univie.ac.at

5.4 F - Verteilung

Motivation:

Häufig in der Statistik von Interesse: Vergleich von Varianzen.Eine Möglichkeit → betrachte Quotienten σ

21/σ

22

Zum Beispiel zwei Gruppen, Stichproben X(1)1 , . . . , X

(1)n1

bzw.

X(2)1 , . . . , X

(2)n2

.

Seien Y1 und Y2 die jeweiligen Quadratsummen der Stichproben,sodass Yj = σ

2j Yj mit Yj ∼ χ

2nj−1 (j = 1, 2).

Für Schätzer von σ2j gilt S2

j =Yj

nj−1 =σ2

jYj

nj−1 .

Falls σ1 = σ2 (“Nullhypothese”), gilt also für den Quotienten derSchätzer

S21

S22

=Y1/(n1 − 1)

Y2/(n2 − 1)

15

Page 208: Organisatorisches - univie.ac.at

Definition der F -Verteilung

Y1 ∼ χ2n1

, Y2 ∼ χ2n2

unabhängig, dann heißt

Q := Y1/n1

Y2/n2

F -verteilt mit n1 und n2 Freiheitsgraden

Dichte der F -Verteilung für verschiedene n1 und für n2 = 25

0 0.5 1 1.5 2 2.50

0.5

1

1.5n

1=1

n1=2

n1=3

n1=4

n1=6

16

Page 209: Organisatorisches - univie.ac.at

Eigenschaften der F - Verteilung

Sei Q ∼ F(n1, n2) F -verteilt mit Freiheitsgraden n1, n2.Dichte der F -Verteilung etwas kompliziert

• µF(n1,n2) =

n2

n2−2

Beweis als Übung.

• 1Q

∼ F(n2, n1)

folgt unmittelbar aus Definition

• Sei T Student-verteilt mit n Freiheitsgraden:

T 2 ∼ F(1, n)

aus der Darstellung T =√n

Z√

Y, wobei Z ∼ N (0, 1), Y ∼ χ2

n

folgt T2 = Z2/1

Y/nwobei Z

2 ∼ χ21

17

Page 210: Organisatorisches - univie.ac.at

Quantile

In der Praxis werden sehr häufig die Quantile der χ2-,t- undF -Verteilung benötigt

Nicht elementar berechenbar ⇒ Tabellen (oder Computer)

Zu beachten:

• t-Verteilung mit unendlich vielen Freiheitsgraden entsprichtNormalverteilung

• γp(n1, n2) sei p-Quantil von F(n1, n2), dann gilt:

γp(n1, n2) =1

γ1−p(n2,n1)

Beweis: p = P (Q ≤ γp(n1, n2)) wobei Q = Y1/n1

Y2/n2

1− p = P (Q > γp(n1, n2)) = P (Q−1 <1

γp(n1,n2))

18

Page 211: Organisatorisches - univie.ac.at

Wahrscheinlichkeitsrechnungfür Statistik und VWLWS 2016/17

6 Grenzwertsätze

1. Einführung

2. Gesetze der großen Zahlen

3. Der Zentraler Grenzwertsatz

1

Page 212: Organisatorisches - univie.ac.at

6.1 Einführung

Grenzwertsätze grundlegend für Wahrscheinlichkeitstheorie

Zwei wesentliche Gruppen:

1. Gesetze der großen Zahl

Geben Bedingungen unter welchen Mittelwert einerZahlenfolge gegen theoretischen Erwartungswert konvergieren

2. Zentrale Grenzwertsätze

Bedingungen unter welchen die Summe einer großen Zahl vonVerteilungen gegen Normalverteilung konvergiert

Verschiedene Versionen, je nach Art der Konvergenz

2

Page 213: Organisatorisches - univie.ac.at

Markov Ungleichung

X nichtnegative Zufallsvariable, d.h. X ⊂ R+0

Dann gilt für jedes a > 0:

P (X ≥ a) ≤ 1aE(X)

Beweis:

Definiere Y :=

1, X ≥ a

0, X < a

X ≥ 0 ⇒ Y ≤ Xa

⇒ E(Y ) ≤ E(X)a

und E(Y ) = P (X ≥ a)

3

Page 214: Organisatorisches - univie.ac.at

Chebyshev Ungleichung

X Zufallsvariable mit E(X) = µ ∈ R und Var (X) = σ2< ∞,

dann gilt für jedes k > 0

P (|X − µ| ≥ k) ≤ σ2

k2

Beweis:

Anwendung der Markov Ungleichung für (X − µ)2 ≥ 0 und a = k2

P ((X − µ)2 ≥ k2) ≤

1

k2E(X − µ)2

Verwendung: Abschätzungen für Zufallsvariablen, wenn nur µ undσ2 bekannt.

4

Page 215: Organisatorisches - univie.ac.at

6.2 Gesetze der großen Zahl

Das schwache Gesetz der großen Zahlen :

X1, X2, . . . i.i.d. Folge von Zufallsvariablen, E(Xi) = µ

Dann gilt für jedes ε > 0

P(∣

∣

X1+···+Xn

n− µ

∣

∣ ≥ ε)

→ 0 für n → ∞

Beweis: (Verwende zusätzlich Var (Xi) = σ2 < ∞ )

E(

X1+···+Xn

n

)

= µ, Var(

X1+···+Xn

n

)

= σ2

n

Chebyshev Ungleichung:

P

(∣

∣

X1 + · · ·+Xn

n− µ

∣

≥ ε

)

≤σ2

nε2

5

Page 216: Organisatorisches - univie.ac.at

Das starke Gesetz der großen Zahlen

X1, X2, . . . i.i.d. Folge von Zufallsvariablen, E(Xi) = µ

Dann gilt mit Wahrscheinlichkeit 1, dass

X1+···+Xn

n→ µ für n → ∞

Ohne Beweis

Starkes Gesetz tatsächlich stärker als schwaches Gesetz:

Mit Wahrscheinlichkeit 1 gibt es für jedes ε ein N(ε), so dass∣

∣

X1+···+Xn

n− µ

∣

∣ < ε für alle n > N(ε)

d.h. ab einem gewissen Index N(ε) sind (mit Wahrscheinlichkeit 1)alle weiteren Mittelwerte X1+···+Xn

nentsprechend nahe bei µ

Im Vergleich dazu läßt das schwache Gesetz die Möglichkeit offen,dass immer wieder ein Mittelwert X1+···+Xn

nweiter von µ entfernt

ist, aber mit immer kleiner werdender Wahrscheinlichkeit

6

Page 217: Organisatorisches - univie.ac.at

6.3 Der zentrale Grenzwertsatz

X1, X2, . . . i.i.d. Folge von Zufallsvariablen,

E(Xi) = µ, Var (Xi) = σ2, dann gilt

P

(

X1+···+Xn−nµ

σ√

n≤ a

)

→ Φ(a) für n → ∞

In Worten: Die Summe einer großen Anzahl von unabhängigenidentisch verteilten Zufallsvariablen ist approximativ normalverteiltmit Mittelwert nµ und Varianz nσ

2

X1 + · · ·+Xn ∼ N (nµ, nσ2)

Ohne Beweis!

Literatur: Viele verschiedene Möglichkeiten diesen Satz zubeweisen

Spezialfall: Normalverteilungsapprox. der Binomialverteilung

7

Page 218: Organisatorisches - univie.ac.at

Annäherung an Normalverteilung

0 10 20 30 40 50 60 70 80 90 1000

0.5

1

1.5

2

2.5x 10

4

0 10 20 30 40 50 60 70 80 90 1000

0.5

1

1.5

2

2.5x 10

4

0 10 20 30 40 50 60 70 80 90 1000

0.5

1

1.5

2

2.5x 10

4

0 10 20 30 40 50 60 70 80 90 1000

0.5

1

1.5

2

2.5x 10

4

Verteilungen der (normierten) Summen∑

n

i=1Xi mit Xi gleichverteilt, für n = 1, 2

(oben) und n = 3, 10 (unten).

8

Page 219: Organisatorisches - univie.ac.at

Konvergenzbegriffe

I. Falls P (|Xn − a| ≥ ǫ) → 0 (n → ∞) für jedes ǫ > 0, sagt man,dass die Folge Xn von Zufallsvariablen in Wahrscheinlichkeitgegen die Zahl a konvergiert. Man schreibt dann Xn

p→ a. Das

schwache Gesetz der großen Zahlen besagt somit, dass

Xnp→ µ.

II. Falls die Verteilungsfunktionen von Xn gegen dieVerteilungsfunktion einer bestimmte Verteilung D konvergieren,spricht man von schwacher Konvergenz. Man schreibt dannXn

w→ D. Der zentrale Grenzwertsatz besagt somit, dass (unter

den angegebenen Voraussetzungen)

Xn − µ

σ√

n

w→ N (0, 1).

9

Download - Organisatorisches - univie.ac.at