tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de...

143
Material der Folien zur Vorlesung „Statistik für Ingenieure“ Wintersemester 2016/2017 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg (Sachsen), Institut für Stochastik 10. Februar 2017 (Hinweise und Bemerkungen bitte an: [email protected]) Inhaltsverzeichnis 1 Einführung 2 2 Grundlagen der Wahrscheinlichkeitsrechnung 3 2.1 Zufällige Ereignisse und Wahrscheinlichkeiten ............... 3 2.2 Klassische Wahrscheinlichkeitsdefinition (Laplace-Modell) ........ 6 2.3 Stochastische Unabhängigkeit ........................ 7 2.4 Bedingte Wahrscheinlichkeiten ........................ 8 3 Zufallsgrößen 11 3.1 Zufallsgrößen und ihre Verteilung ...................... 11 3.2 Charakteristische Größen von Verteilungen ................. 16 3.3 Wichtige diskrete Wahrscheinlichkeitsverteilungen ............. 20 3.3.1 Diskrete Gleichverteilung ....................... 20 3.3.2 Bernoulli-Verteilung ......................... 21 3.3.3 Binomialverteilung .......................... 21 3.3.4 Hypergeometrische Verteilung .................... 23 3.3.5 Geometrische Verteilung ....................... 25 3.3.6 Poissonverteilung ........................... 26 3.4 Wichtige stetige Verteilungen ........................ 28 3.4.1 Exponentialverteilung ........................ 28 3.4.2 Normalverteilung (Gauß-Verteilung) ................. 30 3.4.3 Stetige Gleichverteilung ....................... 35 3.4.4 Gammaverteilung ........................... 36 1

Transcript of tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de...

Page 1: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Material der Folien zur Vorlesung„Statistik für Ingenieure“Wintersemester 2016/2017

Prof. Dr. Hans-Jörg StarkloffTU Bergakademie Freiberg (Sachsen), Institut für Stochastik

10. Februar 2017

(Hinweise und Bemerkungen bitte an: [email protected])

Inhaltsverzeichnis1 Einführung 2

2 Grundlagen der Wahrscheinlichkeitsrechnung 32.1 Zufällige Ereignisse und Wahrscheinlichkeiten . . . . . . . . . . . . . . . 32.2 Klassische Wahrscheinlichkeitsdefinition (Laplace-Modell) . . . . . . . . 62.3 Stochastische Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . 72.4 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . 8

3 Zufallsgrößen 113.1 Zufallsgrößen und ihre Verteilung . . . . . . . . . . . . . . . . . . . . . . 113.2 Charakteristische Größen von Verteilungen . . . . . . . . . . . . . . . . . 163.3 Wichtige diskrete Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . 20

3.3.1 Diskrete Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . 203.3.2 Bernoulli-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 213.3.3 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 213.3.4 Hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . . 233.3.5 Geometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . 253.3.6 Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.4 Wichtige stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 283.4.1 Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . 283.4.2 Normalverteilung (Gauß-Verteilung) . . . . . . . . . . . . . . . . . 303.4.3 Stetige Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . 353.4.4 Gammaverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

1

Page 2: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

3.4.5 Weibullverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.4.6 Logarithmische Normalverteilung . . . . . . . . . . . . . . . . . . 383.4.7 Weitere stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . 39

3.5 Transformation von Zufallsgrößen . . . . . . . . . . . . . . . . . . . . . . 393.6 Zufallsvektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4 Deskriptive Statistik 464.1 Grundbegriffe der Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . 464.2 Grafiken und statistische Maßzahlen (Kenngrößen, Parameter) für Daten 56

4.2.1 Grafiken für univariate stetige Daten(a) Punktdiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.2.2 Grafiken für univariate diskrete Daten(a) Balkendiagramm . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.2.3 Kenngrößen und Parameter zur Beschreibung univariater Daten . 664.2.4 Weitere Grafiken für univariate stetige Daten . . . . . . . . . . . 774.2.5 Kenngrößen für kategorielle Daten . . . . . . . . . . . . . . . . . . 884.2.6 Grafiken, Kenngrößen für multivariate stetige Daten . . . . . . . . 884.2.7 Grafiken für multivariate diskrete Daten . . . . . . . . . . . . . . 954.2.8 Graphiken für gemischte multivariate Daten . . . . . . . . . . . . 98

5 Schließende Statistik 1015.1 Statistische Tests (Signifikanztests) . . . . . . . . . . . . . . . . . . . . . 101

5.1.1 Tests für eine Stichprobe mit stetiger Skala . . . . . . . . . . . . . 1055.1.2 Tests für eine gepaarte (verbundene) Stichprobe (stetige Skala) . . 1175.1.3 Tests für zwei oder mehr (unabhängige) Stichproben

(stetige Skala) . . . . . . . . . . . . . . . . . . . . . . . . . 1225.1.4 Weitere ausgewählte statistische Tests . . . . . . . . . . . . . . . 1355.1.5 b) Korrelations- und Abhängigkeitstests . . . . . . . . . . . . . . 1365.1.6 c) Pearson-Korrelationstest . . . . . . . . . . . . . . . . . . . . 1365.1.7 Bsp- Pearson-Korrelationstest . . . . . . . . . . . . . . . . . . 1375.1.8 Weitere Bemerkungen zu Tests . . . . . . . . . . . . . . . . . . . 141

2

Page 3: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

1 Einführung• Situationen, Beobachtungen, Messungen, Experimente, . . . , bei denen Ergebnis-

se nicht genau vorhergesagt werden können, aber diese Unsicherheit auch nichtvernachlässigt werden kann.

• Beispiele:

– Glücksspiele;

– Messung physikalischer Größen (zufällige Messungenauigkeiten);

– Vorhersage der Lebensdauer von Bauteilen, Geräten;

– Vorhersage von Wetter- oder Klimadaten;

– Vorhersage von Aktienkursen;

– Vorhersage von auszuzahlenden Beträgen bei Versicherungen.

• Kleinere oder größere Datenmengen, die sinnvoll ausgewertet werden sollten undauf deren Basis dann begründete Entscheidungen gefällt werden müssen.

Beispiel: Zeiten der störungsfreien Arbeit in Stunden zwischen aufeinanderfolgendenAusfällen der Klimaanlagen in Flugzeugen (Boing 720).

Quelle: Cox & Snell: Applied Statistics, Principles and Examples; entnommen ausProschan (1963).

1: 413; 14; 58; 37; 100; 65; 9; 169; 447; 184; 36; 201; 118; 34; 31; 18; 18; 67; 57; 62; 7;22; 34

2: 90; 10; 60; 186; 61; 49; 14; 24; 56; 20; 79; 84; 44; 59; 29; 118; 25; 156; 310; 76; 26;44; 23; 62; 130; 208; 70; 101; 208

3: 74; 57; 48; 29; 502; 12; 70; 21; 29; 386; 59; 27; 153; 26; 326...

8: 359; 9; 12; 270; 603; 3; 104; 2; 438

9: 487; 18; 100; 7; 98; 5; 85; 91; 43; 230; 3; 130

10: 102; 209; 14; 57; 54; 32; 67; 59; 134; 152; 27; 14; 230; 66; 61; 34

• Eine Möglichkeit (und gängige Praxis): Quantifizierung der Unsicherheiten mitstochastischen bzw. statistischen mathematischen Modellen und statistischen Be-rechnungen.

• Mathematische Disziplin: „Stochastik“ (von griech. στoχαστικóζ „jemand, derim Vermuten geschickt ist“).

• In dieser Vorlesung:

3

Page 4: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

– Elemente der Wahrscheinlichkeitsrechnung (zufällige Ereignisse, Wahrschein-lichkeiten, Zufallsgrößen, . . . );

– Elemente der Statistik (Datenanalyse, statistische Tests, . . . ).

• Wichtig: Regelmäßige aktive Teilnahme an Vorlesungen und Übungen und selbst-ständiges Lernen und Üben!(Modulbeschreibung: 45 h Präsenzzeit und 60 h Selbststudium.)

Organisatorisches

• Informationen zum Modul:http://www.mathe.tu-freiberg.de/stat-ing

2 Grundlagen der Wahrscheinlichkeitsrechnung

2.1 Zufällige Ereignisse und Wahrscheinlichkeiten

• Zufälliger Versuch (Zufallsexperiment, Zufallssituation): Vorgang unter genaufestgelegten Bedingungen, der (zumindest gedanklich) beliebig oft wiederholbarist und dessen Ausgang oder Ergebnis (innerhalb einer Menge möglicher Ergeb-nisse) ungewiß ist.

• Zufälliges Ereignis (kurz Ereignis): Teilmenge möglicher Ausgänge, nach Reali-sierung des zufälligen Versuches muss man entscheiden können, ob ein zufälligesEreignis eingetreten ist oder nicht.

• Bsp.:

Versuch EreignisWerfen eines Spielwürfels Werfen einer „6“

Kontrolle einer Warenlieferung 3 Ausschussteileauszuzahlende Versicherungsbeträge ≤ 10 000 e

• Bezeichnung der Ereignisse: A,B,A1, A2, Bi, . . ..(Wichtig: Bei Lösung von Aufgaben bzw. Modellierung genaue Definitionen derbetrachteten zufälligen Ereignisse !)

Operationen mit Ereignissen, besondere Ereignisse

Geg.: zufällige Ereignisse A,B,C,A1, A2, . . . zu einem Zufallsversuch.

• Zu A komplementäres (entgegengesetztes) Ereignis Ac(= ¬A = A

): tritt genau

dann ein, wenn A nicht eintritt.

• Vereinigung A ∪B : A oder B (oder beide) treten ein;analog: A1 ∪ A2 ∪ A3 ∪ . . . : mindestens eines der Ereignisse A1, A2, A3, . . . trittein.

4

Page 5: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Durchschnitt A ∩B : A und B treten (gemeinsam) ein;analog: A1 ∩ A2 ∩ A3 ∩ . . . : die Ereignisse A1, A2, A3, . . . treten gemeinsam (beieiner Realisierung des Zufallsversuchs) ein.

• Sicheres Ereignis Ω : tritt immer ein (auch Ergebnisraum genannt).

• Unmögliches Ereignis ∅ : tritt niemals ein.

• A und B sind unvereinbar (sind disjunkt, schließen einander aus) :sie können nicht gemeinsam eintreten, d.h. A ∩B = ∅ .

• Das Ereignis A zieht das Ereignis B nach sich, A ⊆ B :wenn A eintritt, dann tritt auch B ein.

Einige Rechenregeln für Ereignisse

• Das sichere Ereignis Ω kann als Menge der möglichen Versuchsergebnisse auf-gefasst werden, die einelementigen Teilmengen sind dann die Elementarereignisseω1, ω2, . . . .

• Rechenregeln wie in der Mengenlehre, Skizzen können helfen.

• Für alle Ereignisse A zu einem zufälligen Versuch gilt: A ⊆ Ω.

• A ∪B = B ∪ A , A ∩B = B ∩ A (Kommutativität).

• A ∪ (B ∪ C) = (A ∪B) ∪ C , A ∩ (B ∩ C) = (A ∩B) ∩ C (Assoziativität).

• A∪(B∩C) = (A∩B)∪(A∩C) , A∩(B∪C) = (A∪B)∩(A∪C) (Distributivität).

• A ∪ Ac = Ω, A ∩ Ac = ∅.

• Regeln von de Morgan: (analog auch für größere Anzahl)(A ∩B)c = Ac ∪Bc , (A ∪B)c = Ac ∩Bc .

Zerlegung (vollständiges Ereignissystem)

• Die zufälligen Ereignisse A1, A2, . . . , An bilden eine Zerlegung von Ω (bildenein vollständiges Ereignissystem), wenn bei jeder Realisierung des Zufallsversuchesgenau eines der Ereignisse A1, A2, . . . , An eintritt, d.h. die Ereignisse Ai sindpaarweise unvereinbar (Ai ∩ Aj = ∅, falls i 6= j) und es gilt

A1 ∪ A2 ∪ . . . ∪ An =n⋃i=1

Ai = Ω (Fallunterscheidung).

• Einfachster Fall: Ω = A ∪ Ac für ein zufälliges Ereignis A .

5

Page 6: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Übungsaufgabe

Die Arbeit eines Kraftwerkes werde durch drei unabhängig voneinander arbeitende Kon-trollsysteme (kurz „System“) überwacht, die jedoch auch einer gewissen Störanfälligkeitunterliegen. Es bezeichne Si das Ereignis, dass das i-te System störungsfrei arbeitet(i = 1, 2, 3).Drücken Sie folgende Ereignisse mit Hilfe der Ereignisse S1, S2 und S3 aus:

• A =„Alle Systeme arbeiten störungsfrei.“

• B =„Kein System arbeitet störungsfrei.“

• C =„Mindestens ein System arbeitet störungsfrei.“

• D =„Genau ein System arbeitet störungsfrei.“

• E =„Höchstens zwei Systeme sind gestört.“

Wahrscheinlichkeiten

• In einem stochastischen Modell wird jedem zufälligen Ereignis zu einem Zufalls-versuch eine Zahl zwischen 0 und 1 zugewiesen, die sogenannte Wahrscheinlichkeit(für das Eintreten des Ereignisses).

• Hintergrund: Eigenschaften der relativen Häufigkeiten

hn(A) =Hn(A)

n,

mit Hn(A) als absolute Häufigkeit des Eintretens des zufälligen Ereignisses Ain n unabhängigen Versuchswiederholungen.

• Für A ⊆ B ⊆ Ω gilt 0 ≤ hn(A) ≤ hn(B) ≤ hn(Ω) = 1 .

• Für A ∩B = ∅ gilt hn(A ∪B) = hn(A) + hn(B) .

• Erfahrungstatsache:Für n→∞ „konvergiert“ hn(A) oft gegen eine feste reelle Zahl (Stabilisierungder relativen Häufigkeiten).

Axiome von Kolmogorow

• Axiomatische Definition von Kolmogorow 1933.

• Bezeichnung: P(A) Wahrscheinlichkeit des Ereignisses A .

• Axiome:

1. 0 ≤ P(A) ≤ 1 ;

2. P(Ω) = 1 ;

6

Page 7: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

3. P(A1 ∪A2 ∪ . . .) = P(A1) + P(A2) + . . . , falls die Ereignisse Ai paarweiseunvereinbar sind, d.h. Ai ∩ Aj = ∅ (i 6= j).

• Bemerkung: Jede Zuweisung der Wahrscheinlichkeitswerte zu den zufälligenEreignissen zu einem Zufallsversuch, die diese Axiome erfüllt, ist aus mathemati-scher Sicht korrekt (unabhängig davon, ob sie die Realität gut beschreibt).

• Folgerungen:

P(A ∪B) = P(A) + P(B), falls A ∩B = ∅ (Additionssatz);P(A ∪B) = P(A) + P(B)−P(A ∩B) ;

P(Ac) = 1−P(A) ;

A ⊆ B ⇒ P(A) ≤ P(B) .

Beispielaufgabe

Für die Ereignisse A und B seien folgende Wahrscheinlichkeiten bekannt:P(A) = 0.25 , P(B) = 0.45 , P(A ∪B) = 0.5 .Berechnen Sie P (A ∩Bc) , P (Ac ∩Bc) und P ((A ∩Bc) ∪ (Ac ∩B)) !

2.2 Klassische Wahrscheinlichkeitsdefinition (Laplace-Modell)

• Gilt für Zufallsversuche mit

– endlich vielen möglichen Versuchsergebnissen (n elementare Versuchsausgän-ge oder Elementarereignisse),

– die alle gleichwahrscheinlich sind (keines wird bevorzugt, alle haben dieselbeChance einzutreten).

• Beispiele:

– Würfeln mit einem fairen oder gerechten Würfel,n = 6, Elementarereignisse sind 1, 2, 3, 4, 5, 6 .

– Zahlenlotto „6 aus 49 “ ,n = Anzahl der möglichen Tipps mit 6 aus 49 Zahlen.

• Aus den Axiomen für Wahrscheinlichkeiten folgt dann die einzige mögliche Defi-nition von Wahrscheinlichkeiten in dieser Situation(die sogenannte klassische Wahrscheinlichkeitsdefinition).

Klassische Wahrscheinlichkeitsdefinition

• Für jedes der n Elementarereignisse gilt unter obigen Bedingungen:

P(Elementarereignis) =1

n.

7

Page 8: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Für ein beliebiges Ereignis A gilt unter obigen Bedingungen:

P(A) =Anzahl der Elementarereignisse in A

nbzw.

P(A) =Anzahl der für A günstigen Fälle

Anzahl aller möglichen gleichwahrscheinlichen Fälle.

• Beispiel: Zweimaliges Würfeln mit einem fairen Würfel,A = „Augensumme mindestens 10 “ .

• Bei Wahrscheinlichkeitsberechnungen im Zusammenhang mit der klassischenWahrscheinlichkeitsdefinition werden oft kombinatorische Formeln genutzt.

2.3 Stochastische Unabhängigkeit

Definition:

• Zwei zufällige Ereignisse A und B zu einem Zufallsversuch heißen (stochastisch)unabhängig, wenn gilt

P(A ∩B) = P(A) ·P(B) .

• Zufällige Ereignisse A1, . . . , An zu einem Zufallsversuch heißen paarweise unab-hängig, falls alle Paare von ausgewählten Ereignissen unabhängig sind, d.h.

P(Ai ∩ Aj) = P(Ai) ·P(Aj) für alle i 6= j .

• Diese Ereignisse heißen in Gesamtheit oder total oder vollständig (stochastisch)unabhängig, falls eine entsprechende Formel für alle möglichen Auswahlen (nichtnur von Paaren) gilt, d.h. für alle2 ≤ k ≤ n, 1 ≤ i1 < . . . < ik ≤ n gilt

P(Ai1 ∩ . . . ∩ Aik) = P(Ai1) · . . . ·P(Aik) .

Beispiel und Eigenschaften unabhängiger Ereignisse

• Beispiel: Zweifacher Münzwurf mit symmetrischer MünzeA = „1.Wurf Zahl“, B = „2.Wurf Zahl“,

P(A) =1

2, P(B) =

1

2, P(A ∩B) =

1

4=

1

2· 1

2.

• Satz A und B seien unabhängige Ereignisse zu einem Zufallsversuch. Dannsind auch die zufälligen Ereignisse A und das Komplement von B, also Bc,stochastisch unabhängig. Ebenso sind in diesem Fall Ac und B sowie auch Ac

und Bc jeweils stochastisch unabhängige Ereignisse.

• Aus der paarweisen Unabhängigkeit der Ereignisse A1, . . . , An folgt im Allgemei-nen nicht deren totale Unabhängigkeit.

• Die Unabhängigkeit von Ereignissen (im Allg. die totale) wird der Einfachheithalber häufig vorausgesetzt, gezwungenermaßen oft auch dann, wenn sie sachlichschwer begründbar ist.

8

Page 9: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Anwendung in Zuverlässigkeitstheorie

Betrachten Serien- (Reihen-) und Parallelsysteme von Elementen (Bauteilen, Teilsyste-men etc.), die vollständig unabhängig voneinander funktionstüchtig sind oder ausfallen.

• 2 Elemente E1, E2 , Fi = „Element Ei funktioniert“ ,P(Fi) = pi , Fi stochastisch unabhängig (i = 1, 2) .

• Das Seriensystem funktioniert, wenn sowohl E1 als auch E2 funktionieren,d.h. der Ausfall bereits eines Elements zum Systemausfall führt:

P(F1 ∩ F2) = P(F1) ·P(F2) = p1 · p2 .

• Das Parallelsystem funktioniert, wenn E1 oder E2 oder beide Elemente funk-tionieren (mindestens ein Element funktioniert):

P(F1 ∪ F2) = 1−P (F1c ∩ F2

c)

= 1− (1− p1) · (1− p2) = p1 + p2 − p1 · p2 .

Redundante Systeme

• Seriensysteme aus vielen Elementen erfordern oft eine sehr hohe Funktionswahr-scheinlichkeit der Arbeitselemente, die meist nicht realisierbar ist. Deshalb werdenReserveelemente eingebaut.

• Das entstehende System ist dann kein Seriensystem mehr und ist strukturell red-undant (lateinisch: redundantia = Überfülle).

• Es gibt 3 Arten der strukturellen Redundanz:

– Kalte Redundanz (unbelastete Redundanz oder Reserve):Im Reservezustand sind die Elemente keinerlei Beanspruchungen ausgesetzt,können also nicht ausfallen.

– Warme Redundanz (erleichterte Redundanz oder Reserve):Die Reserveelemente sind geringeren Beanspruchungen ausgesetzt, die Aus-fallwahrscheinlichkeit ist geringer als die der Arbeitselemente.

– Heiße Redundanz (belastete Redundanz oder Reserve):Die Reserveelemente sind den gleichen Beanspruchungen ausgesetzt wie dieArbeitselemente, besitzen also auch entsprechende Ausfallwahrscheinlichkei-ten.

2.4 Bedingte Wahrscheinlichkeiten

• Häufig ist es nützlich, Bedingungen zu berücksichtigen, welche die Zufälligkeiteinschränken.

• Beispiel: Zufälliges Ziehen einer Kugel aus einer Urne

9

Page 10: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

– Insgesamt 11 weiße und 6 schwarze Kugeln;

– von den 17 Kugeln sind 8 Kugeln (6 weiße und 2 schwarze) markiert;

– die restlichen 9 Kugeln (5 weiße und 4 schwarze) sind unmarkiert.

– Ereignis S = „gezogene Kugel ist schwarz“ ;– Ereignis M = „gezogene Kugel ist markiert“ ;– Ereignis U = „gezogene Kugel ist unmarkiert“ .

• Ohne Bedingung: P(S) = 617, P(S ∩M) = 2

17, P(S ∩ U) = 4

17.

• Einschränkung auf markierte Kugeln:P(S|M) = 2

8, P(M) = 8

17, d.h. P(S|M) = P(S∩M)

P(M).

• Einschränkung auf unmarkierte Kugeln:P(S|U) = 4

9, P(U) = 9

17, d.h. P(S|U) = P(S∩U)

P(U).

Allgemeine Definition bedingter Wahrscheinlichkeiten

• Bedingte Wahrscheinlichkeit von A unter der Bedingung B:

P(A|B) =P(A ∩B)

P(B), falls P(B) 6= 0 .

• Wichtig: Im Allgemeinen gilt P(A|B) 6= P(B|A) !

• Bei fester Bedingung B kann man wie mit (unbedingten) Wahrscheinlichkeitenrechnen, z.B. P(Ac|B) = 1−P(A|B) .

• Sind zwei zufällige Ereignisse A und B stochastisch unabhängig, dann gelten (fallsP(B) > 0 bzw. P(A) > 0)

P(A|B) = P(A) bzw. P(B|A) = P(B) ,

d.h. die bedingten Wahrscheinlichkeiten sind gleich den unbedingten Wahrschein-lichkeiten der beiden Ereignisse. Entsprechende Formeln gelten auch für mehr als2 in Gesamtheit unabhängige Ereignisse.

Multiplikationsregeln

• Multiplikationsregel: P(A ∩B) = P(A|B) ·P(B) .

• Erweiterte Multiplikationsregel: Sind A1, . . . , An zufällige Ereignisse mitP(A1 ∩ . . . ∩ An−1) > 0 , dann gilt

P(A1 ∩ A2 ∩ . . . ∩ An) = P(A1) ·P(A2|A1) ·P(A3|A1 ∩ A2)·. . . ·P(An|A1 ∩ A2 ∩ . . . ∩ An−1) .

10

Page 11: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Übungsbeispiel: In einer Urne befinden sich 7 rote und 3 schwarze Kugeln. Eswerden nacheinander 4 Kugeln zufällig ohne Zurücklegen entnommen.Wie groß ist die Wahrscheinlichkeit für das Ereignis A , dass alle 4 gezogenenKugeln rot sind?

Formel der totalen Wahrscheinlichkeit

• Berechnung der totalen (unbedingten) Wahrscheinlichkeit aus den bedingtenWahr-scheinlichkeiten als gewichtetes Mittel !

• Sei B1, . . . , Bn eine Zerlegung von Ω mit P(Bi) 6= 0, i = 1, . . . , n . Dann giltdie Formel der totalen Wahrscheinlichkeit: für ein beliebiges zufälliges EreignisA ⊆ Ω ist

P(A) =n∑i=1

P(A|Bi)P(Bi) .

• Bei Zerlegung Ω = B ∪Bc :

P(A) = P(A|B)P(B) + P(A|Bc)P(Bc) .

• Im Beispiel mit dem Ziehen einer Kugel :

P(S) = P(S|M) ·P(M) + P(S|U) ·P(U) ,

6

17=

2

8· 8

17+

4

9· 9

17.

Übungsaufgabe

Drei Zulieferer liefern eine Komponente zur Produktion eines Erzeugnisses im Anzahl-verhältnis 5 : 3 : 2.Die Fehlerquote betrage bei Komponenten der 1. Zulieferfirma 7%, bei Komponentender 2. Zulieferfirma 4% und bei Komponenten der 3. Zulieferfirma 2%.Wie groß ist die Wahrscheinlichkeit dafür, dass eine aus der Gesamtliefermenge reinzufällig ausgewählte Komponente fehlerhaft ist ?

Formel von Bayes

• Unter den Bedingungen des Satzes der totalen Wahrscheinlichkeit und unter derVoraussetzung P(A) > 0 gilt die Formel von Bayes

P(Bi|A) =P(A|Bi)P(Bi)

P(A)=

P(A|Bi)P(Bi)n∑j=1

P(A|Bj)P(Bj).

• P(Bi) heißen auch a-priori-Wahrscheinlichkeiten.

• P(Bi|A) heißen auch a-posteriori-Wahrscheinlichkeiten,sie liefern eine Korrektur der ursprünglichen Wahrscheinlichkeiten, wenn bekanntist, dass das zufällige Ereignis A eingetreten ist oder dies angenommen wird.

11

Page 12: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Übungsaufgabe

Für die Situation der obigen Übungsaufgabe mit den 3 Zulieferbetrieben wurde eineKomponente aus der Gesamtzuliefermenge rein zufällig ausgewählt und überprüft.

Dabei wurde festgestellt, dass die Komponente defekt ist.

Mit welcher Wahrscheinlichkeit stammte diese Komponente von der 1. Zulieferfirma ?

Beispiel Diagnoseverfahren

• Diagnoseverfahren liefern im Allg. nicht 100%ig richtige Ergebnisse:• Ein Fehler wird nicht erkannt.• Ein Fehler wird fälschlicherweise angezeigt.

• Resultierende Frage:Wie groß ist die Wahrscheinlichkeit, dass ein zufällig ausgewählter und als fehler-haft angezeigter Gegenstand tatsächlich fehlerhaft ist ?

• Beispiel:F = „Gegenstand ist tatsächlich fehlerhaft“, P(F ) = 0.001 .A = „Gegenstand wird als fehlerhaft angezeigt“.Wahrscheinlichkeit für eine Fehlererkennung: P(A|F ) = 0.9 .Wahrscheinlichkeit für die Identifizierung eines einwandfreien Gegenstandes: P(Ac|F c) =0.99 .Ges.: P(F |A) .

3 Zufallsgrößen

3.1 Zufallsgrößen und ihre Verteilung

• Häufig sind Zahlenwerte Ergebnisse von Zufallsversuchen.

• Oft ist es auch in anderen Fällen für eine mathematische Behandlung günstig, denVersuchsergebnissen Zahlen zuzuordnen (etwa 1 für „Erfolg“ und 0 für „Misser-folg“).

⇒ Beschreibung von Ergebnissen eines Zufallsversuches durch eine Zufallsgröße X(oder mehrere Zufallsgrößen X1, X2, . . . , Xn) .

• Beispiele:

– Zufällige Zeit X (Lebensdauer, Ausfallzeiten,. . . )mit möglichen Werten x ∈ R : x ≥ 0 .

– Messergebnis X (Länge, Kraft, Temperatur, . . . ) mit entsprechenden Zah-lenwerten (ohne Maßeinheit) als möglichen Werten.

12

Page 13: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

– Zufällige Anzahl X (von Schäden, Konkursen,. . . )mit möglichen Werten 0, 1, 2, . . ..

– Augenzahl X beim Würfeln mit möglichen Werten 1, 2, 3, 4, 5, 6 .

Mathematische Definition einer Zufallsgröße

• Mathematische Definition einer Zufallsgröße:Eine Abbildung (Funktion) X : Ω→ R heißt Zufallsgröße (reelle Zufallsvariable),falls für jedes Intervall (a, b) ⊂ R, a < b, die Menge ω ∈ Ω : a < X(ω) <b ein zufälliges Ereignis ist („Messbarkeitsbedingung“; dabei wird ein Systemvon zufälligen Ereignissen mit bestimmten natürlichen Eigenschaften als gegebenvorausgesetzt).

• Es gilt:Sind X, Y Zufallsgrößen zu einem Zufallsversuch, dann sind auch X+Y , X−Y ,X ·Y , X/Y , falls Y 6= 0, a ·X mit a ∈ R und ähnliche durch mathematische Ope-rationen gebildete Größen Zufallsgrößen (d.h. die Messbarkeitsbedingung bleibterhalten).

Grundtypen von Zufallsgrößen

• Für Zufallsgrößen interessieren vor allem Wahrscheinlichkeiten der Art P(X ≤ b),P(a < X < b), P(a ≤ X ≤ b) oder ähnliche.

• Diese bilden die Verteilung oder Wahrscheinlichkeitsverteilung der Zufallsgröße.

• Abgeleitete Kenngrößen, wie zum Beispiel Erwartungswert oder Varianz liefernebenfalls wichtige Informationen.

• Zwei wichtige Grundtypen von Zufallsgrößen (mit zum Teil unterschiedlichen ma-thematischen Hilfsmitteln bei Berechnungen oder Untersuchungen) sind:

– Zufallsgrößen mit diskreter Verteilung(diskrete Zufallsgrößen) und

– Zufallsgrößen mit (absolut) stetiger Verteilung(stetige Zufallsgrößen) .

Zufallsgrößen mit diskreter Verteilung

• Definition: Eine Zufallsgröße X heißt diskret, wenn sie nur endlich viele oderabzählbar unendlich viele mögliche Werte x1, x2, . . . annehmen kann.

• Die Zuordnung pi := P(X = xi), i = 1, 2, . . ., heißt Wahrscheinlichkeitsfunktionder diskreten Zufallsgröße.

• Sie wird meistens durch eine Verteilungstabelle gegeben:

13

Page 14: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Werte xi x1 x2 x3 . . .Wahrscheinlichkeiten pi p1 p2 p3 . . .

• Die Bestimmung der Wahrscheinlichkeiten pi erfolgt durch Berechnung aus Grun-dannahmen (typische Verteilungen) oder experimentell mittels statistischer Me-thoden.

Wahrscheinlichkeiten bei diskreten Verteilungen

• Beispiel: Gerechtes Würfeln, Zufallsgröße X : Augenzahl.

xi 1 2 3 4 5 6pi

16

16

16

16

16

16

• Für die Wahrscheinlichkeiten pi gelten :

– 0 ≤ pi ≤ 1 ;

–∑i

pi = 1 .

• Für beliebige Mengen I ⊆ R gilt P(X ∈ I) =∑xi∈I

pi ,

z.B. für reelle Zahlen a < b P(a < X < b) =∑

a<xi<b

pi .

• Beispiel: Zweifacher Würfelwurf, Zufallsgröße X : Augensumme,Ges.: P(X ≤ 4) .

Zufallsgrößen mit stetiger Verteilung

• Definition: Eine Zufallsgröße X heißt stetig, wenn es eine integrierbare reelleFunktion fX : R→ R gibt, so dass

P(a ≤ X ≤ b) =

∫ b

a

fX(x) dx

für beliebige reelle Zahlen a ≤ b gilt.

• Die Funktion fX heißt Dichtefunktion (oder Verteilungsdichte) der ZufallsgrößeX und besitzt die Eigenschaften:

1. fX(x) ≥ 0 für alle x ∈ R ;

2.∫ ∞−∞

fX(x) dx = 1 .

• Bemerkung: Eine Dichtefunktion muss nicht unbedingt stetig oder beschränktsein !

• Eine Dichtefunktion gibt die Verteilung der „Wahrscheinlichkeitsmasse“ auf derreellen Achse an.

14

Page 15: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Beispiel Zufallsgröße mit stetiger Verteilung

• Beispiel: Rein zufällige Auswahl eines Punktes (Wertes) X aus dem Intervall[0, 1] (auf dem Intervall [0, 1] gleichverteilte oder gleichmäßig verteilte Zufalls-größe).

• Für 0 ≤ a < b ≤ 1 gilt P(a ≤ X ≤ b) = b− a .

• Die Dichtefunktion ist fX(x) =

1 , 0 ≤ x ≤ 1 ,0 , sonst.

Verteilungsfunktion einer Zufallsgröße

• Die Verteilungen von beliebigen Zufallsgrößen können vollständig durch die Ver-teilungsfunktion der jeweiligen Zufallsgröße beschrieben werden.

• Definition: Die Funktion FX einer reellen Variablen mit reellen Funktions-werten, die durch

FX(x) = P(X < x) = P(−∞ < X < x) , x ∈ R ,

definiert wird, heißt Verteilungsfunktion der Zufallsgröße X .

• Der Funktionswert ist für jede reelle Zahl x die Wahrscheinlichkeit dafür, dassdie Zufallsgröße X einen Wert annimmt, der kleiner als x ist.

• Bemerkung: Mitunter wird die Verteilungsfunktion einer Zufallsgröße X auchdurch FX(x) = P(X ≤ x) , x ∈ R , definiert, insbesondere in der Zuverlässig-keitstheorie.

Verteilungsfunktion einer diskreten Zufallsgröße

• Für übliche diskrete Zufallsgrößen ist die Verteilungsfunktion eine Treppenfunkti-on mit Sprüngen der Höhe pi an den Werten xi .

15

Page 16: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Beispiel: Verteilungsfunktion FX der Zufallsgröße X : Augenzahl beim Wür-feln mit einem gerechten Würfel .

Verteilungsfunktion einer stetigen Zufallsgröße

• Für stetige Zufallsgrößen ist die Verteilungsfunktion eine in allen Punkten stetigeFunktion.

• Beispiel: Verteilungsfunktion FX einer Zufallsgröße X , die auf [0, 1] gleich-verteilt ist.

Allgemeine Eigenschaften von Verteilungsfunktionen

• Eine Verteilungsfunktion FX ist monoton nicht fallend.

• Es gilt limx→−∞

FX(x) = 0 .

16

Page 17: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Es gilt limx→+∞

FX(x) = 1 .

• Es gilt für beliebige reelle Zahlen a < b :

P(a ≤ X < b) = FX(b)− FX(a) .

• Für stetige Zufallsgrößen gelten

P(a ≤ X < b) = P(a < X < b) = P(a < X ≤ b) = P(a ≤ X ≤ b) .

• Außerdem gelten für stetige Verteilungen

FX(x) =

∫ x

−∞fX(t) dt, x ∈ R und fX(x) = F ′X(x)

an den Stellen x ∈ R, in denen die Ableitung existiert.

3.2 Charakteristische Größen von Verteilungen

• Die Gesamtinformation, die mit einer Wahrscheinlichkeitsverteilung gegeben wird(oder gegeben werden muss) ist häufig zu umfangreich.

• Deshalb nutzt man Kenngrößen, die in praktischen Situationen gut zu nutzen sind.

• Die beiden wichtigsten Gruppen von Kenngrößen sind die der Lageparameter undder Streuungsparameter.

• Die am häufigsten genutzte Kenngröße ist der Erwartungswert EX einer Zufalls-größe X (auch Mittelwert der Zufallsgröße genannt).

• Der Erwartungswert ist ein Lageparameter, eine (nichtzufällige) reelle Zahl undbeschreibt die Lage des Schwerpunkts der Wahrscheinlichkeitsmasse.

Definition Erwartungswert einer Zufallsgröße

• Definition: Für eine diskrete Zufallsgröße X mit möglichenWerten x1, x2, . . .und zugehörigen Wahrscheinlichkeiten p1 = P(X = x1), p2 = P(X = x2), . . . wirdder Erwartungswert definiert durch

EX =∑i

xipi .

Für eine stetige Zufallsgröße X mit der Dichtefunktion fX wird der Erwar-tungswert definiert durch

EX =

∫ ∞−∞

x · fX(x) dx .

• Beispiele: Zufallsgrößen

– X1 Augenzahl beim Würfeln mit einem gerechten Würfel.– X2 gleichmäßig verteilt auf dem Intervall [0, 1].

17

Page 18: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Beispiele: Erwartungswert einer Zufallsgröße

X1 Augenzahl beim Würfeln X2 gleichverteilt auf [0, 1]Einzelwahrscheinlichkeiten Dichtefunktion

und Erwartungswert und Erwartungswert

Eigenschaften von Erwartungswerten

• Nicht jede Zufallsgröße besitzt einen Erwartungswert.

• Linearitätseigenschaft von Erwartungswerten:für Zufallsgrößen X, Y und reelle Zahlen a, b gelten

E(a+ bX) = a+ bEX ;

E(X + Y ) = EX + EY .

• Ist g : R→ R eine (z.B. stetige) Funktion und X eine Zufallsgröße, dann kannman den Erwartungswert der Zufallsgröße Y = g(X) wie folgt berechnen, ohneerst die Verteilung von Y zu bestimmen:

EY = Eg(X) =∑i

g(xi)pi für diskrete ZG X ;

EY = Eg(X) =

∫ ∞−∞

g(x)fX(x) dx für stetige ZG X .

Varianz und Standardabweichung einer Zufallsgröße (ZG)

• Die wichtigste Kenngröße für die Variabilität von Zufallsgrößen ist die Varianz(auch Streuung oder Dispersion) der Zufallsgröße.

• Definition: Die Varianz VarX der Zufallsgröße X ist die nichtnegative reelleZahl

VarX = E (X − EX)2

=

∑i

(xi − EX)2 pi, diskrete ZG ;

∞∫−∞

(x− EX)2 fX(x) dx , stetige ZG .

18

Page 19: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Die Varianz, falls sie existiert, gibt die erwartete quadratische Abweichung derZufallsgröße von ihrem Erwartungswert an.

• Definition: Die Standardabweichung σX der Zufallsgröße X ist die positiveQuadratwurzel aus der Varianz der Zufallsgröße:

σX =√VarX .

Eigenschaften von Varianzen und Standardabweichungen

• Varianz und Standardabweichung sind Streuungsparameter.

• Die Varianz lässt sich meistens bequemer mit Hilfe der Formel

VarX = E(X2)− (EX)2

berechnen.

• Ist a eine reelle Zahl und X eine Zufallsgröße, dann gelten

– Var(aX) = a2VarX,

– Var(a+X) = VarX,

– σ(aX) = |a|σX ,– σ(a+X) = σX .

• Es gilt genau dann VarX = σX = 0, wenn es eine reelle Zahl x0 gibt, so dassP(X = x0) = 1 gilt.Die Zufallsgröße X heißt dann einpunktverteilt.

Beispielberechnung Varianzen

• ZG X1 : Augenzahl beim Würfeln mit einem gerechten Würfel.

EX2 =12

6+

22

6+

32

6+

42

6+

52

6+

62

6=

91

6

VarX =91

6−(

7

2

)2

=35

12= 2.917 .

• ZG X2 : gleichmäßig verteilt auf dem Intervall [0, 1] .

EX2 =

∫ 1

0

x2 · 1 dx =1

3

VarX =1

3−(

1

2

)2

=1

12= 0.0833 .

19

Page 20: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Variationskoeffizient

• Definition: Für eine Zufallsgröße X mit EX > 0 wird der Variationskoeffi-zient VX definiert durch

VX =σXEX

.

• Mit dem Variationskoeffizienten wird die Streuung der möglichen Werte zum mitt-leren Wert (Erwartungswert) in Beziehung gesetzt.

• Der Variationskoeffizient ist einheitenunabhängig und hilft er beim Vergleich derStärke der zufälligen Schwankungen der Werte von unterschiedlichen Zufallsvaria-blen, insbesondere wenn diese in unterschiedlichen Einheiten gemessen wurden.

• Der Variationskoeffizient kann für solche Zufallsgrößen verwendet werden, bei de-nen die Quotientenbildung der möglichen Werte auch inhaltlich sinnvoll ist.

Quantile einer stetigen Zufallsgröße

• Für 0 < q < 1 heißt die reelle Zahl xq ein q−Quantil der stetigen ZufallsgrößeX, wenn X Werte links von xq mit einer Wahrscheinlichkeit q annimmt, d.h.xq ist eine Lösung der Gleichung∫ xq

−∞fX(x) dx = q bzw. FX(xq) = q .

• q−Quantile können auch für diskrete und andere Zufallsgrößen betrachtet werden.

• Wichtige Quantile sind:

– das 0.5–Quantil, es heißt Median von X ;

– das 0.25– bzw. 0.75–Quantil, dies sind die sogenannten Viertelquantile oderQuartile von X (das untere bzw. das obere) ;

– die α− bzw. (1− α)−Quantile für kleine Werte α , sie spielen bei statisti-schen Fragen eine große Rolle.

Beispiel Exponentialverteilung

Eine Zufallsgröße X heißt exponentialverteilt mit Parameter λ > 0 , falls für dieVerteilungsfunktion FX bzw. die Verteilungsdichte fX gilt:

FX(x) =

0 , x ≤ 0 ,1− exp(−λx) , x > 0 ,

fX(x) =

0 , x ≤ 0 ,λ exp(−λx) , x > 0 .

20

Page 21: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Verteilungsfunktion (λ = 2) Dichtefunktion (λ = 2)

Quantile für Exponentialverteilung

• Es sei X exponentialverteilt mit Parameter λ = 2, d.h.

FX(x) = P(X < x) =

0 , x ≤ 0 ,1− exp(−2x) , x > 0 .

• Dann gilt für das q−Quantil xq (mit 0 < q < 1) :

FX(xq) = 1− exp(−2xq) = q , also xq = −1

2ln (1− q) .

q xq0.25 0.1440.5 0.3470.75 0.6930.95 1.498

Verteilungsfunktion Dichtefunktion

3.3 Wichtige diskrete Wahrscheinlichkeitsverteilungen

3.3.1 Diskrete Gleichverteilung

• Zufallsgröße X mit endlich vielen möglichen Werten x1, x2, . . . , xn (xi 6= xj, i 6=j) .

• Wahrscheinlichkeitsfunktion:

pi = P(X = xi) =1

n, i = 1, 2, . . . , n .

• Im Spezialfall x1 = 1 , x2 = 2 , . . . , xn = n gelten

EX =n+ 1

2und VarX =

n2 − 1

12.

21

Page 22: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Anwendung: Laplace-Experiment.

• Bezeichnung: X ∼ U(x1, x2, . . . , xn) .

3.3.2 Bernoulli-Verteilung

• Parameter: p ∈ [0, 1] .

• Zufallsgröße X mit 2 möglichen Werten x1 = 1 , x2 = 0 .

• Wahrscheinlichkeitsfunktion: P(X = 1) = p , P(X = 0) = 1− p .

• Kenngrößen: EX = p und VarX = p(1− p) .

• Bezeichnung: X ∼ B(p) .

• Anwendung: Bernoulli-Experiment:

– Experiment mit zwei möglichen Versuchsausgängen, die durch die EreignisseA bzw. Ac beschrieben werden.

– Das Ereignis A tritt mit einer Wahrscheinlichkeit p = P(A) ein.

– Die Zufallsgröße X wird dann wie folgt definiert X(ω) =

1 , wenn ω ∈ A ;

0 , wenn ω 6∈ A .

3.3.3 Binomialverteilung

• Parameter: n ∈ N , 0 ≤ p ≤ 1 .

• Zufallsgröße X mit möglichen Werten x0 = 0, x1 = 1, . . . , xn = n .

• Wahrscheinlichkeitsfunktion:

pi = P(X = i) =

(n

i

)pi(1− p)n−i , i = 0, 1, . . . , n .

• Kenngrößen: EX = np und VarX = np(1− p) .

• Bezeichnung: X ∼ Bin(n, p) .

• Eigenschaften:

– Bin(1, p) = B(p) ;

– X1 ∼ Bin(n1, p) , X2 ∼ Bin(n2, p) , unabhängig⇒ X1 +X2 ∼ Bin(n1 + n2, p) ;

– Insbesondere X1 ∼ B(p) , . . . , Xn ∼ B(p) , unabhängig⇒ X1 + . . .+Xn ∼ Bin(n, p) .

22

Page 23: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Wahrscheinlichkeitsfunktionen von Binomialverteilungen

Typische Situation für Binomialverteilung

• Typische Situation:

– Der Zufallsversuch besteht aus n unabhängigen und gleichartigen Teil-versuchen.

– Bei jedem Teilversuch kann ein bestimmtes Ereignis mit einer Wahrschein-lichkeit p eintreten oder (mit Wahrscheinlichkeit 1− p) nicht.

– Mit der Zufallsgröße X zählt man die Anzahl der Teilversuche, bei denendas interessierende Ereignis eingetreten ist.

– X ist also die zufällige Anzahl der eingetretenen Ereignisse unter obigenBedingungen.

• Typische Anwendung:Stichprobenentnahme mit Zurücklegen in der Qualitätskontrolle(X = Anzahl von Ausschussteilen in einer Stichprobe).

Beispielaufgabe Binomialverteilung

• Ein idealer Würfel wird 20 mal geworfen. Wie groß ist die Wahrscheinlichkeitdafür, dass mindestens zwei mal eine Sechs geworfen wird ?

• Zufallsgröße X = „Anzahl der geworfenen Sechsen bei 20 Würfen dieses Würfels“.

23

Page 24: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Die Zufallsgröße X ist binomialverteilt.

• Die Wahrscheinlichkeit für das Werfen einer Sechs bei einem Würfelwurf beträgt1/6 , dies ist der Parameter p .

• Der Parameter n beschreibt die Anzahl der Wiederholungen des Einzelversuchs,hier also n = 20 .

• Gesucht ist P(X ≥ 2) .

3.3.4 Hypergeometrische Verteilung

• Parameter: N,M, n ∈ N , M ≤ N , n ≤ N .

• Zufallsgröße X mit möglichen Werten xk = k ∈ N0 , mit max0, n−(N−M) ≤k ≤ minM,n .

• Wahrscheinlichkeitsfunktion:

pk = P(X = k) =

(Mk

)·(N−Mn−k

)(Nn

) ,

max0, n− (N −M) ≤ k ≤ minM,n .

• Kenngrößen:

EX = n · MN

; VarX = n · MN· N −M

N· N − nN − 1

.

• Bezeichnung: X ∼ Hyp(N,M, n) .

Wahrscheinlichkeitsfunktionen hypergeom. Verteilungen

24

Page 25: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Typische Situation für die hypergeometrische Verteilung

• Typische Situation:

– Unter N Dingen befinden sich M ausgezeichnete;

– von den N Dingen werden n zufällig ausgewählt (ohne Zurücklegen);

– die Zufallsgröße X repräsentiert die zufällige Anzahl der ausgezeichnetenDinge unter den n ausgewählten.

• Anwendungsbeispiele:

– Stichprobennahme ohne Zurücklegen, z.B. bei der Qualitätskontrolle;

– Anzahl der richtigen Zahlen bei einem Tipp im Lottospiel;

• Ist das Verhältnisn

Nsehr klein (< 0.05) , so gilt

Hyp(N,M, n) ≈ Bin

(n,M

N

).

Beispielaufgabe hypergeometrische Verteilung

• Ein Kunde übernimmt alle 50 gelieferten Schaltkreise, wenn in einer Stichprobevon 10 Schaltkreisen höchstens ein nicht voll funktionsfähiger Schaltkreis enthaltenist. Ansonsten wird die gesamte Lieferung verworfen.

• Man berechne die Wahrscheinlichkeit dafür, dass die 50 Schaltkreise

a) abgenommen werden, obwohl diese 12 nicht voll funktionsfähige Schaltkreiseenthalten,

b) zurückgewiesen werden, obwohl nur 3 nicht voll funktionsfähige Schaltkreiseenthalten sind !

• Zufallsgröße X. . . „Anzahl der nicht voll funktionsfähigen Schaltkreise in der Stich-probe“.

25

Page 26: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Die Zufallsgröße X ist hypergeometrisch verteilt.

• N = 50 , n = 10 , M = 12 bzw. M = 3 .

• Ges. P(X ≤ 1) bzw. P(X > 1) .

3.3.5 Geometrische Verteilung

• Parameter: 0 < p < 1 .

• Zufallsgröße X mit möglichen Werten k = 1, 2, 3, . . . .

• Wahrscheinlichkeitsfunktion:

pk = P(X = k) = p(1− p)k−1 , k = 1, 2, 3, . . . .

• Kenngrößen: EX = 1p

und VarX = 1−pp2

.

• Bezeichnung: X ∼ Geo(p) .

• Anwendung:

– Gleichartige unabhängige Teilversuche, bei denen jeweils „Erfolg“ mit Wahr-scheinlichkeit p oder „Misserfolg“ mit Wahrscheinlichkeit 1 − p eintretenkönnen, werden so lange durchgeführt, bis zum ersten Mal „Erfolg“ eingetre-ten ist.

– Der Wert von X ist gleich der Anzahl der durchgeführten Teilversuche.

Geometrische Verteilungen, Beispielaufgabe

Beispielaufgabe:

• Ein Relais falle mit einer Wahrscheinlichkeit von 0.0001 bei einem Schaltvorgangzufällig aus, wobei diese Ausfälle unabhängig voneiander eintreten sollen.

• Wie groß ist die Wahrscheinlichkeit dafür, dass der erste Ausfall nicht vor demtausendsten Schaltvorgang passiert ?

26

Page 27: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Verallgemeinerungen: negative Binomialverteilung

• Werden in derselben Situation die Teilversuche solange wiederholt, bis der r−te„Erfolg“ eingetreten ist (r ∈ N), besitzt die zufällige Anzahl X der durchgeführ-ten Teilversuche eine negative Binomialverteilung mit den Parametern r und p.Dann gelten

P(X = k) =

(k − 1

r − 1

)pr(1− p)k−r, k = r, r + 1, . . . ,

EX =r

pund VarX =

r(1− p)p2

.

• Bei anderen Varianten der geometrischen und der negativen Binomialverteilungwird die Anzahl der Misserfolge (Fehlversuche) und nicht die Anzahl der Teilver-suche als Zufallgröße betrachtet. Darauf sollte man bei Formeln aus der Literaturbzw. bei Nutzung von Statistikprogrammen achten.

3.3.6 Poissonverteilung

• Parameter: λ > 0 (die „Intensität“ der Poissonverteilung).

• Zufallsgröße X mit möglichen Werten k = 0, 1, 2, . . . .

• Wahrscheinlichkeitsfunktion:

pk = P(X = k) =λk

k!e−λ , k = 0, 1, 2, . . . .

• Kenngrößen: EX = λ und VarX = λ .

• Bezeichnung: X ∼ Poi(λ) .

• Eigenschaft: X1 ∼ Poi(λ1) , X2 ∼ Poi(λ2) , unabhängig⇒ X1 +X2 ∼ Poi(λ1 + λ2) .

Wahrscheinlichkeitsfunktionen von Poissonverteilungen

27

Page 28: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Anwendungen der Poissonverteilung

• Typische Anwendung: Poissonverteilte Zufallsgrößen beschreiben häufig die An-zahl von bestimmten Ereignissen („Poissonereignisse“, z.B. Schadensfälle) in festenZeitintervallen, wenn die Ereignisse zu zufälligen Zeitpunkten eintreten (auch ana-log an zufälligen Orten oder ähnliches) und folgendes gilt:

– Die Wahrscheinlichkeit für das Eintreten einer bestimmten Anzahl dieserPoissonereignisse hängt nur von der Länge des betrachteten Zeitintervallsab, nicht wann dieses beginnt oder endet (Stationarität).

– Die zufälligen Anzahlen der eintretenden Poissonereignisse sind für sich nichtüberschneidende Zeitintervalle stochastisch unabhängig (Nachwirkungsfrei-heit).

– Die betrachteten Poissonereignisse treten einzeln ein, nicht gleichzeitig, diezufälligen Anzahlen ändern sich somit von Moment zu Moment höchstens umden Wert 1 (Ordinarität).

• Beispiele: Anzahl von Telefonanrufen, Anzahl von emittierten Teilchen in Physik(radioaktiver Zerfall), Anzahl von Unfällen, Anzahl von Schadensfällen, Anzahlvon Niveauüberschreitungen.

Poissonverteilung und Binomialverteilung

• Ist eine zufällige Zählgröße X binomialverteilt, der Parameter n aber groß undder Parameter p klein (Faustregel: n ≥ 30, p ≤ 0.05 und gleichzeitig np ≤ 10 ,sogenannte „seltene Ereignisse“), dann kann man die Wahrscheinlichkeiten nähe-rungsweise mit Hilfe einer Poissonverteilung mit Parameter λ = np berechnen,d.h.

P(X = k) =

(n

k

)pk(1− p)n−k ≈ λk

k!e−λ

(dies folgt aus dem Grenzwertsatz von Poisson).

28

Page 29: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Übungsaufgaben Poissonverteilung

• An einer Tankstelle kommen werktags zwischen 16:00 und 18:00 Uhr durchschnitt-lich 4 Fahrzeuge pro Minute an.Wie groß ist die Wahrscheinlichkeit dafür, dass während einer Minute im betrach-teten Zeitbereich mindestens 3 Fahrzeuge ankommen, wenn man davon ausgeht,dass die zufällige Anzahl der ankommenden Fahrzeuge poissonverteilt ist ?

• Es werden 50 Erzeugnisse aus einer Lieferung mit einer Ausschusswahrscheinlich-keit von 0.01 untersucht. Wie groß ist die Wahrscheinlichkeit dafür, dass sich höch-stens ein fehlerhaftes Erzeugnis unter den 50 Erzeugnissen befindet ?

Zusatz zur Poissonverteilung

Ergebnisse der berühmten Rutherfordschen und Geigerschen Versuche: Anzahlen derα−Teilchen, die von radioaktiven Substanzen in n = 2608 Zeitabschnitten von 7.5 Se-kunden emittiert wurden

i ni npi0 57 54.3991 203 210.5232 383 407.3613 525 525.4964 532 508.4185 408 393.5156 273 253.8177 139 140.3258 45 67.8829 27 29.18910 16 11.296

Durchschnittliche Anzahl:

λ =∑ ni · i

n= 3.87 ;

pi =λi

i!e−λ .

Quelle: Fisz, Wahrscheinlichkeitsrech-nung und mathematische Statistik,Berlin 1973

3.4 Wichtige stetige Verteilungen

3.4.1 Exponentialverteilung

• Parameter: λ > 0 .

29

Page 30: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Zufallsgröße X mit Dichtefunktion fX bzw. Verteilungsfunktion FX

fX(x) =

0 , x < 0 ,λe−λx , x ≥ 0 ;

FX(x) =

0 , x < 0 ,1− e−λx , x ≥ 0 .

• Beispiele: λ = 0.5 (blau), λ = 1 (rot), λ = 5 (grün) .

• Kenngrößen:

EX =1

λ, VarX =

1

λ2und x0.5 =

ln 2

λ≈ 0.693

λ.

• Bezeichnung: X ∼ Exp(λ) .

• Exponentialverteilte Zufallsgrößen nehmen nur nichtnegative Werte an, daher sindsie prinzipiell zur Modellierung von zufälligen Lebensdauern oder Wartezeiten ge-eignet.

• Beispielaufgabe: Die zufällige Lebensdauer eines Bauteils sei exponentialver-teilt, dabei betrage die erwartete Lebensdauer 3 Jahre.

Wie groß ist die Wahrscheinlichkeit, dass das Bauteil länger als 6 Jahre funktio-niert ?

Exponentialverteilung als Lebensdauerverteilung

• Wird die zufällige Lebensdauer eines Bauteils durch eine Exponentialverteilungmodelliert, dann werden Alterungseffekte nicht mit berücksichtigt (sogenannte Ge-dächtnislosigkeit der Exponentialverteilung).

• Angenommen, das Bauteil hat schon das Alter x0 > 0 erreicht. Dann gilt für dieRestlebensdauer Xx0 und x > 0

P(Xx0 ≥ x) = P (X ≥ x0 + x|X ≥ x0) =P(X ≥ x0 + x)

P(X ≥ x0)

=e−λ(x0+x)

e−λx0= e−λx = P(X > x).

30

Page 31: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Damit kann die Exponentialverteilung als Lebensdauerverteilung nur dann eingutes Modell sein, wenn äußere Ereignisse das Leben beenden und keine Alterungvorliegt.

Zusammenhang von Exponential- und Poissonverteilung

• Es werden bestimmte Ereignisse betrachtet, die zu zufälligen Zeitpunkten T1, T2, . . .mit einer Intensität λ > 0 (mittlere Anzahl der Ereignisse pro Zeiteinheit) ein-treten.

• Bezeichnet man mit Nt die zufällige Anzahl der eingetretenen Ereignisse im Zei-tintervall [0, t], dann sind die Zufallsgrößen Nt für verschiedene Zeitpunkte tgenau dann Poisson-verteilt mit Parameter µ = λt, falls die zufälligen Zeitab-stände zwischen zwei aufeinanderfolgenden Ereignissen stochastisch unabhängigund exponentialverteilt mit dem Parameter λ sind.

• Die zufälligen Zeitmomente T1, T2, T3, . . . bilden dann einen sogenannten Pois-sonschen Ereignisstrom.

• Die Zufallsgrößen (Nt, t ≥ 0) definieren dann einen sogenannten Poissonprozess.

3.4.2 Normalverteilung (Gauß-Verteilung)

• Parameter: µ ∈ R , σ2 > 0 .

• Zufallsgröße X mit Dichtefunktion fX bzw. Verteilungsfunktion FX

fX(x) =1√2πσ

e−(x−µ)2

2σ2 , FX(x) =1√2πσ

x∫−∞

e−(t−µ)2

2σ2 dt, x ∈ R .

• Kenngrößen: EX = µ und VarX = σ2 .

• Bezeichnung: X ∼ N(µ, σ2) .

• Eigenschaft: X1 ∼ N(µ1, σ21) , X2 ∼ N(µ2, σ

22) , unabhängig, a1, a2 ∈ R ⇒

a1X1 + a2X2 ∼ N(a1µ1 + a2µ2, a21σ

21 + a2

2σ22) (Additionssatz).

• Die Dichtefunktion ist symmetrisch bezüglich der Geraden x = µ , deshalb giltfür den Median auch x0.5 = µ .

Dichte- und Verteilungsfunktionen Normalverteilung

links: µ = 0, σ = 0.5 (blau), σ = 1 (rot), σ = 2 (grün) ;rechts: µ = −2, σ = 0.5 (blau), µ = 0, σ = 1 (rot), µ = 1, σ = 2 (grün) .

31

Page 32: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Standardnormalverteilung

• Die Zufallsgröße X ist standardnormalverteilt, falls X normalverteilt ist und µ =EX = 0 sowie σ2 = VarX = 1 gelten, d.h. X ∼ N(0, 1) .

• Die Dichte-bzw. Verteilungsfunktion sind dann

φ(x) =1√2π

e−x2

2 bzw. Φ(x) =1√2π

∫ x

−∞e−

t2

2 dt, x ∈ R .

• Ist die Zufallsgröße X normalverteilt mit Erwartungswert µ und Varianz σ2,dann ist die standardisierte Zufallsgröße

Z :=X − µσ

standardnormalverteilt, d.h. normalverteilt mit Erwartungswert 0 und Varianz 1.

Berechnung von Wahrscheinlichkeiten

• Geg.: X ∼ N(µ, σ2) , a < b .

• Ges.: P(a ≤ X ≤ b) .

32

Page 33: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Wegen Z =X − µσ

∼ N(0, 1) gilt

P(a ≤ X ≤ b) = P

(a− µσ≤ X − µ

σ≤ b− µ

σ

)= P

(a− µσ≤ Z ≤ b− µ

σ

)= Φ

(b− µσ

)− Φ

(a− µσ

).

• Die Funktionswerte von Φ können aus einer Tabelle abgelesen werden oder miteinem Taschenrechner o.ä. berechnet werden.

• Es gilt Φ(−x) = 1− Φ(x) für beliebige reelle Zahlen x .

Rechenbeispiel Normalverteilung

• Geg.: X ∼ N(30, 25) .

• Ges.: P(28 ≤ X ≤ 35) .

k · σ−Regeln für Normalverteilung

• Frage: Wie groß ist die Wahrscheinlichkeit dafür, dass der Wert einer ZufallsgrößeX ∼ N(µ, σ2) um mehr als 3 ·σ vom Erwartungswert („Sollwert“) µ abweicht ?

• Antwort:

P(|X − µ| > 3σ) = P

(|X − µ|

σ> 3

)= P(|Z| > 3)

= 2P(Z > 3) = 2 (1− Φ(3)) = 2 (1− 0.9987) = 0.0026 .

• Folglich und analog gilt:3σ−Regel: Innerhalb von µ± 3σ liegen ca. 99.74% der Messwerte.2σ−Regel: Innerhalb von µ± 2σ liegen ca. 95.5% der Messwerte.1σ−Regel: Innerhalb von µ± σ liegen ca. 68.3% der Messwerte.

Umgekehrte Fragestellung

• Frage: In welchem Intervall I = [µ − c;µ + c] liegen im Mittel (z.B.) 90% derMesswerte für X ∼ N(µ, σ2) ?

• Ges.: c , so dass P(|X − µ| ≤ c) = 0.9 .

33

Page 34: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Lsg:0.9 = P(|X − µ| ≤ c) = P

(|X − µ|

σ≤ c

σ

)= P

(|Z| ≤ c

σ

)= P

(− cσ≤ Z ≤ c

σ

)= 2Φ

( cσ

)− 1

⇒ Φ( cσ

)=

0.9 + 1

2= 0.95

c

σ= z0.95 = 1.645 (0.95-Quantil)

c = 1.645 · σ .

• D.h., zwischen µ− 1.645σ und µ+ 1.645σ liegen im Mittel 90% der Messwerte.

Unabhängigkeit von Zufallsgrößen

• Die Zufallsgrößen X1, . . . , Xn heißen (stochastisch) unabhängig, wenn für belie-bige reelle Zahlen a1 < b1 , . . . , an < bn gilt

P(a1 ≤ X1 < b1 , . . . , an ≤ Xn < bn)

= P(a1 ≤ X1 < b1) · . . . ·P(an ≤ Xn < bn) .

• Zufallsgrößen, die z.B. zu unterschiedlichen, sich nicht beeinflussenden Teilversu-chen gehören, können als unabhängig angesehen werden. Oft wird die Unabhän-gigkeit von Zufallsgrößen aber auch angenommen, um überhaupt etwas berechnenzu können.

• Sind zwei Zufallsgrößen X und Y stochastisch unabhängig, dann gilt E(X ·Y ) =EX · EY .

• Satz: Sind zwei Zufallsgrößen X und Y stochastisch unabhängig, dann gilt fürderen Summe Var(X + Y ) = VarX + VarY .

• Diese Eigenschaft gilt aber im Allgemeinen nicht für abhängige Zufallsgrößen!

Summen von unabhängigen normalverteilten Zufallsgrößen

• Eigenschaft: X1 ∼ N(µ1, σ21) , X2 ∼ N(µ2, σ

22) , unabhängig, a1, a2 ∈ R ⇒

a1X1 + a2X2 ∼ N(a1µ1 + a2µ2, a21σ

21 + a2

2σ22) (Additionssatz).

• Die Summe Sn =n∑i=1

Xi von n unabhängigen N(µ, σ2)-verteilten Zufallsgrößen

X1 , . . . , Xn ist normalverteilt mit Erwartungswert nµ und Varianz nσ2 .

• Näherungsweise gilt eine ähnliche Aussage auch für Zufallsgrößen mit anderenVerteilungen.

34

Page 35: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Zentraler Grenzwertsatz

• Häufig ergeben sich Zufallsgrößen (z.B. Messfehler) durch (additive) Überlagerungvieler kleiner stochastischer Einflüsse. Der zentrale Grenzwertsatz bewirkt dann,dass man diese Größen (näherungsweise) als normalverteilt ansehen kann.

• Für unabhängige, identisch verteilte Zufallsgrößen X1 , X2 , . . . mit EXi = µ ,VarXi = σ2 > 0 konvergiert die Verteilung der standardisierten Summe gegendie Standardnormalverteilung, d.h. es gilt für z ∈ R

P

(Sn − ESn√

VarSn< z

)= P

(Sn − nµ√

nσ2< z

)−−−→n→∞

Φ(z) ,

bzw. für große n gilt: P (Sn < x) ≈ Φ

(x− nµ√nσ2

).

Spezialfall: Satz von Moivre-Laplace

• Sind X1 , ... , Xn identisch Bernoulli-verteilt, d.h. Xi ∼ Bin(1, p) , so gilt für dieSumme Sn ∼ Bin(n, p) und nach dem zentralen Grenzwertsatz gilt für z ∈ R :

P

(Sn − np√np(1− p)

< z

)−−−→n→∞

Φ(z) ,

bzw. für große n(n > 9

p(1−p)

)gilt

P (Sn < x) ≈ Φ

(x− np√np(1− p)

)

(Satz von Moivre-Laplace).

Beispiel Zentraler Grenzwertsatz

• Eine Weinkellerei lädt 200 Kunden zur Weinverkostung ein. Es kommt erfahrungs-gemäß mit 60% der Kunden zu einem Verkaufsabschluss. Wie groß sind die Wahr-scheinlichkeiten, dass genau 130 bzw. mehr als 130 Kunden abschließen ?

• ZG X = Anzahl der Abschlüsse ∼ Bin(200, 0.6)

E(X) = 120 , Var(X) = 48 .

• P(X = 130) =(

200130

)· 0.6130 · 0.470 = 0.0205 ,

P(X > 130) = 0.0639 .

35

Page 36: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Approximation mittels Normalverteilung

P(X = 130) = P(129.5 < X < 130.5)

≈ Φ

(130.5− 120√

48

)− Φ

(129.5− 120√

48

)≈ 0.0204

P(X > 130) = 1−P(X < 130.5) ≈ 1− Φ

(130.5− 120√

48

)≈ 0.0649 .

3.4.3 Stetige Gleichverteilung

• Parameter: Intervall [a, b] ⊂ R .

• Zufallsgröße X mit Dichtefunktion fX bzw. Verteilungsfunktion FX

fX(x) =

1b−a , a ≤ x ≤ b ;

0 , sonst ,FX(x) =

0 , x < a ;x−ab−a , a ≤ x ≤ b ;

1 , x > b .

• Beispiel: a = 0 , b = 1 .

Charakteristiken der stetigen Gleichverteilung

• Kenngrößen:

EX =a+ b

2= x0.5 und VarX =

(b− a)2

12.

• Bezeichnung: X ∼ U[a, b] .

• Für Teilintervalle [c, d] ⊆ [a, b] gilt

P(c ≤ X ≤ d) =d− cb− a

=Länge von [c, d]

Länge von [a, b]

(wird genutzt bei der geometrischen Wahrscheinlichkeitsdefinition).

• Stetige Verteilung über dem Intervall [a, b] , wobei kein Teilintervall einer be-stimmten Länge vor anderen Teilintervallen derselben Länge bevorzugt wird.

36

Page 37: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Pseudozufallszahlen

• Um zufällige Modelle am Computer zu realisieren, erzeugen RechnerprogrammePseudozufallszahlen (auch kurz Zufallszahlen genannt), die sich wie Realisierungenvon unabhängigen, auf dem Intervall [0, 1] gleichverteilten Zufallsgrößen verhalten

⇒ werden bei Monte-Carlo-Simulationen verwendet.

• Daraus lassen sich mit Hilfe der folgenden Eigenschaft Realisierungen von Zufalls-größen mit anderen Verteilungen erzeugen.Satz: Sind u1, u2, . . . gleichverteilte Zufallszahlen auf [0, 1] und ist FX dieVerteilungsfunktion einer reellen Zufallsgröße X mit der Umkehrfunktion F−1

X ,dann sind xi = F−1

X (ui) , i = 1, 2, . . . nach FX verteilte Zufallszahlen (Inversi-onsmethode).

• Es existieren noch weitere Transformationsmethoden, um für häufig gebrauchteVerteilungen, wie z.B. die Normalverteilung, entsprechende Zufallszahlen zu gene-rieren.

3.4.4 Gammaverteilung

• Parameter: λ > 0 (Skalenparameter), p > 0 (Formparameter).

• Dichtefunktion: fX(x) =

0 , x < 0 ;λp

Γ(p)xp−1e−λx , x ≥ 0 .

• Gammafunktion:Γ(1) = 1 ,Γ(p) = (p− 1)Γ(p− 1) ⇒ Γ(n) = (n− 1)! für n ∈ N .

Allgemeine Definition: Γ(p) =

∫ ∞0

e−ttp−1 dt (p > 0).

• Kenngrößen: EX =p

λund VarX =

p

λ2.

• Bezeichnug: X ∼ Gam(p, λ) .

• Anwendung: Lebensdauerverteilung, flexibler als Exponentialvert. (Exponenti-alverteilung ergibt sich als Spezialfall für p = 1) .

Spezielle Gammaverteilungen

• Beispiel: links p = 2 , λ = 1 (rot), λ = 0.5 (blau), λ = 5 (grün);rechts λ = 1 , p = 2 (rot), p = 0.9 (blau), p = 5 (grün).

37

Page 38: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Xi ∼ Gam(pi, λ) , i = 1, 2 , unabh. ⇒ X1 +X2 ∼ Gam(p1 + p2, λ) .

• Xi ∼ Exp(λ), i = 1, ..., n, unabhängig ⇒∑Xi ∼ Gam(n, λ)

• Spezialfall p = n ∈ N ⇒ ErlangverteilungDie Wartezeit bis zum Eintreten des n−ten Poissonereignisses kann z.B. durcheine erlangverteilte Zufallsgröße beschrieben werden (Parameter: n , λ).

3.4.5 Weibullverteilung

• Parameter: β > 0 (Skalenparam.), m > 0 (Formparam.), α ∈ R .

• Dichtefunktion: fX(x) =

0 , x ≤ α ;

(x−αβ

)m−1

e−(x−αβ )m

, x > α .

• Verteilungsfunktion: FX(x) =

0 , x < α ;

1− e−(x−αβ )m

, x ≥ α .

• Erwartungswert: EX = α + β · Γ(

1 +1

m

).

• Varianz: VarX = β2

(1 +

2

m

)− Γ2

(1 +

1

m

)].

• Median: x0.5 = α + β (ln 2)1/m .

• Spezialfälle:α = 0 sogenannte zweiparametrische Weibullverteilungα = 0 , m = 1 , β = 1

λExponentialverteilung Exp(λ) .

• Beispiele: α = 0,links: m = 1.5, β = 1 (rot), β = 0.5 (blau), β = 5 (grün);rechts: β = 1, m = 1 (rot), m = 0.9 (blau), m = 5 (grün).

38

Page 39: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Die Weibullverteilung ist durch die 3 Parameter anpassungsfähig.

• Eine Weibullverteilung kann als Grenzverteilung für das Minimum einer großenZahl von unabhängigen Zufallsgrößen auftreten (Verteilung des schwächsten Ket-tengliedes), deshalb sind Lebensdauern von Systemen oft weibullverteilt. Fürm < 1 bzw. m > 1 werden Früh- bzw. Verschleißausfälle besonders gewichtet.

Historische Bemerkung

• In der mechanischen Verfahrenstechnik findet die Weibull-Verteilung Anwendungals eine spezielle Partikelgrößenverteilung. Hier wird sie RRSB-Verteilung (nachRosin, Rammler, Sperling und Bennet) bezeichnet.

• Siehe dazu z.B.:Paul Otto Rosin-Gedenkschrift anlässlich des Jubiläums 80 Jahre RRSB-Verteilung2013, Schriften des IEC, Heft 6, September 2015, TU Bergakademie Freiberg, In-situt für Energieverfahrenstechnik und Chemieingenieurwesen.

3.4.6 Logarithmische Normalverteilung

• Die Zufallsgröße X unterliegt einer logarithmischen Normalverteilung (ist lognormal-verteilt) falls lnX ∼ N(µ, σ2) gilt.

• Dichtefunktion: fX(x) =

0 , x ≤ 0 ;

1√2πσx

e−(ln x−µ)2

2σ2 , x > 0 .

• Erwartungswert: EX = eµ+σ2

2 .

• Varianz: VarX = e2µ+σ2(

eσ2 − 1

).

• Median: x0.5 = eµ .

• Bezeichnung: X ∼ LogN(µ, σ2) .

39

Page 40: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Beispiele: µ = 0, σ = 1 (rot), µ = −2, σ = 0.5 (blau),µ = 1, σ = 2 (grün).

• Typische Anwendungen:

– bei Zeitstudien und Lebensdaueranalysen in ökonomischen, technischen undbiologischen Vorgängen;

– bei Untersuchungen in der analytischen Chemie, wie Konzentrations- undReinheitsprüfungen;

– für zufällige nichtnegative Materialparameter, z.B. Permeabilitäten;– als Grenzverteilung für Produkte unabhängiger positiver Zufallsgrößen (unter

bestimmten Bedingungen).

3.4.7 Weitere stetige Verteilungen

• Statistische Prüfverteilungen, u.a.

– χ2-Verteilung (Chi-Quadrat-Verteilung);

– t-Verteilung (Student-Verteilung);

– F -Verteilung (Fisher-Verteilung).

• Logistische Verteilung (dient u.a. zur Beschreibung von Wachstumsprozessen miteiner Sättigungstendenz).

• Betaverteilungen 1. und 2. Art.

• Extremwertverteilungen.

• . . .

3.5 Transformation von Zufallsgrößen

• Häufig müssen bei der Untersuchung stochastischer Modelle Zufallsgrößen trans-formiert werden.

• Wichtige Transformationen sind die Bildung von Summe, Minimum oder Maxi-mum von mehreren Zufallsgrößen.

40

Page 41: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Ist X eine Zufallsgröße mit Verteilungsfunktion FX und g : R → R eine stetige,streng monoton wachsende Funktion (z.B. g(x) = ex), dann ist Y := g(X) eineZufallsgröße mit Verteilungsfunktion

FY (y) = P(Y < y) = P(g(X) < y) = P(X < g−1(y))

= FX(g−1(y))

(g−1 ist die Umkehrfunktion (inverse Funktion) von g).

• Die Dichtefunktion (falls sie existiert) kann z.B. durch Differentiation bestimmtwerden.

Summe unabhängiger Zufallsgrößen, Faltung

• Oft müssen unabhängige Zufallsgrößen addiert werden und folglich muss die Ver-teilung einer Summe von unabhängigen Zufallsgrößen bestimmt werden.

• Die zugehörige Operation für die Verteilungen (Verteilungsdichten, Verteilungs-funktionen) nennt man Faltung.

• Sind X und Y unabhängige stetige Zufallsgrößen mit Verteilungsdichten fXbzw. fY , dann gilt für die Verteilungsdichte fS der Summe S = X + Y :

fS(z) =

∫ ∞−∞

fX(z − y)fY (y) dy =

∫ ∞−∞

fY (z − x)fX(x) dx .

• In wichtigen Fällen ergeben sich wieder spezielle Verteilungen.

Maximum unabhängiger Zufallsgrößen

• Auch bei der Bildung des Minimums oder Maximums von Zufallsgrößen kannfür die Berechnung der entsprechenden Verteilungsfunktion die Unabhängigkeitausgenutzt werden.

• Sind Xi unabhängige Zufallsgrößen mit Verteilungsfunktionen FXi , i = 1, . . . n ,dann gilt für das Maximum X(n)

FX(n)(x) = P(X(n) < x) = P

(n⋂i=1

Xi < x

)

=n∏i=1

P(Xi < x) =n∏i=1

FXi(x) , x ∈ R

• Sind die Zufallsgrößen Xi , i = 1, . . . , n , unabhängig und identisch verteilt (i.i.d.)mit Verteilungsfunktion FX , dann gilt

FX(n)(x) = F n

X(x) , x ∈ R .

41

Page 42: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Minimum unabhängiger Zufallsgrößen

• Analog gilt für das Minimum X(1) unter obigen Bedingungen

1− FX(1)(x) = P(X(1) ≥ x) = P

(n⋂i=1

Xi ≥ x

)

=n∏i=1

P(Xi ≥ x) =n∏i=1

(1− FXi(x)) , x ∈ R .

• Sind die Zufallsgrößen Xi , i = 1, . . . , n , unabhängig und identisch verteilt (i.i.d.)mit Verteilungsfunktion FX , dann gilt

FX(1)(x) = 1− (1− FX(x))n , x ∈ R .

• Beispiele für solche zufälligen Extremwerte sind

– Höchstwasserstände (wichtig für Dämme);

– minimale Festigkeiten (der einzelnen Kettenglieder einer Kette).

3.6 Zufallsvektoren

• Bei den meisten stochastischen Modellen ist nicht nur eine Zufallsgröße von In-teresse, sondern eine endliche oder sogar unendliche Anzahl unterschiedlicher Zu-fallsgrößen.

• n Zufallsgrößen X1, . . . , Xn kann man zum (n−dimensionalen) Zufallsvektor(X1, . . . , Xn) zusammenfassen.

• Viele Eigenschaften kann man an zweidimensionalen Zufallsvektoren (X, Y ) sehenbzw. untersuchen, so dass wir diesen Fall hier näher betrachten. Jede Realisierungdes Zufallsvektors ist dann ein Punkt (x, y) im zweidimensionalen EuklidischenRaum R2 .

• Die in einer konkreten Zufallssituation auftretende Realisierung kann man im All-gemeinen nicht vorausberechnen, man kann nur Wahrscheinlichkeiten dafür ange-ben, dass Realisierungen des Zufallsvektors in interssierenden Mengen liegen, diesebilden die Wahrscheinlichkeitsverteilung oder kurz Verteilung des Zufallsvektors.

Verteilungsfunktion eines Zufallsvektors

• Die Verteilung des Zufallsvektors (X, Y ) kann durch die gemeinsame (oderVerbund-)Verteilungsfunktion beschrieben werden: Für x, y ∈ R gilt

F(X,Y )(x, y) = P(X < x ∩ Y < y) = P(X < x, Y < y) .

• Diese Verbundverteilungsfunktionen haben ähnliche Eigenschaften wie die Vertei-lungsfunktionen reeller Zufallsgrößen, unter anderem

42

Page 43: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

– 0 ≤ F(X,Y )(x, y) ≤ 1 , (x, y) ∈ R2 ;

– limx→−∞

F(X,Y )(x, y) = limy→−∞

F(X,Y )(x, y) = 0 ;

– limx,y→∞

F(X,Y )(x, y) = 1 ;

– die Funktion F(X,Y )(x, y) ist bezüglich jeder Variable monoton nicht fallend.

Verteilungsdichte eines stetigen Zufallsvektors

• Für stetige Zufallsvektoren (Zufallsvektoren mit absolut stetiger Verteilung) kanndie Verteilung auch durch die Verteilungsdichte f(X,Y )(s, t), (s, t) ∈ R2 , bestimmtwerden:

F(X,Y )(x, y) =

∫ x

−∞

∫ y

−∞f(X,Y )(s, t) dtds .

• Dann gilt für geeignete Teilmengen B ⊂ R2 :

P((X, Y ) ∈ B) =

∫ ∫B

f(X,Y )(s, t) dtds .

• Für Verteilungsdichten von stetigen Zufallsvektoren gilt:

– f(X,Y )(s, t) ≥ 0, (s, t) ∈ R2 ;

–∫ ∞−∞

∫ ∞−∞

f(X,Y )(s, t) dtds = 1 .

Beispiel: versteckter Schatz

• Ein Schatz wurde in einem Quadrat der Kantenlänge 1 km an einem zufälligenOrt versteckt. Die zufälligen Koordinaten (X, Y ) wurden von einem Computer-programm mit Hilfe von Pseudozufallszahlen so bestimmt, dass für die zugehörigeVerteilungsdichte mit einer Konstanten c > 0 gilt:

f(X,Y )(s, t) =

c · (1 + s · t), (s, t) ∈ [0, 1]× [0, 1],0, sonst .

• Berechnen Sie

– den Wert der Konstanten c ;

– die Verteilungsfunktion des Zufallsvektors (X, Y ) für Argumente (x, y) mit0 ≤ x ≤ 1, 0 ≤ y ≤ 1 ;

– die Wahrscheinlichkeit, dass das Versteck im oberen rechten Teilquadrat 0.5 ≤x ≤ 1 , 0.5 ≤ y ≤ 1 zu finden ist !

43

Page 44: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Dichtefunktion (links) und Verteilungsfunktion (rechts) des Zufallsvektors (X, Y ).

Verbundverteilung und Randverteilungen

• Die gemeinsame Verteilung des Zufallsvektors (X, Y ) , gegeben z.B. durch dieVerbundverteilungsfunktion oder die gemeinsame Verteilungsdichte, bestimmt ein-deutig die Verteilungen der Komponenten X und Y (die Randverteilungen),wenn diese als einzelne Zufallsgrößen betrachtet werden.

• So gelten:

– FX(x) = P(X < x) = limy→∞

F(X,Y )(x, y), x ∈ R ;

– FY (y) = P(Y < y) = limx→∞

F(X,Y )(x, y), y ∈ R ;

– falls die Verteilungsdichte für den Zufallsvektor (X, Y ) existiert, existierenauch die Dichtefunktionen für X und Y und es gelten

fX(s) =

∫ ∞−∞

f(X,Y )(s, t) dt, s ∈ R , sowie

fY (t) =

∫ ∞−∞

f(X,Y )(s, t) ds, t ∈ R .

Momente von Zufallsvektoren

• Wichtige von der Verteilung eines Zufallsvektors abgeleitete Kenngrößen sind dieMomente des Zufallsvektors.

• Für den stetigen Zufallsvektor (X, Y ) und nichtnegative ganze Zahlen k, l ist

E[XkY l

]=

∫ ∞−∞

∫ ∞−∞

sktlf(X,Y )(s, t) dsdt

ein (im Allgemeinen gemischtes) Moment der Ordnung k + l (falls es existiert) .

44

Page 45: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Momente erster Ordnung sind (falls sie existieren)

EX =

∫ ∞−∞

∫ ∞−∞

sf(X,Y )(s, t) dsdt =

∫ ∞−∞

sfX(s) ds ;

EY =

∫ ∞−∞

∫ ∞−∞

tf(X,Y )(s, t) dsdt =

∫ ∞−∞

tfY (t) dt .

Zweite Momente von Zufallsvektoren

• Neben den zweiten Momenten E[X2] und E[Y 2] für X bzw. Y und denVarianzen VarX und VarY (als „zentralen zweiten Momenten“) können nochdas zweite gemischte Moment

E[XY ] =

∫ ∞−∞

∫ ∞−∞

stf(X,Y )(s, t) dsdt

und das entsprechende zentrale zweite gemischte Moment, welches Kovarianz ge-nannt wird, definiert werden,

Cov (X, Y ) = E[(X − EX)(Y − EY )]

=

∫ ∞−∞

∫ ∞−∞

(s− EX)(t− EY )f(X,Y )(s, t) dsdt

= E[XY ]− EX · EY .

Korrelationskoeffizient und Unkorreliertheit von ZG

• Gilt für ZG X und Y jeweils 0 < VarX <∞ , 0 < VarY <∞ , dann definiertman den Korrelationskoeffizient von X und Y als

ρX,Y = Corr (X, Y ) =Cov (X, Y )√VarX

√VarY

.

• Es gilt immer −1 ≤ ρX,Y ≤ 1 .

• Der Korrelationskoeffizient ist ein Maß für die Stärke eines linearen Zusammen-hangs zwischen X und Y :ρX,Y = 1 ⇒ perfekter positiver linearer Zusammenhang zwischen X und Y ,d.h. Y = a+ bX mit b > 0 ;ρX,Y = −1 ⇒ perfekter negativer linearer Zusammenhang zwischen X undY , d.h. Y = a+ bX mit b < 0 .

• Die Zufallsgrößen X und Y heißen unkorreliert, falls Cov (X, Y ) = 0 gilt(dann gilt auch ρX,Y = 0) , andernfalls nennt man sie korreliert.

45

Page 46: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Eigenschaften der Kovarianz

• Sind zwei Zufallsgrößen X und Y stochastisch unabhängig, dann gilt E(X ·Y ) =EX · EY ; damit sind X und Y auch unkorreliert.

• Die Umkehrung gilt im Allgemeinen nicht.

• Die Kovarianz ist symmetrisch, d.h. Cov (X, Y ) = Cov (Y,X) .

• Die Kovarianz ist linear in beiden Komponenten, d.h.

Cov (X + Y, Z) = Cov (X,Z) + Cov (Y, Z) .

• Es gilt VarX = Cov (X,X) .

• Es gilt

Var(X + Y ) = VarX + VarY + 2Cov (X, Y ) .

• Sind zwei Zufallsgrößen X und Y unkorreliert (insbesondere wenn sie stocha-stisch unabhängig sind), dann gilt für deren Summe

Var[X + Y ] = VarX + VarY .

Beispiel: zweidimensionale Normalverteilung

• Ein stetiger Zufallsvektor (X, Y ) besitzt eine zweidimensionale Normalverteilung,wenn seine Dichtefunktion lautet

f(X,Y )(s, t) = c · e− 1

2(1−ρ2)

[(s−µX )2

σ2X

−2ρ(s−µX )(t−µY )

σXσY+

(t−µY )2

σ2Y

]

mit c =1

2πσXσY√

1− ρ2.

• Dann gelten: EX = µX , EY = µY , VarX = σ2X , VarY = σ2

Y , Corr (X, Y ) =ρX,Y = ρ ∈ (−1, 1) .

• Die einzelnen Komponenten X und Y des Zufallsvektors sind normalverteilteZufallsgrößen mit den oben angegebenen Parametern.

• In diesem Fall sind X und Y genau dann unabhängig, wenn sie unkorreliertsind, d.h. wenn Corr (X, Y ) = ρ = 0 gilt.

46

Page 47: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Dichtefunktionsgrafiken Normalverteilungen in R2

Dichtefunktionen von normalverteilten Zufallsvektoren (X, Y ) mit EX = EY = 0,VarX = VarY = 1 sowie

ρ = 0 (links), ρ = −0.5 (mitte) und ρ = −0.9 (rechts).

4 Deskriptive Statistik

4.1 Grundbegriffe der Statistik

• Der Begriff Statistik wurde Ende des 17. Jahrhunderts geprägt für die verbaleoder numerische Beschreibung eines bestimmten Staates oder den Inbegriff der„Staatsmerkwürdigkeiten“ eines Landes oder Volkes (er hat dieselbe Wortwurzelwie „Staat“ oder „Staatsmann“).

• Heute hat dieser Begriff viele verschiedene Bedeutungen, z.B. für

– eine tabellarische oder grafische Darstellung von erhobenen Daten;

– einen Fachausdruck für eine Stichprobenfunktion;

– eine „methodische Hilfswissenschaft zur quantitativen Untersuchung von Mas-senerscheinungen“.

• Hier soll mit dem Begriff „Statistik“ eine Zusammenfassung von Methoden verstan-den werden, die zur zahlenmäßigen oder grafischen Analyse von Daten dienen soll,insbesondere im Zusammenhang mit Massenerscheinungen und zufallsbehaftetenVorgängen.

Teilgebiete der Statistik

• Die beschreibende oder deskriptive Statistik behandelt zum Beispiel beschreibendeAussagen über statistische Daten, deren Veranschaulichung oder Möglichkeiten derDatenreduktion.

• Eng damit verwandt ist die explorative Datenanalyse, bei der zum Beispiel Datenauf Unstimmigkeiten hin untersucht werden oder Modellvorstellungen über die denDaten zugrundeliegenden Gesetzmäßigkeiten entwickelt werden.

47

Page 48: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Die Methoden der schließenden oder beurteilenden Statistik dienen zum Beispielzur Ableitung von statistisch gesicherten Aussagen über die den Daten zugrundeliegenden Sachverhalte, etwa die Schätzung von Kenngrößen oder die Durchfüh-rung von statistischen Tests.

• Insbesondere in der schließenden Statistik werden Methoden verwendet, deren(Weiter-)Entwicklung und Begründung durch die mathematische Statistik erfolgt.Insgesamt bestehen enge Beziehungen zwischen Statistik und Wahrscheinlichkeits-theorie.

Vorgehen bei statistischen Untersuchungen

• Studienplanung (Vorbereitung und Planung): u.a. mit

– der exakten Formulierung des Untersuchungsziels;– der Festlegung der Art der Untersuchung, der Bestimmung der Stichproben-

größe;– der Klärung organisatorischer und technischer Fragen (z.B. über die Verwen-

dung welcher Tests, Ein- bzw. Ausschlusskriterien);– der Berücksichtigung der entstehenden Kosten.

• Durchführung (Erhebung, Datenerfassung): Man unterscheidet

– Primärdaten (die Daten werden eigens für den Untersuchungszweck erhoben– mittels Vollerhebungen oder Teilerhebungen) bzw.

– Sekundärdaten (vorhandenes Datenmaterial wird genutzt).

Erhebungsarten bei primärstatistischen Untersuchungen sind z.B.

– die schriftliche bzw. mündliche Befragung;– die Beobachtung;– das Experiment;– die automatische Erfassung.

• Datenmanagement (Datenkontrolle und -aufbereitung):

Hier können z.B. die Verkodierung, die Vorgehensweise mit Ausreißern oder Prü-fungen zur sachlichen Richtigkeit (Plausibilität), Vollzähligkeit oder Vollständig-keit eine Rolle spielen.

• Analyse (Datenauswertung und-analyse): z.B.

– Beschreibung der Stichprobe (deskriptive Statistik);– Schluss auf die Grundgesamtheit (schließende, induktive, analytische, beur-

teilende Statistik).

• Präsentation, Interpretation und Diskussion der Ergebnisse: z.B. zur Ab-leitung von Kernaussagen aus der Analyse der Daten.

48

Page 49: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Untersuchungseinheiten, Grundgesamtheit und Stichprobe

• Daten werden an gewissen Objekten (den Untersuchungseinheiten oder statisti-schen Einheiten) beobachtet, z.B.die Wirksamkeit eines Medikaments an Patienten;Lebensdauern an elektronischen Geräten;Ankunftsraten an Bahnkunden.

• Eine Untersuchungseinheit ist ein Einzelobjekt einer statistischen Untersuchung.

• Eine Grundgesamtheit ist eine Menge von Untersuchungseinheiten, für die vomUntersuchungsziel her eine Frage geklärt werden soll.Sie muss durch übereinstimmende Identifikationskriterien der betrachteten Unter-suchungseinheiten zeitlich, räumlich und sachlich eindeutig abgegrenzt werden.

• Eine Stichprobe ist die Teilmenge der Grundgesamtheit, die bei einer statistischenUntersuchung (Teilerhebung) erfasst wird.

Merkmale und Merkmalsausprägungen

• Eigentlich interessieren nicht die Untersuchungseinheiten selbst, sondern bestimm-te Eigenschaften der Untersuchungseinheiten (sogenannte Merkmale).

• Z.B. interessiert nicht der Patient selbst, sondern ob oder wie das Medikament beiihm wirkt; bei Umfragen interessiert nicht der Passant, sondern seine Meinung.

• Ein Merkmal ist eine Größe oder Eigenschaft einer Untersuchungseinheit, die aufGrund der interessierenden Fragestellung erhoben bzw. gemessen wird.

• Eine Merkmalsausprägung ist ein möglicher Wert, den ein Merkmal annehmenkann.

• Eine Untersuchungseinheit wird auch Merkmalsträger genannt.

Beispiel Mietspiegel

• Nettomiete abhängig von Merkmalen wieArt: Altbau, Neubau, . . . ;Lage: Innenstadt, Stadtrand,. . . ;Größe: 40m2, 95m2, . . . ;Baujahr:︸ ︷︷ ︸ 1932, 1965, 1983, 1995, . . . .︸ ︷︷ ︸Merkmale Ausprägungen

• In der Regel werden mehrere Merkmale an einem Merkmalsträger beobachtet; z.B.

– Merkmalsträger: Wetter zu einem bestimmten Zeitpunkt an einem bestimm-ten Ort;

49

Page 50: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

– Merkmale: Temperatur, Niederschlagsmenge, Luftdruck, Bewölkung, Luft-feuchtigkeit, Sicht, . . . .

• Merkmalsausprägungen müssen keine Zahlen sein, z.B.

– Bewölkung: wolkenlos, heiter, leicht bewölkt, wolkig, bedeckt, . . . ;

– Autofarbe: rot, grün, schwarz, . . . .

Bezeichnungen und Klassifikationen von Merkmalen

• Bezeichnungen:

– Grundgesamtheit: Ω .

– Untersuchungseinheit: ω oder i .

– Merkmale: X , Y , Z oder auch X1 , X2 , X3 , . . . .

– Menge der Merkmalsausprägungen: S .

– Merkmalsausprägungen oder -werte: x = X(ω) oder xi = X(i) .

– Mathematisch betrachtet ist ein Merkmal eine Funktion X : Ω → S, diejeder Untersuchungseinheit die zugehörige Merkmalsausprägung zuordnet.

• Klassifikationen von Merkmalen: zum Beispiel

– qualitative Merkmale, Rangmerkmale und quantitative Merkmale;

– diskrete, stetige und spezielle Merkmale.

Merkmalstypen

• Qualitatives Merkmal: es gibt weder eine natürliche Ordnung der Ausprägungen,noch ist es sinnvoll, Abstände oder Verhältnisse der Ausprägungen zu betrachten;Ausprägungen werden meist verbal beschrieben.

• Rangmerkmal: es gibt eine natürliche Ordnung der Ausprägungen, aber es ist nichtsinnvoll, Abstände oder Verhältnisse zu betrachten; Ausprägungen werden verbaloder durch ganze Zahlen beschrieben.

• Quantitatives Merkmal: Ausprägungen sind Zahlen, es gibt eine natürliche Ord-nung, Abstände oder Verhältnisse sind interpretierbar.

• Diskretes Merkmal: Ausprägungen sind isolierte Zustände, die Menge der mögli-chen Ausprägungen ist höchstens abzählbar.

• Stetiges Merkmal: Ausprägungen (Werte) sind Zahlen, sie liegen dicht, zwischenje zwei Ausprägungen ist stets eine weitere möglich.

• Beachte: Jede praktische Messung bei stetigen Merkmalen ist – durch die jeweiligeGrenze der Messgenauigkeit bedingt – diskret.

50

Page 51: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Merkmalstypen (Beispiele)

Merkmal Ausprägungen ArtGeschlecht m / w keine Ordnung qualitativAutomarke Fiat, Toyota, ... keine Ordnung qualitativPrüfungsnote 1, 2, 3, 4, 5 Ordnung, Rangmerkmal

Abst. nicht interpr.Beliebtheit von sehr, mäßig, nicht Ordnung, Rangmerkmal

Politikern Abst. nicht interpr.Anzahl Kinder 0, 1, 2, 3, ... Ordnung, quantitativ,in einer Familie Abst. interpr., diskret

keine Auspr. zw.2 anderen mögl.

Regenmenge 20mm, 50mm, ... Ordnung, quantitativ,an einem Tag Abst. interpr., stetig

Verhältn. interpr.,zwischen 2 Auspr.immer weitere mögl.

Skalenniveaus

• Je nach Art des Merkmals werden die Merkmalsausprägungen anhand verschiede-ner Skalen gemessen:

– Nominalskala (lat. nomen=Name);

– Ordinalskala (lat. ordinare= ordnen, auch Rangskala);

– Intervallskala;

– Verhältnisskala (auch Ratioskala, Rationalskala, Proportionalskala);

– Absolutskala.

• Intervall-, Verhältnis- und Absolutskala werden auch in dem Oberbegriff metrischeSkala (oder Kardinalskala; griech. metron=Maß) zusammengefasst.

• Auch feinere oder andere Unterteilungen und spezielle Skalen werden genutzt.

Nominalskala

• Die Merkmalsausprägungen entsprechen begrifflichen Kategorien.

• Es gibt keine natürliche Ordnungsrelation.

• Sind nur zwei Ausprägungen vorhanden, spricht man auch von dichotomen Merk-malen, z.B.

– Geschlecht („männlich“, „weiblich“);

– Zustimmung („Ja“, „Nein“).

51

Page 52: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Gibt es eine vor der Datenerhebung feststehende Einteilung der Grundgesamtheitin endlich viele disjunkte Klassen und wird jede Untersuchungseinheit eindeutigin eine der Klassen eingeordnet, spricht man auch von einer kategoriellen Skala.Die Ausprägungen heißen dann auch Kategorien oder Stufen des Merkmals.

• Beispiele sind

– Familienstand („ledig“, „verheiratet“, „geschieden“, „verwitwet“);

– Status („Eigentümer“, „Hauptmieter“, „Untermieter“);

– Status („Azubi“, „Geselle“, „Meister“);

– Behandlung („Placebo“, „altes Medikament“, „neues Medikament“).

Ordinalskala

• Zwischen den Merkmalsausprägungen besteht eine natürliche Reihenfolge (Ord-nungsrelation, Anordnung).

• Abstände zwischen zwei Ausprägungen (oder Quotienten) haben keine inhaltlicheBedeutung.

• Beispiele sind

– Höchster Schulabschluss („Keiner“, „Hauptschule“, „Mittlere Reife“, „Hoch-schulreife“);

– Status („Eigentümer“, „Hauptmieter“, „Untermieter“);

– Status („Azubi“, „Geselle“, „Meister“);

– Bewertung („gut“, „mittel“, „schlecht“).

• Eine Ordinalskala mit ganzzahligen Ordungsziffern (Rängen, Rangziffern), die mit1 beginnend in ununterbrochener Reihenfolge hintereinander stehen, heißt auchRangskala, z.B. Rangplätze in der Bundesliga.

Intervallskala

• Merkmalsausprägungen (Merkmalswerte) sind reelle Zahlen.

• Neben der Ordnungsrelation zwischen den Merkmalsausprägungen lassen sich auchderen Abstände interpretieren. Es existiert allerdings ein willkürlich gesetzter Null-punkt.

• Beispiel: Temperatur in C .

• Quotienten dürfen nicht gebildet werden, so ist z.B. die Aussage „20C ist doppeltso warm wie 10C“ sinnlos.

• Eine Intervallskala wird auch reelle Skala genannt.

52

Page 53: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Verhältnisskala

• Bei einer Verhältnisskala (auch ratio, positiv reell, relativen Skala) können nurpositive Zahlen beobachtet werden.

• Zusätzlich zu den Eigenschaften der Intervallskala gibt es einen natürlichen Null-punkt.

• Multiplikation und Division sind inhaltlich sinnvolle Operationen, der Quotientvon zwei Werten ist inhaltlich sinnvoll (4 ist doppelt so groß wie 2).

• Beispiele: Gewichte, Längen.

• Bei stetigen Merkmalen in der relativen Skala kann man überlegen (und eventuellversuchen), durch Logarithmieren der Daten zu einer reellen Skala zu gelangen.Oft kann man dann zugrundeliegende Gesetzmäßigkeiten viel besser erkennen.

Absolutskala

• Zusätzlich zu den Forderungen der Verhältnisskala ist neben dem natürlichen Null-punkt hier auch eine natürliche Einheit zwingend vorgeschrieben.

• Dies ist zum Beispiel bei Merkmalen der Fall, wenn die MerkmalsausprägungenAnzahlen sind.

• Beispiel Anzahl von Kindern in einem Haushalt.

Bemerkung

• Auch andere bzw. weitere Einteilungen und spezielle Skalen werden genutzt, z.B.die Anteilskala.

• Bei einer Variable in der Anteilskala (auch Wahrscheinlichkeitsskala) können nurWerte zwischen 0 und 1 beobachtet werden. Die Werte sind als Anteile interpre-tierbar.

• Durch die natürliche Beschränkung auf das Intervall [0, 1] können die Werte nichtbeliebig addiert werden und der „Rest“ bis zur 1 spielt immer eine Rolle.

• Sind nur kleine Anteile von Interesse, kann oft mit einer Ratio-Skala gearbeitetwerden, sind auch größere Anteile wichtig, sollte man mit der Anteilskala rechnen.

Das Problem der Repräsentativität

Die Repräsentativität spielt für statistische Auswertungen und Aussagen eine sehr großeRolle. Dabei können unter anderem zwei Probleme bei Teilerhebungen von Bedeutungsein.

• Das Auswahlverfahren der Individuen aus der Grundgesamtheit (das Ziehen derStichprobe). Dieses sollte so organisiert sein, dass

53

Page 54: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

– jedes Individuum die gleiche Chance hat, ausgewählt zu werden und

– dass die Individuen unabhängig voneinander ausgewählt werden.

Zu beachten ist, dass zu jedem Individuum auch mehrere Merkmale beobachtetwerden können.

• Die Erhebung einer Stichprobe aus Zufallsexperimenten. Dabei sollte gewährleistetsein, dass

– die Versuche unter gleichbleibenden Versuchsbedingungen durchgeführt wer-den und dass

– die Zufallsexperimente unabhängig voneinander durchgeführt werden.

Auch in diesem Fall können mehrere Merkmale von Interesse sein.

Verbundene Stichproben

• Liegen zwei oder mehr Stichproben vor, deren Werte einander paarweise zuge-ordnet sind, spricht man von einer gepaarten Stichprobe bzw. von verbundenenStichproben.

• Diese entstehen zum Beispiel dann, wenn man zwei oder mehr Merkmale an ein-und demselben statistischen Objekt beobachtet.

• Beispiele:

– Messwerte für die Wirkungen jeweils zweier Medikamente für ein- und die-selben Patienten;

– Anzahl von Bestellungen einer Kundengruppe vor (1. Stichprobe) und nach(2. Stichprobe) einer Werbeaktion.

• Verbundene (mathematische) Stichproben werden durch unabhängige Zufallsvek-toren (X1, Y1) , . . . , (Xn, Yn) modelliert.

Erste Analyseschritte für einen neuen Datensatz

Eine Datenauswertung beginnt mit folgenden Analyseschritten:

• Wie liegen die Daten vor ?Datenmatrix, Datentafel, unvorbereitet, . . . .

• Welche Variablen gibt es und was bedeuten sie ?Dazugehörige Beschreibung beachten .

• Welche Skala haben die einzelnen Variablen ?diskret: nominal, kategoriell, ordinal, Intervall, Anzahl;stetig: reell, ratio, Anteil, (Anzahlverstetigung, z.B. Preise);speziell: irgendwie anders .

54

Page 55: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Ein-, Zwei-, oder Mehrstichprobensituation, verbundene (gepaarte) odergepoolte Größen in der Stichprobe ?Eine Grundgesamtheit, zwei oder mehrere bzw. ein Zufallsexperiment, zwei odermehrere ?

• Was sind die Grundgesamtheiten ?Welche wünschen wir uns ?Für welche sind die Daten wohl repräsentativ ?

• Sind die Daten für die Grundgesamtheit repräsentativ ?Wie sind die Daten zustandegekommen, gab es eine unabhängige und gleichwahr-scheinliche Auswahl der statistischen Individuen und/oder unabhängige Zufalls-experimente unter gleichbleibenden Bedingungen, so dass die Variablen als unab-hängig und identisch verteilt angesehen werden können ?

Nutzung von Statistik-Computerprogrammen

• Statistische Untersuchungen werden heutzutage im Allgemeinen unter Verwen-dung von Statistik-Computerprogrammen durchgeführt.

• Im Rahmen dieser Vorlesung werden entsprechende Vorgehensweisen mit Hilfe desProgrammpakets „R“ illustriert.

• Es können natürlich nicht alle Details im Zusammenhang mit diesem Programm-paket in den Übungen geübt werden, deshalb sind hier selbstständige Bemühungenwünschenswert.

• Die Interpretation der Ausgabeinformationen der Computerprogramme und dieprinzipielle Vorgehensweise (die Schritte, die nacheinander und in Abhängigkeitvon bereits erzielten Ergebnissen durchzuführen sind) sind jedoch Bestandteil derVorlesung und auch der Übung und gehören zum Prüfungsstoff.

Das Programmpaket „R“

• „R“ ist ein freies Statistik-Softwarepaket.

• Es kann unter http://www.cran.r-project.org/ kostenlos heruntergeladenwerden.

• R ist ein kommandozeilenorientiertes Programm. Man gibt Befehle ein, die sofortausgeführt werden und oft Ausgabeinformationen erzeugen.

• Mit Hilfe von Skripten können aufeinanderfolgende Befehlsketten zur Verarbeitun-gen vorbereitet und dann jedes Mal bei Bedarf ausgeführt werden.

• Durch die Mitarbeit vieler Personen wächst der Umfang der Programme und damitder Umfang der mit R bearbeitbaren Probleme ständig.

55

Page 56: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Beispieldatensatz „Iris“

• Der Datensatz enthält Werte von jeweils 50 Blumen von 3 Blumenarten „Iris seto-sa“ (Borsten-Schwertlilie), „Iris versicolor“ (Schwertlilie) und „Iris virginica“ (Vir-ginische oder Blaue Sumpfschwertlilie).

• Zu jeder Blume wurden jeweils die folgenden Informationen erhoben:– die Länge des Kelchblattes in cm („Sepal.Length“);

– die Breite des Kelchblattes in cm („Sepal.Width“);

– die Länge des Blütenblattes in cm („Petal.Length“);

– die Breite des Blütenblattes in cm („Petal.Width“);

– die Blumenart („Species“).

• Die Daten können in R wie folgt geladen werden:> data(iris).

• Informationen zum Datensatz erhält man in R durch> help(iris).

Datenmatrix als Darstellungsform für statistische Daten

• Eine Darstellung der von den Untersuchungseinheiten erhobenen gleichartigen Da-ten in einer Tabelle mit Zeilen und Spalten ist eine Datenmatrix . Von jeder Un-tersuchungseinheit werden die gleichen Merkmale erhoben.

• Die Informationen zu einer Untersuchungseinheit werden in einer Zeile dargestellt.Die zu den einzelnen Zeilen gehörenden Individuen bezeichnet man auch als Fälleund die zugehörigen Daten (individuelle) Datensätze.

• Die zu einem Merkmal gehörende Information wird jeweils in einer Spalte darge-stellt. Die Spalten bezeichnet man auch als Variable und die Spaltenüberschriftals den Namen der Variable.

• Am Schnittpunkt der i−ten Zeile mit der j−ten Spalte ist also der Beobachtungs-wert xij für die j−te Variable beim i−ten Individuum eingetragen. Zur modell-basierten Analyse werden die Werte xij als Realisierungen von Zufallsgrößen Xij

angesehen.

Datenliste

• Gibt es nur Beobachtungen zu einem Merkmal, können die Beobachtungswerte ineiner Datenliste angegeben werden.

• Beispiel: R-Datensatz „morley“ (Lichtgeschwindigkeitsmessungen)

> data(morley)

> help(morley)

56

Page 57: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

> morley

> lightspeeds=morley$Speed + 299000

> lightspeeds[1:20]

[1] 299850 299740 299900 300070 299930 299850 299950

[8] 299980 299980 299880 300000 299980 299930 299650

[15] 299760 299810 300000 300000 299960 299960

Datentafel

• Die Datentafel ist eine alternative Darstellung der Daten zur Datenmatrix, wennnur diskrete Merkmale auftreten und die statistische Information durch Anzahlenvon Untersuchungseinheiten angegeben werden kann.

• Eine Datentafel enthält die Anzahl der Untersuchungseinheiten mit der gegebenenFaktorkombination in der jeweiligen Zelle.

Beispiel Datentafel für Datensatz „Titanic“

Ein Beispieldatensatz in R ist der Datensatz „Titanic“:> data(Titanic)> help(Titanic)> Titanic> ftable(Titanic,col.vars=c("Class","Survived"))

Class 1st 2nd 3rd CrewSurvived No Yes No Yes No Yes No Yes

Sex AgeMale Child 0 5 0 11 35 13 0 0

Adult 118 57 154 14 387 75 670 192Female Child 0 1 0 13 17 14 0 0

Adult 4 140 13 80 89 76 3 20

4.2 Grafiken und statistische Maßzahlen (Kenngrößen, Parame-ter) für Daten

• Grafiken und statistische Maßzahlen dienen dazu, einen Überblick über die vorlie-genden Daten zu erhalten, Vorstellungen über mögliche zugrundeliegende Vertei-lungen, Eigenschaften oder Besonderheiten zu entwickeln oder einfache Beschrei-bungen der Daten mit wenigen, möglichst aussagekräftigen Kenngrößen zu ermög-lichen.

• In Abhängigkeit von den Skalenniveaus und anderen Eigenschaften der Daten (wiez.B. univariate, bivariate oder multivariate Datensätze) können unterschiedlicheGrafiken und Kenngrößen genutzt werden.

57

Page 58: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Im Rahmen dieser Vorlesung werden nicht alle Möglichkeiten vorgestellt, sondernnur eine Auswahl von häufiger verwendeten bzw. aussagekräftigen Grafiken undMaßzahlen.

Fragestellungen im Zusammenhang mit den Grafiken

• Für welche Daten eignet sich die Grafik ?

• Wie ist die Grafik aufgebaut ?

• Wie interpretiert man die Grafik ?

• Welche Informationen kann die Grafik liefern und warum?

• Welche Informationen kann die Grafik nicht liefern und warum?

• Versucht man mit einer vorliegenden Grafik zu täuschen, etwas bestimmtes zusuggerieren ?

(Zitat, zu finden z.B. in Benesch, Schlüsselkonzepte zur Statistik, Springer, 2013,S.2: „Die Statistik ist dem Politiker, was die Laterne dem Betrunkenen ist: Sie dientzum Festhalten, nicht der Erleuchtung.“;

siehe dazu zum Beispiel auch die „Unstatistiken des Monats“ unterhttp://www.rwi-essen.de/unstatistik/.)

4.2.1 Grafiken für univariate stetige Daten(a) Punktdiagramm

• Ein Punktdiagramm kann für ein stetiges Merkmal erstellt werden. Dabei werdendie Beobachtungswerte durch Punkte auf einem geeigneten Abschnitt der reellenZahlengeraden markiert.

• Man erhält einen Überblick über den Bereich, in dem Beobachtungswerte liegenund wie stark sie streuen.

• Teilweise kann man Teilbereiche erkennen, in denen sich die Beobachtungswertehäufen oder seltener vorkommen.

• Ebenfalls kann man sehr große oder sehr kleine Beobachtungswerte, die von der„Masse“ der Werte relativ weit entfernt sind und eventuell als Ausreißer zu behan-deln sind, erkennen.

• Die Zusatzinformationen zum Datensatz muss ggf. mit genutzt werden (falls Datentransformiert sind etc.).

58

Page 59: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Punktdiagramm für Datensatz „morley“

> data(morley)> lightspeeds=morley$Speed+299000> stripchart(lightspeeds, main="Punktdiagramm Lichtgeschwindigkeitsmessungen")

299700 299800 299900 300000

Punktdiagramm Lichtgeschwindigkeitsmessungen

Probleme mit Punktdiagrammen

• Zusammenfallende oder sehr nah beieinander liegende Beobachtungswerte sindim Diagramm nicht mehr unterscheidbar, so dass Punkte durch „Überdeckung“verloren gehen können.

• Dieses Problem kann man beheben, indem man die Punktpositionen in die un-genutzte Richtung (vertikal bei horizontalen Punktdiagrammen) durch systemati-sches Stapeln (gestapeltes Punktdiagramm) oder durch zufälliges Verzittern (ver-zittertes Punktdiagramm) verschiebt.

• Ein verzittertes Punktdiagramm sieht nach jedem Neuzeichnen anders aus.

• Beim gestapelten Punktdiagramm können Muster vorgegaukelt werden, die abernur sehr zufällig und damit wenig aussagekräftig sind. Die Verteilung der Punktekann nicht immer gut erfasst werden.

Gestapeltes Punktdiagramm für Beispiel

> stripchart(lightspeeds,method="stack", main="Gestapeltes Punktdiagramm Lichtgeschwindigkeitsmessungen")

59

Page 60: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

299700 299800 299900 300000

Gestapeltes Punktdiagramm Lichtgeschwindigkeitsmessungen

Verzittertes Punktdiagramm für Beispiel

> stripchart(lightspeeds,method="jitter", main="Verzittertes PunktdiagrammLichtgeschwindigkeitsmessungen")

299700 299800 299900 300000

Verzittertes Punktdiagramm Lichtgeschwindigkeitsmessungen

60

Page 61: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

(b) Histogramm

• Ausgangspunkt ist eine Klasseneinteilung der Beobachtungswerte.

• Dazu wird ein Intervall, in dem alle Beobachtungswerte liegen, in eine endliche An-zahl disjunkter Teilintervalle, die sogenannten Klassen oder Gruppen zerlegt. JedeKlasse ist dann eindeutig durch die Klassenmitte und die Klassenbreite bzw. durchdie untere und obere Klassengrenze bestimmt.

• Die Anzahl der Klassen sollte nicht zu klein und nicht zu groß sein.

• Die Klassenbreiten sollten übereinstimmen (ggf. mit Ausnahme der Randklassen).

• Nach Festlegung einer Klasseneinteilung werden die absoluten Klassenhäufigkeitenbestimmt, d.h. für jede Klasse wird die Anzahl der Beobachtungswerte in derKlasse gezählt.

• Dann werden in einem Koordinatensystem aneinanderstoßende Rechtecke mitFlächeninhalten proportional zur Klassenhäufigkeit und Klassenintervallenals Basis gezeichnet.

Histogramm für Beispiel Lichtgeschwindigkeiten

> hist(lightspeeds)

Histogram of lightspeeds

lightspeeds

Fre

quen

cy

299600 299700 299800 299900 300000 300100

05

1015

2025

30

61

Page 62: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Histogramm und gestapeltes Punktdiagramm für Beispiel

> hist(lightspeeds)> stripchart(lightspeeds,method="stack",add=T,col=2)

Histogram of lightspeeds

lightspeeds

Fre

quen

cy

299600 299700 299800 299900 300000 300100

05

1015

2025

30

Histogramm mit 3 Klassen und Beispielpunktdiagramm

> b=c(299600,299800,300000,300200)> hist(lightspeeds,breaks=b)> stripchart(lightspeeds,method="stack",add=T,col=2)

62

Page 63: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Histogram of lightspeeds

lightspeeds

Fre

quen

cy

299600 299700 299800 299900 300000 300100 300200

020

4060

Histogramm mit 50 Klassen und Beispielpunktdiagramm

> b=c(seq(299600,300100,by=10))> hist(lightspeeds,breaks=b)> stripchart(lightspeeds,method="stack",add=T,col=2)

Histogram of lightspeeds

lightspeeds

Fre

quen

cy

299600 299700 299800 299900 300000 300100

02

46

810

63

Page 64: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Bemerkungen zu Histogrammen

• Die Gestalt eines Histogramms hängt stark von der gewählten Klasseneinteilung(und auch des gewählten Gesamtintervalls) ab, deshalb sollte man ggf. etwas ex-perimentieren, um ein möglichst aussagekräftiges Histogramm zu erzeugen.

• Durch die Klasseneinteilung geht Information verloren.

• Man kann ggf. Ausreißer am linken oder rechten Rand erkennen.

• Man kann eventuell Verteilungseigenschaften, wie Symmetrie oder Schiefe, erken-nen (oder erahnen).

• Bei übereinstimmenden Klassenbreiten sind die Höhen der Rechtecke proportionalzu den Häufigkeiten.

• Statt der absoluten Häufigkeiten können die Höhen der Rechtecke auch so normiertwerden, dass der Gesamtflächeninhalt unter allen Rechtecken gleich 1 ist. Dann istein (meist nicht sehr belastbarer) Vergleich mit einer Verteilungsdichte möglich.

Beispielhistogramm mit Normalverteilungsdichteschätzung

> hist(lightspeeds,freq=F)> curve(dnorm(x,mean(lightspeeds),sd(lightspeeds)),add=T,col=2)

Histogram of lightspeeds

lightspeeds

Den

sity

299600 299700 299800 299900 300000 300100

0.00

00.

001

0.00

20.

003

0.00

40.

005

0.00

6

64

Page 65: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

4.2.2 Grafiken für univariate diskrete Daten(a) Balkendiagramm

• Bei Balkendiagrammen werden die Anzahlen der Beobachtungswerte in den ein-zelnen Kategorien (Klassen) durch gleich breite Balken flächen- und auch höhen-proportional dargestellt.

• Im Unterschied zum Histogramm für stetige Daten haben die Balken beim Balken-diagramm einen Abstand, um den diskreten Charakter der Daten zu unterstrei-chen.

• Sowohl beim Histogramm als auch beim Balkendiagramm werden aber Häufigkei-ten oder Anteile flächenproportional dargestellt.

• Bei der Anzeige ordinaler Daten sollte die Reihenfolge der Balken der natürlichenOrdnung der Merkmalsausprägungen entsprechen.

Beispiel Datensatz „Titanic“ R–Befehle

Funktion zur Gewinnung von Summenanzahlen z.B.> margin=function(x, ...) apply(x,pmatch(c(...),names(dimnames(x))), sum)> margin(Titanic,"Survived")

No Yes1490 711

Erzeugung der Balkendiagramme> opar=par(mfrow=c(1,3))> barplot(margin(Titanic,"Survived"),main="Survived")> barplot(margin(Titanic,"Sex"),main="Sex")> barplot(margin(Titanic,"Class"),main="Class")> par(opar)

65

Page 66: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Balkendiagramme im Beispiel „Titanic“

No Yes

Survived

020

040

060

080

010

0012

0014

00

Male Female

Sex

050

010

0015

00

1st 2nd 3rd Crew

Class

020

040

060

080

0

(b) Kreisdiagramm

Die Anzahlen (oder Anteile) der Beobachtungswerte in den einzelnen Kategorien (Klas-sen) können ggf. auch durch ein Kreisdiagramm (Tortendiagramm, Kuchendiagramm)flächenproportional (hier auch winkelproportional) dargestellt werden.

R–Befehle zur Erzeugung der Kreisdiagramme im Beispiel:> opar=par(mfrow=c(1,3))> pie(margin(Titanic,"Survived"),main="Survived")> pie(margin(Titanic,"Sex"),main="Sex")> pie(margin(Titanic,"Class"),main="Class")> par(opar)

66

Page 67: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Beispielkreisdiagramme

No

Yes

Survived

Male

Female

Sex

1st

2nd

3rd

Crew

Class

4.2.3 Kenngrößen und Parameter zur Beschreibung univariater Daten

• Lageparameter

– Mittelwerte (arithmetisch, geometrisch, harmonisch)

– empirischer Median

– empirische Quantile (Quartile, Dezentile, . . . )

• Variabililitätsparameter (Streuparameter)

– empirische Varianz

– empirische Standardabweichung

– Spannweite

– empirischer (Inter-)Quartilsabstand IQR

– empirischer Variationskoeffizient

– empirische geometrische Standardabweichung

67

Page 68: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Formparameter

– empirische Schiefe

– empirische Wölbung

(a) Arithmetischer Mittelwert

• Für reelle Beobachtungswerte x1, x2, . . . , xn ist der arithmetische Mittelwert de-finiert durch

x =1

n

n∑i=1

xi =1

n(x1 + x2 + . . .+ xn) .

• In der Statistik wird er als Realisierung des Stichprobenmittelwerts (eine spezielleStichproben- oder Schätzfunktion)

X =1

n

n∑i=1

Xi =1

n(X1 +X2 + . . .+Xn)

einer mathematischen Stichprobe (X1, X2, . . . , Xn) (unabhängige und identischverteilte Zufallsgrößen) betrachtet. Unter geeigneten Voraussetzungen liefert ereine erwartungstreue und konsistente Schätzfunktion für den Erwartungswert derXi : EX = X .

Unterschied zwischen konkreter und mathematischer Stichprobe

• Liegen n beobachtete Werte x1, . . . , xn eines Merkmals X vor, so bilden dieseeine konkrete Stichprobe vom Umfang n .

• Man betrachtet jeden beobachteten Wert xi als Realisierung einer ZufallsgrößeXi , wobei die Xi (i = 1, ..., n) alle unabhängig und identisch verteilt (engl.: i.i.d.)mit FXi = FX seien.

• Die Zufallsgröße Xi beschreibt also das zufällige Ergebnis der i-ten Messung,des i-ten Zufallsexperiments oder der i-ten Auswahl eines Merkmalsträgers, jenachdem wie die konkrete Stichprobe zustande gekommen ist.

• Die Zufallsgrößen X1, . . . , Xn bilden die mathematische Stichprobe.

Arithmetischer Mittelwert in R

Der Befehl in R zur Berechnung des (arithmetischen) Mittelwertes ist ”mean()”.> mean(lightspeeds)[1] 299852.4

68

Page 69: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Ein Histogramm mit Mittelwertslinie kann dann z.B.so erzeugt werden:> hist(lightspeeds)> abline(v=mean(lightspeeds),col=2)

Histogram of lightspeeds

lightspeeds

Fre

quen

cy

299600 299700 299800 299900 300000 300100

05

1015

2025

30

(b) Geometrischer Mittelwert

• Für nichtnegative reelle Beobachtungswerte (einer ratio-Skala) x1, x2, . . . , xn istder geometrische Mittelwert definiert durch

xG = n

√√√√ n∏i=1

xi = (x1 · x2 · . . . · xn)1n .

• Bemerkung: Es gilt immer xG ≤ x .

• Anwendung findet er zum Beispiel, wenn eine logarithmische Skala (Transformati-on) sinnvoll ist oder die Merkmalsausprägungen relative Änderungen sind, so beider Mittelung von Wachstumsfaktoren.

• In R kann man die Exponentialfunktion zur Berechnung von geometrischen Mit-telwerten nutzen:

xG = exp

(1

n

n∑i=1

ln(xi)

).

Beispiel zum geometrischen Mittelwert

• Beispiel:Zeitpunkt 0 1 2Zustandswert 100 81 100Merkmalswert=Wachstumsfaktor x1 = 0.81 x2 = 1.234

⇒ xG = 1.000aber x = 1.022 (obwohl insgesamt keine Änderung des Zustandswerts zumAusgangszeitpunkt vorliegt).

• In R ergibt zum Beispiel:> x=c(81/100,100/81)

> exp(mean(log(x)))

69

Page 70: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

[1] 1

> mean(x)

[1] 1.022284

• Bemerkung: log(x) berechnet in R den Vektor der natürlichen Logarithmendes Vektors x .

(c) Harmonischer Mittelwert

• In manchen Situationen ist für nur positive (oder nur negative) Beobachtungswertex1, x2, . . . , xn der harmonische Mittelwert

xH =nn∑i=1

1xi

besser geeignet, so z.B. bei Mittelwertbildung von Verhältniszahlen (bei gleichemZähler) wie Durchschittsgeschwindigkeiten (gleichlange Teilstrecken) oder Durch-schnittspreisen (gleiche Geldbeträge).

• Gilt xi > 0 für alle i = 1, . . . , n , dann gilt immer

xH ≤ xG ≤ x .

Im Fall von x1 = x2 = . . . = xn = x > 0 erhält man

xH = xG = x = x .

Beispiel zum harmonischen Mittelwert

• Beispiel: Konstante Geschwindigkeiten auf jeweiligen TeilstreckenTeil-/Gesamtstrecke 1 2 1 + 2Streckenlänge in km 100 100 200Zeit in h 2 1 3Geschwindigkeit in km/h x1 = 50 x2 = 100 200

3= 66.6

⇒ xH =2

150

+ 1100

= 66.66 , aber x = 75 und xG = 70.71 .

• In R (ab dem Zeichen # beginnt ein Kommentar):> x=c(50,100)

> 1/mean(1/x) # Harmonisches Mittel

[1] 66.66667

> mean(x) # Arithmetisches Mittel

[1] 75

> exp(mean(log(x))) # Geometrisches Mittel

[1] 70.71068

70

Page 71: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

(d) Empirischer Median

• Der empirische Median oder Zentralwert der Beobachtungsreihe x1, x2, . . . , xnist dadurch gekennzeichnet, dass jeweils 50 % der Beobachtungswerte einen Wertgrößer oder gleich bzw. kleiner oder gleich dem empirischen Median annehmen.

• Sind

x(1) ≤ x(2) ≤ . . . ≤ x(n)

die der Größe nach geordneten Beobachtungswerte, kann der (empirische) Medianx bestimmt werden durch

x =

x(n+1

2 ), falls n ungerade,

12

(x(n2 ) + x(n2 +1)

), falls n gerade .

Beispiele zum empirischen Median

• Beobachtungswerte 4, 5, 1, 3, 6, 7, 8 ⇒ n = 7 , x = 5 , x = 4.857 .

• Beobachtungswerte 4, 5, 1, 3, 6, 7 ⇒ n = 6, x = 4.5 , x = 4.33 .

• Beobachtungswerte 4, 5, 1, 3, 6, 7, 800 ⇒ n = 7 , x = 5 , x = 118 .

• Der Median ist weniger empfindlich gegenüber Ausreißern in der Beobachtungsrei-he, d.h. Werte, die weit von den übrigen entfernt liegen, beeinflussen den Mediannicht (oder kaum). Dies trifft auf den arithmetischen Mittelwert im Allgemeinennicht zu.

• In R:> median(lightspeeds)[1] 299850

• Der Median kann sogar für Daten auf einer nur ordinalen Skala genutzt werden(wenn z.B. die Addition, die zur Bildung des arithmetischen Mittelwerts notwendigist, gar keinen Sinn macht).

Histogramm mit Mittelwert (rot) und Median (blau)

> hist(lightspeeds)

> abline(v=mean(lightspeeds),col=2)

> abline(v=median(lightspeeds),col=4)

71

Page 72: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Histogram of lightspeeds

lightspeeds

Fre

quen

cy

299600 299700 299800 299900 300000 300100

05

1015

2025

30

(e) Empirische Quantile

• Ein Ordnen der Datenreihe x1, x2, . . . , xn der Größe nach ergibt die geordneteDatenreihe (geordnete Stichprobe, Variationsreihe)

xmin := x(1) ≤ x(2) ≤ . . . ≤ x(n−1) ≤ x(n) =: xmax .

• Andere Bezeichnungen für die Variationsreihe sind x∗1 ≤ x∗2 ≤ . . . ≤ x∗n oderx1:n ≤ x2:n ≤ . . . ≤ xn:n .

• Das empirisches p−Quantil mit 0 < p < 1 ist ein Zahlenwert xp (oder bezeichnetmit xp) für den gilt, dass p · 100% der Werte in der Variationsreihe kleiner odergleich xp und (1− p) · 100% der Werte größer oder gleich xp sind.

xp =

x(k), falls np keine ganze Zahl ist, k ist

dann die auf np folgende ganze Zahl;12

(x(k) + x(k+1)

), falls np =: k eine ganze Zahl ist.

Beispiel zu empirischen Quantilen

• 10 Beobachtungswerte: 1, 3, 7, 2, 20, 9, 15, 2, 11, 10 .

• Variationsreihe: 1 ≤ 2 ≤ 2 ≤ 3 ≤ 7 ≤ 9 ≤ 10 ≤ 11 ≤ 15 ≤ 20 .

• 0.05−Quantil :p = 0.05, np = 0.5 ⇒ k = 1 , x0.05 = x(1) = 1 .

• 0.10−Quantil :p = 0.10, np = 1 = k ⇒ x0.05 = 1

2(x(1) + x(2)) = 1.5 .

72

Page 73: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• 0.20−Quantil :p = 0.20, np = 2 = k ⇒ x0.20 = 1

2(x(2) + x(3)) = 2 .

• 0.25−Quantil :p = 0.25, np = 2.5 ⇒ k = 3, x0.25 = x(3) = 2 .

• 0.50−Quantil :p = 0.50, np = 5 = k ⇒ x0.50 = 1

2(x(5) + x(6)) = 8 = x .

Spezielle Quantile

• Das 0.5−Quantil ist der Median.

• Das 0.25−Quantil heißt auch unteres oder erstes Quartil (oder auch unterer Vier-telwert).

• Das 0.75−Quantil heißt auch oberes oder drittes Quartil (oder auch oberer Vier-telwert).

• Das n10−Quantil mit n ∈ 1, 2, 3, 4, 5, 6, 7, 8, 9 heißt auch n−tes Dezentil .

• Als 0−Quantil kann man das Minumum xmin = x(1) ansehen.

• Als 1−Quantil kann man das Maximum xmax = x(n) ansehen.

Berechnung von Quantilen mit R

• Der Befehl quantile() erzeugt als Ausgabe eine Tabelle mit Werten für dasMinimum, das Maximum, den Median und die Quartile.

• Damit die Quantile nach der oben angegebenen Formel berechnet werden, musstype=2 angegeben werden.

• Beispiel:

> quantile(lightspeeds,type=2)

0% 25% 50% 75% 100%299620 299805 299850 299895 300070

> quantile(lightspeeds)

0% 25% 50% 75% 100%299620.0 299807.5 299850.0 299892.5 300070.0

• Sollen für bestimmte Niveaus p die zugehörigen Quantile berechnet werden,können diese dem Befehl mit übergeben werden.

73

Page 74: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Beispiele:

> quantile(lightspeeds,c(0.1,0.2,0.3))

10% 20% 30%299760 299798 299810

> quantile(lightspeeds,c(0.1,0.2,0.3),type=2)

10% 20% 30%299760 299795 299810

> quantile(lightspeeds,seq(0.85,0.95,0.05))

85% 90% 95%299941.5 299960.0 299980.0

> quantile(lightspeeds,seq(0.85,0.95,0.05),type=2)

85% 90% 95%299945 299960.0 299980.0

(f) Empirische Varianz

• Für reelle Beobachtungswerte x1, x2, . . . , xn ist die empirische Varianz

s2 =1

n− 1

n∑i=1

(xi − x)2 =1

n− 1

(n∑i=1

x2i − nx2

).

• In der Statistik wird sie als Realisierung des Stichprobenvarianz

S2 =1

n− 1

n∑i=1

(Xi −X)2

einer mathematischen Stichprobe (X1, X2, . . . , Xn) betrachtet. Diese liefert un-ter geeigneten Voraussetzungen durch die Wahl des Nenners n − 1 eine erwar-tungstreue und konsistente Schätzfunktion für die Varianz der Zufallsgrößen Xi :VarX = S2 .

Exkurs zur Parameterschätzung

• Es wird eine Annahme über die den Beobachtungen zugrunde liegende Verteilunggetroffen, z.B. X ∼ N(µ, σ2) oder X ∼ B(p) .

• Ein unbekanter Parameter ϑ der Verteilung soll aus den Daten geschätzt werden.

• Als Schätzfunktion verwendet man eine geeignete Funktion der mathematischenStichprobe (Stichprobenfunktion)

ϑn = f(X1, ..., Xn) .

74

Page 75: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Wünschenschenswerte Eigenschaften einer Schätzfunktion sind:

– Erwartungstreue: Eϑn = ϑ (im Mittel trifft die Schätzung den wahrenParameter);

– Konsistenz: limn→∞ ϑn = ϑ (die Schätzung konvergiert gegen den wahrenParameterwert mit wachsendem Stichprobenumfang).

(g) Empirische Standardabweichung

• So wie die (theoretische) Standardabweichung einer Zufallsgröße als Quadratwur-zel aus der Varianz definiert wird, ist die empirische Standardabweichung die Qua-dratwurzel aus der empirischen Varianz:

s =√s2 =

√√√√ 1

n− 1

n∑i=1

(xi − x)2 .

• Sowohl die empirische Varianz als auch die empirische Standardabweichung sindempfindlich gegenüber Ausreißern.

• Beide Maßzahlen können nur bei bestimmten Verteilungen, wie z.B. der Normal-verteilung, gut interpretiert werden.

• Bei Merkmalswerten mit (physikalischen etc.) Maßeinheiten kommt bei der empi-rischen Varianz diese Maßeinheit im Quadrat vor, bei der empirischen Standard-abweichung die Maßeinheit selber.

(h) Spannweite

• Die Spannweite (oder Variationsbreite) ist die Differenz der extremalen Werte,

∆ = xmax − xmin = x(n) − x(1) .

Sie gibt folglich die Länge des kleinsten Intervalls an, in das alle Beobachtungswertefallen.

• Die Spannweite ist empfindlich gegenüber Ausreißern, da sie nur von den extremenWerten abhängt.

• Berechnung der bisher behandelten drei Streumaße in R:> var(lightspeeds) # empirische Varianz

[1] 6242.667

> sd(lightspeeds) # empirische Standardabweichung

[1] 79.01055

> max(lightspeeds)-min(lightspeeds) # Spannweite

[1] 450

75

Page 76: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

(i) Empirischer Interquartilsabstand

• Der empirische Interquartilsabstand ist die Differenz des oberen und des unterenQuartils,

IQR(x) = x0.75 − x0.25 .

• Da die sehr großen und sehr kleinen Beobachtungswerte bei der Berechnung desInterquartilsabstands keine Rolle spielen, ist er relativ unempfindlich gegenüberAusreißern.

• In dem Intervall der Länge des Interquartilabstandes vom unteren zum oberenQuartil liegt die Hälfte der Beobachtungswerte.

• Beispielberechnung in R:> IQR(lightspeeds)

[1] 85

> IQR(lightspeeds,type=2)

[1] 90

(j) Empirischer Variationskoeffizient

• Für Merkmalswerte in der Verhältnisskala können Streumaße durch Quotienten-bildung in Bezug zu Lagemaßen gebracht werden. Dadurch entstehen einheitenloseMaßzahlen, die z.B. zum Vergleich unterschiedlicher Daten genutzt werden können.

• Der empirische Variationskoeffizient ist definiert durch

v(x) =s

x,

er ist eine Schätzung für den theoretischen Variationskoeffizienten.

• Beispielberechnung in R:> sd(lightspeeds)/mean(lightspeeds)

[1] 0.0002634981

(k) Geometrische Standardabweichung

• Die (theoretische) geometrische Standardabweichung einer positiven ZufallsgrößeX ist definiert durch

exp(√

Var (ln(X))),

den entsprechenden empirischen Wert für eine Datenreihe dazu erhält man, in demman die Standardabweichung durch die empirische Standardabweichung ersetzt.

• Beispielberechnung in R:> exp(sd(log(lightspeeds)))

[1] 1.000264

76

Page 77: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

(l) Schiefe (engl. ”skewness”) als Formparameter

• Oft spielt auch die Form z.B. der Verteilungsdichte bei Untersuchungen oder beider Modellierung eine Rolle.

• Die Schiefe der Zufallsvariablen X wird definiert alsE(X − EX)3

(VarX)3/2.

• Die empirische Schiefe für eine konkrete Stichprobe x1, . . . , xn ist1

n

n∑i=1

(xi − xs

)3

.

• Rechtsschief (oder linkssteil) ist eine Verteilung, wenn die Dichte nach rechts hinlangsamer ausläuft, dann ist der Schiefeparameter positiv. Analog ist der Schiefe-parameter bei linksschiefen (bzw. rechtssteilen) Verteilungen negativ.

• Eine Rolle spielt häufig auch, ob eine Dichtefunktion (oder Häufigkeitsverteilung)ein ausgeprägtes Maximum („eingipflige Verteilung“), oder mehrere derartige Ma-xima („mehrgipflige Verteilung“) besitzt oder keine dieser Situationen vorliegt.

(m) Wölbung und Exzess als Formparameter

• Die Wölbung oder Kurtosis ist eine Maßzahl für die Steilheit oder „Spitzigkeit“einer eingipfligen Dichtefunktion. Verteilungen mit geringer Wölbung streuen rela-tiv gleichmäßig; bei Verteilungen mit hoher Wölbung resultiert die Streuung mehraus extremen, aber seltenen Ereignissen.

• Die Wölbung der Zufallsgröße X istE(X − EX)4

(VarX)2, die empirische Wölbung

1

n

n∑i=1

(xi − xs

)4

.

• Der Exzess (auch: Überkurtosis) ist definiert alsE(X − EX)4

(VarX)2− 3 , so erfolgt ein

Vergleich mit der Wölbung einer Normalverteilung.

• Eingipflige Verteilungen mit einem positiven Exzess haben im Vergleich zur Nor-malverteilung spitzere Verteilungen („steilgipflig“ im Gegensatz zu „normalgipflig“bzw. „flachgipflig“).

Grafik einer zweigipfligen Verteilung

Mehrgipflige Verteilungen ergeben sich zum Beispiel oft durch Mischungen mehrerereingipfliger Verteilungen. Im Beispiel wurde eine Normalverteilung mit Erwartungswert -5 und Varianz 1 (Dichte f1) mit einer solchen mit Erwartungswert 5 (Dichte f2) gemischt,die Dichte der gemischten Zufallsgröße ist hier f = 0.5f1 + 0.5f2 .

77

Page 78: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Grafiken zur Schiefe und zum Exzess

links: Dichte ein lognormalverteilten Zufallsgröße exp(X) mit X ∼ N(0, 0.52) :rechtsschiefe Verteilung mit Schiefe ≈ 1.75 ;rechts: Dichte einer Normalverteilung und einer t−Verteilung mit 5 Freiheitsgraden,

Erwartungswerte 0 ; Varianzen5

3, Exzess Normalverteilung: 0 , t−Verteilung : 6 .

4.2.4 Weitere Grafiken für univariate stetige Daten

(a) Box-Plots

• Ein Box-Plot (Box-Whisker-Plot, Kasten-Diagramm) ist eine aussagekräftige gra-fische Darstellung der Fünfer-Charakteristik, bestehend aus Median x = x0.5 , denempirischen Quartilen (Viertelwerten) x0.25 und x0.75 und den AusreißergrenzenAu, Ao .

• Die Ausreißergrenzen werden dabei definiert durch

Au = x0.25 − 1.5 · IQR(x) und Ao = x0.75 + 1.5 · IQR(x) .

78

Page 79: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Dies betrifft die sogenannten inneren Zäune ; (”inner fences”) für manche Fragenverwendet man auch die sogenannten äußere Zäune (”outer fences”), definiert durch±3 · IQR(x) .

• Die Grenzen für die Box (”hinges”, Tukeys Scharniere (Türangel)) werden durchdas untere und das obere Quartil bestimmt.

• Eine gerade Linie kennzeichnet innerhalb der Box den Median.

• Die untere Begrenzungslinie wird dabei nicht durch die untere Ausreißergrenzedefiniert, sondern durch den kleinsten Beobachtungswert, der ≥ Au ist.

• Analog wird die obere Begrenzungslinie definiert durch den größten Beobachtungs-wert, der ≤ Ao ist.

• Diese Grenzen heißen auch Whisker-Grenzen (”whisker”: Schnurrhaare der Katze).

• Ausreißer (d.h. Datenwerte außerhalb der Ausreißergrenzen) werden extra durchPunkte angegeben.

Erzeugung von Box-Plots in R

• Beispielhaft in R:> boxplot(lightspeeds)erzeugt ein vertikales Box-Plot vom Datensatz lightspeeds, ein horizontales Box-Plot wird erzeugt durch> boxplot(lightspeeds,horizontal=TRUE)

• Die Kenngrößen in diesem Datensatz waren:Median x = x0.5 = 299850 ;unteres Quartil x0.25 = 299805 ;oberes Quartil x0.75 = 299895 ;Quartilsabstand IQR(x) = 90 ;

untere Ausreißergrenze Au = x0.25 − 1.5 · IQR(x) = 299670 ;

obere Ausreißergrenze Ao = x0.75 + 1.5 · IQR(x) = 300030 .

Vertikales Box-Plot für Beispiel Lichtgeschwindigkeiten

> boxplot(lightspeeds,main="Box-Plot Lichtgeschwindigkeiten")

79

Page 80: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

2997

0029

9800

2999

0030

0000

Box−Plot Lichtgeschwindigkeiten

Horizontales Box-Plot für Beispiel Lichtgeschwindigkeiten

> boxplot(lightspeeds,horizontal=T, main="Box-Plot Lichtgeschwindigkeiten")

299700 299800 299900 300000

Box−Plot Lichtgeschwindigkeiten

80

Page 81: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Horizontales Box-Plot mit Punktdiagramm für Beispiel

> boxplot(lightspeeds,horizontal=T, main="Box-Plot Lichtgeschwindigkeiten")> stripchart(lightspeeds,method="stack",col=2,add=TRUE)

299700 299800 299900 300000

Box−Plot Lichtgeschwindigkeiten

Daten für Box-Plots in R

• Die Zahlenwerte für das Box-Whisker-Plot, aus denen sich die grafische Darstellungergibt, können durch den Funktionsaufruf boxplot()$stats abgefragt werden.

• Im Beispiel:> boxplot(lightspeeds)$stats

[,1]

[1,] 299720

[2,] 299805

[3,] 299850

[4,] 299895

[5,] 300000

Gekerbte Box-Whisker-Plots

• Als zusätzliche Information werden manchmal zusätzlich Kerben (”notches”) zurKennzeichnung eines 95%-Konfidenzintervalles für den Median (unter Normalver-teilungsannahme berechnet) mit eingezeichnet.

81

Page 82: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Ein 95%-Konfidenzintervall für den Median ist dabei ein zufälliges Intervall, wel-ches unter der bestimmten Verteilungsannahme den tatsächlichen oder wahrenMedian mit einer Wahrscheinlichkeit von 0.95 überdeckt. Für vorliegende Beob-achtungswerte kann dann ein konkretes Intervall berechnet werden.

• In R kann ein solches gekerbtes Box-Plot durch den zusätzlichen Parameter notch=TRUEim Befehl boxplot() erzeugt werden. Die Zahlenwerte dazu können mit boxplot()$confabgefragt werden.

Gekerbtes Box-Plot für Beispiel Lichtgeschwindigkeiten

> boxplot(lightspeeds,main="Box-Plot Lichtgeschwindigkeiten", notch=TRUE)> boxplot(lightspeeds)$conf

[,1][1,] 299835.8[2,] 299864.2

2997

0029

9800

2999

0030

0000

gekerbtes Box−Plot Lichtgeschwindigkeiten

Weitere Bemerkungen zu Box-Plots

• Mit Box-Plots können Informationen gewonnen werden über

– die Lage der Daten (durch den Median);

– die Streuung der Daten (durch den Interquartilsabstand);

– besondere Werte (durch die extra Angabe der Ausreißer);

– den Bereich der Datenwerte (durch die Zäune und die extra Angabe derAusreißer);

– ggf. die Symmetrie (Symmetrie in der Box und den Zäunen).

82

Page 83: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Die folgenden Details können zum Beispiel im Allgemeinen nicht aus einem Box-Plot abgelesen werden:

– die Anzahl der Beobachtungen;– Bindungen oder Werthäufungen;– Mittelwert und empirische Varianz;– die allgemeine Verteilungsform.

• Bei einer kleinen Anzahl von Beobachtungswerten sind Box-Plots nicht sehr aus-sagekräftig.

(b) Q-Q-Plots

• Ein Q-Q-Plot oder (empirisches) Quantile-Quantile-Plot dient z.B. zum Vergleichder Beobachtungswerte x1, . . . , xn mit einer theoretischen Verteilung.

• Dazu werden in ein kartesisches Koordinatensystem in der Ebene Punkte mittheoretischen Quantilen xp als Abszissenkoordinaten (x-Werte) und empirischenQuantilen xp (oder den Werten der geordneten Stichprobe) als Ordinatenkoordi-naten (y-Werte) für bestimmte Niveaus p eingezeichnet.

• Beispielniveaus: pi = in+1

oder pi = i−0.5n

, i = 1, . . . , n .

• Sind die Beobachtungswerte x1, . . . , xn Realisierungen von unabhängigen Zufalls-größen mit der gewählten theoretischen Verteilung, dann liegen die Punkte etwaauf einer Geraden mit Anstieg 1 durch den Koordinatenursprung.

• Starke Abweichungen von der Geraden signalisieren ein Nichtzutreffen der Vertei-lung.

Erstes Beispiel Q-Q-Plot: Gleichverteilung U[0,1]

> xu=c(seq(0.1,0.9,by=0.1))> xu[1] 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9> qqplot(qunif(ppoints(9),min=0,max=1),xu, xlab="Theoret. Quantile U[0,1]",+ main="Q-Q-Plot xu gegen U[0,1]")

83

Page 84: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

0.2 0.4 0.6 0.8

0.2

0.4

0.6

0.8

Q−Q−Plot xu gegen U[0,1]

Theoret. Quantile U[0,1]

xu

Q-Q-Plot Lichtgeschwindigkeiten gegen Normalverteilung mit geschätztenParametern

> qqplot(qnorm(ppoints(100),mean=mean(lightspeeds), sd=sd(lightspeeds)),+ lightspeeds,xlab="Theoret. Quantile",+ main="Q-Q-Plot Lichtgeschw. gegen Normalvert.")> curve(1*x,299600,301000,col=2,add=TRUE)

299700 299800 299900 300000

2997

0029

9800

2999

0030

0000

Q−Q−Plot Lichtgeschw. gegen Normalvert.

Theoret. Quantile

light

spee

ds

Q-Q-Plots gegen Normalverteilung

• Bei manchen Verteilungen müssen für Q-Q-Plots nicht alle Parameter der ange-nommenen theoretischen Verteilung schon aus den Daten bestimmt werden, son-

84

Page 85: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

dern es reicht aus, die Daten mit einer Verteilung vom gegebenen Typ zu verglei-chen.

• Dies ist zum Beispiel für die Normalverteilung richtig, hier kann man die empiri-schen Quantile der Beobachtungswerte z.B. mit den theoretischen Quantilen derStandardnormalverteilung vergleichen.

• Folgen die Beobachtungswerte einer beliebigen Normalverteilung, liegen die Punk-te etwa auf einer Geraden (nicht unbedingt mit Anstieg 1 und durch den Koordi-natenursprung).

• Dies folgt aus der Beziehung zp =xp − µσ

zwischen den Quantilen xp fürX ∼ N(µ, σ2) und zp für Z ∼ N(0, 1) .

• Diese Eigenschaft kann allerdings nicht für jeden Verteilungstyp genutzt werden,z.B. nicht für die Lognormalverteilung.

Q-Q-Plot Lichtgeschw. gegen Normalverteilung N(0, 1)

> qqnorm(lightspeeds, main="Q-Q-Plot Lichtgeschwindigkeiten gegen N(0,1)")

−2 −1 0 1 2

2997

0029

9800

2999

0030

0000

Q−Q−Plot Lichtgeschwindigkeiten gegen N(0,1)

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Q-Q-Plot Lichtgeschw. gegen Lognormalverteilung

Vergleich mit theoretischer Verteilung von exp(X) mit X ∼ N(0, 1) .

> qqplot(qlnorm(ppoints(100),meanlog=0,sdlog=1),+ lightspeeds,xlab="Theoret. Quantile",+ main="Q-Q-Plot Lichtgeschw. gegen Lognormalvert.")

85

Page 86: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

0 2 4 6 8 10 12

2997

0029

9800

2999

0030

0000

Q−Q−Plot Lichtgeschw. gegen Lognormalvert.

Theoret. Quantile

light

spee

ds

Q-Q-Plot Lichtgeschw. gegen Exponentialverteilung mit geschätztem Erwar-tungswert

> qqplot(qexp(ppoints(100),rate=1/mean(lightspeeds)),+ lightspeeds,xlab="Theoret. Quantile",+ main="Q-Q-Plot Lichtgeschw. gegen Exponentialvert.")

0 500000 1000000 1500000

2997

0029

9800

2999

0030

0000

Q−Q−Plot Lichtgeschw. gegen Exponentialvert.

Theoret. Quantile

light

spee

ds

Bemerkungen zu Q-Q-Plots

• Ist der Anstieg der Kurve im Q-Q-Plot an einem oder beiden Enden wesentlichsteiler als im Mittelteil, deutet dies auf eine extremere Verteilung der Extremwertehin, als dies nach der angenommenen Verteilung erwartet wird. Dann könnten

86

Page 87: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

z.B. Verteilungen mit schweren Enden geeignet sein (bei denen eine Annäherungder Funktionswerte der Verteilungsfunktion an 0 bzw. 1 eher durch eine Potenz-statt eine Exponentialfunktion beschrieben wird).

• Ist jedoch der Anstieg der Kurve im Q-Q-Plot an einem oder beiden Enden we-sentlich flacher als im Mittelteil, ist eher eine Verteilung mit einer schnellerenKonvergenz der Funktionswerte der Verteilungsfunktion an 0 bzw. 1 als beider angenommenen Verteilung oder eine Verteilung mit begrenztem Wertebereichgeeignet.

• Ausreißer sind ggf. durch einzelne, weit von der Kurve entfernte Punkte an denRändern sichtbar.

Weitere Bemerkungen zu Q-Q-Plots

• Klare Bogenformen weisen bei einer symmetrischen theoretischen Verteilung aufeine schiefe Verteilung hin.

• Liegen mehrere aufeinanderfolgende Punkte auf einer waagerechten Linie zusam-men, entsprechen diese übereinstimmenden Beobachtungswerten. Das Mehrfach-auftreten übereinstimmender Beobachtungswerte wird auch als Bindung bezeich-net. Sie können zum Beispiel hindeuten auf

– gerundete Beobachtungswerte;

– eine ungenaue Datenerhebung;

– das Ersetzen von fehlenden Werten durch Standardwerte;

– spezielle Werte mit positiver Wahrscheinlichkeit, wenn also nicht wirklich einestetige Verteilung vorliegt.

(c) Empirische Verteilungsfunktion

• Die empirische Verteilungsfunktion F (x) ist eine Schätzung der theoretischenVerteilungsfunktion FX(x) = P(X < x) (bzw. FX(x) = P(X ≤ x)) aus denBeobachtungswerten x1, . . . , xn.

• Es gilt

F (x) =Anzahl der i mit xi < x (bzw. ≤ x)

n, x ∈ R .

• Eine empirische Verteilungsfunktion ist eine stückweise konstante Funktion mitSprüngen und den anderen Eigenschaften einer Verteilungsfunktion.

• Bindungen erzeugen höhere Sprünge.

• Man kann Quantile aus der empirischen Verteilungsfunktion ablesen.

87

Page 88: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Die empirischen Verteilungsfunktionen konvergieren für n → ∞ unter üblichenBedingungen gegen die Verteilungsfunktion FX(x) („Hauptsatz der mathemati-schen Statistik“, „Satz von Gliwenko“).

Empirische Verteilungsfunktion Lichtgeschwindigkeiten

> plot(ecdf(lightspeeds),main="Empir. Verteilungsfkt. Lichtgeschw.")

299600 299700 299800 299900 300000 300100

0.0

0.2

0.4

0.6

0.8

1.0

Empir. Verteilungsfkt. Lichtgeschw.

x

Fn(

x)

Empirische Verteilungsfunktion Lichtgeschwindigkeiten und Normalvertei-lung (mit geschätzten Parametern)

> plot(ecdf(lightspeeds),main="Empir. Verteilungsfkt. Lichtgeschw.")> curve(pnorm(x,mean=mean(lightspeeds), sd=sd(lightspeeds)),add=TRUE,col=2)

88

Page 89: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

299600 299700 299800 299900 300000 300100

0.0

0.2

0.4

0.6

0.8

1.0

Empir. Verteilungsfkt. Lichtgeschw.

x

Fn(

x)

4.2.5 Kenngrößen für kategorielle Daten

• Für eine diskrete Wahrscheinlichkeitsverteilung ist der Modalwert (auch Modusoder Mode) die Merkmalsausprägung, die mit der größten Wahrscheinlichkeit auf-treten kann. Es kann auch mehrere derartige Ausprägungen geben, sie treten dannalle mit derselben Wahrscheinlichkeit auf.

• Entsprechend ist für einen Datensatz der empirische Modalwert die Merkmals-ausprägung (bzw. sind die Merkmalsausprägungen), die am häufigsten vorkommt(bzw. vorkommen).

• Für diskrete Daten können außerdem die Anteile als Kenngrößen von Interessesein, zur Berechnung dieser werden die absoluten Häufigkeiten der Merkmalswertepro Merkmalsausprägung durch die Gesamtzahl der Beobachtungen geteilt.

• Im Beispiel:

> margin(Titanic,"Survived")/sum(Titanic)

No Yes0.676965 0.323035

4.2.6 Grafiken, Kenngrößen für multivariate stetige Daten

(a) Streudiagramm

• Für bivariate stetige Daten (eine verbundene zweidimensionale Stichprobe) könnendie Datenpunkte in einem Streudiagramm dargestellt werden, d.h. als Punkte ineinem kartesischen Koordinatensystem.

• Wie das Punktdiagramm ist auch das Streudiagramm anfällig gegenüber Bindun-gen, die durch Überlagerung unsichtbar werden.

89

Page 90: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Kenngrößen kann man aus dem Streudiagramm im Allgemeinen schlecht schätzen.

• Man kann im Allgemeinen schlecht Ausreißer im Streudiagramm identifizieren.

• Die Lage des Nullpunktes und die Achseneinheiten und Grenzen können den Ein-druck den ein Streudiagramm macht stark beeinflussen.

Beispiel Streudiagramm im Datensatz „Iris“

> data(iris)> plot(iris$Sepal.Length,iris$Sepal.Width, xlab="Sepal.Length",+ ylab="Sepal.Width")

4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0

2.0

2.5

3.0

3.5

4.0

Sepal.Length

Sep

al.W

idth

Einzelne Punktdiagramme im Beispiel

> stripchart(iris$Sepal.Length,method="stack", xlab="Sepal.Length")> stripchart(iris$Sepal.Width,method="stack", xlab="Sepal.Width")

90

Page 91: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0

Sepal.Length

2.0 2.5 3.0 3.5 4.0

Sepal.Width

(b) Der empirische (gewöhnliche) Korrelationskoeffizient

• Für eine konkrete Stichprobe (x1, y1) , . . . , , (xn, yn) definiert man den empirischenKorrelationskoeffizienten

rX,Y

=

n∑i=1

(xi − x) (yi − y)√n∑i=1

(xi − x)2n∑i=1

(yi − y)2

.

• Er ist eine Schätzung des theoretischen Korrelationskoeffizienten und wird auchgewöhnlicher oder (Bravais-)Pearsonscher Korrelationskoeffizient genannt und esgilt auch

rX,Y

=

n∑i=1

xiyi − n · x · y√(n∑i=1

x2i − nx2

)(n∑i=1

y2i − n y2

) .

Eigenschaften des gewöhnlichen Korrelationskoeffizienten

• Es gelten rX,Y

= rY,X

und −1 ≤ rX,Y≤ 1 .

• Der gewöhnliche Korrelationskoeffizient rX,Y

ist ein Maß für die Stärke und Rich-tung des linearen Zusammenhanges zwischen den x− und y−Werten der Stichpro-benwerte (xi, yi) , i = 1, . . . , n .

• rX,Y

> 0 bedeutet unter anderem, dass großen x−Werten eher große y−Werteentsprechen und umgekehrt. Man spricht dann von positiver oder gleichsinnigerKorrelation .

91

Page 92: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• rX,Y

< 0 bedeutet unter anderem, dass großen x−Werten eher kleine y−Werteentsprechen und umgekehrt. Man spricht dann von negativer oder ungleichsinnigerKorrelation .

• Für Werte |rX,Y| nahe bei 1 liegt eine stark ausgeprägte lineare Beziehung

zwischen den x− und y−Werten vor.

• Insbesondere im Fall von normalverteilten Zufallsvektoren können die gewöhnli-chen Korrelationskoeffizienten gut interpretiert und für statistische Schlüsse ge-nutzt werden.

Streudiagramme für simulierte Werte

Streudiagramme (Scatterplots) von 1000 simulierten Realisierungenvon normalverteilten Zufallsvektoren (X, Y ) mit

EX = EY = 0 , VarX = VarY = 1 sowieρ = −1 (links), ρ = 0 (mitte) und ρ = 1 (rechts).

ρ = ±0.3 (links), ρ = ±0.5 (mitte), ρ = ±0.9 (rechts).

92

Page 93: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

(c) Rangkorrelation

• Möchte man statistische Aussagen über den Zusammenhang zweier nichtnormal-verteilter Merkmale X und Y treffen (eventuell auch nur ordinal messbar),kann man den Rangkorrelationskoeffizienten von Spearman r(S)

X,Ynutzen. Der Zu-

sammenhang bezieht sich dann auf die Ordnungsbeziehung (nicht einen linearenZusammenhang).

• Man bestimmt einzeln für die x−Werte und die y−Werte der vektoriellen Stich-probe Ränge R(xi) bzw. R(yi) , i = 1, . . . , n .

• Zur Bestimmung der Ränge werden die Werte der Größe nach geordnet, der klein-ste erhält Rang 1, der zweitkleinste Rang 2 usw. Treten Bindungen (also überein-stimmende Werte in jeweils einer Datenreihe) auf, wird der arithmetische Mittel-wert der zugehörigen Rangzahlen als Rang gewählt.

• Beispiel:Wert 1 2 2 3.5 10Rang 1 2.5 2.5 4 5

Spearmanscher Rangkorrelationskoeffizient

• Der Spearmansche Rangkorrelationskoeffizient wird berechnet, indem in der For-mel für den gewöhnlichen Korrelationskoeffizienten die Werte der Zufallsgrößenund Mittelwerte durch die Werte der Ränge und entsprechend der Mittelwerte derRänge ersetzt werden, also die Ränge selbst als Merkmalswerte betrachtet werden,

r(S)X,Y

=

n∑i=1

(R(xi)−R(x)

)(R(yi)−R(y)

)√

n∑i=1

(R(xi)−R(x)

)2√

n∑i=1

(R(yi)−R(y)

)2.

• Liegen sowohl in der Stichprobe x1, . . . , xn als auch in der Stichprobe y1, . . . , ynkeine Bindungen vor, gilt auch

r(S)X,Y

= 1−6

n∑i=1

(R(xi)−R(yi))2

n(n2 − 1).

Eigenschaften von r(S)X,Y

• Es gilt |r(S)X,Y| ≤ 1 .

• r(S)X,Y

ist ein Maß für die Stärke des monotonen Zusammenhangs von X und Y ,das Vorzeichen von r(S)

X,Yist ein Maß für die Richtung des monotonen Zusammen-

hangs von X und Y .

93

Page 94: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Im Fall von |r(S)X,Y| = 1 besteht eine streng monotone Beziehung zwischen X und

Y .

• Übersteigt der Betrag des Spearmanschen Korrelationskoeffizienten den Betragdes Pearsonschen Korrelationskoeffizienten deutlich, so liegt vermutlich ein nicht-linearer monotoner (oder antitoner) Zusammenhang vor oder es gibt Ausreißer.

• Übersteigt der Betrag des Pearsonschen Korrelationskoeffizienten den Betrag desSpearmanschen Korrelationskoeffizienten deutlich, so liegen vermutlich Ausreißervor.

Rangverfahren

• Die Nutzung des Spearmanschen Korrelationskoeffizienten gehört zu den Rangver-fahren, bei denen die Daten durch ihre Ränge ersetzt werden.

• Dies hat den Vorteil, dass die (meist unbekannte) Verteilung keine große Rollemehr spielt.

• Als Nachteile bei einem solchen Vorgehen kann man nennen:

– Man nutzt (viel) weniger Information.

– Die Interpretation von Kenngrößen etc. ist schwieriger.

– Die Bestimmung der Ränge (und dann zu nutzende Formeln, Eigenschaften,etc.) kann problematischer sein.

• Im Beispiel:> cor(iris$Sepal.Length,iris$Sepal.Width)

[1] -0.1175698

> cor(iris$Sepal.Length,iris$Sepal.Width, method="spearman")

[1] -0.1667777

(d) Q-Q-Plot zum Vergleich zweier Merkmale

• Einen Q-Q-Plot kann man auch zum Vergleich der beiden empirischen Randver-teilungen einer zweidimensionalen Stichprobe (x1, y1), . . . , (xn, yn) nutzen.

• Dazu berechnet man die empirischen Quantile für beide Komponenten extra (wiefür den Vergleich eines Merkmals mit einer theoretischen Verteilung), bildet ent-sprechende Wertepaare und zeichnet diese als Punkte in ein kartesisches Koordi-natensystem.

• Liegen diese Punkte etwa auf einer Geraden mit Anstieg 1 durch den Koordina-tenursprung, stimmen die Verteilungen der beiden Komponenten näherungsweiseüberein, liegen sie etwa auf einer anderen Geraden sind die Verteilungen der beidenMerkmalsgrößen näherungsweise durch eine lineare Transformation (eigentlich: li-near affine Transformation) miteinander verbunden.

94

Page 95: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Beispiel Q-Q-Plot zum Vergleich zweier Merkmale

> qqplot(iris$Sepal.Length,iris$Petal.Length, xlab="Sepal.Length",+ ylab="Petal.Length",main="Q-Q-Plot Vergleich zweier Merkmale")

4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0

12

34

56

7Q−Q−Plot Vergleich zweier Merkmale

Sepal.Length

Pet

al.L

engt

h

(e) Streudiagrammmatrix

• Zum Veranschaulichung von mehr als zwei stetigen Merkmalen kann man z.B.eine Streudiagrammmatrix nutzen. Dazu werden die Streudiagramme für je zweiunterschiedliche Merkmale erzeugt und in Matrixform angeordnet.

• Für den R-Beispieldatensatz „Iris“ erhält man z.B. mit dem R-Befehl> pairs(list(iris$Sepal.Length,iris$Sepal.Width,

+ iris$Petal.Length,iris$Petal.Width),

+ labels=list("Sepal.Length","Sepal.Width",

+ "Petal.Length","Petal.Width"))

die auf der nächsten Folie gezeigte Matrix.

95

Page 96: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Beispiel Streudiagrammmatrix

Sepal.Length

2.0 2.5 3.0 3.5 4.0

0.5 1.0 1.5 2.0 2.5

4.5

5.5

6.5

7.5

2.0

2.5

3.0

3.5

4.0

Sepal.Width

Petal.Length

12

34

56

7

4.5 5.5 6.5 7.5

0.5

1.0

1.5

2.0

2.5

1 2 3 4 5 6 7

Petal.Width

4.2.7 Grafiken für multivariate diskrete Daten

(a) Gestapelte Balkendiagramme

• Bei gestapelten Balkendiagrammen werden Rechtecke mit Flächeninhalten propor-tional zu den Anzahlen entsprechend der Ausprägungen einer zweiten Variablenübereinander abgetragen.

• Damit können sowohl absolute Häufigkeiten als auch die bedingte Verteilung derzweiten Variable gegeben die erste Variable wahrgenommen werden. Beide könnenaber vom Auge nicht direkt quantitativ bewertet werden.

• Die Reihenfolge der Variablen ist für die Darstellung wesentlich.

• Bei ordinalen Daten sollte man die Reihenfolge der Merkmalsausprägungen be-achten.

• In den Beispielen wird der Datensatz „Titanic“ genutzt.

> X=apply(Titanic,c(2,3),sum)

> X

96

Page 97: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

AgeSex Child AdultMale 64 1667Female 45 425

Beispiel gestapelte Balkendiagramme

> barplot(X,main="Passagiere der Titanic (dunkel: männlich, hell: weiblich)")# links> barplot(t(X),main="Passagiere der Titanic (dunkel:Kind, hell:Erwachsener)")# rechts

Child Adult

Passagiere der Titanic (dunkel: männlich, hell: weiblich)

050

010

0015

0020

00

Male Female

Passagiere der Titanic (dunkel: Kind, hell: Erwachsener)

050

010

0015

00

(b) Parallele Balkendiagramme

• Bei parallelen Balkendiagrammen werden die Rechtecke zu den verschiedenenMerkmalsausprägungen der zweiten Variablen nebeneinander gezeichnet.

• Damit erlauben sie einen direkten Vergleich der absoluten Häufigkeiten, bedingteVerteilungen können aber im Allgemeinen nicht so gut wahrgenommen werden.

Beispiel parallele Balkendiagramme

> barplot(X,main="Passagiere der Titanic (dunkel: männlich, hell: weiblich)")+ beside=TRUE) # links> barplot(t(X),main="Passagiere der Titanic (dunkel:Kind, hell:Erwachsener)")+ beside=TRUE) # rechts

97

Page 98: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Child Adult

Passagiere der Titanic (dunkel: männlich, hell: weiblich)

050

010

0015

00

Male Female

Passagiere der Titanic (dunkel: Kind, hell: Erwachsener)

050

010

0015

00

(c) Mosaikplots

• Mosaikplots eignen sich besonders gut zur gleichzeitigen arstellung mehrerer kate-gorieller Variablen.

• Bedingte Verteilungen sind besser wahrzunehmen.

Beispiel Mosaikplots

> mosaicplot(X,main="Passagiere der Titanic",color=c(2,4)) # links> mosaicplot(t(X),main="Passagiere der Titanic",color=c(2,4)) # rechts

98

Page 99: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Beispiel Mosaikplot mit mehr als 2 Variablen

> mosaicplot(Titanic,main="Passagiere der Titanic")

Passagiere der Titanic

Class

Sex

1st 2nd 3rd CrewM

ale

Fem

ale

Child AdultN

oYe

sN

oYe

sChild Adult Child Adult Child Adult

4.2.8 Graphiken für gemischte multivariate Daten

(a) Parallele Punktdiagramme

• Bei der Darstellung eines Datensatzes mit einer diskreten und einer stetigen Varia-blen können zum Beispiel parallele Darstellungen der stetigen Variablen für jedeMerkmalsausprägung der diskreten Variablen genutzt werden.

• Ein Beispiel liefern parallele Punktdiagramme, bei denen Punktdiagramme neben-oder übereinander gezeichnet werden, so dass ein guter anschaulicher Vergleichmöglich ist.

• Im Beispiel nutzen wir den R-Datensatz „Iris“.

Beispiel paralleles Punktdiagramm

> data(iris)> stripchart(split(iris$Sepal.Length,iris$Species),+ method="stack",main="Sepal.Length")

99

Page 100: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0

seto

save

rsic

olor

virg

inic

a

Sepal.Length

(b) Parallele Box-Plots

• Das Verfahren bei den Punktdiagrammen kann auch für Box-Plots genutzt werden.

• Werden dabei gekerbte Box-Plots genutzt und kann man näherungsweise von nor-malverteilten Daten ausgehen, kann man mitunter noch aus der Anschauung her-aus Aussagen über den Median treffen:

Überlappen sich die Kerben nicht, kann man mit einer geringen Irrtumswahr-scheinlichkeit von unterschiedlichen Medianen ausgehen.

• Ein objektiverer Vergleich kann durch statistische Tests erfolgen.

Beispiel paralleles Box-Plot

> data(iris)> boxplot(split(iris$Sepal.Length,iris$Species), main="Sepal.Length")

100

Page 101: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

setosa versicolor virginica

4.5

5.0

5.5

6.0

6.5

7.0

7.5

8.0

Sepal.Length

Beispiel gekerbtes paralleles Box-Plot

> data(iris)> boxplot(split(iris$Sepal.Length,iris$Species), main="Sepal.Length",+ notch=TRUE)

setosa versicolor virginica

4.5

5.0

5.5

6.0

6.5

7.0

7.5

8.0

Sepal.Length

101

Page 102: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

(d) Weitere Möglichkeiten

Farben, Symbole und Beschriftungen eignen sich, um eine oder mehrere kategorielleInformation(en) zusätzlich zu jeder stetigen Graphik, welche die Fälle durch separatePunkte trennt, hinzuzufügen, zum Beispiel:

> plot(iris$Sepal.Length,iris$Sepal.Width,+ col=c("red","green","blue")[iris$Species],+ main="Kelchblatt",xlab="Länge",ylab="Breite")

4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0

2.0

2.5

3.0

3.5

4.0

Kelchblatt

Länge

Bre

ite

5 Schließende Statistik

5.1 Statistische Tests (Signifikanztests)

• Mit Hilfe von statistischen Tests (Signifikanztests) überprüft man, ob die vor-handenen Daten mit bestimmten Annahmen an die Verteilung der zugehörigenZufallsgrößen verträglich sind.

• Dabei muss man berücksichtigen, dass bedingt durch die Zufallssituation unddie zufällige Streuung der Realisierungen der Zufallsgrößen im Allgemeinen kei-ne 100%-ig richtigen Entscheidungen (die Annahmen an die Verteilung stimmen/ stimmen nicht) getroffen werden können, sondern dass jede Entscheidung auchfehlerhaft sein kann.

• Deshalb versucht man die Wahrscheinlichkeit dafür, dass die Entscheidung fehler-haft ist, zu kontrollieren.

Beispielaufgabe: Waschmittelpackungen

• Bei einem Verbrauchertest für Waschmittel werde auch die Abfüllmenge kontrol-liert. Dabei ergaben sich bei 10 zufällig ausgewählten 5 kg Packungen einer be-stimmten Sorte folgende Abfüllmengen (in kg) :

4.6 , 4.95 , 4.8 , 4.9 , 4.75 , 5.05 , 4.9 , 5.1 , 4.85 , 4.95 .

102

Page 103: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Ist auf der Basis dieser Beobachtungswerte die Auffassung vertretbar, dass diePackungen im Mittel weniger Waschmittel als angegeben enthalten ?

• Wir modellieren die tatsächliche Abfüllmenge (in kg) einer Waschmittelpackungals Zufallsgröße X .

• Berechnete Schätzwerte für den Erwartungswert, die Standardabweichung und dieVarianz der Merkmalsgröße sind:

x = 4.885 , s = 0.145 , s2 = 0.0211 .

Überlegungen zur Beispielaufgabe

• Der Erwartungswert µ ist unbekannt.

• Zu überprüfen ist die Richtigkeit der Vermutung, dass der Erwartungswert µkleiner ist als der Sollwert µ0 = 5 .

• Dies kann aber nicht einfach aus der Tatsache

x = 4.885 < 5 = µ0

gefolgert werden.

• Man kann schließlich zufällig eine Stichprobe mit geringen Abfüllmengen erwischthaben.

Grundlegende Überlegungen zu statistischen Tests

• Aufstellen der Hypothesen:Man formuliert 2 Hypothesen, die Nullhypothese H0 und die AlternativhypotheseHA (oft auch mit H1 bezeichnet)z.B. H0 : µ = µ0 und HA : µ 6= µ0

oder H0 : µ = µ0 und HA : µ < µ0 .Beachte: Die Hypothese, die statistisch abgesichert werden soll, sollte als Alter-nativhypothese formuliert werden!

• 2 mögliche Entscheidungen beim Testen:

1. H0 wird verworfen : Es gibt in der erhobenen Stichprobe starke Hinweisedarauf, dass H0 nicht gelten kann, also HA gelten muss. Diese Hinweisesind so stark, dass man nicht von einem zufälligen Zustandekommen ausgehenkann.

2. H0 wird nicht verworfen : Man hat keine Hinweise gefunden, die gegen H0

sprechen. Alle aufgetretenen Effekte könnten genausogut zufallsbedingt sein.

• Statistisches Testproblem: Aufgabenstellung zwischen der Gültigkeit von H0

und HA zu unterscheiden.

103

Page 104: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Statistischer Test: formale Entscheidungsregel für eine der zwei Möglichkeiten.

• Mögliche Fehler beim Testen:

– Fehler 1. Art: man verwirft H0 , obwohl H0 richtig ist.

– Fehler 2. Art: man verwirft H0 nicht, obwohl H0 falsch ist.

⇒ Tests sind so zu konstruieren, dass beide Fehler möglichst klein sind.

• Aber es können nicht beide Fehler gleichzeitig kontrolliert werden.

⇒ Man gibt sich eine (relativ kleine) obere Schranke für die Wahrscheinlichkeit desFehlers 1. Art vor, die nicht überschritten werden soll – das sogenannte Signifi-kanzniveau α.

• Übliche Werte für das Signifikanzniveau α sind 0.05 oder 0.01 .

• In der Regel wird ein statistischer Test so konstruiert, dass er unter allen Tests,für die die Wahrscheinlichkeit des Fehlers 1. Art das gegebene Signifikanzniveaunicht überschreitet, den Fehler 2. Art minimiert.

• Wie erhält man eine Entscheidungsregel für ein gegebenes Testproblem?

• Im obigen Beispiel würde man intuitiv so vorgehen:

– Liegt die Schätzung x für µ über oder nur knapp unter µ0 = 5 , so kannman nicht mit hinreichender Sicherheit schließen, dass H0 : µ ≥ µ0 = 5nicht gilt.

– Liegt hingegen x unter einem kritischen Wert deutlich unter µ0 = 5 , sokann man die Nullhypothese verwerfen.

– Wie weit der kritische Wert unter µ0 liegen muss, hängt vom Signifikanzni-veau α und dem Stichprobenumfang ab.

Allgemeine Struktur der Entscheidungsregel

• Im Allgemeinen besteht die Entscheidungsregel für ein Testproblem aus einer Test-größe T und einem kritischen Bereich Kα .

• Testgröße T :

– ist eine Stichprobenfunktion (d.h. eine Funktion der mathematischen Stich-probe X1, ..., Xn), also eine Zufallsgröße;

– ist bei Parametertests oft eine Schätzfunktion für den zu testenden Parameteroder davon abgeleitet (im Beispiel X);

– hat eine bekannte Verteilung bei Gültigkeit der Nullhypothese.

104

Page 105: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

– Setzt man statt der mathematischen Stichprobe eine konkrete Stichprobex1, ..., xn ein, so erhält man eine reelle Zahl t als Realisierung der Zufalls-größe T .

• Kritischer Bereich (Ablehnungsbereich) Kα :

– ist von α abhängig;

– wird so konstruiert, dass P(T ∈ Kα|H0) ≤ α gilt.

– Im Beispiel ist Kα = t ∈ R : t < tα , wobei tα der oben erwähntekritische Wert ist.

Entscheidung beim Test

• Die Entscheidung lautet dann: ist t ∈ Kα , so wird H0 verworfen, andernfallsnicht.

• Alternative Entscheidungsregel (zumeist in statistischer Software umgesetzt):

– Berechnung eines p-Werts : p = minα : t ∈ Kα ;– H0 wird verworfen, wenn p ≤ α , bei p > α wird H0 beibehalten.

Allgemeiner Testablauf

• Allgemeiner Ablauf eines statistischen Tests:

1. Aufstellen der Hypothesen

2. Festlegen des Signifikanzniveaus α

3. Bestimmen der Testgröße T

4. Berechnung der Realisierung t der Testgröße T auf der Basis derkonkreten Stichprobe (x1, . . . , xn)

5. Bestimmen des kritischen Bereichs Kα bzw. des p-Wertes

6. Testentscheidung:t ∈ Kα ⇔ p ≤ α ⇒ Ablehnung von H0 ;t 6∈ Kα ⇔ p > α ⇒ Stichprobe spricht nicht gegen H0 .

7. Schlussfolgerung für die gegebene AufgabenstellungIm Beispiel :Die Vermutung, dass das Gewicht der Waschmittelpackungen systematischgeringer als 5 kg ist, ist (nicht) statistisch abgesichert.

105

Page 106: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Interpretation der Testergebnisse

• Beim Testen wird nur die Wahrscheinlichkeit für den Fehler 1. Art kontrolliert,d.h. P(H0 ablehnen | H0 ist wahr) ≤ α .

• Wenn also H0 tatsächlich gilt, wird man sich nur in α · 100% der Fälle für HA

entscheiden.

• Die Entscheidung für HA ist in diesem Sinn statistisch abgesichert.

• Bei einer Entscheidung gegen H0 und damit für HA spricht man von einemsignifikanten Ergebnis.

• Die Wahrscheinlichkeit für den Fehler 2. Art wird nicht kontrolliert.

⇒ Eine Entscheidung H0 beizubehalten ist nicht statistisch abgesichert.

⇒ Kann man H0 nicht verwerfen, bedeutet das daher nicht, dass man sich „aktiv“für H0 entscheidet; es spricht nur nichts gegen H0 .

Auswahl eines geeigneten Tests

• Da es eine Vielzahl unterschiedlicher Tests gibt, ist die Auswahl eines geeignetenTests eine wichtige Aufgabe.

• Bei dieser Auswahl spielen unter anderem eine Rolle

– das Skalenniveau des Merkmals oder der Merkmale;

– die Stichprobensituation: eine Stichprobe von reellen Werten / eine vektorielleStichprobe (eine gepaarte oder verbundene Stichprobe) / zwei (unabhängige)Stichproben / mehr als zwei (unabhängige) Stichproben;

– Vorkenntnisse (z.B. durch vorangegangene Tests) oder Annahmen an die Ver-teilung der Merkmalszufallsgröße(n);

– die zu lösende Aufgabenstellung, z.B. im Hinblick auf mögliche unterschied-liche Alternativhypothesen zu einer gewählten Nullhypothese.

• Viele Tests sind in Statistikcomputerprogrammen verfügbar, auch in R. Dann istneben der Auswahl eines geeigneten Tests auch wichtig, die Vorgehensweise bzw.den Aufruf zu kennen und die Ergebnisse richtig auszuwerten.

5.1.1 Tests für eine Stichprobe mit stetiger Skala

a) Shapiro-Wilk-Test

• Mit dem Shapiro-Wilk-Test überprüft man, ob die Daten mit einer Normalver-teilung verträglich sind.

• Geg.: konkrete Stichprobe x1, . . . , xn .

106

Page 107: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Vor.: Merkmalszufallsgröße X auf stetiger Skala; repräsentative Stichprobe.

• Hyp.: H0 : X ist normalverteilt ; H1 : X ist nicht normalverteilt

• R-Aufruf: shapiro.test()

• Bem.:

– Die Parameter der vermuteten Normalverteilung (Erwartungswert und Vari-anz) müssen nicht bekannt sein.

– Der Test reagiert sensibel auf Ausreißer.

– Der Test ist relativ anfällig gegenüber Bindungen, deshalb sollten die Wertenicht stark gerundet sein.

– Die Teststärke ist insbesondere bei kleinen Stichprobenumfängen größer alsbei allgemeinen Anpassungstests, wie dem Kolmogorow-Smirnow-Testoder dem χ2−Anpassungstest.

Bsp. Shapiro-Wilk-Test für exponentialverteilte Daten

> x1=rexp(50) # Simulation der exponentialverteilten Werte> shapiro.test(x1)

Shapiro-Wilk normality testdata: x1W = 0.8657, p-value = 4.249e-05 # W ist Wert der Teststatistik> hist(x1) # Histogramm> qqnorm(x1) # Q-Q-Plot bzgl. Normalverteilung

Histogram of x1

x1

Fre

quen

cy

0 1 2 3 4

05

1015

20

−2 −1 0 1 2

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

107

Page 108: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Bsp. Shapiro-Wilk-Test für normalverteilte Daten

> x2=rnorm(50) # Simulation der normalverteilten Werte> shapiro.test(x2)

Shapiro-Wilk normality testdata: x2W = 0.9894, p-value = 0.9309 # W ist Wert der Teststatistik> hist(x2) # Histogramm> qqnorm(x2) # Q-Q-Plot bzgl. Normalverteilung

Histogram of x2

x2

Fre

quen

cy

−3 −2 −1 0 1 2

02

46

810

−2 −1 0 1 2

−3

−2

−1

01

2

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

b) Kolmogorow-Smirnow-Test

• Mit dem Kolmogorow-Smirnow-Test überprüft man, ob die Daten mit einervorgebenen Verteilung verträglich sind.

• Geg.: konkrete Stichprobe x1, . . . , xn .

• Vor.: Merkmalszufallsgröße X auf stetiger Skala; repräsentative Stichprobe.

• Hyp.:H0 : FX = F0 (Verteilungsfunktion von X ist F0) ;H1 : FX 6= F0 (Verteilungsfunktion von X ist nicht F0) .

• R-Aufruf: ks.test(,)

• Bem.:

– Die Verteilungsfunktion F0 muss vollständig bekannt sein, insbesondere alleParameter.

– Es gibt Varianten des Tests für spezielle Fälle mit geschätzten Parametern.– Der Test ist relativ anfällig gegenüber Bindungen, deshalb sollten die Werte

nicht stark gerundet sein.

108

Page 109: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Bsp. Kolmogorow-Smirnow-Test mit R

> x1=rexp(50) # Simulation der exponentialverteilten Werte (Parameter=1)> ks.test(x1,"pexp") # Test auf Exponentialverteilung mit Parameter=1

One-sample Kolmogorov-Smirnov test

data: x1D = 0.1029, p-value = 0.6279 # D ist Wert der Teststatistikalternative hypothesis: two-sided

> ks.test(x1,"pexp",2) # Test auf Exponentialverteilung mit Parameter=2

One-sample Kolmogorov-Smirnov test

data: x1D = 0.2696, p-value = 0.001061 # D ist Wert der Teststatistikalternative hypothesis: two-sided

> x2=rnorm(50) # Simulation der normalverteilten Werte> ks.test(x2,"pnorm")

One-sample Kolmogorov-Smirnov test

data: x2D = 0.12592, p-value = 0.3747 # D ist Wert der Teststatistikalternative hypothesis: two-sided

c) χ2− Anpassungstest

• Mit dem χ2− Anpassungstest überprüft man, ob die Daten mit einer vorgebenenVerteilung verträglich sind.

• Geg.: konkrete Stichprobe x1, . . . , xn .

• Vor.: Merkmalszufallsgröße X auf stetiger Skala (auch für andere möglich);repräsentative Stichprobe.

• Hyp.:H0 : FX = F0 (Verteilungsfunktion von X ist F0) ;H1 : FX 6= F0 (Verteilungsfunktion von X ist nicht F0) .

• R-Aufruf: chisq.test(,)

Bemerkungen zum χ2− Anpassungstest

• Der χ2−Anpassungstest für stetige Daten basiert auf einer Klasseneinteilung derStichprobe und dem Vergleich der theoretischen Häufigkeiten der Werte in denKlassen mit den empirischen Häufigkeiten.

109

Page 110: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Die Testgröße ist unter H0 asymptotisch χ2−verteilt, dies ist eine häufiger vor-kommende statistische Prüfverteilung mit einem Parameter, der Anzahl der Frei-heitsgrade genannt wird. Sie kann nur nichtnegative Werte annehmen.

• Die theoretische Häufigkeit sollte pro Klasse mindestens 5 sein.

• Der Wert der Testgröße (und damit ggf. das Testergebnis) hängt von der gewähltenKlasseneinteilung ab, außerdem ist es nur ein asymptotischer Test.

Bsp. χ2− Anpassungstest mit R

> x2=rnorm(50) # Simulation der normalverteilten Werte> x2_cut=cut(x2,breaks=c(-3,-2,-1,0,1,2)) # Klasseneinteilung> table(x2_cut)x2_cut(-3,-2] (-2,-1] (-1,0] (0,1] (1,2]3 9 15 16 7> freq_emp=vector() # Vektor der empirischen Häufigkeiten> for(i in 1:5) freq_emp[i]=table(x2_cut)[[i]]> freq_emp[1] 3 9 15 16 7> freq_th=c(pnorm(-2)-pnorm(-3),pnorm(-1)-pnorm(-2), pnorm(0)-pnorm(-1),+ pnorm(1)-pnorm(0),pnorm(2)-pnorm(1))> freq_th # Vektor der theoretischen Häufigkeiten[1] 0.02140023 0.13590512 0.34134475 0.34134475 0.13590512> chisq.test(freq_emp,freq_th)

Pearson’s Chi-squared test

data: freq_emp and freq_thX-squared = 10, df = 8, p-value = 0.265

Warnmeldung:In chisq.test(freq_emp, freq_th) :Chi-Quadrat-Approximation kann inkorrekt sein

d) Ein-Stichproben-t-Test

• Mit dem Ein-Stichproben-t-Test werden Annahmen über den Erwartungswert ei-ner normalverteilten Grundgesamtheit bei unbekannter Varianz überprüft.

• Geg.: konkrete Stichprobe x1, . . . , xn .

• Vor.: normalverteilte Merkmalszufallsgröße X mit unbekanntem Erwartungs-wert µ und unbekannter Varianz σ2 ; repräsentative Stichprobe.

110

Page 111: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Hyp.:H0 : µ = µ0 (µ0 ist gegebene (Soll-)Größe) ;H1 : µ 6= µ0 (zweiseitig) bzw. µ < µ0 oder µ > µ0 (einseitig) .

• R-Aufruf: t.test()

• Bem.: Die Testgröße ist hier T =X − µ0

S

√n, diese ist unter H0 t−verteilt

mit n − 1 Freiheitsgraden. Die t−Verteilung oder Student-Verteilung ist eineweitere oft genutzte statistische Prüfverteilung mit einem Parameter („Anzahl derFreiheitsgrade“).

Bsp. Ein-Stichproben-t-Test mit R

• Simulation von Realisierungen N(0, 1)-verteilter Zufallsgrößen.

x=rnorm(50)

• Zweiseitiger t−Test für H0 : µ = 0 , H1 : µ 6= 0 :

> t.test(x)

One Sample t-test

data: x

t = -0.2207, df = 49, p-value = 0.8263

alternative hypothesis: true mean is not equal to 0

95 percent confidence interval:

-0.3017750 0.2420545

sample estimates:

mean of x

-0.02986026

Bsp. Ein-Stichproben-t-Test (einseitig) mit R

• Einseitiger t−Test für H0 : µ = 0, H1 : µ < 0 :

> t.test(x,alternative="less")

One Sample t-test

data: x

t = -0.2207, df = 49, p-value = 0.4131

alternative hypothesis: true mean is less than 0

111

Page 112: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

95 percent confidence interval:

-Inf 0.1969931

sample estimates:

mean of x

-0.02986026

• Einseitiger t−Test für H0 : µ = 0 , H1 : µ > 0 :

> t.test(x,alternative="greater")

One Sample t-test

data: x

t = -0.2207, df = 49, p-value = 0.5869

alternative hypothesis: true mean is greater than 0

95 percent confidence interval:

-0.2567136 Inf

sample estimates:

mean of x

-0.02986026

• Zweiseitiger t−Test für H0 : µ = 1 , H1 : µ 6= 1 :

> t.test(x,mu=1)

One Sample t-test

data: x

t = -7.6111, df = 49, p-value = 7.546e-10

alternative hypothesis: true mean is not equal to 1

95 percent confidence interval:

-0.3017750 0.2420545

sample estimates:

mean of x

-0.02986026

112

Page 113: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Zweiseitiger t−Test für H0 : µ = −0.1 , H1 : µ 6= −0.1 :

> t.test(x,mu=-0.1)

One Sample t-test

data: x

t = 0.5184, df = 49, p-value = 0.6065

alternative hypothesis: true mean is not equal to -0.1

95 percent confidence interval:

-0.3017750 0.2420545

sample estimates:

mean of x

-0.02986026

e) χ2-Test auf Streuung

• Mit dem χ2-Test auf Streuung werden Annahmen über die Varianz einer normal-verteilten Grundgesamtheit bei unbekanntem Erwartungswert überprüft.

• Geg.: konkrete Stichprobe x1, . . . , xn .

• Vor.: normalverteilte Merkmalszufallsgröße X mit unbekanntem Erwartungs-wert µ und unbekannter Varianz σ2 ; repräsentative Stichprobe.

• Hyp.:H0 : σ2 = σ2

0 (σ20 ist eine gegebene (Soll-)Größe) ;

H1 : σ2 6= σ20 (zweiseitig) bzw. σ2 < σ2

0 oder σ2 > σ20 (einseitig) .

• R-Aufruf: sigma.test() aus Zusatzpaket „TeachingDemos“.

• Die Testgröße ist hier T =(n− 1)S2

σ20

, diese ist unter H0 χ2−verteilt mit n−1

Freiheitsgraden.

Bsp. 1 χ2-Test auf Streuung mit R

Voraussetzung ist, dass das Programmpaket „TeachingDemos“ vorher installiert wurde.

> require(TeachingDemos) # Laden des Programmpakets> x=rnorm(50) # Simulation der normalverteilten Werte> sigma.test(x)

One sample Chi-squared test for variance

data: x

113

Page 114: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

X-squared = 58.4113, df = 49, p-value = 0.3359alternative hypothesis: true variance is not equal to 195 percent confidence interval:0.8318045 1.8511005sample estimates:var of x1.192068

Bsp. 2 χ2-Test auf Streuung mit R

> require(TeachingDemos) # Laden des Programmpakets> x=rnorm(50) # Simulation der normalverteilten Werte> sigma.test(x,sigmasq=1.5,alternative="less")

One sample Chi-squared test for variance

data: xX-squared = 33.8897, df = 49, p-value = 0.04946alternative hypothesis: true variance is less than 1.595 percent confidence interval:0.000000 1.498204sample estimates:var of x1.037439

f) Vorzeichentest

• Der Vorzeichentest oder Zeichentest dient als Test über den Median einer stetigenVerteilung.

• Geg.: konkrete Stichprobe x1, . . . , xn .

• Vor.: Merkmalszufallsgröße X auf stetiger Skala; repräsentative Stichprobe.

• Hyp.:H0 : X0.5 = m (m ist ein vorgebener Wert für den Median) ;H1 : X0.5 6= m .

• R-Aufruf: binom.test(table(x<m)) (für Datenvektor x).

• Die Testgröße ist die Anzahl der Stichprobenwerte, die größer oder gleich demhypothetischen Wert m für den Median sind. Sie ist unter H0 binomialverteiltmit den Parametern n und p = 0.5 . Der Test heißt deshalb auch Binomialtest(bzw. ist ein Spezialfall davon).

114

Page 115: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Bsp. Vorzeichentest

• Der Vorzeichentest wird auf simulierte exponentialverteilte mit Parameter λ = 1Daten angewandt. Der theoretische Median einer solchen exponentialverteiltenZufallsgröße ist X0.5 = ln(2) = 0.6931472 .

• >x=rexp(30) # Simulation der exponentialverteilten Werte

> binom.test(table(x<log(2)))

Exact binomial test

data: table(x < log(2))

number of successes = 14, number of trials = 30, p-value = 0.8555

alternative hypothesis: true probability of success is not equal to 0.5

95 percent confidence interval:

0.2834181 0.6567448

sample estimates:

probability of success

0.4666667

• Bei einem Test auf den (falschen) hypothetischen Medianwert m = 1 erhält manfür diese Stichprobe folgenden Ausdruck.

• > binom.test(table(x<1))

Exact binomial test

data: table(x < 1)

number of successes = 9, number of trials = 30, p-value = 0.04277

alternative hypothesis: true probability of success is not equal to 0.5

95 percent confidence interval:

0.1473452 0.4939590

sample estimates:

probability of success

0.3

115

Page 116: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Bsp. Vorzeichentest Erläuterung

• Zur Erläuterung der R-Befehle seien hier die Stichprobe und Zwischenergebnissemit angegeben.

• > x

[1] 0.474913225 1.998718750 0.236340651 1.190075521 0.204773207

[6] 1.032235380 0.381776969 0.189361459 1.148530885 0.179905086

[11] 0.367202075 0.016486336 1.634640983 0.579307548 0.841339218

[16] 0.547713449 1.440086523 0.716338951 0.906362104 1.184678989

[21] 0.203456942 0.928086586 0.267522051 4.082806101 0.553727047

[26] 0.037520679 0.003251419 0.054086418 1.102460776 0.914379178

> x<1

[1] TRUE FALSE TRUE FALSE TRUE FALSE TRUE TRUE FALSE TRUE

[11] TRUE TRUE FALSE TRUE TRUE TRUE FALSE TRUE TRUE FALSE

[21] TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE FALSE TRUE

> table(x<1)

FALSE TRUE9 21

• Die Erfolgsanzahl im Test (hier 9, die erste der durch table(x<1) zurückgegebeneZahl) ist also die Anzahl der Stichprobenwerte, für die die Bedingung (hier x < 1)nicht erfüllt ist.

Bsp. Vorzeichentest (einseitig)

• Einseitige Tests können auch durchgeführt werden.

• > binom.test(table(x<1),alternative="less")

Exact binomial test

data: table(x < 1)

number of successes = 9, number of trials = 30, p-value = 0.02139

alternative hypothesis: true probability of success is less than 0.5

95 percent confidence interval:

0.0000000 0.4650727

sample estimates:

probability of success

0.3

116

Page 117: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Hier wird zum Niveau 0.05 die Hypothese H0 : P(X ≥ 1) = 0.5 abgelehnt unddie Alternative H1 : P(X ≥ 1) < 0.5 angenommen.Dies bedeutet auch für den Median, dass er signifikant kleiner als 1 ist.

g) Wilcoxon-Vorzeichen-Rang-Test

• Beim Wilcoxon-Vorzeichen-Rang-Test werden Hypothesen über das Symmetrie-zentrum (und damit den Median) einer stetigen Verteilung geprüft.

• Geg.: konkrete Stichprobe x1, . . . , xn .

• Vor.: Merkmalszufallsgröße X mit stetiger und symmetrischer Verteilung ;repräsentative Stichprobe .

• Hyp.:H0 : X0.5 = m (m ist ein vorgebener Wert für den Median);H1 : X0.5 6= m .

• R-Aufruf: wilcox.test() .

• Die Testgröße nutzt Rangzahlen der Werte xi−m, i = 1, . . . , n und damit mehrInformationen als der Vorzeichentest.

• Bindungen können problematisch sein.

Bsp. Wilcoxon-Vorzeichen-Rang-Test

• Der Vorzeichentest wird auf simulierte t−verteilte (mit 10 Freiheitsgraden) Datenangewandt. Dies ist eine symmetrische stetige Verteilung mit dem theoretischenMedian X0.5 = 0 .

• >x=rt(n=50,df=10) # Simulation von 50 t-verteilten Werten

> wilcox.test(x)

Wilcoxon signed rank test with continuity correction

data: x

V = 627, p-value = 0.9231 # Annahme

alternative hypothesis: true location is not equal to 0

• Ein Test auf den (falschen) Median m = 1 ergibt:

> wilcox.test(x,mu=1)

Wilcoxon signed rank test with continuity correction

data: x

117

Page 118: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

V = 207, p-value = 3.312e-05 # Ablehnung

alternative hypothesis: true location is not equal to 1

5.1.2 Tests für eine gepaarte (verbundene) Stichprobe (stetige Skala)

• Gegeben sei nun eine konkrete Stichprobe (xi, yi), i = 1, . . . , n als Realisierungenvon unabhängigen und identisch verteilten stetigen Zufallsvektoren (Xi, Yi), i =1, . . . , n . Für jedes i beziehen sich die Werte xi und yi auf ein und dasselbestatistische Individuum, so dass die Zufallsgrößen Xi und Yi nicht als unabhängigangesehen werden können.

• Macht die Differenzbildung Di = Xi − Yi, i = 1, . . . , n inhaltlich Sinn, dannkönnen die Tests aus 5.1.1. auf die neu berechnete Stichprobe d1, . . . , dn (dienun univariat ist) angewandt werden, man untersucht somit ein Einstichproben-problem.

• Dabei sind insbesondere die Tests bezüglich der Lageparameter von Interesse, dadadurch eine eventuelle Verschiebung der Verteilung der Yi zu den Größen Xi

mit Hilfe eines Tests auf einen Median oder Erwartungswert 0 der Verteilung derDifferenzzufallsgrößen Di, i = 1, . . . , n überprüft werden kann.

a) Gepaarter t−Test

• Mit dem Ein-Stichproben-t-Test für D = X − Y oder dem gepaarten t−Test fürX und Y wird die Gleichheit der Erwartungswerte von X und Y bei einernormalverteilten Differenz D = X − Y mit unbekannter Varianz überprüft.

• Geg.: konkrete gepaarte Stichprobe (x1, y1) . . . , (xn, yn) .

• Vor.: normalverteilte Zufallsgröße D = X − Y mit unbekannter Varianz σ2 ;repräsentative Stichprobe .

• Hyp.:H0 : EX = EY , H1 : EX 6= EY (zweiseitiger Test) bzw.H1 : EX < EY oder H1 : EX > EY (einseitige Tests) .

• R-Aufruf: t.test(x,y,paired=TRUE)bei Datenvektoren x und y .

• Ausreißer in den Daten können Probleme bereiten.

Bsp. 1 gepaarter t−Test

• Simulation einer gepaarten Stichprobe durch Beziehung:fester Wert 2 + simulierte normalverteilte zufällige Fehlerfür die x− und y−Werte jeweils.

118

Page 119: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• > x=2+rnorm(30,sd=0.1)

> y=2+rnorm(30,sd=0.1)

• Berechnung der Differenzen und Shapiro-Wilk-Test auf Normalverteilung .

• > d=x-y

> shapiro.test(d)

Shapiro-Wilk normality test

data: d

W = 0.9745, p-value = 0.6694 # Annahme

• Durchführung des Ein-Stichproben-t-Tests für d und des äquivalenten gepaartent−Tests für x und y .

• > t.test(d)

One Sample t-test

data: d

t = 0.7479, df = 29, p-value = 0.4605 # Annahme

alternative hypothesis: true mean is not equal to 0

95 percent confidence interval:

-0.03149322 0.06780432

sample estimates:

mean of x

0.01815555

• > t.test(x,y,paired=TRUE)

Paired t-test

data: x and y

t = 0.7479, df = 29, p-value = 0.4605 # Annahme

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-0.03149322 0.06780432

sample estimates:

mean of the differences

0.01815555

119

Page 120: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Bsp. 2 gepaarter t−Test

• Simulation einer gepaarten Stichprobe durch Beziehungen2 (bei x) bzw. 3 (bei y) + simulierte normalverteilte zufällige Fehler.

• > x=2+rnorm(30,sd=0.1)

> y=3+rnorm(30,sd=0.05)

• Berechnung der Differenzen und Shapiro-Wilk-Test auf Normalverteilung .

• > d=x-y

> shapiro.test(d)

Shapiro-Wilk normality test

data: d

W = 0.9887, p-value = 0.9826 # Annahme

• Durchführung des Ein-Stichproben-t-Tests für d und des äquivalenten gepaartent−Tests für x und y .

• > t.test(d)

One Sample t-test

data: d

t = -55.026, df = 29, p-value < 2.2e-16 # Ablehnung

alternative hypothesis: true mean is not equal to 0

95 percent confidence interval:

-1.078750 -1.001433

sample estimates:

mean of x

-1.040091

• > t.test(x,y,paired=TRUE)

Paired t-test

data: x and y

t = -55.026, df = 29, p-value < 2.2e-16 # Ablehnung

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-1.078750 -1.001433

sample estimates:

120

Page 121: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

mean of the differences

-1.040091

b) Vorzeichentest für eine gepaarte Stichprobe

• Der Vorzeichentest für eine gepaarte Stichprobe ist ein Test über den Median 0der stetigen Verteilung von D = X − Y . Bei Ablehnung der Nullhypothese kannman folglich auf eine unterschiedliche „mittlere Lage“ der x− und der y−Werteschließen.

• Geg.: konkrete gepaarte Stichprobe (x1, y1) . . . , (xn, yn) .

• Vor.: Die Zufallsgröße D = X − Y besitzt eine stetige Verteilung; es liegt einerepräsentative gepaarte Stichprobe vor.

• Hypothesen: H0 : D0.5 = 0 , H1 : D0.5 6= 0 .

• R-Aufruf: binom.test(table(x<y))bei Datenvektoren x und y .

• Bindungen können problematisch sein.

Bsp. Vorzeichentest für eine gepaarte Stichprobe

• Das Vorgehen ist analog zum 2. Anwendungsbeispiel für den gepaarten t−Test,jedoch mit exponentialverteilten Fehlern.

• > x=2+rexp(30) # verschobene Exponentialverteilung

> y=3+rexp(30) # verschobene Exponentialverteilung

> shapiro.test(x-y) # Test auf Normalverteilung

Shapiro-Wilk normality test

data: x - y

W = 0.8966, p-value = 0.00693 # Ablehnung

• Vorzeichentest für eine gepaarte Stichprobe.

• > binom.test(table(x<y))

Exact binomial test

data: table(x < y)

number of successes = 7, number of trials = 30, p-value = 0.005223

alternative hypothesis: true probability of success is not equal to 0.5

121

Page 122: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

95 percent confidence interval:

0.09933786 0.42283652

sample estimates:

probability of success

0.2333333

c) Gepaarter Wilcoxon-Vorzeichen-Rang-Test

• Der gepaarte Wilcoxon-Vorzeichen-Rang-Test ist ein Test über das Symmetrie-zentrum 0 (und damit den Median 0) der stetigen Verteilung von D = X−Y . BeiAblehnung der Nullhypothese kann man folglich auf eine unterschiedliche „mittlereLage“ derx− und der y−Werte schließen.

• Geg.: konkrete gepaarte Stichprobe (x1, y1) . . . , (xn, yn) .

• Vor.: Die Zufallsgröße D = X − Y besitzt eine stetige und symmetrischeVerteilung; es liegt eine repräsentative gepaarte Stichprobe vor.

• Hyp.:H0 : Die Verteilung von D = X − Y ist symmetrisch um 0 ;H1 : Die Verteilung von D = X − Y ist symmetrisch um c 6= 0 .

• R-Aufruf: wilcox.test(x,y,paired=TRUE)bei Datenvektoren x und y .

• Bindungen können problematisch sein.

Bsp. gepaarter Wilcoxon-Vorzeichen-Rang-Test

• Das Vorgehen ist analog zum 2. Anwendungsbeispiel für den gepaarten t−Test,jedoch werden hier t−verteilte Fehler verwendet.

• > x=2+0.1*rt(30,df=10) # t-Verteilung mit 10 Freiheitsgraden

> y=3+0.1*rt(30,df=10) # t-Verteilung ist symmetrisch

> d=x-y

> shapiro.test(d) # Test auf Normalverteilung

Shapiro-Wilk normality test

data: d

W = 0.9248, p-value = 0.0358 # Ablehnung

122

Page 123: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Die Anwendung des Wilcoxon-Vorzeichen-Rang-Tests auf die Differenzen bzw.gepaart ergibt

> wilcox.test(d)

Wilcoxon signed rank test

data: d

V = 0, p-value = 1.863e-09 # Ablehnung

alternative hypothesis: true location is not equal to 0

> wilcox.test(x,y,paired=TRUE)

Wilcoxon signed rank test

data: x and y

V = 0, p-value = 1.863e-09 # Ablehnung

alternative hypothesis: true location shift is not equal to 0

5.1.3 Tests für zwei oder mehr (unabhängige) Stichproben(stetige Skala)

• Von besonderer Bedeutung sind statistische Tests bezüglich der Lageparameter fürdie (unabhängigen) Zufallsgrößen X, Y bei zwei Stichproben bzw. X1, . . . , Xk

bei mehreren Stichproben.

• Um derartige Tests anwenden zu können, müssen im Allgemeinen vorher Annah-men über die Verteilungen der Einzelzufallsgrößen und teilweise auch über dieGleichheit der Varianzen überprüft werden.

• Es können wieder spezielle Tests verwendet werden, falls die Merkmalszufallsgrö-ßen normalverteilt sind.

• Im Fall von nichtnormalverteilten Zufallsgrößen können oft rangbasierte (soge-nannte verteilungsfreie) Tests verwendet werden. Diese können auch für normalver-teilte Daten verwendet werden, sind dann aber nicht so effektiv wie die speziellenTests.

a) Anpassungstests für mehrere Stichproben (stetige Skala)

• Statistische Tests über die Verteilung werden in dieser Situation oft so durch-geführt, dass für jede beteiligte reelle Stichprobe ein geeigneter Anpassungstestdurchgeführt wird.

• Damit können beim Test auf Normalverteilung zwei (bzw. k) einzelne Shapiro-Wilk-Tests für X und Y im Zweistichprobenfall (bzw. X1, . . . , Xk imk−Stichprobenfall) durchgeführt werden.

123

Page 124: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• Analog können für andere Verteilungen zwei (bzw. k) einzelne χ2−Anpassungstestsoder Kolmogorow-Smirnow-Tests durchgeführt werden.

• Da bei der Durchführung mehrerer Tests, die nur zusammen eine Gesamtaus-sage erlauben, eine vorgegebene Wahrscheinlichkeit für einen Fehler 1. Art fürdie Gesamtaussage nicht mit dem entsprechenden Niveau der einzelnen betei-ligten Tests übereinstimmt, sollte man in einer solchen Situation die sogenannteBonferroni-Methode oder Bonferroni-Korrektur anwenden.

b) Bonferroni-Methode oder Bonferroni-Korrektur

• Angenommen eine Hypothese setzt sich aus k Einzelhypothesen wie folgt zusam-men:

H0 : H10 ∩ . . . ∩Hk

0 , H1 : H11 ∪ . . . ∪Hk

1 .

• Sind z.B. die k Zufallsgrößen X1, . . . , Xk gegeben, erhält man die Hypothesen

H0 : alle k ZG sind normalverteilt ,H1 : mind. eine ZG Xi ist nicht normalverteit

in obiger Weise aus den Einzelhypothesen

H i0 : Xi ist normalverteilt , H i

1 : Xi ist nicht normalverteilt .

• Man führt nun k Tests bezüglich der Einzelhypothesen H i durch, und entscheidetdann wie folgt:

Man verwirft H0 , wenn mindestens ein Einzeltest die Nullhypothese H i0 verwirft,

sonst behält man H0 bei.

• Führt man die Einzeltest jeweils zum Signifikanzniveau α durch und bezeichneAj, j = 1, . . . , k, das zufällige Ereignis, dass der j−te Test seine Nullhypotheseablehnt, so gilt unter der Annahme der Unabhängigkeit der Ereignisse Ai undkleinem α :

α = P(H0 wird verworfen | H0 wahr)= P(A1 ∪ . . . ∪ Ak | H0 wahr)= 1−P(A1

c ∩ . . . ∩ Akc | H0 wahr)= 1−P(A1

c | H0 wahr) · . . . ·P(Akc | H0 wahr)

= 1− (1− α)k = 1− 1 + kα−(k

2

)α2 + . . .+ (−1)kαk

≈ kα .

• Folglich sollte man als Niveau der Einzeltests α =α

kwählen.

124

Page 125: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

c) F−Test für Varianzen zweier normalverteilter Merkmale

• Der F−Test dient zum Vergleich der Varianzen zweier unabhängiger normalver-teilter Merkmale mit unbekannten Erwartungswerten.

• Geg.: 2 Stichproben x1, . . . , xn und y1, . . . , ym (die Stichprobenumfänge könnenunterschiedlich sein).

• Vor.: Die Zufallsgrößen X und Y sind unabhängig und normalverteilt mit(unbekannten) Erwartungswerten µ

Xund µ

Yund Varianzen σ2

Xund σ2

Y;

repräsentative Stichproben.

• Hyp.: H0 : σ2X

= σ2Y, H1 : σ2

X6= σ2

Y(zweiseitiger Test).

• R-Aufruf: var.test(,) .

• Ausreißer in den Daten können Probleme bereiten.

• Die Testgröße ist F =S2X

S2Y

, sie ist unter H0 F−verteilt mit (n − 1,m − 1)

Freiheitsgraden. Einseitige Tests sind auch möglich.

Bsp. F−Test für Varianzen zweier normalverteilter Merkmale (α = 0.05)

• Simulation der Stichproben und Test auf Normalverteilung (mit Bonferroni-Korrektur).

• > x=rnorm(30)

> y=rnorm(40)

> shapiro.test(x)

Shapiro-Wilk normality test

data: x

W = 0.9793, p-value = 0.8056 # >0.05/2, also Annahme

> shapiro.test(y)

Shapiro-Wilk normality test

data: y

W = 0.9643, p-value = 0.2345 # >0.05/2, also Annahme

• Durchführung F−Test.

125

Page 126: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• > var.test(x,y)

F test to compare two variances

data: x and y

F = 1.166, num df = 29, denom df = 39, p-value = 0.6468

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval:

0.5943451 2.3701436

sample estimates:

ratio of variances

1.166027

d) Bartlett-Test für Varianzen von Normalverteilungen

• Der Bartlett-Test dient zum Vergleich der Varianzen mehrerer unabhängigernormalverteilter Merkmale.

• Geg.: k Stichproben x11, . . . , x1n1 usw. bis xk1, . . . , xknk (die Stichprobenum-fänge können unterschiedlich sein).

• Vor: Die Zufallsgrößen Xi, i = 1, . . . , k sind unabhängig und normalverteilt mit(unbekannten) Erwartungswerten µi und Varianzen σ2

i jeweils; repräsentativeStichproben.

• Hyp.: H0 : σ21 = . . . = σ2

k , H1 : σ2i 6= σ2

j für mindestens ein Paar (i, j) .

• R-Aufruf: bartlett.test() .

• Ausreißer in den Daten können Probleme bereiten.

• Der Test ist ein asymptotischer Test, als Faustregel wird ni ≥ 5 , i = 1, . . . , k,empfohlen.

• Einseitige Tests sind hier nicht möglich.

Bsp. Bartlett-Test für Varianzen

• Simulation der Stichproben und Test auf Normalverteilung (mit Bonferroni-Korrektur).

• > x1=rnorm(30) # N(0,1)

> x2=rnorm(30) # N(0,1)

> x3=rnorm(50,mean=1,sd=2) # N(1,4)

126

Page 127: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

> shapiro.test(x1)

Shapiro-Wilk normality test

data: x1

W = 0.9626, p-value = 0.3611 # >0.05/3, also Annahme

> shapiro.test(x2)

Shapiro-Wilk normality test

data: x2

W = 0.9295, p-value = 0.04753 # >0.05/3, also Annahme

> shapiro.test(x3)

Shapiro-Wilk normality test

data: x3

W = 0.9848, p-value = 0.7649 # >0.05/3, also Annahme

• Durchführung Bartlett-Test.

• > bartlett.test(list(x1,x2,x3))

Bartlett test of homogeneity of variances

data: list(x1, x2, x3)

Bartlett’s K-squared = 22.2336, df = 2, p-value = 1.486e-05

e) Fligner-Test für Varianzen stetiger Merkmale

• Der Fligner-Test oder Fligner-Killeen-Median-Test dient zum Vergleich derVarianzen mehrerer unabhängiger stetig verteilter Merkmale.

• Geg.: k ≥ 2 Stichproben x11, . . . , x1n1 usw. bis xk1, . . . , xknk (die Stichprobe-numfänge können unterschiedlich sein).

• Vor.: Die Zufallsgrößen Xi, i = 1, . . . , k, sind unabhängig und stetig verteilt mitVarianzen σ2

i jeweils; repräsentative Stichproben.

• Hyp.: H0 : σ21 = . . . = σ2

k , H1 : σ2i 6= σ2

j für mindestens ein Paar (i, j) .

• R-Aufruf: fligner.test() .

• Der Test ist ein rangbasierter Test, so dass Probleme bei Bindungen auftretenkönnten.

• Einseitige Tests sind hier nicht möglich.

127

Page 128: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Bsp. Fligner-Test für Varianzen stetiger Merkmale

• Simulation exponentialverteilter Stichproben (unterschiedliche Varianzen) und Testauf Normalverteilung, um den stärkeren Bartlett-Test auszuschließen.

• > x1=rexp(30)

> x2=1+2*rexp(40) # oder x2=1+rexp(40,rate=1/2)

> x3=2+3*rexp(50) # oder x3=2+rexp(40,rate=1/3)

> shapiro.test(x1)

Shapiro-Wilk normality test

data: x1

W = 0.8881, p-value = 0.004358 # <0.05/3, also Ablehnung

• Durchführung Fligner-Test, da die Voraussetzungen für den Bartlett-Testnicht erfüllt sind.

• > fligner.test(list(x1,x2,x3))

Fligner-Killeen test of homogeneity of variances

data: list(x1, x2, x3)

Fligner-Killeen:med chi-squared = 11.2757, df = 2, p-value = 0.003561

f) Zwei-Stichproben-t-Test

• Mit dem Zwei-Stichproben-t-Test wird die Gleichheit der Erwartungswerte zwei-er normalverteilter Merkmale mit unbekannter, aber übereinstimmender Varianzüberprüft.

• Geg.: 2 konkrete Stichproben x1, . . . , xn und y1, . . . , ym (die Stichprobenum-fänge können unterschiedlich sein).

• Vor.: Unabhängige normalverteilte Merkmalszufallsgrößen X und Y mitunbekannten Erwartungswerten µ

Xbzw. µ

Yund unbekannter gleicher Varianz

σ2 ; repräsentative Stichproben.

• Hyp.: H0 : µX

= µY, H1 : µ

X6= µ

Y(zweiseitig) bzw.

H1 : µX< µ

Yoder H1 : µ

X> µ

Y(einseitige Tests) .

• R-Aufruf: t.test(x,y,var.equal=TRUE) bei Datenvektoren x und y .

• Ausreißer in den Daten können Probleme bereiten.

128

Page 129: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Bsp. Zwei-Stichproben-t-Test

• Simulation unabhängiger normalverteilter Stichproben mit unterschiedlichen Er-wartungswerten und Test auf Normalverteilung.

• > x=rnorm(30) # N(0,1)

> y=rnorm(40,mean=1,sd=1) # N(1,1)

> shapiro.test(x)

Shapiro-Wilk normality test

data: x

W = 0.9675, p-value = 0.4737 # >0.05/2, also Annahme

> shapiro.test(y)

Shapiro-Wilk normality test

data: y

W = 0.9741, p-value = 0.4809 # >0.05/2, also Annahme

• Test auf Gleichheit der Varianzen und Zwei-Stichproben-t-Test.

• > var.test(x,y)

F test to compare two variances

data: x and y

F = 1.1876, num df = 29, denom df = 39, p-value = 0.6094 # >0.05

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval:

0.6053333 2.4139626

sample estimates:

ratio of variances

1.187585

• > t.test(x,y,var.equal=TRUE)

Two Sample t-test

data: x and y

t = -4.1266, df = 68, p-value = 0.0001026 # Ablehnung

129

Page 130: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-1.5405127 -0.5362612

sample estimates:

mean of x mean of y

-0.05803432 0.98035260

g) Welchs-t-Test

• Mit Welchs-t-Test wird die Gleichheit der Erwartungswerte zweier normalver-teilter Merkmale mit unbekannten Varianzen überprüft.

• Geg.: 2 konkrete Stichproben x1, . . . , xn und y1, . . . , ym (die Stichprobenum-fänge können unterschiedlich sein).

• Vor.: Unabhängige normalverteilte Merkmalszufallsgrößen X und Y mitunbekannten Erwartungswerten µ

Xbzw. µ

Yund unbekannten Varianzen σ2

X

bzw. σ2Y; repräsentative Stichproben.

• Hyp.: H0 : µX

= µY, H1 : µ

X6= µ

Y(zweiseitig) bzw.

H1 : µX< µ

Yoder H1 : µ

X> µ

Y(einseitige Tests) .

• R-Aufruf: t.test(x,y) oder t.test(x,y,var.equal=FALSE) bei Daten-vektoren x und y .

• Ausreißer in den Daten können Probleme bereiten.

• Der Test ist ein asymptotischer Test.

Bsp. Welchs-t-Test

• Simulation unabhängiger normalverteilter Stichproben mit unterschiedlichen Er-wartungswerten und Varianzen und Test auf Normalverteilung.

• > x=rnorm(30) # N(0,1)

> y=rnorm(40,mean=1,sd=0.5) # N(1,0.25)

> shapiro.test(x)

Shapiro-Wilk normality test

data: x

W = 0.9627, p-value = 0.3625 # >0.05/2, also Annahme

> shapiro.test(y)

130

Page 131: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Shapiro-Wilk normality test

data: y

W = 0.9774, p-value = 0.5923 # >0.05/2, also Annahme

• Test auf Gleichheit der Varianzen und (da Ablehnung) Welchs-t-Test.

• > var.test(x,y)

F test to compare two variances

data: x and y

F = 4.7789, num df = 29, denom df = 39, p-value = 8.677e-06 #Ablehnung

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval:

2.435876 9.713844

sample estimates:

ratio of variances

4.778869

• > t.test(x,y) # oder t.test(x,y,var.equal=FALSE)

Welch Two Sample t-test

data: x and y

t = -4.9802, df = 38.119, p-value = 1.402e-05 # Ablehnung

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-1.4450751 -0.6098604

sample estimates:

mean of x mean of y

0.03109383 1.05856155

131

Page 132: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

h) Einfache Varianzanalyse (ANOVA)

• Die einfache Varianzanalyse (ANOVA, von ”analysis of variance”) dient zum Testauf Gleichheit der Erwartungswerte mehrerer unabhängiger normalverteilter Merk-male.

• Geg.: k Stichproben x11, . . . , x1n1 usw. bis xk1, . . . , xknk (die Stichprobenum-fänge können unterschiedlich sein).

• Vor.: Die Zufallsgrößen Xi, i = 1, . . . , k, sind unabhängig und normalverteiltmit Erwartungswerten µi jeweils und Varianz σ2 (unbekannt, aber übereinstim-mend); repräsentative Stichproben.

• Hyp.: H0 : µ1 = . . . = µk , H1 : µi 6= µj für mindestens ein Paar (i, j) .

• R-Aufruf: anova() .

• Der p−Wert kann unter Pr(>F) abgelesen werden.

• Ausreißer in den Daten können Probleme bereiten.

• Einseitige Tests sind hier nicht möglich.

Bsp. Einfache Varianzanalyse

• Wir wenden die einfache Varianzanalyse auf die Breite des Kelchblattes (”Se-pal.Width”) des Iris-Beispieldatensatzes an. Dabei erhält man 3 unabhängige Stich-proben, wenn man dieses Merkmal jeweils für eine der 3 untersuchten Arten be-obachtet.

• > data(iris) # Laden, dann Tests auf Normalverteilung

> shapiro.test(iris$Sepal.Width[1:50])

Shapiro-Wilk normality test

data: iris$Sepal.Width[1:50]

W = 0.9717, p-value = 0.2715 # >0.05/3, Annahme

> shapiro.test(iris$Sepal.Width[51:100])

Shapiro-Wilk normality test

data: iris$Sepal.Width[51:100]

W = 0.9741, p-value = 0.338 # >0.05/3, Annahme

> shapiro.test(iris$Sepal.Width[101:150])

Shapiro-Wilk normality test

132

Page 133: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

data: iris$Sepal.Width[101:150]

W = 0.9674, p-value = 0.1809 # >0.05/3, Annahme

• Test auf Gleichheit der Varianzen .

• > bartlett.test(Sepal.Width˜Species,data=iris)

Bartlett test of homogeneity of variances

data: Sepal.Width by Species

Bartlett’s K-squared = 2.0911, df = 2, p-value = 0.3515 # Annahme

• ANOVA.

• > anova(lm(Sepal.Width˜Species,data=iris))

Analysis of Variance Table

Response: Sepal.Width

Df Sum Sq Mean Sq F value Pr(>F)Species 2 11.345 5.6725 49.16 < 2.2e-16 ***Residuals 147 16.962 0.1154- - -

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

• Bemerkung: Im anova-Aufruf steht lm() für ”linear model”.

Parallele Box-Plots zum Anwendungsbeispiel

> boxplot(Sepal.Width˜Species,data=iris,notch=TRUE)

133

Page 134: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

setosa versicolor virginica

2.0

2.5

3.0

3.5

4.0

.

i) Wilcoxon-Rang-Summen-Test

• Mit dem Wilcoxon-Rang-Summen-Test vergleicht man die Lageparameter zweierMerkmale mit stetiger Verteilung miteinander.

• Geg.: 2 konkrete Stichproben x1, . . . , xn und y1, . . . , ym (die Stichprobenum-fänge können unterschiedlich sein).

• Vor.: unabhängige stetig verteilte Zufallsgrößen X und Y mit Verteilungs-funktionen FX(x) und FY (x) = FX(x+ c) , x ∈ R ; repräsentative Stichproben.

• Hyp.:H0 : c = 0 , d.h. FX(x) = FY (x) für alle x ∈ R ,H1 : c 6= 0 , d.h. FX(x) = FY (x− c) für alle x ∈ R .

• R-Aufruf: wilcox.test(x,y) bei Datenvektoren x und y .

• Wird die Nullhypothese abgelehnt, kann man auf unterschiedliche Lageparameterschließen. Auch einseitige Tests sind möglich.

• Dieser Test ist ein rangbasierter Test. Bindungen können problematisch sein.

Bsp. Wilcoxon-Rang-Summen-Test

• Simulation unabhängiger exponentialverteilter Beobachtungswerte mit unterschied-lichen Erwartungswerten (Medianen,. . . ), dann Test auf Normalverteilung.

134

Page 135: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

• > x=rexp(30)

> y=1+rexp(40)

> shapiro.test(x)

Shapiro-Wilk normality test

data: x

W = 0.7289, p-value = 4.223e-06 # keine Normalverteilung

• Wilcoxon-Rang-Summen-Test.

• > wilcox.test(x,y)

Wilcoxon rank sum test

data: x and y

W = 66, p-value = 5.848e-13 # Ablehnung

alternative hypothesis: true location shift is not equal to 0

j) Kruskal-Wallis-Test

• Der Kruskal-Wallis-Test dient zum Vergleich der Lage mehrerer stetiger Merk-male, er verallgemeinert den Wilcoxon-Rang- Summen-Test.

• Geg.: k Stichproben x11, . . . , x1n1 usw. bis xk1, . . . , xknk .

• Vor.: Die Zufallsgrößen Xi, i = 1, . . . , k, sind unabhängig und stetig verteilt mitVerteilungsfunktionen Fi jeweils, so dass gilt Fi(x) = Fj(x+ cij) für alle x ∈ Rmit Konstanten cij ∈ R ; repräsentative Stichproben.

• Hyp.:H0 : cij = 0 für alle i 6= j ,H1 : cij 6= 0 für mindestens ein Paar (i, j) .

• R-Aufruf: kruskal.test() .

• Dieser Test ist ein rangbasierter Test. Bindungen können problematisch sein.

Bsp. Kruskal-Wallis-Test

• Simulation exponentialverteilter Stichproben (unterschiedliche Varianzen) und Testauf Normalverteilung, um die ANOVA auszuschließen.

• > x1=rexp(30)

> x2=rexp(40)

> x3=1+rexp(50)

135

Page 136: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

> shapiro.test(x1)

Shapiro-Wilk normality test

data: x1

W = 0.8759, p-value = 0.00227 # <0.05/3, also Ablehnung

• Kruskal-Wallis-Test.

• > kruskal.test(list(x1,x2,x3))

Kruskal-Wallis rank sum test

data: list(x1, x2, x3)

Kruskal-Wallis chi-squared = 24.3531, df = 2, p-value = 5.15e-06

5.1.4 Weitere ausgewählte statistische Tests

a) Binomialtest

• Der Binomialtest ist ein Test für die Erfolgswahrscheinlichkeit (den Parameter p)einer Bernoulli-verteilten Zufallsgröße (und damit einer diskreten Zufallsgröße).

• Geg.: Anzahl k der „Erfolge“ in einer konkreten Stichprobe vom Umfang n .

• Vor.: Die Merkmalszufallsgröße X ist Bernoulli-verteilt mit unbekanntem Pa-rameter p ; eine repräsentative Stichprobe liegt zugrunde.

• Hyp.:H0 : p = p0 (p0 ist ein vorgebener Wert für die Erfolgswahrscheinlichkeit),H1 : p 6= p0 (zweiseitig) bzw. H1 : p < p0 oder H1 : p > p0 (einseitig) .

• R-Aufruf: binom.test(k,n,p0)

Bsp. Binomialtest

• In einer Stichprobe von 100 Erzeugnissen wurden bei der Qualitätskontrolle 6Ausschussteile gefunden. Kann man in dieser Situation von einer maximalen Soll-ausschussquote von 5% ausgehen oder muss man von einer größeren ausgehen ?

• > binom.test(6,100,0.05,alternative="greater")

Exact binomial test

data: 6 and 100

number of successes = 6, number of trials = 100, p-value = 0.384

136

Page 137: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

alternative hypothesis: true probability of success is greater than 0.05

95 percent confidence interval:

0.02644971 1.00000000

sample estimates:

probability of success

0.06

• Keine Ablehnung (Annahme) von H0 : p = 0.05 , d.h. die Ausschussquote ist nichtsignifikant größer als 5% .

5.1.5 b) Korrelations- und Abhängigkeitstests

• Zwei weitere wichtige Gruppen von Tests sind die Korrelations- und Abhängig-keitstests.

• Für mehrdimensional normalverteilte Daten kann man den Pearson-Korrelationstestnutzen, um den Vorgabewert %0 = 0 für den gewöhnlichen Korrelationskoeffizien-ten zu überprüfen. Wird die Hypothese H0 : Corr (X, Y ) = 0 abgelehnt, werdendie normalverteilten Merkmale X und Y nicht als unabhängig angesehen.

• Für nichtnormalverteilte Zufallsvektoren kann man mit dem Spearman-Korrelationstestden Vorgabewert 0 für den Spearmanschen Rangkorrelationskoeffizienten r

(S)X,Y

und damit die Unabhängigkeit der Merkmale überprüfen.

• Die Unabhängigkeit zweier kategorieller Merkmale überprüft man mit dem χ2-Unabhängigkeitstest oder mit Fishers exaktem Test, falls dichotome Merkmalevorliegen.

5.1.6 c) Pearson-Korrelationstest

• Mit dem Pearson-Korrelationstest überprüft man, ob der (gewöhnliche oderPearson-) Korrelationskoeffizient Corr (X, Y ) = ρ

(X,Y )eines normalverteilten

Zufallsvektors (X, Y ) Null ist (dann sind die Komponenten X und Y auchstochastisch unabhängige Zufallsgrößen).

• Geg.: konkrete Stichprobe (x1, y1), . . . , (xn, yn) .

• Vor.: Der Zufallsvektor (X, Y ) hat eine zweidimensionale Normalverteilung mitunbekannten Parametern; repräsentative Stichprobe.

• Hyp.:H0 : Corr (X, Y ) = 0 , H1 : Corr (X, Y ) 6= 0 (zweiseitig) bzw. H1 :Corr (X, Y ) < 0 oder H1 : Corr (X, Y ) > 0 (einseitig).

• R-Aufruf: cor.test(x,y) (bei Datenvektoren x und y) .

• Ausreißer in den Daten können Probleme bereiten.

137

Page 138: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

5.1.7 Bsp- Pearson-Korrelationstest

• > x=rnorm(50) # Simulation N(0,1)

> y=rnorm(50) # Simulation N(0,1)

> shapiro.test(x) # Test auf Normalverteilung X

Shapiro-Wilk normality test

data: x

W = 0.9793, p-value = 0.5208 # >0.05/2, Annahme

> shapiro.test(y) # Test auf Normalverteilung X

Shapiro-Wilk normality test

data: y

W = 0.9613, p-value = 0.1008 # >0.05/2, Annahme

> cor.test(x,y)

Pearson’s product-moment correlation

data: x and y

t = 1.1609, df = 48, p-value = 0.2514 # Annahme

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

-0.1185480 0.4240931

sample estimates:

cor

0.1652527

• Der Zufallsvektor (X + Y, Y ) ist, falls X und Y unabhängige standard-normalverteilte Zufallsgrößen sind, wieder ein normalverteilter Zufallsvektor, derKorrelationskoeffizient zwischen X + Y und Y ist jetzt positiv.

• > shapiro.test(x+y) # Test auf Normalverteilung X+Y

Shapiro-Wilk normality test

data: x + y

W = 0.9832, p-value = 0.6909 # >0.05/2, Annahme

> cor.test(x+y,y,alternative="greater")

138

Page 139: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

Pearson’s product-moment correlation

data: x + y and y

t = 7.8807, df = 48, p-value = 1.668e-10 # Ablehnung

alternative hypothesis: true correlation is greater than 0

95 percent confidence interval:

0.6263595 1.0000000

sample estimates:

cor

0.7510368

d) Spearman-Korrelationstest

• Mit dem Spearman-Korrelationstest überprüft man, ob der Spearmansche Rang-korrelationskoeffizient %(S) (X, Y ) eines Zufallsvektors (X, Y ) Null ist. Wirddiese Hypothese nicht angenommen, werden die Komponenten X und Y alsstochastisch abhängige Zufallsgrößen angesehen.

• Geg.: konkrete Stichprobe (x1, y1), . . . , (xn, yn) .

• Vor.: Der Zufallsvektor (X, Y ) hat eine zweidimensionale stetige Verteilung;repräsentative Stichprobe.

• Hyp.:H0 : %(S) (X, Y ) = 0 , H1 : %(S) (X, Y ) 6= 0 (zweiseitig) bzw.H1 : %(S) (X, Y ) <0 oder H1 : %(S) (X, Y ) > 0 (einseitig).

• R-Aufruf: cor.test(x,y,method="spearman") (bei Datenvektoren x undy) .

• Bindungen können problematisch sein.

Bsp. Spearman-Korrelationstest

> x=rlnorm(50) # Simulation lognormale Werte> y=rlnorm(50) # unabhängige lognormale Werte> shapiro.test(x) # Test auf Normalverteilung

Shapiro-Wilk normality test

data: xW = 0.7636, p-value = 1.396e-07 # <0.05/2, Ablehnung

> cor.test(x,y,method="spearman")

Spearman’s rank correlation rho

139

Page 140: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

data: x and yS = 21748, p-value = 0.7593 # Annahmealternative hypothesis: true rho is not equal to 0sample estimates:

rho-0.04432173

e) χ2-Test auf Unabhängigkeit in Kontingenztafeln

• Der χ2-Test auf Unabhängigkeit in Kontingenztafeln oder χ2-Unabhängigkeitstesttestet auf Unabhängigkeit zweier kategorieller Merkmale.

• Geg.: konkrete Stichprobe (x1, y1), . . . , (xn, yn) oder Kontingenztafel, d.h. Ta-belle mit den Häufigkeiten der Wertekombinationen in der Stichprobe.

• Vor.: kategorielle Merkmale X und Y ; repräsentative Stichprobe.

• Hyp.:H0 : X und Y sind stochastisch unabhängig;H1 : X und Y sind stochastisch abhängig.

• R-Aufruf: chisq.test(x,y) oder chisq.test(table(x,y)) (bei Daten-vektoren x und y) .

• Der Test ist ein asymptotischer Test. Die theoretischen Häufigkeiten von Merk-malskombinationen sollten unter H0 möglichst den Wert 5 nicht unterschreiten.

Bsp. χ2-Test auf Unabhängigkeit in Kontingenztafeln

> x=sample(c("a","b","c"),200,TRUE,c(0.2,0.2,0.6))> y=sample(c("u","v","w"),200,TRUE,c(0.5,0.2,0.3))> table(x,y)

yx u v w

a 20 6 10b 17 9 14c 60 22 42

> chisq.test(table(x,y))

Pearson’s Chi-squared test

data: table(x, y)X-squared = 1.4911, df = 4, p-value = 0.8282 # Annahme

> chisq.test(x,y) # andere Form des Aufrufes

Pearson’s Chi-squared test

140

Page 141: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

data: table(x, y)X-squared = 1.4911, df = 4, p-value = 0.8282

f) Fishers exakter Test

• Mit Fishers exaktem Test prüft man die Unabhängigkeit zweier dichotomer Merk-male.

• Geg.: konkrete Stichprobe (x1, y1), . . . , (xn, yn) oder 2 × 2−Kontingenztafel,d.h. Tabelle (mit 2 Datenzeilen und -spalten) mit den Häufigkeiten der Wertekom-binationen in der Stichprobe (auch „Vierfeldertafel“ genannt).

• Vor.: Dichotome Merkmale X und Y (nur zwei mögliche Werte jeweils);repräsentative Stichprobe.

• Hyp.:H0 : X und Y sind stochastisch unabhängig;H1 : X und Y sind stochastisch abhängig.

• R-Aufruf: fisher.test(x,y) oder fisher.test(table(x,y)) (bei Da-tenvektoren x und y) .

Bsp. Fishers exakter Test

> x=sample(c("a","b"),40,TRUE,c(0.3,0.7))> y=sample(c("u","v"),40,TRUE,c(0.8,0.2))> table(x,y)

yx u v

a 10 1b 20 9

> fisher.test(x,y)

Fisher’s Exact Test for Count Data

data: x and yp-value = 0.2328 # Annahmealternative hypothesis: true odds ratio is not equal to 195 percent confidence interval:0.4776787 216.3972840

sample estimates:odds ratio4.364414

# identische Ausgabe bei Aufruf > fisher.test(table(x,y))

141

Page 142: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

5.1.8 Weitere Bemerkungen zu Tests

• Statistische Tests, bei denen die Testgrößen mit Hilfe von X oder/und S2 berech-net werden (dies sind z.B. oft Tests mit Normalverteilungsvoraussetzung), habenoft Probleme, wenn bei größerem Stichprobenumfang Ausreißer in den Daten zufinden sind. Gibt es nicht zu viele Ausreißer und liegen diese nicht weit von denAusreißergrenzen entfernt, kann man aber häufig noch mit diesen Tests arbeiten.

• Analog verfälschen Bindungen (die z.B. durch Rundung der Realisierungen ste-tiger Zufallsgrößen entstehen) die Ergebnisse von rangbasierten Tests. Für eineReihe von Tests gibt es deshalb zu berücksichtigende Korrekturterme, um trotz-dem zuverlässige Resultate zu erzielen.

• Ist bei einem einseitigen Test der p−Wert größer als 0.5, sollte man noch einmalalles genau überprüfen, oft hat sich dann ein Fehler eingeschlichen bzw. Ausreißerverfälschen die Ergebnisse (oder das Testergebnis ist trivial).

Homoskedastizität und Heteroskedastizität

• Bei einigen statistischen Tests und Modellen wird überprüft (siehe F−Test, Bartlett-oder Fligner-Test) bzw. vorausgesetzt oder verlangt (siehe Zwei-Stichproben-t-Test oder ANOVA), dass die Varianzen beteiligter Zufallsgrößen übereinstimmen.Dieses nennt man auch Homoskedastizität oder Varianzhomogenität.

• Im Falle unterschiedlicher Varianzen der relevanten Zufallsgrößen spricht man da-gegen auch von Heteroskedastizität oder Varianzheterogenität bzw. Varianzinho-mogenität.

142

Page 143: tu-freiberg.detu-freiberg.de/sites/default/files/media/fakultaet-fuer-mathematik-und-informatik...tu-freiberg.de

143