Beschreibende Statistik Betriebswirt VWA. Beschreibende Statistik 2 ©JB Wesen der Statistik...
-
Upload
amala-bolander -
Category
Documents
-
view
142 -
download
9
Transcript of Beschreibende Statistik Betriebswirt VWA. Beschreibende Statistik 2 ©JB Wesen der Statistik...
Beschreibende Statistik
Betriebswirt VWA
Bes
chre
iben
de S
tatis
tik2
©JB
Wesen der Statistik
• Beschreibende Statistik (Deskriptive Statistik)Methoden zur Erfassung, Aufbereitung, Darstellung und Analyse fest umrissener und konkret vorliegender Daten.
• Schließende Statistik (Induktive Statistik)Methoden, deren Anwendung Schlüsse von Stichproben auf übergeordnete Gesamtheiten erlauben.
Statistik ist das methodische Vorgehen bei der Beschaffung von Informationen, die man braucht, um vernünftige Entscheidungen treffen zu können.
Wesen der Statistik
Bes
chre
iben
de S
tatis
tik3
©JB
Statistische Daten
• verbale oder qualitative Informationen- nicht sehr präzise- wenig objektiv- Zusammenfassung schwierig
• quantitative, zahlenmäßige Informationen- zahlenmäßige Aussage- objektiv- einfach zusammenzufassen und zu verarbeiten
Daten, die sich für eine Zusammenfassung eignen, werden als Statistische Daten bezeichnet.
Bes
chre
iben
de S
tatis
tik4
©JB
Statistische Modell
• sachlich• örtlich• zeitlich
Ein Modell ist ein vereinfachtes Bild der Wirklichkeit und entsteht durch Beschränkung auf das Wesentliche.
Modelle in der Statistik entstehen in der Regel durch Vereinfachung in dreifacher Weise:
Problem: Es gibt keine eindeutigen, allgemein anerkannte Grundsätze zur Bildung Statistischer Modelle.
Bes
chre
iben
de S
tatis
tik5
©JB
Anwendungsgebiete
• Politik• Verkehr• Sozialwissenschaften• Biologische Wissenschaften• Naturwissenschaft und Technik• Betriebstatistik• Medizin
Statistische Methoden können überall dort eingesetzt werden, wo größere Informationsmengen zu verarbeiten sind.
Bes
chre
iben
de S
tatis
tik6
©JB
Statistisches Material
Grundgesamtheit:Menge von Elementen über die sich die Entscheidung, die man statistisch untermauern will, erstreckt und über die man Informationen benötigt.Die Grundgesamtheit setzt sich aus den statistischen Einheiten zusammen.
Untersuchungszweck: Festlegung, wozu man Informationen benötigt
Abgrenzung der Gesamtheit:• sachlich• örtlich• zeitlich
Bes
chre
iben
de S
tatis
tik7
©JB
Bestands- und Bewegungsmassen
Bestandsmassen:Erfassung zu einem bestimmten Zeitpunkt.
Bewegungsmassen:Erfassung während eines Zeitraumes.
Fortschreibung:Bestandsmassen werden durch Bewegungsmassen fortgeschrieben (Zugangsmassen und Abgangs- massen).
Bes
chre
iben
de S
tatis
tik8
©JB
Bestands- und Bewegungsmassen
Beispiele für Bestandsmassen:• Einwohner von Mannheim• Studenten einer Hochschule• Kraftfahrzeuge in München• Unternehmen in NRW
Beispiele für Bewegungsmassen:• Geburten in Bayern im September 1988• Verbrauch an Bier in Hessen im Jahre 1987• Regenfälle in einem bestimmten Gebiet• Umsätze von Unternehmen
Bes
chre
iben
de S
tatis
tik9
©JB
Vollerhebung oder Totalerhebung
Erfassung aller statistischer Einheiten
Vorteil:• Vollständige Information
Nachteil:• große Gesamtheiten nicht exakt abgrenzbar• Bei komplizierten Sachverhalten können Ergeb-
nisse fehlerhafter werden, je mehr Einheiten berücksichtigt werden
• große Kosten• Zeitdauer zu lang
Bes
chre
iben
de S
tatis
tik10
©JB
Teilerhebung / Stichprobe
Vorteil:• Kostengünstig, da geringer Aufwand• Vollerhebung eventuell unsinnig• Ergebnisse liegen schneller vor• Genauigkeit
Nachteil:• Stichprobenfehler
Beschränkt man sich nur auf einen Teil der statis- tischen Masse, so spricht man von einer Teiler-hebung. Der ausgewählte Teil heißt Stichprobe.
Bes
chre
iben
de S
tatis
tik11
©JB
Herkunft der Daten
primärstatistische Erhebung:
• Daten werden eigens für die Untersuchung erhoben• aus Kostengründen kaum durchführbar
sekundärstatistische Erfassung:
• Rückgriff auf bereits vorhandene Daten• Kostengünstig, da geringerer Aufwand
Bes
chre
iben
de S
tatis
tik12
©JB
Erhebungsmethoden bei Primärstatistik
1. Mündliche BefragungInterview sehr Zeitaufwendig
2. Schriftliche Befragunggeringer Aufwand, Güte kann leiden
3. BeobachtungDaten in der Regel unverfälscht
4. ExperimentProdukttest
5. Automatische ErfassungAnwendung im tech. Bereich (z.B. Stromverbrauch)
Bes
chre
iben
de S
tatis
tik13
©JB
Träger der amtlichen Statistik
staatliche Institutionen oder vom Staat abhängige Stellen. Sie sind staatlich finanziert.
Beispiele:• Statistisches Bundesamt• Statistische Landesämter• Statistische Ämter der Städte• Ministerien des Bundes und der Länder• Bundesargentur für Arbeit
Veröffentlichung der amtlichen Statistik:• Staatistische Jahrbuch• Zeitschrift „Wirtschaft und Statistik• Der Statistische Wochendienst
Bes
chre
iben
de S
tatis
tik14
©JB
Träger der nichtamtlichen Statistik
• Wirtschaftsverbände• Markt- und Meinungsforschungsinstitute• wissenschaftliche Institute• Unternehmen• Arbeitgeber- und Arbeitnehmerorganisationen
Erhebungen können schneller an aktuelle Bedürfnisse angepasst werden.Ergebnisse sind weniger objektiv.Ergebnisse sind oft Mittel der Selbstdarstellung.
Bes
chre
iben
de S
tatis
tik15
©JB
Statistische Merkmale
Merkmale:Eigenschaften einer statistischen Einheit, für die man sich bei einer statistischen Untersuchung interessiert. Sie sind Gegenstand der Untersuchung.
Merkmalsträger:Träger der Merkmale sind die statistische Einheiten, die gezählt oder gemessen werden.
Merkmalsausprägungen:Es sind die verschiedenen Ergebnisse, die bei der Beobachtung oder Messung auftreten können.
Bes
chre
iben
de S
tatis
tik16
©JB
Beispiele für Merkmalsausprägungen
Nr Merkmalsträger Merkmal Merkmalsausprägung
1 best. Person Waschmaschi-nenbesitzer
Besitzer, Nichtbesitzer
2 best. Person Anhänger einer Partei
Anhänger, kein Anhänger
3 best. Person Familienstand ledig, geschieden, verheiratet, verwitwet
4 Fernsehzuschauer Meinung zur Sendung
sehr gut, gut, durchsch., schlecht, sehr schlecht
5 Betriebsangehörige Alter in Jahren 16 – 65 Jahre
6 Betriebsangehörige Urlaubstage 18, 19, 20, ... 28 Tage
Bes
chre
iben
de S
tatis
tik17
©JB
Beispiele für Merkmalsausprägungen
Merkmal 1-3:Es handelt sich um Eigenschaften. Jede Reihen- und Rangfolge ist willkürlich und zufällig.
Merkmal 4:Es handelt sich um eine Bewertung. Es liegt eine eindeutige Rangfolge vor.
Merkmal 5-6:Es handelt sich um Zahlen. Eine Rangfolge ist vorge-geben. Abstände zwischen Ausprägungen sind gleich lang.
Festlegung der Maßeinteilung nennt man Skalierung
Bes
chre
iben
de S
tatis
tik18
©JB
Arten von Skalierungen
1. Nominale Skalierung: (Unterscheidungsmerkmale)Die Merkmalsausprägungen drücken lediglich die Verschiedenartigkeit aus.
2. Ordinale Skalierung: (Rangmerkmale)Die Merkmalsausprägungen bringen neben der Verschiedenartigkeit eine natürliche Rangfolge zum Ausdruck.
3. Metrische Skalierung: (Abstandsmerkmale)Merkmalsausprägungen grundsätzlich Zahlen. Neben der Rangordnung werden auch die Abstände zwischen den Merkmalsausprägungen verglichen.
Bes
chre
iben
de S
tatis
tik19
©JB
Gruppen von Skalierungen
Quantitative Ausprägungen:
• metrisch skalierte Merkmale• Ausprägungen unterscheiden sich in ihrer Größe
Qualitative Ausprägungen:
• ordinal und nominal skalierte Merkmale• Ausprägungen unterscheiden sich in ihrer Art
Bes
chre
iben
de S
tatis
tik20
©JB
Qualitative Daten
• können nicht durch Auszählen oder Messen ermittelt werden
• Haben keine natürliche Reihenfolge• Liefern keine Abstände oder Verhältnisse
nominal: Merkmalsausprägungen
ordinal: Merkmalsausprägungen
• können in eine natürliche Reihenfolge gebracht werden
• Sind keine absoluten, sondern relative Werte
• Liefern keine Abstände oder Verhältnisse
Bes
chre
iben
de S
tatis
tik21
©JB
Quantitative Daten
• Sind messbar oder abzählbar (reelle Zahlen)
• Sind somit absolute Werte• Liefern Abstände oder Verhältnisse
metrisch: Merkmalsausprägungen
Bes
chre
iben
de S
tatis
tik22
©JB
Diskrete und stetige Merkmale
Diskrete Merkmale: (Beispiel Nr. 6)
• Merkmal kann nur endlich viele Ausprägungen annehmen
• Ausprägungen sind exakt bestimmbar• Abgrenzungsschwierigkeiten treten nicht auf
Stetige Merkmale: (Beispiel Nr. 5)
• Können jeden beliebigen reellen Wert in einem bestimmten Intervall annehmen
• Ausprägungen sind nicht abzählbar, sie werden durch messen bestimmt
• Sie sind genaugenommen nur Näherungswerte
Bes
chre
iben
de S
tatis
tik23
©JB
Beispiele für Merkmalsausprägungen
Nr Merkmalsträger Merkmal Merkmalsausprägung
1 best. Person Waschmaschi-nenbesitzer
Besitzer, Nichtbesitzer
2 best. Person Anhänger einer Partei
Anhänger, kein Anhänger
3 best. Person Familienstand ledig, geschieden, verheiratet, verwitwet
4 Fernsehzuschauer Meinung zur Sendung
sehr gut, gut, durchsch., schlecht, sehr schlecht
5 Betriebsangehörige Alter in Jahren 16 – 65 Jahre
6 Betriebsangehörige Urlaubstage 18, 19, 20, ... 28 Tage
Bes
chre
iben
de S
tatis
tik24
©JB
Übersicht
Nominalskala Ordinalskala
diskret stetig
Nr. 6 Nr. 5
Datenerfassung vergleichen vergleichen zählen messen
Skala
Metrische Skala
Nr. 5 und 6
Qualitative Merkmale Quantitative Merkmale
Nr. 1-3 Nr. 4
Bes
chre
iben
de S
tatis
tik25
©JB
Rechnen mit Summenzeichen
i= 1
n
i 1 + 2 + 3 + ... + n
i= 1
n
ai a1 a2 ... an
i: Index1: Untere Summationsgrenzen: Obere Summationsgrenzeai: beliebige Werte, hier z.B. Merkmalsaus-prägungen
Bes
chre
iben
de S
tatis
tik26
©JB
Rechenbeispiele
i= 1
5
2i 2 4 6 8 10 30
i= 1
5
i 2 1 4 9 16 25 55
Bes
chre
iben
de S
tatis
tik27
©JB
Rechenregeln mit Summen
i= 1
n
a na
i= 1
n
aii= 1
m
a ii=m 1
n
ai mit 1 m n
i= 1
n
a i b ii=1
n
a ii= 1
n
b i
Bes
chre
iben
de S
tatis
tik28
©JB
Rechenregeln mit Summen
i= 1
n
cai ci =1
n
ai
k =0
n
a ii= - j
n - j
a i j
Bes
chre
iben
de S
tatis
tik29
©JB
Gesamtsumme
j =1
m
i =1
n
uij
Bes
chre
iben
de S
tatis
tik30
©JB
Häufigkeitsverteilung
UrlisteUngeordnete Niederschrift der Zahlenwerte in der Reihenfolge ihres Auftretens.
HäufigkeitszahlGleiche Messwerte werden mit der Zahl ihres Auftretens versehen.
Absolute HäufigkeitAnzahl der statt. Einheiten mit einer bestimmten Merkmalsausprägung.
Relative HäufigkeitAbsolute Häufigkeit dividiert durch Anzahl der stat. Einheiten
Bes
chre
iben
de S
tatis
tik31
©JB
Klassenbildung
1. Anzahl der Klassen festlegen
• opt. Anzahl erfolgt nicht nach festen Regeln• Problemstellung ist maßgebend• Zu viele Klassen -> unübersichtlich• Zu wenige Klassen -> Informationsverlust• In der Regel 5-20 Klassen
2. Klassengrenzen festlegen
• Es soll eine obere und untere Grenze festge-legt werden
• In der Regel gleichbreite Klassen• Ungleiche Klassen nur, wenn viele Beobach-
tungen in einem kleinen Bereich und geringer Rest in weitem Bereich
Bes
chre
iben
de S
tatis
tik32
©JB
Aufgabe Häufigkeitsverteilung
Die nachfolgende Tabelle enthält die Gewichte von 40 männlichen Studenten auf das nächste volle Pfund gerundet.
Erstellen Sie eine Häufigkeitsverteilung.
Urliste
150 156 145 128161 145 135 142
135 153 140 135146 173 142 147
163 119 154 165168 126 138 176
157
146 158 140 147 136 148 152 144
138 164 150 132 144 125 149
Bes
chre
iben
de S
tatis
tik33
©JB
Lösung Strichliste
Gewicht in Pfund Strichliste Häufigkeit rel. Häufigkeit
118 - 122 I 1 0,025
123 - 127 II 2 0,050
128 - 132 II 2 0,050
133 - 137 IIII 4 0,100
138 - 142 IIIII I 6 0,150
143 - 147 IIIII III 8 0,200
148 - 152 IIIII 5 0,125
153 - 157 IIII 4 0,100
158 - 162 II 2 0,050
163 - 167 III 3 0,075
168 - 172 I 1 0,025
173 - 177 II 2 0,050
Summe 40 1,000
Bes
chre
iben
de S
tatis
tik34
©JB
Stamm-Blatt Darstellung
11 91212 5 6 813 213 5 5 5 6 8 814 0 0 2 2 4 414 5 5 6 6 7 7 8 915 0 0 2 3 415 6 7 816 1 3 416 5 817 317 6
Stamm Blatt
Bes
chre
iben
de S
tatis
tik35
©JB
Lösung Häufigkeitsdiagramm
160 170 180
1
120 130 140 150
0
2
3
4
6
7
8
5
Bes
chre
iben
de S
tatis
tik36
©JB
Stabdiagramm
40
25
15
20
0
5
10
15
20
25
30
35
40
45
Ar An B S
Bes
chre
iben
de S
tatis
tik37
©JB
Rechteckdiagramm
20
15
25
40
0
20
40
60
80
100
120
Bes
chre
iben
de S
tatis
tik38
©JB
Kreisdiagramm
Bes
chre
iben
de S
tatis
tik39
©JB
Mittelwerte oder Lagerparameter
• Das arithmetische Mittel– Einfaches arithmetische Mittel– Gewogenes arithmetisches Mittel– Arithmetisches Mittel für klassierte Daten
• Modalwert oder häufigster Wert
• Zentralwert oder Meridian
• Quantile
• Das geometrische Mittel
Bes
chre
iben
de S
tatis
tik40
©JB
Einfaches arithmetische Mittel
Arithmetische Mittel bei Einzelwerten
Arithmetisches Mittel x i 1
n
xi
nSumme derEinzelwerte
Anzahlder Einheiten
Eigenschaften:
i 1
n
xi x 0
i 1
n
xi x 2 Min
Bes
chre
iben
de S
tatis
tik41
©JB
Das gewogene arithmetische Mittel
Arithmetische Mittel bei einer Häufigkeitsverteilung
Anstatt gleiche Merkmalsausprägungen mehrfach zu addieren, gewichtet man sich unterscheidende Merkmalsausprägungen xi (i=1,2,...,n) mit der Häufigkeit des Auftretens hi.
x i 1
n
xi hi
i 1
n
hi
Bes
chre
iben
de S
tatis
tik42
©JB
Arithmetisches Mittel für klassierte Daten
Ist von einer Stichprobe weder die Urliste noch eine Häufigkeitsverteilung bekannt, so lässt sich der Mittelwert nicht exakt berechen.
In einem solchen Fall ermittelt man einen Näher-ungswert, indem man von jeder Klasse die Klassen-mitte verwendet.
x1n i 0
n
x ix hi mit xi
xKlassenmitteder Klassei
Bes
chre
iben
de S
tatis
tik43
©JB
Modalwert
Die am häufigsten vorkommende Merkmalsaus-prägung.
Der Modalwert ist um so aussagekräftiger, je stärker die entsprechende Merkmalsausprägung dominiert.
Für nominal skalierte Merkmale ist der Modalwert der einzige sinnvolle Lageparameter.
Bes
chre
iben
de S
tatis
tik44
©JB
Zentralwert oder Median
Der Zentralwert ist diejenige Merkmalsausprägung, die in der Mitte der in eine Rangfolge gebrachten Einzelausprägungen steht.
D.h. die Merkmale müssen mindestens Ordinalskala besitzen.
Anzahl gerade: Zentralwert an der Stelle (n+1)/2
Anzahl ungerade: Mittel der Werte an der Stelle n/2 und n/2 +1
Bes
chre
iben
de S
tatis
tik45
©JB
Quantile
Das p% Quantil ist der Wert Lp für den p % der Beobachtungen kleiner und (100-p)% größer als Lp sind.
Für p = 25%, 50%, 75% nennt man die Quantile Quartile (unteres, Median, oberes);
Bezeichnung ist Q1,Q2,Q3.
Den Wert Q3 - Q1 nennt man Interquantilsabstand.
Bes
chre
iben
de S
tatis
tik46
©JB
Das geometrische Mittel
Bei der Bestimmung von durchschnittlichen Wachs-tumsraten ist das arithmetische Mittel nicht brauchbar.
Hier muss man auf das geometrische Mittel zurück-greifen.
GM n x 1 x2 ... xn für xi 0
Bes
chre
iben
de S
tatis
tik47
©JB
Negatives Wachstum
Jahr Absatzmenge Wachstumsrate Wachstumsfaktor
0 10001 1200 0,20 1,202 1080 -0,10 0,903 1350 0,25 1,254 1512 0,12 1,12
GM 4 1,2 0,9 1,25 1,12 1,1089
Bes
chre
iben
de S
tatis
tik48
©JB
Streuungsmaße
• Spannweite oder Variationsbreite• Quartilsabstand und Boxplot• Mittlere lineare Abweichung• Varianz und Standardabweichung• Varianzkoeffizient
Zur Beschreibung einer Stichprobe reicht der Mittel-wert oft nicht aus, da er keine Aussage darüber er-laubt, wie weit die einzelnen Merkmalswerte vom Mittelwert abweichen.
Aus diesem Grund wird der Mittelwert oft durch einen Streuungsparameter ergänzt.
Bes
chre
iben
de S
tatis
tik49
©JB
Spannweite oder Variationsbreite
Spannweite = Differenz zwischen dem größten (xmax) und dem kleinsten (xmin) Wert
Vorteil:• leicht zu berechnen• schneller Vergleich der Streuung zweier Merkmals-
reihen• rascher Überblick über die Breite der Skala
Nachteil:• Extremwerte verzerren die Aussagekraft• Keine Aussage über Streuung zw. Extremwerten• Bei großen Untersuchungen treten öfter Werte auf,
die die Spannweite erhöhen
Bes
chre
iben
de S
tatis
tik50
©JB
Quartilsabstand und Boxplot
Der Quartilsabstand ist die Differenz zwischen dem ersten und dem dritten Quartil. Er umfasst den Be-reich mit den mittleren 50% der Werte.
Das Box- oder Whiskerdiagramm stellt die Häufig-keitsverteilung schematisch dar: Zwischen dem 1. und dem 3. Quartil wird ein Kasten aufgebaut. In diesen Bereich fallen 50% der Beobachtungen.
Die seitlich angesetzten „Schnurrhaare“ vermitteln einen Eindruck, wie weit die restlichen 50% streuen
Bes
chre
iben
de S
tatis
tik51
©JB
Box- und Whiskersdiagramm
4 6 8 10 12 14 16 18 Tage20 22 24 28
Aufenthaltsdauer von Patientinnen nach Schnittentbindung (Seite 65)
Bes
chre
iben
de S
tatis
tik52
©JB
Mittlere lineare Abweichung
Durchschnittliche lineare Abweichung der Merkmals-werte vom Mittelwert.
Arithmetisches Mittel der absoluten Abweichungen der Merkmalswerte von einem Mittelwert (arith. Mittel oder Median)
d1n i 1
n
x i M M = Mittelwert
Bes
chre
iben
de S
tatis
tik53
©JB
Varianz und Standardabweichung
s2 Summealler AbweichungsquadrateZahl derMeßwerte
1n i 1
n
xi AM 2
Varianz s2:
Standardabweichung s = positve Wurzel der Varianz s2
s s2 1n i 1
n
xi AM 2
Bes
chre
iben
de S
tatis
tik54
©JB
Beispiel Standardabweichung
s2 40030
13,33 s 3,65
Liegezeit xi (xi-AM) (xi-AM)(xi-AM) hi hi*(xi-AM)(xi-AM)
8 -5 25 1 259 -4 16 1 16
10 -3 9 3 2711 -2 4 6 2412 -1 1 5 513 0 0 4 014 1 1 5 515 2 4 2 817 4 16 1 1620 7 49 1 4928 15 225 1 225
30 400
Bes
chre
iben
de S
tatis
tik55
©JB
Variationskoeffizient
Der Variationskoeffizient ist ein relativer Streuungs-parameter.
Variationskoeffizient v = Quotient aus Stabdardabw. und arithmetischem Mittel
Der Variationskoeffizient gibt an, wie viel Prozent vom arithmetischen Mittel die Standardabweichung beträgt.
vs
AM
Bes
chre
iben
de S
tatis
tik56
©JB
Regression und Korrelation
Beschreibung eines (tendenziellen) Zusammenhangs zwischen zwei Merkmalsausprägungen.
Korrelationsanalyse:Bestimmung einer Maßzahl, die die Stärke des Zusammenhangs beschreibt.(Korrelations- bzw. Kontingenzkoeffizient)
Regressionsanalyse:Bestimmung von Funktionen zur Beschreibung der Form des Zusammenhangs zwischen zwei Merk- malen. (Regressionsgerade)
Bes
chre
iben
de S
tatis
tik57
©JB
Die drei Fragenstellungen
I. Besteht zwischen den Merkmalen ein Zusammenhang oder nicht?
• Kontingenz• Korrelation
II. Wie ausgeprägt ist ein Zusammenhang?
• Kontingenz-Koeffizient• Korrelations-Koeffizient
III. Durch welche Funktion kann die Tendenz eines Zusammenhangs beschrieben werden?
• Regressionsrechnung
Bes
chre
iben
de S
tatis
tik58
©JB
Beispiel Kontingenztabellen
Soziale Stellungdes Vaters
Schultyp desKindes
Häufigkeit
Arbeiter Hauptschule 6
Arbeiter Realschule 4
Arbeiter Gymnasium 0
Angestellter Hauptschule 2
Angestellter Realschule 2
Angestellter Gymnasium 1
Beamter Hauptschule 1
Beamter Realschule 2
Beamter Gymnasium 2
Selbständiger Hauptschule 1
Selbständiger Realschule 2
Selbständiger Gymnasium 2
Bes
chre
iben
de S
tatis
tik59
©JB
Beispiel Kontingenztabellen
Arbeiter Angestellter Beamter Selbst.
Hauptschule 6 2 1 1
Realschule 4 2 2 2
Gymnasium 0 1 2 2
Bes
chre
iben
de S
tatis
tik60
©JB
Zusammenhang zwischen Körpergröße und Körpergewicht
Person Nr. 1 2 3 4 5 6 7 8 9 10
Größe in cm 174 182 178 190 172 165 172 189 168 181
Gewicht in kg 62 75 63 95 69 58 78 84 62 70
Person Nr. 11 12 13 14 15 16 17 18 19 20
Größe in cm 172 178 174 184 189 167 172 184 168 181
Gewicht in kg 72 65 70 65 78 60 65 72 65 72
Bes
chre
iben
de S
tatis
tik61
©JB
Zusammenhang zwischen Körpergröße und Körpergewicht
0
10
20
30
40
50
60
70
80
90
100
164 168 172 176 180 184 188 192
Größe in cm
Ge
wic
ht
in k
g
Bes
chre
iben
de S
tatis
tik62
©JB
Zusammenhang zwischen Körpergröße und Körpergewicht
0
10
20
30
40
50
60
70
80
90
100
164 168 172 176 180 184 188 192
Größe in cm
Ge
wic
ht
in k
g
Bes
chre
iben
de S
tatis
tik63
©JB
Regressionsanalyse
Die Regressionsanalyse verfolgt das Ziel, die Ten-denz des Zusammenhangs durch eine mathema-tische Funktion zu beschreiben.
Mögliche Funktionen:
Gerade: y = ax + b
Parabel: y = ax2 + bx + c
Potenzfunktion: y = bx2
Exponentialfunktion: y = bax
Bes
chre
iben
de S
tatis
tik64
©JB
Kriterium der kleinsten Quadrate
Zur Ermittlung der Regressionsfunktion hat sich das Kriterium der kleinsten Quadrate bewährt. In einem Koordinatensystem werden die Beobach-tungspunkte eingezeichnet. Der Abstand zwischen den Punkten und der Funktion soll möglichst klein werden.
d1 , d2 , d 3 , ... , dn mit dn y i y ix
Von allen möglichen Funktionen wird nun die ausge-wählt, für die die Quadrate der Abstände minimal sind
i i
n
y i y ix 2
i 1
n
di2 min
Bes
chre
iben
de S
tatis
tik65
©JB
Kriterium der kleinsten Quadrate
P1*
P2*
P1
P2
x1 x2
y1
y2
y2*
y1*
x
y
d1d2
y = ax + b
Bes
chre
iben
de S
tatis
tik66
©JB
Lineare Regressionsfunktion
Forderung für Regressionsgerade y = ax + b:
f a, bi 1
n
yi y ix 2
i 1
n
yi axi b 2 Minimum
Für Minimum muss 1. Ableitung nach a und b ver-schwinden:
dfda i 1
n
2 y i axi b xi
dfdb i 1
n
2 y i axi b 1
Bes
chre
iben
de S
tatis
tik67
©JB
Lineare Regressionsfunktion
Durch Null-Setzen der 1. Ableitungen folgt:
i 1
n
x i yi bi 1
n
x i ai 1
n
xi2
i 1
n
yi nb ai 1
n
x i
Auflösen nach a und b ergibt:
an
i 1
n
x i y ii 1
n
x ii 1
n
y i
ni 1
n
xi2
i 1
n
x i
2b i 1
n
xi2
i 1
n
y ii 1
n
xii 1
n
x i yi
ni 1
n
x i2
i 1
n
xi
2
Bes
chre
iben
de S
tatis
tik68
©JB
Lineare Regressionsfunktion
Andere Rechenmöglichkeit:
a i 1
n
x i x yi y
i 1
n
xi x 2
= Kovarianz
Varianzder x Werte
b y ax
Bes
chre
iben
de S
tatis
tik69
©JB
Einkommen - Miete
0
100
200
300
400
500
600
700
800
1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200
Nettoeinkommen
Mie
te
Bes
chre
iben
de S
tatis
tik70
©JB
Einkommen - Miete
y = 0,1579x + 202,65
0
100
200
300
400
500
600
700
800
1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200
Nettoeinkommen
Mie
te
Bes
chre
iben
de S
tatis
tik71
©JB
Lineare Regressionsfunktion
Bisher haben wir die die Abhängigkeit des Merkmals Y vom Merkmal X beschrieben. (Regression von y auf x).
Wollen wir die Abhängigkeit des Merkmals X vom Merkmal Y beschreiben (Regression von x auf y), so ergeben sich folgende Formeln:
a ' i 1
n
x i x yi y
i 1
n
y i y 2
b ' x a 'y
Bes
chre
iben
de S
tatis
tik72
©JB
Miete - Einkommen
0
500
1000
1500
2000
2500
3000
3500
350 400 450 500 550 600 650 700 750
Miete
Net
toei
nko
mm
en
Bes
chre
iben
de S
tatis
tik73
©JB
Miete - Einkommen
y = 5,73x - 946,5
0
500
1000
1500
2000
2500
3000
3500
350 400 450 500 550 600 650 700 750
Miete
Net
toei
nko
mm
en
Bes
chre
iben
de S
tatis
tik74
©JB
Werbungskosten - Umsatz
0
2
4
6
8
10
12
14
3 4 5 6 7 8 9 10 11 12
Werbungskosten (in 1000 €)
Um
satz
(in
Mio
. €)
Bes
chre
iben
de S
tatis
tik75
©JB
Werbungskosten - Umsatz
y = 1,22x - 0,54
0
2
4
6
8
10
12
14
3 4 5 6 7 8 9 10 11 12
Werbungskosten (in 1000 €)
Um
satz
(in
Mio
. €)
Bes
chre
iben
de S
tatis
tik76
©JB
Alter - Wartungskosten
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
0 1 2 3 4 5 6 7 8 9 10
Alter in Jahren
Ko
sten
in 1
000
DM
Bes
chre
iben
de S
tatis
tik77
©JB
Alter - Wartungskosten
y = 0,1903x + 1,3854
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
0 1 2 3 4 5 6 7 8 9 10
Alter in Jahren
Ko
sten
in 1
000
DM
Bes
chre
iben
de S
tatis
tik78
©JB
Korrelationsanalyse
In der Korrelationsanalyse versucht man, die Stärke des Zusammenhangs zwischen zwei Merkmalen durch eine Maßzahl auszudrücken.
Wir unterscheiden folgende Maßzahlen:
• Korrelationskoeffizient von Pearson(metrisch skalierte Merkmale)
• Rangkorrelationskoeffizient von Spearman(ordinalskalierte Merkmale)
• Kontingenzkoeffizienten(nominalskalierte Merkmale)
Bes
chre
iben
de S
tatis
tik79
©JB
Korrelationskoeffizient von Pearson
r i 1
n
x i x y i y
i 1
n
x i x 2
i 1
n
y i y 2
r
1n i 1
n
x i x y i y
1n i 1
n
x i x 2 1n i 1
n
y i y 2
sxysx s y
Bes
chre
iben
de S
tatis
tik80
©JB
Korrelationskoeffizient von Pearson
Der Korrelationskoeffizient r ist eine Zahl zwischen +1 und -1
r = 1: Alle Beobachtungswerte liegen auf einer steigenden Geraden.
r = –1: Alle Beobachtungswerte liegen auf einer fallenden Geraden.
r > 0: Merkmale positiv korreliert, d.h. die Regressionsgerade ist steigend.
r < 0: Merkmale negativ korreliert, d.h. die Regressionsgerade ist fallend.
r = 0: Die Merkmale sind unkorreliert,d.h. es besteht kein linearer Zusammenhang.
Bes
chre
iben
de S
tatis
tik81
©JB
Korrelationskoeffizient von Pearson
Zur Berechnung des Korrelationskoeffizienten von Pearson ist die folgende Formel besser geeignet:
rn
i 1
n
x i y ii 1
n
x ii 1
n
y i
ni 1
n
xi2
i 1
n
x i
2n
i 1
n
y i2
i 1
n
yi
2
Bes
chre
iben
de S
tatis
tik82
©JB
Beispiel Korrelationskoeffizient
174 62 -3 9 -8 64 24182 75 5 25 5 25 25178 63 1 1 -7 49 -7190 95 13 169 25 625 325172 69 -5 25 -1 1 5165 58 -12 144 -12 144 144172 78 -5 25 8 64 -40189 84 12 144 14 196 168168 62 -9 81 -8 64 72181 70 4 16 0 0 0172 72 -5 25 2 4 -10178 65 1 1 -5 25 -5174 70 -3 9 0 0 0184 65 7 49 -5 25 -35189 78 12 144 8 64 96167 60 -10 100 -10 100 100172 65 -5 25 -5 25 25184 72 7 49 2 4 14168 65 -9 81 -5 25 45181 72 4 16 2 4 8
3540 1400 1138 1508 954177 70
Bes
chre
iben
de S
tatis
tik83
©JB
Rangkorrelationskoeffizient von Spearman
• Zwei Merkmale besitzen mindestens eine Ordinalskala.
• Merkmalswerte aufsteigend geordnet und jedem Platz eine Rangzahl zugeordnet.
• Für Berechnung werden nur Rangzahlen benötigt.
• Stimmen mehrere Merkmaleswerte überein, wird das arith. Mittel der Rangzahlen gebildet.
rs 1
6i 1
n
d i2
n n2 1
Bes
chre
iben
de S
tatis
tik84
©JB
Beispiel 1
SchülerNr.
Lehrer ARang
Lehrer BRang
Lehrer ARang
Lehrer BRang
Lehrer ARang
Lehrer BRang
1 9 9 9 2 3 5
2 8 8 1 10 1 6
3 5 5 2 9 10 3
4 10 10 5 6 7 7
5 4 4 6 5 6 1
6 3 3 7 4 5 4
7 1 1 3 8 2 2
8 2 2 8 3 9 8
9 7 7 4 7 4 10
10 6 6 10 1 8 9
Fall 2 Fall 3Fall 1
Bes
chre
iben
de S
tatis
tik85
©JB
Beispiel 1
SchülerNr.
Fall 1 Fall 2 Fall 3
1 0 49 4
2 0 81 25
3 0 49 49
4 0 1 0
5 0 1 25
6 0 9 1
7 0 25 0
8 0 25 1
9 0 9 36
10 0 81 1
Summen: 0 330 142
r: 1 -1 0,14
Bes
chre
iben
de S
tatis
tik86
©JB
Beispiel 2
Teilnehmer-Nr. 1 2 3 4 5 6 7 8 9 10 11 12A-Note 4,8 5,0 5,8 5,5 5,3 5,0 5,1 4,6 4,7 5,9 5,5 5,4B-Note 4,4 5,1 5,6 5,7 5,7 5,5 5,3 4,9 4,4 5,8 5,7 5,4
Rang: 1 2 3 4 5 6 7 8 9 10 11 12
Teilnehmer-Nr. 8 9 1 2 6 7 5 12 4 11 3 10A-Note 4,6 4,7 4,8 5,0 5,0 5,1 5,3 5,4 5,5 5,5 5,8 5,9B-Note 4,9 4,4 4,4 5,1 5,5 5,3 5,7 5,4 5,7 5,7 5,6 5,8
Teilnehmer-Nr. 1 9 8 2 7 12 6 3 4 5 11 10A-Note 4,8 4,7 4,6 5,0 5,1 5,4 5,0 5,8 5,5 5,3 5,5 5,9B-Note 4,4 4,4 4,9 5,1 5,3 5,4 5,5 5,6 5,7 5,7 5,7 5,8
Bes
chre
iben
de S
tatis
tik87
©JB
Beispiel 2
Teilnehmer Nr. Rang Note A Rang Note B Differenz Quadrat
1 3 1,5 1,5 2,252 4,5 4 0,5 0,253 11 8 3 9,004 9,5 10 -0,5 0,255 7 10 -3 9,006 4,5 7 -2,5 6,257 6 5 1 1,008 1 3 -2 4,009 2 1,5 0,5 0,2510 12 12 0 0,0011 9,5 10 -0,5 0,2512 8 6 2 4,00
36,50
rs 16 36,5
12 144 1 = 1
2191716
0,87
Bes
chre
iben
de S
tatis
tik88
©JB
Beispiel Kontingenztabellen
Soziale Stellungdes Vaters
Schultyp desKindes
Häufigkeit
Arbeiter Hauptschule 6
Arbeiter Realschule 4
Arbeiter Gymnasium 0
Angestellter Hauptschule 2
Angestellter Realschule 2
Angestellter Gymnasium 1
Beamter Hauptschule 1
Beamter Realschule 2
Beamter Gymnasium 2
Selbständiger Hauptschule 1
Selbständiger Realschule 2
Selbständiger Gymnasium 2
Bes
chre
iben
de S
tatis
tik89
©JB
Mittlere quadratische Kontingenz
Arbeiter Angestellter Beamter Selbst.
Hauptschule 6 2 1 1 10
Realschule 4 2 2 2 10
Gymnasium 0 1 2 2 5
10 5 5 5 25
Arbeiter Angestellter Beamter Selbst.
Hauptschule 4 2 2 2 10
Realschule 4 2 2 2 10
Gymnasium 2 1 1 1 5
10 5 5 5 25
Bes
chre
iben
de S
tatis
tik90
©JB
Mittlere quadratische Kontingenz
C 1n i 1
m
j 1
r nij
ni n j
n
2
n i n j
n
Ci 1
m
j 1
r nij2
n i n j
1
Bes
chre
iben
de S
tatis
tik91
©JB
Vierfelderkorrelation
n12 n21 n11 n22
n11 n12 n21 n22 n11 n21 n12 n22
n11 n12 n1*
n21 n22 n2*
n*1 n*2 n
Bes
chre
iben
de S
tatis
tik92
©JB
Korrigierter Vierfelderkoeffizient
korr
n12n21 n11n22
n min n11,n22 n12n21 n11n22
wenn n12n21 n11n22
korrmax
korr
n12n21 n11n22
n min n21,n12 n12n21 n11n22
wenn n12n21 n11n22