Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die...
-
Upload
anselma-lammert -
Category
Documents
-
view
103 -
download
0
Transcript of Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die...
![Page 1: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/1.jpg)
Maße der zentralen Tendenz
• Modalwert / Modus
• häufigster Wert
• bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse
• Notation: X Mo
• ab Nominalskala
• Modus ist nicht die Häufigkeit, sondern die Variablenausprägung
• bimodale Verteilungen: 2 häufige Werte
![Page 2: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/2.jpg)
Modus klassifizierter Daten
Einkommensklassevon ... bis unter ...
l
Klassen-mitte
xl
absolute und relative Häufigkeiten
kumulierte absolute und relative Häufigkeiten
fl pl cfl cpl
0 - 2000 1000 1 0,083 1 0,083
2000 - 4000 3000 6 0,500 7 0,583
4000 - 6000 5000 3 0,250 10 0,833
6000 - 8000 7000 1 0,083 11 0,916
8000 und mehr (9000) 1 0,083 12 0,999
12 0,999
Verwende Klassenmitte der häufigsten Klasse: Modus = 3000
![Page 3: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/3.jpg)
Median
~Notation: X (X Tilde)teilt Werte in 2 gleich große Hälftenab Ordinalskalabei ungeradem N: Wert der mittleren Personbei geradem N: Mittelwert der beiden mittleren
Personen (dies nur bei Intervallskala)bei mehrfach auftretenden Werten:3 6 7 8 8 8 9 9 10 12Uminterpretieren des Medians (mindestens die Hälfte
der Personen liegt unter/über 8)oder lineare Interpolation (Median=8.17 siehe
Benninghaus)
![Page 4: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/4.jpg)
Median der 12 Einkommensangaben (1)
Als Beispiel dienen die Einkommensangaben aus Diekmann (1995). Die
Merkmalswerte müssen in sortierter Form vorliegen (primäre Liste). Der
Median entspricht bei ungerader Anzahl von Fällen dem Merkmalswert,
der in der sortierten (primären) Liste aller Merkmalswerte auf dem r-ten
Rangplatz steht (mit r=(n+1)/2). Dieser Wert teilt die Liste aller
Merkmalswerte exakt in zwei Hälften. Bei gerader Anzahl von Fällen
gibt es keinen Wert, der die Liste exakt in zwei Hälften unterteilt. Man
verwendet alternativ den Durchschnitt aus dem r-ten und (r+1)-ten Wert,
wobei r jetzt n/2 entspricht. Der Datensatz von Diekmann enthält zwölf
gültige Einkommensangaben, so dass wir in diesem Beispiel von einer
geraden Anzahl von Fällen ausgehen müssen.
![Page 5: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/5.jpg)
Median der 12 Einkommensangaben (2)
Rang(i)
Ein-kommen
x(i)
1 1600
2 2300
3 2300
4 2400
5 2900
6 3200 Der Median liegt zwischen dem 6. und 7. Wert. Vereinbart ist der Durchschnitt beider Werte: Median = (3200+3500)/2 = 3350.
7 3500
8 4500
9 4600
10 5200
11 6500
12 12000
![Page 6: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/6.jpg)
Median klassifizierter Daten (1)
Einkommensklassevon ... bis unter ...
l
Klassen-mitte
xl
absolute und relative Häufigkeiten
kumulierte absolute und relative Häufigkeiten
fl pl cfl cpl
0 - 2000 1000 1 0,083 1 0,083
2000 - 4000 3000 6 0,500 7 0,583
4000 - 6000 5000 3 0,250 10 0,833
6000 - 8000 7000 1 0,083 11 0,916
8000 und mehr (9000) 1 0,083 12 0,999
12 0,999
Daten: Diekmann (1995).
![Page 7: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/7.jpg)
Verwende lineare Interpolation im Medianintervall
2000-4000 = Medianintervall
2000 = cmu (exakte untere Grenze des Medianintervalls)
12 = n (Stichprobenumfang)
1 = cfu (kumulierte Häufigkeit unterhalb des Medianintervalls)
6 = fm (Häufigkeit im Medianintervall)
2000 = cmo - cmu (Breite des Medianintervalls)
Median = cmu + [(n/2 - cfu) . (cmo - cmu) / fm]
3666,67 DM = 2000 + [(12/2 - 1) . 2000 / 6]
Median klassifizierter Daten (2)
![Page 8: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/8.jpg)
Arithmetisches Mittel
Notation: x quer
ab Intervallskalenniveau
nicht robust gegenüber Ausreißern, alle Werte gehen ein
![Page 9: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/9.jpg)
Arithmetisches Mittel der 12 Einkommensangaben
Als Beispiel dienen die Einkommensangaben aus Diekmann (1995) . Die folgende Tabelle enthält nur die Fälle mit gültigen Einkommensangaben. Das arithmetische Mittel entspricht der Summe aller Merkmalswerte geteilt durch die Anzahl der Fälle
Fall-Nr.i
Einkommenxi
1 3500 2 2400 3 5200 4 3200 5 2300 6 4500 7 12000 8 6500
11 2300 13 4600 14 1600 15 2900
Summe 51000 Arithmetisches Mittel = xi/n = 51000/12 = 4250
![Page 10: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/10.jpg)
Arbeitstabelle für MW bei gruppierten Daten
xi fi fi xi
1 5 5
2 7 14
3 2 6
Summe 14 Summe = 25
MW=25/14
![Page 11: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/11.jpg)
Arithmetisches Mittel klassifizierter Daten (1)
Einkommensklassevon ... bis unter ...
l
Klassen-mitte
xl
absolute und relative Häufigkeiten
kumulierte absolute und relative Häufigkeiten
fl pl cfl cpl
0 - 2000 1000 1 0,083 1 0,083
2000 - 4000 3000 6 0,500 7 0,583
4000 - 6000 5000 3 0,250 10 0,833
6000 - 8000 7000 1 0,083 11 0,916
8000 und mehr (9000) 1 0,083 12 0,999
12 0,999
Daten: Diekmann (1995).
![Page 12: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/12.jpg)
Verwende Klassenmitten
Arithm.Mittel = (1 . 1000 + 6 . 3000 + 3 . 5000 + 1 . 7000 + 1 . 9000) / 12
= 50000 / 12
= 4166,67 DM= 0,083 . 1000 + 0,500 . 3000 + 0,250 . 5000 +
0,083 . 7000 + 0,083 . 9000
Arithmetisches Mittel klassifizierter Daten (2)
![Page 13: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/13.jpg)
Spannweite
Die Merkmalswerte müssen in sortierter Form vorliegen (primäre Liste).
Die Spannweite der Verteilung entspricht der Differenz zwischen dem
kleinsten und dem größten Merkmalswert. Dazu ist metrisches
Skalenniveau erforderlich (Intervallskala). Bei ordinalen Skalen begnügt
man sich mit der Angabe des kleinsten und größten Werts (min, max).
Bei klassifizierten Daten: Differenz zwischen der Klassenmitte der
obersten Klasse und der untersten Klasse.
Der Wert ist sensibel für Ausreißer (erfasst nur ! Ausreißer), daher besser
Quartilsabstand (umfasst die mittleren 50%).
![Page 14: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/14.jpg)
Quartilsabstand (1)
Ähnlich wie der Median die unteren 50% der Merkmalswerte von den
oberen 50% trennt, lassen sich beliebige Perzentile einer Verteilung
berechnen. Am bekanntesten sind das 25%- und 75%-Perzentil, die das
untere und das obere Viertel der Verteilung abschneiden. Man bezeichnet
sie daher auch als untere und obere Quartile bzw. als erstes und drittes
Quartil (der Median ist quasi das zweite Quartil). Notation: QA.
Der Quartilsabstand entspricht der Differenz zwischen dem oberen
(dritten) und unteren (ersten) Quartil. Er misst, in welchem Bereich sich
die mittleren 50% der Merkmalswerte bewegen. Intervallskala erforderlich.
Gebräuchlich ist auch der Semiquartilsabstand (die Hälfte des
Quartilsabstands) aufgrund der Vergleichsmöglichkeiten mit der
Standardabweichung.
(Daten: Diekmann, 1995)
![Page 15: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/15.jpg)
Quartilsabstand (2)
Für die Berechnung der Quartile gibt es unterschiedliche Formeln, und
die berechneten Werte hängen sehr stark von der verwendeten Formel ab.
Rang (i) Einkommen x(i) Quartile
1 1600 2 2300 3 2300 Q1 = 2350 4 2400 5 2900 6 3200 Q2 (Median) = 3350 7 3500 8 4500 9 4600 Q3 = 4900
10 5200 11 6500 12 12000
Spannweite = 12000 - 1600 = 10400 Quartilsabstand = Q3 - Q1 = 4900 - 2350 = 2550
![Page 16: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/16.jpg)
Varianz
quadrierte aufsummierte Abweichungen vom Mittelwert, geteilt durch n bzw. n-1 (unquadrierte Abweichungen würden immer 0 ergeben).
Intervallskalenniveau erforderlich
![Page 17: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/17.jpg)
Varianz und Standardabweichung (1)
Die Varianz basiert auf der Summe der quadrierten Abweichungen jedes
Merkmalswertes vom arithmetischen Mittel: SAQx. Ihre Berechnung hängt
davon ab, ob man Daten einer Totalerhebung oder einer Stichprobe
betrachtet:
• Stichprobe: Varianz = SAQx / (n-1)
• Totalerhebung: Varianz = SAQx / n
Dabei entspricht n der Anzahl der Untersuchungseinheiten der Stichprobe
bzw. der Totalerhebung.
Die Standardabweichung ergibt sich aus der Quadratwurzel der Varianz.
Vorteil: Die ursprüngliche Maßeinheit bleibt erhalten, z.B. das Alter weicht
durchschnittlich 7 Jahre vom Mittelwert ab.
![Page 18: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/18.jpg)
Fall-Nr.i
Einkommenxi
Arithmetisches Mittel Abweichung Quadrat
1 3500 4250 -750 562500 2 2400 4250 -1850 3422500 3 5200 4250 950 902500 4 3200 4250 -1050 1102500 5 2300 4250 -1950 3802500 6 4500 4250 250 62500 7 12000 4250 7750 60062500 8 6500 4250 2250 5062500
11 2300 4250 -1950 3802500 13 4600 4250 350 122500 14 1600 4250 -2650 7022500 15 2900 4250 -1350 1822500
Summe 51000 51000 0 87750000
Varianz und Standardabweichung (2): Arbeitstabelle
![Page 19: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/19.jpg)
Stichprobe (Divisor n-1=11)
Varianz = 87750000 / 11 = 7977272,73
Standardabweichung = Varianz = 7977272,73 = 2824,41
Variationskoeffizient = Standardabweichung / arithm. Mittel = 2824,41 / 4250 = 0,66
Wenn es sich bei der Befragung von Diekmann nicht um eine Stichprobe, sondern um eine Totalerhebung gehandelt hätte, hätte man wie folgt rechnen müssen.
Grundgesamtheit (Divisor n=12)
Varianz = 87750000 / 12 = 7312500,00
Standardabweichung = Varianz = 7312500,00 = 2589,04
Variationskoeffizient = Standardabweichung / arithm. Mittel = 2589,04 / 4250 = 0,61
Varianz und Standardabweichung (3)
![Page 20: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/20.jpg)
Standardabweichung klassifizierter Daten (1)
Ein-kommens-
klassevon ... bis unter ...
Klassenmitte
Häufigkeit
Arithm. Mittel
Abweichung von Klassenmitte
quadrierte Abweichung
0-2000 1000 1 4166,67 -3166,67 10027798,89
2000-4000 3000 6 4166,67 -1166,67 1361118,89
4000-6000 5000 3 4166,67 833,33 694438,89
6000-8000 7000 1 4166,67 2833,33 8027758,89
8000 und mehr
9000 1 4166,67 4833,33 23361078,89
Daten: Diekmann (1995).
![Page 21: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/21.jpg)
Verwende gewichtete Summe der Abweichungsquadrate
GSAQx = 1 . 10027798,89 + 6 . 1361118,89 + 3 . 694438,89 + 1 .
8027758,89 + 1 . 23361078,89 = 43472194,45
Varianz = GSAQx/(n-1) = 43472194,45 / (12-1) = 3952017,68
Standardabweichung = Varianz = 3952017,68 = 1987,97
Standardabweichung klassifizierter Daten (2)
![Page 22: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/22.jpg)
Zusammenfassung der Ergebnisse: Einkommen der Befragten
Es wurden 60 männliche Bedienstete der Verwaltung einer
westdeutschen Großstadt befragt. Insgesamt 58 Personen machten
Angaben über ihr monatliches Nettoeinkommen. Die Einkommen der
befragten Personen bewegen sich im Bereich von 1300 DM bis 4300
DM. Sieht man einmal von den extrem niedrigen und den extrem hohen
Einkommen ab, dann liegen die mittleren 50% der Einkommen zwischen
1700 DM und 2500 DM. Die Hälfte der befragten Personen verdient
weniger als 1950 DM. Im Durchschnitt verdienen die befragten Personen
2118,79 DM (Standardabweichung 619,60).
![Page 23: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/23.jpg)
Mittelwerte und Streuungsmaße nach Messniveau (1)
Zentrale Tendenz (Mittelwerte)
Nominal Ordinal Intervall Verhältnis
Modus ja ja ja ja
Median nein Ja ja ja
Arithm. Mittel nein nein ja ja
Geom. Mittel nein nein nein ja
![Page 24: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/24.jpg)
Mittelwerte und Streuungsmaße nach Messniveau (2)
Streuung (Streuungsmaße)
Nominal Ordinal Intervall Verhältnis
Spannweite nein (ja) ja ja
Quartilsabstand nein (ja) ja ja
Mittl. absolute Abweichung
nein nein ja ja
VarianzStandardabweichung
nein nein ja ja
Variationskoeffizient nein nein nein ja
![Page 25: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/25.jpg)
Typische Verteilungsformen (1)
e) schmalgipflig f) breitgipflig
g) u-förmig h) -förmig
![Page 26: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/26.jpg)
Typische Verteilungsformen (2)
a) unimodal c) bimodal
c) rechtssteil/linksschief d) linkssteil/rechtsschief
![Page 27: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/27.jpg)
Weitere univariate Statistiken
• Schiefe: Maß für die Asymmetrie
• Exzess: Maß für die Steilheit
![Page 28: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/28.jpg)
symmetrisch
linkssteil
x~x
h
x~xh
x~x h
rechtssteil
Die Lage der Mittelwerte in verschiedenen Verteilungen
![Page 29: Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.](https://reader035.fdocument.pub/reader035/viewer/2022062622/55204d6649795902118bba03/html5/thumbnails/29.jpg)
Vergleich einer Verteilung mit der Standardnormalverteilung
• Wenn die relative Stellung einer Person bezogen auf eine Stichprobe in Einheiten der Standardabweichung ermittelt werden soll
• oder wenn die Werte zweier Tests einer Person, die mit verschiedenen Maßeinheiten gemessen wurden, verglichen werden sollen, werden die Werte z-transformiert:
• zi=xi-xquer / s• symmetrische Verteilungen (Normalverteilungen)
werden so in eine Standardnormalverteilung überführt, man kann aus Tabellen ablesen, wie viele Werte unter einem bestimmten Wert liegen.