1 Wie lässt sich die Stärke eines Zusammenhanges bei kategorialen Werten (nominalskalierten...
-
Upload
velten-landolt -
Category
Documents
-
view
106 -
download
1
Transcript of 1 Wie lässt sich die Stärke eines Zusammenhanges bei kategorialen Werten (nominalskalierten...
1
Wie lässt sich die Stärke eines Zusammenhangesbei kategorialen Werten (nominalskalierten
Werten) auf Basis einer Kreuztabelle, Kontingenz- tafel bewerten?
Mit Hilfe derDifferenz zwischen
beobachteten und erwarteten Anzahlen
2
Brunnen A
Erk
rank
tN
icht
-erk
rank
t
Brunnen B
3
Mädchen
und
gut
Mädchen
und
schlecht
Junge
und
gut
Junge
und
schlecht
Vier Felder Matrix
4
Mädchen
und
gut
345
Mädchen
und
schlecht
2Junge
und
gut
8
Junge
und
schlecht
366N = 721
Mädchen347
Jungen374
gut = 353 schlecht = 368
5
Eine Dreisatzaufgabe:
Wenn von 721 Schülerinnen und Schülern 353 gut sind,wie viele müssten dann von 374 (Jungen)gut sein?
721 = 353374 = ?
353 mal 374721
= 183
6
Mädchen
und
gut
345
Mädchen
und
schlecht
2
Junge
und
gut
8 [erwartet 183]
Junge
und
schlecht
366
N = 721
Mädchen347
Jungen374
gut = 353 schlecht = 368
7
Geo * Gram Kreuztabelle
16 24 40
16,0 24,0 40,0
16 24 40
16,0 24,0 40,0
32 48 80
32,0 48,0 80,0
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
gut
schlecht
Geo
Gesamt
gut schlecht
Gram
Gesamt
Sie können diese Berechnung selbstverständlich auch als Dreisatz formulieren:
von 80 (Gesamt) sind in Gram gut 32von 40 (Gesamt in Geo gut) sind in Geo gut X
Gerechnet wird: 32 mal 40 = 1280 geteilt durch 80 = 16
Gibt es einen Zusammenhang zwischen den Leistungen in den Fächern Geographie und Grammatik?
8
Die Stärke des Zusammenhangsergibt sich logisch aus der Größeder Differenz zwischen erwartetund beobachtet.
Berechnet werden kann dieseStärke bspw. durch das sog.Chi-Quadrat.
9
class * survival Kreuztabelle
203 122 325
105,0 220,0 325,0
118 167 285
92,1 192,9 285,0
178 528 706
228,1 477,9 706,0
212 673 885
285,9 599,1 885,0
711 1490 2201
711,0 1490,0 2201,0
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
First Class
Second Class
Third Class
Crew
class
Gesamt
Survival Missing
survival
Gesamt
Konvention über den Aufbau: abhängige Variable in die Spalte, unabhängige in Zeile
10
Summary Table: Expected Frequencies (Titanic) Marked cells have counts > 10 Pearson Chi-square: 190,401, df=3, p=0,00000
classsurvival - Survival
survival - Missing
Row - Totals
First Class 104,9864 220,014 325,000
Second Class 92,0650 192,935 285,000
Third Class 228,0627 477,937 706,000
Crew 285,8860 599,114 885,000
All Grps 711,0000 1490,000 2201,000
11
class * survival Kreuztabelle
203 122 325
105,0 220,0 325,0
118 167 285
92,1 192,9 285,0
178 528 706
228,1 477,9 706,0
212 673 885
285,9 599,1 885,0
711 1490 2201
711,0 1490,0 2201,0
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
First Class
Second Class
Third Class
Crew
class
Gesamt
Survival Missing
survival
Gesamt
Berechnet werden die Zahlen „Erwartet“ wie folgt:
In der ersten Zeile wurden 203 Gerettete beobachtet. Die Gesamtzahl der Passagierein der ersten Klasse betrug 325. Ingesamt wurden 711 Personen gerettet, an Bordwaren insgesamt 2201 Personen. Die Rechnung lautet jetzt:
711 mal 325 = 231075, geteilt durch 2201 macht 104,98 (~ 105)
Sie können diese Berechnung selbstverständlich auch als Dreisatz formulieren:
von 2201 (Gesamt) überlebten 711von 325 (erste Klasse) überlebten X
12
Der „Chi-Quadrat-Test“ zur Überprüfung der Unabhängigkeit von zwei Variablen
Mit diesem Test kann die Unabhängigkeit von zwei Variablen, und damit indirekt auchdie Größe des Zusammenhangs zwischen zwei Variablen geprüft werden.Von Bedeutung ist dieser Test bspw. wenn der Frage nachgegangen werden soll,ob – um bei dem Beispiel der Titanic zu bleiben – das Alter oder das Geschlecht eine größere Rolle bei der Frage des Überlebens gespielt hat.
Dazu rufen wir wieder die Dialogbox „Kreuztabelle“ auf und setzen wieder, wie auf der nächsten Folie ersichtlich, „class“ in die Zeile und „survival“ in die Spalte.
Jetzt klicken wir das Fenster „Statistik“ an und erhalten die folgende Dialogbox.
Chi-Quadrat = ∑(„Wert beobachtet“ – „Wert erwartet“)2
„Wert erwartet“
13
14
15
Chi-Quadrat
16
Betrachten wie nun die Tabellen und Werte des Chi-Quadrats:age * survival Kreuztabelle
654 1438 2092
675,8 1416,2 2092,0
57 52 109
35,2 73,8 109,0
711 1490 2201
711,0 1490,0 2201,0
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Adult
Children
age
Gesamt
Survival Missing
survival
Gesamt
Damit haben wir für die Variablen „Überleben/Klasse“ einen Chi-Quadrat-Test Wert von 190,401 und für die Variablen „Überleben/Alter“ einen Wert von 20,956
Was sagen diese Werte aus?
Chi-Quadrat-Tests
20,956b
1 ,000
20,005 1 ,000
19,561 1 ,000
,000 ,000
20,946 1 ,000
2201
Chi-Quadrat nachPearson
Kontinuitätskorrektura
Likelihood-Quotient
Exakter Test nach Fisher
Zusammenhanglinear-mit-linear
Anzahl der gültigen Fälle
Wert df
Asymptotische Signifikanz
(2-seitig)
ExakteSignifikanz(2-seitig)
ExakteSignifikanz(1-seitig)
Wird nur für eine 2x2-Tabelle berechneta.
17
Um diese Frage zu beantworten soll erläutert werden, wie die Werte errechnet werden. Aus der Kreuztabelle werden die Werte für „Beobachtet“ und „Erwartet“ jeder Zeile wie in derunteren Tabelle zu sehen voneinanderabgezogen.
class * survival Kreuztabelle
203 122 325
105,0 220,0 325,0
118 167 285
92,1 192,9 285,0
178 528 706
228,1 477,9 706,0
212 673 885
285,9 599,1 885,0
711 1490 2201
711,0 1490,0 2201,0
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
First Class
Second Class
Third Class
Crew
class
Gesamt
Survival Missing
survival
Gesamt
Anschließend wirddieser Wert quadriert, (um nur positive Werte zu erhalten) und durchdie „erwarteten Werte“dividiert.
Diese Werte werdenschließlich aufaddiertund wir erhalten den Wert desChi-Quadrat-Tests!
Beobachtet B
ErwartetE
B-E (B-E) ² (B-E)² /E
203 105 98 9604 91,46
122 220 -98 9604 43,65
118 92 26 676 7,34
167 193 -26 676 3,50
178 228 -50 2500 10,01
528 478 50 2500 5,23
212 286 -74 5476 19,15
673 599 74 5476 9,14
∑ 189,48
18
Um diese Frage zu beantworten soll erläutert werden, wie die Werte errechnet werden. Aus der Kreuztabelle werden die Werte für „Beobachtet“ und „Erwartet“ jeder Zeile wie in derunteren Tabelle zu sehen voneinanderabgezogen.
class * survival Kreuztabelle
203 122 325
105,0 220,0 325,0
118 167 285
92,1 192,9 285,0
178 528 706
228,1 477,9 706,0
212 673 885
285,9 599,1 885,0
711 1490 2201
711,0 1490,0 2201,0
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
First Class
Second Class
Third Class
Crew
class
Gesamt
Survival Missing
survival
Gesamt
Anschließend wirddie Wurzel ausdem Wert E gezogen,denn B-E durchdie Wurzel E geteilt undschließlich wirddas Ganze quadriert (um nurpositive Werte zu erhalten). DieseWerte werdenschließlich aufaddiertund wir erhalten den Wert desChi-Quadrat-Tests!
Beobachtet B
ErwartetE
B-E SQRT(E) B-E/SQRT(E) (B-E/SQRT (E))²
203 105 98 10,24 9,57 91,58
122 220 -98 14,83 -6,60 43,56
118 92 26 9,59 2,71 7,34
167 193 -26 13,89 -1,87 3,49
178 228 -50 15,09 -3,31 10,95
528 478 50 21,86 2,28 5,19
212 286 -74 16,91 -4,37 19,09
673 599 74 24,47 3,02 9,12
∑ 190,32
Einige Lehrbücher berechnen den Wert so:
19
Um einen Aspekt zu verstehen, der diesem Wert entnommen werden kann, verdeutlichen wir uns einmal den Fall, bei dem der beobachtetet Wert nahezu dem erwarteten Wert entspricht:
Beobachtet B Erwartet E B-E SQRT(E) B-E/SQRT(E) (B-E/SQRT (E))²
243 242 1 15,58 0,064 0,00411
Beobachtet B Erwartet E B-E SQRT(E) B-E/SQRT(E) (B-E/SQRT (E))²
1 243 -242 15,58 -15,53 241,18
Anschließend den Wert, der einer maximal möglichen Abweichung entspricht:
Dieser Vergleich zeigt (hoffentlich) deutlich (einen der) hier zugrunde liegendenAspekte: Je höher der Chi-Quadrat-Test Wert, desto größer der Zusammenhangzwischen den betrachteten Variablen. Zurück zu der gestellten Frage ergibt sich folglich, dass die Variablen „Klasse“ mit dem Chi-Quadrat-Test Wert von 190,401 einen höheren Zusammenhang zwischen dieser Variablen und dem Überleben aufweist, als die Variable „Alter“ mit einem Wert von nur 20,956.Kurz: Mit Hilfe des Chi-Quadrat-Test Wertes kann die Stärke des Zusammen-hang zwischen verschiedenen Variablen vergleichend beurteilt werden.
20
Chi-Quadrat-Tests
37,988a
39,610
,123
1667
25,747b
32,087
21,731
64
117,311c
126,601
73,012
425
12,339d
16,983
11,131
45
Chi-Quadrat nachPearson
Likelihood-Quotient
Zusammenhanglinear-mit-linear
Anzahl der gültigen Fälle
Chi-Quadrat nachPearson
Likelihood-Quotient
Zusammenhanglinear-mit-linear
Anzahl der gültigen Fälle
Chi-Quadrat nachPearson
Likelihood-Quotient
Zusammenhanglinear-mit-linear
Anzahl der gültigen Fälle
Chi-Quadrat nachPearson
Likelihood-Quotient
Zusammenhanglinear-mit-linear
Anzahl der gültigen Fälle
ageAdult
Children
Adult
Children
genderMale
Female
Wert
0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwarteteHäufigkeit ist 34,06.
a.
Es ist auch möglich, um eine weitere Variante zuzeigen, sich die Chi-Quadrat-Werte geschichtetanzeigen zu lassen – eineggf. übersichtlichereDarstellungsform.Es zeigt sich, dass von den hier vorliegenden Variablen dieKombination „Female/Adult“den größten Einfluss auf die Frage „Überleben“ oder„Nicht-Überleben“ hatte.
21
Wie lässt sich die Stärke eines Zusammenhangesbei numerischen Werten (intervallskaliertenWerten) auf Basis einer Korrelationsanalyse bewerten?
Mit Hilfe des sog. Korrelationskoeffizienten
22
Ausgangspunkt: Ein Streudiagramm oder Scatterplot
Kör
perlä
nge
Gewicht
Für jede Person, jedes Objekt wird ein Wert erhoben oder
gemessen und am Schnittpunkt der beiden Werte wird eine
Markierung eingetragen
23
Ausgangspunkt: Ein Streudiagramm oder Scatterplot
Kör
perlä
nge
Gewicht
24
Ausgangspunkt: Ein Streudiagramm oder Scatterplot
Kör
perlä
nge
Gewicht
25
Ausgangspunkt: Ein Streudiagramm oder Scatterplot
Kör
perlä
nge
Gewicht
Sog. Regressionsgrade
26
Ausgangspunkt: Ein Streudiagramm oder Scatterplot
Kör
perlä
nge
Gewicht
Summe der kleinstenQuadrate
27
Ausgangspunkt: Ein Streudiagramm oder Scatterplot
Korrelation: Je kleiner die Summe der kleinsten Quadrate, desto stärker der Zusammenhang
Kör
perlä
nge
Gewicht
Summe der kleinstenQuadrate
28Einzelwerte für Variable A
Ein
zelw
erte
für
Var
iabl
e B
Korrelationskoeffizient 0
29Einzelwerte für Variable A
Ein
zelw
erte
für
Var
iabl
e B
Korrelationskoeffizient hoch, positiv
30Einzelwerte für Variable A
Ein
zelw
erte
für
Var
iabl
e B
Korrelationskoeffizient hoch, negativ
31
Positiver korrelativer Zusammenhang: „Je mehr, desto mehr“
Negativer korrelativer Zusammenhang: „Je mehr, desto weniger“
Korrelationskoeffizient +1.0
Korrelationskoeffizient -1.0
32Verlauf über die Zeit
Leis
tung
en in
Kla
sse
A u
nd in
Kla
sse
B
AB
A
A
AA
A
AA
A
AA
A
BB
BB
B
B
B
B
B
B
B
B
B
33Verlauf über die Zeit
Leis
tung
en in
Kla
sse
A u
nd in
Kla
sse
B
AB
A
A
AA
A
AA
A
AA
A
BB
BB
B
B
B
B
B
B
B
B
B
34Verlauf über die Zeit
Leis
tung
en in
Kla
sse
A u
nd in
Kla
sse
B
AB
A
A
AA
A
A
A
A
AA
A
BB
BB
B
B
B
B
B
B
B
B
B
Ausreißer
35
Leis
tung
en in
Kla
sse
B
A
A A
AA
A
A
A
A
AA
A
Böse Falle Null:Missing Value:
Für eine Personliegen keine Angaben zu
der Leistung in Klasse B vor
0
Leistungen in Klasse A
36
Scores of 12th graders on standardized tests (index for average: 100 pts)
GEOMETRY READING GRAMMAR DRAWING CALCULUS HISTORY WRITING SPELLING
1 98,655 98,483 98,094 99,163 97,853 99,987 96,858 98,583
2 98,701 100,394 98,870 97,872 100,313 103,135 100,480 98,112
3 98,399 97,799 98,822 96,949 96,796 101,657 96,900 98,823
4 98,032 100,207 101,876 98,151 99,570 102,063 101,035 99,924
5 97,962 99,147 98,886 99,318 100,372 101,457 98,850 98,691
6 98,981 102,662 103,544 98,116 98,054 102,774 102,450 104,772
7 94,024 98,124 97,377 92,904 92,288 101,826 98,890 96,106
8 99,410 106,941 108,109 98,651 99,025 107,434 104,996 106,469
9 100,327 98,228 97,282 101,636 102,193 100,004 97,964 98,979
10 99,014 99,284 99,634 98,339 98,468 101,214 100,687 101,721
11 102,358 99,548 99,599 103,473 103,778 102,091 99,776 97,062
12 98,470 99,212 98,047 97,710 99,047 99,465 97,632 95,526
13 97,689 103,773 104,649 96,524 95,386 105,934 103,168 103,302
14 102,657 96,935 98,332 102,945 103,428 97,203 98,076 99,835
15 101,586 94,367 94,817 100,865 102,702 95,990 96,305 93,534
16 102,202 97,450 99,258 101,766 102,481 100,471 96,756 99,404
17 101,536 100,455 99,534 100,060 99,558 103,421 100,778 100,099
18 98,469 100,804 99,322 97,412 97,612 103,925 99,504 101,752
19 102,980 99,128 97,710 102,023 103,068 102,579 98,051 98,455
20 99,450 103,106 103,938 100,844 99,197 106,890 102,378 103,188
21 100,607 103,657 103,662 101,333 100,136 105,343 103,572 104,477
37
92 94 96 98 100 102 104 106
DRAWING
92
94
96
98
100
102
104
106G
EO
ME
TR
Y
DRAWING:GEOMETRY: r = 0,9032; p = 0.0000; r 2 = 0,8159
Beachten Sie den Korrelationsquotienten!
38
92 94 96 98 100 102 104 106
DRAWING
-20
0
20
40
60
80
100
120G
EO
ME
TR
Y
DRAWING:GEOMETRY: r = -0,0787; p = 0,4879; r 2 = 0,0062
"Übeltäter": der Ausreißer
Beachten Sie den Korrelationsquotienten!
39
Welche Möglichkeiten des Umgangs mit fehlenden Werten gibt es?
Y
X
Y
X
Bei kategorialen Merkmalenhäufigste Ausprägung der
k nächsten Nachbarn
Bei metrischen Merkmalendurchschnittlicher Wert der
k nächsten Nachbarn
Aber auch: Missing Values rauswerfen!
40
90 92 94 96 98 100 102 104 106 108 110 112
SPELLING
92
94
96
98
100
102
104
106D
RA
WIN
G
SPELLING:DRAWING: r = 0,0164; p = 0,8850; r 2 = 0,0003
41
Wie kann der Befund von Snow transformiert werden und wozu?
• Um Vergleiche zwischen den Stärken des Effekts möglich zu machen• Um die wirkungsvollsten Interventionsansatz zu bestimmen• Um die Wirkungen von Interventionen abschätzen zu können• …• ..
42
43
„Snow“ enthält kategoriale Daten:• Brunnen• An Cholera Verstorbene
Wie ließen sich diese kategorialenDaten in numerische übertragen?
44
Beispiel:
45
Dis
tanz
Anzahl der Erkrankten
46
Dis
tanz
Anzahl der Erkrankten
47
Dis
tanz
Anzahl der Erkrankten
48
Dis
tanz
Anzahl der Erkrankten
„Schwelle“
49
Dis
tanz
Anzahl der Erkrankten
50
Pitc
h
Mea
n M
ean±
0,95
Con
f. I
nter
val
p rofession: Novize
Pitch0,82
0,84
0,86
0,88
0,90
0,92
0,94
0,96
0,98
1,00
1,02
1,04
profession: Experte
Pitch
51
Hea
ding
_deg
Mea
n M
ean±
0,95
Con
f. I
nter
val
p rofession: Novize
Heading_deg198,5
199,0
199,5
200,0
200,5
201,0
201,5
202,0
202,5
profession: Experte
Heading_deg
52
Spe
ed_k
n
Mea
n M
ean±
0,95
Con
f. I
nter
val
p rofession: Novize
Speed_kn8,8
9,0
9,2
9,4
9,6
9,8
10,0
10,2
10,4
profession: Experte
Speed_kn
53
541 3 5 7 9 11 13 15 17 190
10
20
30
40
50
60F
ehle
r
„schlecht“
„gut“
55
Unterschiede messen
0 1 2 3 4 5 6 7 8 9 10
Median Mean
Median ist der Punkt, bei dem die eine Hälfte der Werte oberhalb und die andere unterhalb dieses Punktes liegt
Der Mittelwert wird berechnet durch die Summe aller Werte geteilt durch dieAnzahl der Werte
56
X = ∑ xi
n
Mathematisch wird die Berechnung desMittelwertes so dargestellt:
X ausgesprochen: X Strich oder x quer ist das Symbol für den Mittelwert
∑ dies ist der griechische Großbuchstabe für Sigma und das sog.Summenzeichen, d.h. alle Messwerte müssen addiert werden
xi dieses Zeichen steht für sämtliche Einzelmesswerte
n und n steht schließlich für die Anzahl der durchgeführten Messungen
57
Unterschiede messen
Zwei weit verbreite, einfache Methoden:
• Zwischen zwei Klassen unterscheiden: Gut ↔ Schlecht• Zwischen vier (oder einer anderen Anzahl von) Perzentilen unterscheiden
58
Unterschiede messen
Keine Variation vorhanden
59
Unterschiede messen In welchem Maß ist Variation vorhanden?
Erste Ebene: Spannbreite (R für range)
R = Xmax – Xmin
60
Unterschiede messen In welchem Maß ist Variation vorhanden?
Zweite Ebene: Summe der quadrierten Fehler (Abweichungen)
Mean
σ² =∑ xi X-( )
n - 1
2
61
Unterschiede messen In welchem Maß ist Variation vorhanden?
Dritte Ebene: Standardabweichung
Mean
σ =∑ xi X-( )
n - 1√
2
62
Unterschiede messen In welchem Maß ist Variation vorhanden?
Vierte Ebene: z-TransformationAbstand jeder Messung zum Mittelwert, geteilt durch die Standardabweichung
z =xi X-
σx
Alle Mittelwerte werden Null, die Abstände werden standardisiert; die relative Lage jeder Messung kann verglichen werden
Mean0
Mean0
63
64
(leicht hinkender Vergleich)
Sie wollen verschieden formatige, verschieden große Bilder auf eine Seite bringen
65
(leicht hinkender Vergleich)
Sie wollen verschieden formatige, verschieden große Bilder auf eine Seite bringen
66
Mittelwerte:64,55 49,26
Std.-Abw.:11,623 29,831
67
Wirkung der Z-Transformation:
ZSPELLING(L) PSPELLIN(R)
-3 -2 -1 0 1 2 3 4
-20 0 20 40 60 80 100 120
92,547
95,147
96,106
97,404
98,112
98,823
99,412
99,835
100,339
101,433
102,704
103,749
105,041
108,323
Mit Hilfe dieser Grafik wird erkennbar, was die Prozentränge im Unterschied zu den Z-standardisierten Werten angeben:
Am linken Rand sind dieRohwerte abgetragen,am oberen Rand dieProzentränge und am unteren Rand diez-standardisierten Werte.
Wie ersichtlich, hat derhöchste Rohwert denProzentrang 100 und denZ-Wert +3. Der niedrigsteRohwert hingegen denProzentrang 1,25 und denZ-Wert -2.
69
Prozenträngecum f % = 100
cum f
N
Rohwert Fälle f cum f cum f % PR
80
..
..
5 25 25 98
4 18 18 73 24,3 24
3 19 19 55 18,3 18
2 15 15 36 12,0 12
1 12 12 21 7,0 7
0 9 9 9 3,0 3
(N = 300)
300 = 100 % 9 = x %
70
sog. ‚Absoluter Rangwert‘:1. Rang + 2. Rang/2 = 1,5
Werte mal 100/Max-Wert:
2*100 = 200/30 = 6,66666
Relative Rangfolge in %:20 = 100 %1,5 = x %
Z-Transformation
71
Line Plot of VAR00001Beispiel_Z_Proz_Werte 4v*20c
VAR00001(L) PVAR0000(R)0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
0
5
10
15
20
25
30
35
0
20
40
60
80
100
120
72
Line Plot of VAR00001Beispiel_Z_Proz_Werte 4v*20c
VAR00001(L) ZVAR00001(R)0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
0
5
10
15
20
25
30
35
-1,4
-1,2
-1,0
-0,8
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
1,2
73
Line Plot of VAR00001Beispiel_Z_Proz_Werte 4v*20c
VAR00001(L) Real_Proz(R)0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
0
5
10
15
20
25
30
35
0
20
40
60
80
100
120
74
2 3 4 5 26 27 28 29 30
N_A_1
0
1
2
3
4H
äufig
keite
n
75
N_A_10 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
0
5
10
15
20
25
30
35
76
PN_A_1(L) ZN_A_1(R)
2,00
2,00
3,00
3,00
3,00
4,00
4,00
4,00
5,00
26,0
0
27,0
0
27,0
0
28,0
0
28,0
0
28,0
0
29,0
0
29,0
0
29,0
0
30,0
0
30,0
0
0
20
40
60
80
100
120
-1,4
-1,2
-1,0
-0,8
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
1,2
77
2 3 4 12 13 14 15 16 17 27 28 29 30
N_A_2
0
1
2
3
4H
äufig
keite
n
78
N_A_20 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
0
5
10
15
20
25
30
35
79
PN_A_2(L) ZN_A_2(R)
2,00
2,00
3,00
3,00
3,00
4,00
4,00
12,0
0
13,0
0
13,0
0
14,0
0
15,0
0
16,0
0
17,0
0
27,0
0
28,0
0
28,0
0
29,0
0
30,0
0
30,0
0
0
20
40
60
80
100
120
-1,4
-1,2
-1,0
-0,8
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
80
2 3 4 7 9 11 12 13 14 16 17 19 21 24 25 26 28 29 30
N_A_3
0
1
2
3H
äufig
keite
n
81
N_A_30 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
0
5
10
15
20
25
30
35
82
PN_A_3(L) ZN_A_3(R)
2,00
3,00
4,00
7,00
9,00
11,0
0
12,0
0
12,0
0
13,0
0
14,0
0
16,0
0
17,0
0
19,0
0
21,0
0
24,0
0
25,0
0
26,0
0
28,0
0
29,0
0
30,0
0
0
20
40
60
80
100
120
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
83
1
2
3
4
5
6
7
8
Rangreihe:
• Einfache Aussage über Reihenfolge• Hohe Reliabilität, etwa durch Paarvergleich• Keine Informationen über Abstände• Vergleichbarkeit nur bei identischen N‘s
84
1
2
3
4
5
6
7
8
Quartile:
• Grobe Aussage über die Stellung in einer Reihe• Hohe Reliabilität, weil recht ‚simpel‘• Sehr grobe Informationen über Abstände• Einfache Vergleichbarkeit über verschiedene Bereiche hinweg
I. Quartil
II. Quartil
III. Quartil
VI. Quartil
85
Prozentrang:
• Aussage über die Stellung in einer Reihe• Reliabilität von der Messung abhängig• Keine Informationen über Abstände• Einfache Vergleichbar- keit über verschiedene Bereiche hinweg
Werte Quartil Prozentrang
30 4 100,00
28 4 90,00
21 3 80,00
16 3 70,00
12 3 60,00
11 2 50,00
6 2 40,00
5 2 30,00
1 1 20,00
0 1 10,00
86
Relativer Prozentrang:(100*Wert)/MaxWert
• Genaue Aussage über die Stellung in einer Reihe• Reliabilität von der Messung abhängig• Informationen über Abstände• Einfache Vergleichbar- keit über verschiedene Bereiche hinweg
Werte Relativer Prozentrang
30 100,00
28 93,33
21 70,00
16 53,33
12 40,00
11 36,67
6 20,00
5 16,67
1 3,33
0 ,00
87
88
Werte Rel. % Z-Werte Note
30 100,00 1,59844 2
28 93,33 1,41039 2
21 70,00 ,75221 3
16 53,33 ,28208 3
12 40,00 -,09403 4
11 36,67 -,18805 4
6 20,00 -,65818 4
5 16,67 -,75221 4
1 3,33 -1,12831 5
0 ,00 -1,22234 5
89
Umwandlung eines numerischen Wertes in einen kategorialen Wert
93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109
WRITING
0
2
4
6
8
10
12
Häu
figke
iten
WRITING: N = 80; Mw. = 99,82; Stdabw. = 3,3777; Max. = 109,1118; Min. = 93,5138
9093 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109
WRITING
0
2
4
6
8
10
12H
äufig
keite
n
WRITING: N = 80; Mw. = 99,82; Stdabw. = 3,3777; Max. = 109,1118; Min. = 93,5138
"Gute Schreiber"
"SchlechteSchreiber"
Deskriptive Statistik (School perfomance)Gült. N Mittelw. Median Minimum Maximum Stdabw.
WRITING 80 99,82004 99,56863 93,51375 109,1118 3,377652
91
Mittelwert:
Arithmetisches Mittel = Summe aller beobachteten Merkmalswerte dividiert durch die Anzahl der Beobachtungen
Median (auch Zentral- oder 50% Wert):
Der Median ist der Wert für den gilt,dass 50% aller Werte größer oder gleich sind. Der Median halbiertdie Stichprobenverteilung
92
Deskriptive Statistik (School perfomance)Gült. N Mittelw. Median Minimum Maximum Stdabw.
WRITING 90 121,5067 100,1944 93,51375 410,0000 66,48269
50 100 150 200 250 300 350 400 450
WRITING
0
5
10
15
20
25
30
35
40
45
50H
äufig
keite
n
WRITING: N = 90; Mw. = 121,5067; Stdabw. = 66,4827; Max. = 410; Min. = 93,5138
Mw. = Mittelwert
Median
93
Gült. N Mittelw. Median Minimum Maximum Stdabw.
WRITING 80 99,82004 99,56863 93,51375 109,1118 3,377652
Gült. N Mittelw. Median Minimum Maximum Stdabw.
WRITING 90 121,5067 100,1944 93,51375 410,0000 66,48269
94
951 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 200
10
20
30
40
50
60F
ehle
r
Gruppenzugehörigkeit: A
Gruppenzugehörigkeit: B
Gruppenzugehörigkeit: C
961 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 200
10
20
30
40
50
60F
ehle
r
Gibt es „Muster“ in der Verteilung?
970,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,60
1
2
3
4
5
6
7
8
980,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,60
1
2
3
4
5
6
7
8
990,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,60
1
2
3
4
5
6
7
8
100
Fisher (1936) Irisdaten: Länge und Breite von Blättern und Kelchen für 3 Iristypen
Kelchlänge Kelchbreite Blattlänge Blattbreite Iristyp
1 5 3,3 1,4 0,2 Setosa
2 6,4 2,8 5,6 2,2 Virginic
3 6,5 2,8 4,6 1,5 Versicol
4 6,7 3,1 5,6 2,4 Virginic
5 6,3 2,8 5,1 1,5 Virginic
6 4,6 3,4 1,4 0,3 Setosa
7 6,9 3,1 5,1 2,3 Virginic
8 6,2 2,2 4,5 1,5 Versicol
9 5,9 3,2 4,8 1,8 Versicol
10 4,6 3,6 1 0,2 Setosa
11 6,1 3 4,6 1,4 Versicol
12 6 2,7 5,1 1,6 Versicol
13 6,5 3 5,2 2 Virginic
14 5,6 2,5 3,9 1,1 Versicol
15 6,5 3 5,5 1,8 Virginic
16 5,8 2,7 5,1 1,9 Virginic
17 6,8 3,2 5,9 2,3 Virginic
18 5,1 3,3 1,7 0,5 Setosa
19 5,7 2,8 4,5 1,3 Versicol
20 6,2 3,4 5,4 2,3 Virginic
21 7,7 3,8 6,7 2,2 Virginic
22 6,3 3,3 4,7 1,6 Versicol
23 6,7 3,3 5,7 2,5 Virginic
24 7,6 3 6,6 2,1 Virginic
25 4,9 2,5 4,5 1,7 Virginic
Durch was unterscheidensich die drei Iristypen?
101
• Kategoriale Werte (gut/schlecht)• Metrische Werte (1, 2, 3, 4, ..)[Nominale, Ordinale Werte]
Split:Welche Variable trennt am besten bei welchem Wert?
CART(classification
and regression trees)
102
Scatterp lot für B lattlänge vs. B lattbreite
Irisdat 5v*150c
0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,6
B lattbre ite
0
1
2
3
4
5
6
7
8
Bla
ttlän
ge
103
S
VVER
V
V
S
V
VER
VER
S
VER
VER
V
VER
V
V
VS
VER
V
V
VER V
V
V
S
V
VERVER
VER
SV
VERV
V
S
S
VER
V
SV
S
VER
S
VV
S
VER
V
S
S
V
S
S
S
V
V
S
S
S
VER
V
S
S
VER
VER
S
S
VER
VER
S
S
V
V
V
VERV
S
S
VV
VV
VER
VER
VER
S
S
V
V
S
VER
VER
VERS
S
VER
VER
VER
SS
V
VERV
VER
SS
V
VER
V
V
S VER
VER
S
VER
VER
VERVER
VER
VER
VV
S
SV
V
VERVER
VER
V
V
VER
S
S
S
V
SS
VER
VER
VER
S
S
S
V
VER
V
S
VER
4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5
Kelchlänge
1,8
2,0
2,2
2,4
2,6
2,8
3,0
3,2
3,4
3,6
3,8
4,0
4,2
4,4
4,6K
elch
bre
ite S
VVER
V
V
S
V
VER
VER
S
VER
VER
V
VER
V
V
VS
VER
V
V
VER V
V
V
S
V
VERVER
VER
SV
VERV
V
S
S
VER
V
SV
S
VER
S
VV
S
VER
V
S
S
V
S
S
S
V
V
S
S
S
VER
V
S
S
VER
VER
S
S
VER
VER
S
S
V
V
V
VERV
S
S
VV
VV
VER
VER
VER
S
S
V
V
S
VER
VER
VERS
S
VER
VER
VER
SS
V
VERV
VER
SS
V
VER
V
V
S VER
VER
S
VER
VER
VERVER
VER
VER
VV
S
SV
V
VERVER
VER
V
V
VER
S
S
S
V
SS
VER
VER
VER
S
S
S
V
VER
V
S
VER
104
S
V
VER
V
V
S
V
VER
VER
S
VER
VER
V
VER
VV
V
S
VER
VV
VER
V
V
V
S
V
VERVER
VER
S
V
VER
V
V
SS
VER
V
S
V
S
VER
S
V
V
S
VER
V
SS
V
SSS
V
V
SS
S
VER
V
SS
VER
VER
S
S
VER
VER
S
S
VV
V
VER
V
S
S
V
VV V
VER
VERVER
SS
V
V
S
VERVER
VER
SS
VERVER
VER
S S
V
VER
V
VER
SS
V
VER
VV
S
VER
VER
S
VER
VER
VERVER
VER
VER
VV
SS
V
V
VERVER
VER
V
V
VER
SS
S
V
SS
VERVER VER
S
S
S
V
VER
V
S
VER
0 1 2 3 4 5 6 7 8
B lattlänge
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
2,0
2,2
2,4
2,6B
lattb
reite
S
V
VER
V
V
S
V
VER
VER
S
VER
VER
V
VER
VV
V
S
VER
VV
VER
V
V
V
S
V
VERVER
VER
S
V
VER
V
V
SS
VER
V
S
V
S
VER
S
V
V
S
VER
V
SS
V
SSS
V
V
SS
S
VER
V
SS
VER
VER
S
S
VER
VER
S
S
VV
V
VER
V
S
S
V
VV V
VER
VERVER
SS
V
V
S
VERVER
VER
SS
VERVER
VER
S S
V
VER
V
VER
SS
V
VER
VV
S
VER
VER
S
VER
VER
VERVER
VER
VER
VV
SS
V
V
VERVER
VER
V
V
VER
SS
S
V
SS
VERVER VER
S
S
S
V
VER
V
S
VER
105
S
V
VER
V
V
S
V
VER
VER
S
VER
VER
V
VER
VV
V
S
VER
VV
VER
V
V
V
S
V
VERVER
VER
S
V
VER
V
V
SS
VER
V
S
V
S
VER
S
V
V
S
VER
V
SS
V
SS S
V
V
SS
S
VER
V
S S
VER
VER
S
S
VER
VER
S
S
VV
V
VER
V
S
S
V
VVV
VER
VERVER
SS
V
V
S
VERVER
VER
SS
VER VER
VER
SS
V
VER
V
VER
SS
V
VER
VV
S
VER
VER
S
VER
VER
VERVER
VER
VER
VV
SS
V
V
VERVER
VER
V
V
VER
SS
S
V
SS
VERVERVER
S
S
S
V
VER
V
S
VER
1,8 2,0 2,2 2,4 2,6 2,8 3,0 3,2 3,4 3,6 3,8 4,0 4,2 4,4 4,6
Kelchbre ite
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
2,0
2,2
2,4
2,6B
lattb
reite
S
V
VER
V
V
S
V
VER
VER
S
VER
VER
V
VER
VV
V
S
VER
VV
VER
V
V
V
S
V
VERVER
VER
S
V
VER
V
V
SS
VER
V
S
V
S
VER
S
V
V
S
VER
V
SS
V
SS S
V
V
SS
S
VER
V
S S
VER
VER
S
S
VER
VER
S
S
VV
V
VER
V
S
S
V
VVV
VER
VERVER
SS
V
V
S
VERVER
VER
SS
VER VER
VER
SS
V
VER
V
VER
SS
V
VER
VV
S
VER
VER
S
VER
VER
VERVER
VER
VER
VV
SS
V
V
VERVER
VER
V
V
VER
SS
S
V
SS
VERVERVER
S
S
S
V
VER
V
S
VER
106
S
V
VER
V
V
S
V
VERVER
S
VER
VER V
VER
V
V
V
S
VER
V
V
VER
V
V
V
S
V
VERVER
VER
S
V
VER
VV
SS
VER
V
S
V
S
VER
S
V
V
S
VER
V
SS
V
SS
S
V V
S S
S
VER
V
S S
VER
VER
SS
VER
VER
SS
V
V
V
VER
V
SS
V
V
V
V
VER
VERVER
SS
V
V
S
VER
VER
VER
SS
VERVER
VER
SS
V
VER
V
VER
SS
V
VER
V
V
S
VERVER
S
VER
VERVER
VER
VER
VER
V
V
SS
V
V
VER
VER
VER
VV
VER
SSS
V
SS
VER
VER
VER
SS S
V VER
V
S
VER
4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5
Kelchlänge
0
1
2
3
4
5
6
7
8B
lattl
äng
e
S
V
VER
V
V
S
V
VERVER
S
VER
VER V
VER
V
V
V
S
VER
V
V
VER
V
V
V
S
V
VERVER
VER
S
V
VER
VV
SS
VER
V
S
V
S
VER
S
V
V
S
VER
V
SS
V
SS
S
V V
S S
S
VER
V
S S
VER
VER
SS
VER
VER
SS
V
V
V
VER
V
SS
V
V
V
V
VER
VERVER
SS
V
V
S
VER
VER
VER
SS
VERVER
VER
SS
V
VER
V
VER
SS
V
VER
V
V
S
VERVER
S
VER
VERVER
VER
VER
VER
V
V
SS
V
V
VER
VER
VER
VV
VER
SSS
V
SS
VER
VER
VER
SS S
V VER
V
S
VER
107
Scatterplot of Kelchbreite against Kelchlänge
Irisdat.sta 5v*150c
4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5
Kelchlänge
1,8
2,0
2,2
2,4
2,6
2,8
3,0
3,2
3,4
3,6
3,8
4,0
4,2
4,4
4,6
Kel
chbr
eite
108
Scatterplot of Blattlänge against Kelchlänge
Irisdat.sta 5v*150c
4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5
Kelchlänge
0
1
2
3
4
5
6
7
8
Bla
ttlän
ge
109
Scatterplot of Blattbreite against Kelchlänge
Irisdat.sta 5v*150c
4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5
Kelchlänge
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
2,0
2,2
2,4
2,6
Bla
ttbre
ite
110
Scatterplot of Blattlänge against Kelchbreite
Irisdat.sta 5v*150c
1,8 2,0 2,2 2,4 2,6 2,8 3,0 3,2 3,4 3,6 3,8 4,0 4,2 4,4 4,6
Kelchbreite
0
1
2
3
4
5
6
7
8
Bla
ttlän
ge
111
Scatterplot of Blattbreite against Kelchbreite
Irisdat.sta 5v*150c
1,8 2,0 2,2 2,4 2,6 2,8 3,0 3,2 3,4 3,6 3,8 4,0 4,2 4,4 4,6
Kelchbreite
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
2,0
2,2
2,4
2,6
Bla
ttbre
ite
112
Scatterplot of Blattbreite against Blattlänge
Irisdat.sta 5v*150c
0 1 2 3 4 5 6 7 8
Blattlänge
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
2,0
2,2
2,4
2,6
Bla
ttbre
ite
113
M atrixplot
Irisdat 6v*150c
Kelc h länge
Kelc hbre ite
B lat t länge
B lat tbre ite
Ty p
114
Matrixplot mit Brushing-Funktion
VirginicVirginic
VirginicVirginic
VirginicVirginic
VirginicVirginic VirginicVirginic VirginicVirginic
VirginicVirginic VirginicVirginic VirginicVirginic
VirginicVirginic
VirginicVirginic
VirginicVirginic
VirginicVirginic
VirginicVirginic
VirginicVirginic
VirginicVirginic VirginicVirginic VirginicVirginic
VirginicVirginic VirginicVirginic VirginicVirginic
VirginicVirginic
VirginicVirginic
VirginicVirginic
Kelchlänge
Kelchbreite
Blattlänge
Blattbreite
115
Matrix Plot
Irisdat.sta 5v*150c
Kelchlänge
Kelchbreite
Blattlänge
Blattbreite
Iristyp
116
Klassifikationsbaum für Iristyp
Anzahl Splits = 2; Anzahl Endknoten = 3
1
2 3
4 5
Bla ttlänge<=2 ,0958
Bla ttb re ite<=1 ,6442
50 100
52 48
Se tosa
Se tosa Vers ico l
Ve rs ico l Virg in ic
SetosaVersico lVirg in ic
117
Rangfolge für Bedeutung Prädiktoren
Abhängige Variab le: Iristyp
Rangfolge auf Skala von 0= niedrige Bed. b is 100=hohe Bedeutung
Kelchlänge Kelchbre ite B lattlänge B lattbre ite
Prädiktor-Variab le
0
20
40
60
80
100
Rä
nge
118
Fehlklassifikationsmatrix Lernstichprobe (Irisdat) Matrix progn. (Zeile) x beob. (Spalte) Lernstichprobe N = 150
Klasse - Setosa Klasse - Versicol Klasse - Virginic
Setosa 0 0
Versicol 0 4
Virginic 0 2
Prognost. Klasse x Beob. Klasse n's (Irisdat) Matrix progn. (Zeile) x beob. (Spalte) Lernstichprobe N = 150
Klasse - Setosa Klasse - Versicol Klasse - Virginic
Setosa 50 0 0
Versicol 0 48 4
Virginic 0 2 46
119
Split-Bedingung (Irisdat) Split-Bedingung je Knoten
Split - Konst. Split - Variable
1 -2,09578 Blattlänge
2
3 -1,64421 Blattbreite
120
Funktion = 2,09578
S
V
VER
V
V
S
V
VERVER
S
VER
VER V
VER
V
V
V
S
VER
V
V
VER
V
V
V
S
V
VERVER
VER
S
V
VER
VV
SS
VER
V
S
V
S
VER
S
V
V
S
VER
V
SS
V
SS
S
V V
S S
S
VER
V
SS
VER
VER
SS
VER
VER
SS
V
V
V
VER
V
SS
V
V
V
V
VER
VERVER
SS
V
V
S
VER
VER
VER
SS
VERVER
VER
SS
V
VER
V
VER
SS
V
VER
V
V
S
VERVER
S
VER
VERVER
VER
VER
VER
V
V
SS
V
V
VER
VER
VER
VV
VER
SS S
V
SS
VER
VER
VER
SSS
VVER
V
S
VER
0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,6
B lattbre ite
0
1
2
3
4
5
6
7
8
Bla
ttlän
ge
S
V
VER
V
V
S
V
VERVER
S
VER
VER V
VER
V
V
V
S
VER
V
V
VER
V
V
V
S
V
VERVER
VER
S
V
VER
VV
SS
VER
V
S
V
S
VER
S
V
V
S
VER
V
SS
V
SS
S
V V
S S
S
VER
V
SS
VER
VER
SS
VER
VER
SS
V
V
V
VER
V
SS
V
V
V
V
VER
VERVER
SS
V
V
S
VER
VER
VER
SS
VERVER
VER
SS
V
VER
V
VER
SS
V
VER
V
V
S
VERVER
S
VER
VERVER
VER
VER
VER
V
V
SS
V
V
VER
VER
VER
VV
VER
SS S
V
SS
VER
VER
VER
SSS
VVER
V
S
VER
121
Scatterp lot für B lattlänge vs. B lattbreite
Irisdat 5v*150c
E inschluss v5= 'Setosa' E inschluss V5= 'Vericol' E inschluss v5= 'Virg in ic ' Andere 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,6
B lattbre ite
0
1
2
3
4
5
6
7
8
Bla
ttlän
ge
122
Scatterp lot für B lattlänge vs. B lattbreite
Irisdat 5v*150c
Funktion = 2,09578
E inschluss v5= 'Setosa' E inschluss v5= 'Virin ic ' E inschluss v5= 'Versicol' Andere 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,6
B lattbre ite
0
1
2
3
4
5
6
7
8
Bla
ttlän
ge
123
Zwei, von vielen Problemen:• Feature Choise• Overfitting, Underfitting
124
Zwei, von vielen Problemen:• Feature Choise• Overfitting, Underfitting
125
a b
Kategoriale Splits
< 0,5 > 0,5
< 0,5 > 0,5, < 1,8 > 1,8
Bivariate Splits
Multivariate Splits
126
Wie kann man dieses Problem lösen?
Etwa mit Hilfe einer sog. „Kreuzvalidierung“:
Alle Daten
TeilmengeAnalyse und Modellbildung
Anwendungauf andereTeilmenge
127
Daten
Datenteilen
Trainings-daten
Validierungs-daten
Modell-bewertung
128
Predicted Class by Observed Class n's for gut_schlecht
Vierter Schritt: Wovon ist „gut“ oder „schlecht“ abhängig? Güte der erreichten Aufklärung überprüfen
129
130
Practical Significance
Statistical Significance
131
Practical Significance
Statistical Significance
Datensatz
50% Datensatz
50% Datensatz
Modell/Zusammenhang
ZufallModell/Zusammenhang = Zufall?
Modell/Zusammenhang >/< Zufall?
Was, wenn keinZusammenhang?
132
Zusammenfassung der behandelten methodischen Ansätze:
Eine bislang unbehandelte Frage lautet: Wie aussagekräftig sind die jeweils gewonnenen Befunde?
133
Folgende Hypothese soll geprüft werden:
H0 Person A besitzt keine hellseherischen Fähigkeiten
H1 Person A verfügt über hellseherische Fähigkeiten
Unter welchen Bedingungen kann H0 bestätigt/verworfen werden?Unter welchen Bedingungen kann H1 bestätigt/verworfen werden?
Es gibt Konventionen, die als Grundlage der Entscheidunggenutzt werden können/sollten: Das Signifikanzniveau.
Irrtumswahrscheinlichkeit Bedeutung Symbolisierung
p > 0,05 nicht signifikant ns
p <= 0,05 signifikant *
p <= 0,01 sehr signifikant **
p <= 0,001 höchst signifikant ***
134
Wie groß ist die Wahrscheinlichkeit dreimal „Kopf“ zu erhalten, wenn drei mal eine Münze geworfen wird?
Dazu müssen wir uns die Möglichkeiten vor Augen führen:(K = Kopf; W = Wappen)
WWW, WWK, WKW, KWW, WKK, KWK, KKW und KKK
Wir haben folglich 8 Möglichkeiten, davon erfüllt eineunsere Bedingung.
Die Wahrscheinlichkeit p ist demnach 1/8 oder 0,125.
135Wahrscheinlichkeit p bei drei Würfen
136
Wie groß ist die Wahrscheinlichkeit viermal „Kopf“ zu erhalten, wenn vier mal eine Münze geworfen wird?
Dazu erneut die Möglichkeiten: (K = Kopf; W = Wappen)
W W W W K K K K W W K K K W K WW W W K K K K W W K K W W K W KW W K W K K W K K K W WW K W W K W K K K W W KK W W W W K K K
Wir haben folglich 16 Möglichkeiten, davon erfüllt eineunsere Bedingung.
Die Wahrscheinlichkeit p ist demnach 1/16 oder 0,0625.
137
Signifikanzstufen
Irrtumswahrscheinlichkeit Bedeutung Symbolisierung
p > 0,05 nicht signifikant ns
p <= 0,05 signifikant *
p <= 0,01 sehr signifikant **
p <= 0,001 höchst signifikant ***
138
„Ein Wert von p = 0.05 besagt unter der Annahme,dass kein Effekt existiert, dass – vereinfacht aus-gedrückt, puristische Methodiker mögen mit derStirn runzeln – bei dieser Stichprobengröße einmindestens so großer Effekt nur in 5% allervergleichbar angelegter Studien beobachtet werdenkann.“
Rost 2007, 81
139
Irrtumswahrscheinlichkeit:
Ein p = 0,03 bedeutet:Die Wahrscheinlichkeit, dass unter der Annahme, die Nullhypothese sei richtig, das gegebeneUntersuchungsergebnis oder ein noch extremeresauftritt, beträgt 0,03 oder 3%.
Signifikanzstufen
p <= 0,05 signifikant *
p <= 0,01 sehr signifikant **
p <= 0,001 höchst signifikant ***
140
Ergebnis einer hypothetischen Studie, in der die Ausbildung von Paaren verglichen wird (aus: Sedlmeier & Renkewitz 2008, 370):
Partner Partnerin VorzeichenStudium Realschule +Gymnasium Realschule +Realschule Gymnasium -
+-+=-+++
Es finden sichsomit 7 positiveVorzeichen.
Ist das Ergebnisauf dem 5%Niveausignifikant?
Wie hoch ist dieWahrscheinlichkeitfür 0, 1, 2 etc.positive Vorzeichen?
Vorzeichentest nach Fischer
141
Wahrscheinlichkeiten für die einzelnen Ergebnisse in Prozentwerten
0,11
4,4
11,7
20,5
24,6
20,5
11,7
4,4
10,1
0 1 2 3 4 5 6 7 8 9 100
2
4
6
8
10
12
14
16
18
20
22
24
26
0,11
4,4
11,7
20,5
24,6
20,5
11,7
4,4
10,1
Wahrscheinlich-keit = 5,5 %
142
Wenn, wie im vorliegenden Fall, von zehn Paaren sieben einpositives Vorzeichen aufweisen (Bildungsabschluss des männlichen Partners höher als der des weiblich), dann liegt die Wahrscheinlichkeit dafür:
• 0,1 % +• 1,0 % +• 4,4 % +• 11,7 % =• 17,2 %
Es wäre gemäß der Konvention also falsch, darausirgendwelche Schlussfolgerungen zu ziehen.
143
Erstellen einer einfachen Probedatei mit folgendem Inhalt:
144
Bei zwei Beobachtungen pro Schulform ergeben sich damit 3 mal 8 = 24 Kombinationsmöglichkeiten:
№ Schulform Abschluss
1 1 0
2 1 0
3 1 1
4 1 1
5 1 1
6 1 0
7 1 0
8 1 1
145
Die Wahrscheinlichkeit p ist demnach für eine ‚Abweichung‘ von
einem Fall bei sechs Beobachtungen 01/06
entspricht der Wahrscheinlichkeit vom 8/24 p = 0,33333
146
147
148
149
150
151
152
153
154
155
Scatterplot of HISTORY against READINGSchool perfomance 8v*80c
HISTORY = 1,4433+1,0072*x
92 94 96 98 100 102 104 106 108 110
READING
94
96
98
100
102
104
106
108
110
112
HIS
TO
RY
READING:HISTORY: y = 1,4433 + 1,0072*x; r = 0,9510; p = 0.0000;r2 = 0,9043
N = 80
156
Scatterplot of HISTORY against READINGSpreadsheet4 8v*4c
HISTORY = -5,2081+1,0798*x
96 98 100 102 104 106 108 110
READING
98
100
102
104
106
108
110
112
HIS
TO
RY
READING:HISTORY: y = -5,2081 + 1,0798*x; r = 0,9909; p = 0,0091; r 2 = 0,9819
N = 4
157
Scatterplot of HISTORY against READINGSpreadsheet5 8v*8c
HISTORY = 3,2114+0,99*x
94 96 98 100 102 104 106 108
READING
96
98
100
102
104
106
108
110
HIS
TO
RY
READING:HISTORY: y = 3,2114 + 0,99*x; r = 0,9602; p = 0,0002;r2 = 0,9220
N = 8
158
Scatterplot of HISTORY against READINGSpreadsheet6 8v*16c
HISTORY = 8,5493+0,9403*x
94 96 98 100 102 104 106 108
READING
96
98
100
102
104
106
108
110
HIS
TO
RY
READING:HISTORY: y = 8,5493 + 0,9403*x; r = 0,9428; p = 0,00000; r 2 = 0,8889
N = 16
159
160
Scatterplot of CALCULUS against GRAMMARSchool perfomance 8v*80c
CALCULUS = 99,6862+0,0038*x
92 94 96 98 100 102 104 106 108 110
GRAMMAR
90
92
94
96
98
100
102
104
106
108
CA
LCU
LUS
GRAMMAR:CALCULUS: y = 99,6862 + 0,0038*x; r = 0,0057; p = 0,9599; r 2 = 0,0000
N = 80
161
Scatterplot of CALCULUS against GRAMMARSpreadsheet7 8v*4c
CALCULUS = 87,6269+0,1156*x
97 98 99 100 101 102 103 104 105 106
GRAMMAR
97,0
97,5
98,0
98,5
99,0
99,5
100,0
100,5
101,0
CA
LCU
LUS
GRAMMAR:CALCULUS: y = 87,6269 + 0,1156*x; r = 0,2435; p = 0,7565; r 2 = 0,0593
N = 4
162
Scatterplot of CALCULUS against GRAMMARSchool perfomance 7v*4c
CALCULUS = 115,5557-0,1775*x
97,8 98,0 98,2 98,4 98,6 98,8 99,0 99,2 99,4 99,6 99,8
GRAMMAR
96,6
96,8
97,0
97,2
97,4
97,6
97,8
98,0
98,2
98,4
98,6
98,8
99,0
99,2
CA
LCU
LUS
GRAMMAR:CALCULUS: y = 115,5557 - 0,1775*x; r = -0,1376; p = 0,8624; r 2 = 0,0189
N = 4
163
Scatterplot of CALCULUS against GRAMMARSpreadsheet9 8v*8c
CALCULUS = 84,2333+0,1541*x
96 98 100 102 104 106 108
GRAMMAR
97,0
97,5
98,0
98,5
99,0
99,5
100,0
100,5
101,0
101,5
102,0
102,5
CA
LCU
LUS
GRAMMAR:CALCULUS: y = 84,2333 + 0,1541*x; r = 0,3326; p = 0,4208; r 2 = 0,1106
N = 8
164
Scatterplot of CALCULUS against GRAMMARSpreadsheet6 8v*16c
CALCULUS = 96,7334+0,0231*x
92 94 96 98 100 102 104 106 108 110
GRAMMAR
95
96
97
98
99
100
101
102
103
CA
LCU
LUS
GRAMMAR:CALCULUS: y = 96,7334 + 0,0231*x; r = 0,0460; p = 0,8657; r 2 = 0,0021
N = 16