PEΣO 12. Oktober 2001 - uni-giessen.deg31070/statistik2/bivariatVierfelderTafel.pdf ·...
Transcript of PEΣO 12. Oktober 2001 - uni-giessen.deg31070/statistik2/bivariatVierfelderTafel.pdf ·...
Zusammenhang zweier Variablen und bivaria-
te Haufigkeitsverteilung
• Die Bivariate Haufigkeitsverteilung gibt
Auskunft daruber, wie zwei verschiede-
ne Merkmale verteilt sind, wenn man sie
gemeinsam, d.h. in Relation zueinander
betrachtet.
• Falls ein Zusammenhang zwischen diesen
beiden Variablen besteht, muß er sich in
der bivariaten Haufigkeitsverteilung nie-
derschlagen. Aus diesem Grund untersucht
man die Haufigkeit der jeweiligen Aus-
pragungskombinationen.
1
Kreuztabelle
• Die Kreuztabelle eignet sich zur Darstel-
lung der bivariaten Verteilung zweier ka-
tegorialer Variablen.
• Die Auspragungen der einen Variablen wer-
den dabei in den Zeilen, die der anderen
Variablen in den Spalten angegeben. Man
spricht daher von Zeilen- und Spaltenva-
riablen.
• Die univariaten Verteilungen beider Va-
riablen werden hierbei hierbei am Rand
der Tabelle angegeben. Man spricht da-
her auch von der Randverteilung.
2
Haufigkeiten und Anteile in der Kreuztabelle
• absolute Haufigkeiten
• relative Haufigkeiten
bezogen auf die Gesamtfallzahl
3
Beispiel absolute Haufigkeiten
– Stichprobe erwachsener osterreichischer
Staatsburger
Datensatz ISSP95
– Zusammenhang zwischen Geschlecht
und Einstellung bezuglich Einwander-
erdelinquenz
4
Bedingte und Unbedingte Haufigkeitsver-
teilungen
– Bis jetzt wurden nur unbedingte Haufig-
keitsverteilungen betrachtet. Beding-
te Haufigkeitsverteilungen dienen zur
Untersuchung des Einflusses der be-
dingenden Variable auf die Verteilung
der jeweils Anderen.
– Beispiel:
Auf diese Art kann man den Anteil
der Personen, welche einen Krimina-
litatsanstieg durch Einwanderer erwar-
ten uber die Geschlechter (bedingende
Variable) vergleichen.
– Man erhalt bedingte Kreuztabellen, in-
dem man nicht uber die Gesamtfall-
zahl, sondern uber die Kategoriensum-
men der Kategorien der bedingenden
Variablen prozentuiert.
6
Bedingte Haufigkeitsverteilungen
• Bedingte Anteile
bezogen auf die Spaltensummen
• Bedingte Anteile
bezogen auf die Zeilensummen
7
Bedingte Anteile
• Formel bedingte Zellenanteile(Spaltenvariable
bedingend)
pi(j) =nij
n•j=
nij/n
n•j/n=
pij
p•j
• Beispiel
8
Zusammenhangsmaße
in der Vierfeldertabelle
• Asymmetrische Zusammenhangsmaße
unterscheiden zwischen unabhangiger (be-
dingender) und abhangiger (bedingter) Va-
riable. Dies wirkt sich bei Vertauschung
dieser Variablen in veranderten Auspragun-
gen der Maße aus.
• Symmetrische Zusammenhangsmaße
treffen die obengenannte Unterscheidung
nicht.
9
Asymmetrischer Zusammenhang:
die Prozentsatzdifferenz
• Die Prozentsatzdifferenz dyx÷ ist ein Maß,
welches bei bedingten Kreuztabellen an-
gewendet wird.
Hierbei wird die Prozentsatzdifferenz (zwi-
schen den Kategorien der abhangigen Va-
riable) uber die Kategorien der unabhangi-
gen Variable verglichen.
• Formel
Prozentsatzdifferenz mit X als bedingen-
der Spaltenvariable
dyx÷ = 100∗(n11
n•1−n12
n•2) = 100∗(p1(1)−p1(2))
10
Beispiel Prozentsatzdifferenz
Berechnung dyx÷
dyx÷ = 100 ∗ (p1(1) − p1(2))
= 100 ∗ (0.436− 0.522) = −8.6
11
Hypothesenprufung der Prozentsatzdifferenz
• Als Testverteilung der Prozentsatzdiffe-
renz wird bei ausreichendem Stichprobe-
numfang (wie bei Anteilen generell) die
Normalverteilung und damit die Z-Statistik
herangezogen.
• Es lassen sich prinzipiell folgende Hypo-
thesenpaare formulieren:
H0 : δyx÷ = δhypo ÷ H1 : δyx÷ 6= δhypo ÷ (1)
H0 : δyx÷ ≤ δhypo ÷ H1 : δyx÷ > δhypo ÷ (2)
H0 : δyx÷ ≥ δhypo ÷ H1 : δyx÷ < δhypo÷ (3)
12
Berechnung der Z-Statistik fur δxy÷ bei un-
abhangigen Stichproben
• Formel
Z-Statistik fur δxy÷ aus Anteilen
Z = (p1−p2)−π√p1∗(1−p1)
n1+
p2∗(1−p2)n2
• Formel
Z-Statistik fur δxy÷ aus absoluten Haufig-
keiten (vermeidet Rundungsfehler)
Z =(
n11n11+n21
− n12n12+n22
)−δhypo÷100√
n11∗n21(n11+n21)3
+n12∗n22
(n12+n22)3
13
Berechnung der Z-Statistik fur δxy÷ bei abhangi-
gen Stichproben
• Diese Formel berechnet die Z-Statistik
fur den Test einer Populations-
Prozentsatzdifferenz von (minimal oder
maximal) null.
• Formel
Z-Statistik fur δhypo÷ = 0 bei abhangigen
Stichproben aus Anteilen
Z = p1−p2√πpooled∗(1−πpooled)∗( 1
n1+ 1
n2)
mit
πpooled = p1 ∗ n1n1+n2
+ p2 ∗ n2n1+n2
14
Beispiel Hypothesentest der Prozentsatzdif-
ferenz
• Als Beispiel verwenden wir die Prozent-
satzdifferenz von -8,6 zwischen Zustim-
mung (43.6÷;n = 597) und Ablehnung(52.2÷;n =
180) der Aussage”Einwanderer erhohen
die Kriminalitat“ bei Mannern und Frau-
en in der osterreichischen ISSP Teilstich-
probe.
• Mogliche Hypothese:
H0 : δyx÷ = 0 H1 : δyx÷ 6= 0
• Z-Statistik fur unabhangige Stichproben
Z = −0.086−0√0.436∗0.574
597 +0.522∗0.478180
= −2.32
15
• Dieser Z-Wert entspricht einem empiri-
schen Signifikanzniveau von 0.01 . Daher
muß die Nullhypothese verworfen werden.
Man kann davon ausgehen, daß eine Pro-
zentsatzdifferenz in der Population vor-
liegt.
Konfidenzintervall fur Prozentsatzdifferenzen
• Formel
Konfidenzintervall
c.i.(δyx÷) =
dyx÷±z1−α/2∗100∗√
n11∗n21(n11∗n21)3
+ n12∗n22(n12∗n22)3
• Das 95÷Konfidenzintervall fur die Bie-
spieldifferenz von −8.6÷ betragt somit:
c.i.(δyx÷) =
− 8.6± 1.96 ∗ 100 ∗√
260∗3375973 + 94∗86
1803
c.i.(δyx÷) = −8.6± 8.08
16
Statistische Unabhangigkeit
• Symmetrische Zusammenhangsmaße ba-sieren auf der Uberprufung der Statisti-schen Unabhangigkeit der Tabelle. Die-se liegt dann vor, wenn die Anteile derbedingten Verteilung gleich den Anteilender Randverteilungen sind.
• Es ist moglich, bei gegebenen Randver-teilungen die relativen Zellenhaufigkeitenpeij anzugeben, die bei statistischer Un-abhangigkeit zu erwarten waren. Dies ge-schieht uber Multiplikation der Randan-teile der jeweiligen Zelle:
pe11 = π1• ∗ π•1pe12 = π1• ∗ π•2pe21 = π2• ∗ π•1pe22 = π2• ∗ π•2
Die bei Unabhangigkeit erwarteten abso-luten Haufigkeiten eij errechnen sich durchdie Multiplikation von peij mit der Ge-samtfallzahl n.
17
Die Chiquadrat χ2 Teststatistik
• Die χ2-Statistik kann zur Uberprufung der
Statistischen Unabhangigkeit einer Tabel-
le verwendet werden. Der Hypothesen-
test, der mit Hilfe der χ2-Statistik durch-
gefuhrt wird, heißt Chiquadrattest. Je großer
dei Abweichung zwischen beobachteten
und bei Unabhangigkeit erwarteten Haufig-
keiten, desto großer χ2.
• Formel:
χ2 =∑2
i=1∑2
i=j(nij−eij)
2
eij
bzw. in der Vierfeldertabelle:
χ2 = n ∗ (n11∗n22−n12∗n21)2
n1•∗n2•∗n•1∗n•2
18
Symmetrische Zusammenhangsmaße in derVierfeldertabelle
• SymmetrischesZusammenhangsmaß Phi ΦDa der Wert von χ2 mit der Fallzahl n
variiert, ist es als Maß fur die Starke ei-nes statistischen Zusammenhangs unge-eignet. Dies korrigiert der Phi-Koeffizient,der nur zwischen -1 und 1 variieren kann.Ein Φ von null bedeutet hier keinen Zu-sammenhang, ein negatives einen umge-kehrt proportionalen und ein positives einenproportionalen Zusammenhang. bei 1 und-1 sind die Zusammenhange jeweils per-fekt.
• Formel:
φ2 = χ2
n
Φ =
√χ2
n
19