Materialien für die Einführung in SPSS SS 2006 · KAPITEL 5 CLUSTER-ANALYSE ... Prozedur aus.Zum...
Transcript of Materialien für die Einführung in SPSS SS 2006 · KAPITEL 5 CLUSTER-ANALYSE ... Prozedur aus.Zum...
1
Prof. Dr. Bernhard Dieckmann,TUB, Institut für Berufliche Bildung und Arbeitslehre
Materialien für die Einführung in SPSS SS 2006
KAPITEL 1 GRUNDLAGEN....................................................................................... 3 1.1 Der Daten-Editor........................................................................................................................................... 3 1.2. Die Eingabe einfacher numerischer Daten................................................................................................... 4 1.3. Ergebnisausgabe........................................................................................................................................... 5 1.4. Definition von Variablen- und Werte-Labels............................................................................................. 10 1.5. Zum Unterschied von Standard-Diagrammen und interaktiven Diagrammen (siehe hierzu ausführlicher: Kapitel 8 und 11)............................................................................................................................................... 11 1.6. Umkodieren................................................................................................................................................ 13 1.7. Prozedur ausführen..................................................................................................................................... 14 1.8. Diagramm erstellen .................................................................................................................................... 19
KAPITEL 2 SIMULATION VON VERTEILUNGEN. VERGLEICH VON SIMULIERTEN UND ERWARTETEN KENNWERTEN............................................ 24
2.1. Erzeugen einer Gleichverteilung................................................................................................................ 24 2.2. Erzeugen einer Binomialverteilung............................................................................................................ 26 2.3. Erzeugen einer Normalverteilung. ............................................................................................................. 29 2.4. Erzeugung einer Chiquadratverteilung....................................................................................................... 32 2.5. Erzeugung einer t-Verteilung. .................................................................................................................... 35 2.6. Erzeugung einer F-Verteilung.................................................................................................................... 36
KAPITEL 3 UNTERSCHIEDSHYPOTHESEN-PRÜFUNG....................................... 39 3. Prüfung von Unterschiedshypothesen an Stichprobendaten ......................................................................... 39 3.1. Einstichproben-z- und t-Test...................................................................................................................... 39 3.2. Zweistichproben – t-Test............................................................................................................................ 45 3.3. Zwei „abhängige“ Stichproben. ................................................................................................................. 49 3.4.Einfaktorielle Varianzanalyse. .................................................................................................................... 53 3.5. Zwei und dreifaktorielle Varianzanalyse. .................................................................................................. 60
KAPITEL 4 PRÜFUNG VON ZUSAMMENHANGS-HYPOTHESEN ....................... 71 4.1. Korrelation und Regression........................................................................................................................ 71 4.2. Multiple Regression ................................................................................................................................... 80
KAPITEL 5 CLUSTER-ANALYSE ........................................................................... 92 5.1. Partitionierungsverfahren. .......................................................................................................................... 92 5.2. Hierarchische Cluster-Analyse................................................................................................................... 97 5.3. Two-Step-Cluster-Analyse (nur ab SPSS 12 möglich) ............................................................................ 100 5.4. Das Dendrogramm ................................................................................................................................... 103 5.5. Ein weiteres Beispiel für eine hierarchische Clusteranalyse .................................................................... 109 5.6. Ein weiteres Beispiel für eine hierarchische Clusteranalyse .................................................................... 111 5.7. Ein weiteres Beispiel für Clusteranalysen: Die Hundehalterstudie.......................................................... 116
KAPITEL 6 CHIQUADRAT - VERFAHREN............................................................128 6.1. Chiquadrat-Test........................................................................................................................................ 128
6.1.1 Allgemeines ....................................................................................................................................... 128
2
6.1.2. Eindimensionales und zweidimensionales Chiquadrat-Design ......................................................... 128 6.1.2.1. Rechenbeispiele: ........................................................................................................................ 129
6.1.2.1.1 „Eindimensionales Chiquadrat“ ........................................................................................... 129 6.1.2.2.2.„Zweidimensionales Chiquadrat“......................................................................................... 130
6.1.3. Standardisierte, korrigierte Chiquadratresiduen ................................................................................ 132 6.1.4 Zwei nominal skalierte Merkmale: Zusammenhangsmessung........................................................... 134
6.1.4.1. Cramérs V .................................................................................................................................. 134 6.1.4.2 Phi und korrigiertes Chiquadrat .................................................................................................. 135
6.1.5. Einschränkungen der Chiquadrat-Tests für Cramers V und Phi ....................................................... 136 6.1.6. Fisher's exakter Test......................................................................................................................... 136
6.2. Beispiele in SPSS:.................................................................................................................................... 139 6.2.1.Eindimensionale Tests ....................................................................................................................... 139
6.2.1.1 Chiquadrat-Test auf Gleichverteilung ........................................................................................ 139 6.2.1.2 Chiquadrat-Test auf irreguläre Verteilung ................................................................................. 141 6.2.1.3.Chiquadrat-Test auf Übereinstimmung mit einer Normal-Verteilung ........................................ 142
6.2.1.3.1. Ausführliches Verfahren ..................................................................................................... 142 6.2.1.3.2. Abgekürztes Verfahren........................................................................................................ 147
6.2.2. Zweidimensionale Tests.................................................................................................................... 147 6.2.2.1. Chiquadrat und Cramers V......................................................................................................... 147
6.2.1.1.1. Fall eines signifikanten Zusammenhangs........................................................................... 147 6.2.2.2. Phi und die Yates-Korrektur von Chiquadrat ............................................................................. 152 6.2.2.3. Fishers exakter Test.................................................................................................................... 154
KAPITEL 7. FAKTORENANALYSE .......................................................................156 7.1. Theoretische Grundlagen - Anlage der Teilstichproben........................................................................... 156
7.1.1 Theoretische Grundlagen eines als Beispiel verwendeten empirischen Projekts ............................... 156 7.1.2. Anlage der Teilstichproben im Beispiel-Projekt ............................................................................... 158
7.2. Verteilung der Befragten nach Geschlecht, Alter und Hundebesitz......................................................... 159 7.3. Der Fragebogen........................................................................................................................................ 162
7.3.1. Form des Fragebogens: ..................................................................................................................... 162 7.3.2. Im Fragebogen gemessene Eigenschaften und Dimensionen............................................................ 165
7.4. Erläuterungen der Voraussetzungen für die Faktorenanalyse .................................................................. 165 7.5. Rechnen einer Faktorenanalyse mit SPSS 12........................................................................................... 166
7.5.1.Faktorenanalyse: Deskriptive Statistiken ........................................................................................... 166 7.5.2. Faktorenanalyse: Extraktion.............................................................................................................. 167 7.5.3. Faktorenanalyse: Rotation................................................................................................................. 169 7.5.4. Faktorenanalyse: Faktorwerte ........................................................................................................... 170 7.5.5. Faktorenanalyse: Optionen für Fallausschluß und Sortierung........................................................... 170 7.5.6. Faktorenanalyse: Wichtige Teile des Outputs ................................................................................... 172
7.5.6.1. Deskriptive Statistiken ............................................................................................................... 172 7.5.6.2. Die Anti-Image-Kovarianzmatrix und andere Informationen über die Angemessenheit der Stichprobe ............................................................................................................................................... 173 7.5.6.3. Screeplot und rotierte Komponentenmatrix ............................................................................... 174 7.5.6.4 . Graphische Darstellung der Faktorwerte nach Geschlecht und Alter....................................... 176 7.5.6.5. Graphische Darstellung der Faktorwerte nach Geschlecht und „Gruppenzugehörigkeit“.......... 183
KAPITEL 8 STANDARDGRAPHIKEN....................................................................191 8.1.Balkendiagramme, einfache Auszählungen. ............................................................................................. 191 8.2. „Andere Auswertungsfunktionen“ ........................................................................................................... 195 8.3. Übersicht über spezielle Auswertungsfunktionen .................................................................................... 197 8.4 Änderungen und Zusätze........................................................................................................................... 205 8.5 Auswertung über mehrere Variablen ........................................................................................................ 208 8.6 Werte einzelner Fälle ................................................................................................................................ 211 8.7 Gestapelte Balkengraphik ......................................................................................................................... 212 8.8. Liniengraphiken (Häufigkeitspolygon) .................................................................................................... 214 8.9 Fächengraphiken ....................................................................................................................................... 216 8.10 Kreisgraphiken ........................................................................................................................................ 218 8.11 Histogramme........................................................................................................................................... 220 8.12 Fehlerbalken............................................................................................................................................ 223
3
KAPITEL 9 KORRESPONDENZANALYSE ...........................................................227
KAPITEL 10 RELIABLILITÄTSANALYSE .............................................................239
KAPITEL 11 INTERAKTIVE DIAGRAMME............................................................252 Die folgenden Materialien dienen sowohl als Unterlage für den laufenden Kursus als auch dazu, sich selbständig Grundkenntnisse in SPSS zu erarbeiten. Die Materialien beanspruchen nicht, bereits Lehrbuchqualität zu haben, weder in der Systematik noch in redaktionellen Details. Wer im SPSS-Kurs einen Schein erwerben will, hat hierzu zwei Möglichkeiten: Den Teilnahmeschein gibt es, wenn in einer Abschlußklausur mindestens 31 von 100 Punkten erworben werden, den Leistunsschein gibt es, wenn mindestens 61 von 100 Punkten erworben werden.
Kapitel 1 Grundlagen 1.1 Der Daten-Editor Der Daten-Editor gibt die Grundstruktur von Datendateien wieder. Jede Zeile stellt einen Einzelfall (Beobachtung) dar.So stellt zum Beispiel jede/r Beschäftigte eines Unternehmens einen Fall dar. Jede Spalte stellt eine einzelne Variable dar. So stellt zum Beispiel die Abteilung, in welcher der/die Beschäftigte arbeitet, eine Variable dar. Sie können Daten im Daten-Editor eingeben oder bearbeiten. Sie können im Daten-Editor jedoch keine Berechnungen ausführen oder Formeln eingeben. Zu Beginn jeder Sitzung wird das Fenster des Daten-Editors angezeigt. Der Daten-Editor zeigt den Inhalt der „Arbeitsdatei“ an.
4
1.2. Die Eingabe einfacher numerischer Daten Die Eingabe einfacher numerischer Daten ist unkompliziert...Aktivieren Sie eine Zelle, und geben Sie eine Zahl ein. Der Datenwert wird in der Zelle und im Zellen-Editor angezeigt.Drücken Sie die Eingabetaste, um den Wert aufzuzeichnen.Wenn Sie der Variablen noch keinen Namen gegeben haben, weist ihr der Daten-Editor einen eindeutigen Variablennamen zu. Wenn Sie nichtnumerische Daten eingeben möchten, müssen Sie zunächst die Variable definieren.Doppelklicken Sie auf den Variablennamen im Kopf der Spalte.Sie können auch auf die Registerkarte "Variablenansicht" klicken.Damit öffnen Sie die Variablenansicht.Klicken Sie auf die Zelle "Typ" in der Zeile der Variablen, und klicken Sie anschließend auf die Schaltfläche in der Zelle.Wählen Sie im Dialogfeld "Variablentyp definieren" den Datentyp aus.Zur Eingabe von Datenwerten, die Buchstaben enthalten, wählen Sie zum Beispiel "String" aus.Klicken Sie dann auf "OK".
5
Tabellen, Statistiken und Diagramme werden im Fenster des Viewers angezeigt.
1.3. Ergebnisausgabe Das Fenster des Viewers wird automatisch geöffnet, wenn Sie das erste Mal einen Befehl eingeben, der eine Ausgabe erzeugt. Sie können die Menüs in beiden Fenstern verwenden, um Dateien, Statistiken und Diagramme auszuwählen. Jedes Fenster besitzt eine eigene Symbolleiste.Wenn Sie mit dem Mauszeiger auf ein Symbol zeigen, wird eine kurze Beschreibung des Symbols angezeigt.
6
Sie können Dialogfelder zum Auswählen von Variablen und Optionen für Statistiken und Diagramme verwenden. Beispiele für Dialogfelder:
7
Wenn Sie Variablen analysieren wollen, wählen Sie die Variablen für die Analyse aus der Liste der Quellvariablen aus und verwenden Sie die Pfeilschaltfläche, um die Variablen in die Liste der Zielvariablen zu verschieben.
8
Numerische Variablen werden in den Dialogfeldern, die man im Menue ”Analysieren” bekommt, an der linken Seite der Quellvariablen durch eine Raute (#) identifiziert. String-Variablen (alphanumerische Variablen) werden links durch den Buchstaben A identifiziert.
9
Kurze String-Variablen (mit einer Länge von 8 oder weniger Zeichen) werden durch ein "Kleiner als"-Zeichen (<) im Symbol identifiziert.Lange String-Variablen (mit einer Länge von mehr als 8 Zeichen) werden durch ein "Größer als"-Zeichen (>) im Symbol identifiziert. Sie können Variablennamen oder aussagekräftige Variablenlabels in Dialogfeldern anzeigen lassen.Da in SPSS 10 (in SPSS12 gilt das nicht mehr) die Länge von Variablennamen nicht mehr als 8 Zeichen betragen darf, sind Namen nur eingeschränkt informativ. Variablenlabels können eine Länge von bis zu 255 Zeichen aufweisen und somit hilfreiche, beschreibende Informationen enthalten.Wenn Sie zwischen der Anzeige von Variablennamen und Variablenlabels wechseln möchten, wählen Sie im Menü "Bearbeiten"
die Funktion "Option". Diese Möglichkeit haben Sie in jedem Fenster (also auch im Viewer und im Syntaxfenster). Wählen Sie dann auf der Registerkarte "Allgemein" die entsprechende Einstellung.
10
1.4. Definition von Variablen- und Werte-Labels Sie können auf die Registerkarte "Variablenansicht" im Dateneditor klicken.Klicken Sie dann auf die Zelle "Variablenlabel" der Variable, und geben Sie das Label ein. Wertelabels können Sie eingeben, wenn Sie in die Zelle Wertelabel klicken und dann in der folgenden Schaltfläche Ihre Angaben ablegen.
Wenn Sie Informationen zu einem beliebigen Steuerelement in einem Dialogfeld erhalten möchten, klicken Sie mit der rechten Maustaste auf das Steuerelement, zu dem Sie Informationen wünschen. In einem Popup-Fenster werden Informationen zu dem Steuerelement angezeigt. So können Sie sich z.B: die folgende Definition von „Faktor“ holen:
11
1.5. Zum Unterschied von Standard-Diagrammen und interaktiven Diagrammen (siehe hierzu ausführlicher: Kapitel 8 und 11). Dialogfelder zum Erstellen und Bearbeiten interaktiver Diagramme unterscheiden sich in verschiedener Hinsicht von anderen Dialogfeldern.Wenn Sie Variablen auswählen möchten, ziehen Sie Variablen aus der Liste der Quellvariablen in die Liste der Zielvariablen und legen sie dort ab. Ziehen heißt: Kursor auf die Variable bringen, linke Maustaste drücken und festhalten und in diesem Zustand den Kursor in das Ziel-Feld bewegen:
12
Es gibt drei Variablentypen, die durch die Symbole neben jeder Variable angezeigt werden: Kategoriale, metrische und sytemeigene Variablen.
String-Variablen, numerische Variablen mit definierten Wertelabels und numerische Variablen, die nominal oder ordinal definiert sind, werden als kategoriale Variablen behandelt.
13
Wenn Sie zwischen der Anzeige von Variablenlabels und Variablennamen wechseln möchten, oder wenn Sie die Anzeigereihenfolge in den Variablenlisten ändern möchten,klicken Sie mit der rechten Maustaste auf eine beliebige Stelle in der Liste und wählen die gewünschten Anzeigeoptionen (s.o.). Weiteres zum Produzieren von Graphiken finden Sie in den Kapiteln 8 und 11. Kontexthilfe zu Steuerelementen sowie Informationen zu Variablen, die Sie mit der rechten Maustaste aufrufen können, sind in den Dialogfeldern für interaktive Diagramme nicht verfügbar. 1.6. Umkodieren Sie können das Menü "Transformieren" zur Berechnung neuer Werte und Variablen und zum Umkodieren von Daten verwenden:
14
Wenn Sie Attribute zur Variablendefinition definiert haben, können Sie die Attribute kopieren und anderen Variablen zuweisen.Klicken Sie in der Variablenansicht auf die Zelle mit dem Attribut, das Sie kopieren möchten.Wählen Sie im Menü "Bearbeiten" die Option "Kopieren" aus.Klicken Sie bei der Variablen, der Sie das Attribut zuweisen möchten, auf die Zelle desselben Attributs.Wählen Sie dann im Menü "Bearbeiten" die Option "Einfügen" aus. Das Attribut wird der Variablen zugewiesen, zumBeispiel definierte Wertelabels. Um die Attribute mehreren Variablen gleichzeitig zuzuweisen, wählen Sie als Ziel mehrere Zellen gleichzeitig aus. (Klicken Sie dazu mit der Maus, und ziehen Sie den Mauszeiger bei gedrückter Maustaste die Spalte hinunter.)Wenn Sie das Attribut einfügen, wird es allen ausgewählten Zellen zugewiesen.Wenn Sie Attribute in leere Zeilen einfügen, werden automatisch neue Variablen mit Vorgabenamen erstellt. 1.7. Prozedur ausführen Wenn Sie eine Prozedur ausführen möchten, müssen Sie zunächst eine Prozedur aus den Menüs auswählen.Wählen Sie auf der Menüleiste die Option "Analysieren" aus.Wählen Sie aus dem Menü "Analysieren" eine Kategorie aus.Wählen Sie dann aus dem Untermenü eine Prozedur aus.Zum Beispiel können Sie die Prozedur "Häufigkeiten" verwenden, um Häufigkeiten und Auswertungsstatistiken zu erhalten. Nachdem Sie eine Prozedur aus den Menüs ausgewählt haben, wählen Sie in einem Dialogfeld Variablen und Optionen aus.Wählen Sie Variablen aus der Liste der Quellvariablen aus.Verwenden Sie die Pfeilschaltflächen, um die ausgewählten Variablen in die Listen der Zielvariablen zu verschieben.Zum Ausführen der Prozedur klicken Sie anschließend auf "OK".Die Ergebnisse werden im Viewer angezeigt. Die meisten Prozeduren enthalten die Minimaleinstellungen auf einem einzigen Dialogfeld. Sie können die Analyse mit optionalen Einstellungen auf untergeordneten Dialogfeldern ändern.Beispielsweise können Sie in der Prozedur "Kreuztabellen" zusätzliche Zelldaten anfordern.Wählen Sie die optionalen Informationen aus, die Sie in der Analyse verwenden möchten. Sie können beispielsweise erwartete Häufigkeiten, Zeilenprozente und korrigierte, standardisierte Residuen hinzufügen.
15
Klicken Sie nach Auswahl der gewünschten Angaben auf "Weiter" und wählen Sie dann die Variablen für die Analyse aus. Sie könnnen auf der Symbolleiste die Option "Zuletzt verwendete Dialogfelder" benutzen, um häufig verwendete Dialogfelder rasch und unkompliziert aufzurufen. Die zuletzt verwendeten Dialogfelder werden am Anfang der Liste aufgeführt.Die Liste wird beim Beenden der Sitzung gespeichert.Wenn Sie also ständig dieselben Dialogfelder verwenden, können Sie diese mit einem einfachen Mausklick aufrufen:
16
17
Die Ergebnisse ihrer Rechnungen werden im SPSS- Viewer angezeigt.
Der linke Fensterbereich des Viewers enthält eine Gliederungsansicht.Der rechte Fensterbereich enthält Statistiktabellen, Diagramme und Textausgabe.Mit Hilfe der Bildlaufleisten können Sie die Ergebnisse durchsuchen.Sie können aber auch auf ein Element in der Gliederung klicken, um direkt zu der entsprechenden Tabelle oder dem jeweiligen Diagramm zu gelangen.Wenn Sie die Breite des Gliederungfensters ändern möchten, können Sie auf dessen rechten Rahmen klicken und ihn mit gedrückter Maustaste auf die gewünschte Breite ziehen. Das Symbol eines offenen Buchs, das sich direkt neben einem Objekt im Gliederungsfenster befindet, zeigt an, daß das Objekt derzeit im Ausgabefenster sichtbar ist.Wenn Sie eine Tabelle oder ein Diagramm in der Anzeige ausblenden möchten, ohne das Objekt dabei zu löschen, können Sie im Gliederungsfenster auf das entsprechende Buchsymbol doppelklicken.Das Symbol eines offenen Buchs wird nun zu einem geschlossenen Buch, wodurch das Ausblenden des Objekts angezeigt wird. Sie können die Position von Tabellen oder Diagrammen in der Anzeige ändern: Klicken Sie im Inhalts- oder im Gliederungsfenster auf das entsprechenden Objekt.Ziehen Sie das Objekt mit gedrückter Maustaste an die gewünschte Position.Lassen Sie nun die Maustaste los, um das Objekt an dieser Stelle zu positionieren.
18
Sie können eine Ausgabe als Meta-Datei in eine andere Anwendung kopieren:Wählen Sie ein Element aus, indem Sie auf dieses im Gliederungsfenster oder im Inhaltsfenster des Viewers klicken.Wählen Sie im Menü "Bearbeiten" die Option "Kopieren" aus.Wählen Sie in der anderen Anwendung im Menü "Bearbeiten" die Option "Inhalte einfügen" aus.Wählen Sie im Dialogfeld "Inhalte einfügen" die Option "Bild" aus. Beispiel: In der Meta-Datei werden alle Schriftartmerkmale und Rahmenformate beibehalten, welche die Elemente zum Zeitpunkt des Kopierens aufwiesen.Eine Meta-Datei enthält jedoch nur die Informationen, die zum Zeitpunkt des Kopierens im Viewer sichtbar waren.Die Meta-Datei enthält also keine Information, die in ausgeblendeten Kategorien oder Schichten enthalten ist. Sie können eine Pivot-Tabelle als unformatierten Text in eine andere Anwendung kopieren: Wählen Sie ein Element aus, indem Sie auf dieses im Gliederungsfenster oder im Inhaltsfenster des Viewers klicken.Wählen Sie im Menü "Bearbeiten" die Option "Kopieren" aus.Wählen Sie in der anderen Anwendung im Menü "Bearbeiten" die Option "Inhalte einfügen" aus.Wählen Sie im Dialogfeld "Inhalte einfügen" die Option "Unformatierter Text" aus.Unformatierter Text enthält Tabulatoren zwischen den Spalten. Sie können Spalten ausrichten, indem Sie in der anderen Anwendung die Tabstops entsprechend anpassen. Beispiel: Übertragung als formatierter Text:
Statistiken
Gewicht in kg1717
2464,79
11,25240
130
GültigFehlend
N
MittelwertStandardabweichungMinimumMaximum
und als unformatierter Text: Statistiken Gewicht in kg N Gültig 1717 Fehlend 24 Mittelwert 64,79...
40 60 80 100 120 140
Gewicht in kg
0
50
100
150
200
250
Häufi
gkeit
Mean = 64,79Std. Dev. = 11,252N = 1.717
Histogramm
19
1.8. Diagramm erstellen Wählen Sie in der Menüleiste den Befehl "Grafiken".Wählen Sie im Menü "Grafiken" den gewünschten Diagrammtyp aus.Aktivieren Sie das Symbol für den gewünschten Diagrammtyp.Sie müssen außerdem angeben, wie Ihre Daten organisiert sind. Klicken sie nun auf "Definieren". Wenn Sie ein gruppiertes Balkendiagramm erstellen möchten, müssen Sie eine Kategorie-Variable und eine Gruppenvariable bestimmen.Zum Beispiel können Sie die Anzahl der weiblichen und männlichen Befragten darstellen und „Altersgruppe“ als Variable für die Kategorienachse auswählen.Bestimmen Sie "Geschlecht" als Gruppenvariable.Klicken sie nun auf "OK".
18-29 30-39 40-49 50-59 60+
ALTER: BEFRAGTE<R>, 5 Kategorien
0,0%
5,0%
10,0%
15,0%
20,0%
25,0%
Proz
ent
GESCHLECHT, BEFRAGTE<R>
MANNFRAU
Wenn Sie ein Diagramm erstellen, wird es im Viewer angezeigt.Alle definierten Beschriftungen werden automatisch im Diagramm angezeigt.Beschreibende Variablenlabels und Wertbeschriftungen vereinfachen oftmals die Interpretation der Ergebnisse. Sobald Sie ein Diagramm erstellt haben, können sie zahlreiche Attribute bearbeiten, um dessen Erscheinungsbild zu ändern.Sie können den Titel, die Beschriftung, die Schriftarten oder die Farben ändern, Kategorien löschen, den Skalenachsen-Bereich ändern und Achsen vertauschenu nd den Diagrammtyp wechseln. Doppelklicken Sie auf das gewünschte Diagramm.Dadurch wird das Diagramm in einem Diagrammfenster angezeigt.Sie können das Diagramm mit Hilfe der Menüs oder der Symbolleiste bearbeiten, oder indem Sie auf das zu bearbeitende Objekt doppelklicken.Klicken Sie im Diagramm auf die auszuwählenden Objekte.Wenn Sie zum Beispiel auf einen Legendentitel klicken, wird dieser in einem Auswahlfeld angezeigt. Wenn Sie ein Diagramm unter Verwendung der Menüs in einem Diagrammfenster bearbeiten möchten, wählen Sie eine Menüfunktion. Danach bearbeiten Sie das dadurch entstehende Dialogfeld.Wenn Sie beispielsweise im Menü "Diagramm" die Option "Legende" wählen,wird dadurch das Dialogfeld "Legende" geöffnet. Wenn Sie auf ein Objekt in einem Diagrammfenster doppelklicken, wird das entsprechende Dialogfeld geöffnet.Wenn Sie zum Beispiel auf das Balkendiagramm doppelklicken,wird dadurch ein Dialogfeld geöffnet, das die Kategorien und Gruppen im gruppierten
20
Balkendiagramm steuert.Durch Doppelklicken auf die Objekte können Sie problemlos auf viele Bearbeitungsfunktionen für Diagramme zugreifen. Wenn Sie eine Diagrammbeschriftung ändern möchten, doppelklicken Sie auf die zu ändernde Beschriftung. Dadurch öffnet sich das entsprechende Dialogfeld.Wenn Sie beispielsweise auf die Beschriftung "Anzahl" doppelklicken,öffnet sich dadurch ein Dialogfeld, in dem Sie die Achsenbeschriftung ändern können.Sie können beispielsweise die Beschriftung "Anzahl" löschen.Geben Sie einen neuen Titel ein, und klicken Sie dann auf "OK".Nun wird die neue Achsenbeschriftung angezeigt. Verwenden Sie das Symbol "Text", um die Schriftart des ausgewählten Objekts zu ändern.Wählen Sie beispielsweise den Legendentitel aus, und klicken Sie dann auf das Symbol "Text".Wählen Sie die gewünschte Schriftart aus.Wählen Sie die gewünschte Schriftgröße aus.Klicken Sie nun auf "Zuweisen", um die neue Textformatvorlage anzuzeigen.Die neuen Schriftartmerkmale werden dem ausgewählten Diagrammobjekt zugewiesen. Wenn Sie einen Titel einfügen möchten, wählen Sie im Menü "Diagramm" die Option "Titel".Geben Sie einen Titel im Dialogfeld ein.Und klicken Sie auf "OK".Nun erscheint der Titel in Ihrem Diagramm. Wenn Sie eine Kategorie löschen möchten, doppelklicken Sie auf einen der Diagrammbalken.In einem gruppierten Balkendiagramm können Sie beispielsweise eine Geschlechtskategorie löschen oder eine Berufskategorie.Verschieben Sie die zu löschende Kategorie in die Liste "Weglassen Wenn Sie den Bereich und die Intervalle der Skalenachse ändern möchten, doppelklicken Sie auf die Achse. Sie können den angezeigten Bereich ändern. Außerdem können Sie die auf der Achse angezeigten Werte ändern, beispielsweise den angezeigten Bereich und den Wert für die Unterteilung. Verwenden Sie das Symbol "Farbe", um die Farben eines Diagramms zu ändern. Klicken Sie auf ein Diagrammelement. Dann klicken Sie auf der Symbolleiste auf das Symbol "Farbe". Wählen Sie eine Farbe aus.Klicken Sie dann auf "Zuweisen". Dadurch wird den Diagrammbalken die neue Farbe zugewiesen. Sie können das Dialogfeld "Farben" geöffnet lassen, um weitere Farben Ihres Diagrammes zu ändern.Wenn Sie keine weiteren Farben ändern möchten, klicken Sie auf "Schließen". Wenn Sie Diagrammachsen vertauschen möchten, klicken Sie auf der Symbolleiste auf das Symbol "Achsen vertauschen". Die Skalenachse verläuft nun horizontal und die Kategorienachse vertikal. Wenn Sie den Diagrammtyp ändern möchten, wählen Sie im Menü "Galerie" einen neuen Diagrammtyp. Dadurch öffnet sich ein Dialogfeld, in dem Sie den gewünschten Diagrammtyp auswählen können.
21
Wählen Sie zum Erstellen eines interaktiven Diagramms aus dem Menü "Grafiken" die Option "Interaktiv". Wenn Sie beispielsweise ein Balkendiagramm erstellen möchten, wählen Sie unter "Interaktiv" die Option "Balken" aus. Ziehen Sie die Variablen mit gedrückter Maustaste von der Quelliste in die Liste der Zielvariablen. Das Diagramm wird im Fenster des Viewers angezeigt. Doppelklicken Sie auf das Diagramm, um es zu aktivieren. Sie haben viele Möglichkeiten zum Ändern von interaktiven Diagrammen. Sie können dem Diagramm zum Beispiel zusätzliche Variablen hinzufügen. Klicken Sie auf das Symbol "Variablen zuweisen", um zusätzliche Variablen auszuwählen. Ein gruppiertes Balkendiagamm kann in ein 3D-Balkendiagramm umgewandelt werden. Um ein Diagramm aus einer Pivot-Tabelle zu erstellen, aktivieren Sie Pivot-Tabelle (doppelklicken Sie auf eine beliebige Stelle in der Tabelle).Wählen Sie die Zellen aus, die Sie im Diagramm anzeigen möchten.Klicken Sie mit der rechten Maustaste auf eine beliebige Stelle im ausgewählten Bereich.Klicken Sie im Popup-Kontextmenü auf "Diagramm erstellen".Klicken Sie dann auf den gewünschten Diagrammtyp. Jeder Balken stellt eine ausgewählte Zelle der Pivot-Tabelle dar:
Computer-Besitz * Schulabschluss der Mutter Kreuztabelle
Anzahl
205 300 83 148 736263 449 92 168 972468 749 175 316 1708
NeinJa
Computer-Besitz
Gesamt
Hauptschule Mittlere Reife Abitur StudiumSchulabschluss der Mutter
Gesamt
Computer-Besitz NeinComputer-Besitz JaGesamt
Computer-Besitz
Schulabschluss der Mutter HauptschuleSchulabschluss der Mutter Mittlere Reife
Schulabschluss der Mutter Abitur
Schulabschluss der Mutter Studium
Schulabschluss der Mutter
0
250
500
750
Wer
te
Computer-Besitz * Schulabschluss der Mutter KreuztabelleStatistik : Anzahl
22
Wenn Sie ein interaktives Diagramm bearbeiten möchten, doppelklicken Sie auf das Diagramm, um es zu aktivieren.Doppelklicken Sie dann auf ein Element, um seine Attribute zu ändern.Wenn Sie beispielsweise Werte auf den Balken eines Balkendiagramms anzeigen lassen möchten, doppelklicken Sie auf einen beliebigen Balken.Damit öffnen Sie das Dialogfeld "Balken".Klicken Sie im Gruppenfeld "Beschriftung" auf "Anzahl" oder "Werte".Da in diesem Diagramm die Balken den Verkaufsumsatz darstellen, klicken Sie auf "Werte".Das Balkendiagramm zeigt nun am oberen Ende jedes Balkens die Werte an.
Computer-Besitz NeinComputer-Besitz JaGesamt
Computer-Besitz
Schulabschluss der Mutter HauptschuleSchulabschluss der Mutter Mittlere Reife
Schulabschluss der Mutter Abitur
Schulabschluss der Mutter Studium
Schulabschluss der Mutter
0
250
500
750
Wer
te
205
263
468
300
449
749
83 92
175148
168
316
Computer-Besitz * Schulabschluss der Mutter KreuztabelleStatistik : Anzahl
Wenn Sie die Attribute eines einzelnen Elements oder einer Untergruppe von Elementen bearbeiten möchten, klicken Sie mit der rechten Maustaste auf ein Element.Damit öffnen Sie ein Kontextmenü.Wenn Sie die Attribute für Balken ändern möchten, die eine ganze Unterteilung darstellen, klicken Sie auf "Diese Unterteilung auswählen".Nun werden alle Balken für diese Gruppe markiert. Drücken Sie nochmals die rechte Maustaste, und klicken Sie dann auf "Eigenschaften".Klicken Sie in diesem Beispiel auf die Dropdown-Liste "Ausfüllung", um das Füllmuster der Balken zu ändern.Es werden verschiedene systemeigene Füllmuster und Texturen zur Auswahl angeboten.
23
Computer-Besitz NeinComputer-Besitz JaGesamt
Computer-Besitz
Schulabschluss der Mutter HauptschuleSchulabschluss der Mutter Mittlere Reife
Schulabschluss der Mutter Abitur
Schulabschluss der Mutter Studium
Schulabschluss der Mutter
0
250
500
750
Wer
te
205
263
468
300
449
749
83 92
175148
168
316
Computer-Besitz * Schulabschluss der Mutter KreuztabelleStatistik : Anzahl
Sie können auch den Diagramm-Manager zum Ändern von Diagrammeigenschaften verwenden.Klicken Sie auf der Diagramm-Symbolleiste auf das Symbol des Diagramm-Managers.Wählen Sie das zu ändernde Diagrammelement aus, und klicken Sie dann auf "Bearbeiten".Klicken Sie in diesem Beispiel auf "Balken".Klicken Sie nun im Dialogfeld "Balken" auf die Registerkarte "Auswertungsfunktion". Sie können auch den Diagramm-Manager zum Ändern von Diagrammeigenschaften verwenden. Klicken Sie auf der Diagramm-Symbolleiste auf das Symbol des Diagramm-Managers. Wählen Sie das zu ändernde Diagrammelement aus, und klicken Sie dann auf "Bearbeiten". Klicken Sie in diesem Beispiel auf "Balken". Klicken Sie nun im Dialogfeld "Balken" auf die Registerkarte "Auswertungsfunktion". Sie können einem Diagramm auch andere grafische Elemente hinzufügen. Klicken Sie auf der Symbolleiste auf das Symbol "Fügt ein Element ein", und wählen Sie den Typ des hinzuzufügenden Elements aus.
24
Kapitel 2 Simulation von Verteilungen. Vergleich von simulierten und erwarteten Kennwerten.
Kennenlernen von empirischen und theoretischen Verteilungen. Arbeiten mit der Syntax. Vorgehen: 2.1. Erzeugen einer Gleichverteilung Aufgabe: Überprüfen Sie anhand von SPSS die im Statistik-Skriptum von B. Dieckmann beschriebenen Eigenschaften (Mittelwert, Streuung) der Gleichverteilung am Beispiel eines selbst erzeugten Daten-Files mit 3000 Fällen. Der Mittelwert ist für diese Gleichverteilung mit
μ =+a b2
gegeben. Die Varianz kann nach der Formel
( )σ
22
12=
−b a
berechnet werden. Entsprechend wird die Standardabweichung berechnet:
( )σ =
−b a2
12
Wir erzeugen nun einen Datenfile mit 3000 Fällen, in dem eine Gleichverteilung im Intervall von 2 bis 8 enthalten sein soll: Hierzu geben bei leerem Dateneditor den Befehl: gehe zu Fall 3000. In das Datenfeld dieses Falles geben wir eine Zahl ein und drücken Enter. (Falls dies mißlingt, geben wir eine Zahl in ein Datenfeld mit möglichst hoher Punktzahl ein, kopieren diese „Daten“ dann solange untereinander in eine Variable, bis 3000 Fälle erreicht sind). Dann geben wir im Syntax – Fenster den Befehl: COMPUTE gleich = RV.UNIFORM(2,8). EXECUTE . GRAPH /HISTOGRAM=gleich . Der Rechner erstellt das Histogramm unserer Gleichverteilung:
25
2,00 3,00 4,00 5,00 6,00 7,00 8,00
gleich
0
20
40
60
80
100H
äufig
keit
Mean = 4,9994Std. Dev. = 1,71571N = 3.000
Wir lesen aus dem Histogramm ab, daß das arithmetische Mittel gleich 4,994 ist, die Standardabweichung ist 1,71571. Wir berechnen nach den oben aufgeführten Formeln die Erwartungswerte: μ = 5 σ=(((8 - 2) ** 2) / 12) ** 0.5 = 1.73205081 Feststellung: Die Abweichung zu den Werten, die neben der obigen Graphik angegeben wurden, ist sehr gering.
26
2.2. Erzeugen einer Binomialverteilung. Wir stellen wieder einen File mit 3000 Fällen her. Wir können den gleichen File nehmen wie bei der Gleichverteilung. Wir erzeugen 10 Variablen mit den Namen v1 bis v10 und erzeugen in ihnen gleichverteilte Nullen und Einsen mithilfe folgender Syntax: COMPUTE v1 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v2 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v3 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v4 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v5 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v6 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v7 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v8 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v9 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v10 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . Wenn wir diese 10 Verteilungen addieren, entsteht eine Binomialverteilung, so als hätten wir mit 10 Münzen gleichzeitig geworfen. Der Additionsbefehl ist folgender: Compute bino10 = v1 + v2 +v3 +v4 + v5 + v6 + v7 + v8 + v9+ v10. „bino 10“ zählt jeweils nur das Eintreffen einer der Alternativen, nämlich die 1. Insofern kann man aus bino10 die Wahrscheinlichkeit berechnen, daß unter 10 Münzen 0mal die 1, einmal die 1, ...10mal die 1 vorkommt, und das ist die Bionmialverteilung. Der Mittelwert von Binomialverteilungen errechnet sich aus µ = p * n. In unserem Fall erwarten wir als arithmetisches Mittel: p= 0,5 n = 10 p*n = 0,5* 10 = 5 Die Standardabweichung errechnet sich aus S = p n q* * In unserem Fall erwarten wir als Standardabweichung: S = 5811,15,0*10*5,0 =
27
Wir wollen jetzt überprüfen, ob unsere Binomialverteilung a) die vorhergesagten Kennwerte hat: ein Arithmetisches Mittel von 5
und eine Standardabweichung von 1,58 b) eine prozentuale Verteilung, die einer idealen Binomialverteilung entspricht. Hierzu erzeugen wir ein Balkendiagramm der durch Simulation erzeugten Binomialverteilung „bino10“:
,00 1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 10,00
bino10
0,0%
5,0%
10,0%
15,0%
20,0%
25,0%
Proz
ent
0 07%0,9%
3,93%
11,57%
20,8%
24,5%
20,57%
12,57%
4,17%
0,83% 0 1%
Für die Verteilung bino10 fordern wir weiterhin die gewünschten Kennwerte (arithm. Mittel, Standardabweichung, Minimum und Maximum) an sowie eine Häufigkeitsanalyse: DESCRIPTIVES VARIABLES=bino10 /STATISTICS=MEAN STDDEV MIN MAX . FREQUENCIES VARIABLES=bino10 /ORDER= ANALYSIS .
28
zu a: Die in der Simulation erzeugten Werte sind: Deskriptive Statistik
N Minimum Maximum Mittelwert Standardabw
eichung bino10 3000 ,00 10,00 5,0237 1,55796 Gültige Werte (Listenweise) 3000
Die beobachteten Kennwerte weichen von den idealen nur minimal ab. Wir können auch noch überprüfen, ob die einzelnen Punktwahrscheinlichkeiten in unserer Simulation den idealen Punktwahrscheinlichkeiten entsprechen, die wir nach der Formel
Pn,k = qp knk
kn −
⎟⎟⎠
⎞⎜⎜⎝
⎛
für n = 1 und k = 0, 1,2,...10 berechnen können. Die folgende Tabelle zeigt in Spalte 1 den Verlauf von k, in Spalte 2 die Häufigkeit bei 3000 Versuchen, in Spalte 3 die sich dabei ergebenden prozentualen Häufigkeiten und in Spalte 4 die Punktwahrscheinlichkeiten mal 100, die sich nach obiger Formel ergäben:
bino10
2 ,1 ,127 ,9 1,0
118 3,9 4,4347 11,6 11,7624 20,8 20,5735 24,5 24,61617 20,6 20,51377 12,6 11,7125 4,2 4,4
25 ,8 ,983 ,1 ,10
3000 100,0 100,0
,001,002,003,004,005,006,007,008,009,0010,00Gesamt
GültigHäufigkeit Prozent
IdealeProzente
Wir sehen, daß die Differenz zu den idealen Werten maximal 0,9 % beträgt. Die idealen Prozentwerte lassen sich in SPSS 12 durch die Funktion PDF.BINOM(q,10,0.5) ermitteln (die wir im Dialogfeld „Berechnen“ aufrufen können. Wir müssen nur für q in dieser Funktion eine Variable (k) anbieten, die die Zahlen 0 bis 10 aufführt). Übungsaufgabe: Wiederholen Sie den Vorgang, jetzt aber mittels einer Binomialverteilung, die über den Befehl „RV.Binom(n,p)“ erzeugt wurde.
k
29
2.3. Erzeugen einer Normalverteilung. Wir erzeugen wieder einen leeren Datenfile mit 3000 Fällen. Wir lassen für diese 3000 Fälle 30 Zufallsprozesse unabhängig voneinander ablaufen, die nur die Zahlen 0 und 1 gleichverteilt produzieren. Dies erreichen wir mit folgender Syntax, die wir schon oben kennengelernt haben: COMPUTE v1 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v2 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v3 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v4 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v5 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v6 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v7 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v8 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v9 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v10 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v11 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v12 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v13 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v14 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v15 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v16 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v17 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v18 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v19 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v20 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v21 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v22 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v23 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v24 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v25 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v26 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v27 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE .
30
COMPUTE v28 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v29 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v30 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . Das Ergebnis addieren wir und erhalten im Datensatz die Variable „normal“. Diese ist zwar streng genommen eine Binomialverteilung, aber mit n = 30, also schon gut an die Normalverteilung angenähert. Wir könnten in SPSS auch die Normalverteilung direkt simulieren mit dem Befehl: RV.Normal(mittel,Stdabw). Wir benutzen diesen Befehl jetzt aber nicht, sondern zeigen statt dessen die Möglichkeit einer Simulation über die Addition von 30 binären Gleichverteilungen: Compute normal = v1 + v2 + v3 + v4 + v5 + v6 + v7 + v8 + v9 + v10 + v11 + v12 + v13 + v14 + v15 + v17+ v18 + v19 + v20 + v21 + v22 + v23 + v24 + v25 + v26 + v27 + v28 + v29 + v30. Für diese neu berechnete Variable „normal“ führen wir eine Häufigkeitsanalyse aus: Das Ergebnis ist: Kennwerte normal
Gültig 3000N Fehlend 0
Mittelwert 14,4697Median 14,0000Modus 14,00Standardabweichung 2,71997Minimum 6,00Maximum 23,00
Den Mittelwert hätten wir 15 bei erwartet ( p * n= 0,5 * 30 = 15) und bei der Standardabweichung hätten wir erwartet bei (p*n*q)**0,5= (0,5*30*0,5)**0,5 = 2,7386. Die Differenzen sind gering. Das Histogramm der entsprechenden durch Simulation gewonnenen Verteilung hat folgendes Aussehen:
5,00 10,00 15,00 20,00 25,00
normal
0
100
200
300
400
500
Häuf
igke
it
Mean = 14,4697Std. Dev. = 2,71997N = 3.000
Histogramm
31
Die Tabelle der Häufigkeitsverteilung der erzeugten „Normalverteilung“ zeigt die folgenden Daten:
Häufigkeit Prozent Gültige
Prozente Kumulierte Prozente
Kumulierte Prozente bei
idealer Normalvertei
lung Gültig 6,00 5 ,2 ,2 ,2 ,10 7,00 9 ,3 ,3 ,5 ,31 8,00 18 ,6 ,6 1,1 ,88 9,00 55 1,8 1,8 2,9 2,23 10,00 109 3,6 3,6 6,5 5,02 11,00 223 7,4 7,4 14,0 10,06 12,00 291 9,7 9,7 23,7 18,07 13,00 390 13,0 13,0 36,7 29,19 14,00 461 15,4 15,4 52,0 42,76 15,00 388 12,9 12,9 65,0 57,24 16,00 346 11,5 11,5 76,5 70,81 17,00 296 9,9 9,9 86,4 81,93 18,00 197 6,6 6,6 92,9 89,94 19,00 113 3,8 3,8 96,7 94,98 20,00 60 2,0 2,0 98,7 97,77 21,00 24 ,8 ,8 99,5 99,12 22,00 12 ,4 ,4 99,9 99,69 23,00 3 ,1 ,1 100,0 99,90 Gesamt 3000 100,0 100,0
Wenn wir die Verteilung der kumulierten Häufigkeiten in der o.a. Tabelle mit „idealen Häufigkeiten“ einer Normalverteilung vergleichen wollen, die das (erwartete) arithmetische Mittel 15 und die (erwartete) Standardabweichung 2,7386 hat, müßten wir überlegen, wie wir SPSS dazu bringen, uns diese idealen Häufigkeiten als Erwartungswerte auszurechnen, die in der o.a. Tabelle grau unterlegt sind. Man kann folgendermaßen vorgehen: Wir generieren eine neue Variable „normkum“, indem wir für eine Variable „kplus“ angeben, wie hoch die kumulierten Wahrscheinlichkeiten für eine Normalverteilung sind, die das arithmetische Mittel 15 und die Standardabweichung 2,7386 hat. „kplus“ ist hierbei so konstruiert, daß ihre Werte als Klassenobergrenzen einer Variable aufgefaßt werden können, die die die Klassenmitten 0, 1, 2,...30 hat. Die jeweiligen Klassenobergrenzen sind daher 0,5; 1,5; ....29,5; 30,5. Die hierzu erforderliche Syntax lautet (für einen File mit 31 Fällen): Compute kplus = $casenum – 0.5. COMPUTE normkum = CDF.NORMAL(kplus,15,2.7386) . EXECUTE . Diese Syntax schreibt die kumulierten Wahrscheinlichkeiten in den Dateneditor. Dort multiplizieren wir sie mit 100 und übertragen die Werte nach Word in obige Tabelle. Durch vergleich der idealen kumulierten Prozente mit den durch Simulation erzeugten kumulierten Prozente erkennen wir, daß bei den mittleren Ausprägungen der durch Simulation (Addition von 30 gleichverteilten, binären Variablen) erzeugten Normalverteilung deutliche Differenzen (fast 10 %) zur idealen Normalverteilung vorliegen. Übungsaufgabe: Wiederholen Sie den Vorgang, jetzt aber mittels einer Normalverteilung, die über den Befehl „RV.Normal(mittel,Stdabw)“ erzeugt wurde.
32
2.4. Erzeugung einer Chiquadratverteilung Die Theorie hierzu finden wir im Skriptum Dieckmann. Die Chiquadratverteilung entsteht als Summe quadrierter Standardnormalverteilungen. Die Standardnormalverteilung hat bekanntlich das arithmetische Mittel 0 und die Standardabweichung 1.
2
1
2 zCHI i
n
iΣ=
=
Die Menge der Freiheitsgrade ist hierbei die Menge der Summanden. Dementsprechend schreiben wir uns – wieder für unsere 3000 Fälle - folgende Syntax: COMPUTE v1 = RV.NORMAL(0,1) . EXECUTE . Compute v1q = v1**2. EXECUTE. COMPUTE v2 = RV.NORMAL(0,1) . EXECUTE . Compute v2q = v2**2. EXECUTE. COMPUTE v3 = RV.NORMAL(0,1) . EXECUTE . Compute v3q = v3**2. EXECUTE. COMPUTE v4 = RV.NORMAL(0,1) . EXECUTE . Compute v4q = v4**2. EXECUTE. COMPUTE v5 = RV.NORMAL(0,1) . EXECUTE . Compute v5q = v5**2. EXECUTE. COMPUTE v6 = RV.NORMAL(0,1) . EXECUTE . Compute v6q = v6**2. EXECUTE. COMPUTE v7 = RV.NORMAL(0,1) . EXECUTE . Compute v7q = v7**2. EXECUTE. COMPUTE v8 = RV.NORMAL(0,1) . EXECUTE . Compute v8q = v8**2. EXECUTE. compute chiqdf8 = v1q + v2q + v3q + v4q + v5q + v6q + v7q + v8q. EXECUTE. Um das Ergebnis als Häufigkeitstabelle und als Balkendiagramm darstellen zu können, werden die Daten noch mit folgendem Befehl rekodiert, der die Möglichkeit schafft, die Daten schon in der Klassenbreite 1 mit den Klassenmitten 0,5; 1,5; ....darzustellen: COMPUTE chiq8rec1 = TRUNC(chiqdf8/1) * 1 +0.5 . EXECUTE . Die Verteilung nach dieser Prozedur ist folgende:
33
Statistiken chiq8rec1
Gültig 3000N Fehlend 0
Mittelwert 8,0100Modus 6,50Standardabweichung 3,96617Schiefe ,825Standardfehler der Schiefe
,045
Kurtosis ,649Standardfehler der Kurtosis
,089
Minimum ,50Maximum 26,50
chiq8rec1
Häufigkeit Prozent Gültige
Prozente Kumulierte Prozente
Erwartete kumulierte Prozente
Gültig ,50 4 ,1 ,1 ,1 ,18 1,50 57 1,9 1,9 2,0 1,90 2,50 141 4,7 4,7 6,7 6,56 3,50 219 7,3 7,3 14,0 14,29 4,50 309 10,3 10,3 24,3 24,24 5,50 335 11,2 11,2 35,5 35,28 6,50 341 11,4 11,4 46,9 46,34 7,50 296 9,9 9,9 56,7 56,65 8,50 240 8,0 8,0 64,7 65,77 9,50 235 7,8 7,8 72,6 73,50 10,50 194 6,5 6,5 79,0 79,83 11,50 146 4,9 4,9 83,9 84,88 12,50 129 4,3 4,3 88,2 88,82 13,50 105 3,5 3,5 91,7 91,82 14,50 70 2,3 2,3 94,0 94,09 15,50 57 1,9 1,9 95,9 95,76 16,50 42 1,4 1,4 97,3 96,99 17,50 24 ,8 ,8 98,1 97,88 18,50 23 ,8 ,8 98,9 98,51 19,50 12 ,4 ,4 99,3 98,97 20,50 8 ,3 ,3 99,6 99,29 21,50 5 ,2 ,2 99,7 99,51 22,50 2 ,1 ,1 99,8 99,66 23,50 3 ,1 ,1 99,9 99,77 25,50 2 ,1 ,1 100,0 99,84 26,50 1 ,0 ,0 100,0 99,89 Gesamt 3000 100,0 100,0
34
Wir haben erwartet, ein arithmetisches Mittel von 8 (= df) und eine Standardabweichung von 4 (Quadratwurzel aus 2df) zu bekommen. Unsere Simulation zeigt hierzu sehr gut angenäherte Werte. Die Graphik ist gegenüber der Normalverteilung leicht nach links verschoben und etwas schmaler. Das Schiefemaß ist deutlich größer als 0, d.h. die Verteilung ist links steil und läuft rechts lang aus. Die Kurtosis ist ebenfalls größer als 0, d.h. die Verteilung ist schmaler mit längeren „Flügeln“ als die Normalverteilung. Wenn wir überprüfen wollen, ob die Verteilung der kumulierten Prozente den erwarteten kumulierten Werten entspricht, verfahren wir wieder analog zum obigen Verfahren bei der Normalverteilung: Die erwarteten kumulierten Werte sind in der o.a. Häufigkeitsverteilung als erwartete Prozente bereits eingetragen. Wir sehen sehr geringe Abweichungen. Die Herstellung der erwarteten kumulierten Werte (chiqcumdf8) ist mit folgender Syntax möglich, sofern v9 eine Variable ist , die die Werte von 1 bis 27 als „Klassenobergrenzen“ anbietet. COMPUTE chiqcumdf8 = CDF.CHISQ(v9,8) . EXECUTE . Übungsaufgabe: Wiederholen Sie den Vorgang, jetzt aber mittels einer Chiquadratverteilung, die über den Befehl „RV.CHISQ(df)“ erzeugt wurde.
,501,502,503,504,505,506,507,508,509,5010,5011,5012,5013,5014,5015,5016,5017,5018,5019,5020,5021,5022,5023,5025,5026,50
chiq8rec1
0
2
4
6
8
10
12
Proz
ent
chiq8rec1
35
2.5. Erzeugung einer t-Verteilung. Wie wir im Dieckmann – Skriptum nachlesen können, entsteht die t-Verteilung wie folgt:
df
z
dfdfT 2χ=
Das bedeutet, daß wir eine Standardnormalverteilung durch die Wurzel einer Chiquadratverteilung teilen müssen, die ihrerseits durch die Anhzahl ihrer Freiheitsgrade dividiert wurde. Dies können wir mit dem jetzt vorhandenen Datensatz sehr leicht leisten, wenn wir eine t-Verteilung mit 8 Freiheitsgraden erzeugen wollen: Als Zähler verwenden wir eine unserer standardisierten Normalverteilungen, z.B: v2 COMPUTE tdf8 = v2 /(chiqdf8/8) ** 0.5 . EXECUTE . Das Ergebnis unserer Rechnung ist: Statistiken tdf8
Gültig 3000N Fehlend 0
Mittelwert ,0070Standardabweichung 1,00943Schiefe -,043Standardfehler der Schiefe
,045
Kurtosis -,574Standardfehler der Kurtosis
,089
Minimum -2,54Maximum 2,64
-3,00 -2,00 -1,00 0,00 1,00 2,00 3,00
tdf8
0
30
60
90
120
150
Häu
figke
it
Mean = 0,007Std. Dev. = 1,00943N = 3.000
Histogramm
36
Wir erwarten ein arithmetisches Mittel von Null und eine Varianz von df/(df-2). Unsere erzielten Werte entsprechen diesem Ideal: Das arithmetische Mittel liegt bei 0,007, also nahe bei Null, die erzielte Varianz ist jedoch erheblich kleiner als erwartet. Erwartet wurde: 1,333, erreicht wurde 1,00943. Bei der Schiefe wurde Null erwartet und –0,043 erreicht, bei der Kurtosis wurde ein Wert von kleiner als Null erwartet und tatsächllich ein negativer Wert von –0.574 erreicht, was darauf hindeutet, daß eine t-Verteilung flacher verläuft als eine Normalverteilung. Wenn wir wieder den Vergleich der durch Simulation realisierten t-Verteilung mit einer idealen t-Verteilung aufgrund der Gegenüberstellung der kumulierten Prozente vornehmen wollen, rekodieren wir zunächst unsere simulierte Verteilung: COMPUTE tdf8rec = trunc(tdf8/0.4)*0.4. EXECUTE . Eine Häufigkeitsauszählung ergibt: tdf8rec
Häufigkeit Prozent Gültige
Prozente Kumulierte Prozente
erwartete kumulierte Prozente
Gültig -2,40 10 ,3 ,3 ,3 2,95 -2,00 56 1,9 1,9 2,2 5,48 -1,60 119 4,0 4,0 6,2 9,95 -1,20 188 6,3 6,3 12,4 17,33 -,80 315 10,5 10,5 22,9 28,26 -,40 366 12,2 12,2 35,1 42,32 ,00 862 28,7 28,7 63,9 57,68 ,40 360 12,0 12,0 75,9 71,74 ,80 326 10,9 10,9 86,7 82,67 1,20 227 7,6 7,6 94,3 90,05 1,60 119 4,0 4,0 98,3 94,52 2,00 46 1,5 1,5 99,8 97,05 2,40 6 ,2 ,2 100,0 98,42 Gesamt 3000 100,0 100,0
Es zeigt sich, daß die Anpassung der erwarteten und realisierten kumulierten Prozente nicht sehr gut ist. Es gibt erhebliche Differenzen. Hier könnte sich zeigen, daß die Simulation der t-Verteilung innerhalb eines begrenzten Intervalls doch im Ergebnis das Problem erzeugt, daß die Differenzen zwischen idealer (stetiger und unbegrenzter) Verteilung und simulierter Verteilung zunehmen. Übungsaufgabe: Wiederholen Sie den Vorgang, jetzt aber mittels einer Chiquadratverteilung, die über den Befehl „RV.CHISQ(df)“ erzeugt wurde. 2.6. Erzeugung einer F-Verteilung. Nach der Formel der F-Verteilung
( )
n
mFn
m
nm 2
2
, χ
χ
=
bekommen wir eine F-Verteilung dann, wenn wir zwei Chiquadratverteilungen durcheinander dividieren, die jeweils durch ihre eigenen Freiheitsgrade dividiert wurden. Mittels des gleichen Datenfiles, den wir schon oben entwickelt haben, können wir hier nun zu Demonstrationszwecken eine F-Verteilung mit den Freiheitsgraden 3 (Zähler) und 5 (Nenner) erzeugen:
37
Falls v1 bis v8 neu erzeugt werden müssen, kommen zunächst die hierzu erforderlichen Befehle: COMPUTE v1 = RV.NORMAL(0,1) . EXECUTE . COMPUTE v2 = RV.NORMAL(0,1) . EXECUTE . COMPUTE v3 = RV.NORMAL(0,1) . EXECUTE . COMPUTE v4 = RV.NORMAL(0,1) . EXECUTE . COMPUTE v5 = RV.NORMAL(0,1) . EXECUTE . COMPUTE v6 = RV.NORMAL(0,1) . EXECUTE . COMPUTE v7 = RV.NORMAL(0,1) . EXECUTE . COMPUTE v8 = RV.NORMAL(0,1) . EXECUTE . Jetzt kommt die Erzeugung der beiden Chiquadratverteilungen, dann deren Division durch die Menge der jeweiligen Freiheitsgrade, dann deren Division durcheinander: Compute Fdf35 = (((v6**2 + v7**2 + v8**2)/3)) / (((v1**2 + v2**2 + v3**2 + v4**2 + v5**2)/5)). EXECUTE. Jetzt folgt die Graphik: COMPUTE Fdf35rec = TRUNC(fdf35/0.2)*0.2-0.1 . EXECUTE . GRAPH /HISTOGRAM(NORMAL)=Fdf35 .
38
0 2 4 6 8 10 12 14 16
Fdf35
0
500
1.000
1.500
Häu
figke
it
Mean = 1,7526Std. Dev. = 5,45877N = 3.000
Das Ergebnis ist die folgende Graphik, die aber eventuell von der Originalgraphik aus noch erheblich verändert werden muß. Erwartet werden Mittelwert = n/n-1 wobei n hier die Freiheitsgrade im Nenner (= 5) sind. 5/4 = 1,25. Realisiert wird ein Mittelwert von 1, 75. DieStandardabweichung wird erwartet bei
S²=( )
( ) ( )2
22
22
4n
nn m
m n
+ −
− −= 300/27 = 11,11
S = 3,33. Die realisierte Standardabweichung liegt bei 5,45877. Die Ergebnisse sind daher sehr ungenau. Wir verzichten daher darauf, nach dem oben gezeigten Verfahren den Vergleich zwischen den kumulierten Prozenten und den idealen kumulierten Prozenten vorzunehmen. Übungsaufgabe: Wiederholen Sie den Vorgang, jetzt aber mittels einer Fverteilung, die über den Befehl „RV.F(df1,df2)“ erzeugt wurde.
39
Kapitel 3 Unterschiedshypothesen-Prüfung Veranschaulichung von deskriptiven Lage- und Streuungsmaßen, der einfachen Regressionsrechnung und statistischer Tests anhand von Datenfiles, die selber hergestellt wurden mittels Zufallszahlengenerator und eigener Syntax. Vorteil der Methode: Man weiß, was herauskommen müßte, wenn die jeweilige Rechnung das leistet, was sie leisten sollte. Leistet sie das Gewünschte nicht, oder nur eingeschränkt, dann führt dies zum vorsichtigeren Gebrauch der Methode. 3. Prüfung von Unterschiedshypothesen an Stichprobendaten 3.1. Einstichproben-z- und t-Test Wir stellen eine normalverteilte Zufallszahlenverteilung her, mit dem arithmetischen Mittel 500 und der Standardabweichung 30. N = 3000. Wir nennen die Variable: Rente. Wir ziehen Stichproben unterschiedlichen Umfangs und experimentieren mit z-Test und t-Test um die Frage zu überprüfen, ob die gezogene Stichprobe aus der von uns hergestellten Grundgesamtheit von 3000 Fällen stammen kann. Herstellung der Grundgesamtheit: Wir geben einen File mit 3000 leeren Fällen vor. Wir simulieren eine Normalverteilung mit dem Arithmetischen Mittel 500 und der Standardabweichung 30: COMPUTE Rente = RV.NORMAL(500,30) . EXECUTE . Wir überprüfen die Parameter dieser Verteilung und lassen gleichzeitig von der erzeugten Verteilung eine Standardnormalverteilung erzeugen:
Hierzu machen wir ein Häkchen bei „Standardisierte Werte als Variable speichern“. Die Syntax ist: DESCRIPTIVES VARIABLES=Rente /SAVE /STATISTICS=MEAN SUM STDDEV MIN MAX . Das Ergebnis ist:
40
Deskriptive Statistik
3000 400,58 595,29 1500590 500,1968 30,12582
3000
RenteGültige Werte(Listenweise)
N Minimum Maximum Summe MittelwertStandardabweichung
Wollen wir nun, zur Erleichterung der weiteren Arbeit eine Normalverteilung haben, die genau den Mittelwert 500 hat und die Standardabweichung 30, so können wir das mit folgender Syntax leisten, weil wir ja unter dem Namen ZRente, den der Rechner vergeben hat, in unserem Datenfenster eine standardisierte Normalverteilung haben. COMPUTE Rente500 = ZRente * 30 + 500 . EXECUTE . Die neue Variable nennen wir Rente500; sie hat, wie erwartet, genau das arithmetische Mittel von 500 und genau die Standardabweichung 30:
Deskriptive Statistik
3000 400,80 594,70 1500000 500,0000 30,00000
3000
Rente500Gültige Werte(Listenweise)
N Minimum Maximum Summe MittelwertStandardabweichung
Aus dieser Verteilung ziehen wir jetzt ein paar Zufallsstichproben, bei denen wir den z-Test einsetzen, siehe Dieckmann-Skriptum, S. 95 Die Prüfgröße z, die im z-Test verwendet wird, hat die Formel:
ns
xz μ−=
Wir probieren den Z-Test nacheinander an Stichproben mit dem folgenden Umfang aus: Stichprobe 1: n = 50 Stichprobe 2: n = 100 Stichprobe 3: n = 300 Stichprobe 4: n = 500 Stichprobe 5: n = 1000 Die Syntax für die Stichproben ist: USE ALL. do if $casenum = 1. compute #s_$_1=50. compute #s_$_2=3000. end if.
41
do if #s_$_2 > 0. compute filter_$ = uniform(1)* #s_$_2 < #s_$_1. compute #s_$_1 = #s_$_1 - filter_$. compute #s_$_2 = #s_$_2 - 1. else. compute filter_$ = 0. end if. VARIABLE LABEL filter_$ '50 aus den ersten 3000 Fällen (STICHPROBE)'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . Diese Syntax erzeugen wir mittels der Schaltfläche Daten/ Fälle auswählen:
dann bildet SPSS eine Filtervariable „Filter_$“, in der alle mit 1 gekennzeichneten Fälle noch gültig sind. Für die restlichen, ausgewählten Fälle berechnen wir die Kennwerte: DESCRIPTIVES VARIABLES=Rente500 /STATISTICS=MEAN SUM STDDEV MIN MAX SEMEAN . Ergebnis: (für die Stichprobengröße 50)
42
Deskriptive Statistik
50 420,57 555,93 25006,51 500,1302 3,56917 25,23786
50
Rente500Gültige Werte(Listenweise)
Statistik Statistik Statistik Statistik StatistikStandardf
ehler Statistik
N Minimum Maximum Summe Mittelwert Standard
Wir führen den z-Test spaßeshalber auf dem Taschenrechner durch. z = (500,1302 – 500)/ 3,56917 = 0,03698 Wir erhalten mittels Taschenrechner einen z-Wert von 0,03698. Diesem entspricht „links“ von diesem z-Wert eine Fläche unter der Standardnormalverteilung von p = 0, 51474. Wir können dies sehr schnell mit SPSS herausfinden. Wir definieren eine neue Variable „z“, der wir im Fall 1 obigen Wert von 0,03698 zuweisen. Dann führen wir die folgende Syntax aus: COMPUTE p = CDF.NORMAL(z,0,1) . EXECUTE . Es wird eine Variable p berechnet, deren Fall 1 den Wert 0,51474 ausweist. Dies ist die oben gesuchte Fläche. Rechts von diesem z-Wert läge demgemäß eine Fläche von 1 - 0, 51474 = 0,48526. Verdoppeln wir diese Fläche, dann erhalten wir den Wert von p= 0,97052. Dieses wäre die Irrtumswahrscheinlichkeit, mit der wir bei einem zweiseitigen Test die Nullhypothese ablehnen würden. Bei so hoher Irrtumswahrscheinlichkeit behalten wir daher die Nullhypothese bei. Wir führen jetzt den z-Test in SPSS aus: Die – hier für den z-Test und den T-Test gemeinsame Syntax lautet: T-TEST /TESTVAL = 500 /MISSING = LISTWISE /VARIABLES = Rente500 /CRITERIA = CI(.95) . Das Ergebnis des t-Tests ist:
Statistik bei einer Stichprobe
50 500,1302 25,23786 3,56917Rente500N Mittelwert
Standardabweichung
Standardfehler des
Mittelwertes
Test bei einer Sichprobe
,036 49 ,971 ,13018 -7,0423 7,3027Rente500T df Sig. (2-seitig)
MittlereDifferenz Untere Obere
95% Konfidenzintervallder Differenz
Testwert = 500
43
Die oben bezeichnete Fläche von p = 0,97 ist auch in diesem Test berechnet worden. Unsere Stichprobe ist daher mit hoher Wahrscheinlichkeit aus der uns bekannten Grundgesamtheit entnommen worden. H0 daher wird beibehalten. Wir führen jetzt diesen Test für weitere Stichproben durch, wie oben geplant: Hierzu löschen wir jeweils die Filtervariable und bilden die Stichprobenauswahl wie oben beschrieben, nur unter Angabe einer veränderten Stichprobengröße n. Wir führen danach jeweils wieder die folgende Syntax aus: T-TEST /TESTVAL = 500 /MISSING = LISTWISE /VARIABLES = Rente500 /CRITERIA = CI(.95) . Für n = 100 erhalten wir nach dem gleichen Verfahren:
Statistik bei einer Stichprobe
100 503,1877 26,98505 2,69850Rente500N Mittelwert
Standardabweichung
Standardfehler des
Mittelwertes
Test bei einer Sichprobe
1,181 99 ,240 3,18766 -2,1668 8,5421Rente500T df Sig. (2-seitig)
MittlereDifferenz Untere Obere
95% Konfidenzintervallder Differenz
Testwert = 500
H0 wird beibehalten. Für n = 300 erhalten wir nach dem gleichen Verfahren
Statistik bei einer Stichprobe
300 500,2338 30,00661 1,73243Rente500N Mittelwert
Standardabweichung
Standardfehler des
Mittelwertes
Test bei einer Sichprobe
,135 299 ,893 ,23381 -3,1755 3,6431Rente500T df Sig. (2-seitig)
MittlereDifferenz Untere Obere
95% Konfidenzintervallder Differenz
Testwert = 500
H0 wird beibehalten Für n = 500 erhalten wir nach dem gleichen Verfahren
44
Statistik bei einer Stichprobe
500 500,3924 28,95765 1,29503Rente500N Mittelwert
Standardabweichung
Standardfehler des
Mittelwertes
Test bei einer Sichprobe
,303 499 ,762 ,39244 -2,1519 2,9368Rente500T df Sig. (2-seitig)
MittlereDifferenz Untere Obere
95% Konfidenzintervallder Differenz
Testwert = 500
H0 wird beibehalten für n = 1000 erhalten wir nach dem gleichen Verfahren
Statistik bei einer Stichprobe
1000 500,4936 30,28697 ,95776Rente500N Mittelwert
Standardabweichung
Standardfehler des
Mittelwertes
Test bei einer Sichprobe
,515 999 ,606 ,49362 -1,3858 2,3731Rente500T df Sig. (2-seitig)
MittlereDifferenz Untere Obere
95% Konfidenzintervallder Differenz
Testwert = 500
H0 wird beibehalten Wir stellen fest, daß das Signifikanzniveau – aufgrund der Zufallsprozesse, die hier ablaufen, nicht mit steigender Stichprobengröße ansteigt, aber der Standardfehler des arithmetischen Mittels wird immer kleiner. n Standard
fehler 10 7,66 50 3,6 100 2,7 300 1,7 500 1,3 1000 ,96 Erst wenn wir sehr kleine Stichproben ziehen, wird von unserer t-Test-Syntax die t-Verteilung benutzt. Hier ist die Standardabweichung, wie wir wissen, größer als 1. Das Stichprobenmittel ist dann nicht mehr z-verteilt, sondern t-verteilt. Dies ist bedeutsam, wenn die Freiheitsgrade von t unter 30 sinken. Darüber ist die t-Verteilung fast identisch mit der Normalverteilung. für n = 10 erhalten wir:
45
Statistik bei einer Stichprobe
10 505,1142 24,21175 7,65643Rente500N Mittelwert
Standardabweichung
Standardfehler des
Mittelwertes
Test bei einer Sichprobe
,668 9 ,521 5,11425 -12,2058 22,4343Rente500T df Sig. (2-seitig)
MittlereDifferenz Untere Obere
95% Konfidenzintervallder Differenz
Testwert = 500
Auch hier behalten wir bei p= 0,521 die H0 bei. Bei keiner der gezogenen Stichproben haben wir ein Ergebnis bekommen, das uns zu einer Fehlentscheidung gebracht hätte.
3.2. Zweistichproben – t-Test Wir stellen die Kombination zweier normalverteilter Zufallszahlenverteilungen her, deren arithmetische Mittel sich nur um wenige Punkte unterscheiden mit N = 3000. Wir nennen die Variablen, mit denen wir arbeiten: RenteM, RenteW und RenteB. RenteW sei die Rente von Frauen, RenteM die Rente von Männern und RenteB die von beiden Geschlechtern. Zunächst bilden wir die Variable RenteM aus unserer vorhandenen Variable Rente500, der wir einen kleinen zufallsverteilten Zuschlag von ca 40 Euro geben, mit einer Standardabweichung von 4 Euro. COMPUTE RenteM = Rente500 + RV.NORMAL(40,4) . EXECUTE . Dann bilden wir die Variable RenteW aus unserer vorhandenen Variable Rente500, der wir einen kleinen zufallsverteilten Zuschlag von ca 37 Euro geben, mit einer Standardabweichung von 3,5 Euro. COMPUTE Rentew = Rente500 + RV.NORMAL(37,3.5) . EXECUTE . Dann erzeugen wir die Variable Geschlecht, gleichverteilt mit den Ausprägungen 0 und 1: COMPUTE SEX = trunc (RV.UNIFORM(0.5,1.5)) . EXECUTE . Schließlich bilden wir die Variable RenteB: Wenn das Geschlecht in der neuen Variable SEX männlich ist (Sex = 0), dann soll RenteB = RenteM sein. Wenn das Geschlecht in der neuen Variable SEX weiblich ist (Sex = 1), dann soll RenteB = RenteW sein. IF (SEX = 0) Renteb = Rentem . EXECUTE .
46
IF (SEX = 1) Renteb = Rentew . EXECUTE . Jetzt haben wir eine Variable, der wir auch das Geschlecht zuordnen können. Wir können jetzt untersuchen, ob Männer in dieser Variable mehr verdienen als Frauen. T-TEST GROUPS = SEX(0 1) /MISSING = LISTWISE /VARIABLES = Renteb /CRITERIA = CI(.95) . Das Ergebnis fällt bei der Untersuchung aller 3000 Fälle so aus, daß der Unterschied signifikant erscheint, da P = 0,077/2= 0,0385< 0,05. Wir lehnen H0 ab.
Gruppenstatistiken
1529 539,3854 30,16869 ,771531471 537,4281 30,35167 ,79136
SEX,001,00
RentebN Mittelwert
Standardabweichung
Standardfehler des
Mittelwertes
Test bei unabhängigen Stichproben
,003,954
1,771 1,7712998 2992,013,077 ,077
1,95734 1,95734
1,10509 1,10522
-,20947 -,209734,12416 4,12441
FSignifikanz
Levene-Test derVarianzgleichheit
TdfSig. (2-seitig)Mittlere Differenz
Standardfehler der Differenz
UntereObere
95% Konfidenzintervallder Differenz
T-Test für dieMittelwertgleichheit
Varianzen sind gleichVarianzen sind
nicht gleich
Renteb
Der Levene-Test ergibt eine Beibehaltung der HO bei der Frage nach der Varianzhomogenität: H0 ist hier
σ1 = σ2 Das Ergebnis des hierzu durchgeführten LEVENE-Tests ist eindeutig (p = 0,954). Aber der t-Test zeigt einen signifikanten Unterschied der Rentenwerte der Geschlechter. Die mittlere Differenz ist zwar nur 1,957 Euro bei einem Standardfehler der Differenz von 1,1 Euro. Aber die Irrtumswahrscheinlichkeit bei der Ablehnung Nullhypothese ist p= 0,077/2 = 0,0385 < 0,05. Das riskieren wir. Wir lehnen die Nullhypothese H0 ab und entscheiden uns für H1.
47
Zögen wir jetzt eine Stichprobe im Umfang von 200 Personen aus unserer Grundgesamtheit von 3000 Personen, dann ergäbe der gleiche t-Test folgendes Resultat:
Gruppenstatistiken
110 540,8481 27,79493 2,6501490 535,4397 33,28588 3,50864
SEX,001,00
RentebN Mittelwert
Standardabweichung
Standardfehler des
Mittelwertes
Test bei unabhängigen Stichproben
3,161,077
1,252 1,230198 173,428,212 ,220
5,40845 5,40845
4,31889 4,39702
-3,10848 -3,2701213,92538 14,08701
FSignifikanz
Levene-Test derVarianzgleichheit
TdfSig. (2-seitig)Mittlere Differenz
Standardfehler der Differenz
UntereObere
95% Konfidenzintervallder Differenz
T-Test für dieMittelwertgleichheit
Varianzen sind gleichVarianzen sind
nicht gleich
Renteb
Wir sehen hier, daß die Prüfung der Varianzhomogenität fast zu dem Ergebnis kommt, daß die Varianzen inhomogen sind (p = 0,077). Die mittlere Differenz der Renten der Geschlechter beträgt 5,4 Euro bei einem Standardfehler von 4,32 Euro. Obwohl diese Differenz gewachsen ist gegenüber der Totalerhebung ist die Signifikanz des Unterschieds wegen der kleinen Stichprobe nicht mehr gegeben. (p = 0,212/2= 0,106 > 0,05). Wenn wir eine noch kleinere Stichprobe zögen (n = 50), könnte das Ergebnis das folgende sein:
Gruppenstatistiken
22 549,0859 26,04308 5,5524028 544,6430 30,25965 5,71854
SEX,001,00
RentebN Mittelwert
Standardabweichung
Standardfehler des
Mittelwertes
48
Test bei unabhängigen Stichproben
,861,358,547 ,557
48 47,559,587 ,580
4,44284 4,44284
8,11735 7,97062
-11,87818 -11,5870120,76387 20,47269
FSignifikanz
Levene-Test derVarianzgleichheit
TdfSig. (2-seitig)Mittlere Differenz
Standardfehler der Differenz
UntereObere
95% Konfidenzintervallder Differenz
T-Test für dieMittelwertgleichheit
Varianzen sind gleichVarianzen sind
nicht gleich
Renteb
Wir haben hier keinen signifikanten Unterschied, p = 0,587/2=0,2935 > 0,05. Die Nullhypothese wird beibehalten, obwohl die mittlere Differenz der Renten 4,44 Euro (bei einem Standardfehler von 8,11) Euro beträgt.
49
3.3. Zwei „abhängige“ Stichproben. Wir wollen den t-Test für „abhängige Stichproben“ ausprobieren. Hierzu schaffen wir uns wiederum einen Datenfile mit 3000 Messungen. Die Variable nennen wir LERN1. Zugrunde liege ein Versuch, in dem man die Intelligenz von 10jährigen Versuchspersonen durch ein intensives musikalisches Training zu steigern versucht. Die Ausgangsmeßwerte in der Variable Lern1 sollen haben ein arithmetisches Mittel des Intelligenztests von 90 und eine Standardabweichung von 7. Mit folgendem Verfahren schaffen wir es, eine normalverteilte Variable herzustellen die g e n a u diesen Anforderungen entspricht: Data / Gehe zu Fall 3000. Dort eine Zahl eingeben. COMPUTE Lern1 = RV.NORMAL(90,7) . EXECUTE . DESCRIPTIVES VARIABLES=Lern1 /SAVE /STATISTICS=MIN MAX KURTOSIS SKEWNESS . COMPUTE Lern1 = ZLern1* 7 + 90 . EXECUTE . Wir haben jetzt die ersten 3000 Meßwerte unserer nicht sehr intelligenten Versuchspersonen. Die Eichstichprobe (Fachliteratur) hatte folgende Werte Standardabweichung und %-Skala Qualitative Bedeutung IQ- / Index Abw. vom Prozent- Werte Mittelwert in SD rangwert 145 3 99.9 sehr hohe Intelligenz 130 2 98.0 hohe Intelligenz 115 1 84.0 überdurchschnittliche Intelligenz 100 0 50.0 durchschnittliche Intelligenz 85 -1 16.0 unterdurchschnitt liche Intelligenz 70 -2 02.0 niedrige Intelligenz 55 -3 00.1 sehr niedrige Intelligenz Ein sehr von sich überzeugter Spezialist der Musiktherapie unterzieht nun diese 3000 jungen Leute einem intensiven musikalischen Training. Dann wird die Intelligenz noch einmal gemessen. Das führt zu der Variable Lern2. Jeder Proband hat jetzt zwei Meßwerte, Lern1 und Lern2. Lern2 generieren wir so, daß tatsächlich ein Lernzuwachs herauskommt, und zwar von 1 Punk bei einer Standardabweichung von 5 Punkten, so daß wir eine Variable Lern2 herstellen sollten, die aus der Variable Lern1 besteht, zu der eine Zufallsvariable addiert wird mit einem arithmetischen Mittel von 1 und einer Standardabweichung von 5. Wie sieht die Syntax aus ? Schreiben Sie diese selber!
50
Beispielsyntax: Wir addieren zur ersten Verteilung eine Zufallsvariable mit einem arithmetischen Mittel von 1 und der Standardabweichung 5. Sinnvoll wäre das, wenn es tatsächlich einen Intelligenzzuwachs geben kann und weil eine große Standardabweichung – hier von 5 – die Bedeutung haben kann, daß das Training auch kontraproduktive, verwirrende Effekte hatte. Compute lern2 = lern1 + RV.normal(1,5). Execute. Wir ziehen jetzt aus unseren Daten eine Stichprobe vom Umfang 30, indem wir über DATEN Auswählen die folgende Syntax produzieren: USE ALL. do if $casenum = 1. compute #s_$_1=30. compute #s_$_2=3000. end if. do if #s_$_2 > 0. compute filter_$ = uniform(1)* #s_$_2 < #s_$_1. compute #s_$_1 = #s_$_1 - filter_$. compute #s_$_2 = #s_$_2 - 1. else. compute filter_$ = 0. end if. VARIABLE LABEL filter_$ '30 aus den ersten 3000 Fällen (STICHPROBE)'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . Dann wählen wir im Menue Analysieren / „Mittelwerte vergleichen“ den t-Test für abhängige (gepaarte) Stichproben. Dort wählen wir als Variablen, die dem Test unterzogen werden sollen, die Variablen Lern1 und Lern2. In der dann resultierenden Syntax sollten wir die Reihenfolge von Lern1 und Lern2 umstellen, da nur so ein t-Wert mit positivem Vorzeichen erzeugt werden kann: Lern2 sollte in der Syntax vorne stehen, da sie den größeren Zahlenwert hat: T-TEST PAIRS = Lern2 WITH Lern1 (PAIRED) /CRITERIA = CI(.95) /MISSING = ANALYSIS. Wir führen zu Demonstrationszwecken den T-Test mit 30 Probanden mehrfach durch, um zu zeigen, wie stark die Ergebnisse differieren können. Auf meinem Rechner gab es folgende Resultate: 1. Stichprobe:
Statistik bei gepaarten Stichproben
92,0030 30 8,68369 1,5854291,8346 30 6,57565 1,20054
lern2Lern1
Paaren1
Mittelwert NStandardabweichung
Standardfehler des
Mittelwertes
Korrelationen bei gepaarten Stichproben
30 ,901 ,000lern2 & Lern1Paaren 1N Korrelation Signifikanz
51
Test bei gepaarten Stichproben
,16844
3,96209
,72337
-1,311031,64790
,23329
,818
MittelwertStandardabweichung
Standardfehler des Mittelwertes
UntereObere
95% Konfidenzintervallder Differenz
Gepaarte Differenzen
TdfSig. (2-seitig)
lern2 - Lern1Paaren 1
Hier behalten wir die Nullhypothese bei. 2. Stichprobe:
Statistik bei gepaarten Stichproben
91,5299 30 7,97891 1,4567489,4873 30 6,61108 1,20701
lern2Lern1
Paaren1
Mittelwert NStandardabweichung
Standardfehler des
Mittelwertes
Korrelationen bei gepaarten Stichproben
30 ,872 ,000lern2 & Lern1Paaren 1N Korrelation Signifikanz
Test bei gepaarten Stichproben
2,04254
3,91459
,71470
,580813,50427
2,85829
,008
MittelwertStandardabweichung
Standardfehler des Mittelwertes
UntereObere
95% Konfidenzintervallder Differenz
Gepaarte Differenzen
TdfSig. (2-seitig)
lern2 - Lern1Paaren 1
Hier könnten wir die Nullhypothese ablehnen.
52
Wir wiederholen das Experiment mit einer größeren Stichprobe, wobei wir jedesmal die Filtervariable löschen und folgende Syntax komplett ausführen: USE ALL. do if $casenum = 1. compute #s_$_1=100. compute #s_$_2=3000. end if. do if #s_$_2 > 0. compute filter_$ = uniform(1)* #s_$_2 < #s_$_1. compute #s_$_1 = #s_$_1 - filter_$. compute #s_$_2 = #s_$_2 - 1. else. compute filter_$ = 0. end if. VARIABLE LABEL filter_$ '100 aus den ersten 3000 Fällen (STICHPROBE)'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . T-TEST PAIRS = Lern2 WITH Lern1 (PAIRED) /CRITERIA = CI(.95) /MISSING = ANALYSIS. Ein Ergebnis bei meinen Versuchen war:
Statistik bei gepaarten Stichproben
91,6350 100 7,81898 ,7819090,2116 100 5,90325 ,59033
lern2Lern1
Paaren1
Mittelwert NStandardabweichung
Standardfehler des
Mittelwertes
Korrelationen bei gepaarten Stichproben
100 ,800 ,000lern2 & Lern1Paaren 1N Korrelation Signifikanz
Test bei gepaarten Stichproben
1,42333
4,70442
,47044
,489872,35679
3,02699
,003
MittelwertStandardabweichung
Standardfehler des Mittelwertes
UntereObere
95% Konfidenzintervallder Differenz
Gepaarte Differenzen
TdfSig. (2-seitig)
lern2 - Lern1Paaren 1
53
Hier können wir die Nullhypothese ablehnen. Inhaltlich würde das bedeuten, daß die 10jährigen Probanden von dem musikalischen Training etwas gehabt haben und daß sich ihre Intelligenz auf geheimnisvolle Weise....(!) gesteigert hat. Eine Erweiterung des t-Tests ist die 3.4.Einfaktorielle Varianzanalyse. Varianten der Varianzanalyse in SPSS 12 sind folgende: Einfaktorielle Varianzanalyse (ANOVA): Sie prüft, ob zwischen den Mittelwerten von j unabhängigen Stichproben statistisch signifikante Unterschiede bestehen, mit der Möglichkeit, multiple Mittelwert-Vergleiche durchzuführen. (Dargestellt hier in Kapitel 3.1.4.). Einfaktorielle und zweifaktorielle Kovarianzanalyse: (UNIANOVA): Sie prüft, ob zwischen den Mittelwerten von j unabhängigen Stichproben statistisch signifikante Unterschiede bestehen, wenn der Einfluß einer oder mehrerer Kovariaten statistisch eliminiert worden ist. Varianzanalyse für abhängige Stichproben. Zweifaktorielle Varianzanalyse (UNIANOVA) für Faktoren mit festen Effekten. (Dargestellt hier in Kap. 3.1.5.) Dreifaktorielle Varianzanalyse (UNIANOVA) für Faktoren mit festen Effekten. (Dargestellt hier in Kap. 3.1.5.) Zweifaktorielle oder dreifaktorielle Varianzanalyse mit Meßwiederholung auf einem oder auf zwei Faktoren. Multivariate Varianzanalyse für unabhängige Stichproben: Sie prüft, ob ein oder mehrere Faktoren einen signifikanten Einfluß auf die Mittelwerte mehrerer abhängiger Variablen haben Während beim t-Test aufgrund der Mittelwertsdifferenzen geprüft werden kann, ob zwei Stichproben aus einer gemeinsamen Grundgesamtheit gezogen worden sein können, bietet die einfaktorielle Varianzanalyse die Möglichkeit, mehrere annähernd gleichgroße Stichproben in bezug auf die Frage zu untersuchen, ob sie alle aus einer gemeinsamen Grundgesamtheit stammen können oder nicht. Die Nullhypothese würde sein: H0= µ1=µ2=µ3=µ4. Die einfaktorielle Varianzanalyse erlaubt es, zu überprüfen, ob sich verschiedene Teil-Stichproben in einer größeren Stichprobe, deren Mitglieder aus unterschiedlichen „Bereichen" kommen, so unterscheiden, daß man die Unterschiede durch die Herkunft aus unterschiedlichen Bereichen „erklären" kann. Bereiche können dabei z.B. regional, temporal, institutionell oder auch experimentell definiert sein. Nehmen wir an, unsere Intelligenzdaten würden aus drei Regionen stammen: Oldenburg, Ostfriesland, und Ammerland. Als Beispielsdaten nehmen wir unsere Variablen Lern1 und Lern2 und nennen sie in Oldenburg und Ammerland um. Die Variable Ostfriesland generieren wir mit dem folgenden Befehl, wobei ich in SPSS12 schon mehr als 8 Buchstaben für den Variablennamen verwenden darf, in SPSS10 gilt noch die 8-Zeichen-Regel für Variablennamen. COMPUTE Ostfriesland = Ammerland + RV.NORMAL(1,3) . EXECUTE . Nun müssen wir für unsere einfaktorielle Varianzanalyse noch eine Variable generieren, die die „Intelligenz“ aller drei Regionen enthält und eine Variable, die die Zugehörigkeit zu den Regionen anzeigt. Dies machen wir folgendermaßen: COMPUTE Herkunft = TRUNC(RV.UNIFORM(0,3)) .
54
EXECUTE . * führt zur Herstellung einer gleichverteilten Variable mit den Ausprägungen 0,1 und 2. IF (Herkunft = 0) Intelligenz = Oldenburg . EXECUTE . IF (Herkunft = 1) Intelligenz = Ammerland . EXECUTE. IF (Herkunft = 2) Intelligenz = Ostfriesland . EXECUTE . * führt dazu, daß alle „Befragten“, die die Ausprägung 0 auf der Variable „Herkunft“ haben, als „Oldenburger“ gelten; daß alle „Befragten“, die die Ausprägung 1 auf der Variable „Herkunft“ haben, als „Ammerländer“ gelten; daß alle „Befragten“, die die Ausprägung 2 auf der Variable „Herkunft“ haben, als „Ostfriesen“ gelten. Jetzt können wir die einfache Varianzanalyse rechnen (Vgl. Skriptum Dieckmann, 9. Auflage, S:134). Innerhalb der einfachen Varianzanalyse verwenden wir bei den Post-Hoc-Vergleichen den Tukey Test. Dieser verwendet die t-Verteilung für alle möglichen paarweisen Vergleiche zwischen den Gruppen und setzt die Fehlerrate für das Experiment gleich der Fehlerrate für die Gesamtheit aller paarweisen Vergleiche. Die Syntax (über „Mittelwertvergleiche“, ANOVA hergestellt) lautet: ONEWAY Intelligenz BY Herkunft /STATISTICS DESCRIPTIVES HOMOGENEITY /MISSING ANALYSIS. Die Ergebnisse sind folgende: Oneway
ONEWAY deskriptive Statistiken
Intelligenz
965 89,6212 7,16365 ,23061 89,1686 90,0737 65,95 112,591030 91,1247 8,21117 ,25585 90,6226 91,6267 67,87 120,761005 92,3341 9,18692 ,28979 91,7654 92,9027 65,86 119,973000 91,0462 8,31240 ,15176 90,7486 91,3438 65,86 120,76
,001,002,00Gesamt
N MittelwertStandardabweichung
Standardfehler Untergrenze Obergrenze
95%-Konfidenzintervall fürden Mittelwert
Minimum Maximum
Wir sehen hier, daß es Mittelwert-Unterschiede und Unterschiede in der Varianz gibt, die etwa das wiederspiegeln, was wir bei der Simulation der Daten wollten.
Test der Homogenität der Varianzen
Intelligenz
25,405 2 2997 ,000
Levene-Statistik df1 df2 Signifikanz
Hier erkennen wir, daß die Homogenität der Varianzen nicht gegeben ist. Beim post-hoc Vergleich der Gruppen müssen wir daher Test anfordern, bei denen die Varianzen nicht homogen sein müssen.
55
ONEWAY ANOVA
Intelligenz
3632,838 2 1816,419 26,740 ,000203586,1 2997 67,930207218,9 2999
Zwischen den GruppenInnerhalb der GruppenGesamt
Quadratsumme df
Mittel derQuadrate F Signifikanz
Hier zeigt sich, daß es irgendwo zwischen den Mittelwerten signifikante Unterschiede gibt, wir wissen nur noch nicht wo. Wir wiederholen daher jetzt die Anova, wiederholen den Test auf Signifikanz der Mittelwertsdifferenzen mit weiteren „robusten“ Verfahren und fordern alle Post-Hoc-Tests an, die keine Varianzhomogenität voraussetzen. Die Syntax ist: ONEWAY Intelligenz BY Herkunft /STATISTICS DESCRIPTIVES HOMOGENEITY BROWNFORSYTHE WELCH /MISSING ANALYSIS /POSTHOC = T2 T3 GH C ALPHA(.05). Die Ergebnisse sind: Oneway
ONEWAY deskriptive Statistiken
Intelligenz
965 89,6212 7,16365 ,23061 89,1686 90,0737 65,95 112,591030 91,1247 8,21117 ,25585 90,6226 91,6267 67,87 120,761005 92,3341 9,18692 ,28979 91,7654 92,9027 65,86 119,973000 91,0462 8,31240 ,15176 90,7486 91,3438 65,86 120,76
,001,002,00Gesamt
N MittelwertStandardabweichung
Standardfehler Untergrenze Obergrenze
95%-Konfidenzintervall fürden Mittelwert
Minimum Maximum
Hier erhalten wir die gleiche Tabelle noch einmal, die wir oben schon hatten.
Test der Homogenität der Varianzen
Intelligenz
25,405 2 2997 ,000
Levene-Statistik df1 df2 Signifikanz
Hier erhalten wir die gleiche Tabelle noch einmal, die wir oben schon hatten.
56
ONEWAY ANOVA
Intelligenz
3632,838 2 1816,419 26,740 ,000203586,1 2997 67,930207218,9 2999
Zwischen den GruppenInnerhalb der GruppenGesamt
Quadratsumme df
Mittel derQuadrate F Signifikanz
Hier erhalten wir die gleiche Tabelle noch einmal, die wir oben schon hatten.
Robuste Testverfahren zur Prüfung auf Gleichheit der Mittelwerte
Intelligenz
27,860 2 1985,794 ,00026,868 2 2902,102 ,000
Welch-TestBrown-Forsythe
Statistika df1 df2 Sig.
Asymptotisch F-verteilta.
Hier erhalten wir neue Information aus zwei anderen Tests. Sie zeigen, daß es zwischen den Gruppen signifikanten Mittelwertunterschiede geben muß.
57
Mehrfachvergleiche
Abhängige Variable: Intelligenz
-1,50348* ,34444 ,000 -2,3266 -,6803-2,71289* ,37035 ,000 -3,5980 -1,82781,50348* ,34444 ,000 ,6803 2,3266
-1,20941* ,38657 ,005 -2,1332 -,28562,71289* ,37035 ,000 1,8278 3,59801,20941* ,38657 ,005 ,2856 2,1332
-1,50348* ,34444 ,000 -2,3266 -,6804-2,71289* ,37035 ,000 -3,5979 -1,82781,50348* ,34444 ,000 ,6804 2,3266
-1,20941* ,38657 ,005 -2,1332 -,28562,71289* ,37035 ,000 1,8278 3,59791,20941* ,38657 ,005 ,2856 2,1332
-1,50348* ,34444 ,000 -2,3113 -,6956-2,71289* ,37035 ,000 -3,5816 -1,84421,50348* ,34444 ,000 ,6956 2,3113
-1,20941* ,38657 ,005 -2,1161 -,30272,71289* ,37035 ,000 1,8442 3,58161,20941* ,38657 ,005 ,3027 2,1161
-1,50348* ,34444 -2,3119 -,6950-2,71289* ,37035 -3,5822 -1,84361,50348* ,34444 ,6950 2,3119
-1,20941* ,38657 -2,1168 -,30212,71289* ,37035 1,8436 3,58221,20941* ,38657 ,3021 2,1168
(J) Herkunft1,002,00,002,00,001,001,002,00,002,00,001,001,002,00,002,00,001,001,002,00,002,00,001,00
(I) Herkunft,00
1,00
2,00
,00
1,00
2,00
,00
1,00
2,00
,00
1,00
2,00
Tamhane
Dunnett-T3
Games-Howell
Dunnett-C
MittlereDifferenz (I-J)
Standardfehler Signifikanz Untergrenze Obergrenze
95%-Konfidenzintervall
Die mittlere Differenz ist auf der Stufe .05 signifikant.*.
Hier erhalten wir die Ergebnisse von 4 weiteren verschiedenen Tests auf Signifikanz der Mittelwert- Unterschiede, die alle keine Varianzhomogenität voraussetzen. Drei von ihnen zeigen, daß zwischen den Gruppen hochsignifikante Unterschiede bestehen. Wir wiederholen diese Analyse jetzt mit einer Stichprobe von n = 300. Syntax: USE ALL. do if $casenum = 1. compute #s_$_1=300. compute #s_$_2=3000. end if. do if #s_$_2 > 0. compute filter_$ = uniform(1)* #s_$_2 < #s_$_1. compute #s_$_1 = #s_$_1 - filter_$. compute #s_$_2 = #s_$_2 - 1. else. compute filter_$ = 0. end if. VARIABLE LABEL filter_$ '300 aus den ersten 3000 Fällen (STICHPROBE)'. FORMAT filter_$ (f1.0). FILTER BY filter_$.
58
EXECUTE . ONEWAY Intelligenz BY Herkunft /STATISTICS DESCRIPTIVES HOMOGENEITY /MISSING ANALYSIS. Ergebnisse: Oneway
ONEWAY deskriptive Statistiken
Intelligenz
96 88,2789 7,18707 ,73353 86,8226 89,7351 65,95 105,25120 90,3401 8,14668 ,74369 88,8675 91,8127 71,86 112,99
84 91,6244 8,96505 ,97817 89,6789 93,5700 67,62 110,65300 90,0401 8,17765 ,47214 89,1110 90,9693 65,95 112,99
,001,002,00Gesamt
N MittelwertStandardabweichung
Standardfehler Untergrenze Obergrenze
95%-Konfidenzintervall fürden Mittelwert
Minimum Maximum
Test der Homogenität der Varianzen
Intelligenz
1,676 2 297 ,189
Levene-Statistik df1 df2 Signifikanz
Hier zeigt sich in der Stichprobe eine Homogenität der Varianzen.
ONEWAY ANOVA
Intelligenz
519,435 2 259,717 3,961 ,02019475,861 297 65,57519995,295 299
Zwischen den GruppenInnerhalb der GruppenGesamt
Quadratsumme df
Mittel derQuadrate F Signifikanz
Hier zeigt sich in der Stichprobe interessanterweise, daß es irgendwo signifikante Differenzen geben muß zwischen dern Gruppen. Wir wiederholen daher die Analyse und führen post-hoc-Tests durch, die die Homogenität der Varianzen voraussetzen: Syntax: ONEWAY Intelligenz BY Herkunft /MISSING ANALYSIS /POSTHOC = TUKEY BTUKEY DUNCAN ALPHA(.05). Ergebnis: Zusätzlich zu den obigen Ergebnissen für die Stichprobe n = 300 erhalten wir:
59
Post-Hoc-Tests
Mehrfachvergleiche
Abhängige Variable: Intelligenz
-2,06124 1,10884 ,153 -4,6731 ,5507-3,34556* 1,20985 ,017 -6,1954 -,49572,06124 1,10884 ,153 -,5507 4,6731
-1,28432 1,15201 ,506 -3,9979 1,42933,34556* 1,20985 ,017 ,4957 6,19541,28432 1,15201 ,506 -1,4293 3,9979
(J) Herkunft1,002,00,002,00,001,00
(I) Herkunft,00
1,00
2,00
Tukey-HSD
MittlereDifferenz (I-J)
Standardfehler Signifikanz Untergrenze Obergrenze
95%-Konfidenzintervall
Die mittlere Differenz ist auf der Stufe .05 signifikant.*.
In dieser Tabelle zeigt sich, daß es bei n = 300 in dieser Stichprobe nur eine signifikante Differenz zwischen der Gruppe 0 (Oldenburg) und der Gruppe 2 (Ostfriesen) gibt. Homogene Untergruppen
Intelligenz
96 88,2789120 90,3401 90,3401
84 91,6244,178 ,509
96 88,2789120 90,3401 90,3401
84 91,624496 88,2789
120 90,3401 90,340184 91,6244
,076 ,268
Herkunft,001,002,00Signifikanz,001,002,00,001,002,00Signifikanz
Tukey-HSDa,b
Tukey-B-Testa,b
Duncana,b
N 1 2
Untergruppe für Alpha= .05.
Die Mittelwerte für die in homogenen Untergruppen befindlichenGruppen werden angezeigt.
Verwendet ein harmonisches Mittel für Stichprobengröße =97,864.
a.
Die Gruppengrößen sind nicht identisch. Es wird dasharmonische Mittel der Gruppengrößen verwendet.Fehlerniveaus des Typs I sind nicht garantiert.
b.
Diese Tabelle faßt – aufgrund dreier verschiedener Tests mit der Voraussetzung der Varianzen-Homogenität – je zwei der Herkunftsgruppen zu je einer „homogenen“ Gruppe zusammen. Die Unterschiede, die wir noch in der „Grundgesamtheit“ gesehen haben, verschwinden hier weitgehend. Ein gewisser Rest der Unterschiede besteht noch zwischen Gruppe 0 (Oldenburger) und Gruppe 2 (Ostfriesen).
60
3.5. Zwei und dreifaktorielle Varianzanalyse. Als Beispiel für eine mehrfaktorielle Varianzanalyse nehmen wir, wie in vielen Ostfriesenwitzen geschehen, an, daß Ostfriesen und ihre Nachbarn nicht sehr intelligent sind. Entsprechend simulieren wir Variablen für einen Datensatz in SPSS10 (n = 49152). Die Intelligenz der Oldenburger nennen wir Oldenbrg, sie soll ein Mittel von 90 haben, mit einer Standardabweichung von 7. Die Intelligenz der Ammerländer heiße Ammerlan, sie sei um einen Intelligenzpunkt höher als die der Oldenburger, mit einer weiteren Standardabweichung von 5. Die Intelligenz der Ostfriesen heiße Ostfries, sie sein um einen Intelligenzpunkt höher als die der Ammerländer, mit einer zusätzlichen Standardabweichung von 3. Die entsprechende Syntax ist: COMPUTE oldenbrg = RV.NORMAL(90,7) . EXECUTE . Compute Ammerlan = oldenbrg + RV.normal(1,5). Execute. COMPUTE Ostfries = Ammerlan + RV.NORMAL(1,3) . EXECUTE . Um die Unterschiede zwischen diesen Variablen varianzanalytisch untersuchen zu können, ist es notwendig, aus diesen 3 Variablen eine einzige Intelligenzvariable zu machen, deren Werte aber den Ausprägungen einer Variablen zugeordnet werden, die die Herkunft aus den 3 genannten Regionen angeben. Diese gleichverteilte Variable nennen wir Herkunft. COMPUTE Herkunft = TRUNC(RV.UNIFORM(0,3)) . EXECUTE . IF (Herkunft = 0) Intelli1 = Oldenbrg. EXECUTE . IF (Herkunft = 1) Intelli1 = Ammerlan . EXECUTE. IF (Herkunft = 2) Intelli1 = Ostfries . EXECUTE . Jetzt können wir eine einfache Varianzanalyse rechnen: ONEWAY Intelli1 BY Herkunft /STATISTICS DESCRIPTIVES EFFECTS HOMOGENEITY /PLOT MEANS /MISSING ANALYSIS /POSTHOC = LSD T2 ALPHA(.05). Deren Ergebnis ist:
61
ONEWAY deskriptive Statistiken
Intelli1
16300 16391 16461 49152
90,0834 90,9321 91,9880 91,0043
7,00182 8,60535 9,01149 8,29175 8,25523
,05484 ,06721 ,07024 ,03740 ,03724 ,55096
89,9759 90,8004 91,8504 90,9310 90,9313 88,6337
90,1908 91,0639 92,1257 91,0776 91,0773 93,3749
61,95 56,85 60,04 56,85
120,62 127,96 124,87 127,96
,90649
NMittelwert
Standardabweichung
Standardfehler
UntergrenzeObergrenze
95%-Konfidenzintervallfür den Mittelwert
Minimum
Maximum
Varianz zwischen denKomponenten
Oldenburg Ammerland Ostfriesland GesamtFeste
EffekteZufallseffe
kte
Modell
Test der Homogenität der Varianzen
Intelli1
473,178 2 49149 ,000
Levene-Statistik df1 df2 Signifikanz
ONEWAY ANOVA
Intelli1
29839,960 2 14919,980 218,932 ,0003349445 49149 68,1493379285 49151
Zwischen den GruppenInnerhalb der GruppenGesamt
Quadratsumme df
Mittel derQuadrate F Signifikanz
62
Mehrfachvergleiche
Abhängige Variable: Intelli1
-,84876* ,09132 ,000 -1,0277 -,6698-1,90468* ,09122 ,000 -2,0835 -1,7259
,84876* ,09132 ,000 ,6698 1,0277-1,05592* ,09109 ,000 -1,2345 -,87741,90468* ,09122 ,000 1,7259 2,08351,05592* ,09109 ,000 ,8774 1,2345-,84876* ,08675 ,000 -1,0559 -,6416
-1,90468* ,08911 ,000 -2,1175 -1,6919,84876* ,08675 ,000 ,6416 1,0559
-1,05592* ,09722 ,000 -1,2881 -,82381,90468* ,08911 ,000 1,6919 2,11751,05592* ,09722 ,000 ,8238 1,2881
(J) HerkunftAmmerlandOstfrieslandOldenburgOstfrieslandOldenburgAmmerlandAmmerlandOstfrieslandOldenburgOstfrieslandOldenburgAmmerland
(I) HerkunftOldenburg
Ammerland
Ostfriesland
Oldenburg
Ammerland
Ostfriesland
LSD
Tamhane
MittlereDifferenz (I-J)
Standardfehler Signifikanz Untergrenze Obergrenze
95%-Konfidenzintervall
Die mittlere Differenz ist auf der Stufe .05 signifikant.*.
Oldenburg Ammerland Ostfriesland
Herkunft
90,00
90,50
91,00
91,50
92,00
Mitt
elw
ert v
on In
telli
1
Wenn wir noch weitere Variablen in die Varianzanalyse einführen möchten, können wir beispielsweise das Geschlecht und die Haarfarbe nehmen. Wir erzeugen die gleichverteilte Variable SEX, wobei wir annehmen, daß die Frauen (Code 1) etwas intelligenter als die Männer (Code 0) sind. Diesen Unterschied zeigen wir in der neu berechneten Varialbe Intelli2.
63
Die Syntax lautet: COMPUTE Sex = TRUNC(UNIFORM(2)) . EXECUTE . IF (Sex=0) Intelli2 = Intelli1. EXECUTE . IF (Sex=1) Intelli2 = Intelli1 + RV.NORMAL(1.5,0.5) . EXECUTE . Nun können wir eine zweifaktorielle Varianzanalyse rechnen: UNIANOVA Intelli2 BY Herkunft Sex /METHOD = SSTYPE(3) /INTERCEPT = INCLUDE /POSTHOC = Herkunft ( LSD T2 ) /PLOT = PROFILE( Herkunft*Sex ) /PRINT = DESCRIPTIVE /CRITERIA = ALPHA(.05) /DESIGN = Herkunft Sex Herkunft*Sex . Deren Ergebnis ist:
Zwischensubjektfaktoren
Oldenburg 16300Ammerland 16391
Ostfriesland 16461
2472924423
,001,00
2,00
Herkunft
,001,00
Sex
Wertelabel N
64
Deskriptive Statistiken
Abhängige Variable: Intelli2
89,9859 7,01694 814491,6885 6,99479 815690,8378 7,05720 1630090,8516 8,68859 823792,5128 8,54006 815491,6780 8,65471 1639191,9768 9,00469 834893,5076 9,03858 811392,7313 9,05354 1646190,9463 8,33025 2472992,5680 8,26887 2442391,7521 8,33923 49152
Sex,001,00Gesamt,001,00Gesamt,001,00Gesamt,001,00Gesamt
HerkunftOldenburg
Ammerland
Ostfriesland
Gesamt
MittelwertStandardabweichung N
Tests der Zwischensubjekteffekte
Abhängige Variable: Intelli2
62259,814a 5 12451,963 182,358 ,000413761093,7 1 4,14E+08 6059497 ,000
29855,742 2 14927,871 218,617 ,00032706,891 1 32706,891 478,990 ,000
65,973 2 32,987 ,483 ,6173355840,210 49146 68,283417201708,6 49152
3418100,024 49151
QuelleKorrigiertes ModellKonstanter TermHerkunftSexHerkunft * SexFehlerGesamtKorrigierteGesamtvariation
Quadratsumme vom Typ III df
Mittel derQuadrate F Signifikanz
R-Quadrat = ,018 (korrigiertes R-Quadrat = ,018)a.
65
Mehrfachvergleiche
Abhängige Variable: Intelli2
-,8401* ,09141 ,000 -1,0193 -,6610-1,8934* ,09131 ,000 -2,0724 -1,7145
,8401* ,09141 ,000 ,6610 1,0193-1,0533* ,09118 ,000 -1,2320 -,87461,8934* ,09131 ,000 1,7145 2,07241,0533* ,09118 ,000 ,8746 1,2320-,8401* ,08732 ,000 -1,0487 -,6316
-1,8934* ,08964 ,000 -2,1075 -1,6794,8401* ,08732 ,000 ,6316 1,0487
-1,0533* ,09772 ,000 -1,2866 -,81991,8934* ,08964 ,000 1,6794 2,10751,0533* ,09772 ,000 ,8199 1,2866
(J) HerkunftAmmerlandOstfrieslandOldenburgOstfrieslandOldenburgAmmerlandAmmerlandOstfrieslandOldenburgOstfrieslandOldenburgAmmerland
(I) HerkunftOldenburg
Ammerland
Ostfriesland
Oldenburg
Ammerland
Ostfriesland
LSD
Tamhane
MittlereDifferenz (I-J)
Standardfehler Signifikanz Untergrenze Obergrenze
95% Konfidenzintervall
Basiert auf beobachteten Mittelwerten.Die mittlere Differenz ist auf der Stufe ,05 signifikant.*.
Oldenburg Ammerland Ostfriesland
Herkunft
88,00
89,00
90,00
91,00
92,00
93,00
94,00
Ges
chät
ztes
Ran
dmitt
el
Sex,001,00
Geschätztes Randmittel von Intelli2
Wenn wir noch eine dritte Variable einführen möchten, nehmen wir hierzu die Haarfarbe. Bekanntlich sind ja die Blonden (Code 0) die Dümmsten. Die Schwarzhaarigen (Code 1) sind um 1,5 Punkte intelligenter als die Blonden, mit einer zusätzlichen Standardabweichung von 0.5. Und – wie jeder
66
weiß – sind die Brünetten (Code 2) um 2,5 Punkte intelligenter als die Blonden mit einer zusätzlichen Standardabweichung von 0,8. Wir simulieren die entsprechenden Annahmen mit folgender Syntax, bei der wir die neue Variable Intelli3 erzeugen. Dieser ordnen wir die drei Haarfarben zu. COMPUTE Haar = TRUNC(UNIFORM(3)) . EXECUTE . IF (Haar=0) Intelli3 = Intelli2. EXECUTE . IF (Haar=1) Intelli3 = Intelli2 + RV.NORMAL(1.5,0.5) . Execute. IF (Haar=2) Intelli3 = Intelli2 + RV.NORMAL(2.5,0.8) . Execute. Jetzt können wir eine Varianzanalyse mit den drei Faktoren Herkunft, Geschlecht und Haarfarbe rechnen. Die Syntax lautet: UNIANOVA Intelli3 BY Herkunft Sex Haar /METHOD = SSTYPE(3) /INTERCEPT = INCLUDE /POSTHOC = Herkunft Sex Haar ( LSD T2 ) /PLOT = PROFILE( Herkunft*Sex*Haar ) /PRINT = DESCRIPTIVE /CRITERIA = ALPHA(.05) /DESIGN = Herkunft Sex Haar Herkunft*Sex Herkunft*Haar Sex*Haar Herkunft*Sex*Haar . Das Ergebnis ist:
Zwischensubjektfaktoren
Oldenburg 16300Ammerland 16391
Ostfriesland 16461
2472924423163851619616571
,001,00
2,00
Herkunft
,001,00
Sex
,001,002,00
Haar
Wertelabel N
67
Deskriptive Statistiken
Abhängige Variable: Intelli3
90,0823 7,06507 268791,4138 7,10697 268392,4318 6,97263 277491,3212 7,11239 814491,6197 7,11344 269093,4439 6,81176 273093,9951 7,10629 273693,0272 7,08341 815690,8515 7,13021 537792,4376 7,03265 541393,2081 7,08196 551092,1748 7,14875 1630090,7361 8,76031 268992,5949 8,66086 271693,2349 8,69980 283292,2081 8,76980 823792,6299 8,59166 277593,8708 8,36650 266495,0613 8,70280 271593,8449 8,61317 815491,6979 8,72580 546493,2267 8,53945 538094,1289 8,74827 554793,0224 8,73041 1639191,9525 8,83886 276593,5017 9,10053 276894,4746 9,12559 281593,3166 9,08182 834893,5635 9,09186 277994,7397 8,88053 263596,2072 9,19261 269994,8250 9,12163 811392,7600 9,00188 554494,1055 9,01434 540395,3227 9,19850 551494,0600 9,13238 1646190,9334 8,30336 814192,5142 8,38580 816793,3847 8,36625 842192,2903 8,41321 2472992,6150 8,35662 824494,0108 8,07205 802995,0829 8,42421 815093,8974 8,34850 2442391,7795 8,37227 1638593,2561 8,26544 1619694,2199 8,43738 1657193,0888 8,41947 49152
Haar,001,002,00Gesamt,001,002,00Gesamt,001,002,00Gesamt,001,002,00Gesamt,001,002,00Gesamt,001,002,00Gesamt,001,002,00Gesamt,001,002,00Gesamt,001,002,00Gesamt,001,002,00Gesamt,001,002,00Gesamt,001,002,00Gesamt
Sex,00
1,00
Gesamt
,00
1,00
Gesamt
,00
1,00
Gesamt
,00
1,00
Gesamt
HerkunftOldenburg
Ammerland
Ostfriesland
Gesamt
MittelwertStandardabweichung N
68
Tests der Zwischensubjekteffekte
Abhängige Variable: Intelli3
113296,700a 17 6664,512 97,142 ,000425750786,1 1 4,26E+08 6205729 ,000
29943,482 2 14971,741 218,228 ,00032808,390 1 32808,390 478,214 ,00050960,938 2 25480,469 371,402 ,000
74,653 2 37,326 ,544 ,580275,718 4 68,929 1,005 ,403
88,935 2 44,468 ,648 ,523611,381 4 152,845 2,228 ,063
3370891,423 49134 68,606429412253,3 49152
3484188,123 49151
QuelleKorrigiertes ModellKonstanter TermHerkunftSexHaarHerkunft * SexHerkunft * HaarSex * HaarHerkunft * Sex * HaarFehlerGesamtKorrigierteGesamtvariation
Quadratsumme vom Typ III df
Mittel derQuadrate F Signifikanz
R-Quadrat = ,033 (korrigiertes R-Quadrat = ,032)a.
Mehrfachvergleiche
Abhängige Variable: Intelli3
-,8475* ,09162 ,000 -1,0271 -,6680-1,8852* ,09152 ,000 -2,0646 -1,7058
,8475* ,09162 ,000 ,6680 1,0271-1,0377* ,09140 ,000 -1,2168 -,85851,8852* ,09152 ,000 1,7058 2,06461,0377* ,09140 ,000 ,8585 1,2168-,8475* ,08823 ,000 -1,0582 -,6368
-1,8852* ,09056 ,000 -2,1015 -1,6690,8475* ,08823 ,000 ,6368 1,0582
-1,0377* ,09857 ,000 -1,2731 -,80231,8852* ,09056 ,000 1,6690 2,10151,0377* ,09857 ,000 ,8023 1,2731
(J) HerkunftAmmerlandOstfrieslandOldenburgOstfrieslandOldenburgAmmerlandAmmerlandOstfrieslandOldenburgOstfrieslandOldenburgAmmerland
(I) HerkunftOldenburg
Ammerland
Ostfriesland
Oldenburg
Ammerland
Ostfriesland
LSD
Tamhane
MittlereDifferenz (I-J)
Standardfehler Signifikanz Untergrenze Obergrenze
95% Konfidenzintervall
Basiert auf beobachteten Mittelwerten.Die mittlere Differenz ist auf der Stufe ,05 signifikant.*.
69
Mehrfachvergleiche
Abhängige Variable: Intelli3
-1,4767* ,09178 ,000 -1,6565 -1,2968-2,4404* ,09125 ,000 -2,6193 -2,26161,4767* ,09178 ,000 1,2968 1,6565-,9638* ,09152 ,000 -1,1432 -,78442,4404* ,09125 ,000 2,2616 2,6193
,9638* ,09152 ,000 ,7844 1,1432-1,4767* ,09217 ,000 -1,6968 -1,2566-2,4404* ,09260 ,000 -2,6615 -2,21931,4767* ,09217 ,000 1,2566 1,6968-,9638* ,09227 ,000 -1,1841 -,74342,4404* ,09260 ,000 2,2193 2,6615
,9638* ,09227 ,000 ,7434 1,1841
(J) Haar1,002,00,002,00,001,001,002,00,002,00,001,00
(I) Haar,00
1,00
2,00
,00
1,00
2,00
LSD
Tamhane
MittlereDifferenz (I-J)
Standardfehler Signifikanz Untergrenze Obergrenze
95% Konfidenzintervall
Basiert auf beobachteten Mittelwerten.Die mittlere Differenz ist auf der Stufe ,05 signifikant.*.
Profildiagramm Herkunft * Sex * Haar
Oldenburg Ammerland Ostfriesland
Herkunft
90,00
91,00
92,00
93,00
94,00
Ges
chät
ztes
Ran
dmitt
el
Sex,001,00
bei Haar = ,00
Geschätztes Randmittel von Intelli3
70
Oldenburg Ammerland Ostfriesland
Herkunft
91,00
92,00
93,00
94,00
95,00
Ges
chät
ztes
Ran
dmitt
el
Sex,001,00
bei Haar = 1,00
Geschätztes Randmittel von Intelli3
71
Oldenburg Ammerland Ostfriesland
Herkunft
92,00
93,00
94,00
95,00
96,00
Ges
chät
ztes
Ran
dmitt
el
Sex,001,00
bei Haar = 2,00
Geschätztes Randmittel von Intelli3
Kapitel 4 Prüfung von Zusammenhangs-Hypothesen 4.1. Korrelation und Regression. Wie wir wissen, ermittelt die Korrelations- und Regressionsrechnung die Funktionsdaten jener Funktion, an die die Datenpaare oder –tripel etc. am besten angepaßt sind und auch der Grad der Anpassung wird ermittelt. Die Funktionsdaten sind die Regressionskoeffizienten, der Korrelationskoeffizient signalisiert den Grad der Anpassung. Diese Rechnungen setzen intervallskalierte Daten voraus, es müssen mindestens zwei Variablen zur Verfügung stehen, die Daten sollten normalverteilt sein. Wir schaffen uns wieder einen Datensatz: Der Fall sei folgender: Daten existieren vom jährlichen Benzinverbrauch im Pkw, der gefahrenen Strecke und von dem Durchschnitt des an 20 Stichtagen gemessenen Gegenwindes in km/h. Wir nehmen an, daß zwischen dem jährlichen Benzinverbrauch in Litern und der gefahrenen Strecke in km/Jahr eine lineare Beziehung besteht. Wir nehmen an, daß das Durchschnittsauto etwa 12,5 l pro 100 km verbraucht. Wir geben noch eine Konstante und einen Zufallsfaktor hinzu mit einem arithmetischen Mittel von 0 und einer Standardabweichung von 300. Compute Strecke = RV.Normal(20000,3000). COMPUTE Benzin = Strecke * 0.08 + 1000 + RV.Normal(0,300). EXECUTE .
72
(Hier könnte man schon eine einfache Korrelation und Regression rechnen und einen Scatterplot machen). (CORRELATIONS /VARIABLES=Benzin Strecke /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE . GRAPH /SCATTERPLOT(BIVAR)=Strecke WITH Benzin /MISSING=LISTWISE .) Außerdem hänge der Benzinverbrauch vom Gegenwind ab. Den kalkulieren wir mit einer Durchschnittsgeschwindigkeit von 20kmh und einer Standardabweichung von 4 kmh. COMPUTE Gegenwind = RV.NORMAL(20,4) . EXECUTE . Den Einfluß des Gegenwindes auf den schon vorhandenen Benzinverbrauch schätzen wir so ein, daß der Gegenwind den Benzinverbrauch so vermehrt, daß der schon vorhandene Verbrauch mit einem Faktor multipliziert werden muß, den wir bei „Gegenwind/20“ ansetzen. Weiterhin hängt der Benzinverbrauch davon ab, ob man benzinsparend fährt. Wer das nicht tut, rast. Daher macht es Sinn, einen weiteren Zufallsfaktor, den wir schlicht „Rasen“ nennen, zu schaffen und in das Modell einzubauen: Compute Rasen = RV.normal(20,5). Weiterhin vermuten wir, daß Männer mehr zum Rasen neigen als Frauen. Deshalb bilden wir wiederum die Variable SEX und verknüpfen mit ihr die Neigung zu erhöhtem Rasen bei den Männern, die den Code 0 bei SEX haben, während wir die leidenschaftslos Auto fahrenden Frauen mit einer wohlverdienten 1 kodieren: Compute Sex = trunc(Unifom(2)). IF (Sex = 0) Rasen = Rasen*50. EXECUTE . IF (Sex = 1) Rasen = Rasen. EXECUTE . Jetzt simulieren wir den Benzinverbrauch unter Berücksichtigung von Gegenwind, Rasen und Geschlecht (wobei der Einfluß des Geschlechts schon im Rasen drinsteckt). Syntax: COMPUTE Benzin1 = Benzin + Benzin *Gegenwind/20 + Rasen. Execute. Wir stellen jetzt noch einmal die Beziehung zwischen Benzinverbrauch (Benzin1) und gefahrener Strecke dar. Hierzu berechnen wir den Korrelationskoeffizienten und fordern ein Streudiagramm an. Die Syntax ist: CORRELATIONS /VARIABLES=Benzin1 Strecke /PRINT=TWOTAIL NOSIG
73
/MISSING=PAIRWISE . GRAPH /SCATTERPLOT(BIVAR)=Strecke WITH Benzin1 /MISSING=LISTWISE .
Korrelationen
1 ,551**,000
3000 3000,551** 1,000
3000 3000
Korrelation nach PearsonSignifikanz (2-seitig)NKorrelation nach PearsonSignifikanz (2-seitig)N
Benzin1
Strecke
Benzin1 Strecke
Die Korrelation ist auf dem Niveau von 0,01 (2-seitig)signifikant.
**.
Wir stellen fest: Die Korrelation ist signifikant auf dem 1 Promille-Niveau und ihre Stärke beträgt r = 0,551. Quadriert man diesen Korrelationskoeffizienten, dann ergibt sich ein Wert von R² = 0,304, der aussagt, daß 30,4 % der zu erklärenden Varianz des Bezinverbrauchs durch die Strecke geleistet werden. Der Rest ist auf Zufallsfaktoren zurückzuführen. Der Scatterplot hat folgendes Aussehen:
74
5000,00 10000,00 15000,00 20000,00 25000,00 30000,00 35000,00
Strecke
2000,00
4000,00
6000,00
8000,00
10000,00B
enzi
n1
Um jetzt auch noch die Regressionskoeffizienten zu bekommen, wende ich folgende Syntax an: Analysieren, lineare Regression. Die Variable „Benzin1“ ist die abhängige Variable, „Strecke“ die unabhängige Variable. Syntax: REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Benzin1 /METHOD=ENTER Strecke .
75
Von dem dann erscheinenden Output interessieren uns zunächst nur die Regressionskoeffizienten. Sie lauten (eingesetzt in die Regressionsgeradengleichung):
Koeffizientena
2562,582 88,918 28,819 ,000,157 ,004 ,551 36,177 ,000
(Konstante)Strecke
Modell1
BStandardf
ehler
Nicht standardisierteKoeffizienten
Beta
Standardisierte
Koeffizienten
T Signifikanz
Abhängige Variable: Benzin1a.
Benzin1 = 2562,582 + 0,157*Strecke; beide Koeffizienten sind hochsignifikant (wegen der hohen T-Werte). Dies bedeutet, daß unsere Daten nicht aus einer Stichprobe stammen können, mit a und b (Achsenabschnitt und Steigung) gleich Null. Das „Betagewicht“ ist hier (nur zwei Variablen) identisch mit dem Korrelationskoeffizienten r. R² = 0,304, das heißt 30,4 % der Varianz werden durch Benzin1 erklärt. Wenn wir uns nun der Bedeutung des Gegenwindes zuwenden, dann müßten wir untersuchen, ob der Gegenwind als „Störvariable“ statistisch eliminiert werden kann. Dies können wir feststellen, wenn wir eine sogenannte partielle Korrelation berechnen. Wir finden diese Möglichkeit unter Analysieren, Korrelation, Partiell: Dort geben wir als abhängige Variable ein: Benzin1. Als unabhängige: die Strecke und als Kontrollvariable den Gegenwind. Die Syntax lautet: PARTIAL CORR /VARIABLES= Benzin1 Strecke BY Gegenwind /SIGNIFICANCE=TWOTAIL /STATISTICS=CORR /MISSING=LISTWISE . Die Ergebnisausgabe zeigt folgendes: Partielle Korrelation
76
Korrelationen
1,000 ,551 ,472. ,000 ,000
0 2998 2998,551 1,000 ,008,000 . ,644
2998 0 2998,472 ,008 1,000,000 ,644 .
2998 2998 01,000 ,621
. ,0000 2997
,621 1,000,000 .
2997 0
KorrelationSignifikanz (zweiseitig)FreiheitsgradeKorrelationSignifikanz (zweiseitig)FreiheitsgradeKorrelationSignifikanz (zweiseitig)FreiheitsgradeKorrelationSignifikanz (zweiseitig)FreiheitsgradeKorrelationSignifikanz (zweiseitig)Freiheitsgrade
Benzin1
Strecke
Gegenwind
Benzin1
Strecke
Kontrollvariablen-keine-a
Gegenwind
Benzin1 Strecke Gegenwind
Die Zellen enthalten Korrelationen nullter Ordnung (Pearson).a.
Der Korrelationskoeffizient zwischen Strecke und Benzin1 bleibt bei 0,551, sofern wir den Gegenwind nicht „auspartialisieren“. Partialisieren wir ihn aber aus, dann steigt der Korrelationskoeffizient an auf r = 0,621. Das heißt: Es besteht dann eine Beziehung zwischen Strecke und Benzinverbrauch, bei der der Benzinverbrauch R²= 0.386 beträgt und damit werden 38,6% des Benzinverbrauchs durch die Streckenlänge erklärt, statt nur 30,4 %, wenn wir den Gegenwind nicht auspartialisieren. Wollen wir nun in einer einzigen Rechnung sowohl den Einfluß der Strecke als auch des Gegenwindes und des Geschlechts auf den Benzinverbrauch (Benzin1) berechnen, dann bietet sich hierzu wiederum unsere lineare Regression an, wobei wir allerdings drei unabhängige Variablen eingeben, die Strecke und den Gegenwind und das Geschlecht, das sich ja über das „Rasen“ auf den Benzinverbrauch auswirkt. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Benzin1 /METHOD=ENTER Strecke Gegenwind Sex. Von dem dann erscheinenden Output schauen wir uns die Angaben über die Modellzusammenfassung und die Regressionskoeffizienten an:
Modellzusammenfassung
,837a ,701 ,701 625,96228Modell1
R R-QuadratKorrigiertesR-Quadrat
Standardfehler desSchätzers
Einflußvariablen : (Konstante), Sex, Strecke,Gegenwind
a.
Die „Modellzusammenfassung“ zeigt einen multiplen Korrelationskoeffizienten R, dessen Quadrat bei 0,701 liegt, was bedeutet, daß jetzt schon 70 % der Varianz des Benzinverbrauchs aufgeklärt werden können. Die Regressionskoeffizienten sind jetzt folgende:
77
Koeffizientena
419,949 82,346 5,100 ,000,158 ,003 ,555 55,574 ,000
130,705 2,871 ,455 45,524 ,000-969,373 22,873 -,423 -42,381 ,000
(Konstante)StreckeGegenwindSex
Modell1
BStandardf
ehler
Nicht standardisierteKoeffizienten
Beta
Standardisierte
Koeffizienten
T Signifikanz
Abhängige Variable: Benzin1a.
Wir erhalten aus diesem Output neben den unstandardisierten Regressionskoeffizienten eine Formulierung der Regressionsgeraden mit standardisierten Werten (bei dem Kriterium (hier: Benzin1)) für die Prädiktoren (hier: Strecke und Gegenwind und SEX). Dadurch, daß die Werte standardisiert sind (z-Standardisierung), fällt in der Gleichung die Konstante (y-Achsenabschnitt) weg und es verbleiben (allgemeine Form der Regressionsgeraden für standardisierte Werte) die standardisierten Prädikatoren mit sogenannten Beta-Gewichten, die eine „optimale Gewichtung der standardisierten Prädikatoren“ darstellen, so daß eine maximale Korrelation der für z’Yi vorhandenen und vorhergesagten Werte entsteht. z’Yi = β1z1i + βz2i+β3z3i + .... + βpzpi für unseren Fall mit 3 Prädiktoren können wir schreiben: zBenzin1 = 0,555* ZStrecke + 0,455*ZGegenwind –0,423*ZSEX. Wir können nun ausprobieren, wie gut die z-Werte der Kriteriumsvariable durch die z-Werte der Prädiktorvariablen vorhergesagt werden. Der Save-Befehl in „Descriptives“ liefert uns die gewünschten Variablen zBenzin1, zStrecke, zGegenwind, ZSEX. DESCRIPTIVES VARIABLES= Benzin1 Strecke Gegenwind SEX /SAVE /STATISTICS=MEAN . Wir können nun ausprobieren, wie gut unsere obige Regressionsrechnung funktioniert, indem wir eine neue Variable (zbenzin2) berechnen, die wir mit den Werten der Variable ZBenzin1 vergleichen, indem wir schlicht die Korrelation beider Variablen bilden: Compute zBenzin2 = 0.555 * ZStrecke + 0.455 * ZGegenwind - 0.423 * ZSex . Execute. CORRELATIONS /VARIABLES=ZBenzin1 zBenzin2 /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE . Die Korrelation erbringt:
78
Korrelationen
1 ,837**,000
3000 3000,837** 1,000
3000 3000
Korrelation nach PearsonSignifikanz (2-seitig)NKorrelation nach PearsonSignifikanz (2-seitig)N
Z-Wert(Benzin1)
zBenzin2
Z-Wert(Benzin1) zBenzin2
Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.**.
Dieser Korrelationskoeffizient ist r = 0,837. Wir haben ihn oben schon im Output gesehen. Hier noch einmal dieser Output:
Modellzusammenfassung
,837a ,701 ,701 625,96228Modell1
R R-QuadratKorrigiertesR-Quadrat
Standardfehler desSchätzers
Einflußvariablen : (Konstante), Sex, Strecke,Gegenwind
a.
R ist höher als die bei der partiellen Korrelation erzielte Korrelation. Die Einbeziehung der weiteren Variablen Gegenwind und SEX hat sich daher in bezug auf die Prognosegenauigkeit ausgezahlt. Versuchen Sie nun, diesen Prozess für eine Stichprobe im Umfang von n = 100 nachzuvollziehen. Es muß hier nur nach der Stichprobenziehung folgende Syntax nochmals benutzt werden: REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Benzin1 /METHOD=ENTER Strecke Gegenwind Sex. CORRELATIONS /VARIABLES=ZBenzin1 zBenzin2 /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE . Bei meinen Rechnungen (BD) blieben die Ergebnisse stabil.
79
Komplette Syntax für die Thematik: Korrelation und Regression: COMPUTE Strecke = RV.NORMAL(20000,3000) . EXECUTE . COMPUTE Benzin = Strecke * 0.08 + 1000 + RV.Normal(0,300). EXECUTE . COMPUTE Gegenwind = RV.NORMAL(20,4) . EXECUTE . Compute Rasen = RV.normal(20,5). Execute. Compute Sex = trunc(Unifom(2)). Execute. IF (Sex = 0) Rasen = Rasen * 50 . EXECUTE . IF (Sex = 1) Rasen = Rasen. EXECUTE . COMPUTE Benzin1 = Benzin + Benzin *Gegenwind/20 + Rasen. Execute. CORRELATIONS /VARIABLES=Benzin1 Strecke /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE . GRAPH /SCATTERPLOT(BIVAR)=Strecke WITH Benzin1 /MISSING=LISTWISE . REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Benzin1 /METHOD=ENTER Strecke . PARTIAL CORR /VARIABLES= Benzin1 Strecke BY Gegenwind /SIGNIFICANCE=TWOTAIL /STATISTICS=CORR /MISSING=LISTWISE . REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Benzin1 /METHOD=ENTER Strecke Gegenwind Sex. DESCRIPTIVES VARIABLES= Benzin1 Strecke Gegenwind SEX /SAVE /STATISTICS=MEAN . Compute zBenzin2 = 0.427 * ZStrecke + 0.494 * ZGegenwind - 0.459 * ZSex . Execute. CORRELATIONS /VARIABLES=ZBenzin1 zBenzin2 /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE .
80
COMPUTE Alter = TRUNC(UNIFORM(5)) . EXECUTE . COMPUTE Alter = (Alter+2)*10 . EXECUTE . COMPUTE Benzin3 = Benzin + Benzin *Gegenwind/20 + Rasen+ Benzin*20/alter. Execute. CORRELATIONS /VARIABLES=Benzin1 Strecke /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE . REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Benzin3 /METHOD=ENTER Strecke Gegenwind Sex Alter. COMPUTE Verbrauch = Benzin3/Strecke . EXECUTE . 4.2. Multiple Regression Wir werden nun für die multiple Regressionsanalyse einen Datenfile herstellen und auswerten mit n = 800 Abhängige Variable – Klausurnote - , Mittel = 2,5, s = 0,75 Syntax: COMPUTE Klausn = RV.NORMAL(2.5,0.75)+0.5 . EXECUTE . Um mit positiven Korrelationen argumentieren zu können, muß die Klausurnote in Punktezahlen umgerechnet werden, wobei eine hohe Qualität einer hohen Punktezahl entspricht, während bei Noten eine hohe Qualität einer geringen Note (1 etc.) entspricht. Der Algorithmus der Umrechnung ist folgender: Die Note wird z-standardisiert durch den SAVE-Befehl in DESKRIPTIVES. Syntax: DESCRIPTIVES VARIABLES=klausn /SAVE /STATISTICS=MEAN . Es entsteht hierbei eine neue Variable: zklausn Die Vorzeichen werden umgedreht. Die Verteilung bekommt ein Mittel von 65 und eine Standardabweichung von 10 Syntax:
81
COMPUTE zklausnminus = Zklausn*(-1) . EXECUTE . COMPUTE Punkteroh = zklausnminus* 10 + 65 . EXECUTE . Die Variable Punkte soll erklärt werden durch folgende unabhängige Variablen: Dabei müssen, wenn man sich durch Simulation einen Datenfile mit den gewünschten Eigenschaften herstellen will, zuerst die Verteilungen der unabhängigen Variablen erzeugt werden und dann deren funktionale Beziehung zu der Variable Punkte. Diese wird hierbei natürlich verändert und erhält im Laufe dieser Prozedur jedesmal einen neuen Namen, z. B. Punkteroh, Punktesex, Punkteabw, Punktedid..., je nachdem, welchen Einfluß man jeweils in die Verteilung der Variablen „einwirken“ läßt.
82
Unabhängige Variablen
Kürzel Verteilungs-eigenschaften
Syntax
Verteilungseigen schaften der simulierten Variablen
Ideen für Zusammenhänge mit der abhängigen Variablen.
Syntax der Simulation der Zusammen hänge
Geschlecht der Studierenden
Sexstud gleichverteilt
Compute Sexstud = trunc(uniform(2)). execute.
48,4 % Männer (0) 51,6 % Frauen (1)
Geschlecht der Dozenten
Sexdoz ungleichverteilt
COMPUTE Sexdoz = RV.BINOM(1,0.1) . EXECUTE .
10,4 % Frauen, 89,6 % Männer
Wenn das Geschlecht der Studierenden und der Dozenten identisch sind, wird eine bessere Note gegeben als wenn sie verschieden sind. Bei verschiedenem Geschlecht ist ist Note um 5 % schlechter als bei gleichem Geschlecht
IF (sexstud ~= sexdoz) Punktesex = Punkteroh - 0.05*Punkteroh . EXECUTE . IF (sexstud = sexdoz) Punktesex = Punkteroh. EXECUTE .
Anwesenheit Anwesen
gleichverteilte Fehltage, maximale Anwesenheit 15 Tage
COMPUTE Anwesen = 15 – TRUNC (UNIFORM (4)) . EXECUTE .
je 25 % mit 12,13,14,15 Tagen Anwesenheit
Bei geringerer Anwesenheit als 15 Tage verringert sich die Punktezahl in der Klausur um 5 % je Abwesenheitstag.
COMPUTE Punkteabw = Punktesex - 0.05 * (15-Anwesen)*Punktesex . EXECUTE .
Evaluierte Zeit des Dozenten als Maß für die didaktische Qualifikation
Didqualf linksschiefe Verteilung über 0 bis 54Monate
COMPUTE didqualf = trunc(RV.CHISQ(2))*3 . EXECUTE .
links schief, max 54 Bei hoher didaktischer Qualifikation steigt die Punktezahl an, und zwar um ein Promille pro Monat didaktischer Qualifikation
COMPUTE Punktedid = Punkteabw + 0.001 * didqualf*Punkteabw . EXECUTE .
Zeitaufwand der Studierenden
Zeitauf Anwesenheit*xwobei x zwischen 0 und 1 liegt.
COMPUTE Zeitauf = anwesen * RV.NORMAL(0.5,0.2) . EXECUTE .
Mittel 6,9, s= 2,7 Bei steigendem Zeitaufwand steigt die Punktezahl an, und zwar um 3 % pro Lernstunde
COMPUTE Punktezeit = Punktedid + 0.03 * Zeitauf * Punktedid . EXECUTE .
Vorwissen (Mathenote)
Mathen Normalverteilt zwischen 1 und 4
COMPUTE Mathen = TRUNC(RV.NORMAL(2.5,0.5)+0.5) . EXECUTE .
Mittel 2,5, normalvert. Bei fehlendem Vorwissen sinkt die Punktezahl um den Faktor Mathenote * 4 Punkte absolut ab.
COMPUTE Punktemathe = Punktezeit - 4 * Mathen . EXECUTE .
Begabung Intellig normalverteilt, Mittel 110 s=5
COMPUTE Intellig = RV.NORMAL(110,5) . EXECUTE .
109,8; S=4,9 Bei variierender Begabung verändert sich die Punktezahl um soviel Prozent wie der IQ vom arithmetischen Mittel der Gruppe abweicht.
COMPUTE Punkteintelli = Punktemathe + ((Intellig - 109.8)/100)*Punktemathe . EXECUTE .
83
Unabhängige Variablen
Kürzel Verteilungs-eigenschaften
Syntax
Verteilungseigen schaften der simulierten Variablen
Ideen für Zusammenhänge mit der abhängigen Variablen.
Syntax der Simulation der Zusammen hänge
Gruppengröße Gruppgr Ungleichvert. links schief zwischen 5 und 200
COMPUTE Gruppgr = TRUNC(RV.CHISQ(3)*10)+5 . EXECUTE .
Mittel 35, Min: 5, Max 194, linksschief
Bei variierender Gruppengröße sinkt die Punktezahl, wenn die Gruppe größer als 20 ist, um den Quotienten aus der Gruppengröße/10.
IF (Gruppgr > 20) Punktegrupp = Punkteintelli - Gruppgr/10 . EXECUTE . IF (Gruppgr <= 20) Punktegrupp = Punkteintelli . EXECUTE .
Zufall Die zuletzt berechnete Punktezahl „Punktegrupp“ wird noch durch einen Zufallsfaktor vermindert
COMPUTE Punktezufall = Punktegrupp - RV.NORMAL(15,3) . EXECUTE .
Verschiebung der Variablen in einen plausiblen Bereich
Punkteplausibl
normalverteilt mit Mittel 65 und Standardabweichung 8
Die zuletzt berechnete Punktezahl wird noch in einen plausiblen Bereich verlegt, der sowohl das arithmethische Mittel 65 aufweist als auch nur eine Standardabweichung von 8 Punkten hat, ohne daß die Grenzen 0 und 100 unter- oder überschritten werden
COMPUTE Punkteplausib = ZPunktezufall*8 + 65 . EXECUTE .
Bei der multiplen Regressionsrechnung wählen wir die Schaltfläche
84
Wichtig ist hier, daß wir die Methode „Vorwärts“ angekreuzt haben: Das ist ein Verfahren zur schrittweisen Variablenauswahl, in dem die Variablen nacheinander in das Modell aufgenommen werden. Die erste Variable, die in Betracht gezogen wird, ist die mit der größten positiven bzw. negativen Korrelation mit der abhängigen Variablen. Diese Variable wird nur dann in die Gleichung aufgenommen, wenn sie das Aufnahmekriterium erfüllt. Wenn die erste Variable ausgewählt ist, wird die unabhängige Variable mit der größten partiellen Korrelation betrachtet. Das Verfahren endet, wenn keine verbliebene Variable das Aufnahmekriterium erfüllt. Bei „Statistiken“ kreuzen wir Schätzer, Anpassungsgüte des Modells, Änderung in R-Quadrat und Deskriptive Statistik an.
Bei den Optionen verfahren wir wie auf der nachfolgenden Schaltfläche zu sehen ist.
85
Die sich jetzt ergebende Syntax lautet: GRAPH /HISTOGRAM=Punkteplausib. (Hier habe ich die Verteilung der abhängigen Variable dargestellt) REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA CHANGE /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Punkteplausib /METHOD=FORWARD sexstud sexdoz anwesen didqualf Zeitauf Mathen Intellig Gruppgr . Der Output sieht wie folgt aus: Graphik der abhängigen Variable Punkteplausib:
86
40,00 50,00 60,00 70,00 80,00 90,00
Punkteplausib
0
10
20
30
40
50
60
70H
äufig
keit
Mean = 65,00Std. Dev. = 8,00N = 800
Hier sind alle Mittelwerte und Standardabweichungen sowie die N der untersuchten Variablen aufgelistet:
Deskriptive Statistiken
65,0000 8,00000 800,5163 ,50005 800,1038 ,30513 800
13,4725 1,11839 8004,9013 6,22092 8006,9169 2,71497 8002,4975 ,57698 800
109,8370 4,90679 80035,1000 26,84932 800
PunkteplausibsexstudsexdozanwesendidqualfZeitaufMathenIntelligGruppgr
MittelwertStandardabweichung N
87
Die obige Tabelle dient in erster Linie der Korrektur des Rechenganges, wenn N zu stark variiert oder sich andere Fehler in den Daten zeigen wie nicht plausible Mittelwerte etc. In der folgenden Tabelle sehen wir dieMatrix der Korrelationskoeffizienten und der Signifikanzen. Außer der jeweils ersten Zeile ist nur die Korrelation zwischen Anwesenheit und Zeitaufwand interessant, die wir ja in der
Korrelationen
1,000 -,088 ,006 ,347 ,020 ,385 -,166 ,194 -,270-,088 1,000 -,064 -,003 -,033 -,055 ,015 ,003 ,047,006 -,064 1,000 ,025 -,025 -,037 -,009 -,012 ,027,347 -,003 ,025 1,000 ,063 ,244 -,012 ,016 ,007,020 -,033 -,025 ,063 1,000 ,022 -,026 ,036 ,017,385 -,055 -,037 ,244 ,022 1,000 ,000 -,024 -,007
-,166 ,015 -,009 -,012 -,026 ,000 1,000 -,006 -,027,194 ,003 -,012 ,016 ,036 -,024 -,006 1,000 -,038
-,270 ,047 ,027 ,007 ,017 -,007 -,027 -,038 1,000. ,006 ,438 ,000 ,290 ,000 ,000 ,000 ,000
,006 . ,034 ,471 ,172 ,060 ,333 ,463 ,092,438 ,034 . ,241 ,241 ,151 ,398 ,372 ,222,000 ,471 ,241 . ,037 ,000 ,370 ,323 ,425,290 ,172 ,241 ,037 . ,271 ,228 ,155 ,320,000 ,060 ,151 ,000 ,271 . ,498 ,252 ,418,000 ,333 ,398 ,370 ,228 ,498 . ,430 ,221,000 ,463 ,372 ,323 ,155 ,252 ,430 . ,142,000 ,092 ,222 ,425 ,320 ,418 ,221 ,142 .800 800 800 800 800 800 800 800 800800 800 800 800 800 800 800 800 800800 800 800 800 800 800 800 800 800800 800 800 800 800 800 800 800 800800 800 800 800 800 800 800 800 800800 800 800 800 800 800 800 800 800800 800 800 800 800 800 800 800 800800 800 800 800 800 800 800 800 800800 800 800 800 800 800 800 800 800
PunkteplausibsexstudsexdozanwesendidqualfZeitaufMathenIntelligGruppgrPunkteplausibsexstudsexdozanwesendidqualfZeitaufMathenIntelligGruppgrPunkteplausibsexstudsexdozanwesendidqualfZeitaufMathenIntelligGruppgr
KorrelationnachPearson
Signifikanz(einseitig)
N
Punkteplausib sexstud sexdoz anwesen didqualf Zeitauf Mathen Intellig Gruppgr
Simulation bewußt erzeugt haben. Alle anderen unabhängigen Variablen sind unkorreliert oder nicht signifikant korreliert. Würden sie untereinander korrelieren, würde „Multikollinearität“ bestehen, eine unerwünschte Eigenschaft der Variablen.
Aufgenommene/Entfernte Variablena
Zeitauf . Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert fürAufnahme <= ,050)
Gruppgr . Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert fürAufnahme <= ,050)
anwesen . Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert fürAufnahme <= ,050)
Intellig . Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert fürAufnahme <= ,050)
Mathen . Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert fürAufnahme <= ,050)
Modell1
2
3
4
5
Aufgenommene Variablen
EntfernteVariablen Methode
Abhängige Variable: Punkteplausiba.
Das Modell hat 5 Variablen aufgenommen, drei Variablen wurden nicht berücksichtigt: Die didaktische Qualifikation und das Geschlecht der Studierenden und der Dozenten. Wir hatten die didaktische Qualifikation als stark links-schief angenommen, dadurch blieb ihr Einfluß gering. Das Geschlecht der Studierenden – und damit auch der Dozenten – spielte nur eine geringe Rolle, weil nur in ca. 53 % der Fälle das Geschlecht übereingestimmt haben dürfte, und nur in diesem Fall gab es einen negativen Effekt auf die Note. Außerdem
88
wurde dieser Effekt früh in unserer Simulation erzeugt und könnte daher von anderen überlagert worden sein (möglicher Suppressionseffekt). Hier folgt jetzt die Zusammenfassung von 5 verschiedenen Modellen: Modell 5 hat die höchste Erklärungsleistung:
Modellzusammenfassung
,385a ,469b ,538c ,570d ,594e
,148 ,220 ,289 ,325 ,353
,147 ,218 ,287 ,321 ,349
7,38798 7,07490 6,75600 6,59089 6,45376
,148 ,072 ,070 ,035 ,029
138,862 73,189 78,014 41,381 35,1441 1 1 1 1
798 797 796 795 794
,000 ,000 ,000 ,000 ,000
RR-QuadratKorrigiertes R-Quadrat
Standardfehler des Schätzers
Änderung inR-QuadratÄnderung in Fdf1df2Änderung inSignifikanzvon F
Änderungsstatistiken
1 2 3 4 5Modell
Einflußvariablen : (Konstante), Zeitaufa.
Einflußvariablen : (Konstante), Zeitauf, Gruppgrb.
Einflußvariablen : (Konstante), Zeitauf, Gruppgr, anwesenc.
Einflußvariablen : (Konstante), Zeitauf, Gruppgr, anwesen, Intelligd.
Einflußvariablen : (Konstante), Zeitauf, Gruppgr, anwesen, Intellig, Mathene.
Das höchste R wurde im 5. Modell erreicht, in dem 35 % der Varianz erklärt werden. Die Änderung in R² wird immer geringer, je mehr Variablen einbezogen werden. Die folgende Varianzanalyse zeigt, daß von Modell zu Modell der F-Wert immer mehr absinkt.
89
ANOVAf
7579,414 1 7579,414 138,862 ,000a
43556,586 798 54,58251136,000 79911242,846 2 5621,423 112,307 ,000b
39893,154 797 50,05451136,000 79914803,706 3 4934,569 108,111 ,000c
36332,294 796 45,64451136,000 79916601,299 4 4150,325 95,542 ,000d
34534,701 795 43,44051136,000 79918065,071 5 3613,014 86,745 ,000e
33070,929 794 41,65151136,000 799
RegressionResiduenGesamtRegressionResiduenGesamtRegressionResiduenGesamtRegressionResiduenGesamtRegressionResiduenGesamt
Modell1
2
3
4
5
Quadratsumme df
Mittel derQuadrate F Signifikanz
Einflußvariablen : (Konstante), Zeitaufa.
Einflußvariablen : (Konstante), Zeitauf, Gruppgrb.
Einflußvariablen : (Konstante), Zeitauf, Gruppgr, anwesenc.
Einflußvariablen : (Konstante), Zeitauf, Gruppgr, anwesen, Intelligd.
Einflußvariablen : (Konstante), Zeitauf, Gruppgr, anwesen, Intellig, Mathene.
Abhängige Variable: Punkteplausibf.
Die Koeffizienten der multiplen Regressionsanalyse für die gerechneten 5 Modelle zeigt die folgende Tabelle:
90
Koeffizientena
57,153 ,715 79,903 ,000
1,134 ,096 ,385 11,784 ,000
59,992 ,761 78,820 ,000
1,129 ,092 ,383 12,243 ,000-,080 ,009 -,268 -8,555 ,000
35,146 2,905 12,097 ,000
,933 ,091 ,317 10,282 ,000-,080 ,009 -,270 -9,036 ,000
1,946 ,220 ,272 8,833 ,000
1,769 5,912 ,299 ,765
,950 ,089 ,322 10,720 ,000-,078 ,009 -,263 -9,008 ,000
1,914 ,215 ,268 8,903 ,000
,306 ,048 ,188 6,433 ,000
8,081 5,886 1,373 ,170
,951 ,087 ,323 10,964 ,000-,080 ,009 -,267 -9,359 ,000
1,900 ,211 ,266 9,022 ,000
,304 ,047 ,187 6,528 ,000-2,347 ,396 -,169 -5,928 ,000
(Konstante)Zeitauf(Konstante)ZeitaufGruppgr(Konstante)ZeitaufGruppgranwesen(Konstante)ZeitaufGruppgranwesenIntellig(Konstante)ZeitaufGruppgranwesenIntelligMathen
Modell1
2
3
4
5
BStandard
fehler
Nicht standardisierteKoeffizienten
Beta
Standardisierte
Koeffiziente
n
TSignifikanz
Abhängige Variable: Punkteplausiba.
Die Betagewichte der einbezogenen Variablen ändern sich, wenn andere Variablen in das jeweilige Modell einbezogen werden. Die folgende Tabelle zeigt die Betagewichte der jeweils ausgeschlossenen Variablen und ihre Signifikanz.
91
Ausgeschlossene Variablenf
-,067a -2,054 ,040 -,073 ,997,020a ,600 ,549 ,021 ,999,270a 8,342 ,000 ,283 ,941,011a ,345 ,730 ,012 1,000
-,166a -5,171 ,000 -,180 1,000,204a 6,386 ,000 ,221 ,999
-,268a -8,555 ,000 -,290 1,000-,055b -1,746 ,081 -,062 ,995,027b ,857 ,392 ,030 ,998,272b 8,833 ,000 ,299 ,941,016b ,503 ,615 ,018 ,999
-,174b -5,657 ,000 -,197 ,999,194b 6,336 ,000 ,219 ,998
-,058c -1,925 ,055 -,068 ,995,018c ,592 ,554 ,021 ,997,000c -,001 ,999 ,000 ,996
-,171c -5,824 ,000 -,202 ,999,188c 6,433 ,000 ,222 ,997
-,058d -1,996 ,046 -,071 ,995,020d ,686 ,493 ,024 ,997
-,007d -,231 ,817 -,008 ,994-,169d -5,928 ,000 -,206 ,999-,055e -1,938 ,053 -,069 ,994,019e ,652 ,515 ,023 ,997
-,011e -,385 ,700 -,014 ,994
sexstudsexdozanwesendidqualfMathenIntelligGruppgrsexstudsexdozanwesendidqualfMathenIntelligsexstudsexdozdidqualfMathenIntelligsexstudsexdozdidqualfMathensexstudsexdozdidqualf
Modell1
2
3
4
5
Beta In T SignifikanzPartielle
Korrelation Toleranz
Kollinearitätsstatistik
Einflußvariablen im Modell: (Konstante), Zeitaufa.
Einflußvariablen im Modell: (Konstante), Zeitauf, Gruppgrb.
Einflußvariablen im Modell: (Konstante), Zeitauf, Gruppgr, anwesenc.
Einflußvariablen im Modell: (Konstante), Zeitauf, Gruppgr, anwesen, Intelligd.
Einflußvariablen im Modell: (Konstante), Zeitauf, Gruppgr, anwesen, Intellig,Mathen
e.
Abhängige Variable: Punkteplausibf.
Regressionsmodelle sollen, wie schon gesagt, möglichst keine Korrelationen innerhalb der Gruppe der unabhängigen Variablen aufweisen. Wäre dies der Fall, läge Multikollinearität vor. Zur Prüfung eines Modells auf Multikollinearität bietet SPSS statistische Kennziffern für eine Kollinearitätsdiagnose an. In der Dialogbox "Lineare Regression" klickt man die Schaltfläche "Statistik" zur Öffnung der Unterdialogbox "Lineare Regression: Statistik". Hier fordert man "Kollinearitätsdiagnose" an. An die Tabelle mit den Regressionskoeffizienten werden Kennziffern zur Diagnose von Multikollinearität angehängt: "Toleranz" und "VIF". Der Wert von "Toleranz" einer Erklärungsvariable gibt an, wie hoch der Varianzanteil dieser Variable ist, der durch die anderen unabhängigen Variablen in der Gleichung nicht erklärt wird. Der Wert von "VIF" (Variance Inflation Factor) ist der Kehrwert von "Tolerance". Eine Variable mit kleiner Toleranz (und damit hohem VIF) trägt wenig zur Vorhersage der abhängigen Variable bei. Mit abnehmender "Tolerance" (d. h. zunehmendem VIF) steigt auch die Varianz des Regressionskoeffizienten, wodurch er zu einer instabilen Schätzung wird.
92
Machen Sie mit den Daten Versuche bezüglich anderer „Methoden“ der Abarbeitung der unabhängigen Variablen wie : Einschluß, Schrittweise, Vorwärts, Rückwärts. Versuchen Sie, Deutungen der sich dann ergebenden unterschiedlichen Outputs zu erarbeiten und zu diskutieren.
Kapitel 5 Cluster-Analyse Die Clusteranalyse dient dazu, Fälle aus einer Gruppe von Fällen nach bestimmten Kriterien in Teilgruppen anzuordnen. Diese Teilgruppen nennt man Cluster. Man unterscheidet hierarchische Verfahren und sog. Partitionierungsverfahren. Während bei den hierarchischen Verfahren die Menge der Fälle zunächst die Menge der Cluster bestimmt, die dann nach einem bestimmten Agglomerationskriterium fortlaufend fusioniert werden, bis alle Fälle in einem einzigen Cluster vereinigt sind, arbeitet das Partitionierungsverfahren so, daß eine bestimmte Menge der Cluster vorgegeben wird, und das Verfahren verteilt dann die Fälle solang auf die verschiedenen Cluster, bis ein Optimierungskriterium (Minimierung der „Quadratsummen innerhalb der Cluster“ – k-means Verfahren - ) erfüllt ist. 5.1. Partitionierungsverfahren. Zur Demonstration schaffen wir uns einen Datensatz, in dem wir nur zwei Variablen erzeugen und diese so organisieren, daß die Wertepaare optisch hinreichend genau getrennte Datenhaufen bilden, die durch die Clusteranalyse erkannt werden können. Um uns einen solchen Datensatz zu schaffen, konstruieren wir uns zunächst einen Datensatz mit gleichverteilten Wertepaaren mit den Variablen x1 und x2; n wählen wir bei ca 300, oder größer. COMPUTE x1 = RV.UNIFORM(0,1000) . EXECUTE . COMPUTE x2 = RV.UNIFORM(0,1000) . EXECUTE . GRAPH /SCATTERPLOT(BIVAR)=x1 WITH x2 /MISSING=LISTWISE . Diesen Datensatz stellen wir uns als Scatterplot dar.
93
0,00 200,00 400,00 600,00 800,00 1000,00
x1
0,00
200,00
400,00
600,00
800,00
1000,00x2
Aus diesem Datensatz „machen“ wir 4 getrennte Datenhaufen mittels Recodierung der Variablen x1 und x2, indem wir bei x1 und x2 jeweils die mittleren Werte (zwischen 400 und 600) als fehlend kodieren. Die folgende Syntax ist über Transformieren und Umkodieren (selbe Variable) zu erzeugen: DO IF (x1 > 400 & x1 < 600). RECODE x1 (ELSE=SYSMIS). END IF . EXECUTE . DO IF (x2 > 400 & x2 < 600). RECODE x2 (ELSE=SYSMIS) . END IF . EXECUTE . GRAPH /SCATTERPLOT(BIVAR)=x1 WITH x2 /MISSING=LISTWISE . Ihre Ausführung ergibt folgendes Streudiagramm, in dem eine kreuzförmige leere Fläche in der Mitte vier noch gut besetzte Gebiete voneinander trennt.
94
0,00 200,00 400,00 600,00 800,00 1000,00
x1
0,00
200,00
400,00
600,00
800,00
1000,00x2
Auf diese Datenstruktur wenden wir jetzt die Clusteranalyse an: Wir wählen als Partitionierungsverfahren die Clusterzentrenanalyse:
95
Über die Schaltflächen Analysieren, Klassifizieren, Clusterzentrenanalyse erhalten wir folgende Syntax, sofern wir bei Optionen den paarweisen Fallausschluß anfordern, vier Cluster anfordern (hier wird vorausgesetzt, daß wir die Menge der zu bildenden Cluster angeben) und bei Speichern die Clusterzugehörigkeit speichern lassen. QUICK CLUSTER x1 x2 /MISSING=PAIRWISE /CRITERIA= CLUSTER(4) MXITER(10) CONVERGE(0) /METHOD=KMEANS(NOUPDATE) /SAVE CLUSTER /PRINT NONE. Der Output ist folgender: Quick Cluster
Iterationsprotokolla
174,997 246,518 226,224 226,96435,079 34,009 17,252 25,035
,000 ,000 ,000 ,000
Iteration123
1 2 3 4Änderung in Clusterzentren
Konvergenz wurde aufgrund geringer oder keinerÄnderungen der Clusterzentren erreicht. Diemaximale Änderung der absoluten Koordinaten fürjedes Zentrum ist ,000. Die aktuelle Iteration lautet 3.Der Mindestabstand zwischen den anfänglichenZentren beträgt 870,244.
a.
Wenn die „Änderung“ der Cluster-Zentren bei Null angelangt ist, hört der Rechner auf, durch Iteration die Clusterzentren zu verändern.
Clusterzentren der endgültigen Lösung
817,91 186,16 208,65 761,89831,70 750,98 220,89 183,81
x1x2
1 2 3 4Cluster
Die Clusterzentren sollten die Teilnehmer an diesem Kursus in die Cluster einzeichnen. Versuchen Sie es bitte. Dann sehen Sie auch den Sinn dieser Zentren.
Anzahl der Fälle in jedem Cluster
78,00053,00069,00081,000
281,0009,000
1234
Cluster
GültigFehlend
96
Der Datensatz enthält jetzt eine neue Variable (QCL_1) mit der Nummer des Clusters, dem die Wertepaare zugehören. Wir können die Graphik jetzt erneut darstellen mit der Clusternummer als Fall-Kennzeichen: GRAPH /SCATTERPLOT(BIVAR)=x1 WITH x2 BY QCL_1 (NAME) /MISSING=LISTWISE .
0,00 200,00 400,00 600,00 800,00 1000,00
x1
0,00
200,00
400,00
600,00
800,00
1000,00
x2
1
1
34
2
2
3
33
1
1
4
2
44
3
1
4 4
1
4
3 3
2
2
1
4
1
3
1
4
2
4
2
3
4
1
1
3 4
12 1
43
4
1
1
3
11
2
4
4
2
4
1
2
1
1
1
3 4
2
1
34
4
2
1
44
1
22
1
4
3
21
4
4
11
3
3
4
4
4
1
4
2
4
3
3
2
1
3
3
3
1
2
1
2
4
2
4
3
1
3
3
2
3
1
4
12
1
4
2
3
4
1
2
1
2
3
1
1
21
4
1
4
4
2
3
3
43
4
12
3
2
1
1
4
1
2
4
1
3
1
3
2
2
43
33
4
1
4
2
3
43
1
4
3
4
3
3
2
4
3
3
2
4
4
3
4
21
3
4
4
4
1
4
3
2 1
2
4
3
3
3
2
97
5.2. Hierarchische Cluster-Analyse Wenn wir nun die gleiche Prozedur mit einer hierarchischen Clusteranalyse durchführen, dann arbeiten wir mit folgender Schaltfläche:
In der „Statistik“ fordern wir eine Mindest und Höchstzahl von Clustern an. Bei den Diagrammen forderm wir ein Dendrogramm an (das wir aber nicht hier abdrucken, weil es zu groß ist). Unter „Speichern“ fordern wir die Speicherung der Clusternummer unter den verschiedenen Voraussetzungen bei 2 oder mehr Clustern an. Alle übrigen Voreinstellungen übernehmen wir. Ein Dendrogramm wird unten noch gezeigt – mit weniger Fällen. Die Syntax lautet dann: CLUSTER x1 x2 /METHOD WAVERAGE /MEASURE= SEUCLID /PRINT CLUSTER(2,8) /PLOT DENDROGRAM /SAVE CLUSTER(2,8) . Sie führt dazu, daß im Datensatz sieben neue Variablen gebildet werden: Sie heißen CLU2_1 CLU3_1 CLU4_1 CLU5_1 CLU6_1 CLU7_1 CLU8_1 Wir können diese Variablen optisch anschaulich auswerten, wenn wir die Zuordnung der Clusterbezeichnungen, die als Lösung angeboten werden, in 7 verschiedenen Scatterplots anfordern: GRAPH /SCATTERPLOT(BIVAR)=x1 WITH x2 BY CLU2_1 (NAME) /MISSING=LISTWISE . GRAPH
98
/SCATTERPLOT(BIVAR)=x1 WITH x2 BY CLU3_1 (NAME) /MISSING=LISTWISE . GRAPH /SCATTERPLOT(BIVAR)=x1 WITH x2 BY CLU4_1 (NAME) /MISSING=LISTWISE . GRAPH /SCATTERPLOT(BIVAR)=x1 WITH x2 BY CLU5_1 (NAME) /MISSING=LISTWISE . GRAPH /SCATTERPLOT(BIVAR)=x1 WITH x2 BY CLU6_1 (NAME) /MISSING=LISTWISE . GRAPH /SCATTERPLOT(BIVAR)=x1 WITH x2 BY CLU7_1 (NAME) /MISSING=LISTWISE . GRAPH /SCATTERPLOT(BIVAR)=x1 WITH x2 BY CLU8_1 (NAME) /MISSING=LISTWISE . Es werden hierauf 7 Scatterplots erzeugt, in denen den Meßwertpaaren die Clusternummern zugeordnet werden. Ich drucke drei davon ab: mit 2 Clustern, mit 4 Clustern und mit 8 Clustern: Lösung mit 2 Clustern:
0,00 200,00 400,00 600,00 800,00 1000,00
x1
0,00
200,00
400,00
600,00
800,00
1000,00
x2
1
2
11
2
2
2
2
1
1
1
2
2
2
1
1
2
2
1
1
2
1
1
2
2
2
2
2 2
1
2
2
11
2
2
1
2
1
2
2
1
2
2
1
2
1
2
2
1
1
1
11
1
1
2
1
1
1
1
1
2
2
1
2
2
2
1
2
1
2
2
2
1
1
1
2
1
2
1
2
2
1
1
1
2
2
1
2
1
2
2
2
1
2
11
1
2
1
11
1
1
2
1
2
1
11
2
1
1
1
1
1
2
1
1
2
1
1
2
1
2
1
1
11
1
1
1
1
2
2
1
2
1
2
1
2
1
1
11
2
1
2
2
2
1
2
1
2
11
1
2
1
2
1
2
2
1
2
2
1
1
1
1
22
2
1
1
1
1
2
1
2
2
2
2
1
2
2
2
1
1
2
1
2
2
2
1
2
2
11
1
1
99
Lösung mit 4 Clustern:
0,00 200,00 400,00 600,00 800,00 1000,00
x1
0,00
200,00
400,00
600,00
800,00
1000,00
x2
1
2
11
2
3
3
3
4
1
4
2
3
2
1
1
2
3
1
4
3
1
1
3
3
3
2
2 2
1
3
2
41
2
3
4
3
1
3
2
1
2
2
1
3
1
3
2
1
1
1
44
4
4
3
1
4
1
1
4
2
3
1
2
2
2
4
3
4
3
3
3
1
4
4
2
4
2
4
2
2
4
4
4
3
2
1
2
4
2
3
3
4
2
11
4
2
4
11
4
1
3
1
3
4
14
2
4
1
1
1
1
3
4
4
3
1
1
3
1
2
1
1
44
1
4
1
1
3
3
1
3
1
2
1
2
4
4
41
3
1
2
2
2
4
2
4
2
44
4
2
1
2
1
3
3
1
2
3
4
1
1
1
23
3
1
1
4
1
2
4
2
3
2
2
4
3
2
3
4
1
3
1
2
3
3
4
2
2
11
4
1
Lösung mit 8 Clustern:
0,00 200,00 400,00 600,00 800,00 1000,00
x1
0,00
200,00
400,00
600,00
800,00
1000,00
x2
1
2
33
2
4
4
4
5
3
5
6
7
2
1
1
2
7
3
5
7
3
1
4
4
4
2
2 6
3
4
2
83
2
4
8
7
3
7
6
1
2
2
3
4
3
4
2
1
3
3
55
5
5
7
3
5
3
3
5
6
4
1
6
2
2
8
4
8
4
7
7
3
5
5
2
8
6
8
6
2
8
5
5
7
2
1
2
5
2
4
7
5
6
13
8
2
11
5
3
7
1
4
5
3
8
2
5
3
1
1
1
4
8
5
4
1
1
7
3
2
1
3
85
3
8
3
3
4
4
3
7
3
6
1
6
8
5
53
4
3
6
6
6
5
2
5
2
55
5
6
3
2
3
4
7
3
6
4
5
3
1
1
27
7
3
3
8
1
2
8
2
7
6
6
5
7
6
4
5
3
4
1
2
7
7
5
2
2
33
5
3
Wie die Graphiken zeigen, gibt es hier keine „richtige“ Lösung, sondern nur eine plausible, die der Nutzer sich aussucht.
100
5.3. Two-Step-Cluster-Analyse (nur ab SPSS 12 möglich) Wir können auch eine weitere Variante der Clusteranalyse ausprobieren, bei der der Rechner über die Menge der Cluster entscheidet: Die sog Two-Step-Clusteranalyse.
Wir lassen von ihr entscheiden, wieviele Cluster sinnvoll aus den Daten gebildet werden können. Wir fordern bei den Diagrammen ein Kreisdiagramm an und bei der Ausgabe
101
die Deskriptive Statistik nach Cluster, die Cluster-Häufigkeiten und lassen eine Variable erstellen, die die Clusterzugehörigkeit zum Ausdruck bringt. Die Syntax ist dann folgende: TWOSTEP CLUSTER /CONTINUOUS VARIABLES = x2 x1 /DISTANCE LIKELIHOOD /NUMCLUSTERS AUTO 15 BIC /HANDLENOISE 0 /MEMALLOCATE 64 /CRITERIA INITHRESHOLD (0) MXBRANCH (8) MXLEVEL (3) /PLOT PIEFREQ /PRINT COUNT SUMMARY /SAVE VARIABLE=TSC_484 . AIM TSC_484 /CONTINUOUS x2 x1 /PLOT ERRORBAR CLUSTER (TYPE=PIE) . Es wird der folgende Output erzeugt: Die Menge der Elemente in den gebildeten Clustern:
Clusterverteilung
48 23,8% 16,0%44 21,8% 14,7%62 30,7% 20,7%48 23,8% 16,0%
202 100,0% 67,3%98 32,7%
300 100,0%
1234Kombiniert
Cluster
Ausgeschlossene FälleGesamtwert
N% der
Kombination
% derGesamts
umme
102
Die Koordinaten jener Punkte (Mittelwert-Kombination von x2 und x1), die als Schwerpunkte der Cluster gelten (Zentroide):
Zentroide
195,6961 113,99825 780,4008 112,54911190,2032 118,01954 188,3613 106,74477812,9094 117,64863 180,2411 115,19406799,8536 116,49085 770,6954 113,62934527,5035 327,76248 464,9280 316,67458
1234Kombiniert
ClusterMittelwert
Standardabweichung Mittelwert
Standardabweichung
x2 x1
Die Häufigkeitsverteilung der Elemente nach Cluster als Kreisdiagramm:
Nummer des TwoStep Clusters
1234
Clustergröße
103
Wie wir sehen, werden – wie wir das in unserem Datensatz auch intuitiv tun würden - automatisch 4 Cluster gebildet, die im Wesentlichen der oben referierten Lösung mit vorgegebenen 4 Clustern entspricht.
0,00 200,00 400,00 600,00 800,00 1000,00
x1
0,00
200,00
400,00
600,00
800,00
1000,00
x2
3
1
33
1
2
2
2
4
3
4
12
1
3
3
1
2
3
4
2
3
3
2
2
2
1
1 1
3
2
1
43
1
2
4
2
3
2
1
3
1
1
3
2
3
2
1
3
3
3
44
4
4
2
3
4
3
3
4
1
2
3
1
1
1
4
2
4
2
2
2
3
4
4
1
4
1
4
1
1
4
4
4
2
1
3
1
4
1
2
2
4
1
33
4
1
4
33
4
3
2
3
2
4
3
4
1
4
3
3
3
3
2
4
4
2
3
3
2
3
1
3
3
44
3
4
3
3
2
2
3
2
3
1
3
1
4
4
43
2
3
1
1
1
4
1
4
1
44
4
1
3
1
3
2
2
3
1
2
4
3
3
12
2
3
3
4
3
1
4
1
2
1
1
4
2
1
2
4
3
2
3
1
2
2
4
1
1
33
4
3
Wir stellen fest, daß die Reihenfolge, in der die Cluster durchnumeriert werden, willkürlich erscheint. Einen der wenigen Hinweise auf „Signifikanz“ der Clusterlösungen finden wir in der mitgelieferten Varianzanalyse. 5.4. Das Dendrogramm Wir hatten oben darauf hingewiesen, daß wir noch ein Dendrogramm nachliefern wollten. Das lohnt sich aber – wegen der Größe – praktisch nur bei wenigen Fällen. Wir führen hier einen Fall mit 64 Fällen vor, in dem 4 Cluster gebildet werden. Dieser Fall ist durch Wahl der ersten 64 Fälle aus den Daten des vorigen Kapitels entstanden. Dies erreichen wir im Menü über „Daten – Auswählen“. FILTER OFF. use 1 thru 64 . EXECUTE . CLUSTER x1 x2 /METHOD BAVERAGE /MEASURE= SEUCLID /PRINT CLUSTER(4) /PLOT DENDROGRAM
104
/SAVE CLUSTER(4) . GRAPH /SCATTERPLOT(BIVAR)=x1 WITH x2 BY CLU4_1 (Name) /MISSING=LISTWISE .
105
Der Output zeigt jetzt.
Cluster-Zugehörigkeit
12112333414232112314311333222132412343132122
Fall13456101112131415161819202122232425272829313233353637384145464749505253565758606264
4 Cluster
Das Dendrogramm – Baumdiagramm – sieht folgendermaßen aus: (Die Clusterbezeichnungen wurden von mir nachträglich eingefügt:
106
22 64 6 19 49 3 35 45 62 58 16 37 36 11 31 33 41 18 57 32 50 10 12 27 53 23 14 20 5 21 29 60 1 38 47 28 56 4 24 13 25 15 46 52 Die Lage der Clusterpunkte im Streudiagramm ist folgende:
Cluster 2
Cluster 3
Cluster 1
Cluster 4
107
0,00 200,00 400,00 600,00 800,00 1000,00
x1
0,00
200,00
400,00
600,00
800,00
1000,00x2
1
2
1
1
2
3
3
3
4
1
4
23
2
1
1
2
3
1
4
3
1
1
3
3
3
2
2 2
1
3
2
41
2
3
4
3
1
3
2
1
2
2
Das gleiche Streudiagramm mit Fallbezeichnungen:
0,00 200,00 400,00 600,00 800,00 1000,00
x1
0,00
200,00
400,00
600,00
800,00
1000,00
x2
1,00
3,00
4,005,00
6,00
10,00
11,00
12,00
13,00
14,00
15,00
16,0018,00
19,00
20,00
21,00
22,00
23,00
24,00
25,00
27,00
28,00
29,00
31,00
32,00
33,00
35,00
36,00 37,00
38,00
41,00
45,00
46,0047,00
49,00
50,00
52,00
53,00
56,00
57,00
58,00
60,00
62,00
64,00
Andere Darstellungsformen von Clusteranalyse–Ergebnissen sind ausgesprochen unübersichtlich, wie etwa das Eiszapfendiagramm. Wenn in diesem Diagramm statt der Kreuze die Clusternummern stünden, wäre es erheblich brauchbarer.
108
Horizontales Eiszapfendiagramm
X X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X X X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X X
Fall57 18 41 33 31 11 53 27 23 50 32 12 10 36 37 16 58 62 45 49 19 64 22 6 35 3 52 46 15 25 13 20 14 47 38 56 28 24 4 21 5 60 29 1
1 2 3 4Anzahl der Cluster
Nachdem man die Clusteranalyse durchgeführt hat, ist es – wie oben schon angedeutet - sinnvoll, für die Analyse der Cluster wie folgt zu verfahren: Man nehme die Clusterzugehörigkeit als Variable und vergleiche die Mittelwerte der Cluster auf interessierenden Variablen graphisch und mittels
Cluster Nr. 3
Cluster Nr. 2
Cluster Nr. 4
Cluster Nr. 1
109
Varianzanalyse. Außerdem lohnt es sich, festzustellen, welche Variablen innerhalb der Cluster hoch miteinander korrelieren. 5.5. Ein weiteres Beispiel für eine hierarchische Clusteranalyse aus Diehl und Staufenbiel S 522 Fünf Personen geben ihren Fernsehkonsum in den Bereichen Politik und Unterhaltung in Stunden pro Tag an. Daten: Zusammenfassung von Fällen(a) Person Politik Unterhaltung 1 1,00 1,00 1,002 2,00 1,00 2,003 3,00 8,00 2,004 4,00 6,00 3,005 5,00 8,00 ,00Insgesamt N 5 5 5
Die Syntax lautet: CLUSTER Politik Unterhaltung /METHOD SINGLE /MEASURE= EUCLID /PRINT SCHEDULE /PRINT DISTANCE /PLOT DENDROGRAM VICICLE. Der Output ist:
110
Cluster Verarbeitete Fällea
5 100,0 0 ,0 5 100,0N Prozent N Prozent N Prozent
Gültig Fehlend GesamtFälle
Single Linkagea.
Näherungsmatrix
,000 1,000 7,071 5,385 7,0711,000 ,000 7,000 5,099 7,2807,071 7,000 ,000 2,236 2,0005,385 5,099 2,236 ,000 3,6067,071 7,280 2,000 3,606 ,000
Fall12345
1 2 3 4 5 Euklidisches Distanzmaß
Dies ist eine Unähnlichkeitsmatrix Single Linkage
Zuordnungsübersicht
1 2 1,000 0 0 43 5 2,000 0 0 33 4 2,236 2 0 41 3 5,099 1 3 0
Schritt1234
Cluster 1 Cluster 2
ZusammengeführteCluster
Koeffizienten Cluster 1 Cluster 2
Erstes Vorkommendes Clusters Nächster
Schritt
Vertikales Eiszapfendiagramm
X X X X X X X X XX X X X X X X XX X X X X X XX X X X X X
Anzahl der Cluster1234
4 5 3 2 1
Fall
Dendrogramm * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *
111
Dendrogram using Single Linkage Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 1
2 3 5
4 Man kann erkennen, bei welcher Distanz die jeweils höheren Cluster gebildet wurden. 5.6. Ein weiteres Beispiel für eine hierarchische Clusteranalyse aus Diehl und Staufenbiel S. 524 Mit einem Datensatz von Mezzich und Worthington (Datei MEZZICH.SAV) wird eine Clusteranalyse durchgeführt. Der Datensatz enthält Beschreibungen von vier prototypischen Patienten auf 17 Merkmalen durch 11 Psychiater. die Prototypen sind: Zyklotomie: Depresssion Zyklotomie: Manie Einfache Schizophrenie Parnoide Schizophrenie. Mezzich & Worthington (1978) baten nun 11 Psychiater, sich jeweils einen typischen depressiven, einen manischen, einen schizophrenen und einen paranoiden Patienten vorzustellen und diese prototypischen Patienten hinsichtlich von 17 Symptomen auf einer 7-stufigen Skala von 0 = Symptom nicht vorhanden bis 6 = Symptom sehr stark ausgeprägt einzustufen. Die 17 Symptome sind (mit ihren Variablennamen in der Datei MEZZICH. SAV): A = Krankheitsbefürchtungen (BEFUER), B = Angst (ANGST), C = Emotionale Zurückgezogenheit (ZURUECK), D = Formale Denkstörungen (FORDENK), E = Schuldgefühle (SCHULD), F = Anspannung (ANSPAN), G = Manieriert-heit (MANIER), H = Größenideen (GROESSEN), I = Depressive Verstimmung (DEPRESS), J = Feindseligkeit (FEINDSEL), K = Misstrauen (MISSTRAU), L = Halluzinationen (HALLUZ), M = Psychomotorische Hemmung (HEMM), N = Autistisches Verhalten (AUTIST), 0 = Inhaltliche Denkstörungen (INDENK), P= Affektive Verflachung (VERFLACH), Q = Erregtheit (ERREGT). Mittels Clusteranalyse soll untersucht werden, ob sich die vier prototypischen Patienten an Hand der Merkmalseinstufungen der Psychiater als homogene Gruppen identifizieren lassen. Anzugeben sind in der Eingangs-Dialogbox die Variable(n) BEFUER bis ER- REGT und unter Fallbeschriftung die String-Variable Patiententyp. Die Cluster- Methode (»Linkage zwischen den Gruppen«) wird ebenso wie die Unähnlichkei- ten (»quadrierter Euklidischer Abstand«) in der Voreinstellung belassen. Im Dialogfeld Diagramme wird das Dendrogramm angewählt und das Eiszapfendiagramm unterdrückt (Eiszapfen: Keine). Schließlich wird in der Box Statistik sowie im Dialogfeld Speichern jeweils die Ausgabe bzw. Speicherung der 4-Cluster Lösung durch die Angabe von »4« unter Einzelne Lösung veranlasst. Folgende Syntax resultiert:
112
CLUSTER Angst Zurück Fordenk Schuld Anspan Manier Groessen Depress Feindseel Misstrau Halluz Hemm Autist Indenk Verflach Erregt /METHOD BAVERAGE /MEASURE= SEUCLID /ID=Patiententyp /PRINT SCHEDULE CLUSTER(4) /PLOT DENDROGRAM /SAVE CLUSTER(4) . Unähnlichkeitsmaß ist – im Gegensatz zu Diehl – der quadrierte euklidische Abstand (Druckfehler dort). Der folgende Output resultiert:
Verarbeitete Fällea,b
44 100,0 0 ,0 44 100,0N Prozent N Prozent N Prozent
Gültig Fehlend GesamtFälle
Quadriertes euklidisches Distanzmaß wurde verwendeta.
Linkage zwischen den Gruppenb.
Zuordnungsübersicht
113
Zusammengeführte
Cluster Erstes Vorkommen des
Clusters
Schritt Cluster 1 Cluster 2 Koeffizienten Cluster 1 Cluster 2 Nächster
Schritt 1 13 20 8,000 0 0 38 2 34 43 9,000 0 0 8 3 40 41 10,000 0 0 11 4 23 30 10,000 0 0 18 5 17 22 11,000 0 0 14 6 1 6 11,000 0 0 24 7 18 19 12,000 0 0 19 8 34 39 12,500 2 0 23 9 27 31 13,000 0 0 39 10 24 33 14,000 0 0 18 11 38 40 18,000 0 3 23 12 14 15 18,000 0 0 21 13 2 8 19,000 0 0 24 14 12 17 19,500 0 5 19 15 42 44 20,000 0 0 25 16 28 32 20,000 0 0 27 17 35 37 21,000 0 0 37 18 23 24 24,000 4 10 20 19 12 18 24,667 14 7 21 20 23 29 27,000 18 0 35 21 12 14 27,000 19 12 32 22 9 11 27,000 0 0 29 23 34 38 27,111 8 11 25 24 1 2 28,500 6 13 30 25 34 42 30,500 23 15 28 26 7 10 32,000 0 0 29 27 25 28 33,000 0 16 31 28 34 36 36,500 25 0 34 29 7 9 36,500 26 22 36 30 1 5 41,500 24 0 33 31 25 26 43,000 27 0 35 32 12 16 45,000 21 0 38 33 1 4 46,600 30 0 36 34 21 34 47,444 0 28 37 35 23 25 48,250 20 31 39 36 1 7 58,250 33 29 40 37 21 35 60,300 34 17 41 38 12 13 60,625 32 1 41 39 23 27 72,389 35 9 42 40 1 3 78,600 36 0 42 41 12 21 96,017 38 37 43 42 1 23 112,405 40 39 43 43 1 12 196,376 42 41 0
Cluster-Zugehörigkeit
114
Fall
4 Cluster
1: 1,00 1 2: 1,00 1 3: 1,00 1 4: 1,00 1 5: 1,00 1 6: 1,00 1 7: 1,00 1 8: 1,00 1 9: 1,00 1 10: 1,00 1 11: 1,00 1 12: 2,00 2 13: 2,00 2 14: 2,00 2 15: 2,00 2 16: 2,00 2 17: 2,00 2 18: 2,00 2 19: 2,00 2 20: 2,00 2 21: 2,00 3 22: 2,00 2 23: 3,00 4 24: 3,00 4 25: 3,00 4 26: 3,00 4 27: 3,00 4 28: 3,00 4 29: 3,00 4 30: 3,00 4 31: 3,00 4 32: 3,00 4 33: 3,00 4 34: 4,00 3 35: 4,00 3 36: 4,00 3 37: 4,00 3 38: 4,00 3 39: 4,00 3 40: 4,00 3 41: 4,00 3 42: 4,00 3 43: 4,00 3 44: 4,00 3
115
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 2,00 13 2,00 20 2,00 14 2,00 15 2,00 18 2,00 19 2,00 17 2,00 22 2,00 12
2,00 16 4,00 35 4,00 37 4,00 42 4,00 44 4,00 34 4,00 43 4,00 39 4,00 40 4,00 41 4,00 38 4,00 36 2,00 21 3,00 27 3,00 31 3,00 23 3,00 30 3,00 24 3,00 33 3,00 29 3,00 28 3,00 32 3,00 25 3,00 26
1,00 9 1,00 11 1,00 7 1,00 10 1,00 1 1,00 6 1,00 2 1,00 8
116
1,00 5 1,00 4 1,00 3 Patiententyp * Average Linkage (Between Groups) Kreuztabelle Anzahl
Average Linkage (Between Groups) 1 2 3 4 Gesamt
1,00 11 0 0 0 11 2,00 0 10 1 0 11 3,00 0 0 0 11 11
Patiententyp
4,00 0 0 11 0 11 Gesamt 11 10 12 11 44
5.7. Ein weiteres Beispiel für Clusteranalysen: Die Hundehalterstudie Die Interpretation dieser Ergebnisse ist nur möglich, wenn Sie die unten vorgestellte Hundehalterstudie zuerst zur Kenntnis nehmen. Versuchen Sie, danach die folgenden Ergebnisse zu deuten. Wir laden den File: HundehalterDatenbereinigt.sav Syntax: TWOSTEP CLUSTER /CATEGORICAL VARIABLES = geschhal grupneu alterrec /CONTINUOUS VARIABLES = praefhun praefman dominanz präfhobb präfreis /DISTANCE LIKELIHOOD /NUMCLUSTERS FIXED = 4 /HANDLENOISE 0 /MEMALLOCATE 64 /CRITERIA INITHRESHOLD (0) MXBRANCH (8) MXLEVEL (3) /PLOT BARFREQ PIEFREQ /PRINT COUNT SUMMARY /SAVE VARIABLE=TSC_1933 . AIM TSC_1933 /CATEGORICAL geschhal grupneu alterrec /CONTINUOUS praefhun praefman dominanz präfhobb präfreis /PLOT ERRORBAR CATEGORY CLUSTER (TYPE=PIE) . Output: TwoStep Cluster
117
Clusterverteilung
170 17,6% 17,1%223 23,1% 22,5%325 33,6% 32,8%249 25,7% 25,1%967 100,0% 97,5%
25 2,5%992 100,0%
1234Kombiniert
Cluster
Ausgeschlossene FälleGesamtwert
N% der
Kombination
% derGesamts
umme
Clusterprofile
Zentroide
-,07455 ,01300 ,53245 -,65282 ,00075
,840548 ,992091 ,563641 1,161684 1,004520
-,09798 -,05921 ,05309 ,09197 ,01065
,939149 1,088167 1,041997 ,892339 1,000267
-,15069 -,05138 ,29087 -,23962 -,00228
,928289 1,024383 ,961284 1,034644 1,012196
-,38172 -,10817 ,33674 -,19812 -,02989
,933213 1,119665 1,144538 ,939080 1,087177
-,15588 ,29067 -,25777 ,18446 ,00049
1,020029 ,970963 ,996285 ,924244 1,002903
MittelwertStandardabweichungMittelwertStandardabweichungMittelwertStandardabweichungMittelwertStandardabweichungMittelwertStandardabweichung
Präferenz fürHunde
Präferenz fürMenschen
Dominanz
Präferenz fürHobbies imClub
Präferenz fürReisen
1 2 3 4 KombiniertCluster
Häufigkeiten
Geschl. d. Befragten
92 15,6% 78 20,7%122 20,7% 101 26,8%236 40,0% 89 23,6%140 23,7% 109 28,9%590 100,0% 377 100,0%
1234Kombiniert
ClusterHäufigkeit Prozent Häufigkeit Prozent
weiblich männlich
118
grupneu
0 143 0 249 392,0% 36,5% ,0% 63,5% 100,0%170 5 0 0 175
97,1% 2,9% ,0% ,0% 100,0%
0 0 98 0 98,0% ,0% 100,0% ,0% 100,0%
0 0 83 0 83,0% ,0% 100,0% ,0% 100,0%
0 75 144 0 219,0% 34,2% 65,8% ,0% 100,0%
HäufigkeitProzentHäufigkeitProzent
HäufigkeitProzentHäufigkeitProzentHäufigkeitProzent
ohne Hund
Haupterhebung
Tierarztpraxis
Hundesportund -Politik
Naturwiss.Sammlungs-Besucher
1 2 3 4 KombiniertCluster
alterrec
0 54 7 0 61,0% 88,5% 11,5% ,0% 100,0%
64 0 74 109 24725,9% ,0% 30,0% 44,1% 100,0%
50 0 147 140 33714,8% ,0% 43,6% 41,5% 100,0%
34 97 70 0 20116,9% 48,3% 34,8% ,0% 100,0%
20 62 24 0 10618,9% 58,5% 22,6% ,0% 100,0%
2 10 3 0 1513,3% 66,7% 20,0% ,0% 100,0%
HäufigkeitProzentHäufigkeitProzentHäufigkeitProzentHäufigkeitProzentHäufigkeitProzentHäufigkeitProzent
8,00
23,00
38,00
53,00
68,00
83,00
1 2 3 4 KombiniertCluster
119
Nummer des TwoStep Clusters
1234
Clustergröße
120
Gesamt
4
3
2
1
Clu
ster
0 20 40 60 80
Prozent innerhalb Cluster
Geschl. d. Befragten
weiblichmännlich
Innerhalb Clusterprozentsatz Geschl. d. Befragten
121
Gesamt
4
3
2
1
Clu
ster
0 20 40 60 80 100
Prozent innerhalb Cluster
grupneuohne HundHaupterhebungTierarztpraxisHundesport und -PolitikNaturwiss. Sammlungs-Besucher
Innerhalb Clusterprozentsatz grupneu
122
Gesamt
4
3
2
1
Clu
ster
0 10 20 30 40 50 60
Prozent innerhalb Cluster
alterrec8,0023,0038,0053,0068,0083,00
Innerhalb Clusterprozentsatz alterrec
123
1 2 3 4
Cluster
-1,000
-0,500
0,000
0,500
Präf
eren
z fü
r Hun
de
Bezugslinie entspricht dem Gesamtmittelwert = ,001
Gleichzeitig 95% Konfidenzintervalle für Mittelwerte
124
1 2 3 4
Cluster
-0,300
-0,200
-0,100
0,000
0,100
0,200
0,300
Präf
eren
z fü
r Men
sche
n
Bezugslinie entspricht dem Gesamtmittelwert = ,011
Gleichzeitig 95% Konfidenzintervalle für Mittelwerte
125
1 2 3 4
Cluster
-0,400
-0,200
0,000
0,200
0,400
Dom
inan
z
Bezugslinie entspricht dem Gesamtmittelwert = -,002
Gleichzeitig 95% Konfidenzintervalle für Mittelwerte
126
1 2 3 4
Cluster
-0,600
-0,400
-0,200
0,000
0,200
0,400
0,600
Präf
eren
z fü
r Hob
bies
im C
lub
Bezugslinie entspricht dem Gesamtmittelwert = -,030
Gleichzeitig 95% Konfidenzintervalle für Mittelwerte
127
1 2 3 4
Cluster
-0,400
-0,200
0,000
0,200
0,400
0,600
Präf
eren
z fü
r Rei
sen
Bezugslinie entspricht dem Gesamtmittelwert = ,000
Gleichzeitig 95% Konfidenzintervalle für Mittelwerte
128
Kapitel 6 Chiquadrat - Verfahren Vergleich von Häufigkeitsverteilungen und Überprüfung ihrer Übereinstimmung mittels Chiquadrat-Techniken und anderer Verfahren. 6.1. Chiquadrat-Test
6.1.1 Allgemeines Ausgehend von der sogenannten „Pearsonschen Testfunktion",
( ) ( )∑∑==
−=
−=
r
i e
ebr
ii
ii
fff
npnpy
Chi11
2
2 ²
die für große n näherungsweise chiquadrat-verteilt ist, können verschiedene Anpassungstests formuliert werden, also Tests, die die Gestalt der Verteilungsfunktion einer Zufallsvariable betreffen und nicht den einen oder anderen Parameter der Zufallsvariable. In der o.a. Funktion bedeuten yi = Zufallsvariable, Anzahl von Versuchen (z.B. Würfeln), bei denen das Ereignis A eintritt (z.B. die Zahl 4). yi entspricht der beobachteten Häufigkeit eines Ereignisses fb. pi = ist die Eintrittswahrscheinlichkeit für das Ereignis Ai. n = Menge der Versuche in einem Experiment. r = Menge verschiedener möglicher Ereignisse Ai np = fe = erwartete Häufigkeit eines Ereignisses A Für konkrete Versuche berechnen wir zunächst für jedes Ereignis den Erwartungswert aus n * pi. Dies sind die „erwarteten Häufigkeiten". Diese subtrahieren wir von den beobachteten Häufigkeiten, die für konkrete Untersuchungen an die Stelle der yi in der o.a. Formel treten. Wir quadrieren die Differenz (yi - npi)2 und dividieren diese durch (n * pi), so daß wir schließlich aus den Chiquadratwerten der Einzelereignisse die Summe bilden können. Diese Summe ist der Wert der Testfunktion, den wir wiederum mit einem Kriteriumswert zu vergleichen haben, wenn wir über die Annahme oder Ablehnung einer Nullhypothese entscheiden.
6.1.2. Eindimensionales und zweidimensionales Chiquadrat-Design Wie können wir bei Chiquadratverfahren die Nullhypothese formulieren ? Hierzu gibt es zwei Möglichkeiten: Für eine monovariate (eindimensionale) Häufigkeitsverteilung:
VariabledieH ⇒0 y ist (gleichverteilt, normalverteilt etc.) in der Grundgesamtheit
VariabledieH ⇒1 y ist nicht (gleichverteilt, normalverteilt etc.) in der Grundgesamtheit
129
Für eine kombinierte (zweidimensionale) Häufigkeitsverteilung der Variablen v und w:
vwVariablendieH ⇒0 sind gleichverteilt in der Grundgesamtheit
vwVariablendieH ⇒1 sind nicht gleichverteilt in der Grundgesamtheit oder
vwVariablendieH ⇒0 sind „randverteilt“ in der Grundgesamtheit
vwVariablendieH ⇒1 sind nicht „randverteilt“ in der Grundgesamtheit Bei Gleichverteilung sind die Erwartungswerte für jede Häufigkeit der Verteilung gleich groß. Bei „Randverteilung“ unterscheiden sich die Erwartungswerte der verschiedenen kombinierten Häufigkeiten. Sie werden aus den Randsummen einer n*m-Tabelle ermittelt, und zwar so, daß pro Häufigkeit der folgende Ausdruck berechnet wird:
Erwartungswert pro Zelle = (Zeilensumme * Spaltensumme) /Tabellensumme Wie bestimmen wir jetzt die Freiheitsgrade jener Chiquadratfunktion, aus der wir unser Kriterium für die Entscheidung über die Nullhypothese gewinnen ? Hier sind die folgenden zwei Fälle zu unterscheiden: • Bei monovariaten Häufigkeitsverteilungen wird der Kriteriumswert für die Entscheidung über die
Nullhypothese aus einer Chiquadratverteilung mit k-1 Freiheitsgraden gewonnen, wobei k die Menge der Kategorien ist, in die die Variable eingeteilt ist.
• Bei bivariaten Häufigkeitsverteilungen, die auch in Tabellenform dargestellt werden können, wird der
Kriteriumswert für die Entscheidung über die Nullhypothese aus einer Chiquadratverteilung mit (r-1)*(c-1) Freiheitsgraden gewonnen, wobei r die Menge der Zeilen einer solchen Tabelle ist, c die Menge der Spalten.
6.1.2.1. Rechenbeispiele: 6.1.2.1.1 „Eindimensionales Chiquadrat“ Es wird 1026 mal gewürfelt. Die Nullhypothese ist: Die Augenzahl ist gleichverteilt. Erwartet werden daher für die verschiedenen Augenzahlen jeweils n/k = 1026/6 = 171-maliges Auftreten. Die untenstehende Tabelle enthält neben den tatsächlich aufgetretenen Häufigkeiten der verschiedenen Augen noch die erwarteten Häufigkeiten und deren Differenz zu den erwarteten Häufigkeiten (Residuen). Setzt man jetzt die Werte in die Testfunktionsformel ein, dann erhält man die unten abgedruckte Chiquadratsumme. Diese beträgt 10,76 und muß mit einem Kriteriumswert verglichen werden, der aus einer Chiquadratverteilung mit k-1 = 6-1= 5 Freiheitsgraden gewonnen wird. Führen wir eine einseitigen Chiquadrattest mit einer Irrtumswahrscheinlichkeit von 5 %, dann ist c, der Kriteriumswert, gleich 11,7.
AUGEN
192 171,0 21,0178 171,0 7,0142 171,0 -29,0158 171,0 -13,0189 171,0 18,0167 171,0 -4,0
1026
1,002,003,004,005,006,00Gesamt
BeobachtetesN
ErwarteteAnzahl Residuum
130
Statistik für Test
10,7605
,056
Chi-Quadrata
dfExakte Signifikanz
AUGEN
Bei 0 Zellen (,0%) werden weniger als5 Häufigkeiten erwartet. Die kleinsteerwartete Zellenhäufigkeit ist 171,0.
a.
Da das berechnete Chiquadrat kleiner ist als der Kriteriumswert für 5% Irrtumswahrscheinlichkeit bei fünf Freiheitsgraden, behalten wir die Nullhypothese bei. Die Angabe der „exakten Signifikanz“ in der o.a. Tabelle entspricht der Größe des Integrals in einer Chiquadratverteilung mit fünf Freiheitsgraden von 10,76 bis unendlich. 6.1.2.2.2.„Zweidimensionales Chiquadrat“ In einer Untersuchung über die Einstellung von Menschen zu Hunden werden zwei Vorgaben gemacht: (a) Mein Hund soll schön und auffallend sein. Item-Stufen: Keinesfalls, eher nicht, vielleicht doch, eher ja. (b) Wenn ein Hund seine Aufgaben nicht erfüllt, sollte man sich einen anderen Hund anschaffen. Item-Stufen: Keinesfalls, eher nicht, vielleicht doch, eher ja. Die wissenschaftliche Hypothese, die zu dieser kombinierten Auszählung (Bildung einer sogenannten Kreuztabelle) Anlaß gibt, lautet: Menschen, denen es vor allem auf das schöne Aussehen eines Hundes ankommt, sind eher bereit, den Hund abzuschaffen, wenn er seine Aufgaben nicht erfüllt, als Menschen, denen es nicht so sehr auf die Schönheit ankommt. Aus dieser wissenschaftlichen Hypothese wird die statistische Hypothese entwickelt:
vwVariablendieH ⇒0 sind „randverteilt“ in der Grundgesamtheit
vwVariablendieH ⇒1 sind nicht „randverteilt“ in der Grundgesamtheit Was heißt nun „randverteilt“? Randverteilung liegt vor, wenn alle Zellen-Häufigkeiten (in allen Zeilen und allen Spalten) im gleichen Verhältnis stehen wie die Randsummen der Tabelle. Ist dies der Fall, dann unterscheiden sich beobachtete und erwartete Häufigkeiten nicht. Es gibt dann keine Häufigkeiten, die auf Unter- oder Überrepräsentation bestimmter Wertekombinationen hindeuten. Sind die Zellenhäufigkeiten aber anders verteilt (in bestimmten Zeilen oder Spalten) als die entsprechenden Randsummen, dann liegen in diesen Zellen Über- oder Unterrepräsentationen von Wertekombinationen vor, die auf einen statistischen Zusammenhang zweier Variablen hindeuten. Für das oben aufgeführte Beispiel müßten also Menschen, die auf einen schönen Hund Wert legen, signifikant häufiger als andere Menschen bereit sein, sich einen anderen Hund anzuschaffen, wenn ihr derzeitiger Hund seine Aufgaben nicht erfüllt. Hier nun die empirischen Ergebnisse aus einer Untersuchung des Autors:
131
Mein Hund soll schön und auffallend sein / Wenn der Hund seine Aufgaben nicht erfüllt: Anderenanschaffen
86 20 6 10 12271,6 27,3 11,1 12,0 122,014,4 -7,3 -5,1 -2,0120 51 10 15 196
115,1 43,8 17,8 19,3 196,04,9 7,2 -7,8 -4,374 33 18 13 138
81,0 30,8 12,5 13,6 138,0
-7,0 2,2 5,5 -,6
30 14 14 14 7242,3 16,1 6,5 7,1 72,0
-12,3 -2,1 7,5 6,9310 118 48 52 528
310,0 118,0 48,0 52,0 528,0
AnzahlErwartete AnzahlResiduenAnzahlErwartete AnzahlResiduenAnzahlErwartete AnzahlResiduen
AnzahlErwartete AnzahlResiduenAnzahlErwartete Anzahl
keines-falls
ehernicht
viel- leichtdoch
eher ja
SchönerHund
Gesamt
keines- falls eher nicht
vielleichtdoch eher ja
Anderen anschaffen
Gesamt
Chi-Quadrat-Tests
35,491a
9
528
Chi-Quadrat nachPearsonAnzahl der gültigen Fälle
Wert df
0 Zellen (,0%) haben eine erwartete Häufigkeitkleiner 5. Die minimale erwartete Häufigkeit ist 6,55.
a.
Die obige Kreuztabelle enthält in ihren Zellen die beobachteten Häufigkeiten, die erwarteten Häufigkeiten und deren Differenz, die sog. Residuen. Würden alle beobachteten Häufigkeiten randverteilt sein, würden sie den erwarteten entsprechen und die Residuen wären gleich null. Weichen die beobachteten Häufigkeiten positiv von den erwarteten ab, dann liegt eine Überrepräsentation der entsprechenden Wertekombination vor, weichen die beobachteten Häufigkeiten negativ von den erwarteten ab, dann liegt eine Unterrepräsentation der entsprechenden Wertekombination vor. Wie eine Inspektion der Tabelle zeigt, sind vor allem die Zellen der sogenannten Hauptdiagonale (von oben links nach unten rechts) mit Häufigkeiten versehen, die auf Überrepräsentation hindeuten, Zellen die oben rechts und unten links von der Hauptdiagonale liegen, weisen eher Unterrepräsentationen auf. Dieses Phänomen kann zufällig auftreten oder auf einen statistischen Zusammenhang hindeuten. Ob ein solcher Zusammenhang angenommen werden kann, hängt davon ab, ob unsere Nullhypothese („Randverteilung“) beibehalten werden kann oder ob sie abgelehnt werden muß. Das Kriterium hierzu gewinnen wir aus einer Chiquadratverteilung mit (r-1)(c-1) Freiheitsgraden. Bei 4 Zeilen (r) und 4 Spalten (c) ist df (Menge der Freiheitsgrade) gleich 3*3= 9. Testen wir unsere Hypothese einseitig bei 1 % Irrtumswahrscheinlichkeit wäre unser Kriteriums-Chiquadrat-Wert gleich 21,67. Aus der Tabelle berechnen wir nach der Formel
eine Chiquadratsumme für die ganze Tabelle von 35,491. Da unser Kriteriums-Chiquadrat (21,67) kleiner als das berechnete ist, lehnen wir bei einseitigem Test mit 1 % Irrtumswahrscheinlichkeit die Nullhypothese ab. Dies heißt zunächst nur, daß unsere Stichprobe nicht zufällig einer Grundgesamtheit entnommen worden sein kann, in der die Zellenverteilungen sich nach den Randsummenverteilungen richten. Es müssen also Über- und Unterrepräsentationen in der Tabelle vorkommen. Welche sind das ? Dadurch, daß die positiven Residuen
( )∑=
−=
r
i e
eb
fffChi
1
2 ²
132
(Überrepräsentationen) überwiegend auf der Hauptdiagonale liegen, kommen wir zu dem Schluß, daß die wachsende Priorität für die Schönheit des Hundes mit einer wachsenden Bereitschaft einhergeht, ihn gegebenenfalls zu ersetzen. Generell kann nun gesagt werden: Es läßt sich für alle Chi2-Verteilungen (entweder mit k-1 Freiheitsgraden oder mit (r-1)*(c-1) Freiheitsgraden) jener kritische Wert c bestimmen, der ein Integral der entsprechenden Chi2-Verteilung rechts begrenzt, welches einer bestimmten Irrtumswahrscheinlichkeit α entspricht. Liegt unser berechnetes Chi2 oberhalb dieses kritischen Wertes, dann müssen wir die Null-Hypothese ablehnen. Sonderfall: Für den eindimensionalen Test von Übereinstimmung einer Verteilung mit einer von unbekannten Parametern (z.B. von µ und σ) abhängigen Funktion (z.B. der Normalverteilung) verringert sich die Menge der Freiheitsgrade, die sonst df = r-1 ist, um die Menge der Parameter m, so daß für diesen Fall df = r - 1 - m beträgt. Testen wir also die Übereinstimmung mit einer Normalverteilung, dann müssen wir für die Berechnung der pi und der fi Meßwertklassen bilden; die Freiheitsgrade für den Test wären dann hiernach gleich „Menge der Meßwertklassen minus 3". (vgl. Bosch, a.a.O., S. 103 ff., hierzu siehe S. 108).
6.1.3. Standardisierte, korrigierte Chiquadratresiduen Will man bei einem zweidimensionalen Chiquadrat-Test den Beitrag einzelner Zellen zum Tabellen-Chiquadrat ermitteln, dann bieten sich hierzu mehrere Möglichkeiten an: Beispiel: Die Differenz von beobachteter Häufigkeit und erwarteter Häufigkeit ergibt die Residuen. Sind diese groß, dann ist der Beitrag der Zelle zum Tabellen-Chiquadrat groß. Diese Chiquadrat-Residuen kann man „standardisieren“, indem man sie durch die Wurzel aus den erwarteten Häufigkeiten teilt. Auch hier ist der Beitrag zum Tabellen-Chiquadrat erkennbar. Die standardisierten Residuen kann man durch eine weitere Operation in die sogenannten „korrigierten“ standardisierten Residuen verwandeln:
Es bedeuten: Z = Zeilensumme für die jeweilige Zelle S = Spaltensumme für die jeweilige Zelle n = Stichprobengröße (Tabellensumme). Diese korrigierten, standardisierten Residuen sind z-verteilt, d.h. man kann aus ihnen ablesen, ob der Beitrag einer Zelle zum Tabellen-Chiquadrat „signifikant“ ist. Das Auftreten von z-Werten oberhalb bestimmter Schwellenwerte ist umso weniger wahrscheinlich, je größer diese Schwellenwerte sind. Sinkt diese Wahrscheinlichkeit unter bestimmte kritische Werte ab, z. B. auf 1 % oder 0,1%, dann kann man dem entsprechenden z bzw. dem standardisierten, korrigierten Chiquadrat-Residuum schon die Eigenschaft zusprechen, eine „signifikante“ Über- oder „Unterrepräsentation“ der jeweiligen Kombination von Werten für eine bestimmte Zelle in einer Kreuztabelle zu signalisieren. So kann man sowohl über die Signifikanz der Beziehung zwischen den Variablen in der Tabelle als auch über die Bedeutung der einzelnen Zellen hierbei eine Aussage machen.
133
Versuchen Sie, dies anhand der folgenden Daten nachzuvollziehen: Die Daten entstammen einer Befragung von Hundehaltern, die entscheiden sollten, ob ihr Hund eher Wach- und Schutzhund sein sollte oder nicht. Auffällig sind beispielsweise die standardisierten, korrigierten Chiquadratresiduen bei der Ausprägung „Auf jeden Fall“. Sie liegen bei – 4,3 (für die Frauen) und + 4,3 (für die Männer). Die Wahrscheinlichkeit, daß oberhalb von z-Werten von 4,3 noch weitere z-Werte auftreten, ist mit p = 0,0000008540 annähernd Null. Analog wäre das Auftreten von standardisierten, korrigierten Chiquadratresiduen oberhalb von 4,2 ähnlich wenig wahrscheinlich. Wir deuten daher solche Werte als Zeichen für signifikante Über- oder Unterrepräsentation der entsprechenden Kombination von Ausprägungen in der Tabelle:
Verarbeitete Fälle
961 96,9% 31 3,1% 992 100,0%Geschl. d. Befragten *Mein H. soll Wach-und Schutzhund sein
N Prozent N Prozent N ProzentGültig Fehlend Gesamt
Fälle
Geschlecht der Befragten * Mein H. soll Wach- und Schutzhund sein, Kreuztabelle
72 212 143 114 40 58170,1 188,6 149,9 112,5 59,9 581,0
,2 1,7 -,6 ,1 -2,6,4 3,3 -1,0 ,3 -4,3
44 100 105 72 59 38045,9 123,4 98,1 73,5 39,1 380,0
-,3 -2,1 ,7 -,2 3,2-,4 -3,3 1,0 -,3 4,3
116 312 248 186 99 961116,0 312,0 248,0 186,0 99,0 961,0
AnzahlErwartete AnzahlStandardisierte ResiduKorrigierte ResiduenAnzahlErwartete AnzahlStandardisierte ResiduKorrigierte ResiduenAnzahlErwartete Anzahl
weiblich
männlich
Geschl. d.Befragten
Gesamt
Auf keinenFall Eher nicht Teils-teils eher ja Auf jeden Fall
Mein H. soll Wach- und Schutzhund sein
Gesamt
Chi-Quadrat-Tests
24,968a
4 ,000
1 ,000961
Chi-Quadrat nachPearson
Anzahl der gültigen Fälle
Wert df
Asymptotische Signifikanz
(2-seitig)
0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Dieminimale erwartete Häufigkeit ist 39,15.
a.
134
Symmetrische Maße
,161 ,000961
Cramer-VNominal-MaßAnzahl der gültigen Fälle
Wert
Näherungsweise
Signifikanz
Die Null-Hyphothese wird nicht angenommen.a.
Unter Annahme der Null-Hyphothese wird der asymptotischeStandardfehler verwendet.
b.
6.1.4 Zwei nominal skalierte Merkmale: Zusammenhangsmessung 6.1.4.1. Cramérs V Für den Fall nominal skalierter Merkmale ist die Möglichkeit nicht mehr gegeben, zwischen einer gleichsinnigen oder ungleichsinnigen Veränderung der Variablen y bei Veränderung der Variablen x zu unterscheiden, sondern nur noch die Möglichkeit, zu messen, wie stark die beobachteten Werte von erwarteten Werten abweichen. Genau dies haben wir beim zweidimensionalen Chiquadrat-Test getan. Ist diese Abweichung groß, dann wird das Bestehen eines Zusammenhangs vermutet. Was dies bedeutet, kann an folgendem Beispiel demonstriert werden: Wir benutzen wiederum das oben zum Chiquadrat-Test angeführte Beispiel:
Mein Hund soll schön und auffallend sein / Wenn der Hund seine Aufgaben nicht erfüllt: Anderenanschaffen
86 20 6 10 12271,6 27,3 11,1 12,0 122,014,4 -7,3 -5,1 -2,0120 51 10 15 196
115,1 43,8 17,8 19,3 196,04,9 7,2 -7,8 -4,374 33 18 13 138
81,0 30,8 12,5 13,6 138,0
-7,0 2,2 5,5 -,6
30 14 14 14 7242,3 16,1 6,5 7,1 72,0
-12,3 -2,1 7,5 6,9310 118 48 52 528
310,0 118,0 48,0 52,0 528,0
AnzahlErwartete AnzahlResiduenAnzahlErwartete AnzahlResiduenAnzahlErwartete AnzahlResiduen
AnzahlErwartete AnzahlResiduenAnzahlErwartete Anzahl
keines-falls
ehernicht
viel- leichtdoch
eher ja
SchönerHund
Gesamt
keines- falls eher nicht
vielleichtdoch eher ja
Anderen anschaffen
Gesamt
135
Chi-Quadrat-Tests
35,491a
9
528
Chi-Quadrat nachPearsonAnzahl der gültigen Fälle
Wert df
0 Zellen (,0%) haben eine erwartete Häufigkeitkleiner 5. Die minimale erwartete Häufigkeit ist 6,55.
a.
Hier gilt es nur noch, ein Maß der Stärke des Zusammenhangs nachzureichen. Die Stärke des Zusammenhangs wird durch folgenden Koeffizienten gemessen, der nur zwischen 0 und 1 definiert ist, nicht zwischen –1 und +1:
( ) ( )( )1;1
2
−−=
crMinnV
χ
Dieser Koeffizient, Cramérs V, hat im Zähler das oben berechnete χ2, im Nenner das Produkt aus n (der Tabellensumme) und dem kleineren von zwei Werten (das bedeutet „Min"): der Menge der Zeilen minus 1 (=r-1); unsere obige Tabelle hat 4 Zeilen; oder der Menge der Spalten minus 1 (=c-1); unsere obige Tabelle hat 4 Spalten. Da unsere Tabelle gleich viele Zeilen und Spalten hat, ist r-1 = c-1 = 3. Für unser konkretes Beispiel errechnen wir
( ) 149,014*528
419,35=
−=V
Die Definition des Nenners stellt sicher, daß V den Wert 1 auch dann erreichen kann, wenn keine quadratische Matrix vorliegt. Im vorliegenden Fall haben wir es mit einem schwachen Zusammenhang zu tun, der aber – weil die Nullhypothese im Chiquadrat-Test abgelehnt wurde, als statistisch auf dem 1%-Niveau der Irrtumswahrscheinlichkeit gesichert gilt.
6.1.4.2 Phi und korrigiertes Chiquadrat Die Messung von Zusammenhängen zwischen nominal skalierten Merkmalen durch Cramers V bezog sich auf den Fall von Tabellen beliebig großen Formats. Sinkt das Tabellenformat auf 2 x 2 ab, dann sinkt der Freiheitsgrad von χ2 auf 1. In diesem Fall wirkt sich die Tatsache, daß bei der oben gezeigten Berechnungsmethode für Erwartungswerte auch Brüche vorkommen können, in der Realität aber nur ganze Zahlen als absolute Häufigkeiten denkbar sind, verfälschend auf den Wert von χ2 aus. Weiterhin gibt es für Vierfeldertabellen ein vereinfachtes Verfahren der Berechnung des statistischen Zusammenhangs, d.h. es brauchen nicht mehr einzelne Erwartungswerte etc. ermittelt zu werden, sondern nur noch der folgende Ausdruck (Phi):
( )( )( )( )dbcadcbabcad
++++−
=Φ
Das zur Kontinuitätskorrektur nach Yates modifizierte Chiquadrat errechnet man für Vierfeldertafeln nach
[ ]( )( )( )( )dbcadcba
nbcad n
y ++++−−
=2
22χ
136
Die Buchstaben a, b, c und d in diesen Formeln bedeuten absolute Häufigkeiten in den Zellen einer quadratischen Tabelle mit 4 Feldern: a b c d "a" ist also immer die Häufigkeit „links oben", „d" die Häufigkeit „rechts unten" etc. Rechenbeispiel: In einer Untersuchung über die geschlechtsspezifischen Einstellungen zur Nutzung der Atomkraft verteilten sich die Aussagen für bzw. gegen ein sofortiges Abschalten aller Atomkraftwerke wie folgt: für sofortiges Abschalten Frauen Männer Summe der AKW 7 4 11 gegen sofortiges 5 9 14 Abschalten der AKW Summe 12 13 25 Setzt man die Werte in die Formel für Φ ein, ergibt sich:
( )( )( )( )28,0
945795475*49*7
=++++
−=Φ
Prüft man die Nullhypothese, daß die Häufigkeiten „randverteilt“ sind bei 1 % Irrtumswahrscheinlichkeit einseitig, dann müßte man dies an einer Chiquadratverteilung mit einem Freiheitsgrad tun. Der Kriteriumswert betrüge dann 6,63. Da das berechnete Chiquadrat nur 0,968 beträgt, behalten wir die Nullhypothese bei, d.h. wir rechnen nicht mit einem Zusammenhang von Geschlecht und Einstellung zur Nutzung der Atomkraft. Der Statistiker Cole schlägt noch eine Korrektur von Phi vor, weil Phi den Maximalwert 1 nur annehmen kann, wenn die Felder einer Diagonale leer sind. Um eine Unterschätzung des Zusammenhangs zu vermeiden, schlägt er vor, Phi nach verschiedenen Formeln zu berechnen, je nachdem, ob der Zähler ein positives oder negatives Vorzeichen hat. Einzelheiten referieren Clauß und Ebner (Grundlagen der Statistik für Psychologen, Pädagogen und Soziologen, 2. Auflage 1975, S. 285).
6.1.5. Einschränkungen der Chiquadrat-Tests für Cramers V und Phi Es sei hier noch nachgetragen, daß bei Tabellen mit im Durchschnitt weniger als 5 Elementen pro Zelle der Chiquadrattest problematisch wird, weil die Chiquadratverteilung große n voraussetzt. In der Praxis wird man daher durch Modifikation von Tabellen (mittels Zusammenfassung von Kategorien oder Weglassen schlecht besetzter Kategorien) dafür Sorge tragen, daß nicht mehr als 20 % der Zellen Erwartungswerte von weniger als 5 haben. Allerdings ist in der Berichterstattung auf eine solche Prozedur hinzuweisen.
6.1.6. Fisher's exakter Test Für kleine n wird statt der Chiquadrat-Methoden „Fishers exakter Test" empfohlen, der allerdings nur den Vierfelder-Fall betrifft.
[ ]( )( )( )( ) 968,0
1312141125*5*49*7 2
225
2 =−−
=yχ
137
Eine Methode zur Analyse von Vierfeldertafeln in bezug auf die Frage, ob bestehende Zusammenhänge auch in der Grundgesamtheit vorhanden sind, bietet Fisher's „exakter" Test. Er gestattet es, die Wahrscheinlichkeiten für das Auftreten bestimmter Zellenbesetzungen zu berechnen, wenn die Randverteilungen gegeben sind. Für folgenden Fall
10
10
10 10 sind folgende Zellenbesetzungen denkbar: 0 10 1 9 2 8 3 7 4 6 10 0 9 1 8 2 7 3 6 4 5 5 6 4 7 3 8 2 9 1 5 5 4 6 83 7 2 8 1 9 10 0 0 10 Der Test berechnet für eine konkrete Verteilung, z.B. für die Verteilung 3 7 7 3 die Wahrscheinlichkeit ihres Eintretens nach Maßgabe der hypergeometrischen Verteilung mit der Formel
Formel: ( ) ( ) ( ) ( ) ( )x
p a a b c d a c b da b c d n
=+ + + +! ! ! !
! ! ! ! !
Hierbei sind a, b, c und d die Häufigkeiten einer Vierfeldertabelle a b c d p (a) x ist die Wahrscheinlichkeit, daß - bei gegebenen Randsummen - a den Wert x annimmt.
138
Für unser o.a. Beispiel können wir ermitteln: Punktwahrscheinlichkeiten aufsummierte Werte: p(a)0= 0,000005413 0,000005413 p(a)1= 0,000541254 0,001087921 p(a)2= 0,010960402 0,011507069 p(a)3= 0,077940635 0,089447703 p(a)4= 0,238693193 0,328140896 p(a)5= 0,343718198 0,6718591 p(a)6= 0,238693193 0,410552287 p(a)7= 0,077940635 0,988492922 p(a)8= 0,010960402 0,99453324 p(a)9= 0,000541254 0,999994578 p(a)10= 0,000005413 1,0000 Der Fisher Test summiert nun die Wahrscheinlichkeiten auf, die für ein konkretes a = x und alle möglichen kleineren a < x gelten. Diese Summe
( )i
x
p a i=
=0Σ
wird nun wie folgt interpretiert: Ist ihr Wert größer als ein Kriteriumswert (die zugelassene Wahrscheinlichkeit für die irrtümliche Ablehnung der Nullhypothese, daß in der Grundgesamtheit kein Zusammenhang besteht), wird die Nullhypothese angenommen. Der Fisher-Test wird als „einseitiger" Test interpretiert: er ist nur anwendbar auf die schwächstbesetzte Zelle einer Tabelle! Diese muß beim Test immer in der Position von a sein: a Modifikationen referiert Sidney Sigel, a.a.O., S. 101 ff. Die o.a. Berechnungen zeigen, daß der Fall 2 8 noch zur Ablehnung der Nullhypothese führt, 8 2 daß aber der Fall 3 7 schon zur Annahme der Nullhypothese führt. 7 3 Das gleiche Ergebnis ist aber auch näherungsweise mit Hilfe der Chiquadrattechnik zu erzielen, wenn man die Yates-Korrektur benutzt.
139
6.2. Beispiele in SPSS:
6.2.1.Eindimensionale Tests
6.2.1.1 Chiquadrat-Test auf Gleichverteilung Gegeben sei folgende Häufigkeitsverteilung:
Zigaretten
27 8,386 26,5
122 37,558 17,832 9,8
325 100,0
WestRothändleCamelErnte 23HBGesamt
GültigHäufigkeit
GültigeProzente
Wir können aus ihr folgenden Datensatz rekonstruieren: Zigarettenmarke Häufigkeit 1,00 27,00 2,00 86,00 3,00 122,00 4,00 58,00 5,00 32,00 Wir wollen prüfen, ob die Häufigkeit der gerauchten Zigaretten in bezug auf die Marken gleichverteilt ist. Aufgrund der Struktur unseres Datensatzes müssen wir die Variable Zigaretten gewichten. Dies geschieht wie folgt: Daten- Fälle gewichten, Häufigkeit als Gewichtungsvariable einsetzen.
Hieraus resultiert folgende Syntax: WEIGHT BY Häufigkeit .
140
Wir wählen dann in der Schaltfläche der nichtparametrischen Tests den Chiquadrat Test. Die Testvariable ist: Zigaretten. Für den Test auf Gleichverteilung lassen wir alle Kategorien „gleich“.
Die vollständige Syntax ist: WEIGHT BY Häufigkeit . NPAR TEST /CHISQUARE=Zigaretten /EXPECTED=EQUAL /MISSING ANALYSIS. Folgender Output resultiert: Chi-Quadrat-Test Häufigkeiten
Zigaretten
27 65,0 -38,086 65,0 21,0
122 65,0 57,058 65,0 -7,032 65,0 -33,0
325
WestRothändleCamelErnte 23HBGesamt
BeobachtetesN
ErwarteteAnzahl Residuum
Statistik für Test
96,4924
,000
Chi-Quadrata
dfAsymptotische Signifikanz
Zigaretten
Bei 0 Zellen (,0%) werden weniger als5 Häufigkeiten erwartet. Die kleinsteerwartete Zellenhäufigkeit ist 65,0.
a.
141
Es kommt ein Chiquadrat-Wert zustande, der mit 96,492 erheblich größer ist als beispielsweise der kritische Chiquadratwert für eine Irrtumswahrscheinlichkeit von 0,1 % bei 4 Freiheitsgraden, der 18,467 beträgt. Wir können die Nullhypothese auf einem Niveau von 0,1 % ablehnen.
6.2.1.2 Chiquadrat-Test auf irreguläre Verteilung Wenn wir aus der Statistik der Zigarettenindustrie die Information hätten, daß in der Region, in der unsere Stichprobe gezogen wurde, folgende prozentuale Verteilung vorliegt, dann müßten wir dies beim Chiquadrat-Test berücksichtigen. Zigarettenmarke Anteil Erwartungs
wert = p * n West 10 % 32,5 Rothändle 30 % 97,5 Camel 35 % 113,75 Ernte 23 20 % 65 HB 5 % 16,25 Summe 100 % 325 Wir rufen für den Chiquadrat-Test die gleiche Schaltfläche auf, geben aber die o.a. Erwartungswerte an der entsprechenden Stelle ein:
Folgende Syntax resultiert hieraus, wenn wir noch den Gewichtungsbefehl voranstellen: Weight by Häufigkeit. NPAR TEST /CHISQUARE=Zigaretten /EXPECTED=32.5 97.5 113.75 65 16.25 /MISSING ANALYSIS.
142
Folgender Output ist das Ergebnis: Chi-Quadrat-Test Häufigkeiten
Zigaretten
27 32,5 -5,586 97,5 -11,5
122 113,8 8,358 65,0 -7,032 16,3 15,8
325
WestRothändleCamelErnte 23HBGesamt
BeobachtetesN
ErwarteteAnzahl Residuum
Statistik für Test
18,9054
,001
Chi-Quadrata
dfAsymptotische Signifikanz
Zigaretten
Bei 0 Zellen (,0%) werden weniger als5 Häufigkeiten erwartet. Die kleinsteerwartete Zellenhäufigkeit ist 16,3.
a.
Das Ergebnis ist bei df = 4 wiederum auf dem 0,1 % Niveau signifikant, aber der Chiquadratwert liegt schon wesentlich niedriger, da 18,905 > 18,467.
6.2.1.3.Chiquadrat-Test auf Übereinstimmung mit einer Normal-Verteilung 6.2.1.3.1. Ausführliches Verfahren Gegeben sei eine Häufigkeitsverteilung über einer mindestens intervallskalierten Variable: Wir stellen uns vor, es handele sich um die Ergebnisse einer Geschwindigkeitsmessung bei 50 km/h zulässige Höchstgeschwindigkeit bei 300 Fahrzeugen. Das Problem ist die Ermittlung der Erwartungswerte. Die Verteilung der erhobenen Variable „Speedred“habe folgende Gestalt:
143
Statistiken
Speedred300
055,520056,0000
56,003,13406
-,012
,141
-,266
,281
15,0047,0062,00
GültigFehlend
N
MittelwertMedianModusStandardabweichungSchiefeStandardfehler der Schiefe
KurtosisStandardfehler der Kurtosis
SpannweiteMinimumMaximum
Speedred
3 1,0 1,0 1,023 7,7 7,7 8,788 29,3 29,3 38,0
107 35,7 35,7 73,763 21,0 21,0 94,716 5,3 5,3 100,0
300 100,0 100,0
47,0050,0053,0056,0059,0062,00Gesamt
GültigHäufigkeit Prozent
GültigeProzente
KumulierteProzente
144
47,00 50,00 53,00 56,00 59,00 62,00
Speedred
0
20
40
60
80
100
120
Häu
figke
it
Speedred
Wir können diese Verteilung in SPSS reproduzieren, wenn wir als Variable Speedred mit den Klassenmitten als Meßwerten eingeben und als Gewichtungsvariable die Häufigkeiten verwenden: Weight by Häufigkeit. FREQUENCIES VARIABLES=Speedred /STATISTICS=STDDEV MEAN MEDIAN MODE SKEWNESS SESKEW KURTOSIS SEKURT /ORDER= ANALYSIS . Die Erwartungswerte resultieren auch hier aus p * n. Wir können p ermitteln, wenn wir in SPSS die oberen Klassengrenzen (Variable obereklg) ermitteln und sie als Variable berechnen: COMPUTE obereklg = Speedred + 1.5 . EXECUTE . Für diese können wir mittels folgender Syntax die Wahrscheinlichkeiten ermitteln, die bei gegebenem arithmetischem Mittel und gegebener Standardabweichung einer Normalverteilung aufkumuliert werden können. Daher übernehmen wir von oben oder ermitteln diese Kennwerte. Sie betragen: (s.o.) Mittel = 55,52 Standardabweichung= 3,13406
145
Die Syntax für die Ermittlung der aufkumulierten p an den Klassengrenzen ist: COMPUTE pklasseng = CDF.NORMAL(Klassengr,55.52,3.13406) . EXECUTE . Wir erhalten im Datensatz das Ergebnis der Berechnung als neue Variable pklasseng: Obereklg pKlasseng 45,50 ,00069 48,50 ,01255 51,50 ,09980 54,50 ,37242 57,50 ,73623 60,50 ,94397 63,50 ,99456 Um jetzt zu den Erwartungswerten zu gelangen, fertigen wir folgende Tabelle an: Mittels der folgenden Syntax produzieren wir im Datensatz die kumulierten Erwartungswerte, indem wir die pklasseng mit n (hier = 300) multiplizieren. COMPUTE kumerw = pklasseng * 300 . EXECUTE . Vorher setzen wir aber den Betrag der Wahrscheinlichkeit der obersten Klassengrenze auf 1, da ja die Normalverteilung keine Obergrenze hat, unsere Daten aber hier begrenzt sind. (Außerdem verzichten wir auf den p-Wert unterhalb der untersten Klassengrenze (45,5), da hier auch das Problem berücksichtigt werden muß, daß die Normalverteilung nach unten nicht begrenzt ist, aber unsere Daten durchaus). Klassenmitten (obere)
Klassengrenzen pKlassengrenzen kumulierte
Erwartunsgwerte „kumerw“
Erwartungswerte
47 48,50 ,01255 3,76 3,76 50 51,50 ,09980 29,94 26,18 53 54,50 ,37242 111,73 81,19 56 57,50 ,73623 220,87 109,14 59 60,50 ,94397 283,19 63,32 62 63,50 1,0000 300,00 16,81 300 Diese Erwartungswerte geben wir in die Schaltfläche von Chiquadrat ein:
146
Die Syntax lautet: Weight by häufigkeit. NPAR TEST /CHISQUARE=Speedred /EXPECTED=3.76 26.18 81.19 109.4 63.32 16.81 /MISSING ANALYSIS. Folgender Output resultiert, in dem wir erkennen, daß keine signifikante Abweichung von realisierter und erwarteter Verteilung existiert:
Speedred
3 3,8 -,823 26,1 -3,188 81,0 7,0
107 109,2 -2,263 63,2 -,216 16,8 -,8
300
47,0050,0053,0056,0059,0062,00Gesamt
BeobachtetesN
ErwarteteAnzahl Residuum
Statistik für Test
1,2065
,944
Chi-Quadrata
dfAsymptotische Signifikanz
Speedred
Bei 1 Zellen (16,7%) werden wenigerals 5 Häufigkeiten erwartet. Die kleinsteerwartete Zellenhäufigkeit ist 3,8.
a.
Im Gegensatz zu diesem Output müßten wir hier nach Bosch (siehe oben) nicht 5 Freiheitsgrade annehmen, sondern 3, da wir zwei Freiheitsgrade durch die Festlegung der Kennwerte arithmetisches Mittel und Standardabweichung verlieren. Hierdurch verändert sich der kritische Chiquadratwert von
147
11,07 auf 7,81. In beiden Fällen ist dieser kritische Chiquadratwert aber größer als unser „empirischer“ Chiquadrat-Wert, so daß die Nullhypothese beibehalten werden kann, daß unsere Daten aus einer normalverteilten Grundgesamtheit entnommen worden sein können.
6.2.1.3.2. Abgekürztes Verfahren Zur Schnellprüfung der Normalverteilung einer gegebenen Verteilung kann folgende Formel herangezogen werden. Setzen wir die oben mitgeteilten Werte für die Schiefe und den Exzess in diese Formel ein, dann erhalten wir einen Chiquadratwert von 0,89 für 2 Freiheitsgrade.
( )2;246
3 222 =+=
−df
nn
ExSchChi
Wir können daraufhin berechnen, daß wir bei einem Niveau von 65 % Irrtumswahrscheinlichkeit die Nullhypothese verwerfen könnten, was wir natürlich nicht tun.
6.2.2. Zweidimensionale Tests 6.2.2.1. Chiquadrat und Cramers V 6.2.1.1.1. Fall eines signifikanten Zusammenhangs. In einer religionswissenschaftlichen Untersuchung der HU werden zwei nominalskalierte Variablen miteinander in einer Kreuztabelle dargestellt: a) Mitgliedschaft in einer Religionsgemeinschaft; Ausprägungen: Kein Mitglied; katholisch; evangelisch;
Sonstige Mitgliedschaften. b) Was denken Sie? Ausprägungen: Juden und Christen haben denselben Gott – nicht denselben Gott. Nach dem der Datensatz: Religion.sav geladen wurde, werden über die Schaltfläche: Analysieren, Deskriptive Statistik / Kreuztabellen die genannten Variablen für die Zeile und Spalte angefordert, zusätzlich für die Statistik Chiquadrat und Cramers V, für die Zellen: die beobachteten Werte, die erwarteten Werte, die Zeilenprozente, die Spaltenprozente und die angepaßten, standardisierten Chiquadratresiduen.
148
Die Syntax lautet: CROSSTABS /TABLES=v496 BY v1431 /FORMAT= AVALUE TABLES /STATISTIC=CHISQ PHI /CELLS= COUNT EXPECTED ROW COLUMN ASRESID /COUNT ASIS . Das Ergebnis ist:
Verarbeitete Fälle
1349 70,1% 575 29,9% 1924 100,0%
F84a/ Was denken Sie:Juden und Christenhaben: * MitgliedeinerReligionsgemeinschaft
N Prozent N Prozent N ProzentGültig Fehlend Gesamt
Fälle
149
F84a/ Was denken Sie: Juden und Christen haben: * Mitglied einer ReligionsgemeinschaftKreuztabelle
181 145 672 18 1016
221,4 142,3 634,9 17,3 1016,0
17,8% 14,3% 66,1% 1,8% 100,0%
61,6% 76,7% 79,7% 78,3% 75,3%
-6,2 ,5 4,8 ,3
113 44 171 5 333
72,6 46,7 208,1 5,7 333,0
33,9% 13,2% 51,4% 1,5% 100,0%
38,4% 23,3% 20,3% 21,7% 24,7%
6,2 -,5 -4,8 -,3
294 189 843 23 1349
294,0 189,0 843,0 23,0 1349,0
21,8% 14,0% 62,5% 1,7% 100,0%
100,0% 100,0% 100% 100,0% 100,0%
AnzahlErwarteteAnzahl% von F84a/Was denkenSie: Judenund Christenhaben:
% vonMitgliedeinerReligionsgemeinschaftKorrigierteResiduenAnzahlErwarteteAnzahl% von F84a/Was denkenSie: Judenund Christenhaben:
% vonMitgliedeinerReligionsgemeinschaftKorrigierteResiduenAnzahlErwarteteAnzahl% von F84a/Was denkenSie: Judenund Christenhaben:
% vonMitgliedeinerReligionsgemeinschaft
DenselbenGott
Nichtdenselb. Gott
F84a/ Was denkenSie: Juden undChristen haben:
Gesamt
KeinMitglied
Katholisch
Evangelisc
hSonsti
ge
Mitglied einer Religionsgemeinschaft
Gesamt
150
Chi-Quadrat-Tests
38,987a
3 ,000
1349
Chi-Quadrat nachPearsonAnzahl der gültigen Fälle
Wert df
Asymptotische Signifikanz
(2-seitig)
0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Dieminimale erwartete Häufigkeit ist 5,68.
a.
Symmetrische Maße
,170 ,0001349
Cramer-VAnzahl der gültigen Fälle
Wert
Näherungsweise
Signifikanz
Die Null-Hyphothese wird nicht angenommen.a.
Unter Annahme der Null-Hyphothese wird der asymptotischeStandardfehler verwendet.
b.
Am Ergebnis kann man erkennen, daß es eine signifikante Beziehung beider Variablen gibt: Der Chiquadratwert ist hochsignifikant, die Nullhypothese wird abgelehnt, die Tabelle hat drei Freiheitsgrade. Cramers V signalisiert einen schwachen Zusammenhang. Die Nichtmitglieder sehen eine große Differenz zwischen Christen und Juden, die Evangelischen eher nicht, die Katholiken sind neutral. Untersucht man mit der gleichen Tabelle den Zusammenhang der Zugehörigkeit zu einer Religionsgemeinschaft mit der Frage: Was denken Sie: Muslime und Christen haben denselben Gott, nicht denselben Gott, dann zeigt sich, daß keine signifikante Beziehung der Variablen besteht.
Verarbeitete Fälle
1217 63,3% 707 36,7% 1924 100,0%
F84b/ Was denken Sie:Muslime und Christenhaben * Mitglied einerReligionsgemeinschaft
N Prozent N Prozent N ProzentGültig Fehlend Gesamt
Fälle
151
F84b/ Was denken Sie: Muslime und Christen haben * Mitglied einer Religionsgemeinschaft Kreuztabelle
141 101 429 15 686155,0 90,8 423,9 16,3 686,0
20,6% 14,7% 62,5% 2,2% 100,0%
51,3% 62,7% 57,0% 51,7% 56,4%
-1,9 1,7 ,6 -,5
134 60 323 14 531120,0 70,2 328,1 12,7 531,0
25,2% 11,3% 60,8% 2,6% 100,0%
48,7% 37,3% 43,0% 48,3% 43,6%
1,9 -1,7 -,6 ,5
275 161 752 29 1217275,0 161,0 752,0 29,0 1217,0
22,6% 13,2% 61,8% 2,4% 100,0%
100,0% 100,0% 100,0% 100,0% 100,0%
AnzahlErwartete Anzahl% von F84b/ Wasdenken Sie:Muslime undChristen haben% von MitgliedeinerReligionsgemeinschaftKorrigierteResiduenAnzahlErwartete Anzahl% von F84b/ Wasdenken Sie:Muslime undChristen haben% von MitgliedeinerReligionsgemeinschaftKorrigierteResiduenAnzahlErwartete Anzahl% von F84b/ Wasdenken Sie:Muslime undChristen haben% von MitgliedeinerReligionsgemeinschaft
Denselben Gott
Nichtdenselb.Gott
F84b/ Wasdenken Sie:Muslime undChristenhaben
Gesamt
Kein Mitglied Katholisch Evangelisch SonstigeMitglied einer Religionsgemeinschaft
Gesamt
Chi-Quadrat-Tests
5,951a
3 ,114
1217
Chi-Quadrat nachPearsonAnzahl der gültigen Fälle
Wert df
Asymptotische Signifikanz
(2-seitig)
0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Dieminimale erwartete Häufigkeit ist 12,65.
a.
Die Ergebnisse zeigen einen nicht signifikanten Chiquadrat – Wert
152
Symmetrische Maße
,070 ,1141217
Cramer-VAnzahl der gültigen Fälle
Wert
Näherungsweise
Signifikanz
Die Null-Hyphothese wird nicht angenommen.a.
Unter Annahme der Null-Hyphothese wird der asymptotischeStandardfehler verwendet.
b.
Cramers V zeigt einen sehr schwachen, nicht signifikanten Zusammenhang. Versuchen Sie, die in den Tabellen angegebenen Zeilen- Prozente und Spaltenprozente für die Interpretation heranzuziehen.
6.2.2.2. Phi und die Yates-Korrektur von Chiquadrat Wir wollen wissen, ob die Mitgliedschaft in einer Religionsgemeinschaft mit dem Alter zusammenhängt. Es genügt uns eine Information auf der Basis binärer Variablen. Zu didaktischen Zwecken recodieren und transformieren wir unsere Daten so, daß wir diese binären Variablen aus dem Datensatz „Religion.sav“ erhalten: RECODE v143 (1=1) (ELSE=2) INTO v143rec . EXECUTE . DESCRIPTIVES VARIABLES=v108 /SAVE /STATISTICS=MEAN STDDEV MIN MAX . RECODE Zv108 (Lowest thru 0=1) (0 thru Highest=2) INTO Jung_Alt . EXECUTE . Dann fordern wir über die o.a. Schaltfläche die Kreuztabelle dieser Variablen an: CROSSTABS /TABLES=Jung_Alt BY v143rec /FORMAT= AVALUE TABLES /STATISTIC=CHISQ PHI /CELLS= COUNT EXPECTED ROW COLUMN ASRESID /COUNT ASIS .
153
Jung_Alt * Mitglied einer Rel.Gemeinschaft - nein-ja Kreuztabelle
325 637 962269,4 692,6 962,0
33,8% 66,2% 100,0%
62,3% 47,5% 51,6%
5,7 -5,7197 705 902
252,6 649,4 902,021,8% 78,2% 100,0%
37,7% 52,5% 48,4%
-5,7 5,7522 1342 1864
522,0 1342,0 1864,028,0% 72,0% 100,0%
100,0% 100,0% 100,0%
AnzahlErwartete Anzahl% von Jung_Alt% von Mitglied einer Rel.Gemeinschaft - nein-jaKorrigierte ResiduenAnzahlErwartete Anzahl% von Jung_Alt% von Mitglied einer Rel.Gemeinschaft - nein-jaKorrigierte ResiduenAnzahlErwartete Anzahl% von Jung_Alt% von Mitglied einer Rel.Gemeinschaft - nein-ja
Jung
Alt
Jung_Alt
Gesamt
nein ja
Mitglied einer Rel.Gemeinschaft - nein-ja
Gesamt
Chi-Quadrat-Tests
32,935b
1 ,000
32,346 1 ,0001 ,000
,000 ,00032,918 1 ,000
1864
Chi-Quadrat nachPearsonKontinuitätskorrektura
Exakter Test nach Fisher
Anzahl der gültigen Fälle
Wert df
Asymptotische Signifikanz
(2-seitig)
ExakteSignifikanz(2-seitig)
ExakteSignifikanz(1-seitig)
Wird nur für eine 2x2-Tabelle berechneta.
0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeitist 252,60.
b.
Symmetrische Maße
,133 ,000,133 ,000
1864
Phi
Anzahl der gültigen Fälle
Wert
Näherungsweise
Signifikanz
Die Null-Hyphothese wird nicht angenommen.a.
Unter Annahme der Null-Hyphothese wird der asymptotischeStandardfehler verwendet.
b.
154
Es zeigt sich ein hochsignifikanter Zusammenhang zwischen Variablen, der jedoch nur schwach ausgeprägt ist. Chiquadrat mit df= 1 ist deutlich über jedem Kriteriumswert, Phi liegt jedoch nur bei 0,133. Die Tabelle zeigt eine deutliche Überrepräsentation der Jungen bei den Nichtmitgliedern, der Alten bei den Mitgliedern einer Religionsgemeinschaft. In der Auswertung ist die Yates-Korrektur mitgeliefert worden, sie erbringt hier ein unwesentlich abgesenktes Chiquadrat. Der exakte Test von Fischer ist ebenfalls gerechnet worden, obwohl er eigentlich nur bei sehr kleinen Zellenbesetzungen Sinn macht.
6.2.2.3. Fishers exakter Test Um eine möglichst kleine Zellenbesetzung zu demonstrieren, wählen wir aus den Fällen die ältesten Mitglieder der Befragtengruppe aus und kommen dann mit der oben auch schon benützen Syntax zu einer neuen Vierfelder-Tabelle: Temporary. Select if (zv108 > (2.34)). CROSSTABS /TABLES=v109 BY v143rec /FORMAT= AVALUE TABLES /STATISTIC=CHISQ PHI /CELLS= COUNT EXPECTED ROW COLUMN ASRESID /COUNT ASIS . Das Ergebnis ist:
Verarbeitete Fälle
22 100,0% 0 ,0% 22 100,0%F14.1/ Geschlecht *Mitglied einer Rel.Gemeinschaft - nein-ja
N Prozent N Prozent N ProzentGültig Fehlend Gesamt
Fälle
155
F14.1/ Geschlecht * Mitglied einer Rel.Gemeinschaft - nein-ja Kreuztabelle
2 14 162,2 13,8 16,0
12,5% 87,5% 100,0%
66,7% 73,7% 72,7%
-,3 ,31 5 6,8 5,2 6,0
16,7% 83,3% 100,0%
33,3% 26,3% 27,3%
,3 -,33 19 22
3,0 19,0 22,013,6% 86,4% 100,0%
100,0% 100,0% 100,0%
AnzahlErwartete Anzahl% von F14.1/ Geschlecht% von Mitglied einer Rel.Gemeinschaft - nein-jaKorrigierte ResiduenAnzahlErwartete Anzahl% von F14.1/ Geschlecht% von Mitglied einer Rel.Gemeinschaft - nein-jaKorrigierte ResiduenAnzahlErwartete Anzahl% von F14.1/ Geschlecht% von Mitglied einer Rel.Gemeinschaft - nein-ja
Weiblich
Männlich
F14.1/ Geschlecht
Gesamt
nein ja
Mitglied einer Rel.Gemeinschaft - nein-ja
Gesamt
Chi-Quadrat-Tests
,064b
1 ,800
,000 1 1,0001,000 ,636
22
Chi-Quadrat nachPearsonKontinuitätskorrektura
Exakter Test nach FisherAnzahl der gültigen Fälle
Wert df
Asymptotische Signifikanz
(2-seitig)
ExakteSignifikanz(2-seitig)
ExakteSignifikanz(1-seitig)
Wird nur für eine 2x2-Tabelle berechneta.
2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeitist ,82.
b.
Wir sehen hier, daß keine signifikante Beziehung besteht. Die Nullhypothese wird bei dem sehr niedrigen Chiquadratwert bei 1 df beibehalten. Nach der Kontinuitätskorrektur nach Yates wird der Chiquadratwert auf Null abgesenkt. Der exakte Test von Fischer erbringt für die Irrtumswahrscheinlichkeit, bei der die Nullhypothese im einseitigen Test abgelehnt werden könnte, einen Wert von 0,636; das ist mehr als man aus der „asymptotischen Signifikanz“ des unkorrigierten Chiquadrattest (0,8 / 2 = 0, 4) erhielte. Das Beispiel zeigt, daß bei sehr geringer Anzahl der Befragten deutliche Differenzen zwischen den verschiedenen Verfahren bezüglich der rechnerischen Ergebnisse resultieren können.
Symmetrische Maße
-,054 ,80022
PhiAnzahl der gültigen Fälle
Wert
Näherungsweise
Signifikanz
Phi zeigt einen nicht signifikanten, sehr niedrigen Wert.
156
Kapitel 7. Faktorenanalyse Gegeben sei ein Datensatz: HundehalterWS2004_5.sav Wir laden diesen Datensatz. Hintergrund ist ein Projekt aus einem früheren Empiriekurs. Über dieses Projekt ist folgendes zu berichten (die Gliederung wird aus dem Bericht über dieses Projekt übernommen)
7.1. Theoretische Grundlagen - Anlage der Teilstichproben
7.1.1 Theoretische Grundlagen eines als Beispiel verwendeten empirischen Projekts Abgesehen von den historischen Analysen Wippermanns war eine der wichtigsten Quellen für die Anlage der Untersuchung war „Mensch und Hund“ von R. Bergler (Köln 1986). Unsere Untersuchung sollte nicht nur eine qualitative sein, sondern ganz wesentlich quantitative Elemente haben. Daher bot sich an, einem Hinweis von Bergler auf auf eine amerikanische psychologische Untersuchung von W.C. Schulz: FIRO: A three-dimensional theory of interpersonal behavior. New York 1958 nachzugehen. Schulz hat Guttman-Skalen für folgende Dimensionen der Beziehung von Menschen zu Menschen entwickelt. Dimension Vollzogenes eigenes Verhalten Erwartetes (gewünschtes) Verhalten
von anderen Einbeziehung Ich initiiere die Interaktion mit
Fremden (11) Ich möchte einbezogen werden (12)
Kontrolle Ich kontrolliere Fremde (21)
Ich möchte, daß Menschen mich kontrollieren (22)
Gefühlsnähe Ich handle nah und persönlich mit Fremden (31)
Ich möchte daß Menschen mit mir nah und persönlich umgehen (32)
Diese Skalen für die „aktive“ und „passive“ Beziehung von Menschen zu Menschen – so sagten wir uns, könnten uns erlauben, Hundehalter und Nichthundehalter zu beschreiben und möglicherweise dabei die Hypothesen zu testen, daß die beiden Gruppen sich auf diesen Skalen signifikant unterscheiden. Diese Skalen wurden von mir ins Deutsche übersetzt. Ein Teil der Items wurde für die Messung einer Dimension benutzt, die wir generell „Beziehung zu Menschen“ genannt haben, wobei die Unterscheidung von vollzogenem eigenen Verhalten (aktive Seite, Dominanz) und erwartetem – gewünschten Verhalten (passive Seite, Bedürfnis nach Zuwendung) sich als sehr wichtig erweisen sollte. Weitere Items wurden zusammengestellt, die die Beziehung von Menschen zu Hunden betreffen: Zum Hund als Partner (eventuell auch „Kuschelhund“), zum Hund als Aufgabenträger, der im „Club“ oder im „Verein“ ausgebildet wird, zum Hund als Repräsentant von Luxus und als Bewacher desselben, zum Hund als Kontaktagenten. Im Wesentlichen kann als Erkenntnisziel der Arbeit die Beantwortung der Frage benannt werden, ob und wie die verschiedenen Beziehungen zu Hunden mit den verschiedenen Beziehungen zwischen Menschen zusammenhängen. Bei der Lektüre vorliegender Forschung hierzu wurde uns klar, daß solche Beziehungen sehr vielfältig und differenziert und in verschiedenen Gruppen von Hundehaltern sehr unterschiedlich kombiniert sein können. Außerdem sind solche Beziehungen einem interessanten historischen Wandel unterworfen, wie man in dem oben schon genannten Bericht von Wolfgang Wippermann und Detlef Berentzen: Die Deutschen und ihre Hunde, nachlesen kann. In dem einsemestrigen Kursus wäre es nicht möglich gewesen, sehr differenzierte Hypothesen zu entwickeln und zu testen. Außerdem sollten die Interviews kurz sein (möglichst nicht länger als 15 Minuten).Wir entschieden uns daher dafür, nur ungefähr 50 Items im Fragebogen unterzubringen. Weiterhin hatten wir auch
157
weder die Zeit noch das Geld, um aus der Berliner Grundgesamtheit der Hundesteuerzahler und einer hierzu passenden Grundgesamtheit der Nicht-Hundebesitzer eine Zufallsstichprobe zu ziehen, aus der - mit dem Anspruch auf Repräsentativität - Schlüsse gezogen werden könnten, die es gestatteten, die Grundgesamtheit relativ genau zu charakterisieren. Um überhaupt an statistisch auswertbares Material zu gelangen, und darum ging es in diesem Methodenkursus hauptsächlich, wurde bei der Datenbeschaffung pragmatisch verfahren: Alle Studierenden wurden gebeten, jeweils 10 Hundebesitzer und 10 Nicht-Hundebesitzer zu befragen, und zwar entweder in Hundeauslaufgebieten, in der Nähe von Verkaufsstellen für Hundefutter bzw. -Zubehör, im Bekanntenkreis oder in sonstigen Umgebungen des Stadtgebietes Berlin. Bei diesen Erhebungen konnten die Studierenden das Ausfüllen des Fragebogens kontrollieren. Nur vom Befragten allein ausgefüllte Fragebogen (ohne Anwesenheit von Interviewern) stammen von weiteren verschiedenen Orten: Es wurden in einer Berliner Tierarztpraxis ( Dr. A. Quade,Treskowstr. 63, 13156 Berlin) Fragebögen ausgelegt. Die Auswahl dieser Praxis geschah nicht in systematischer Absicht, sondern aufgrund persönlicher Bekanntschaft. Die Lage der Praxis in Pankow war so, daß hierdurch „durchschnittliche“ Hundehalter in die Befragung hineinkamen. Die Hundedichte in Pankow liegt nur unwesentlich über dem Berliner Durchschnitt. Nach zahlreichen Presseechos auf Ergebnisse eines Vorberichts - wurden noch folgende Gruppen befragt: • das Publikum einer Podiumsdiskussion über Probleme der „Hundehaltung und Hundeverordnung in Berlin“
(organisiert im Ufapalast am 22.10. 2000 von der Journalistin Katharina Rutschky, Wartenburgstraße 8, 10963 Berlin) und
• Mitglieder eines Berliner Hundesportvereins (Hundesportler des HSV Berlin Buchholz sowie
Hundebesitzer, die in diesem Verein einen Hunderziehungskursus belegt hatten). Vermittelt hat dies Herr Hans J. Zuchowski, Brunnenstraße 95, 13355 Berlin).
• Auf eine Anfrage eines westdeutschen Hundessportvereins (Gewährsmann: Martin Poettgen & Partner -
Agentur für Kommunikation & Aktionsmarketing Kohlenstraße 70 44795 Bochum Germany) wurde der Fragebogen ins Internet gestellt und von Mitgliedern dieses Vereins beantwortet (Per Fax zugeschickt).
Dem war folgender Brief vorausgegangen:
Sehr geehrter Herr Prof. Dr. Dieckmann, Gerne biete ich Ihnen meine Hilfe bei der Distribution von Fragebögen an. Nur sollten Sie folgende Zahlen meiner Vereinsmitgliedschaften kennen: 1. Unser Rassezuchtverband 1.American Staffordshire Terrier Club hat insgesamt etwa 200 Mitglieder. Bei Veranstaltungen sind derzeit noch ca. 25 - 30 anwesend - leider nur noch ein kleines Häuflein von Idealisten 2. Unser Ausbildungsverein (DVG) HSV Lippetal hat ca. 30 Mitglieder, von denen etwa 10 - 15 noch aktiv arbeiten. 3. Unser Ausbildungsverein (DVG) Bochum Süd-West hat ca. 100 Mitglieder, von denen sind etwa 40 aktiv. Gerne biete ich Ihnen folgendes an: 1. Auslage der Fragebögen bei den kommenden Veranstaltungen der o.g. Vereine. 2. Publikation des Fragebogens auf der www.1astc.de (ca. 8000 Zugriffe/Monat). 3. Ausserdem produzieren wir eine Zeitung, die "Stafford-News". Darin könnte man wunderbar über Ihre jüngsten Erkenntnisse berichten. Eine Garantie für den Rücklauf kann ich kaum übernehmen. Jedoch greifen wir als Liebhaber unserer Hunde nach jedem Strohhalm, der Seriosität vermittelt.
• Schließlich hat noch die Leitung der Naturwissenschaftlichen Sammlungen Berlin, dafür gesorgt, daß
Fragebogen in der folgenden Ausstellung ausgelegt wurden,
158
Wölfe Opferhunde Karrenköter
Die "Hundeausstellung" der Naturwissenschaftlichen Sammlungen Berlin vom 7. November 2001 bis zum 8. April 2002
Schloßstraße 69a 14059 Berlin (Charlottenburg)
7.1.2. Anlage der Teilstichproben im Beispiel-Projekt Auf diese Weise kam ein Rücklauf mit folgenden 7 Teilgruppen zustande: • Menschen ohne Hund aus den verschiedenen unten aufgeführten Erhebungssituationen, • Menschen mit Hund in der Haupterhebung der Studierenden, • Besucher/innen der Tierarztpraxis mit Hund • Besucher/innen einer Podiumsdiskussion zum Problem einer Berliner Verordnung zur Hundehaltung mit
Hund. • Mitglieder eines Berliner Hundesportvereins, die anläßlich dieser Diskussion anboten, den Fragebogen
auszufüllen, mit Hund. • Mitglieder eines westdeutschen Hundesportvereins (American Staffordshire Terrier) mit Hund • Besucher der Ausstellung „Wölfe, Opferhunde, Karrenköter...“ mit Hund In diesen Teilgruppen waren verschiedene „Interviewsituationen“ vertreten, wie • Das Interview wurde von Studenten im Kreise der Bekannten gemacht • Das Interview wurde von Studenten im Hundeauslaufgebiet gemacht • Das Interview wurde von Studenten in der Nähe von Verkaufstellen von Hundefutter gemacht • Das Interview wurde von Studenten an sonstigen Orten im Berliner Stadtgebiet gemacht. • Der Fragebogen wurde in einer Tierarztpraxis ausgefüllt • Der Fragebogen wurde am Rande einer Podiumsdikusssion ausgefüllt • Der Fragebogen wurde von Angehörigen oder Kunden eines Berliner Hundesportvereins ausgefüllt • Der Fragebogen wurde von Angehörigen zweier westdeutscher Hundesportvereine ausgefüllt, die sich den
Bogen aus dem Internet kopierten • Der Fragebogen wurde in den Räumen der Ausstellung „Wölfe, Opferhunde, Karrenköter ausgefüllt“ Zusammensetzung der Befragten aus verschiedenen Gruppen und Interviewsituationen:
159
Gruppe * Situation des Interviews Kreuztabelle
Anzahl
52 26 78
55 124 179
2 5 7
60 22 2 8468 100 168
7 52 59
18 18
6 12 18
157 224 381
407 177 100 52 20 12 224 992
BekanntenkreisHundeauslaufgebietNäheVerkaufsstelleHundeartikelSonstigesArztpraxisPodiumsdisk.mitHundefreundenHundesportvereinHundesportverein- InternetNaturwissensch.Sammlungen
SituationdesInterviews
Gesamt
Hundelose Haupterhebung Tierarztpraxis
Hundepolitischaktive
Personen
HundesportvereinBerlin
Westdeutscher
Hundesportverein
Naturwissenschaftl.Sammlun
gen
Gruppe
Gesamt
Da wir – wie oben schon betont wurde - keine repräsentative Stichprobe aus Berliner Karteien haben ziehen können, mußte eine Auswertungsstrategie gewählt werden, in der wir uns im Wesentlichen auf den Vergleich von Teilstichproben beschränkt haben. Hierbei haben wir in einer Teilstichprobe (Gruppe) drei der o.a. Gruppen zusammengefaßt, und zwar „die hundepolitisch aktiven Personen“, die Antworten aus dem „Hundesportverein in Berlin“ und aus dem „Hundesportverein in Bochum / Lippetal“. Die drei Gruppen erschienen von ihren Aktivitäten und Einstellungen her weitgehend ähnlich, so daß die Zusammenfassung legitim und vernünftig (Erhöhung der Fallzahl pro Gruppe) schien. 7.2. Verteilung der Befragten nach Geschlecht, Alter und Hundebesitz Die Verteilung aller Befragten nach Alter und Geschlecht ist die folgende:
160
Befragte nach Alter und Geschlecht
33 28 6154,1% 45,9% 100,0%
5,6% 7,4% 6,3%
158 89 24764,0% 36,0% 100,0%
26,8% 23,6% 25,5%
209 128 33762,0% 38,0% 100,0%
35,4% 34,0% 34,9%
123 78 20161,2% 38,8% 100,0%
20,8% 20,7% 20,8%
61 45 10657,5% 42,5% 100,0%
10,3% 11,9% 11,0%
6 9 1540,0% 60,0% 100,0%
1,0% 2,4% 1,6%
590 377 96761,0% 39,0% 100,0%
100,0% 100,0% 100,0%
Anzahl% von ALTERREC% von Geschl. d.BefragtenAnzahl% von ALTERREC% von Geschl. d.BefragtenAnzahl% von ALTERREC% von Geschl. d.BefragtenAnzahl% von ALTERREC% von Geschl. d.BefragtenAnzahl% von ALTERREC% von Geschl. d.BefragtenAnzahl% von ALTERREC% von Geschl. d.BefragtenAnzahl% von ALTERREC% von Geschl. d.Befragten
1 bis 15
16 bis30
31 - 45
46 bis60
61 bis75
76 bis90
ALTERREC
Gesamt
weiblich männlichGeschl. d. Befragten
Gesamt
Altersgruppen
76-9061-7546-6031-4516-301-15
Anza
hl
300
200
100
0
Geschl. d. Befragten
weiblich
männlich
45
78
128
89
28
61
123
209
158
33
Auffällig ist bei der Verteilung der Befragten nach Alter und Geschlecht, daß sich wesentlich mehr Frauen als Männer an der Umfrage beteiligt haben (61 % Frauen, 39 % Männer) und daß die mittleren Altersgruppen wesentlich stärker besetzt sind als die Jüngeren und Älteren. Teilt man diese Daten noch nach dem Kriterium der Hundehaltung auf, dann ergibt sich folgendes:
161
Nicht-Besitzer von Hunden
Altersgruppen
83,0068,0053,0038,0023,008,00
Pro
zent
40
30
20
10
0
Geschl. d. Befragten
weiblich
männlich2
10
15
38
25
109
17
34
30
9
Hundebesitzer
Altersgruppen
83,0068,0053,0038,0023,008,00
Pro
zent
40
30
20
10
0
Geschl. d. Befragten
weiblich
männlich2
14
25
31
23
5
11
23
36
25
4
Die Alters- und Geschlechterstrukturen der befragten Hundebesitzer und Nichtbesitzer weichen nur unwesentlich von einander ab. Doch gibt es ein paar Differenzen, die für die weiteren Überlegungen von Bedeutung sein könnten: • Die mittleren Klassen sind stärker besetzt als die Randklassen. • Die Frauen sind in der Klasse der 30 bis 45 –Jährigen bei den Hundebesitzern etwas überrepräsentiert, bei
den Nichthundebesitzern etwas unterrepräsentiert. • Die älteren Klassen sind bei den Hundebesitzern stärker vertreten als bei den Nicht-Hundebesitzern.
162
7.3. Der Fragebogen Der Fragebogen wurde an 4 Personen getestet (die Testbögen sind in der jetzigen Auswertung mitberücksichtigt), im Seminar ausführlich diskutiert und in der folgenden Form im Forschungsfeld benutzt:
7.3.1. Form des Fragebogens: Guten Tag! Dieser Fragebogen kommt aus einem Seminar für Forschungsmethoden von Professor Dieckmann an der Technischen Universität, wo ein kleines Projekt zum Thema „Hunde und Menschen“ durchgeführt wird. Wir befragen Menschen in beim Spazierengehen, in Tierarztpraxen und Hundesportvereinen. Wir – die Seminarteilnehmerinnen – würden uns freuen, wenn wird Ihnen zum genannten Thema ein paar Fragen stellen könnten. Das Ausfüllen geht auch ziemlich schnell. Sind Sie selber Hundebesitzer? Bitte kreuzen sie für die folgenden Aussagen den Grad an, zu dem Sie den Aussagen zustimmen /die Aussagen ablehnen: Ich mag Menschen, die immer einen Hund in ihrer Nähe haben wollen Wenn ein Hund krank ist, sollte man bereit sein, solange Geld für seine Heilung auszugeben, bis er gesund ist Ich finde Menschen sympathisch, die ihren Hund für ihren wichtigsten Freund halten Arbeit und Kosten, die man für einen Hund aufwendet, sollten nicht als Belastung empfunden werden Hundehalter sollten am Tag folgende Zeit aktiv mit ihrem Hund (Spielen, Spazieren gehen, Hundeausbildung, Sport, Sauberkeit, Kosmetik) verbringen: Bitte sagen Sie uns, wie viel Zeit Sie für notwendig halten (bitte die Zahl der Minuten rechtsbündig eintragen):
Bitte kreuzen sie wieder für die folgenden Aussagen den Grad an, zu dem Sie den Aussagen zustimmen /die Aussagen ablehnen: Es geht jetzt auch um Sie selber: Ich mache gern lange und weite Reisen Ich habe schon viel von der Welt gesehen und war oft im Ausland
Nein Ja, ich habe Hunde
Auf Keinen Fall
Eher nicht
Teils/ teils
Eher ja Auf Jeden Fall
Auf Keinen Fall
Eher nicht
Teils/ teils
Eher ja Auf Jeden Fall
163
Ich versuche, zu anderen Menschen enge, persönliche Beziehungen zu haben Ich mag es, wenn andere Menschen mich vertraulich und persönlich behandeln Ich fühle mich wohl, wenn ich mit anderen Menschen zusammen bin Ich versuche, am Leben von Vereinen oder Clubs teilzunehmen, wenn sich die Gelegenheit dazu bietet Ich versuche, wenn sich die Gelegenheit bietet, Verantwortung zu übernehmen. Bitte kreuzen sie für die folgenden Aussagen den Grad an, zu dem Sie den Aussagen zustimmen /die Aussagen ablehnen: Wenn ein Hund seine ihm zugedachten Aufgaben nicht erfüllt, sollte man sich an seiner Stelle einen anderen Hund anschaffen Hunde müssen keine besonderen Aufgaben haben. Wichtig ist nur, dass man sie in der Nähe haben kann. Ich selber bin ein Mensch, der sich gut durchsetzen kann Ich halte mich für einen optimistischen, fröhlichen Menschen Ich habe ziemlich viel Mut, Angst kenne ich nicht Wenn ich eine Gelegenheit sehe, anderen zu helfen, nehme ich sie wahr Ich lege Wert auf mein Äußeres Ich habe Freude an schönen und schnellen Autos beziehungs- weise an eleganten Wohnungen Mein Hund soll (Wenn ich einen Hund hätte, dann müsste der vor allem) Wachhund und Schutzhund sein mir ein Freund sein mir die Gelegenheit geben, mit anderen interessanten Menschen in Kontakt zu kommen, schön und auffallend sein mir die Gelegenheit geben, ein Hobby auszuüben (z. B. Hundesport, Hundezüchtung, Wandern, Jagd). Ich selbst bin... männlich weiblich Ich bin geboren im Jahre Ich lebe... mit anderen zusammen allein In meiner Wohnung leben auch Kinder (unter 14 Jahre)
Auf Keinen Fall
Eher nicht
Teils/ teils
Eher ja Auf Jeden Fall
164
(Anzahl rechtsbündig eintragen) Meine Wohnung hat ca. folgende Größe (in Quadratmetern) Ich habe einen Garten zur meiner Verfügung in folgender Größe (in Quadratmetern) Mein Hund (Wenn ich einen Hund hätte) gehört keiner bestimmten Rasse an /ist ein Rassehund (würde ich mir wünschen: einen): Mischling Rassehund Egal Falls Rassehund: Welche Rasse? Falls Mischling oder egal: Art des Hundes? Nur für Hundebesitzer: (bezogen auf den Hund, der jetzt am längsten im Besitz ist): Gewicht des Hundes in kg Alter des Hundes in Monaten: Ausbildung des Hundes Keine Ausbildung Ausbildung ohne Prüfung mit Prüfung Geschlecht des Hundes männlich weiblich Kastration Nein Ja Sonstige Operationen (krankheitsbedingte) Nein Ja Sonstige Operationen (um das Aussehen zu verbessern) Nein Ja Monatliche Kosten insgesamt im Jahresdurchschnitt (alles zusammen) Für alle: Hundebesitzer und Nichtbesitzer: Was meinen Sie: Haben Hunde eine Seele? Nein Vielleicht Ja Sollte man Hunde, wenn sie sterben, in Ehren bestatten (z.B. auf einem Hundefriedhof)? Nein Ja Nun eine letzte Frage: Was braucht ein Hund vor allem, wenn er „artgerecht“ gehalten wird?
165
7.3.2. Im Fragebogen gemessene Eigenschaften und Dimensionen Der Fragebogen richtete sich an Hundebesitzer und –nichtbesitzer in gleicher Weise, so daß beide Gruppen ihre Einstellung zu Hunden und zu Menschen äußern konnten. Neben einigen Variablen, die die Lebensverhältnisse der Befragten beschreiben und die Eigenarten des gehaltenenen Hundes charakterisieren sollen, gibt es mehrere Gruppen von Einstellungvariablen: • Einstellungen zum Hund, aus denen hervorgeht, welche unterschiedlichen Bedeutungen der Hund für den
jeweiligen Befragten hat (Partnerhund, Funktionshund, Hund demonstriert Luxus, etc.). • Einstellungen zum Menschen und zur Welt, gegliedert in drei Gruppen:
• Wunsch nach Zuwendung durch andere Menschen (ich lasse mich durch andere kontrollieren) • Wunsch, sich durch eigenes Handeln anderen Menschen zuzuwenden (andere zu kontrollieren,
Dominanzwunsch) • Kontaktwünsche • Mobilitätswünsche
Überdies gibt es zwei offene Fragen zur • Art („Rasse“) des gehaltenen (gewünschten) Hundes • artgerechten Hundehaltung Ziel der Auswertung ist es in erster Linie, zu prüfen, • ob zwischen den beschriebenen Gruppen signifikante Einstellungs-Unterschiede bestehen • ob das Datenmaterial auf die Existenz anderer Gruppen hinweist, die sich in bezug auf die Beziehungen
zwischen Mensch und Hund bzw. Mensch und Mensch relevant unterscheiden. Soviel aus den Hintergründen des Projekts. Mit der Faktorenanalyse wird versucht, die zugrundeliegenden Variablen oder Faktoren zu bestimmen, welche die Korrelationsmuster innerhalb eines Satzes beobachteter Variablen erklären. Die Faktorenanalyse wird häufig zur Datenreduktion verwendet, indem wenige Faktoren identifiziert werden, welche den größten Teil der in einer großen Anzahl manifester Variablen aufgetretenen Varianz erklären. Die Faktorenanalyse kann auch zum Erzeugen von Hypothesen über kausale Mechanismen oder zum Sichten von Variablen für die anschließende Analyse verwendet werden (zum Beispiel, um vor einer linearen Regressionsanalyse Kollinearität zu erkennen). Die Prozedur “Faktorenanalyse” bietet ein hohes Maß an Flexibilität: Es stehen sieben Methoden der Faktorextraktion zur Verfügung. Es sind fünf Rotationsmethoden verfügbar, einschließlich der direkten Oblimin-Methode und Promax-Methode für nicht orthogonale Rotationen. Für die Berechnung von Faktorwerten stehen drei Methoden zur Verfügung. Die Werte können für weitere Analysen als Variablen gespeichert werden. 7.4. Erläuterungen der Voraussetzungen für die Faktorenanalyse Daten. Die Variablen müssen auf dem Intervall- oder Verhältnis-Niveau (quantitativ) definiert sein. Kategoriale Daten (wie beispielsweise Religion oder Geburtsland) sind für die Faktorenanalyse nicht geeignet. Daten, für welche die Korrelationskoeffizienten nach Pearson sinnvoll berechnet werden können, eignen sich gewöhnlich für eine Faktorenanalyse. Annahmen. Die Daten sollten für jedes Variablenpaar in einer bivariaten Normalverteilung vorliegen. Beobachtungen müssen unabhängig sein. Im Modell der Faktorenanalyse ist festgelegt, daß Variablen durch gemeinsame Faktoren (die vom Modell geschätzten Faktoren) und eindeutige Faktoren (die sich nicht zwischen den beobachteten Variablen überschneiden) bestimmt sind. Die errechneten Schätzwerte basieren auf der Annahme, daß alle eindeutigen Faktoren weder miteinander noch mit den gemeinsamen Faktoren korrelieren.
166
7.5. Rechnen einer Faktorenanalyse mit SPSS 12 Laden Sie den Datenfile „HundehalterWS2004_5.sav. Wählen Sie die folgenden Befehle aus den Men aus: Analysieren Dimensionsreduktion Faktorenanalyse... Laden Sie den Datenfile „HundehalterWS2004_5.sav. Wählen Sie Variablen für die Faktorenanalyse aus, die als Einstellungdaten definiert sind.
7.5.1.Faktorenanalyse: Deskriptive Statistiken
Statistiken. Univariate Statistiken enthalten den Mittelwert, die Standardabweichung und die Anzahl gültiger Fälle für jede Variable. Die Anfangslösung zeigt die anfänglichen Kommunalitäten, Eigenwerte und den Prozentwert der erklärten Varianz an. Korrelationsmatrix. Die verfügbaren Optionen sind Koeffizienten, Signifikanzniveaus, Determinante, Inverse, Reproduziert, Anti-Image sowie KMO und Bartlett-Test auf Sphärizität.
167
KMO und Bartlett-Test auf Sphärizität. Das Kaiser-Meyer-Olkin-Maß für Angemessenheit der Stichproben überprüft, ob die partiellen Korrelationen zwischen Variablen klein sind. Der Bartlett-Test auf Sphärizität prüft, ob die Korrelationsmatrix eine Einheitsmatrix ist, wobei das Faktorenmodell in diesem Fall ungeeignet wäre. Reproduziert. Die geschätzte Korrelationsmatrix aus der Faktorlösung. Residuen (Differenz zwischen geschätzten und beobachteten Korrelationen) werden ebenfalls angezeigt. Anti-Image. Die Anti-Image-Korrelationsmatrix enthält die negativen Werte der partiellen Korrelationskoeffizienten. Die Anti-Image-Kovarianzmatrix enthält die negativen Werte der partiellen Kovarianzen. In einem guten Faktorenmodell sind die meisten außerhalb der Diagonalen liegenden Elemente klein. Das Maß der Stichprobeneignung einer Variablen wird auf der Diagonalen der Anti-Image-Korrelationsmatrix angezeigt. 7.5.2. Faktorenanalyse: Extraktion
Methode. Hier kann die Methode der Faktorenextraktion festgelegt werden. Folgende Methoden sind verfügbar: Hauptkomponenten, ungewichtete kleinste Quadrate, verallgemeinerte kleinste Quadrate, Maximum Likelihood, Hauptachsen-Faktorenanalyse, Alpha-Faktorisierung und Image-Faktorisierung. Hauptkomponentenanalyse (Factor Analysis). Eine Methode zur Faktorextraktion. Sie wird verwendet, um unkorrelierte Linearkombinationen der beobachteten Variablen zu bilden. Die erste Komponente besitzt den größten Varianzanteil. Nachfolgende Komponenten erklären stufenweise kleinere Anteile der Varianz. Sie sind alle miteinander unkorreliert. Die Hauptkomponentenanalyse wird zur Ermittlung der Anfangslösung der Faktorenanalyse verwendet. Weitere Extraktionsmethoden sind: Ungewichtete kleinste Quadrate (Factor Analysis). Eine Faktorextraktionsmethode, welche die Summe der quadrierten Differenzen zwischen der beobachteten und der reproduzierten Korrelationsmatrix unter Nichtberücksichtigung der Diagonalen minimiert. Verallgemeinerte Methode der kleinsten Quadrate (Factor Analysis). Eine Methode der Faktorextraktion, welche die Summe der quadrierten Abweichungen zwischen der beobachteten und der reproduzierten Korrelationsmatrix minimiert. Die Korrelationen werden mit dem inversen Wert der Eindeutigkeit gewichtet, so daß Variablen mit großer Eindeutigkeit schwach und solche mit kleiner Eindeutigkeit stärker gewichtet werden. Maximum-Likelihood-Methode (Factor Analysis). Eine Methode für die Faktorextraktion, die Parameterschätzer erzeugt, bei denen dieWahrscheinlichkeit am größten ist, daß sie die beobachtete Korrelationsmatrix erzeugt haben, wenn die Stichprobe aus einer multivariaten Normalverteilung stammt.
168
Die Korrelationen werden durch die inverse Eindeutigkeit der Variablen gewichtet, und es wird ein iterativer Algorithmus eingesetzt. Hauptachsen-Faktorenanalyse (Factor Analysis). Eine Methode der Faktorextraktion aus der ursprünglichen Korrelationsmatrix, bei der die auf der Diagonalen befindlichen quadrierten Korrelationskoeffizienten als Anfangsschätzer der Kommunalitäten verwendet werden. Diese Faktorladungen werden benutzt, um neue Kommunalitäten zu schätzen, welche die alten Schätzer auf der Diagonalen ersetzen. Die Iterationen werden so lange fortgesetzt, bis die Änderungen in den Kommunalitäten von einer Iteration zur nächsten das Konvergenzkriterium der Extraktion erfüllen. Alpha (Factor). Eine Methode der Faktorextraktion, welche die Variablen in der Analyse als eine Stichprobe aus einer Grundgesamtheit aller potentiellen Variablen betrachtet. Dies vergrößert die Alpha-Reliabilität der Faktoren. Image-Faktorisierung (Factor Analysis). Eine Faktorextraktionsmethode, die von Guttman entwickelt wurde und auf der Imagetheorie basiert. Der gemeinsame Teil einer Variablen - partielles Image genannt - ist als ihre lineare Regression auf die verbleibenden Variablen definiert, und nicht als eine Funktion von hypothetischen Faktoren. Analysieren. Hier können Sie entweder eine Korrelationsmatrix oder eine Kovarianzmatrix festlegen. Korrelationsmatrix. Diese Funktion ist nützlich, wenn die Variablen in Ihrer Analyse anhand verschiedener Skalen gemessen werden. Kovarianzmatrix. Diese Funktion ist nützlich, wenn Sie die Faktorenanalyse auf mehrere Gruppen mit unterschiedlichen Varianzen für die einzelnen Variablen anwenden möchten. Extrahieren. Sie können entweder alle Faktoren, deren Eigenwerte über einem festgelegten Wert liegen, oder aber eine festgelegte Anzahl von Faktoren beibehalten. Anzeigen. Hier können Sie die nicht rotierte Faktorlösung und ein Screeplot der Eigenwerte anfordern. Nicht rotierte Faktorlösung (Factor Analysis). Zeigt unrotierte Faktorladungen (Faktormustermatrix), Kommunalitäten und Eigenwerte für die Faktorlösung an. Screeplot. Ein Diagramm der Varianz, die jedem Faktor zugeordnet ist. Es dient dazu, die Anzahl der Faktoren zu bestimmen, die behalten werden soll. Normalerweise zeigt das Diagramm einen deutlichen Bruch zwischen der starken Steigung der “großen” Faktoren und dem graduellen Verlauf der restlichen Faktoren (der “Geröllhalde”). Maximalzahl der Iterationen für Konvergenz. Hier können Sie für den Algorithmus eine Maximalzahl von Schritten zum Schätzen der Lösung festlegen.
169
7.5.3. Faktorenanalyse: Rotation
Methode. Hier können Sie die Methode der Faktor-Rotation auswählen. Die verfügbaren Methoden sind Varimax, Quartimax, Equamax, Promax oder Oblimin, direkt. Varimax-Rotation (Factor Analysis). Eine orthogonale Rotationsmethode, die die Anzahl der Variablen mit hohen Ladungen für jeden Faktor minimiert. Sie vereinfacht die Interpretation der Faktoren. Weitere Methoden sind: Methode “Oblimin, direkt”. Ein Verfahren zur schiefwinkligen (nichtorthogonalen) Rotation. Wenn Delta den Wert 0 annimmt (Standardeinstellung), sind die Ergebnisse am meisten schiefwinklig. Mit zunehmendem negativen Wert von Delta werden die Faktoren weniger schiefwinklig. Um den Standardwert von 0 zu überschreiben, geben Sie eine Zahl kleiner gleich 0,8 ein. Quartimax-Rotation (Factor Analysis). Eine Rotationsmethode, welche die Zahl der Faktoren minimiert, die zum Erklären aller Variablen benötigt werden. Sie vereinfacht die Interpretation der beobachteten Variablen. Equamax-Rotation (Factor Analysis). Eine Rotationsmethode, die eine Kombination zwischen der Varimax-Methode (sie vereinfacht Faktoren) und der Quartimax-Methode (sie vereinfacht Variablen) darstellt. Die Anzahl der Variablen mit hohen Ladungen auf einen Faktor sowie die Anzahl der Faktoren, die benötigt werden, um eine Variable zu erklären, werden minimiert. Promax-Rotation (Factor Analysis). Eine schiefe Rotation, bei der Faktoren korreliert sein dürfen. Sie kann schneller ermittelt werden als eine direkte Oblim-Rotation und ist daher für große Datenmengen geeignet. Anzeigen. Hiermit können Sie eine Ausgabe für die rotierte Lösung sowie Ladungsdiagramme für die ersten zwei oder drei Faktoren einbeziehen. Rotierte Lösung (Factor Analysis). Um eine rotierte Lösung zu erhalten, muß eine Rotationsmethode ausgewählt sein. Für orthogonale Rotationen werden die rotierte Mustermatrix und Faktortransformationsmatrix angezeigt. Für schiefe Rotationen werden Muster, Struktur und Faktorkorrelationsmatrix angezeigt. Diagramm der Faktorladungen. Dreidimensionales Diagramm der Faktorladungen für die ersten drei Faktoren. Für eine Lösung mit zwei Faktoren wird ein dreidimensionales Diagramm angezeigt. Das Diagramm wird nicht angezeigt, wenn nur ein Faktor extrahiert wird. Auf Wunsch zeigen die Diagramme rotierte Lösungen an.
170
Maximalzahl der Iterationen für Konvergenz. Hier können Sie eine Maximalzahl von Schritten zum Durchführen der Rotation für den Algorithmus festlegen. 7.5.4. Faktorenanalyse: Faktorwerte
Als Variablen speichern. Hiermit wird für jeden Faktor in der endgültigen Lösung eine neue Variable erstellt. Wählen Sie eine der folgenden Methoden für die Berechnung der Faktorwerte aus: Regression, Bartlett oder Anderson-Rubin. Regressionsmethode (Factor Analysis). Eine Methode, um Koeffizienten für Faktorwerte zu schätzen. Die Faktorwerte haben einen Mittelwert von 0 und eine Varianz, die der quadrierten Mehrfachkorrelation zwischen den geschätzten und den wahren Faktorwerten entspricht. Die Werte können korreliert sein, selbst wenn die Faktoren orthogonal sind. Barlett-Werte. Eine Methode zum Schätzen von Koeffizienten für Faktorwerte. Die erzeugten Faktorwerte haben einen Mittelwert von 0. Die Quadratsumme der eindeutigen Faktoren über dem Variablenbereich wird minimiert. Anderson-Rubin-Methode (Factor Analysis). Eine Methode zur Berechnung von Faktorwerten; eine Modifizierung der Bartlett-Methode, die die Orthogonalität der geschätzten Faktoren gewährleistet. Die berechneten Werte haben einen Mittelwert von 0 und eine Standardabweichung von 1 und sind unkorreliert. Koeffizientenmatrix der Faktorwerte anzeigen. Hiermit werden die Koeffizienten angezeigt, mit denen die Variablen multipliziert werden, um Faktorwerte zu erhalten. Hiermit werden auch die Korrelationen zwischen Faktorwerten angezeigt.
7.5.5. Faktorenanalyse: Optionen für Fallausschluß und Sortierung
171
Fehlende Werte. Hier können Sie festlegen, wie fehlende Werte behandelt werden. Es stehen zur Verfügung: “Listenweiser Fallausschluß”, “Paarweiser Fallausschluß” und “Durch Mittelwert ersetzen”. Anzeigeformat für Koeffizienten. Hiermit können Sie Einstellungen für Aspekte der Ausgabematrix vornehmen. Sie können die Koeffizienten nach Größe sortieren lassen und Koeffizienten mit absoluten Werten kleiner als der festgelegte Wert unterdrücken. Beispiel für eine Faktorenanalyse – Syntax. FACTOR /VARIABLES h_naehe h_kran_g hwichtfr arbkosnb aktive_z weiterei ausland engebind vertraul zusammen verclubs verantwo hundaufg aufgunwi gutdurch optimist mut_k_an and_helf aeussere auto_woh wachschu freundhu kontakth schoenhu hobbyhun alter hundseel h_friedh /MISSING MEANSUB /ANALYSIS h_naehe h_kran_g hwichtfr arbkosnb aktive_z weiterei ausland engebind vertraul zusammen verclubs verantwo hundaufg aufgunwi gutdurch optimist mut_k_an and_helf aeussere auto_woh wachschu freundhu kontakth schoenhu hobbyhun alter hundseel h_friedh /PRINT UNIVARIATE AIC ROTATION /FORMAT SORT BLANK(.45) /PLOT EIGEN /CRITERIA MINEIGEN(1) ITERATE(25) /EXTRACTION PC /CRITERIA ITERATE(25) /ROTATION VARIMAX /SAVE REG(ALL) /METHOD=CORRELATION . Sie erhalten u.a. folgenden Output:
172
7.5.6. Faktorenanalyse: Wichtige Teile des Outputs
7.5.6.1. Deskriptive Statistiken Deskriptive Statistiken
Mittelwert Standardabw
eichung(a) Analyse
N(a) Fehlendes N Mag Menschen, die Hund in ihrer Nähe haben wollen 3,84 1,119 992 9
Wenn der Hund krank ist, sollte man bereit sein, viel Geld auszugeben
4,41 ,909 992 4
Hund wichtigster Freund 3,53 1,212 992 3 Arbeit und Kosten sollten nicht als Belastung gelten 4,03 1,342 992 13
Aktive Zeit in Minuten pro Tag 171,63 93,112 992 65
Ich mache gern weite Reisen 3,25 1,211 992 5
Ich habe schon viel von der Welt gesehen 3,10 1,195 992 4
Ich versuche zu anderen Menschen enge persönliche Bindungen zu haben
3,76 ,931 992 18
Ich mag es, wenn andere mich vertraulich und persönlich behandeln
3,90 ,920 992 3
Ich fühle mich wohl, wenn ich mit anderen Menschen zusammen bin
4,03 ,871 992 6
Ich versuche, am Leben von Vereinen oder Clubs teilzunehmen
2,89 1,230 992 7
Ich versuche... Verantwortung zu übernehmen
3,85 ,920 992 8
Wenn eine Hund seine Aufgaben nicht erfüllt, sollte man sich einen anderen Hund anschaffen
1,68 1,009 992 11
Hunde müssen keine besonderen Aufgaben haben...
3,39 1,155 992 12
Ich selber bin ein Mensch, der sich gut durchsetzen kann
3,73 ,848 992 11
Ich halte mich für einen optimistischen, fröhlichen Menschen
3,89 ,914 992 8
Ich habe ziemlich viel Mut, Angst kenne ich nicht 3,18 ,893 992 12
173
Wenn ich eine Gelegenheit sehe, anderen zu helfen, nehme ich sie wahr 4,10 ,781 992 8
Ich lege Wert auf mein Äußeres 3,78 ,923 992 10
Ich habe Freude an schönen und schnellen Autos beziehungsweise an eleganten Wohnungen
2,76 1,210 992 17
Mein H. soll Wach- und Schutzhund sein 2,83 1,159 992 29
Mein Hund soll mir ein Freund sein 4,53 ,766 992 16
Mein Hund soll mir Gelegenheit geben, mit anderen interessanten Menschen in Kontakt zu kommen
3,27 1,122 992 14
Mein Hund soll schön und auffallend sein 2,32 1,033 992 18
Mein Hund soll mir die Gelegenheit geben, ein Hobby auszuüben
2,80 1,264 992 51
alter 39,3564 15,90582 992 24 Haben Hunde eine Seele 2,75 ,509 992 73 Sollte man Hunde in Ehren bestatten 1,64 ,451 992 121
a Bei jeder Variablen werden fehlende Werte durch den Mittelwert der Variablen ersetzt.
7.5.6.2. Die Anti-Image-Kovarianzmatrix und andere Informationen über die Angemessenheit der Stichprobe Die Anti-Image-Kovarianzmatrix ist für den Abdruck hier zu groß. Die Anti-Image-Kovarianzmatrix enthält die negativen Werte der partiellen Kovarianzen. In einem guten Faktorenmodell sind die meisten außerhalb der Diagonalen liegenden Elemente klein. Das Maß der Stichprobeneignung einer Variablen wird auf der Diagonalen der Anti-Image-Korrelationsmatrix angezeigt. Sein Maximum ist 1. Gute Werte liegen nahe bei 1. Das Kaiser-Meyer-Olkin-Maß für Angemessenheit der Stichproben überprüft, ob die partiellen Korrelationen zwischen Variablen klein sind. Der Bartlett-Test auf Sphärizität prüft, ob die Korrelationsmatrix eine Einheitsmatrix ist, wobei das Faktorenmodell in diesem Fall ungeeignet wäre.
174
7.5.6.3. Screeplot und rotierte Komponentenmatrix Der Eigenwert eines Faktors j berechnet sich als Summe der quadrierten Ladungen eines Faktors. Er kennzeichnet den durch einen Faktor j erfaßten Varianzanteil.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
Faktor
0
1
2
3
4
Eige
nwer
t
Screeplot
Rotierte Komponentenmatrix(a)
Komponente 1 2 3 4 5 6 7 Hund wichtigster Freund ,756 Mag Menschen, die Hund in ihrer Nähe haben wollen ,743
Mein Hund soll mir ein Freund sein ,682
Wenn der Hund krank ist, sollte man bereit sein, viel Geld auszugeben
,654
Haben Hunde eine Seele ,500 Wenn eine Hund seine Aufgaben nicht erfüllt, sollte man sich einen anderen Hund anschaffen
-,494
175
Hunde müssen keine besonderen Aufgaben haben...
,490
Sollte man Hunde in Ehren bestatten ,459
Ich mag es, wenn andere mich vertraulich und persönlich behandeln
,792
Ich fühle mich wohl, wenn ich mit anderen Menschen zusammen bin
,773
Ich versuche zu anderen Menschen enge persönliche Bindungen zu haben
,756
Ich selber bin ein Mensch, der sich gut durchsetzen kann
,706
Ich habe ziemlich viel Mut, Angst kenne ich nicht ,657
Ich halte mich für einen optimistischen, fröhlichen Menschen
,614
Ich versuche... Verantwortung zu übernehmen
,544
Wenn ich eine Gelegenheit sehe, anderen zu helfen, nehme ich sie wahr ,451
Mein Hund soll mir die Gelegenheit geben, ein Hobby auszuüben
,758
Ich versuche, am Leben von Vereinen oder Clubs teilzunehmen
,595
Mein Hund soll mir Gelegenheit geben, mit anderen interessanten Menschen in Kontakt zu kommen
,487 ,554
Ich habe Freude an schönen und schnellen Autos beziehungsweise an eleganten Wohnungen
,750
Mein Hund soll schön und auffallend sein ,657
Ich lege Wert auf mein Äußeres ,633
Mein H. soll Wach- und Schutzhund sein
Ich habe schon viel von der Welt gesehen ,846
Ich mache gern weite Reisen ,819
alter -,726Arbeit und Kosten sollten nicht als Belastung gelten ,538
176
Erklärte Gesamtvarianz
3,608 12,885 12,8852,345 8,375 21,2602,226 7,951 29,2111,782 6,364 35,5751,729 6,176 41,7511,601 5,719 47,4701,347 4,810 52,280
Komponente1234567
Gesamt % der Varianz Kumulierte %Rotierte Summe der quadrierten Ladungen
Extraktionsmethode: Hauptkomponentenanalyse.
7.5.6.4 . Graphische Darstellung der Faktorwerte nach Geschlecht und Alter GRAPH /BAR(GROUPED)=MEAN(FAC1_1) BY geschhal BY alterrec . GRAPH /BAR(GROUPED)=MEAN(FAC2_1) BY geschhal BY alterrec . GRAPH /BAR(GROUPED)=MEAN(FAC3_1) BY geschhal BY alterrec . GRAPH /BAR(GROUPED)=MEAN(FAC4_1) BY geschhal BY alterrec . GRAPH /BAR(GROUPED)=MEAN(FAC5_1) BY geschhal BY alterrec . GRAPH /BAR(GROUPED)=MEAN(FAC6_1) BY geschhal BY alterrec . GRAPH /BAR(GROUPED)=MEAN(FAC7_1) BY geschhal BY alterrec . Faktoren-Mittelwerte nach Alter und Geschlecht. Faktor 1: Präferenz für Hunde
177
weiblich männlich
Geschl. d. Befragten
-0,60000
-0,40000
-0,20000
0,00000
0,20000
0,40000
0,60000
0,80000M
ittel
wer
t REG
R fa
ctor
sco
re
1 fo
r ana
lysi
s 1
alterrec8,0023,0038,0053,0068,0083,00
Faktor 2 Präferenz für die Zuwendung anderer Menschen
178
weiblich männlich
Geschl. d. Befragten
-0,60000
-0,40000
-0,20000
0,00000
0,20000
0,40000
0,60000
0,80000M
ittel
wer
t REG
R fa
ctor
sco
re
2 fo
r ana
lysi
s 1
alterrec8,0023,0038,0053,0068,0083,00
179
Faktor 3: Dominanz
weiblich männlich
Geschl. d. Befragten
-0,40000
-0,20000
0,00000
0,20000
0,40000
0,60000
0,80000
1,00000
Mitt
elw
ert R
EGR
fact
or s
core
3
for a
naly
sis
1
alterrec8,0023,0038,0053,0068,0083,00
180
Faktor 4 Kontaktsuche u.a. im Vereinsleben mittels Hund
weiblich männlich
Geschl. d. Befragten
-0,20000
0,00000
0,20000
0,40000
0,60000
Mitt
elw
ert R
EGR
fact
or s
core
4
for a
naly
sis
1
alterrec8,0023,0038,0053,0068,0083,00
181
Faktor 5 Hund und Luxus
weiblich männlich
Geschl. d. Befragten
-0,20000
0,00000
0,20000
0,40000
Mitt
elw
ert R
EGR
fact
or s
core
5
for a
naly
sis
1
alterrec8,0023,0038,0053,0068,0083,00
182
Faktor 6 Mobilität
weiblich männlich
Geschl. d. Befragten
-0,40000
-0,20000
0,00000
0,20000
0,40000
Mitt
elw
ert R
EGR
fact
or s
core
6
for a
naly
sis
1
alterrec8,0023,0038,0053,0068,0083,00
183
Faktor 7 Breitschaft, sich für das Wohl des Hundes anzustrengen
weiblich männlich
Geschl. d. Befragten
-2,00000
-1,00000
0,00000
1,00000
Mitt
elw
ert R
EGR
fact
or s
core
7
for a
naly
sis
1
alterrec8,0023,0038,0053,0068,0083,00
7.5.6.5. Graphische Darstellung der Faktorwerte nach Geschlecht und „Gruppenzugehörigkeit“ GRAPH /BAR(GROUPED)=MEAN(FAC1_1) BY geschhal BY grupord . GRAPH /BAR(GROUPED)=MEAN(FAC2_1) BY geschhal BY grupord . GRAPH /BAR(GROUPED)=MEAN(FAC3_1) BY geschhal BY grupord . GRAPH /BAR(GROUPED)=MEAN(FAC4_1) BY geschhal BY grupord . GRAPH /BAR(GROUPED)=MEAN(FAC5_1) BY geschhal BY grupord . GRAPH /BAR(GROUPED)=MEAN(FAC6_1) BY geschhal BY grupord . GRAPH /BAR(GROUPED)=MEAN(FAC7_1) BY geschhal BY grupord .
184
Faktor 1
weiblich männlich
Geschl. d. Befragten
-0,80000
-0,60000
-0,40000
-0,20000
0,00000
0,20000
0,40000
0,60000
Mitt
elw
ert R
EGR
fact
or s
core
1
for a
naly
sis
1
Geordnete GruppenHundeloseHaupterhebungTierarztpraxisNaturwiss.Sammlung "Hund"Hundesport und h-politisch aktive
185
Faktor 2
weiblich männlich
Geschl. d. Befragten
-0,30000
-0,20000
-0,10000
0,00000
0,10000
0,20000
Mitt
elw
ert R
EGR
fact
or s
core
2
for a
naly
sis
1
Geordnete GruppenHundeloseHaupterhebungTierarztpraxisNaturwiss.Sammlung "Hund"Hundesport und h-politisch aktive
186
Faktor 3
weiblich männlich
Geschl. d. Befragten
-0,20000
-0,10000
0,00000
0,10000
0,20000
0,30000
0,40000
0,50000
Mitt
elw
ert R
EGR
fact
or s
core
3
for a
naly
sis
1
Geordnete GruppenHundeloseHaupterhebungTierarztpraxisNaturwiss.Sammlung "Hund"Hundesport und h-politisch aktive
187
Faktor 4
weiblich männlich
Geschl. d. Befragten
-0,40000
-0,20000
0,00000
0,20000
0,40000
0,60000
0,80000
Mitt
elw
ert R
EGR
fact
or s
core
4
for a
naly
sis
1
Geordnete GruppenHundeloseHaupterhebungTierarztpraxisNaturwiss.Sammlung "Hund"Hundesport und h-politisch aktive
188
Faktor 5
weiblich männlich
Geschl. d. Befragten
-0,40000
-0,20000
0,00000
0,20000
0,40000
Mitt
elw
ert R
EGR
fact
or s
core
5
for a
naly
sis
1
Geordnete GruppenHundeloseHaupterhebungTierarztpraxisNaturwiss.Sammlung "Hund"Hundesport und h-politisch aktive
189
Faktor 6
weiblich männlich
Geschl. d. Befragten
-0,50000
-0,25000
0,00000
0,25000
0,50000
0,75000
Mitt
elw
ert R
EGR
fact
or s
core
6
for a
naly
sis
1
Geordnete GruppenHundeloseHaupterhebungTierarztpraxisNaturwiss.Sammlung "Hund"Hundesport und h-politisch aktive
190
Faktor 7
weiblich männlich
Geschl. d. Befragten
-0,30000
-0,20000
-0,10000
0,00000
0,10000
0,20000
Mitt
elw
ert R
EGR
fact
or s
core
7
for a
naly
sis
1
Geordnete GruppenHundeloseHaupterhebungTierarztpraxisNaturwiss.Sammlung "Hund"Hundesport und h-politisch aktive
191
Kapitel 8 Standardgraphiken 8.1.Balkendiagramme, einfache Auszählungen.
Balkendiagramme können für einfache Häufigkeitsauszählungen benutzt werden, sofern nur eine Variable in das folgende Fenster eingegeben wird.
Durch Anklicken von „Definieren“ erhalten wir die Schaltfläche, die uns angibt, welche Varianten für die „Bedeutung der Balken“ – ohne Zusatzbearbeitung der Graphik – möglich sind.
Es sind: Einfache und kumulierte absolute und prozentuale Häufigkeiten. Wählt man diese Möglichkeiten aus und erzeugt die entsprechende Syntax durch „Einfügen“, dann erhält man folgende Varianten der Syntax: GRAPH /BAR(SIMPLE)=COUNT BY weiterei /MISSING=REPORT. GRAPH /BAR(SIMPLE)=CUFREQ BY weiterei /MISSING=REPORT.
192
GRAPH /BAR(SIMPLE)=PCT BY weiterei /MISSING=REPORT. GRAPH /BAR(SIMPLE)=CUPCT BY weiterei /MISSING=REPORT. Führt man diese Syntax aus, dann erscheinen vier verschiedene Graphiken mit unterschiedlichen Beschriftung und Skalen an der linken Seite und unterschiedlicher Gestalt der Verteilung. Die kumulierten Verteilungen steigen immer von links nach rechts an und enden bei der aufkumulierten Summe der Fälle bzw. bei 100 %: Diagramm
Ich mache gern weite Reisen
Auf jeden Falleher ja
Teils-teilsEher nicht
Auf keinen FallFehlend
Abs
olut
e W
erte
300
200
100
0
Diagramm
193
Ich mache gern weite Reisen
Auf jeden Falleher ja
Teils-teilsEher nicht
Auf keinen FallFehlend
Kum
ulat
ive
Häu
figke
it1200
1000
800
600
400
200
0
Diagramm
Ich mache gern weite Reisen
Auf jeden Falleher ja
Teils-teilsEher nicht
Auf keinen FallFehlend
Pro
zent
30
20
10
0
Diagramm
194
Ich mache gern weite Reisen
Auf jeden Falleher ja
Teils-teilsEher nicht
Auf keinen FallFehlend
Kum
ulat
ive
Pro
zent
120
100
80
60
40
20
0
In allen diesen Graphiken sind die fehlenden Fälle mit enthalten. Dies kann man unterdrücken, wenn man in der Syntax den entsprechenden Zusatz streicht und den „Punkt“ ans Ende der verbleibenden Syntax setzt. GRAPH /BAR(SIMPLE)=COUNT BY weiterei. /MISSING=REPORT. Man erhält dann die Graphik ohne die fehlenden Fälle:
Ich mache gern weite Reisen
Auf jeden Falleher jaTeils-teilsEher nichtAuf keinen Fall
Abs
olut
e W
erte
300
200
100
0
195
8.2. „Andere Auswertungsfunktionen“ Wählt man aber in der o.a. Schaltfläche die Option: „Andere Auswertungsfunktion“, dann wird vom Rechner die Eingabe einer weiteren Variable verlangt, deren Mittelwerte (nach Voreinstellung) man den Ausprägungen der Variable zuordnen kann, die man als „Kategorie“ benutzt hat.
In der Syntax erscheint jetzt ein „by“; Die Möglichkeit ist gegeben, den Zusammenhang zweier Variablen darzustellen: GRAPH /BAR(SIMPLE)=MEAN(kg_hund) BY weiterei. Der Output sieht wie folgt aus:
Ich mache gern weite Reisen
Auf jeden Falleher jaTeils-teilsEher nichtAuf keinen Fall
Mitt
elw
ert G
ewic
ht d
es H
unde
s in
Kg
28,0
27,5
27,0
26,5
26,0
25,5
Die Graphik zeigt, daß im Durchschnitt das Gewicht der Hunde derjenigen Leute größer ist, die keine Lust zum Reisen haben. Diese Aussage stimmt natürlich nur, wenn man hier die Leute nicht mitzählt, die keinen Hund besitzen. Neben der Möglichkeit, hier den Durchschnitt der zweiten Variable der ersten Variable zuzuweisen, bestehen noch folgende weitere Optionen: Zum Beispiel kann man sich die Summe ausdrucken lassen.
196
Die Syntax lautet dann: GRAPH /BAR(SIMPLE)=SUM(kg_hund) BY weiterei /MISSING=REPORT. An der Graphik sieht man, dass die Summe der Gewichte der Hunde, die auf die verschiedenen Kategorien der Reiselust entfallen, wesentlich weniger informativ sind, es sei denn man wäre an dem Gesamtgewicht des Hundefleischs interessiert, weil alle Befragten in den verschiedenen Kategorien ihre Hunde schlachten...:
Ich mache gern weite Reisen
Auf jeden Falleher ja
Teils-teilsEher nicht
Auf keinen FallFehlend
Sum
me
Gew
icht
des
Hun
des
in K
g
5000
4000
3000
2000
1000
0
197
8.3. Übersicht über spezielle Auswertungsfunktionen Die anderen Varianten der „Anderen Auswertungsfunktionen“ haben folgende Syntax und Gestalt der Graphik: (gleiche Daten): Angefordert wird GRAPH /BAR(SIMPLE)=MED(kg_hund) BY weiterei Median /MISSING=REPORT. GRAPH /BAR(SIMPLE)=MODE(kg_hund) BY weiterei Modus /MISSING=REPORT. GRAPH /BAR(SIMPLE)=N(kg_hund) BY weiterei Anzahl /MISSING=REPORT. GRAPH /BAR(SIMPLE)=STD(kg_hund) BY weiterei Standardabweichung /MISSING=REPORT. GRAPH /BAR(SIMPLE)=VAR(kg_hund) BY weiterei Varianz /MISSING=REPORT. GRAPH /BAR(SIMPLE)=MIN(kg_hund) BY weiterei Minimum /MISSING=REPORT. GRAPH /BAR(SIMPLE)=MAX(kg_hund) BY weiterei Maximum /MISSING=REPORT. GRAPH /BAR(SIMPLE)=CUS(kg_hund) BY weiterei kumulierte Summe /MISSING=REPORT. GRAPH /BAR(SIMPLE)=PGT(10)(kg_hund) BY weiterei % größer als 10 kg /MISSING=REPORT. GRAPH /BAR(SIMPLE)=PLT(10)(kg_hund) BY weiterei % kleiner als 10kg /MISSING=REPORT. GRAPH /BAR(SIMPLE)=NGT(10)(kg_hund) BY weiterei Anzahl größer als 10 kg /MISSING=REPORT. GRAPH /BAR(SIMPLE)=NLT(10)(kg_hund) BY weiterei Anzahl kleiner als 10 kg /MISSING=REPORT. GRAPH /BAR(SIMPLE)=PIN(5 25)(kg_hund) BY weiterei % im Intervall von 5-25 kg /MISSING=REPORT. GRAPH /BAR(SIMPLE)=NIN(5 25)(kg_hund) BY weiterei Anzahl im Intervall von 5-25 kg /MISSING=REPORT. Die entsprechenden Balkengraphiken sehen wie folgt aus:
198
Ich mache gern weite Reisen
Auf jeden Falleher ja
Teils-teilsEher nicht
Auf keinen FallFehlend
Med
Gew
icht
des
Hun
des
in K
g27,0
26,5
26,0
25,5
25,0
24,5
Ich mache gern weite Reisen
Auf jeden Falleher ja
Teils-teilsEher nicht
Auf keinen FallFehlend
Mod
us G
ewic
ht d
es H
unde
s in
Kg
32
30
28
26
24
22
20
18
199
Ich mache gern weite Reisen
Auf jeden Falleher ja
Teils-teilsEher nicht
Auf keinen FallFehlend
N v
on G
ewic
ht d
es H
unde
s in
Kg
200
100
0
Ich mache gern weite Reisen
Auf jeden Falleher ja
Teils-teilsEher nicht
Auf keinen FallFehlend
Std
.Abw
. G
ewic
ht d
es H
unde
s in
Kg
18
16
14
12
10
8
6
4
200
Ich mache gern weite Reisen
Auf jeden Falleher ja
Teils-teilsEher nicht
Auf keinen FallFehlend
Var
Gew
icht
des
Hun
des
in K
g400
300
200
100
0
Ich mache gern weite Reisen
Auf jeden Falleher ja
Teils-teilsEher nicht
Auf keinen FallFehlend
Min
Gew
icht
des
Hun
des
in K
g
30
20
10
0
201
Ich mache gern weite Reisen
Auf jeden Falleher ja
Teils-teilsEher nicht
Auf keinen FallFehlend
Max
Gew
icht
des
Hun
des
in K
g100
90
80
70
60
50
40
30
20
Ich mache gern weite Reisen
Auf jeden Falleher ja
Teils-teilsEher nicht
Auf keinen FallFehlend
KuS
umm
e G
ewic
ht d
es H
unde
s in
Kg
16000
14000
12000
10000
8000
6000
4000
2000
0
202
Ich mache gern weite Reisen
Auf jeden Falleher ja
Teils-teilsEher nicht
Auf keinen FallFehlend
%>1
0 fü
r Gew
icht
des
Hun
des
in K
g110
100
90
80
70
Ich mache gern weite Reisen
Auf jeden Falleher ja
Teils-teilsEher nicht
Auf keinen FallFehlend
%<1
0 fü
r Gew
icht
des
Hun
des
in K
g
20
10
0
203
Ich mache gern weite Reisen
Auf jeden Falleher ja
Teils-teilsEher nicht
Auf keinen FallFehlend
N>1
0 fü
r Gew
icht
des
Hun
des
in K
g160
140
120
100
80
60
40
20
0
Ich mache gern weite Reisen
Auf jeden Falleher ja
Teils-teilsEher nicht
Auf keinen FallFehlend
N<1
0 fü
r Gew
icht
des
Hun
des
in K
g
20
10
0
204
Ich mache gern weite Reisen
Auf jeden Falleher ja
Teils-teilsEher nicht
Auf keinen FallFehlend
%in
(5;2
5) G
ewic
ht d
es H
unde
s in
Kg
52
50
48
46
44
42
Ich mache gern weite Reisen
Auf jeden Falleher ja
Teils-teilsEher nicht
Auf keinen FallFehlend
Nin
(5;2
5) G
ewic
ht d
es H
unde
s in
Kg
100
80
60
40
20
0
Es ist wichtig zu wissen, dass diese Graphiken alle sehr verschiedene Aussagen beinhalten und es ist deshalb von großer Bedeutung, durch entsprechende Beschriftungen auf diese unterschiedlichen Aussagen aufmerksam zu machen.
205
8.4 Änderungen und Zusätze Hierzu kann jede Graphik noch in ihrer Fläche bearbeitet werden. Wer dies nicht möchte, kann auch nachträglich die Graphik in Word beschriften, aber nicht mehr im Feld der Graphik selber, sondern nur außerhalb. Das kann von Vorteil sein, wenn man spätere Änderungen vornehmen möchte, zu denen man aber die Daten nicht mehr hat, aus denen die Graphik produziert worden ist. Wir gehen wieder von den Durchschnittsgewichten der Hunde aus, die die Leute mit unterschiedlichen Reisepräferenzen haben:
Ich mache gern weite Reisen
Auf jeden Falleher jaTeils-teilsEher nichtAuf keinen Fall
Mitt
elw
ert G
ewic
ht d
es H
unde
s in
Kg
28,0
27,5
27,0
26,5
26,0
25,5
Bevor man diese Graphik bearbeiten kann, muß man sie in den Chart-SPSS-Diagramm-Editor transportieren, was durch Doppelklick geschieht. Das darin erscheinende Bild kann man auf Bildschirmgröße vergrößern. Zunächst verändern wir die Farbe von rot in gelb. Hierzu klicken wir die Balken an, die dann mit schwarzen Karos markiert werden:
206
Dann holen wir uns die Schaltfläche „Farbe“ (sieht wie ein Lippenstift aus) und weisen den Balken das Gelb zu.
207
Danach schließen wir diese Schaltfläche wieder. Wollen wir die Balken mit der Information über die Durchschnittsgewichte versehen, holen wir nach Anklicken der Balken die Schaltfläche „Balkenbeschriftung“ und wählen dort die „Standard“-Beschriftung, die wir den Balken „zuweisen“.
Für die Zuweisung eines Titels erhalten wir unter „Diagramme“ die Schaltfläche: „Titel“:
Dort können wir Titel, Untertitel etc. eingeben und auch festlegen, wie der Titel formatiert werden soll. Unsere Graphik sieht dann wie folgt aus: (Allerdings müssen wir zuerst noch die Schriftgröße des Titels durch die Schaltfläche „T“ (=Text) auf die Größe 8 setzen, weil der lange Titeltext sonst nicht in das für ihn vorgesehene Feld passt.
208
Befragte nach Reiselust und Durchschnittsgewicht des Hundes
Ich mache gern weite Reisen
Auf jeden Falleher jaTeils-teilsEher nichtAuf keinen Fall
Mitt
elw
ert G
ewic
ht d
es H
unde
s in
Kg
28,0
27,5
27,0
26,5
26,0
25,5
26,1
25,9
26,2
25,9
27,5
8.5 Auswertung über mehrere Variablen In der Schaltfläche Balkendiagramme findet sich als zweite Option die Möglichkeit, eine (gleichzeitige) Auswertung verschiedener Variablen durchzuführen.
209
Beispiel: wir lassen uns die Durchschnitte des Hundegewichts, des Hundealters und der Wohnungs- fläche gleichzeitig anzeigen: GRAPH /BAR(SIMPLE)= MEAN(kg_hund) MEAN(alter_hu) MEAN(wohnungm) /MISSING=VARIABLEWISE .
Meine Wohnung hat caAlter des Hundes in
Gewicht des Hundes i
Mitt
elw
ert
100
80
60
40
20
0
Eine solche Gegenüberstellung macht für einzelne Stichproben wenig Sinn, ist aber für den Vergleich von Teilgruppen u. U. recht illustrativ.
210
So lässt sich für verschiedene Altersgruppen von Hundehaltern der Durchschnitt des Alters und des Gewichts der Hunde ermitteln: GRAPH /BAR(GROUPED)=MEAN(kg_hund) MEAN(alter_hu) BY alterrec /MISSING=LISTWISE REPORT.
ALTERREC
83,0068,0053,0038,0023,008,00
Mitt
elw
ert
120
100
80
60
40
20
0
Gewicht des Hundes i
n Kg
Alter des Hundes in
Monaten
So zeigt sich bei dieser Gegenüberstellung von Altersgruppen, dass das Alter des Hundebesitzers positiv mit dem Alter des Hundes korreliert, über den berichtet wird, und leicht negativ mit seinem Gewicht korreliert, wie man hier gut sehen, aber auch nachrechnen kann: Siehe die folgende Tabelle:
211
Korrelationen
1,000 -,074 ,253**, ,100 ,000
515 497 511-,074 1,000 -,116**,100 , ,007497 546 542,253** -,116** 1,000,000 ,007 ,511 542 968
Korrelation nach PearsonSignifikanz (2-seitig)NKorrelation nach PearsonSignifikanz (2-seitig)NKorrelation nach PearsonSignifikanz (2-seitig)N
Alter des Hundesin Monaten
Gewicht desHundes in Kg
ALTER
Alter desHundes inMonaten
Gewicht desHundes in Kg ALTER
Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.**.
Bei diesem „Gegenüberstellen“ verschiedener Variablen haben wir als Auswertungsfunktionen wieder die Liste der oben aufgeführten Möglichkeiten zur Verfügung, wie die folgende – oben schon benutzte – Schaltfläche nochmals zeigt.
8.6 Werte einzelner Fälle Als letze Möglichkeit, einfache Balkendiagramme zu benutzen, wird die Option angeboten, „Werte einzelner Fälle“ zu dokumentieren. Diese Option ist natürlich nur für kleine Fall-Mengen sinnvoll. Zieht man beispielsweise eine Stichprobe aus unserer Datei mit 10 Fällen, und will man sich schnell über deren Alter und deren Messwert auf dem Optimismus-Item informieren, wäre das wie folgt möglich: GRAPH /BAR(SIMPLE)=VALUE( optimist ) BY alter .
212
ALTER
74,0025,0063,0060,0038,0039,0028,0040,0055,0023,00
Wer
t Ich
hal
te m
ich
für e
inen
opt
imis
tisch
en, f
röhl
ich
5,5
5,0
4,5
4,0
3,5
3,0
2,5
2,0
1,5
8.7 Gestapelte Balkengraphik Unter den Möglichkeiten der Balkengraphik wird auch die gestapelte Balkengraphik angeboten. Beispiel: Wir wollen wissen, wie sich unsere Befragten prozentual nach Alter und Geschlecht verteilen.
213
Nach Wahl des gestapelten Diagramms für die Auswertung einer Variablen bekommen wir folgende Schaltfläche, in der wir als Kategorienachse das Alter wählen und die Stapel durch die Variable Geschlecht definieren. Die resultierende Syntax ist: GRAPH /BAR(STACK)=PCT BY alterrec BY geschhal. Die Graphik hat folgendes Aussehen (ich habe hier noch durch weitere Bearbeitung die Beschriftung der Stapel mit den Werten der Prozente veranlaßt):
ALTERREC
83,0068,0053,0038,0023,008,00
Pro
zent
80
60
40
20
0
Geschl. d. Befragten
männlich
weiblich
12
21
34
24
710
21
35
27
6
Es besteht ebenfalls die Möglichkeit, bei Stapelgraphiken mehrere Variablen zu vergleichen: Diefolgende Stapelgraphik vergleicht die Mittelwerte der Variablen: „Aktive Zeit am Tag mit dem Hund in Minuten“ sowie „Kosten pro Monat in DM“ zwischen Gruppen verschieden großer Reiselust. GRAPH /BAR(STACK)=MEAN(aktive_z) MEAN(kosten_m) BY weiterei /MISSING=VARIABLEWISE .
214
Ich mache gern weite Reisen
Auf jeden Falleher ja
Teils-teilsEher nicht
Auf keinen Fall
Mitt
elw
ert
500
400
300
200
100
0
Kosten im Monat in D
M
Aktive Zeit in Minut
en pro Tag
173152158
183
210
156172165
185199
Tendenziell fällt das arithmetische Mittel beider Variablen, je größer die Reiselust ist. 8.8. Liniengraphiken (Häufigkeitspolygon) Die Liniengraphiken sind in ihrer Variationsmöglichkeit der Balkengraphik sehr ähnlich. Allerdings gibt es zwei wesentliche Unterschiede: Während zwischen den Balken freie Räume sind, für die keine Werte existieren, die einen Sinn haben müssten, werden die Linien über die ganze Breite der Graphik durchgezogen und alle ihre Punkte müssten interpretationsfähig sein. Liniengraphiken setzen insofern stetige Variablen voraus, was bei Balkengraphiken nicht der Fall ist. Weiterhin können Linien für den gleichen Meßpunkt der Kategorienachse mehrere Informationen gleichzeitig anzeigen, was zwar auch für Balkengraphiken möglich ist, aber es ist nur durch Nebeneinanderstellen der Balken zu realisieren, was umständlicher wirkt als übereinander herlaufende Linien. Im folgenden werden zwei Liniengraphiken gezeigt, die den gleichen Sachverhalt betreffen: Das durchschnittliche Gewicht des gehaltenen Hundes nach Alter und Geschlecht des Befragten. Hier haben wir die Syntax und die Graphik als multiple Liniengraphik, die zeigt, dass der Hund von Männern im Durchschnitt schwerer ist als der Hund von Frauen, verglichen über verschiedene Altersgruppen hinweg. GRAPH /LINE(MULTIPLE)MEAN(kg_hund) BY alterrec BY geschhal.
215
ALTERREC
83,0068,0053,0038,0023,008,00
Mitt
elw
ert G
ewic
ht d
es H
unde
s in
Kg
40
30
20
10
0
Geschl. d. Befragten
weiblich
männlich
Die gleiche Information – dargestellt mittels „Veerbundliniensystem“ – ergibt folgendes Bild: Hier werden vor allem die Abstände hervorgehoben: GRAPH /LINE(DROP)=MEAN(kg_hund) BY alterrec BY geschhal.
ALTERREC
83,0068,0053,0038,0023,008,00
Mitt
elw
ert G
ewic
ht d
es H
unde
s in
Kg
40
30
20
10
0
Geschl. d. Befragten
weiblich
männlich
216
8.9 Fächengraphiken Bei Flächengraphiken besteht die Notwendigkeit, daß die Fläche interpretiert werden kann. Dies ist immer dann der Fall, wenn dem Integral der Kurve bei Liniengraphiken Sinn zugesprochen werden kann. Wenn nur der Abstand der Linie von der „x-Achse“ einen Sinn hat, sollte man auf Flächengraphiken verzichten. GRAPH /LINE(AREA)=MEAN(aktive_z) BY alterrec.
ALTERREC
83,0068,0053,0038,0023,008,00
Mitt
elw
ert A
ktiv
e Ze
it in
Min
uten
pro
Tag
200
190
180
170
160
150
140
130
120
Obige Flächengraphik über den Zusammenhang von „Aktive Zeit in Minuten pro Tag bei der Betreuung des Hundes“ und Lebensalter der Befragten ist m.E. problematisch, wenn es auch technisch möglich ist, sie herzustellen. Die Fläche mag schön aussehen, hätte aber nur dann präzise inhaltliche Bedeutung, wenn die Altersvariable und die Variable „aktive Zeit…“ kontinuierlich wäre und wenn man dann das Integral der aktiven Zeit über der Altersvariable zeichnen könnte. Ähnlich ist es mit der folgenden Graphik zur gleichzeitigen Auswertung mehrerer Variablen: GRAPH /LINE(AREA)=PGT(1)(operatio) PGT(1)(schoenop) BY h_kran_g. Das Bild sieht beeindruckend aus, es wäre aber besser eine Liniengraphik oder Balkengraphik erstellt worden:
217
Wenn der Hund krank ist, sollte man bereit sein, viel Geld auszuge
Auf jeden Falleher jaTeils-teilsEher nicht
% >
130
20
10
0
schönheitsbedingte O
perationen
krankheitsbedingte O
perationen
Die entsprechende Balkengraphik wäre:
218
Wenn der Hund krank ist, sollte man bereit sein, viel Geld auszuge
Auf jeden Falleher jaTeils-teilsEher nicht
% >
130
20
10
0
krankheitsbedingte O
perationen
schönheitsbedingte O
perationen222
25
23
1920
Aus ihr geht hervor, dass den verschiedenen Ausprägungen der Variable „Wenn der Hund krank ist, sollte man bereit sein, viel Geld auszugeben…“ unterschiedliche prozentuale Häufigkeiten des Vorkommens von krankheits- und schönheitsbedingten Operationen zugeordnet werden können. Wider Erwarten haben hiernach diejenigen, die kein Geld für Schönheitsoperationen am Hund ausgeben wollen, am häufigsten solche Operationen machen lassen, bei krankheitsbedingten Operationen sind die am häufigsten vertreten, die auch die größte Bereitschaft zeigen, entsprechende Gelder in den Hund zu investieren. Während bei der Flächengraphik undeutlich ist, ob die Flächen addiert sind oder hintereinander stehen, ist ein solcher Zweifel bei der Balkengraphik nicht möglich. Sie ist zwar nicht so „schön“, aber eindeutig. 8.10 Kreisgraphiken Kreisgraphiken eignen sich vor allem zur Darstellung von einfachen Häufigkeitsverteilungen – absolute oder prozentuale Häufigkeiten. Sie wirken anders als Balkendiagramme, wie man am Vergleich des folgenden Kreisdiagramms und des inhaltlich entsprechenden Balkendiagramms zeigen kann: Syntax: GRAPH /PIE=PCT BY grupneu /MISSING=REPORT. GRAPH /BAR(SIMPLE)=PCT BY grupneu /MISSING=REPORT.
219
Naturwiss. Sammlungs
Hundesport und -Poli
Tierarztpraxis
Haupterhebung
ohne Hund
GRUPNEU
Naturwiss. SammlungsHundesport und -Poli
TierarztpraxisHaupterhebung
ohne Hund
Pro
zent
50
40
30
20
10
0
Kleine Häufigkeiten treten in der Kreisgraphik schlechter hervor als in der Balkengraphik, Anteile können aber m. E. besser eingeschätzt werden
220
8.11 Histogramme Im Gegensatz zu Balkendiagrammen kann man bei Histogrammen kontinuierliche Variablen darstellen, und der Rechner „entscheidet“ selber, wie er die Klassen bildet. GRAPH /HISTOGRAM=alter .
ALTER
85,080,0
75,070,0
65,060,0
55,050,0
45,040,0
35,030,0
25,020,0
15,010,0
5,0
140
120
100
80
60
40
20
0
Std.abw. = 16,10 Mittel = 39,4
N = 968,00
In der obigen Graphik wurde die Untergrenze der kleinsten Klasse bei Null und die Klassenbreite mit 10 bestimmt. Wenn wir dies ändern wollen, haben wir dazu folgende Möglichkeiten: Wir machen einen Doppelklick auf die Graphik und transportieren sie so in den Chart- Graphik Editor. Dort klicken wir auf die Intervall–Achse, und es erscheint eine Schaltfläche:
Wir wählen dort die Optionen „Anpassen“ und „Definieren“:
221
Dort ändern wir die angezeigten Werte so, wie wir es für sinnvoll halten, wobei man auch mehrere Varianten ausprobieren kann. Wir erhalten, wenn wir die obigen Werte benutzen wollen, folgendes Ergebnis:
ALTER
75,065,055,045,035,025,015,0
300
200
100
0
Std.abw. = 16,10 Mittel = 39,4
N = 968,00
Wir können dem Histogramm auch noch eine Normalverteilungskurve hinzufügen, was eine grobe Einschätzung erlaubt, ob unsere Daten normalverteilt sind:
222
ALTER
87,577,567,557,547,537,527,517,57,5
300
200
100
0
Std.abw. = 16,10 Mittel = 39,4
N = 968,00
223
8.12 Fehlerbalken Wir wählen im Graphik-Menü die Option „Fehlerbalken“.
Nach Eingabe der kategorialen Variable und einer kontinuierlichen Variable können wir bei „Bedeutung der Balken“ unter mehreren Varianten wählen. Hier habe ich den Standardfehler des Mittelwerts und einen Multiplikator ausgewählt, den ich auf 1 gesetzt habe. Das Ergebnis ist für die Altersvariable und die Kategorien „Gruppneu“ folgendes (ich habe noch einen Titel eingefügt): GRAPH /ERRORBAR( STERROR 1 )=alter BY grupneu /TITLE= 'Altersverteilung über die Gruppen der Erhebung ' 'unter Berliner'+ ' HundehalterInnen'.
224
2208398175392N =
Altersverteilung über die Gruppen der Erhebun
unter Berliner HundehalterInnen
GRUPNEU
Naturwiss. SammlungsHundesport und -Poli
TierarztpraxisHaupterhebung
ohne Hund
Mitt
elw
ert +
- 1 S
E A
LTE
R
48
46
44
42
40
38
36
34
Der Fehlerbalken zeigt den Altersdurchschnitt in den Befragten Gruppen und den Standardfehler des Alters für die verschieden großen Teilstichproben. Wollte man Vertrauensintervalle zeigen, so könnte man auch dies erreichen, indem man das in der entsprechenden Schaltfläche wählt und den entsprechenden Prozentsatz anklickt:
225
GRAPH /ERRORBAR( CI 95 )=alter BY grupneu /TITLE= 'Altersverteilung über die Gruppen der Erhebung ' 'unter Berliner'+ ' HundehalterInnen'.
2208398175392N =
Altersverteilung über die Gruppen der Erhebun
unter Berliner HundehalterInnen
GRUPNEU
Naturwiss. SammlungsHundesport und -Poli
TierarztpraxisHaupterhebung
ohne Hund
95%
CI A
LTE
R
48
46
44
42
40
38
36
34
Wie man sieht, überlappen sich die Vertrauensintervalle (Konfidenzintervalle), was darauf hindeuten dürfte, dass die Altersunterschiede in den Teilgruppen nicht alle signifikant sind. Versuchen Sie das durch eine Varianzanalyse herauszubekommen! Man kann hier auch noch innerhalb der gewählten Kategorien weitere Teilgruppen unterscheiden. Die folgende Graphik unterteilt noch zusätzlich nach dem Geschlecht und wählt ein Konfidenzintervall von 99 %: GRAPH /ERRORBAR( CI 99 )=alter BY grupneu BY geschhal .
226
58313479175 161526496217N =
GRUPNEU
Naturwiss. SammlungsHundesport und -Poli
TierarztpraxisHaupterhebung
ohne Hund
99%
CI A
LTE
R60
50
40
30
Geschl. d. Befragten
weiblich
männlich
Deutlich ins Auge fallen die großen Altersdifferenzen der Geschlechter in der Gruppe „Hundesport- und –politik“, sowie in der Tierarztpraxis. Führen Sie hierzu eine univariate Varianzanalyse durch !
227
Kapitel 9 Korrespondenzanalyse Als Beispiel werden zwei Variablen aus der Hundehalteruntersuchung genommen: Die Syntax lautet: CORRESPONDENCE TABLE = grupneu(0 4) BY wachschu(1 5) /DIMENSIONS = 2 /MEASURE = CHISQ /STANDARDIZE = RCMEAN /NORMALIZATION = SYMMETRICAL /PRINT = TABLE RPOINTS CPOINTS PERMUTATION(1) RPROFILES CPROFILES RCONF CCONF /PLOT = NDIM(1,MAX) BIPLOT(20) RPOINTS(20) CPOINTS(20) TRROWS(20) TRCOLUMNS(20) . Es folgt der Output mit Erläuterungen:
Korrespondenztabelle
31 114 102 94 55 39618 51 49 36 20 17410 34 34 11 7 9620 26 16 12 6 80
37 88 48 33 11 217
116 313 249 186 99 963
grupneuohne HundHaupterhebungTierarztpraxisHundesport und -PolitikNaturwiss.Sammlungs-BesucherAktiver Rand
Auf keinenFall Eher nicht Teils-teils eher ja Auf jeden Fall Aktiver Rand
Mein H. soll Wach- und Schutzhund sein
Hier wird eine Kreuztabelle gezeigt, die in den Zellen kombinierte Häufigkeiten und an den Rändern die Zeilensummen und Spaltensummen zeigt, so wie wir es von „crosstabs“ kennen, ohne Prozentuierung.
Zeilenprofile
,078 ,288 ,258 ,237 ,139 1,000,103 ,293 ,282 ,207 ,115 1,000,104 ,354 ,354 ,115 ,073 1,000,250 ,325 ,200 ,150 ,075 1,000
,171 ,406 ,221 ,152 ,051 1,000
,120 ,325 ,259 ,193 ,103
grupneuohne HundHaupterhebungTierarztpraxisHundesport und -PolitikNaturwiss.Sammlungs-BesucherMasse
Auf keinenFall Eher nicht Teils-teils eher ja Auf jeden Fall Aktiver Rand
Mein H. soll Wach- und Schutzhund sein
Die Tabelle enthält nicht – wie wir es von Crosstabs kennen, die Zeilenprozente, sondern die relativen Zeilen-Häufigkeiten (Häufigkeit /Zeilensumme). Der Begriff „Masse“ an der Stelle der Spaltensumme ergibt sich aus der Division von Spaltensumme/Tabellensumme.
228
Spaltenprofile
,267 ,364 ,410 ,505 ,556 ,411,155 ,163 ,197 ,194 ,202 ,181,086 ,109 ,137 ,059 ,071 ,100,172 ,083 ,064 ,065 ,061 ,083
,319 ,281 ,193 ,177 ,111 ,225
1,000 1,000 1,000 1,000 1,000
grupneuohne HundHaupterhebungTierarztpraxisHundesport und -PolitikNaturwiss.Sammlungs-BesucherAktiver Rand
Auf keinenFall Eher nicht Teils-teils eher ja Auf jeden Fall Masse
Mein H. soll Wach- und Schutzhund sein
Die Tabelle enthält nicht – wie wir es von Crosstabs kennen, die Spaltenprozente, sondern die relativen Spalten-Häufigkeiten (Häufigkeit /Spaltensumme) Der Begriff „Masse“ an der Stelle der Zeilensummen ergibt sich aus der Division von Zeilensummen/Tabellensumme.
Auswertung
,214 ,046 ,769 ,769 ,032 ,088,102 ,010 ,175 ,944 ,032,057 ,003 ,054 ,998,010 ,000 ,002 1,000
,059 57,272 ,000a
1,000 1,000
Dimension1234Gesamtauswertung
SingulärwertAuswertungfür Trägheit
Chi-Quadrat Sig. Bedingen Kumuliert
Anteil der Trägheit
Standardabweichung 2
Korrelation
Singulärwert für Konfidenz
16 Freiheitsgradea.
Die Tabelle enthält neue Begriffe für uns. Betrachten wir zunächst den Chiquadratwert. Er hat die Größenordnung des Chiquadratwertes, den wir mit Crosstabs erhalten würden. Bei 16 Freiheitgraden läßt dies auf eine signifikante Beziehung der Variablen schließen. Weiterhin hat SPSS alle Distanzen zwischen den vorhandenen Datenpunkten berechnet und in eine Distanzmatrix hineingeschrieben. Dies Distanzmatrix wurde einer uns aus der Faktorenanalyse bekannten „Hauptkomponentenanalyse“ unterzogen, die für unseren Fall 4 Dimensionen (Faktoren oder Komponenten) berechnet hat. Für diese wird eine sogenannte „Auswertung für Trägheit“ berechnet. Sie entspricht dem „Eigenwert“ aus der Faktorenanalyse, d.h. dem Beitrag der Faktoren zur Erklärung der Gesamtvarianz. Dieser Beitrag liegt insgesamt sehr niedrig, nämlich bei 5,9 %. Die Eigenwerte spiegeln die relative Bedeutung der einzelnen Faktoren. Die ebenfalls aufgeführten Singulärwerte sind die Quadratwurzeln der Eigenwerte. Sie werden als die höchstmögliche kanonische Korelation zwischen den Kategorien der Variablen für jede der Komponenten gedeutet. In den Spalten unter der Überschrift „Anteil der Trägheit“ stehen die Überschriften „Bedingen“ und „kumuliert“. Die dortigen Zahlen ergeben sich aus der Division der Eigenwerte durch ihre am Fuß der Tabelle abgedruckte Summe, und sie werden einzeln und kumuliert aufgelistet. Damit geben sie die auf sie entfallenden Anteile der erklärten Varianz wieder. Die rechts in der Tabelle stehende „Standardabweichung“ bezieht sich auf den Singulärwert (die Quadratwurzel des Eigenwertes). Welche „Korrelation“ in der Tabelle angegeben wurde, weiß ich nicht, vermute aber daß es die Korrelaton der ersten mit der zweiten Komponente (Dimension) ist.
229
Übersicht über Zeilenpunktea
,411 -,433 -,117 ,017 ,361 ,055 ,961 ,033,181 -,195 ,046 ,002 ,032 ,004 ,815 ,021,100 ,170 ,832 ,008 ,013 ,676 ,076 ,875,083 ,753 -,571 ,014 ,220 ,265 ,715 ,196
,225 ,595 ,019 ,018 ,373 ,001 ,931 ,000
1,000 ,059 1,000 1,000
grupneuohne HundHaupterhebungTierarztpraxisHundesport und -PolitikNaturwiss.Sammlungs-BesucherAktiver Gesamtwert
Masse 1 2
Wert inDimension Über
sichtüberTrägheit 1 2
des Punktes ander Trägheit der
Dimension1 2
der Dimensionan der Trägheit
des Punktes
Beitrag
Symmetrische Normalisierunga.
Obige Tabelle stellt eine Analyse der einzelnen „Zeilenpunkte“ dar. Die Zeilenpunkte beziehen sich hier auf die Variable: Gruppe-neu in der Hundehalteruntersuchung. Die Anteile der Zeilensummen an der Tabellensumme werden hier wiederum als „Masse“ aufgeführt. Der Zweck ist, den Effekt ungleich großer Teilstichproben zu kompensieren. Die „Werte in der Dimension 1 und 2 bedeuten folgendes: Jeder Punkt auf der Skala „Gruppeneu“ hat auf jeder der beiden „Dimensionen“ einen Koordinatenpunkt. Das entsprechende Wertepaar wird hier angegeben. Die Trägheitswerte sind Angaben über die Anteile an der insgesamt erklärten Varianz (s.o.). Der „Beitrag des Punktes an der Trägheit der Dimension“ ist so etwas wie eine Faktorladung auf der Dimension. Der „Beitrag der Dimension an der Trägheit des Punktes“ listet multiple Korrelationen auf, die wiederspiegeln, wie gut die Hauptkomponentenanalyse jeden einzelnen Punkt reproduziert.
230
Übersicht über Spaltenpunktea
,120 ,879 -,44 ,023 ,436 ,227 ,867 ,103 ,970,325 ,274 ,129 ,007 ,114 ,053 ,737 ,078 ,815,259 -,139 ,409 ,006 ,023 ,422 ,172 ,709 ,881,193 -,433 -,34 ,010 ,170 ,215 ,753 ,218 ,971,103 -,732 -,29 ,013 ,257 ,083 ,912 ,067 ,979
1,000 ,059 1,000 1,000
Mein H. soll Wach-und Schutzhund seinAuf keinen FallEher nichtTeils-teilseher jaAuf jeden FallAktiver Gesamtwert
Masse 1 2
Wert inDimension
ÜbersichtüberTrägheit 1 2
des Punktes ander Trägheit der
Dimension
1 2
Gesamtübersic
ht
der Dimension an derTrägheit des Punktes
Beitrag
Symmetrische Normalisierunga.
Die obige Tabelle ist analog aufgebaut wie die vorher gezeigte, sie enthält nur noch eine Summenspalte zusätzlich, die die multiplen Korrelationen aufsummiert.
Konfidenzzeilenpunkte
,065 ,100 -,263,148 ,235 ,093,267 ,250 -,170,292 ,405 -,064
,117 ,260 -,270
grupneuohne HundHaupterhebungTierarztpraxisHundesport und -PolitikNaturwiss.Sammlungs-Besucher
1 2
Standardabweichungin Dimension
1-2Korrelation
Konfidenzspaltenpunkte
,200 ,270 ,227,115 ,222 -,178,149 ,193 ,134,149 ,170 -,226,183 ,265 -,177
Mein H. soll Wach-und Schutzhund seinAuf keinen FallEher nichtTeils-teilseher jaAuf jeden Fall
1 2
Standardabweichungin Dimension
1-2Korrelation
Beide obigen Tabellen geben für die Zeilen und Spalten unserer Kreuztabelle an, welche Standardabweichungen für jeden Skalenpunkt auf den zugeordneten Dimensionen berechnet wurden, und wie hoch die Dimensionen am entprechenden Skalenpunkt korrelieren.
231
ohne Hund
Haupterhebung
Tierarztpraxis
Hundesport und -Poli
Naturwiss. Sammlung
grupneu
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
Dim
ensi
on 1
Tra
nsfo
rmie
rte
grup
neu
Kat
egor
ien
Symmetrisch-Normalisierung
Dimension 1 Transformierte grupneu Kategorien
232
ohne Hund
Haupterhebung
Tierarztpraxis
Hundesport und -Poli
Naturwiss. Sammlung
grupneu
-0,6
-0,3
0,0
0,3
0,6
0,9
Dim
ensi
on 2
Tra
nsfo
rmie
rte
grup
neu
Kat
egor
ien
Symmetrisch-Normalisierung
Dimension 2 Transformierte grupneu Kategorien
Obige Plots zeigen, wie die Skalenpunkte von Grupneu auf der Dimension 1 und 2 abgebildet wurden. Die Dimensionen sind mit dem arithmetischen Mittel 0 und der Standardabweichung 1 gebildet worden, also „standardisiert“. Es wird bei der Darstellung des Verfahrens im Internet darauf verwiesen, daß es verschiedene Standardisierungsmethoden gebe, die erheblichen Einfluß auf das Ergebnis haben könnten.
233
Auf keinen Fall Eher nicht Teils-teils eher ja Auf jeden Fall
Mein H. soll Wach- und Schutzhund sein
-1,0
-0,5
0,0
0,5
1,0
Dim
ensi
on 1
Tra
nsfo
rmie
rte
Mei
n H
. sol
l W
ach-
und
Sch
utzh
und
sein
Kat
egor
ien
Symmetrisch-Normalisierung
Dimension 1 Transformierte Mein H. soll Wach- und Schutzhund sein Kategorien
234
Auf keinen Fall Eher nicht Teils-teils eher ja Auf jeden Fall
Mein H. soll Wach- und Schutzhund sein
-0,4
-0,2
0,0
0,2
0,4
Dim
ensi
on 2
Tra
nsfo
rmie
rte
Mei
n H
. sol
l W
ach-
und
Sch
utzh
und
sein
Kat
egor
ien
Symmetrisch-Normalisierung
Dimension 2 Transformierte Mein H. soll Wach- und Schutzhund sein Kategorien
Die obigen zwei weiteren Plots zeigen, wie die Skalenpunkte von „Mein Hund soll Wach- und Schutzhund sein“ auf der Dimension 1 und 2 abgebildet wurden. Die Dimensionen sind mit dem arithmetischen Mittel 0 und der Standardabweichung 1 gebildet worden, also „standardisiert“. Es wird bei der Darstellung des Verfahrens im Internet darauf verwiesen, daß es verschiedene Standardisierungsmethoden gebe, die erheblichen Einfluß auf das Ergebnis haben könnten.
235
-0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8
Dimension 1
-0,6
-0,3
0,0
0,3
0,6
0,9
Dim
ensi
on 2
ohne Hund
Haupterhebung
Tierarztpraxis
Hundesport und -Poli
Naturwiss. Sammlungs
Symmetrisch-Normalisierung
Zeilenpunkte für grupneu
Obige Graphik zeigt, wie die von Grupneu in beiden Dimensionen (Faktoren) gleichzeitig abgebildet werden.
236
-1,0 -0,5 0,0 0,5 1,0
Dimension 1
-0,4
-0,2
0,0
0,2
0,4
Dim
ensi
on 2
Auf keinen Fall
Eher nicht
Teils-teils
eher ja
Auf jeden Fall
Symmetrisch-Normalisierung
Spaltenpunkte für Mein H. soll Wach- und Schutzhund sein
Obige Graphik zeigt, wie die von „Mein Hund soll Wach- und Schutzhund sein“ in beiden Dimensionen (Faktoren) gleichzeitig abgebildet werden.
237
-1,0 -0,5 0,0 0,5 1,0
Dimension 1
-0,6
-0,3
0,0
0,3
0,6
0,9
Dim
ensi
on 2
ohne Hund
Haupterhebung
Tierarztpraxis
Hundesport und -Poli
Naturwiss. Sammlungs
Auf keinen Fall
Eher nicht
Teils-teils
eher jaAuf jeden Fall
grupneuMein H. soll Wach- und Schutzhund sein
Symmetrisch-Normalisierung
Zeilen- und Spaltenpunkte
Obige Graphik kombiniert die Abbildung beider Skalen auf beide Dimensionen gleichzeitig. Die Verbindung der Punkte jeder Skala miteinander habe ich selber nachgetragen, sie wird von SPSS nicht geliefert. Wir wissen, daß die Korrespondenz nicht sehr stark ist, und es ist daher zu fragen, was uns diese Graphik sagen „will“. Dies zeigt uns die folgende permutierte Korrespondenztabelle, in der die Zeilen und Spalten so vertauscht sind, daß zusammengehöriges besser erkennbar ist: Die Hauptdiagonale ist jetzt wesentlich besser durch stark besetzte Felder von den Werten neben ihr abgehoben als das in der ursprünglichen Tabelle der Fall war: Damit dies erkennbar ist, wird die Ausgangstabelle nochmals unten abgedruckt:
Permutierte Korrespondenztabelle nach Dimension 1.
55 94 102 114 31 39620 36 49 51 18 174
7 11 34 34 10 96
11 33 48 88 37 217
6 12 16 26 20 8099 186 249 313 116 963
grupneuohne HundHaupterhebungTierarztpraxisNaturwiss.Sammlungs-BesucherHundesport und -PolitikAktiver Rand
Auf jeden Fall eher ja Teils-teils Eher nichtAuf keinen
Fall Aktiver Rand
Mein H. soll Wach- und Schutzhund sein
238
Korrespondenztabelle
31 114 102 94 55 39618 51 49 36 20 17410 34 34 11 7 9620 26 16 12 6 80
37 88 48 33 11 217
116 313 249 186 99 963
grupneuohne HundHaupterhebungTierarztpraxisHundesport und -PolitikNaturwiss.Sammlungs-BesucherAktiver Rand
Auf keinenFall Eher nicht Teils-teils eher ja Auf jeden Fall Aktiver Rand
Mein H. soll Wach- und Schutzhund sein
Fazit: Die Korrespondenzanalyse hilft uns dabei, durch die Analyse verborgener Dimensionen in Nominaldaten versteckte lineare Beziehungen aufzuspüren und diesen Beziehungen entsprechend die Zuordnung von Nominaldaten nach Ähnlichkeiten zu verbessern.
239
Kapitel 10 Reliablilitätsanalyse Wir laden den File: HundehalterWS2004_5.sav Wir öffnen die Schaltfläche: Analysieren, Skalieren, Reliabilitätsanalyse.
Ziel ist es, Variablen zu finden, deren additive Zusammenstellung eine brauchbare Skala ergibt zum Messen interessierender Eigenschaften. Wir möchten drei Skalen bilden: Präferenz für Hunde, Präferenz für Dominanz, Präferenz für die Zuwendung anderer Menschen. Wir beginnen mit der Skala: Präferenz für Hunde. Wir wählen folgende Items aus: h_naehe hwichtfr freundhu h_kran_g arbkosnb aufgunwi kontakth
Auf der o.a. Schaltfläche fordern wir das Menü Statistik und in diesem fordern wir folgende Statistiken an:
240
Die nun erzeugte Syntax lautet: RELIABILITY /VARIABLES=h_naehe hwichtfr freundhu h_kran_g arbkosnb aufgunwi kontakth /FORMAT=LABELS /SCALE(ALPHA)=ALL/MODEL=ALPHA /STATISTICS=DESCRIPTIVE SCALE COV /SUMMARY=TOTAL MEANS VARIANCE COV CORR . Der Output ist folgender: Reliabilität
Zusammenfassung der Fallverarbeitung
945 95,347 4,7
992 100,0
GültigAusgeschlossen a
Insgesamt
FälleAnzahl %
Listenweise Löschung auf der Grundlagealler Variablen in der Prozedur.
a.
Es wird hier automatisch mit der Option „Listwise“ gearbeitet. Meansub etc. steht nicht zur Verfügung.
241
Zuverlässigkeitsstatistik
,681 ,710 7
CronbachsAlpha
Cronbachs Alpha fürstandardisierte Items
Anzahlder Items
Es wird für die ausgewählten Items ein Zuverlässigkeitsmaß berechnet, und zwar nach folgender Formel:
⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜
⎝
⎛
−−
=∑=
21
2
11 tot
k
ii
s
s
kkα
Hierbei bedeutet k = Anzahl der Items s²i = Varianz der verschiedenen Items s²tot = Varianz einer gewichteten Linearkombination der einzelnen Items. Herauszufinden ist, welche Items kombiniert werden können, und wie ihre optimale Gewichtung sein soll. Oben ist für die nicht standardisierten Items und für die standardisierten Items das Maß von Cronbachs Alpha angegeben. Als Faustregel gilt, daß bei Testskalen ab Alpha = .75 eine befriedigende und ab Alpha = .85 eine gute Skalenqualität vorliegt. Da wir oben für die standardisieren Items einen Wert von 0,71 erreicht haben, versuchen wir noch, durch Wegnahme von Items diesen Wert zu steigern (siehe unten). Die folgende Tabelle zeigt, daß immerhin von unseren Probanden 945 in der Itemanalyse berücksichtigt wurden, sowie die Mittelwerte und Standardabweichungen unserer Items.
Itemstatistik
3,85 1,121 945
3,55 1,204 945
4,53 ,771 945
4,42 ,905 945
4,06 1,333 945
3,39 1,157 945
3,28 1,129 945
Mag Menschen, die Hundin ihrer Nähe habenwollenHund wichtigster FreundMein Hund soll mir einFreund seinWenn der Hund krank ist,sollte man bereit sein, vielGeld auszugebenArbeit und Kosten solltennicht als Belastung geltenHunde müssen keinebesonderen Aufgabenhaben...Mein Hund soll mirGelegenheit geben, mitanderen interessantenMenschen in Kontakt zukommen
MittelwertStd.
-Abweichung Anzahl
242
Die folgende Kovarianzmatrix wird benötigt, um Alpha (s.o) zu berechnen.
Matrix für die Kovarianz zwischen den Items
1,256 ,844 ,392 ,459 ,114 ,298 ,492
,844 1,449 ,430 ,508 ,109 ,328 ,536
,392 ,430 ,595 ,259 ,112 ,205 ,271
,459 ,508 ,259 ,819 ,101 ,176 ,269
,114 ,109 ,112 ,101 1,777 -,058 -,009
,298 ,328 ,205 ,176 -,058 1,340 ,127
,492 ,536 ,271 ,269 -,009 ,127 1,274
Mag Menschen, die Hin ihrer Nähe habenwollenHund wichtigster FreuMein Hund soll mir eiFreund seinWenn der Hund kransollte man bereit seinGeld auszugebenArbeit und Kosten sonicht als Belastung gHunde müssen keinebesonderen Aufgabehaben...Mein Hund soll mirGelegenheit geben, manderen interessanteMenschen in Kontaktkommen
MagMenschen,die Hund inihrer Nähe
haben wollen
Hundwichtigster
Freund
Mein Hundsoll mir einFreund sein
Wenn derHund krankst, sollte manbereit sein,viel Geld
auszugeben
Arbeit undKosten sollten
nicht alsBelastung
gelten
Hundemüssen keinebesonderenAufgabenhaben...
Mein Hundsoll mir
Gelegenheitgeben, mitanderen
nteressantenMenschen inKontakt zukommen
Die Kovarianzmatrix wird berechnet und in der Analyse verwendet.
Zusammenfassung der Itemstatistiken
3,866 3,275 4,527 1,252 1,382 ,243 71,216 ,595 1,777 1,182 2,987 ,155 7
,284 -,058 ,844 ,902 -14,433 ,044 7,259 -,038 ,625 ,663 -16,502 ,032 7
Item-MittelwerteItem-VarianzenInter-Item-KovarianzenInter-Item-Korrelationen
Mittelwert Minimum Maximum BereichMaximum /Minimum Varianz
Anzahlder Items
Die Kovarianzmatrix wird berechnet und in der Analyse verwendet.
Die folgende Übersicht ist für uns die interessanteste Tabelle. Sie zeigt uns vor allem die Trennschärfen (Item-Skala-Korrelation) und den Wert von Cronbachs Alpha, wenn man das jeweilige Alpha fortläßt. Das bringt uns auf die Idee, auszuprobieren, was passiert, wenn wir die Items mit den geringsten Trennschärfen fortlassen (s.u.).
243
Gesamt-Itemstatistik
23,21 13,982 ,620 ,464 ,577
23,52 13,475 ,623 ,478 ,571
22,53 16,501 ,533 ,299 ,624
22,65 16,072 ,488 ,279 ,626
23,00 17,921 ,065 ,023 ,749
23,67 16,945 ,226 ,086 ,692
23,79 15,789 ,376 ,205 ,650
Mag Menschen, die Hundin ihrer Nähe habenwollenHund wichtigster FreundMein Hund soll mir einFreund seinWenn der Hund krank ist,sollte man bereit sein, vielGeld auszugebenArbeit und Kosten solltennicht als Belastung geltenHunde müssen keinebesonderen Aufgabenhaben...Mein Hund soll mirGelegenheit geben, mitanderen interessantenMenschen in Kontakt zukommen
Skalenmittelwert, wenn Itemweggelassen
Skalenvarianz,wenn Item
weggelassen
KorrigierteItem-Skala-Korrelation
Quadriertemultiple
Korrelation
CronbachsAlpha, wenn
Itemweggelassen
Skalenstatistik
27,06 20,435 4,520 7Mittelwert Varianz
Std.-Abweichung
Anzahlder Items
Um dies nun auszuprobieren entfernen wir schrittweise diese Items, und zwar in folgender Reihenfolge:
Arbeit und Kosten sollten nicht als Belastung gelten, Hunde müssen keine besonderen Aufgaben haben Mein Hund soll mir Gelegenheit geben, mit anderen interessanten Menschen in Kontakt zu kommen.
Wir streichen die Items daher schrittweise aus unserer Syntax: RELIABILITY /VARIABLES=h_naehe hwichtfr freundhu h_kran_g arbkosnb aufgunwi kontakth /FORMAT=LABELS /SCALE(ALPHA)=ALL/MODEL=ALPHA /STATISTICS=DESCRIPTIVE SCALE COV /SUMMARY=TOTAL MEANS VARIANCE COV CORR .
244
Der Effekt ist.
Zuverlässigkeitsstatistik
,748 ,757 6
CronbachsAlpha
Cronbachs Alpha fürstandardisierte Items
Anzahlder Items
Cronbachs Alpha steigt auf 0,748 bzw. 0,757 an. Streichen wir das zweitgenannte Item, müßte Alpha auf 0,778 ansteigen. Wir probieren das aus:
Gesamt-Itemstatistik
19,14 11,649 ,648 ,463 ,664
19,45 11,117 ,658 ,480 ,657
18,46 14,181 ,531 ,290 ,710
18,57 13,715 ,495 ,276 ,712
19,59 14,275 ,257 ,080 ,778
19,72 13,176 ,414 ,203 ,734
Mag Menschen, die Hundin ihrer Nähe habenwollenHund wichtigster FreundMein Hund soll mir einFreund seinWenn der Hund krank ist,sollte man bereit sein, vielGeld auszugebenHunde müssen keinebesonderen Aufgabenhaben...Mein Hund soll mirGelegenheit geben, mitanderen interessantenMenschen in Kontakt zukommen
Skalenmittelwert, wenn Itemweggelassen
Skalenvarianz,wenn Item
weggelassen
KorrigierteItem-Skala-Korrelation
Quadriertemultiple
Korrelation
CronbachsAlpha, wenn
Itemweggelassen
RELIABILITY /VARIABLES=h_naehe hwichtfr freundhu h_kran_g arbkosnb aufgunwi kontakth /FORMAT=LABELS /SCALE(ALPHA)=ALL/MODEL=ALPHA /STATISTICS=DESCRIPTIVE SCALE COV /SUMMARY=TOTAL MEANS VARIANCE COV CORR . Der Effekt ist:
Zuverlässigkeitsstatistik
,778 ,782 5
CronbachsAlpha
Cronbachs Alpha fürstandardisierte Items
Anzahlder Items
Cronbachs Alpha steigt auf 0,778 bzw. 0,782 an. und:
245
Gesamt-Itemstatistik
15,75 8,635 ,660 ,459 ,697
16,06 8,162 ,672 ,475 ,692
15,07 10,971 ,524 ,281 ,752
15,18 10,447 ,508 ,276 ,752
16,33 9,835 ,441 ,201 ,778
Mag Menschen, die Hundin ihrer Nähe habenwollenHund wichtigster FreundMein Hund soll mir einFreund seinWenn der Hund krank ist,sollte man bereit sein, vielGeld auszugebenMein Hund soll mirGelegenheit geben, mitanderen interessantenMenschen in Kontakt zukommen
Skalenmittelwert, wenn Itemweggelassen
Skalenvarianz,wenn Item
weggelassen
KorrigierteItem-Skala-Korrelation
Quadriertemultiple
Korrelation
CronbachsAlpha, wenn
Itemweggelassen
Wenn wir jetzt das dritte Item streichen, könnte das unser Alpha schon wieder reduzieren: RELIABILITY /VARIABLES=h_naehe hwichtfr freundhu h_kran_g arbkosnb aufgunwi kontakth /FORMAT=LABELS /SCALE(ALPHA)=ALL/MODEL=ALPHA /STATISTICS=DESCRIPTIVE SCALE COV /SUMMARY=TOTAL MEANS VARIANCE COV CORR . Wir probieren das aus: Der Effekt ist:
Zuverlässigkeitsstatistik
,777 ,780 4
CronbachsAlpha
Cronbachs Alpha fürstandardisierte Items
Anzahlder Items
Das heißt, wir behalten dieses Item bei und bauen eine Skala, die unsere Präferenz für Hunde mißt, auf folgenden Items: h_naehe hwichtfr freundhu h_kran_g kontakth Die Syntax am Schluß unserer Bemühungen um Itemauswahl für die Präferenz für Hunde wäre daher: RELIABILITY /VARIABLES=h_naehe hwichtfr freundhu h_kran_g kontakth /FORMAT=LABELS /SCALE(ALPHA)=ALL/MODEL=ALPHA /STATISTICS=DESCRIPTIVE SCALE COV
246
/SUMMARY=TOTAL MEANS VARIANCE COV CORR . Nun zur Bestimmung der optimalen Gewichtung unserer Items. Eine einfache Methode wäre die folgende: Wir führen eine Kategoriale Hauptkomponentenanalyse durch (CATPCA). Dazu wählen wir unter „Analysieren“ – Dimensionsreduktion – „Optimale Skalierung“. Wir erhalten folgende Schaltfläche:
Wir kreuzen an: Einige Variablen sind nicht mehrfach nominal und klicken auf „Definieren“. Wir erhalten die folgende Schaltfläche und ziehen in die Analyse-Variablen hinein. Danach wandeln wir sie um in Ordinalskalierte mit dem Gewicht 1 und setzen die „Zahl der Dimensionen“ auf 1:
247
In der Schaltfläche „Speichern“ fordern wir die Speicherung der transformierten Variablen an.
Dann drücken wir auf „Weiter“ und „Einfügen“ und erhalten folgende Syntax: CATPCA VARIABLES=h_naehe h_kran_g hwichtfr freundhu kontakth /ANALYSIS=h_naehe(WEIGHT=1,LEVEL=ORDI) h_kran_g(WEIGHT=1,LEVEL=ORDI) hwichtfr(WEIGHT=1,LEVEL=ORDI) freundhu(WEIGHT=1 ,LEVEL=ORDI) kontakth(WEIGHT=1,LEVEL=ORDI) /MISSING=h_naehe(PASSIVE,MODEIMPU) h_kran_g(PASSIVE,MODEIMPU) hwichtfr(PASSIVE,MODEIMPU) freundhu(PASSIVE,MODEIMPU) kontakth(PASSIVE,MODEIMPU) /DIMENSION=1 /NORMALIZATION=VPRINCIPAL /MAXITER=100 /CRITITER=.00001 /PRINT=CORR LOADING /PLOT=OBJECT (20) /SAVE=TRDATA . Wenn wir diese ausführen, schreibt das Programm uns unsere standardisierten Variablen mit 1 gewichtet in unseren Datensatz. Ansonsten ist die Ausgabe folgende: Sie zeigt, daß die Variablen standardisiert wurden und jetzt ein Alpha ergeben, das mit 0,797 noch oberhalb des o.a. Alpha liegt. CATPCA
Modellzusammenfassung
,797 2,757,797 2,757
Dimension1Gesamtwert
CronbachsAlpha
Gesamt(Eigenwert)
Varianzberücksichtigt
248
Die Korrelationsmatrix der durch die CATPCA transformierten Variablen zeigt, daß diese höher miteinander korrelieren als die Rohwerte:
Durch Korrelationen transformierte Variablen
1,000 ,459 ,624 ,452 ,402
,459 1,000 ,482 ,359 ,265
,624 ,482 1,000 ,449 ,403
,452 ,359 ,449 1,000 ,311
,402 ,265 ,403 ,311 1,000
1 2 3 4 52,707 ,745 ,638 ,535 ,375
Mag Menschen, die Hundin ihrer Nähe habenwollen
a
Wenn der Hund krank ist,sollte man bereit sein, vielGeld auszugeben
a
Hund wichtigster Freunda
Mein Hund soll mir einFreund sein
a
Mein Hund soll mirGelegenheit geben, mitanderen interessantenMenschen in Kontakt zukommen
a
DimensionEigenwert
MagMenschen,die Hund inihrer Nähe
haben wollen
Wenn derHund krank
ist, sollte manbereit sein,viel Geld
auszugeben
Hundwichtigster
Freund
Mein Hundsoll mir einFreund sein
Mein Hundsoll mir
Gelegenheitgeben, mitanderen
interessantenMenschen inKontakt zukommen
Fehlende Werte wurden mit dem Modalwert der quantifizierten Variable angewendet.a.
249
Komponentenladungen
Komponentenladungen
,824
,704
,848
,693
,620
Mag Menschen, die Hundin ihrer Nähe habenwollenWenn der Hund krank ist,sollte man bereit sein, vielGeld auszugebenHund wichtigster FreundMein Hund soll mir einFreund seinMein Hund soll mirGelegenheit geben, mitanderen interessantenMenschen in Kontakt zukommen
1Dimension
Normalisierung mit Variablen-Prinzipal.
Die Tabelle der Komponentenladungen zeigt, daß unsere Variablen sehr hohe Ladunen auf einer gemeinsamen Dimension haben, höher als sie auf z.B. einem der Faktoren bei einer Faktorenanalyse gehabt hätten. Wenn wir uns jetzt unseren Datensatz ansehen, bemerken wir, daß die transformierten Variablen ans Ende des Datensatzes angefügt sind. Würden wir sie nochmals einer Reliabilitätsanalyse unterziehen, dann würden wir feststellen, daß wir mit dieser ein noch höheres Cronbachsches Alpa erzielen würden, das die o.a. Größenordnung (0,797) erreicht. Wir können daher unsere neue Skala (Präferenz für Hunde) als Summation der neu gebildeten Variablen konstruieren. Dazu benennen wir im Datensatz die dort hineingeschriebenen Variablen COMPUTE Praefhund = TRA1_1 + TRA2_1 + TRA3_1 + TRA4_1 + TRA5_1 . EXECUTE . Mit der neuen Skala „Praefhund“ können wir nun untersuchen, welche Gruppen hohe oder geringere Präferenzen haben. Die Ergebnisse sind genauer als wenn wir für den gleichen Zweck Faktorwerte aus der Faktorenanalyse genommen hätten.
250
Beispiele: GRAPH /BAR(GROUPED)=MEAN(Praefhund) BY grupord BY geschhal .
Hundelose
Haupterhebung
Tierarztpraxis
Naturwiss.Sammlung "Hund"
Hundesport und h-politisch aktive
Geordnete Gruppen
-3,00
-2,00
-1,00
0,00
1,00
2,00
3,00
Mitt
elw
ert P
raef
hund
Geschl. d. Befragten
weiblichmännlich
251
GRAPH /LINE(MULTIPLE)MEAN(Praefhund) BY alterrec BY geschhal .
8,00 23,00 38,00 53,00 68,00 83,00
alterrec
-2,00
-1,00
0,00
1,00
2,00
Mitt
elw
ert P
raef
hund
Geschl. d. Befragten
weiblichmännlich
Quelle für den mathematischen Hintergrund: http://www.rrz.uni-hamburg.de/RRZ/Software/SPSS/Algorith.120/catpca.pdf
Frauen
252
Kapitel 11 Interaktive Diagramme Interaktive Diagramme unterscheiden sichdadurch von Standard-Diagrammen, daß es möglich ist, • Variablen im Diagramm zu ändern. verbunden mit einer • unmittelbaren Aktualisierung des Diagramms, • das Ändern von Auswertungsfunktionen nach dem Erstellen des Diagramms und das • Einfügen von zusätzlichen Diagrammelementen. Die Benutzeroberfläche für das Erstellen und Ändern von Standarddiagrammen unterscheidet sich von der für interaktive Diagramme in einigen Punkten, beispielsweise: • Das Auswählen von Variablen durch Ziehen und Ablegen steht nur bei interaktiven Diagrammen zur
Verfügung. • Die Variablenauswahl in den Dialogfeldern für Standarddiagramme erfolgt genauso wie die
Variablenauswahl in statistischen Dialogfeldern. 1. In den Dialogfeldern für Diagramme können Sie festlegen, obVariablennamen oder Variablenlabels
angezeigt werden. Klicken Sie dazu mit derrechten Maustaste auf eine Variablenliste, und verwenden Sie das dann angezeigteKontextmenü. (Bei den Dialogfeldern für Standarddiagramme stellen Sie dieAnzeige von Variablennamen oder Variablenlabels auf der Registerkarte"Allgemein" im Dialogfeld "Optionen" ein. Wählen Sie dazu im Menü"Bearbeiten" den Befehl "Optionen". Diese Einstellung tritt jeweils erst mit demnächsten Öffnen einer Datendatei in Kraft.)
Variablen wie in Datei sortiert:
253
2. In den Variablenlisten in den Dialogfeldern für interaktive Diagramme werdenSymbole verwendet,
durch die Variablen als systemeigen, metrisch oder kategorial gekennzeichnet werden. Durch Klicken mit der rechten Maustaste in die Liste der Quellvariablen öffnen Sie einKontextmenü, mit dem Sie die Klassifikation von kategorialen und metrischenVariablen ändern können. In den Dialogfeldern für Standarddiagramme werden dieVariablen durch Symbole entweder als numerische oder als String-Variablen(alphanumerisch) gekennzeichnet. Diese Klassifikation basiert auf der Festlegungdes Variablentyps im Daten-Editor.)
Variablen alphabetisch sortiert:
Anzahl der Hunde ist hier als metrische Variable definiert, das kann man aber ändern:
Systemeigene Variablen sind Anzahl, Fall und Prozent
metrische Variable kategoriale Variable
254
3. In den Dialogfeldern für Standarddiagrammen können Sie mit Hilfe der rechtenMaustaste auf
Direkthilfe für Steuerelemente zugreifen. In den Dialogfeldern für interaktive Diagramme ist diese Funktion nicht verfügbar.
4. In den Dialogfeldern von Standarddiagrammen können Sie Information über dieVariablen erhalten,
indem Sie mit der rechten Maustaste auf die Variablenlistenklicken. In den Dialogfeldern für interaktive Diagramme ist diese Funktion nicht verfügbar. (Mit der Option "Variablen" im Menü "Extras" stehen Ihnen ähnliche Informationen zur Verfügung.).
Jetzt ist Anzahl der Hunde als kategoriale Variable definiert:
255
5. Interaktive Diagramme werden im Viewer-Fenster bearbeitet. Standarddiagrammewerden in einem anderen Fenster bearbeitet (Chart-Editor).
6. Interaktive Diagramme können geändert werden, beispielsweise durch Einfügen zusätzlicher
Variablen, Elemente, Auswertungsfunktionen usw. (DieMöglichkeiten zur Änderung von Standarddiagrammen beschränken sich imallgemeinen darauf, daß Sie Attribute von Elementen ändern können, die bereits beim Erstellen des Diagramms vorhanden waren..
7. Interaktive Diagramme können als vollständig interaktive ActiveX-Objekte in anderen Anwendungen
eingebettet oder als Bitmaps eingefügt werden. (Standarddiagramme können nicht in andere Anwendungen eingebettet werden. Sie können aber als Metadateien (Bilder) oder Bitmaps eingefügt werden).
Erstellen von interaktiven Diagrammen mit Hilfe des Menüs Grafiken: Wenn Sie die im Menü "Grafiken" unter "Interaktiv" aufgeführten Prozeduren verwenden, können Sie die Variablen und Diagrammoptionen vor dem Erstellen einesDiagramms festlegen. Das Diagramm kann später im Viewer geändert werden. WennSie im Menü "Grafiken" unter "Interaktiv" einen Diagrammtyp auswählen, wird dasentsprechende Dialogfeld angezeigt, wobei die Registerkarte „Variablen zuweisen“ ausgewählt ist. Zum Erstellen eines Diagramms müssen Sie lediglich Variablen zuweisen. Wenn Sie Ihr Diagramm anpassen möchten, können Sie aber auch andere Registerkarten verwenden. Registerkarte „Variablen zuweisen“ für Liniendiagramm:
Quelliste. In der Quelliste finden Sie die für einen Diagrammtyp verfügbarenVariablen. Sie können die Reihenfolge der Variablen in der Liste ändern, indem Sie mitder rechten Maustaste auf eine Variable
256
klicken und aus dem angezeigtenKontextmenü die Option Nach Name sortieren, Nach Reihenfolge in Datei sortieren oderNach Typ sortieren wählen (siehe oben). Sie können auch Variablenlabels anzeigen oderVariablennamen anzeigen auswählen. Diese Befehle im Kontextmenü ersetzen die Befehle Direkthilfe und Info zu Variablen, die Sie in anderen Dialogfeldern des Systemsfinden. Zuweisen von Variablen. Sie weisen Achsenvariablen zu, indem Sie dieAchsenvariablen aus der Quelliste ziehen und sie auf dem Achsenzielfeld ablegen. Leere Registerkarte für Balkendiagramm:
257
Registerkarte für Balkendiagramm mit zugewiesener Variable, deren prozentuale Häufigkeiten angezeigt werden sollen:
Ohne weitere Änderungen entsteht hieraus folgende Graphik:
Auf keinen FallEher nicht
Teils-teilseher ja
Auf jeden Fall
Mag Menschen, die Hund in ihrer Nähe haben wollen
0%
10%
20%
30%
Proz
ente
n=36 n=83 n=245 n=255 n=364
258
Sie können Variablen auch von einem Zielfeld zum anderen ziehen. Wenn Sie eineVariable auf einem Zielfeld ablegen, dem schon eine andere Variable zugewiesenwurde, tauschen die Variablen die Plätze. Dies ist dann von Interesse, wenn man den beiden Achsen zwei Variablen gleichzeitig zuweist: Vor dem Austausch der Variablen:
und danach:
Auswertungsfunktion: Modus:
259
Weist man den beiden Dimensionen 2 kategoriale Variablen zu, steht als Auswertungsfunktion nur der Modus zur Verfügung: Andere Auswertungsfunktionen. Bei der Zuweisung einer metrischen zur einer kategorialen Variable gibt es auch andere Auswertungsfunktionen als den Modus. Die Auswertungsfunktion für eine metrische Variable kann aus einer Liste von Auswertungsfunktionen am unteren Randdieses Dialogfelds festgelegt werden.
Dort ist die Liste der verfügbaren Auswertungsfunktionen verborgen: Die oben gewählten Optionen würden folgendes Ergebnis haben:
260
Balken zeigen Mittelwerte
Auf keinen FallAuf jeden Fall
eher jaTeils-teils
Eher nicht
Ich mache gern weite Reisen
0
50
100
150
200
Akt
ive
Zeit
in M
inut
en p
ro T
ag
n=52 n=189 n=204 n=233 n=245
Fertigstellen des Diagramms. Ein Diagramm kann erstellt und im Viewer dargestelltwerden, sobald eine ausreichende Anzahl von Variablen zugewiesen worden ist. OK istimmer aktiviert. Wenn Sie auf OK klicken, das Programm aber feststellt, daß weitereInformationen benötigt werden, wird eine diesbezügliche Warnung angezeigt. Ehe Sieauf OK klicken, können Sie das Diagramm aber auch mit den Optionen auf den anderen Registerkarten des Dialogfelds anpassen. Die folgenden Optionen sind verfügbar: • Sie können das Diagrammelement aufteilen, indem Sie Farbe, Muster und Größe kategoriale Variablen
zuweisen, sofern sich dies für den jeweiligen Diagrammtypeignet.. • Durch Zuweisen einer metrischen Variablen zu Farbe können Sie denDiagrammobjekten Farben
zuweisen.. • Durch Zuweisen einer metrischen Variablen zu Größe können Sie den Diagrammobjekten Größen
zuweisen. • Durch Zuweisen einer metrischen Variablen zu Feldvariablen können Sie dasDiagramm in einzelne
Felder aufteilen. • Die Auswertungsfunktion für die abhängige Variable kann geändert werden.
261
Registerkarte für eine nach Geschlecht gruppierte Darstellung der Variable: „Ich habe schon viel von der Welt gesehen“:
und die entsprechende Graphik:
weiblichmännlich
Geschl. d. Befragten
Balken zeigen Prozent
Auf keinen FallEher nicht
Teils-teilseher ja
Auf jeden Fall
Ich habe schon viel von der Welt gesehen
0%
5%
10%
15%
Proz
ente
262
Das gleiche als Stapelgraphik:
weiblichmännlich
Geschl. d. Befragten
Balken zeigen Prozent
Auf keinen FallEher nicht
Teils-teilseher ja
Auf jeden Fall
Ich habe schon viel von der Welt gesehen
0%
10%
20%
30%
Proz
ente
Hierzu wurde die Variable Geschlecht in der Registerkarte nur nach unten in die Muster verschoben: (Klickt man Gruppe an, wechselt die Anzeige zu Stapel und umgekehrt, so daß man Farbe, Muster, Gruppierung und Stapeln beliebig kombinieren kann).
263
Würden wir die Variable Geschlecht in die Fläche für die Feldvariable verschieben, hätte das folgenden Effekt: Registerkarte:
Entsprechende Graphik:
Balken zeigen Prozent
Auf keinen FallEher nicht
Teils-teilseher ja
Auf jeden Fall
Ich habe schon viel von der Welt gesehen
0%
10%
20%
30%
Proz
ente
weiblich männlich
Auf keinen FallEher nicht
Teils-teilseher ja
Auf jeden Fall
Ich habe schon viel von der Welt gesehen
264
Varianten der o.a. Graphik: Wir ziehen die Variable Geschlecht von den Feldvariablen weg in das Feld „Farbe“.
Der Effekt ist:
265
weiblichmännlich
Geschl. d. Befragten
Balken zeigen Prozent
Auf keinen FallEher nicht
Teils-teilseher ja
Auf jeden Fall
Ich habe schon viel von der Welt gesehen
0%
5%
10%
15%
Proz
ente
Wenn wir Beschriftungen für die Balke wünschen, verfahren wir wie folgt: Wir klicken doppelt auf die Graphik und holen uns den Diagramm-Manager:
Wir klicken beim Diagramm-Inhalt auf Balken/ Bearbeiten:
266
Dort wählen wir bei der Beschriftung „Werte“ und klicken auf o.K. Wir erhalten:
weiblichmännlich
Geschl. d. Befragten
Auf keinen FallEher nicht
Teils-teilseher ja
Auf jeden Fall
Ich habe schon viel von der Welt gesehen
0%
5%
10%
15%
Proz
ente
5%
2%
18%
11%
17%
10%
13%
8%7%
9%
267
Wir hätten auf über die Option „Anzahl“ die absoluten Häufigkeiten erhalten können.
Wenn wir statt der farbigen Gruppen-Darstellung lieber eine farbig differenzierte Stapelgraphik erhalten wollen, wählen wir nur bei der Kategorie „Farbe“ die Option „Stapel“: Wir erhalten dann:
weiblichmännlich
Geschl. d. Befragten
Balken zeigen Prozent
Auf keinen FallEher nicht
Teils-teilseher ja
Auf jeden Fall
Ich habe schon viel von der Welt gesehen
0%
10%
20%
30%
Proz
ente
n=18
n=53
n=104
n=179
n=95
n=166
n=75
n=130
n=92
n=69
268
In diese Graphik wurden absolute Häufigkeiten über den Diagramm-Manager eingefügt. Will man statt der farblichen Differenzierung eine Differenzierung nach Muster haben, ist auch dies möglich:
Das Ergebnis ist:
weiblichmännlich
Geschl. d. Befragten
Balken zeigen Häufigkeiten
Auf keinen FallEher nicht
Teils-teilseher ja
Auf jeden Fall
Ich habe schon viel von der Welt gesehen
50
100
150
200
250
Anz
ahl
269
Hier wurden die Balkenbeschriftungen weggelassen. Auch ein 3-D-Effekt ist möglich:
270
Über eine Option am Kopf des Rahmens, den man erhält, wenn man auf die interaktive Graphik klickt, erhält man hier die 3D-Darstellung. Diese ist verbunden mit der Möglichkeit, die Graphik zu drehen:
Klickt man die Hand in dieser Schaltfläche an, dann erlaubt es diese Hand, wenn man sie in die Graphik zieht, die Graphik nach allen Seiten zu drehen:
Das Ergebnis ist:
271
weiblichmännlich
Geschl. d. Befragten
Bei der Gestaltung der Balken hat man auch noch etliche Auswahlmöglichkeiten. So stehen zum Beispiel kreisförmige Grundflächen und spitze Hütchen zur Verfügung:
272
weiblichmännlich
Geschl. d. B
273
Zu erwähnen bleibt noch die auf 100 Prozent aufgeblasene Stapelgraphik: Hier wird das bezeichnete Feld angekreuzt. Weiterhin wurde die um 90°gedrehte Graphik ausgewählt. Der Effekt ist unten zu sehen:
weiblichmännlich
Geschl. d. Befragten
0% 25% 50% 75% 100%
Anzahl
Auf keinen Fall
Eher nicht
Teils-teils
eher ja
Auf jeden Fall
Ich
habe
sch
on v
iel v
on d
er W
elt g
eseh
en
18 53
104 179
95 166
75 130
92 69