Materialien für die Einführung in SPSS SS 2006 · KAPITEL 5 CLUSTER-ANALYSE ... Prozedur aus.Zum...

1

Prof. Dr. Bernhard Dieckmann,TUB, Institut für Berufliche Bildung und Arbeitslehre

Materialien für die Einführung in SPSS SS 2006

KAPITEL 1 GRUNDLAGEN....................................................................................... 3 1.1 Der Daten-Editor........................................................................................................................................... 3 1.2. Die Eingabe einfacher numerischer Daten................................................................................................... 4 1.3. Ergebnisausgabe........................................................................................................................................... 5 1.4. Definition von Variablen- und Werte-Labels............................................................................................. 10 1.5. Zum Unterschied von Standard-Diagrammen und interaktiven Diagrammen (siehe hierzu ausführlicher: Kapitel 8 und 11)............................................................................................................................................... 11 1.6. Umkodieren................................................................................................................................................ 13 1.7. Prozedur ausführen..................................................................................................................................... 14 1.8. Diagramm erstellen .................................................................................................................................... 19

KAPITEL 2 SIMULATION VON VERTEILUNGEN. VERGLEICH VON SIMULIERTEN UND ERWARTETEN KENNWERTEN............................................ 24

2.1. Erzeugen einer Gleichverteilung................................................................................................................ 24 2.2. Erzeugen einer Binomialverteilung............................................................................................................ 26 2.3. Erzeugen einer Normalverteilung. ............................................................................................................. 29 2.4. Erzeugung einer Chiquadratverteilung....................................................................................................... 32 2.5. Erzeugung einer t-Verteilung. .................................................................................................................... 35 2.6. Erzeugung einer F-Verteilung.................................................................................................................... 36

KAPITEL 3 UNTERSCHIEDSHYPOTHESEN-PRÜFUNG....................................... 39 3. Prüfung von Unterschiedshypothesen an Stichprobendaten ......................................................................... 39 3.1. Einstichproben-z- und t-Test...................................................................................................................... 39 3.2. Zweistichproben – t-Test............................................................................................................................ 45 3.3. Zwei „abhängige“ Stichproben. ................................................................................................................. 49 3.4.Einfaktorielle Varianzanalyse. .................................................................................................................... 53 3.5. Zwei und dreifaktorielle Varianzanalyse. .................................................................................................. 60

KAPITEL 4 PRÜFUNG VON ZUSAMMENHANGS-HYPOTHESEN ....................... 71 4.1. Korrelation und Regression........................................................................................................................ 71 4.2. Multiple Regression ................................................................................................................................... 80

KAPITEL 5 CLUSTER-ANALYSE ........................................................................... 92 5.1. Partitionierungsverfahren. .......................................................................................................................... 92 5.2. Hierarchische Cluster-Analyse................................................................................................................... 97 5.3. Two-Step-Cluster-Analyse (nur ab SPSS 12 möglich) ............................................................................ 100 5.4. Das Dendrogramm ................................................................................................................................... 103 5.5. Ein weiteres Beispiel für eine hierarchische Clusteranalyse .................................................................... 109 5.6. Ein weiteres Beispiel für eine hierarchische Clusteranalyse .................................................................... 111 5.7. Ein weiteres Beispiel für Clusteranalysen: Die Hundehalterstudie.......................................................... 116

KAPITEL 6 CHIQUADRAT - VERFAHREN............................................................128 6.1. Chiquadrat-Test........................................................................................................................................ 128

6.1.1 Allgemeines ....................................................................................................................................... 128

2

6.1.2. Eindimensionales und zweidimensionales Chiquadrat-Design ......................................................... 128 6.1.2.1. Rechenbeispiele: ........................................................................................................................ 129

6.1.2.1.1 „Eindimensionales Chiquadrat“ ........................................................................................... 129 6.1.2.2.2.„Zweidimensionales Chiquadrat“......................................................................................... 130

6.1.3. Standardisierte, korrigierte Chiquadratresiduen ................................................................................ 132 6.1.4 Zwei nominal skalierte Merkmale: Zusammenhangsmessung........................................................... 134

6.1.4.1. Cramérs V .................................................................................................................................. 134 6.1.4.2 Phi und korrigiertes Chiquadrat .................................................................................................. 135

6.1.5. Einschränkungen der Chiquadrat-Tests für Cramers V und Phi ....................................................... 136 6.1.6. Fisher's exakter Test......................................................................................................................... 136

6.2. Beispiele in SPSS:.................................................................................................................................... 139 6.2.1.Eindimensionale Tests ....................................................................................................................... 139

6.2.1.1 Chiquadrat-Test auf Gleichverteilung ........................................................................................ 139 6.2.1.2 Chiquadrat-Test auf irreguläre Verteilung ................................................................................. 141 6.2.1.3.Chiquadrat-Test auf Übereinstimmung mit einer Normal-Verteilung ........................................ 142

6.2.1.3.1. Ausführliches Verfahren ..................................................................................................... 142 6.2.1.3.2. Abgekürztes Verfahren........................................................................................................ 147

6.2.2. Zweidimensionale Tests.................................................................................................................... 147 6.2.2.1. Chiquadrat und Cramers V......................................................................................................... 147

6.2.1.1.1. Fall eines signifikanten Zusammenhangs........................................................................... 147 6.2.2.2. Phi und die Yates-Korrektur von Chiquadrat ............................................................................. 152 6.2.2.3. Fishers exakter Test.................................................................................................................... 154

KAPITEL 7. FAKTORENANALYSE .......................................................................156 7.1. Theoretische Grundlagen - Anlage der Teilstichproben........................................................................... 156

7.1.1 Theoretische Grundlagen eines als Beispiel verwendeten empirischen Projekts ............................... 156 7.1.2. Anlage der Teilstichproben im Beispiel-Projekt ............................................................................... 158

7.2. Verteilung der Befragten nach Geschlecht, Alter und Hundebesitz......................................................... 159 7.3. Der Fragebogen........................................................................................................................................ 162

7.3.1. Form des Fragebogens: ..................................................................................................................... 162 7.3.2. Im Fragebogen gemessene Eigenschaften und Dimensionen............................................................ 165

7.4. Erläuterungen der Voraussetzungen für die Faktorenanalyse .................................................................. 165 7.5. Rechnen einer Faktorenanalyse mit SPSS 12........................................................................................... 166

7.5.1.Faktorenanalyse: Deskriptive Statistiken ........................................................................................... 166 7.5.2. Faktorenanalyse: Extraktion.............................................................................................................. 167 7.5.3. Faktorenanalyse: Rotation................................................................................................................. 169 7.5.4. Faktorenanalyse: Faktorwerte ........................................................................................................... 170 7.5.5. Faktorenanalyse: Optionen für Fallausschluß und Sortierung........................................................... 170 7.5.6. Faktorenanalyse: Wichtige Teile des Outputs ................................................................................... 172

7.5.6.1. Deskriptive Statistiken ............................................................................................................... 172 7.5.6.2. Die Anti-Image-Kovarianzmatrix und andere Informationen über die Angemessenheit der Stichprobe ............................................................................................................................................... 173 7.5.6.3. Screeplot und rotierte Komponentenmatrix ............................................................................... 174 7.5.6.4 . Graphische Darstellung der Faktorwerte nach Geschlecht und Alter....................................... 176 7.5.6.5. Graphische Darstellung der Faktorwerte nach Geschlecht und „Gruppenzugehörigkeit“.......... 183

KAPITEL 8 STANDARDGRAPHIKEN....................................................................191 8.1.Balkendiagramme, einfache Auszählungen. ............................................................................................. 191 8.2. „Andere Auswertungsfunktionen“ ........................................................................................................... 195 8.3. Übersicht über spezielle Auswertungsfunktionen .................................................................................... 197 8.4 Änderungen und Zusätze........................................................................................................................... 205 8.5 Auswertung über mehrere Variablen ........................................................................................................ 208 8.6 Werte einzelner Fälle ................................................................................................................................ 211 8.7 Gestapelte Balkengraphik ......................................................................................................................... 212 8.8. Liniengraphiken (Häufigkeitspolygon) .................................................................................................... 214 8.9 Fächengraphiken ....................................................................................................................................... 216 8.10 Kreisgraphiken ........................................................................................................................................ 218 8.11 Histogramme........................................................................................................................................... 220 8.12 Fehlerbalken............................................................................................................................................ 223

3

KAPITEL 9 KORRESPONDENZANALYSE ...........................................................227

KAPITEL 10 RELIABLILITÄTSANALYSE .............................................................239

KAPITEL 11 INTERAKTIVE DIAGRAMME............................................................252 Die folgenden Materialien dienen sowohl als Unterlage für den laufenden Kursus als auch dazu, sich selbständig Grundkenntnisse in SPSS zu erarbeiten. Die Materialien beanspruchen nicht, bereits Lehrbuchqualität zu haben, weder in der Systematik noch in redaktionellen Details. Wer im SPSS-Kurs einen Schein erwerben will, hat hierzu zwei Möglichkeiten: Den Teilnahmeschein gibt es, wenn in einer Abschlußklausur mindestens 31 von 100 Punkten erworben werden, den Leistunsschein gibt es, wenn mindestens 61 von 100 Punkten erworben werden.

Kapitel 1 Grundlagen 1.1 Der Daten-Editor Der Daten-Editor gibt die Grundstruktur von Datendateien wieder. Jede Zeile stellt einen Einzelfall (Beobachtung) dar.So stellt zum Beispiel jede/r Beschäftigte eines Unternehmens einen Fall dar. Jede Spalte stellt eine einzelne Variable dar. So stellt zum Beispiel die Abteilung, in welcher der/die Beschäftigte arbeitet, eine Variable dar. Sie können Daten im Daten-Editor eingeben oder bearbeiten. Sie können im Daten-Editor jedoch keine Berechnungen ausführen oder Formeln eingeben. Zu Beginn jeder Sitzung wird das Fenster des Daten-Editors angezeigt. Der Daten-Editor zeigt den Inhalt der „Arbeitsdatei“ an.

4

1.2. Die Eingabe einfacher numerischer Daten Die Eingabe einfacher numerischer Daten ist unkompliziert...Aktivieren Sie eine Zelle, und geben Sie eine Zahl ein. Der Datenwert wird in der Zelle und im Zellen-Editor angezeigt.Drücken Sie die Eingabetaste, um den Wert aufzuzeichnen.Wenn Sie der Variablen noch keinen Namen gegeben haben, weist ihr der Daten-Editor einen eindeutigen Variablennamen zu. Wenn Sie nichtnumerische Daten eingeben möchten, müssen Sie zunächst die Variable definieren.Doppelklicken Sie auf den Variablennamen im Kopf der Spalte.Sie können auch auf die Registerkarte "Variablenansicht" klicken.Damit öffnen Sie die Variablenansicht.Klicken Sie auf die Zelle "Typ" in der Zeile der Variablen, und klicken Sie anschließend auf die Schaltfläche in der Zelle.Wählen Sie im Dialogfeld "Variablentyp definieren" den Datentyp aus.Zur Eingabe von Datenwerten, die Buchstaben enthalten, wählen Sie zum Beispiel "String" aus.Klicken Sie dann auf "OK".

5

Tabellen, Statistiken und Diagramme werden im Fenster des Viewers angezeigt.

1.3. Ergebnisausgabe Das Fenster des Viewers wird automatisch geöffnet, wenn Sie das erste Mal einen Befehl eingeben, der eine Ausgabe erzeugt. Sie können die Menüs in beiden Fenstern verwenden, um Dateien, Statistiken und Diagramme auszuwählen. Jedes Fenster besitzt eine eigene Symbolleiste.Wenn Sie mit dem Mauszeiger auf ein Symbol zeigen, wird eine kurze Beschreibung des Symbols angezeigt.

6

Sie können Dialogfelder zum Auswählen von Variablen und Optionen für Statistiken und Diagramme verwenden. Beispiele für Dialogfelder:

7

Wenn Sie Variablen analysieren wollen, wählen Sie die Variablen für die Analyse aus der Liste der Quellvariablen aus und verwenden Sie die Pfeilschaltfläche, um die Variablen in die Liste der Zielvariablen zu verschieben.

8

Numerische Variablen werden in den Dialogfeldern, die man im Menue ”Analysieren” bekommt, an der linken Seite der Quellvariablen durch eine Raute (#) identifiziert. String-Variablen (alphanumerische Variablen) werden links durch den Buchstaben A identifiziert.

9

Kurze String-Variablen (mit einer Länge von 8 oder weniger Zeichen) werden durch ein "Kleiner als"-Zeichen (<) im Symbol identifiziert.Lange String-Variablen (mit einer Länge von mehr als 8 Zeichen) werden durch ein "Größer als"-Zeichen (>) im Symbol identifiziert. Sie können Variablennamen oder aussagekräftige Variablenlabels in Dialogfeldern anzeigen lassen.Da in SPSS 10 (in SPSS12 gilt das nicht mehr) die Länge von Variablennamen nicht mehr als 8 Zeichen betragen darf, sind Namen nur eingeschränkt informativ. Variablenlabels können eine Länge von bis zu 255 Zeichen aufweisen und somit hilfreiche, beschreibende Informationen enthalten.Wenn Sie zwischen der Anzeige von Variablennamen und Variablenlabels wechseln möchten, wählen Sie im Menü "Bearbeiten"

die Funktion "Option". Diese Möglichkeit haben Sie in jedem Fenster (also auch im Viewer und im Syntaxfenster). Wählen Sie dann auf der Registerkarte "Allgemein" die entsprechende Einstellung.

10

1.4. Definition von Variablen- und Werte-Labels Sie können auf die Registerkarte "Variablenansicht" im Dateneditor klicken.Klicken Sie dann auf die Zelle "Variablenlabel" der Variable, und geben Sie das Label ein. Wertelabels können Sie eingeben, wenn Sie in die Zelle Wertelabel klicken und dann in der folgenden Schaltfläche Ihre Angaben ablegen.

Wenn Sie Informationen zu einem beliebigen Steuerelement in einem Dialogfeld erhalten möchten, klicken Sie mit der rechten Maustaste auf das Steuerelement, zu dem Sie Informationen wünschen. In einem Popup-Fenster werden Informationen zu dem Steuerelement angezeigt. So können Sie sich z.B: die folgende Definition von „Faktor“ holen:

11

1.5. Zum Unterschied von Standard-Diagrammen und interaktiven Diagrammen (siehe hierzu ausführlicher: Kapitel 8 und 11). Dialogfelder zum Erstellen und Bearbeiten interaktiver Diagramme unterscheiden sich in verschiedener Hinsicht von anderen Dialogfeldern.Wenn Sie Variablen auswählen möchten, ziehen Sie Variablen aus der Liste der Quellvariablen in die Liste der Zielvariablen und legen sie dort ab. Ziehen heißt: Kursor auf die Variable bringen, linke Maustaste drücken und festhalten und in diesem Zustand den Kursor in das Ziel-Feld bewegen:

12

Es gibt drei Variablentypen, die durch die Symbole neben jeder Variable angezeigt werden: Kategoriale, metrische und sytemeigene Variablen.

String-Variablen, numerische Variablen mit definierten Wertelabels und numerische Variablen, die nominal oder ordinal definiert sind, werden als kategoriale Variablen behandelt.

13

Wenn Sie zwischen der Anzeige von Variablenlabels und Variablennamen wechseln möchten, oder wenn Sie die Anzeigereihenfolge in den Variablenlisten ändern möchten,klicken Sie mit der rechten Maustaste auf eine beliebige Stelle in der Liste und wählen die gewünschten Anzeigeoptionen (s.o.). Weiteres zum Produzieren von Graphiken finden Sie in den Kapiteln 8 und 11. Kontexthilfe zu Steuerelementen sowie Informationen zu Variablen, die Sie mit der rechten Maustaste aufrufen können, sind in den Dialogfeldern für interaktive Diagramme nicht verfügbar. 1.6. Umkodieren Sie können das Menü "Transformieren" zur Berechnung neuer Werte und Variablen und zum Umkodieren von Daten verwenden:

14

Wenn Sie Attribute zur Variablendefinition definiert haben, können Sie die Attribute kopieren und anderen Variablen zuweisen.Klicken Sie in der Variablenansicht auf die Zelle mit dem Attribut, das Sie kopieren möchten.Wählen Sie im Menü "Bearbeiten" die Option "Kopieren" aus.Klicken Sie bei der Variablen, der Sie das Attribut zuweisen möchten, auf die Zelle desselben Attributs.Wählen Sie dann im Menü "Bearbeiten" die Option "Einfügen" aus. Das Attribut wird der Variablen zugewiesen, zumBeispiel definierte Wertelabels. Um die Attribute mehreren Variablen gleichzeitig zuzuweisen, wählen Sie als Ziel mehrere Zellen gleichzeitig aus. (Klicken Sie dazu mit der Maus, und ziehen Sie den Mauszeiger bei gedrückter Maustaste die Spalte hinunter.)Wenn Sie das Attribut einfügen, wird es allen ausgewählten Zellen zugewiesen.Wenn Sie Attribute in leere Zeilen einfügen, werden automatisch neue Variablen mit Vorgabenamen erstellt. 1.7. Prozedur ausführen Wenn Sie eine Prozedur ausführen möchten, müssen Sie zunächst eine Prozedur aus den Menüs auswählen.Wählen Sie auf der Menüleiste die Option "Analysieren" aus.Wählen Sie aus dem Menü "Analysieren" eine Kategorie aus.Wählen Sie dann aus dem Untermenü eine Prozedur aus.Zum Beispiel können Sie die Prozedur "Häufigkeiten" verwenden, um Häufigkeiten und Auswertungsstatistiken zu erhalten. Nachdem Sie eine Prozedur aus den Menüs ausgewählt haben, wählen Sie in einem Dialogfeld Variablen und Optionen aus.Wählen Sie Variablen aus der Liste der Quellvariablen aus.Verwenden Sie die Pfeilschaltflächen, um die ausgewählten Variablen in die Listen der Zielvariablen zu verschieben.Zum Ausführen der Prozedur klicken Sie anschließend auf "OK".Die Ergebnisse werden im Viewer angezeigt. Die meisten Prozeduren enthalten die Minimaleinstellungen auf einem einzigen Dialogfeld. Sie können die Analyse mit optionalen Einstellungen auf untergeordneten Dialogfeldern ändern.Beispielsweise können Sie in der Prozedur "Kreuztabellen" zusätzliche Zelldaten anfordern.Wählen Sie die optionalen Informationen aus, die Sie in der Analyse verwenden möchten. Sie können beispielsweise erwartete Häufigkeiten, Zeilenprozente und korrigierte, standardisierte Residuen hinzufügen.

15

Klicken Sie nach Auswahl der gewünschten Angaben auf "Weiter" und wählen Sie dann die Variablen für die Analyse aus. Sie könnnen auf der Symbolleiste die Option "Zuletzt verwendete Dialogfelder" benutzen, um häufig verwendete Dialogfelder rasch und unkompliziert aufzurufen. Die zuletzt verwendeten Dialogfelder werden am Anfang der Liste aufgeführt.Die Liste wird beim Beenden der Sitzung gespeichert.Wenn Sie also ständig dieselben Dialogfelder verwenden, können Sie diese mit einem einfachen Mausklick aufrufen:

17

Die Ergebnisse ihrer Rechnungen werden im SPSS- Viewer angezeigt.

Der linke Fensterbereich des Viewers enthält eine Gliederungsansicht.Der rechte Fensterbereich enthält Statistiktabellen, Diagramme und Textausgabe.Mit Hilfe der Bildlaufleisten können Sie die Ergebnisse durchsuchen.Sie können aber auch auf ein Element in der Gliederung klicken, um direkt zu der entsprechenden Tabelle oder dem jeweiligen Diagramm zu gelangen.Wenn Sie die Breite des Gliederungfensters ändern möchten, können Sie auf dessen rechten Rahmen klicken und ihn mit gedrückter Maustaste auf die gewünschte Breite ziehen. Das Symbol eines offenen Buchs, das sich direkt neben einem Objekt im Gliederungsfenster befindet, zeigt an, daß das Objekt derzeit im Ausgabefenster sichtbar ist.Wenn Sie eine Tabelle oder ein Diagramm in der Anzeige ausblenden möchten, ohne das Objekt dabei zu löschen, können Sie im Gliederungsfenster auf das entsprechende Buchsymbol doppelklicken.Das Symbol eines offenen Buchs wird nun zu einem geschlossenen Buch, wodurch das Ausblenden des Objekts angezeigt wird. Sie können die Position von Tabellen oder Diagrammen in der Anzeige ändern: Klicken Sie im Inhalts- oder im Gliederungsfenster auf das entsprechenden Objekt.Ziehen Sie das Objekt mit gedrückter Maustaste an die gewünschte Position.Lassen Sie nun die Maustaste los, um das Objekt an dieser Stelle zu positionieren.

18

Sie können eine Ausgabe als Meta-Datei in eine andere Anwendung kopieren:Wählen Sie ein Element aus, indem Sie auf dieses im Gliederungsfenster oder im Inhaltsfenster des Viewers klicken.Wählen Sie im Menü "Bearbeiten" die Option "Kopieren" aus.Wählen Sie in der anderen Anwendung im Menü "Bearbeiten" die Option "Inhalte einfügen" aus.Wählen Sie im Dialogfeld "Inhalte einfügen" die Option "Bild" aus. Beispiel: In der Meta-Datei werden alle Schriftartmerkmale und Rahmenformate beibehalten, welche die Elemente zum Zeitpunkt des Kopierens aufwiesen.Eine Meta-Datei enthält jedoch nur die Informationen, die zum Zeitpunkt des Kopierens im Viewer sichtbar waren.Die Meta-Datei enthält also keine Information, die in ausgeblendeten Kategorien oder Schichten enthalten ist. Sie können eine Pivot-Tabelle als unformatierten Text in eine andere Anwendung kopieren: Wählen Sie ein Element aus, indem Sie auf dieses im Gliederungsfenster oder im Inhaltsfenster des Viewers klicken.Wählen Sie im Menü "Bearbeiten" die Option "Kopieren" aus.Wählen Sie in der anderen Anwendung im Menü "Bearbeiten" die Option "Inhalte einfügen" aus.Wählen Sie im Dialogfeld "Inhalte einfügen" die Option "Unformatierter Text" aus.Unformatierter Text enthält Tabulatoren zwischen den Spalten. Sie können Spalten ausrichten, indem Sie in der anderen Anwendung die Tabstops entsprechend anpassen. Beispiel: Übertragung als formatierter Text:

Statistiken

Gewicht in kg1717

2464,79

11,25240

130

GültigFehlend

N

MittelwertStandardabweichungMinimumMaximum

und als unformatierter Text: Statistiken Gewicht in kg N Gültig 1717 Fehlend 24 Mittelwert 64,79...

40 60 80 100 120 140

Gewicht in kg

0

50

100

150

200

250

Häufi

gkeit

Mean = 64,79Std. Dev. = 11,252N = 1.717

Histogramm

19

1.8. Diagramm erstellen Wählen Sie in der Menüleiste den Befehl "Grafiken".Wählen Sie im Menü "Grafiken" den gewünschten Diagrammtyp aus.Aktivieren Sie das Symbol für den gewünschten Diagrammtyp.Sie müssen außerdem angeben, wie Ihre Daten organisiert sind. Klicken sie nun auf "Definieren". Wenn Sie ein gruppiertes Balkendiagramm erstellen möchten, müssen Sie eine Kategorie-Variable und eine Gruppenvariable bestimmen.Zum Beispiel können Sie die Anzahl der weiblichen und männlichen Befragten darstellen und „Altersgruppe“ als Variable für die Kategorienachse auswählen.Bestimmen Sie "Geschlecht" als Gruppenvariable.Klicken sie nun auf "OK".

18-29 30-39 40-49 50-59 60+

ALTER: BEFRAGTE<R>, 5 Kategorien

0,0%

5,0%

10,0%

15,0%

20,0%

25,0%

Proz

ent

GESCHLECHT, BEFRAGTE<R>

MANNFRAU

Wenn Sie ein Diagramm erstellen, wird es im Viewer angezeigt.Alle definierten Beschriftungen werden automatisch im Diagramm angezeigt.Beschreibende Variablenlabels und Wertbeschriftungen vereinfachen oftmals die Interpretation der Ergebnisse. Sobald Sie ein Diagramm erstellt haben, können sie zahlreiche Attribute bearbeiten, um dessen Erscheinungsbild zu ändern.Sie können den Titel, die Beschriftung, die Schriftarten oder die Farben ändern, Kategorien löschen, den Skalenachsen-Bereich ändern und Achsen vertauschenu nd den Diagrammtyp wechseln. Doppelklicken Sie auf das gewünschte Diagramm.Dadurch wird das Diagramm in einem Diagrammfenster angezeigt.Sie können das Diagramm mit Hilfe der Menüs oder der Symbolleiste bearbeiten, oder indem Sie auf das zu bearbeitende Objekt doppelklicken.Klicken Sie im Diagramm auf die auszuwählenden Objekte.Wenn Sie zum Beispiel auf einen Legendentitel klicken, wird dieser in einem Auswahlfeld angezeigt. Wenn Sie ein Diagramm unter Verwendung der Menüs in einem Diagrammfenster bearbeiten möchten, wählen Sie eine Menüfunktion. Danach bearbeiten Sie das dadurch entstehende Dialogfeld.Wenn Sie beispielsweise im Menü "Diagramm" die Option "Legende" wählen,wird dadurch das Dialogfeld "Legende" geöffnet. Wenn Sie auf ein Objekt in einem Diagrammfenster doppelklicken, wird das entsprechende Dialogfeld geöffnet.Wenn Sie zum Beispiel auf das Balkendiagramm doppelklicken,wird dadurch ein Dialogfeld geöffnet, das die Kategorien und Gruppen im gruppierten

20

Balkendiagramm steuert.Durch Doppelklicken auf die Objekte können Sie problemlos auf viele Bearbeitungsfunktionen für Diagramme zugreifen. Wenn Sie eine Diagrammbeschriftung ändern möchten, doppelklicken Sie auf die zu ändernde Beschriftung. Dadurch öffnet sich das entsprechende Dialogfeld.Wenn Sie beispielsweise auf die Beschriftung "Anzahl" doppelklicken,öffnet sich dadurch ein Dialogfeld, in dem Sie die Achsenbeschriftung ändern können.Sie können beispielsweise die Beschriftung "Anzahl" löschen.Geben Sie einen neuen Titel ein, und klicken Sie dann auf "OK".Nun wird die neue Achsenbeschriftung angezeigt. Verwenden Sie das Symbol "Text", um die Schriftart des ausgewählten Objekts zu ändern.Wählen Sie beispielsweise den Legendentitel aus, und klicken Sie dann auf das Symbol "Text".Wählen Sie die gewünschte Schriftart aus.Wählen Sie die gewünschte Schriftgröße aus.Klicken Sie nun auf "Zuweisen", um die neue Textformatvorlage anzuzeigen.Die neuen Schriftartmerkmale werden dem ausgewählten Diagrammobjekt zugewiesen. Wenn Sie einen Titel einfügen möchten, wählen Sie im Menü "Diagramm" die Option "Titel".Geben Sie einen Titel im Dialogfeld ein.Und klicken Sie auf "OK".Nun erscheint der Titel in Ihrem Diagramm. Wenn Sie eine Kategorie löschen möchten, doppelklicken Sie auf einen der Diagrammbalken.In einem gruppierten Balkendiagramm können Sie beispielsweise eine Geschlechtskategorie löschen oder eine Berufskategorie.Verschieben Sie die zu löschende Kategorie in die Liste "Weglassen Wenn Sie den Bereich und die Intervalle der Skalenachse ändern möchten, doppelklicken Sie auf die Achse. Sie können den angezeigten Bereich ändern. Außerdem können Sie die auf der Achse angezeigten Werte ändern, beispielsweise den angezeigten Bereich und den Wert für die Unterteilung. Verwenden Sie das Symbol "Farbe", um die Farben eines Diagramms zu ändern. Klicken Sie auf ein Diagrammelement. Dann klicken Sie auf der Symbolleiste auf das Symbol "Farbe". Wählen Sie eine Farbe aus.Klicken Sie dann auf "Zuweisen". Dadurch wird den Diagrammbalken die neue Farbe zugewiesen. Sie können das Dialogfeld "Farben" geöffnet lassen, um weitere Farben Ihres Diagrammes zu ändern.Wenn Sie keine weiteren Farben ändern möchten, klicken Sie auf "Schließen". Wenn Sie Diagrammachsen vertauschen möchten, klicken Sie auf der Symbolleiste auf das Symbol "Achsen vertauschen". Die Skalenachse verläuft nun horizontal und die Kategorienachse vertikal. Wenn Sie den Diagrammtyp ändern möchten, wählen Sie im Menü "Galerie" einen neuen Diagrammtyp. Dadurch öffnet sich ein Dialogfeld, in dem Sie den gewünschten Diagrammtyp auswählen können.

21

Wählen Sie zum Erstellen eines interaktiven Diagramms aus dem Menü "Grafiken" die Option "Interaktiv". Wenn Sie beispielsweise ein Balkendiagramm erstellen möchten, wählen Sie unter "Interaktiv" die Option "Balken" aus. Ziehen Sie die Variablen mit gedrückter Maustaste von der Quelliste in die Liste der Zielvariablen. Das Diagramm wird im Fenster des Viewers angezeigt. Doppelklicken Sie auf das Diagramm, um es zu aktivieren. Sie haben viele Möglichkeiten zum Ändern von interaktiven Diagrammen. Sie können dem Diagramm zum Beispiel zusätzliche Variablen hinzufügen. Klicken Sie auf das Symbol "Variablen zuweisen", um zusätzliche Variablen auszuwählen. Ein gruppiertes Balkendiagamm kann in ein 3D-Balkendiagramm umgewandelt werden. Um ein Diagramm aus einer Pivot-Tabelle zu erstellen, aktivieren Sie Pivot-Tabelle (doppelklicken Sie auf eine beliebige Stelle in der Tabelle).Wählen Sie die Zellen aus, die Sie im Diagramm anzeigen möchten.Klicken Sie mit der rechten Maustaste auf eine beliebige Stelle im ausgewählten Bereich.Klicken Sie im Popup-Kontextmenü auf "Diagramm erstellen".Klicken Sie dann auf den gewünschten Diagrammtyp. Jeder Balken stellt eine ausgewählte Zelle der Pivot-Tabelle dar:

Computer-Besitz * Schulabschluss der Mutter Kreuztabelle

Anzahl

205 300 83 148 736263 449 92 168 972468 749 175 316 1708

NeinJa

Computer-Besitz

Gesamt

Hauptschule Mittlere Reife Abitur StudiumSchulabschluss der Mutter

Gesamt

Computer-Besitz NeinComputer-Besitz JaGesamt

Computer-Besitz

Schulabschluss der Mutter HauptschuleSchulabschluss der Mutter Mittlere Reife

Schulabschluss der Mutter Abitur

Schulabschluss der Mutter Studium

Schulabschluss der Mutter

0

250

500

750

Wer

te

Computer-Besitz * Schulabschluss der Mutter KreuztabelleStatistik : Anzahl

22

Wenn Sie ein interaktives Diagramm bearbeiten möchten, doppelklicken Sie auf das Diagramm, um es zu aktivieren.Doppelklicken Sie dann auf ein Element, um seine Attribute zu ändern.Wenn Sie beispielsweise Werte auf den Balken eines Balkendiagramms anzeigen lassen möchten, doppelklicken Sie auf einen beliebigen Balken.Damit öffnen Sie das Dialogfeld "Balken".Klicken Sie im Gruppenfeld "Beschriftung" auf "Anzahl" oder "Werte".Da in diesem Diagramm die Balken den Verkaufsumsatz darstellen, klicken Sie auf "Werte".Das Balkendiagramm zeigt nun am oberen Ende jedes Balkens die Werte an.


Computer-Besitz





0

250

500

750

Wer

te

205

263

468

300

449

749

83 92

175148

168

316


Wenn Sie die Attribute eines einzelnen Elements oder einer Untergruppe von Elementen bearbeiten möchten, klicken Sie mit der rechten Maustaste auf ein Element.Damit öffnen Sie ein Kontextmenü.Wenn Sie die Attribute für Balken ändern möchten, die eine ganze Unterteilung darstellen, klicken Sie auf "Diese Unterteilung auswählen".Nun werden alle Balken für diese Gruppe markiert. Drücken Sie nochmals die rechte Maustaste, und klicken Sie dann auf "Eigenschaften".Klicken Sie in diesem Beispiel auf die Dropdown-Liste "Ausfüllung", um das Füllmuster der Balken zu ändern.Es werden verschiedene systemeigene Füllmuster und Texturen zur Auswahl angeboten.

23


Computer-Besitz





0

250

500

750

Wer

te

205

263

468

300

449

749

83 92

175148

168

316


Sie können auch den Diagramm-Manager zum Ändern von Diagrammeigenschaften verwenden.Klicken Sie auf der Diagramm-Symbolleiste auf das Symbol des Diagramm-Managers.Wählen Sie das zu ändernde Diagrammelement aus, und klicken Sie dann auf "Bearbeiten".Klicken Sie in diesem Beispiel auf "Balken".Klicken Sie nun im Dialogfeld "Balken" auf die Registerkarte "Auswertungsfunktion". Sie können auch den Diagramm-Manager zum Ändern von Diagrammeigenschaften verwenden. Klicken Sie auf der Diagramm-Symbolleiste auf das Symbol des Diagramm-Managers. Wählen Sie das zu ändernde Diagrammelement aus, und klicken Sie dann auf "Bearbeiten". Klicken Sie in diesem Beispiel auf "Balken". Klicken Sie nun im Dialogfeld "Balken" auf die Registerkarte "Auswertungsfunktion". Sie können einem Diagramm auch andere grafische Elemente hinzufügen. Klicken Sie auf der Symbolleiste auf das Symbol "Fügt ein Element ein", und wählen Sie den Typ des hinzuzufügenden Elements aus.

24

Kapitel 2 Simulation von Verteilungen. Vergleich von simulierten und erwarteten Kennwerten.

Kennenlernen von empirischen und theoretischen Verteilungen. Arbeiten mit der Syntax. Vorgehen: 2.1. Erzeugen einer Gleichverteilung Aufgabe: Überprüfen Sie anhand von SPSS die im Statistik-Skriptum von B. Dieckmann beschriebenen Eigenschaften (Mittelwert, Streuung) der Gleichverteilung am Beispiel eines selbst erzeugten Daten-Files mit 3000 Fällen. Der Mittelwert ist für diese Gleichverteilung mit

μ =+a b2

gegeben. Die Varianz kann nach der Formel

( )σ

22

12=

−b a

berechnet werden. Entsprechend wird die Standardabweichung berechnet:

( )σ =

−b a2

12

Wir erzeugen nun einen Datenfile mit 3000 Fällen, in dem eine Gleichverteilung im Intervall von 2 bis 8 enthalten sein soll: Hierzu geben bei leerem Dateneditor den Befehl: gehe zu Fall 3000. In das Datenfeld dieses Falles geben wir eine Zahl ein und drücken Enter. (Falls dies mißlingt, geben wir eine Zahl in ein Datenfeld mit möglichst hoher Punktzahl ein, kopieren diese „Daten“ dann solange untereinander in eine Variable, bis 3000 Fälle erreicht sind). Dann geben wir im Syntax – Fenster den Befehl: COMPUTE gleich = RV.UNIFORM(2,8). EXECUTE . GRAPH /HISTOGRAM=gleich . Der Rechner erstellt das Histogramm unserer Gleichverteilung:

25

2,00 3,00 4,00 5,00 6,00 7,00 8,00

gleich

0

20

40

60

80

100H

äufig

keit

Mean = 4,9994Std. Dev. = 1,71571N = 3.000

Wir lesen aus dem Histogramm ab, daß das arithmetische Mittel gleich 4,994 ist, die Standardabweichung ist 1,71571. Wir berechnen nach den oben aufgeführten Formeln die Erwartungswerte: μ = 5 σ=(((8 - 2) ** 2) / 12) ** 0.5 = 1.73205081 Feststellung: Die Abweichung zu den Werten, die neben der obigen Graphik angegeben wurden, ist sehr gering.

26

2.2. Erzeugen einer Binomialverteilung. Wir stellen wieder einen File mit 3000 Fällen her. Wir können den gleichen File nehmen wie bei der Gleichverteilung. Wir erzeugen 10 Variablen mit den Namen v1 bis v10 und erzeugen in ihnen gleichverteilte Nullen und Einsen mithilfe folgender Syntax: COMPUTE v1 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v2 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v3 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v4 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v5 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v6 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v7 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v8 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v9 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v10 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . Wenn wir diese 10 Verteilungen addieren, entsteht eine Binomialverteilung, so als hätten wir mit 10 Münzen gleichzeitig geworfen. Der Additionsbefehl ist folgender: Compute bino10 = v1 + v2 +v3 +v4 + v5 + v6 + v7 + v8 + v9+ v10. „bino 10“ zählt jeweils nur das Eintreffen einer der Alternativen, nämlich die 1. Insofern kann man aus bino10 die Wahrscheinlichkeit berechnen, daß unter 10 Münzen 0mal die 1, einmal die 1, ...10mal die 1 vorkommt, und das ist die Bionmialverteilung. Der Mittelwert von Binomialverteilungen errechnet sich aus µ = p * n. In unserem Fall erwarten wir als arithmetisches Mittel: p= 0,5 n = 10 p*n = 0,5* 10 = 5 Die Standardabweichung errechnet sich aus S = p n q* * In unserem Fall erwarten wir als Standardabweichung: S = 5811,15,0*10*5,0 =

27

Wir wollen jetzt überprüfen, ob unsere Binomialverteilung a) die vorhergesagten Kennwerte hat: ein Arithmetisches Mittel von 5

und eine Standardabweichung von 1,58 b) eine prozentuale Verteilung, die einer idealen Binomialverteilung entspricht. Hierzu erzeugen wir ein Balkendiagramm der durch Simulation erzeugten Binomialverteilung „bino10“:

,00 1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 10,00

bino10

0,0%

5,0%

10,0%

15,0%

20,0%

25,0%

Proz

ent

0 07%0,9%

3,93%

11,57%

20,8%

24,5%

20,57%

12,57%

4,17%

0,83% 0 1%

Für die Verteilung bino10 fordern wir weiterhin die gewünschten Kennwerte (arithm. Mittel, Standardabweichung, Minimum und Maximum) an sowie eine Häufigkeitsanalyse: DESCRIPTIVES VARIABLES=bino10 /STATISTICS=MEAN STDDEV MIN MAX . FREQUENCIES VARIABLES=bino10 /ORDER= ANALYSIS .

28

zu a: Die in der Simulation erzeugten Werte sind: Deskriptive Statistik

N Minimum Maximum Mittelwert Standardabw

eichung bino10 3000 ,00 10,00 5,0237 1,55796 Gültige Werte (Listenweise) 3000

Die beobachteten Kennwerte weichen von den idealen nur minimal ab. Wir können auch noch überprüfen, ob die einzelnen Punktwahrscheinlichkeiten in unserer Simulation den idealen Punktwahrscheinlichkeiten entsprechen, die wir nach der Formel

Pn,k = qp knk

kn −

⎟⎟⎠

⎞⎜⎜⎝

⎛

für n = 1 und k = 0, 1,2,...10 berechnen können. Die folgende Tabelle zeigt in Spalte 1 den Verlauf von k, in Spalte 2 die Häufigkeit bei 3000 Versuchen, in Spalte 3 die sich dabei ergebenden prozentualen Häufigkeiten und in Spalte 4 die Punktwahrscheinlichkeiten mal 100, die sich nach obiger Formel ergäben:

bino10

2 ,1 ,127 ,9 1,0

118 3,9 4,4347 11,6 11,7624 20,8 20,5735 24,5 24,61617 20,6 20,51377 12,6 11,7125 4,2 4,4

25 ,8 ,983 ,1 ,10

3000 100,0 100,0

,001,002,003,004,005,006,007,008,009,0010,00Gesamt

GültigHäufigkeit Prozent

IdealeProzente

Wir sehen, daß die Differenz zu den idealen Werten maximal 0,9 % beträgt. Die idealen Prozentwerte lassen sich in SPSS 12 durch die Funktion PDF.BINOM(q,10,0.5) ermitteln (die wir im Dialogfeld „Berechnen“ aufrufen können. Wir müssen nur für q in dieser Funktion eine Variable (k) anbieten, die die Zahlen 0 bis 10 aufführt). Übungsaufgabe: Wiederholen Sie den Vorgang, jetzt aber mittels einer Binomialverteilung, die über den Befehl „RV.Binom(n,p)“ erzeugt wurde.

k

29

2.3. Erzeugen einer Normalverteilung. Wir erzeugen wieder einen leeren Datenfile mit 3000 Fällen. Wir lassen für diese 3000 Fälle 30 Zufallsprozesse unabhängig voneinander ablaufen, die nur die Zahlen 0 und 1 gleichverteilt produzieren. Dies erreichen wir mit folgender Syntax, die wir schon oben kennengelernt haben: COMPUTE v1 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v2 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v3 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v4 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v5 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v6 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v7 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v8 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v9 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v10 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v11 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v12 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v13 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v14 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v15 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v16 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v17 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v18 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v19 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v20 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v21 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v22 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v23 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v24 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v25 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v26 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v27 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE .

30

COMPUTE v28 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v29 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . COMPUTE v30 = trunc(RV.UNIFORM(0.5,1.5)) . EXECUTE . Das Ergebnis addieren wir und erhalten im Datensatz die Variable „normal“. Diese ist zwar streng genommen eine Binomialverteilung, aber mit n = 30, also schon gut an die Normalverteilung angenähert. Wir könnten in SPSS auch die Normalverteilung direkt simulieren mit dem Befehl: RV.Normal(mittel,Stdabw). Wir benutzen diesen Befehl jetzt aber nicht, sondern zeigen statt dessen die Möglichkeit einer Simulation über die Addition von 30 binären Gleichverteilungen: Compute normal = v1 + v2 + v3 + v4 + v5 + v6 + v7 + v8 + v9 + v10 + v11 + v12 + v13 + v14 + v15 + v17+ v18 + v19 + v20 + v21 + v22 + v23 + v24 + v25 + v26 + v27 + v28 + v29 + v30. Für diese neu berechnete Variable „normal“ führen wir eine Häufigkeitsanalyse aus: Das Ergebnis ist: Kennwerte normal

Gültig 3000N Fehlend 0

Mittelwert 14,4697Median 14,0000Modus 14,00Standardabweichung 2,71997Minimum 6,00Maximum 23,00

Den Mittelwert hätten wir 15 bei erwartet ( p * n= 0,5 * 30 = 15) und bei der Standardabweichung hätten wir erwartet bei (p*n*q)**0,5= (0,5*30*0,5)**0,5 = 2,7386. Die Differenzen sind gering. Das Histogramm der entsprechenden durch Simulation gewonnenen Verteilung hat folgendes Aussehen:

5,00 10,00 15,00 20,00 25,00

normal

0

100

200

300

400

500

Häuf

igke

it

Mean = 14,4697Std. Dev. = 2,71997N = 3.000

Histogramm

31

Die Tabelle der Häufigkeitsverteilung der erzeugten „Normalverteilung“ zeigt die folgenden Daten:

Häufigkeit Prozent Gültige

Prozente Kumulierte Prozente

Kumulierte Prozente bei

idealer Normalvertei

lung Gültig 6,00 5 ,2 ,2 ,2 ,10 7,00 9 ,3 ,3 ,5 ,31 8,00 18 ,6 ,6 1,1 ,88 9,00 55 1,8 1,8 2,9 2,23 10,00 109 3,6 3,6 6,5 5,02 11,00 223 7,4 7,4 14,0 10,06 12,00 291 9,7 9,7 23,7 18,07 13,00 390 13,0 13,0 36,7 29,19 14,00 461 15,4 15,4 52,0 42,76 15,00 388 12,9 12,9 65,0 57,24 16,00 346 11,5 11,5 76,5 70,81 17,00 296 9,9 9,9 86,4 81,93 18,00 197 6,6 6,6 92,9 89,94 19,00 113 3,8 3,8 96,7 94,98 20,00 60 2,0 2,0 98,7 97,77 21,00 24 ,8 ,8 99,5 99,12 22,00 12 ,4 ,4 99,9 99,69 23,00 3 ,1 ,1 100,0 99,90 Gesamt 3000 100,0 100,0

Wenn wir die Verteilung der kumulierten Häufigkeiten in der o.a. Tabelle mit „idealen Häufigkeiten“ einer Normalverteilung vergleichen wollen, die das (erwartete) arithmetische Mittel 15 und die (erwartete) Standardabweichung 2,7386 hat, müßten wir überlegen, wie wir SPSS dazu bringen, uns diese idealen Häufigkeiten als Erwartungswerte auszurechnen, die in der o.a. Tabelle grau unterlegt sind. Man kann folgendermaßen vorgehen: Wir generieren eine neue Variable „normkum“, indem wir für eine Variable „kplus“ angeben, wie hoch die kumulierten Wahrscheinlichkeiten für eine Normalverteilung sind, die das arithmetische Mittel 15 und die Standardabweichung 2,7386 hat. „kplus“ ist hierbei so konstruiert, daß ihre Werte als Klassenobergrenzen einer Variable aufgefaßt werden können, die die die Klassenmitten 0, 1, 2,...30 hat. Die jeweiligen Klassenobergrenzen sind daher 0,5; 1,5; ....29,5; 30,5. Die hierzu erforderliche Syntax lautet (für einen File mit 31 Fällen): Compute kplus = $casenum – 0.5. COMPUTE normkum = CDF.NORMAL(kplus,15,2.7386) . EXECUTE . Diese Syntax schreibt die kumulierten Wahrscheinlichkeiten in den Dateneditor. Dort multiplizieren wir sie mit 100 und übertragen die Werte nach Word in obige Tabelle. Durch vergleich der idealen kumulierten Prozente mit den durch Simulation erzeugten kumulierten Prozente erkennen wir, daß bei den mittleren Ausprägungen der durch Simulation (Addition von 30 gleichverteilten, binären Variablen) erzeugten Normalverteilung deutliche Differenzen (fast 10 %) zur idealen Normalverteilung vorliegen. Übungsaufgabe: Wiederholen Sie den Vorgang, jetzt aber mittels einer Normalverteilung, die über den Befehl „RV.Normal(mittel,Stdabw)“ erzeugt wurde.

32

2.4. Erzeugung einer Chiquadratverteilung Die Theorie hierzu finden wir im Skriptum Dieckmann. Die Chiquadratverteilung entsteht als Summe quadrierter Standardnormalverteilungen. Die Standardnormalverteilung hat bekanntlich das arithmetische Mittel 0 und die Standardabweichung 1.

2

1

2 zCHI i

n

iΣ=

=

Die Menge der Freiheitsgrade ist hierbei die Menge der Summanden. Dementsprechend schreiben wir uns – wieder für unsere 3000 Fälle - folgende Syntax: COMPUTE v1 = RV.NORMAL(0,1) . EXECUTE . Compute v1q = v1**2. EXECUTE. COMPUTE v2 = RV.NORMAL(0,1) . EXECUTE . Compute v2q = v2**2. EXECUTE. COMPUTE v3 = RV.NORMAL(0,1) . EXECUTE . Compute v3q = v3**2. EXECUTE. COMPUTE v4 = RV.NORMAL(0,1) . EXECUTE . Compute v4q = v4**2. EXECUTE. COMPUTE v5 = RV.NORMAL(0,1) . EXECUTE . Compute v5q = v5**2. EXECUTE. COMPUTE v6 = RV.NORMAL(0,1) . EXECUTE . Compute v6q = v6**2. EXECUTE. COMPUTE v7 = RV.NORMAL(0,1) . EXECUTE . Compute v7q = v7**2. EXECUTE. COMPUTE v8 = RV.NORMAL(0,1) . EXECUTE . Compute v8q = v8**2. EXECUTE. compute chiqdf8 = v1q + v2q + v3q + v4q + v5q + v6q + v7q + v8q. EXECUTE. Um das Ergebnis als Häufigkeitstabelle und als Balkendiagramm darstellen zu können, werden die Daten noch mit folgendem Befehl rekodiert, der die Möglichkeit schafft, die Daten schon in der Klassenbreite 1 mit den Klassenmitten 0,5; 1,5; ....darzustellen: COMPUTE chiq8rec1 = TRUNC(chiqdf8/1) * 1 +0.5 . EXECUTE . Die Verteilung nach dieser Prozedur ist folgende:

33

Statistiken chiq8rec1


Mittelwert 8,0100Modus 6,50Standardabweichung 3,96617Schiefe ,825Standardfehler der Schiefe

,045

Kurtosis ,649Standardfehler der Kurtosis

,089

Minimum ,50Maximum 26,50

chiq8rec1



Erwartete kumulierte Prozente

Gültig ,50 4 ,1 ,1 ,1 ,18 1,50 57 1,9 1,9 2,0 1,90 2,50 141 4,7 4,7 6,7 6,56 3,50 219 7,3 7,3 14,0 14,29 4,50 309 10,3 10,3 24,3 24,24 5,50 335 11,2 11,2 35,5 35,28 6,50 341 11,4 11,4 46,9 46,34 7,50 296 9,9 9,9 56,7 56,65 8,50 240 8,0 8,0 64,7 65,77 9,50 235 7,8 7,8 72,6 73,50 10,50 194 6,5 6,5 79,0 79,83 11,50 146 4,9 4,9 83,9 84,88 12,50 129 4,3 4,3 88,2 88,82 13,50 105 3,5 3,5 91,7 91,82 14,50 70 2,3 2,3 94,0 94,09 15,50 57 1,9 1,9 95,9 95,76 16,50 42 1,4 1,4 97,3 96,99 17,50 24 ,8 ,8 98,1 97,88 18,50 23 ,8 ,8 98,9 98,51 19,50 12 ,4 ,4 99,3 98,97 20,50 8 ,3 ,3 99,6 99,29 21,50 5 ,2 ,2 99,7 99,51 22,50 2 ,1 ,1 99,8 99,66 23,50 3 ,1 ,1 99,9 99,77 25,50 2 ,1 ,1 100,0 99,84 26,50 1 ,0 ,0 100,0 99,89 Gesamt 3000 100,0 100,0

34

Wir haben erwartet, ein arithmetisches Mittel von 8 (= df) und eine Standardabweichung von 4 (Quadratwurzel aus 2df) zu bekommen. Unsere Simulation zeigt hierzu sehr gut angenäherte Werte. Die Graphik ist gegenüber der Normalverteilung leicht nach links verschoben und etwas schmaler. Das Schiefemaß ist deutlich größer als 0, d.h. die Verteilung ist links steil und läuft rechts lang aus. Die Kurtosis ist ebenfalls größer als 0, d.h. die Verteilung ist schmaler mit längeren „Flügeln“ als die Normalverteilung. Wenn wir überprüfen wollen, ob die Verteilung der kumulierten Prozente den erwarteten kumulierten Werten entspricht, verfahren wir wieder analog zum obigen Verfahren bei der Normalverteilung: Die erwarteten kumulierten Werte sind in der o.a. Häufigkeitsverteilung als erwartete Prozente bereits eingetragen. Wir sehen sehr geringe Abweichungen. Die Herstellung der erwarteten kumulierten Werte (chiqcumdf8) ist mit folgender Syntax möglich, sofern v9 eine Variable ist , die die Werte von 1 bis 27 als „Klassenobergrenzen“ anbietet. COMPUTE chiqcumdf8 = CDF.CHISQ(v9,8) . EXECUTE . Übungsaufgabe: Wiederholen Sie den Vorgang, jetzt aber mittels einer Chiquadratverteilung, die über den Befehl „RV.CHISQ(df)“ erzeugt wurde.

,501,502,503,504,505,506,507,508,509,5010,5011,5012,5013,5014,5015,5016,5017,5018,5019,5020,5021,5022,5023,5025,5026,50

chiq8rec1

0

2

4

6

8

10

12

Proz

ent

chiq8rec1

35

2.5. Erzeugung einer t-Verteilung. Wie wir im Dieckmann – Skriptum nachlesen können, entsteht die t-Verteilung wie folgt:

df

z

dfdfT 2χ=

Das bedeutet, daß wir eine Standardnormalverteilung durch die Wurzel einer Chiquadratverteilung teilen müssen, die ihrerseits durch die Anhzahl ihrer Freiheitsgrade dividiert wurde. Dies können wir mit dem jetzt vorhandenen Datensatz sehr leicht leisten, wenn wir eine t-Verteilung mit 8 Freiheitsgraden erzeugen wollen: Als Zähler verwenden wir eine unserer standardisierten Normalverteilungen, z.B: v2 COMPUTE tdf8 = v2 /(chiqdf8/8) ** 0.5 . EXECUTE . Das Ergebnis unserer Rechnung ist: Statistiken tdf8


Mittelwert ,0070Standardabweichung 1,00943Schiefe -,043Standardfehler der Schiefe

,045

Kurtosis -,574Standardfehler der Kurtosis

,089

Minimum -2,54Maximum 2,64

-3,00 -2,00 -1,00 0,00 1,00 2,00 3,00

tdf8

0

30

60

90

120

150

Häu

figke

it

Mean = 0,007Std. Dev. = 1,00943N = 3.000

Histogramm

36

Wir erwarten ein arithmetisches Mittel von Null und eine Varianz von df/(df-2). Unsere erzielten Werte entsprechen diesem Ideal: Das arithmetische Mittel liegt bei 0,007, also nahe bei Null, die erzielte Varianz ist jedoch erheblich kleiner als erwartet. Erwartet wurde: 1,333, erreicht wurde 1,00943. Bei der Schiefe wurde Null erwartet und –0,043 erreicht, bei der Kurtosis wurde ein Wert von kleiner als Null erwartet und tatsächllich ein negativer Wert von –0.574 erreicht, was darauf hindeutet, daß eine t-Verteilung flacher verläuft als eine Normalverteilung. Wenn wir wieder den Vergleich der durch Simulation realisierten t-Verteilung mit einer idealen t-Verteilung aufgrund der Gegenüberstellung der kumulierten Prozente vornehmen wollen, rekodieren wir zunächst unsere simulierte Verteilung: COMPUTE tdf8rec = trunc(tdf8/0.4)*0.4. EXECUTE . Eine Häufigkeitsauszählung ergibt: tdf8rec



erwartete kumulierte Prozente

Gültig -2,40 10 ,3 ,3 ,3 2,95 -2,00 56 1,9 1,9 2,2 5,48 -1,60 119 4,0 4,0 6,2 9,95 -1,20 188 6,3 6,3 12,4 17,33 -,80 315 10,5 10,5 22,9 28,26 -,40 366 12,2 12,2 35,1 42,32 ,00 862 28,7 28,7 63,9 57,68 ,40 360 12,0 12,0 75,9 71,74 ,80 326 10,9 10,9 86,7 82,67 1,20 227 7,6 7,6 94,3 90,05 1,60 119 4,0 4,0 98,3 94,52 2,00 46 1,5 1,5 99,8 97,05 2,40 6 ,2 ,2 100,0 98,42 Gesamt 3000 100,0 100,0

Es zeigt sich, daß die Anpassung der erwarteten und realisierten kumulierten Prozente nicht sehr gut ist. Es gibt erhebliche Differenzen. Hier könnte sich zeigen, daß die Simulation der t-Verteilung innerhalb eines begrenzten Intervalls doch im Ergebnis das Problem erzeugt, daß die Differenzen zwischen idealer (stetiger und unbegrenzter) Verteilung und simulierter Verteilung zunehmen. Übungsaufgabe: Wiederholen Sie den Vorgang, jetzt aber mittels einer Chiquadratverteilung, die über den Befehl „RV.CHISQ(df)“ erzeugt wurde. 2.6. Erzeugung einer F-Verteilung. Nach der Formel der F-Verteilung

( )

n

mFn

m

nm 2

2

, χ

χ

=

bekommen wir eine F-Verteilung dann, wenn wir zwei Chiquadratverteilungen durcheinander dividieren, die jeweils durch ihre eigenen Freiheitsgrade dividiert wurden. Mittels des gleichen Datenfiles, den wir schon oben entwickelt haben, können wir hier nun zu Demonstrationszwecken eine F-Verteilung mit den Freiheitsgraden 3 (Zähler) und 5 (Nenner) erzeugen:

37

Falls v1 bis v8 neu erzeugt werden müssen, kommen zunächst die hierzu erforderlichen Befehle: COMPUTE v1 = RV.NORMAL(0,1) . EXECUTE . COMPUTE v2 = RV.NORMAL(0,1) . EXECUTE . COMPUTE v3 = RV.NORMAL(0,1) . EXECUTE . COMPUTE v4 = RV.NORMAL(0,1) . EXECUTE . COMPUTE v5 = RV.NORMAL(0,1) . EXECUTE . COMPUTE v6 = RV.NORMAL(0,1) . EXECUTE . COMPUTE v7 = RV.NORMAL(0,1) . EXECUTE . COMPUTE v8 = RV.NORMAL(0,1) . EXECUTE . Jetzt kommt die Erzeugung der beiden Chiquadratverteilungen, dann deren Division durch die Menge der jeweiligen Freiheitsgrade, dann deren Division durcheinander: Compute Fdf35 = (((v6**2 + v7**2 + v8**2)/3)) / (((v1**2 + v2**2 + v3**2 + v4**2 + v5**2)/5)). EXECUTE. Jetzt folgt die Graphik: COMPUTE Fdf35rec = TRUNC(fdf35/0.2)*0.2-0.1 . EXECUTE . GRAPH /HISTOGRAM(NORMAL)=Fdf35 .

38

0 2 4 6 8 10 12 14 16

Fdf35

0

500

1.000

1.500

Häu

figke

it

Mean = 1,7526Std. Dev. = 5,45877N = 3.000

Das Ergebnis ist die folgende Graphik, die aber eventuell von der Originalgraphik aus noch erheblich verändert werden muß. Erwartet werden Mittelwert = n/n-1 wobei n hier die Freiheitsgrade im Nenner (= 5) sind. 5/4 = 1,25. Realisiert wird ein Mittelwert von 1, 75. DieStandardabweichung wird erwartet bei

S²=( )

( ) ( )2

22

22

4n

nn m

m n

+ −

− −= 300/27 = 11,11

S = 3,33. Die realisierte Standardabweichung liegt bei 5,45877. Die Ergebnisse sind daher sehr ungenau. Wir verzichten daher darauf, nach dem oben gezeigten Verfahren den Vergleich zwischen den kumulierten Prozenten und den idealen kumulierten Prozenten vorzunehmen. Übungsaufgabe: Wiederholen Sie den Vorgang, jetzt aber mittels einer Fverteilung, die über den Befehl „RV.F(df1,df2)“ erzeugt wurde.

39

Kapitel 3 Unterschiedshypothesen-Prüfung Veranschaulichung von deskriptiven Lage- und Streuungsmaßen, der einfachen Regressionsrechnung und statistischer Tests anhand von Datenfiles, die selber hergestellt wurden mittels Zufallszahlengenerator und eigener Syntax. Vorteil der Methode: Man weiß, was herauskommen müßte, wenn die jeweilige Rechnung das leistet, was sie leisten sollte. Leistet sie das Gewünschte nicht, oder nur eingeschränkt, dann führt dies zum vorsichtigeren Gebrauch der Methode. 3. Prüfung von Unterschiedshypothesen an Stichprobendaten 3.1. Einstichproben-z- und t-Test Wir stellen eine normalverteilte Zufallszahlenverteilung her, mit dem arithmetischen Mittel 500 und der Standardabweichung 30. N = 3000. Wir nennen die Variable: Rente. Wir ziehen Stichproben unterschiedlichen Umfangs und experimentieren mit z-Test und t-Test um die Frage zu überprüfen, ob die gezogene Stichprobe aus der von uns hergestellten Grundgesamtheit von 3000 Fällen stammen kann. Herstellung der Grundgesamtheit: Wir geben einen File mit 3000 leeren Fällen vor. Wir simulieren eine Normalverteilung mit dem Arithmetischen Mittel 500 und der Standardabweichung 30: COMPUTE Rente = RV.NORMAL(500,30) . EXECUTE . Wir überprüfen die Parameter dieser Verteilung und lassen gleichzeitig von der erzeugten Verteilung eine Standardnormalverteilung erzeugen:

Hierzu machen wir ein Häkchen bei „Standardisierte Werte als Variable speichern“. Die Syntax ist: DESCRIPTIVES VARIABLES=Rente /SAVE /STATISTICS=MEAN SUM STDDEV MIN MAX . Das Ergebnis ist:

40

Deskriptive Statistik

3000 400,58 595,29 1500590 500,1968 30,12582

3000

RenteGültige Werte(Listenweise)

N Minimum Maximum Summe MittelwertStandardabweichung

Wollen wir nun, zur Erleichterung der weiteren Arbeit eine Normalverteilung haben, die genau den Mittelwert 500 hat und die Standardabweichung 30, so können wir das mit folgender Syntax leisten, weil wir ja unter dem Namen ZRente, den der Rechner vergeben hat, in unserem Datenfenster eine standardisierte Normalverteilung haben. COMPUTE Rente500 = ZRente * 30 + 500 . EXECUTE . Die neue Variable nennen wir Rente500; sie hat, wie erwartet, genau das arithmetische Mittel von 500 und genau die Standardabweichung 30:


3000 400,80 594,70 1500000 500,0000 30,00000

3000

Rente500Gültige Werte(Listenweise)

N Minimum Maximum Summe MittelwertStandardabweichung

Aus dieser Verteilung ziehen wir jetzt ein paar Zufallsstichproben, bei denen wir den z-Test einsetzen, siehe Dieckmann-Skriptum, S. 95 Die Prüfgröße z, die im z-Test verwendet wird, hat die Formel:

ns

xz μ−=

Wir probieren den Z-Test nacheinander an Stichproben mit dem folgenden Umfang aus: Stichprobe 1: n = 50 Stichprobe 2: n = 100 Stichprobe 3: n = 300 Stichprobe 4: n = 500 Stichprobe 5: n = 1000 Die Syntax für die Stichproben ist: USE ALL. do if $casenum = 1. compute #s_$_1=50. compute #s_$_2=3000. end if.

41

do if #s_$_2 > 0. compute filter_$ = uniform(1)* #s_$_2 < #s_$_1. compute #s_$_1 = #s_$_1 - filter_$. compute #s_$_2 = #s_$_2 - 1. else. compute filter_$ = 0. end if. VARIABLE LABEL filter_$ '50 aus den ersten 3000 Fällen (STICHPROBE)'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . Diese Syntax erzeugen wir mittels der Schaltfläche Daten/ Fälle auswählen:

dann bildet SPSS eine Filtervariable „Filter_$“, in der alle mit 1 gekennzeichneten Fälle noch gültig sind. Für die restlichen, ausgewählten Fälle berechnen wir die Kennwerte: DESCRIPTIVES VARIABLES=Rente500 /STATISTICS=MEAN SUM STDDEV MIN MAX SEMEAN . Ergebnis: (für die Stichprobengröße 50)

42


50 420,57 555,93 25006,51 500,1302 3,56917 25,23786

50

Rente500Gültige Werte(Listenweise)

Statistik Statistik Statistik Statistik StatistikStandardf

ehler Statistik

N Minimum Maximum Summe Mittelwert Standard

Wir führen den z-Test spaßeshalber auf dem Taschenrechner durch. z = (500,1302 – 500)/ 3,56917 = 0,03698 Wir erhalten mittels Taschenrechner einen z-Wert von 0,03698. Diesem entspricht „links“ von diesem z-Wert eine Fläche unter der Standardnormalverteilung von p = 0, 51474. Wir können dies sehr schnell mit SPSS herausfinden. Wir definieren eine neue Variable „z“, der wir im Fall 1 obigen Wert von 0,03698 zuweisen. Dann führen wir die folgende Syntax aus: COMPUTE p = CDF.NORMAL(z,0,1) . EXECUTE . Es wird eine Variable p berechnet, deren Fall 1 den Wert 0,51474 ausweist. Dies ist die oben gesuchte Fläche. Rechts von diesem z-Wert läge demgemäß eine Fläche von 1 - 0, 51474 = 0,48526. Verdoppeln wir diese Fläche, dann erhalten wir den Wert von p= 0,97052. Dieses wäre die Irrtumswahrscheinlichkeit, mit der wir bei einem zweiseitigen Test die Nullhypothese ablehnen würden. Bei so hoher Irrtumswahrscheinlichkeit behalten wir daher die Nullhypothese bei. Wir führen jetzt den z-Test in SPSS aus: Die – hier für den z-Test und den T-Test gemeinsame Syntax lautet: T-TEST /TESTVAL = 500 /MISSING = LISTWISE /VARIABLES = Rente500 /CRITERIA = CI(.95) . Das Ergebnis des t-Tests ist:

Statistik bei einer Stichprobe

50 500,1302 25,23786 3,56917Rente500N Mittelwert

Standardabweichung

Standardfehler des

Mittelwertes

Test bei einer Sichprobe

,036 49 ,971 ,13018 -7,0423 7,3027Rente500T df Sig. (2-seitig)

MittlereDifferenz Untere Obere

95% Konfidenzintervallder Differenz

Testwert = 500

43

Die oben bezeichnete Fläche von p = 0,97 ist auch in diesem Test berechnet worden. Unsere Stichprobe ist daher mit hoher Wahrscheinlichkeit aus der uns bekannten Grundgesamtheit entnommen worden. H0 daher wird beibehalten. Wir führen jetzt diesen Test für weitere Stichproben durch, wie oben geplant: Hierzu löschen wir jeweils die Filtervariable und bilden die Stichprobenauswahl wie oben beschrieben, nur unter Angabe einer veränderten Stichprobengröße n. Wir führen danach jeweils wieder die folgende Syntax aus: T-TEST /TESTVAL = 500 /MISSING = LISTWISE /VARIABLES = Rente500 /CRITERIA = CI(.95) . Für n = 100 erhalten wir nach dem gleichen Verfahren:



Standardabweichung

Standardfehler des

Mittelwertes


1,181 99 ,240 3,18766 -2,1668 8,5421Rente500T df Sig. (2-seitig)



Testwert = 500

H0 wird beibehalten. Für n = 300 erhalten wir nach dem gleichen Verfahren



Standardabweichung

Standardfehler des

Mittelwertes





Testwert = 500

H0 wird beibehalten Für n = 500 erhalten wir nach dem gleichen Verfahren

44



Standardabweichung

Standardfehler des

Mittelwertes





Testwert = 500

H0 wird beibehalten für n = 1000 erhalten wir nach dem gleichen Verfahren


1000 500,4936 30,28697 ,95776Rente500N Mittelwert

Standardabweichung

Standardfehler des

Mittelwertes





Testwert = 500

H0 wird beibehalten Wir stellen fest, daß das Signifikanzniveau – aufgrund der Zufallsprozesse, die hier ablaufen, nicht mit steigender Stichprobengröße ansteigt, aber der Standardfehler des arithmetischen Mittels wird immer kleiner. n Standard

fehler 10 7,66 50 3,6 100 2,7 300 1,7 500 1,3 1000 ,96 Erst wenn wir sehr kleine Stichproben ziehen, wird von unserer t-Test-Syntax die t-Verteilung benutzt. Hier ist die Standardabweichung, wie wir wissen, größer als 1. Das Stichprobenmittel ist dann nicht mehr z-verteilt, sondern t-verteilt. Dies ist bedeutsam, wenn die Freiheitsgrade von t unter 30 sinken. Darüber ist die t-Verteilung fast identisch mit der Normalverteilung. für n = 10 erhalten wir:

45



Standardabweichung

Standardfehler des

Mittelwertes


,668 9 ,521 5,11425 -12,2058 22,4343Rente500T df Sig. (2-seitig)



Testwert = 500

Auch hier behalten wir bei p= 0,521 die H0 bei. Bei keiner der gezogenen Stichproben haben wir ein Ergebnis bekommen, das uns zu einer Fehlentscheidung gebracht hätte.

3.2. Zweistichproben – t-Test Wir stellen die Kombination zweier normalverteilter Zufallszahlenverteilungen her, deren arithmetische Mittel sich nur um wenige Punkte unterscheiden mit N = 3000. Wir nennen die Variablen, mit denen wir arbeiten: RenteM, RenteW und RenteB. RenteW sei die Rente von Frauen, RenteM die Rente von Männern und RenteB die von beiden Geschlechtern. Zunächst bilden wir die Variable RenteM aus unserer vorhandenen Variable Rente500, der wir einen kleinen zufallsverteilten Zuschlag von ca 40 Euro geben, mit einer Standardabweichung von 4 Euro. COMPUTE RenteM = Rente500 + RV.NORMAL(40,4) . EXECUTE . Dann bilden wir die Variable RenteW aus unserer vorhandenen Variable Rente500, der wir einen kleinen zufallsverteilten Zuschlag von ca 37 Euro geben, mit einer Standardabweichung von 3,5 Euro. COMPUTE Rentew = Rente500 + RV.NORMAL(37,3.5) . EXECUTE . Dann erzeugen wir die Variable Geschlecht, gleichverteilt mit den Ausprägungen 0 und 1: COMPUTE SEX = trunc (RV.UNIFORM(0.5,1.5)) . EXECUTE . Schließlich bilden wir die Variable RenteB: Wenn das Geschlecht in der neuen Variable SEX männlich ist (Sex = 0), dann soll RenteB = RenteM sein. Wenn das Geschlecht in der neuen Variable SEX weiblich ist (Sex = 1), dann soll RenteB = RenteW sein. IF (SEX = 0) Renteb = Rentem . EXECUTE .

46

IF (SEX = 1) Renteb = Rentew . EXECUTE . Jetzt haben wir eine Variable, der wir auch das Geschlecht zuordnen können. Wir können jetzt untersuchen, ob Männer in dieser Variable mehr verdienen als Frauen. T-TEST GROUPS = SEX(0 1) /MISSING = LISTWISE /VARIABLES = Renteb /CRITERIA = CI(.95) . Das Ergebnis fällt bei der Untersuchung aller 3000 Fälle so aus, daß der Unterschied signifikant erscheint, da P = 0,077/2= 0,0385< 0,05. Wir lehnen H0 ab.

Gruppenstatistiken

1529 539,3854 30,16869 ,771531471 537,4281 30,35167 ,79136

SEX,001,00

RentebN Mittelwert

Standardabweichung

Standardfehler des

Mittelwertes

Test bei unabhängigen Stichproben

,003,954

1,771 1,7712998 2992,013,077 ,077

1,95734 1,95734

1,10509 1,10522

-,20947 -,209734,12416 4,12441

FSignifikanz

Levene-Test derVarianzgleichheit

TdfSig. (2-seitig)Mittlere Differenz

Standardfehler der Differenz

UntereObere


T-Test für dieMittelwertgleichheit

Varianzen sind gleichVarianzen sind

nicht gleich

Renteb

Der Levene-Test ergibt eine Beibehaltung der HO bei der Frage nach der Varianzhomogenität: H0 ist hier

σ1 = σ2 Das Ergebnis des hierzu durchgeführten LEVENE-Tests ist eindeutig (p = 0,954). Aber der t-Test zeigt einen signifikanten Unterschied der Rentenwerte der Geschlechter. Die mittlere Differenz ist zwar nur 1,957 Euro bei einem Standardfehler der Differenz von 1,1 Euro. Aber die Irrtumswahrscheinlichkeit bei der Ablehnung Nullhypothese ist p= 0,077/2 = 0,0385 < 0,05. Das riskieren wir. Wir lehnen die Nullhypothese H0 ab und entscheiden uns für H1.

47

Zögen wir jetzt eine Stichprobe im Umfang von 200 Personen aus unserer Grundgesamtheit von 3000 Personen, dann ergäbe der gleiche t-Test folgendes Resultat:

Gruppenstatistiken

110 540,8481 27,79493 2,6501490 535,4397 33,28588 3,50864

SEX,001,00

RentebN Mittelwert

Standardabweichung

Standardfehler des

Mittelwertes


3,161,077

1,252 1,230198 173,428,212 ,220

5,40845 5,40845

4,31889 4,39702

-3,10848 -3,2701213,92538 14,08701

FSignifikanz




UntereObere




nicht gleich

Renteb

Wir sehen hier, daß die Prüfung der Varianzhomogenität fast zu dem Ergebnis kommt, daß die Varianzen inhomogen sind (p = 0,077). Die mittlere Differenz der Renten der Geschlechter beträgt 5,4 Euro bei einem Standardfehler von 4,32 Euro. Obwohl diese Differenz gewachsen ist gegenüber der Totalerhebung ist die Signifikanz des Unterschieds wegen der kleinen Stichprobe nicht mehr gegeben. (p = 0,212/2= 0,106 > 0,05). Wenn wir eine noch kleinere Stichprobe zögen (n = 50), könnte das Ergebnis das folgende sein:

Gruppenstatistiken

22 549,0859 26,04308 5,5524028 544,6430 30,25965 5,71854

SEX,001,00

RentebN Mittelwert

Standardabweichung

Standardfehler des

Mittelwertes

48


,861,358,547 ,557

48 47,559,587 ,580

4,44284 4,44284

8,11735 7,97062

-11,87818 -11,5870120,76387 20,47269

FSignifikanz




UntereObere




nicht gleich

Renteb

Wir haben hier keinen signifikanten Unterschied, p = 0,587/2=0,2935 > 0,05. Die Nullhypothese wird beibehalten, obwohl die mittlere Differenz der Renten 4,44 Euro (bei einem Standardfehler von 8,11) Euro beträgt.

49

3.3. Zwei „abhängige“ Stichproben. Wir wollen den t-Test für „abhängige Stichproben“ ausprobieren. Hierzu schaffen wir uns wiederum einen Datenfile mit 3000 Messungen. Die Variable nennen wir LERN1. Zugrunde liege ein Versuch, in dem man die Intelligenz von 10jährigen Versuchspersonen durch ein intensives musikalisches Training zu steigern versucht. Die Ausgangsmeßwerte in der Variable Lern1 sollen haben ein arithmetisches Mittel des Intelligenztests von 90 und eine Standardabweichung von 7. Mit folgendem Verfahren schaffen wir es, eine normalverteilte Variable herzustellen die g e n a u diesen Anforderungen entspricht: Data / Gehe zu Fall 3000. Dort eine Zahl eingeben. COMPUTE Lern1 = RV.NORMAL(90,7) . EXECUTE . DESCRIPTIVES VARIABLES=Lern1 /SAVE /STATISTICS=MIN MAX KURTOSIS SKEWNESS . COMPUTE Lern1 = ZLern1* 7 + 90 . EXECUTE . Wir haben jetzt die ersten 3000 Meßwerte unserer nicht sehr intelligenten Versuchspersonen. Die Eichstichprobe (Fachliteratur) hatte folgende Werte Standardabweichung und %-Skala Qualitative Bedeutung IQ- / Index Abw. vom Prozent- Werte Mittelwert in SD rangwert 145 3 99.9 sehr hohe Intelligenz 130 2 98.0 hohe Intelligenz 115 1 84.0 überdurchschnittliche Intelligenz 100 0 50.0 durchschnittliche Intelligenz 85 -1 16.0 unterdurchschnitt liche Intelligenz 70 -2 02.0 niedrige Intelligenz 55 -3 00.1 sehr niedrige Intelligenz Ein sehr von sich überzeugter Spezialist der Musiktherapie unterzieht nun diese 3000 jungen Leute einem intensiven musikalischen Training. Dann wird die Intelligenz noch einmal gemessen. Das führt zu der Variable Lern2. Jeder Proband hat jetzt zwei Meßwerte, Lern1 und Lern2. Lern2 generieren wir so, daß tatsächlich ein Lernzuwachs herauskommt, und zwar von 1 Punk bei einer Standardabweichung von 5 Punkten, so daß wir eine Variable Lern2 herstellen sollten, die aus der Variable Lern1 besteht, zu der eine Zufallsvariable addiert wird mit einem arithmetischen Mittel von 1 und einer Standardabweichung von 5. Wie sieht die Syntax aus ? Schreiben Sie diese selber!

50

Beispielsyntax: Wir addieren zur ersten Verteilung eine Zufallsvariable mit einem arithmetischen Mittel von 1 und der Standardabweichung 5. Sinnvoll wäre das, wenn es tatsächlich einen Intelligenzzuwachs geben kann und weil eine große Standardabweichung – hier von 5 – die Bedeutung haben kann, daß das Training auch kontraproduktive, verwirrende Effekte hatte. Compute lern2 = lern1 + RV.normal(1,5). Execute. Wir ziehen jetzt aus unseren Daten eine Stichprobe vom Umfang 30, indem wir über DATEN Auswählen die folgende Syntax produzieren: USE ALL. do if $casenum = 1. compute #s_$_1=30. compute #s_$_2=3000. end if. do if #s_$_2 > 0. compute filter_$ = uniform(1)* #s_$_2 < #s_$_1. compute #s_$_1 = #s_$_1 - filter_$. compute #s_$_2 = #s_$_2 - 1. else. compute filter_$ = 0. end if. VARIABLE LABEL filter_$ '30 aus den ersten 3000 Fällen (STICHPROBE)'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . Dann wählen wir im Menue Analysieren / „Mittelwerte vergleichen“ den t-Test für abhängige (gepaarte) Stichproben. Dort wählen wir als Variablen, die dem Test unterzogen werden sollen, die Variablen Lern1 und Lern2. In der dann resultierenden Syntax sollten wir die Reihenfolge von Lern1 und Lern2 umstellen, da nur so ein t-Wert mit positivem Vorzeichen erzeugt werden kann: Lern2 sollte in der Syntax vorne stehen, da sie den größeren Zahlenwert hat: T-TEST PAIRS = Lern2 WITH Lern1 (PAIRED) /CRITERIA = CI(.95) /MISSING = ANALYSIS. Wir führen zu Demonstrationszwecken den T-Test mit 30 Probanden mehrfach durch, um zu zeigen, wie stark die Ergebnisse differieren können. Auf meinem Rechner gab es folgende Resultate: 1. Stichprobe:

Statistik bei gepaarten Stichproben

92,0030 30 8,68369 1,5854291,8346 30 6,57565 1,20054

lern2Lern1

Paaren1

Mittelwert NStandardabweichung

Standardfehler des

Mittelwertes

Korrelationen bei gepaarten Stichproben

30 ,901 ,000lern2 & Lern1Paaren 1N Korrelation Signifikanz

51

Test bei gepaarten Stichproben

,16844

3,96209

,72337

-1,311031,64790

,23329

,818

MittelwertStandardabweichung

Standardfehler des Mittelwertes

UntereObere


Gepaarte Differenzen

TdfSig. (2-seitig)

lern2 - Lern1Paaren 1

Hier behalten wir die Nullhypothese bei. 2. Stichprobe:


91,5299 30 7,97891 1,4567489,4873 30 6,61108 1,20701

lern2Lern1

Paaren1


Standardfehler des

Mittelwertes




2,04254

3,91459

,71470

,580813,50427

2,85829

,008



UntereObere



TdfSig. (2-seitig)


Hier könnten wir die Nullhypothese ablehnen.

52

Wir wiederholen das Experiment mit einer größeren Stichprobe, wobei wir jedesmal die Filtervariable löschen und folgende Syntax komplett ausführen: USE ALL. do if $casenum = 1. compute #s_$_1=100. compute #s_$_2=3000. end if. do if #s_$_2 > 0. compute filter_$ = uniform(1)* #s_$_2 < #s_$_1. compute #s_$_1 = #s_$_1 - filter_$. compute #s_$_2 = #s_$_2 - 1. else. compute filter_$ = 0. end if. VARIABLE LABEL filter_$ '100 aus den ersten 3000 Fällen (STICHPROBE)'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . T-TEST PAIRS = Lern2 WITH Lern1 (PAIRED) /CRITERIA = CI(.95) /MISSING = ANALYSIS. Ein Ergebnis bei meinen Versuchen war:


91,6350 100 7,81898 ,7819090,2116 100 5,90325 ,59033

lern2Lern1

Paaren1


Standardfehler des

Mittelwertes




1,42333

4,70442

,47044

,489872,35679

3,02699

,003



UntereObere



TdfSig. (2-seitig)


53

Hier können wir die Nullhypothese ablehnen. Inhaltlich würde das bedeuten, daß die 10jährigen Probanden von dem musikalischen Training etwas gehabt haben und daß sich ihre Intelligenz auf geheimnisvolle Weise....(!) gesteigert hat. Eine Erweiterung des t-Tests ist die 3.4.Einfaktorielle Varianzanalyse. Varianten der Varianzanalyse in SPSS 12 sind folgende: Einfaktorielle Varianzanalyse (ANOVA): Sie prüft, ob zwischen den Mittelwerten von j unabhängigen Stichproben statistisch signifikante Unterschiede bestehen, mit der Möglichkeit, multiple Mittelwert-Vergleiche durchzuführen. (Dargestellt hier in Kapitel 3.1.4.). Einfaktorielle und zweifaktorielle Kovarianzanalyse: (UNIANOVA): Sie prüft, ob zwischen den Mittelwerten von j unabhängigen Stichproben statistisch signifikante Unterschiede bestehen, wenn der Einfluß einer oder mehrerer Kovariaten statistisch eliminiert worden ist. Varianzanalyse für abhängige Stichproben. Zweifaktorielle Varianzanalyse (UNIANOVA) für Faktoren mit festen Effekten. (Dargestellt hier in Kap. 3.1.5.) Dreifaktorielle Varianzanalyse (UNIANOVA) für Faktoren mit festen Effekten. (Dargestellt hier in Kap. 3.1.5.) Zweifaktorielle oder dreifaktorielle Varianzanalyse mit Meßwiederholung auf einem oder auf zwei Faktoren. Multivariate Varianzanalyse für unabhängige Stichproben: Sie prüft, ob ein oder mehrere Faktoren einen signifikanten Einfluß auf die Mittelwerte mehrerer abhängiger Variablen haben Während beim t-Test aufgrund der Mittelwertsdifferenzen geprüft werden kann, ob zwei Stichproben aus einer gemeinsamen Grundgesamtheit gezogen worden sein können, bietet die einfaktorielle Varianzanalyse die Möglichkeit, mehrere annähernd gleichgroße Stichproben in bezug auf die Frage zu untersuchen, ob sie alle aus einer gemeinsamen Grundgesamtheit stammen können oder nicht. Die Nullhypothese würde sein: H0= µ1=µ2=µ3=µ4. Die einfaktorielle Varianzanalyse erlaubt es, zu überprüfen, ob sich verschiedene Teil-Stichproben in einer größeren Stichprobe, deren Mitglieder aus unterschiedlichen „Bereichen" kommen, so unterscheiden, daß man die Unterschiede durch die Herkunft aus unterschiedlichen Bereichen „erklären" kann. Bereiche können dabei z.B. regional, temporal, institutionell oder auch experimentell definiert sein. Nehmen wir an, unsere Intelligenzdaten würden aus drei Regionen stammen: Oldenburg, Ostfriesland, und Ammerland. Als Beispielsdaten nehmen wir unsere Variablen Lern1 und Lern2 und nennen sie in Oldenburg und Ammerland um. Die Variable Ostfriesland generieren wir mit dem folgenden Befehl, wobei ich in SPSS12 schon mehr als 8 Buchstaben für den Variablennamen verwenden darf, in SPSS10 gilt noch die 8-Zeichen-Regel für Variablennamen. COMPUTE Ostfriesland = Ammerland + RV.NORMAL(1,3) . EXECUTE . Nun müssen wir für unsere einfaktorielle Varianzanalyse noch eine Variable generieren, die die „Intelligenz“ aller drei Regionen enthält und eine Variable, die die Zugehörigkeit zu den Regionen anzeigt. Dies machen wir folgendermaßen: COMPUTE Herkunft = TRUNC(RV.UNIFORM(0,3)) .

54

EXECUTE . * führt zur Herstellung einer gleichverteilten Variable mit den Ausprägungen 0,1 und 2. IF (Herkunft = 0) Intelligenz = Oldenburg . EXECUTE . IF (Herkunft = 1) Intelligenz = Ammerland . EXECUTE. IF (Herkunft = 2) Intelligenz = Ostfriesland . EXECUTE . * führt dazu, daß alle „Befragten“, die die Ausprägung 0 auf der Variable „Herkunft“ haben, als „Oldenburger“ gelten; daß alle „Befragten“, die die Ausprägung 1 auf der Variable „Herkunft“ haben, als „Ammerländer“ gelten; daß alle „Befragten“, die die Ausprägung 2 auf der Variable „Herkunft“ haben, als „Ostfriesen“ gelten. Jetzt können wir die einfache Varianzanalyse rechnen (Vgl. Skriptum Dieckmann, 9. Auflage, S:134). Innerhalb der einfachen Varianzanalyse verwenden wir bei den Post-Hoc-Vergleichen den Tukey Test. Dieser verwendet die t-Verteilung für alle möglichen paarweisen Vergleiche zwischen den Gruppen und setzt die Fehlerrate für das Experiment gleich der Fehlerrate für die Gesamtheit aller paarweisen Vergleiche. Die Syntax (über „Mittelwertvergleiche“, ANOVA hergestellt) lautet: ONEWAY Intelligenz BY Herkunft /STATISTICS DESCRIPTIVES HOMOGENEITY /MISSING ANALYSIS. Die Ergebnisse sind folgende: Oneway

ONEWAY deskriptive Statistiken

Intelligenz

965 89,6212 7,16365 ,23061 89,1686 90,0737 65,95 112,591030 91,1247 8,21117 ,25585 90,6226 91,6267 67,87 120,761005 92,3341 9,18692 ,28979 91,7654 92,9027 65,86 119,973000 91,0462 8,31240 ,15176 90,7486 91,3438 65,86 120,76

,001,002,00Gesamt

N MittelwertStandardabweichung

Standardfehler Untergrenze Obergrenze

95%-Konfidenzintervall fürden Mittelwert

Minimum Maximum

Wir sehen hier, daß es Mittelwert-Unterschiede und Unterschiede in der Varianz gibt, die etwa das wiederspiegeln, was wir bei der Simulation der Daten wollten.

Test der Homogenität der Varianzen

Intelligenz

25,405 2 2997 ,000

Levene-Statistik df1 df2 Signifikanz

Hier erkennen wir, daß die Homogenität der Varianzen nicht gegeben ist. Beim post-hoc Vergleich der Gruppen müssen wir daher Test anfordern, bei denen die Varianzen nicht homogen sein müssen.

55

ONEWAY ANOVA

Intelligenz

3632,838 2 1816,419 26,740 ,000203586,1 2997 67,930207218,9 2999

Zwischen den GruppenInnerhalb der GruppenGesamt

Quadratsumme df

Mittel derQuadrate F Signifikanz

Hier zeigt sich, daß es irgendwo zwischen den Mittelwerten signifikante Unterschiede gibt, wir wissen nur noch nicht wo. Wir wiederholen daher jetzt die Anova, wiederholen den Test auf Signifikanz der Mittelwertsdifferenzen mit weiteren „robusten“ Verfahren und fordern alle Post-Hoc-Tests an, die keine Varianzhomogenität voraussetzen. Die Syntax ist: ONEWAY Intelligenz BY Herkunft /STATISTICS DESCRIPTIVES HOMOGENEITY BROWNFORSYTHE WELCH /MISSING ANALYSIS /POSTHOC = T2 T3 GH C ALPHA(.05). Die Ergebnisse sind: Oneway


Intelligenz

965 89,6212 7,16365 ,23061 89,1686 90,0737 65,95 112,591030 91,1247 8,21117 ,25585 90,6226 91,6267 67,87 120,761005 92,3341 9,18692 ,28979 91,7654 92,9027 65,86 119,973000 91,0462 8,31240 ,15176 90,7486 91,3438 65,86 120,76

,001,002,00Gesamt




Minimum Maximum

Hier erhalten wir die gleiche Tabelle noch einmal, die wir oben schon hatten.


Intelligenz

25,405 2 2997 ,000



56

ONEWAY ANOVA

Intelligenz

3632,838 2 1816,419 26,740 ,000203586,1 2997 67,930207218,9 2999


Quadratsumme df



Robuste Testverfahren zur Prüfung auf Gleichheit der Mittelwerte

Intelligenz

27,860 2 1985,794 ,00026,868 2 2902,102 ,000

Welch-TestBrown-Forsythe

Statistika df1 df2 Sig.

Asymptotisch F-verteilta.

Hier erhalten wir neue Information aus zwei anderen Tests. Sie zeigen, daß es zwischen den Gruppen signifikanten Mittelwertunterschiede geben muß.

57

Mehrfachvergleiche

Abhängige Variable: Intelligenz

-1,50348* ,34444 ,000 -2,3266 -,6803-2,71289* ,37035 ,000 -3,5980 -1,82781,50348* ,34444 ,000 ,6803 2,3266

-1,20941* ,38657 ,005 -2,1332 -,28562,71289* ,37035 ,000 1,8278 3,59801,20941* ,38657 ,005 ,2856 2,1332

-1,50348* ,34444 ,000 -2,3266 -,6804-2,71289* ,37035 ,000 -3,5979 -1,82781,50348* ,34444 ,000 ,6804 2,3266

-1,20941* ,38657 ,005 -2,1332 -,28562,71289* ,37035 ,000 1,8278 3,59791,20941* ,38657 ,005 ,2856 2,1332

-1,50348* ,34444 ,000 -2,3113 -,6956-2,71289* ,37035 ,000 -3,5816 -1,84421,50348* ,34444 ,000 ,6956 2,3113

-1,20941* ,38657 ,005 -2,1161 -,30272,71289* ,37035 ,000 1,8442 3,58161,20941* ,38657 ,005 ,3027 2,1161

-1,50348* ,34444 -2,3119 -,6950-2,71289* ,37035 -3,5822 -1,84361,50348* ,34444 ,6950 2,3119

-1,20941* ,38657 -2,1168 -,30212,71289* ,37035 1,8436 3,58221,20941* ,38657 ,3021 2,1168

(J) Herkunft1,002,00,002,00,001,001,002,00,002,00,001,001,002,00,002,00,001,001,002,00,002,00,001,00

(I) Herkunft,00

1,00

2,00

,00

1,00

2,00

,00

1,00

2,00

,00

1,00

2,00

Tamhane

Dunnett-T3

Games-Howell

Dunnett-C

MittlereDifferenz (I-J)

Standardfehler Signifikanz Untergrenze Obergrenze

95%-Konfidenzintervall

Die mittlere Differenz ist auf der Stufe .05 signifikant.*.

Hier erhalten wir die Ergebnisse von 4 weiteren verschiedenen Tests auf Signifikanz der Mittelwert- Unterschiede, die alle keine Varianzhomogenität voraussetzen. Drei von ihnen zeigen, daß zwischen den Gruppen hochsignifikante Unterschiede bestehen. Wir wiederholen diese Analyse jetzt mit einer Stichprobe von n = 300. Syntax: USE ALL. do if $casenum = 1. compute #s_$_1=300. compute #s_$_2=3000. end if. do if #s_$_2 > 0. compute filter_$ = uniform(1)* #s_$_2 < #s_$_1. compute #s_$_1 = #s_$_1 - filter_$. compute #s_$_2 = #s_$_2 - 1. else. compute filter_$ = 0. end if. VARIABLE LABEL filter_$ '300 aus den ersten 3000 Fällen (STICHPROBE)'. FORMAT filter_$ (f1.0). FILTER BY filter_$.

58

EXECUTE . ONEWAY Intelligenz BY Herkunft /STATISTICS DESCRIPTIVES HOMOGENEITY /MISSING ANALYSIS. Ergebnisse: Oneway


Intelligenz

96 88,2789 7,18707 ,73353 86,8226 89,7351 65,95 105,25120 90,3401 8,14668 ,74369 88,8675 91,8127 71,86 112,99

84 91,6244 8,96505 ,97817 89,6789 93,5700 67,62 110,65300 90,0401 8,17765 ,47214 89,1110 90,9693 65,95 112,99

,001,002,00Gesamt




Minimum Maximum


Intelligenz

1,676 2 297 ,189


Hier zeigt sich in der Stichprobe eine Homogenität der Varianzen.

ONEWAY ANOVA

Intelligenz

519,435 2 259,717 3,961 ,02019475,861 297 65,57519995,295 299


Quadratsumme df


Hier zeigt sich in der Stichprobe interessanterweise, daß es irgendwo signifikante Differenzen geben muß zwischen dern Gruppen. Wir wiederholen daher die Analyse und führen post-hoc-Tests durch, die die Homogenität der Varianzen voraussetzen: Syntax: ONEWAY Intelligenz BY Herkunft /MISSING ANALYSIS /POSTHOC = TUKEY BTUKEY DUNCAN ALPHA(.05). Ergebnis: Zusätzlich zu den obigen Ergebnissen für die Stichprobe n = 300 erhalten wir:

59

Post-Hoc-Tests

Mehrfachvergleiche

Abhängige Variable: Intelligenz

-2,06124 1,10884 ,153 -4,6731 ,5507-3,34556* 1,20985 ,017 -6,1954 -,49572,06124 1,10884 ,153 -,5507 4,6731

-1,28432 1,15201 ,506 -3,9979 1,42933,34556* 1,20985 ,017 ,4957 6,19541,28432 1,15201 ,506 -1,4293 3,9979

(J) Herkunft1,002,00,002,00,001,00

(I) Herkunft,00

1,00

2,00

Tukey-HSD





In dieser Tabelle zeigt sich, daß es bei n = 300 in dieser Stichprobe nur eine signifikante Differenz zwischen der Gruppe 0 (Oldenburg) und der Gruppe 2 (Ostfriesen) gibt. Homogene Untergruppen

Intelligenz

96 88,2789120 90,3401 90,3401

84 91,6244,178 ,509

96 88,2789120 90,3401 90,3401

84 91,624496 88,2789

120 90,3401 90,340184 91,6244

,076 ,268

Herkunft,001,002,00Signifikanz,001,002,00,001,002,00Signifikanz

Tukey-HSDa,b

Tukey-B-Testa,b

Duncana,b

N 1 2

Untergruppe für Alpha= .05.

Die Mittelwerte für die in homogenen Untergruppen befindlichenGruppen werden angezeigt.

Verwendet ein harmonisches Mittel für Stichprobengröße =97,864.

a.

Die Gruppengrößen sind nicht identisch. Es wird dasharmonische Mittel der Gruppengrößen verwendet.Fehlerniveaus des Typs I sind nicht garantiert.

b.

Diese Tabelle faßt – aufgrund dreier verschiedener Tests mit der Voraussetzung der Varianzen-Homogenität – je zwei der Herkunftsgruppen zu je einer „homogenen“ Gruppe zusammen. Die Unterschiede, die wir noch in der „Grundgesamtheit“ gesehen haben, verschwinden hier weitgehend. Ein gewisser Rest der Unterschiede besteht noch zwischen Gruppe 0 (Oldenburger) und Gruppe 2 (Ostfriesen).

60

3.5. Zwei und dreifaktorielle Varianzanalyse. Als Beispiel für eine mehrfaktorielle Varianzanalyse nehmen wir, wie in vielen Ostfriesenwitzen geschehen, an, daß Ostfriesen und ihre Nachbarn nicht sehr intelligent sind. Entsprechend simulieren wir Variablen für einen Datensatz in SPSS10 (n = 49152). Die Intelligenz der Oldenburger nennen wir Oldenbrg, sie soll ein Mittel von 90 haben, mit einer Standardabweichung von 7. Die Intelligenz der Ammerländer heiße Ammerlan, sie sei um einen Intelligenzpunkt höher als die der Oldenburger, mit einer weiteren Standardabweichung von 5. Die Intelligenz der Ostfriesen heiße Ostfries, sie sein um einen Intelligenzpunkt höher als die der Ammerländer, mit einer zusätzlichen Standardabweichung von 3. Die entsprechende Syntax ist: COMPUTE oldenbrg = RV.NORMAL(90,7) . EXECUTE . Compute Ammerlan = oldenbrg + RV.normal(1,5). Execute. COMPUTE Ostfries = Ammerlan + RV.NORMAL(1,3) . EXECUTE . Um die Unterschiede zwischen diesen Variablen varianzanalytisch untersuchen zu können, ist es notwendig, aus diesen 3 Variablen eine einzige Intelligenzvariable zu machen, deren Werte aber den Ausprägungen einer Variablen zugeordnet werden, die die Herkunft aus den 3 genannten Regionen angeben. Diese gleichverteilte Variable nennen wir Herkunft. COMPUTE Herkunft = TRUNC(RV.UNIFORM(0,3)) . EXECUTE . IF (Herkunft = 0) Intelli1 = Oldenbrg. EXECUTE . IF (Herkunft = 1) Intelli1 = Ammerlan . EXECUTE. IF (Herkunft = 2) Intelli1 = Ostfries . EXECUTE . Jetzt können wir eine einfache Varianzanalyse rechnen: ONEWAY Intelli1 BY Herkunft /STATISTICS DESCRIPTIVES EFFECTS HOMOGENEITY /PLOT MEANS /MISSING ANALYSIS /POSTHOC = LSD T2 ALPHA(.05). Deren Ergebnis ist:

61


Intelli1

16300 16391 16461 49152

90,0834 90,9321 91,9880 91,0043

7,00182 8,60535 9,01149 8,29175 8,25523

,05484 ,06721 ,07024 ,03740 ,03724 ,55096

89,9759 90,8004 91,8504 90,9310 90,9313 88,6337

90,1908 91,0639 92,1257 91,0776 91,0773 93,3749

61,95 56,85 60,04 56,85

120,62 127,96 124,87 127,96

,90649

NMittelwert

Standardabweichung

Standardfehler

UntergrenzeObergrenze

95%-Konfidenzintervallfür den Mittelwert

Minimum

Maximum

Varianz zwischen denKomponenten

Oldenburg Ammerland Ostfriesland GesamtFeste

EffekteZufallseffe

kte

Modell


Intelli1

473,178 2 49149 ,000


ONEWAY ANOVA

Intelli1

29839,960 2 14919,980 218,932 ,0003349445 49149 68,1493379285 49151


Quadratsumme df


62

Mehrfachvergleiche

Abhängige Variable: Intelli1

-,84876* ,09132 ,000 -1,0277 -,6698-1,90468* ,09122 ,000 -2,0835 -1,7259

,84876* ,09132 ,000 ,6698 1,0277-1,05592* ,09109 ,000 -1,2345 -,87741,90468* ,09122 ,000 1,7259 2,08351,05592* ,09109 ,000 ,8774 1,2345-,84876* ,08675 ,000 -1,0559 -,6416

-1,90468* ,08911 ,000 -2,1175 -1,6919,84876* ,08675 ,000 ,6416 1,0559

-1,05592* ,09722 ,000 -1,2881 -,82381,90468* ,08911 ,000 1,6919 2,11751,05592* ,09722 ,000 ,8238 1,2881

(J) HerkunftAmmerlandOstfrieslandOldenburgOstfrieslandOldenburgAmmerlandAmmerlandOstfrieslandOldenburgOstfrieslandOldenburgAmmerland

(I) HerkunftOldenburg

Ammerland

Ostfriesland

Oldenburg

Ammerland

Ostfriesland

LSD

Tamhane





Oldenburg Ammerland Ostfriesland

Herkunft

90,00

90,50

91,00

91,50

92,00

Mitt

elw

ert v

on In

telli

1

Wenn wir noch weitere Variablen in die Varianzanalyse einführen möchten, können wir beispielsweise das Geschlecht und die Haarfarbe nehmen. Wir erzeugen die gleichverteilte Variable SEX, wobei wir annehmen, daß die Frauen (Code 1) etwas intelligenter als die Männer (Code 0) sind. Diesen Unterschied zeigen wir in der neu berechneten Varialbe Intelli2.

63

Die Syntax lautet: COMPUTE Sex = TRUNC(UNIFORM(2)) . EXECUTE . IF (Sex=0) Intelli2 = Intelli1. EXECUTE . IF (Sex=1) Intelli2 = Intelli1 + RV.NORMAL(1.5,0.5) . EXECUTE . Nun können wir eine zweifaktorielle Varianzanalyse rechnen: UNIANOVA Intelli2 BY Herkunft Sex /METHOD = SSTYPE(3) /INTERCEPT = INCLUDE /POSTHOC = Herkunft ( LSD T2 ) /PLOT = PROFILE( Herkunft*Sex ) /PRINT = DESCRIPTIVE /CRITERIA = ALPHA(.05) /DESIGN = Herkunft Sex Herkunft*Sex . Deren Ergebnis ist:

Zwischensubjektfaktoren

Oldenburg 16300Ammerland 16391

Ostfriesland 16461

2472924423

,001,00

2,00

Herkunft

,001,00

Sex

Wertelabel N

64

Deskriptive Statistiken


89,9859 7,01694 814491,6885 6,99479 815690,8378 7,05720 1630090,8516 8,68859 823792,5128 8,54006 815491,6780 8,65471 1639191,9768 9,00469 834893,5076 9,03858 811392,7313 9,05354 1646190,9463 8,33025 2472992,5680 8,26887 2442391,7521 8,33923 49152

Sex,001,00Gesamt,001,00Gesamt,001,00Gesamt,001,00Gesamt

HerkunftOldenburg

Ammerland

Ostfriesland

Gesamt

MittelwertStandardabweichung N

Tests der Zwischensubjekteffekte


62259,814a 5 12451,963 182,358 ,000413761093,7 1 4,14E+08 6059497 ,000

29855,742 2 14927,871 218,617 ,00032706,891 1 32706,891 478,990 ,000

65,973 2 32,987 ,483 ,6173355840,210 49146 68,283417201708,6 49152

3418100,024 49151

QuelleKorrigiertes ModellKonstanter TermHerkunftSexHerkunft * SexFehlerGesamtKorrigierteGesamtvariation

Quadratsumme vom Typ III df


R-Quadrat = ,018 (korrigiertes R-Quadrat = ,018)a.

65

Mehrfachvergleiche


-,8401* ,09141 ,000 -1,0193 -,6610-1,8934* ,09131 ,000 -2,0724 -1,7145

,8401* ,09141 ,000 ,6610 1,0193-1,0533* ,09118 ,000 -1,2320 -,87461,8934* ,09131 ,000 1,7145 2,07241,0533* ,09118 ,000 ,8746 1,2320-,8401* ,08732 ,000 -1,0487 -,6316

-1,8934* ,08964 ,000 -2,1075 -1,6794,8401* ,08732 ,000 ,6316 1,0487

-1,0533* ,09772 ,000 -1,2866 -,81991,8934* ,08964 ,000 1,6794 2,10751,0533* ,09772 ,000 ,8199 1,2866



Ammerland

Ostfriesland

Oldenburg

Ammerland

Ostfriesland

LSD

Tamhane



95% Konfidenzintervall

Basiert auf beobachteten Mittelwerten.Die mittlere Differenz ist auf der Stufe ,05 signifikant.*.


Herkunft

88,00

89,00

90,00

91,00

92,00

93,00

94,00

Ges

chät

ztes

Ran

dmitt

el

Sex,001,00

Geschätztes Randmittel von Intelli2

Wenn wir noch eine dritte Variable einführen möchten, nehmen wir hierzu die Haarfarbe. Bekanntlich sind ja die Blonden (Code 0) die Dümmsten. Die Schwarzhaarigen (Code 1) sind um 1,5 Punkte intelligenter als die Blonden, mit einer zusätzlichen Standardabweichung von 0.5. Und – wie jeder

66

weiß – sind die Brünetten (Code 2) um 2,5 Punkte intelligenter als die Blonden mit einer zusätzlichen Standardabweichung von 0,8. Wir simulieren die entsprechenden Annahmen mit folgender Syntax, bei der wir die neue Variable Intelli3 erzeugen. Dieser ordnen wir die drei Haarfarben zu. COMPUTE Haar = TRUNC(UNIFORM(3)) . EXECUTE . IF (Haar=0) Intelli3 = Intelli2. EXECUTE . IF (Haar=1) Intelli3 = Intelli2 + RV.NORMAL(1.5,0.5) . Execute. IF (Haar=2) Intelli3 = Intelli2 + RV.NORMAL(2.5,0.8) . Execute. Jetzt können wir eine Varianzanalyse mit den drei Faktoren Herkunft, Geschlecht und Haarfarbe rechnen. Die Syntax lautet: UNIANOVA Intelli3 BY Herkunft Sex Haar /METHOD = SSTYPE(3) /INTERCEPT = INCLUDE /POSTHOC = Herkunft Sex Haar ( LSD T2 ) /PLOT = PROFILE( Herkunft*Sex*Haar ) /PRINT = DESCRIPTIVE /CRITERIA = ALPHA(.05) /DESIGN = Herkunft Sex Haar Herkunft*Sex Herkunft*Haar Sex*Haar Herkunft*Sex*Haar . Das Ergebnis ist:

Zwischensubjektfaktoren

Oldenburg 16300Ammerland 16391

Ostfriesland 16461

2472924423163851619616571

,001,00

2,00

Herkunft

,001,00

Sex

,001,002,00

Haar

Wertelabel N

67



90,0823 7,06507 268791,4138 7,10697 268392,4318 6,97263 277491,3212 7,11239 814491,6197 7,11344 269093,4439 6,81176 273093,9951 7,10629 273693,0272 7,08341 815690,8515 7,13021 537792,4376 7,03265 541393,2081 7,08196 551092,1748 7,14875 1630090,7361 8,76031 268992,5949 8,66086 271693,2349 8,69980 283292,2081 8,76980 823792,6299 8,59166 277593,8708 8,36650 266495,0613 8,70280 271593,8449 8,61317 815491,6979 8,72580 546493,2267 8,53945 538094,1289 8,74827 554793,0224 8,73041 1639191,9525 8,83886 276593,5017 9,10053 276894,4746 9,12559 281593,3166 9,08182 834893,5635 9,09186 277994,7397 8,88053 263596,2072 9,19261 269994,8250 9,12163 811392,7600 9,00188 554494,1055 9,01434 540395,3227 9,19850 551494,0600 9,13238 1646190,9334 8,30336 814192,5142 8,38580 816793,3847 8,36625 842192,2903 8,41321 2472992,6150 8,35662 824494,0108 8,07205 802995,0829 8,42421 815093,8974 8,34850 2442391,7795 8,37227 1638593,2561 8,26544 1619694,2199 8,43738 1657193,0888 8,41947 49152

Haar,001,002,00Gesamt,001,002,00Gesamt,001,002,00Gesamt,001,002,00Gesamt,001,002,00Gesamt,001,002,00Gesamt,001,002,00Gesamt,001,002,00Gesamt,001,002,00Gesamt,001,002,00Gesamt,001,002,00Gesamt,001,002,00Gesamt

Sex,00

1,00

Gesamt

,00

1,00

Gesamt

,00

1,00

Gesamt

,00

1,00

Gesamt

HerkunftOldenburg

Ammerland

Ostfriesland

Gesamt


68

Tests der Zwischensubjekteffekte


113296,700a 17 6664,512 97,142 ,000425750786,1 1 4,26E+08 6205729 ,000

29943,482 2 14971,741 218,228 ,00032808,390 1 32808,390 478,214 ,00050960,938 2 25480,469 371,402 ,000

74,653 2 37,326 ,544 ,580275,718 4 68,929 1,005 ,403

88,935 2 44,468 ,648 ,523611,381 4 152,845 2,228 ,063

3370891,423 49134 68,606429412253,3 49152

3484188,123 49151

QuelleKorrigiertes ModellKonstanter TermHerkunftSexHaarHerkunft * SexHerkunft * HaarSex * HaarHerkunft * Sex * HaarFehlerGesamtKorrigierteGesamtvariation

Quadratsumme vom Typ III df


R-Quadrat = ,033 (korrigiertes R-Quadrat = ,032)a.

Mehrfachvergleiche


-,8475* ,09162 ,000 -1,0271 -,6680-1,8852* ,09152 ,000 -2,0646 -1,7058

,8475* ,09162 ,000 ,6680 1,0271-1,0377* ,09140 ,000 -1,2168 -,85851,8852* ,09152 ,000 1,7058 2,06461,0377* ,09140 ,000 ,8585 1,2168-,8475* ,08823 ,000 -1,0582 -,6368

-1,8852* ,09056 ,000 -2,1015 -1,6690,8475* ,08823 ,000 ,6368 1,0582

-1,0377* ,09857 ,000 -1,2731 -,80231,8852* ,09056 ,000 1,6690 2,10151,0377* ,09857 ,000 ,8023 1,2731



Ammerland

Ostfriesland

Oldenburg

Ammerland

Ostfriesland

LSD

Tamhane





69

Mehrfachvergleiche


-1,4767* ,09178 ,000 -1,6565 -1,2968-2,4404* ,09125 ,000 -2,6193 -2,26161,4767* ,09178 ,000 1,2968 1,6565-,9638* ,09152 ,000 -1,1432 -,78442,4404* ,09125 ,000 2,2616 2,6193

,9638* ,09152 ,000 ,7844 1,1432-1,4767* ,09217 ,000 -1,6968 -1,2566-2,4404* ,09260 ,000 -2,6615 -2,21931,4767* ,09217 ,000 1,2566 1,6968-,9638* ,09227 ,000 -1,1841 -,74342,4404* ,09260 ,000 2,2193 2,6615

,9638* ,09227 ,000 ,7434 1,1841

(J) Haar1,002,00,002,00,001,001,002,00,002,00,001,00

(I) Haar,00

1,00

2,00

,00

1,00

2,00

LSD

Tamhane





Profildiagramm Herkunft * Sex * Haar


Herkunft

90,00

91,00

92,00

93,00

94,00

Ges

chät

ztes

Ran

dmitt

el

Sex,001,00

bei Haar = ,00


70


Herkunft

91,00

92,00

93,00

94,00

95,00

Ges

chät

ztes

Ran

dmitt

el

Sex,001,00

bei Haar = 1,00


71


Herkunft

92,00

93,00

94,00

95,00

96,00

Ges

chät

ztes

Ran

dmitt

el

Sex,001,00

bei Haar = 2,00


Kapitel 4 Prüfung von Zusammenhangs-Hypothesen 4.1. Korrelation und Regression. Wie wir wissen, ermittelt die Korrelations- und Regressionsrechnung die Funktionsdaten jener Funktion, an die die Datenpaare oder –tripel etc. am besten angepaßt sind und auch der Grad der Anpassung wird ermittelt. Die Funktionsdaten sind die Regressionskoeffizienten, der Korrelationskoeffizient signalisiert den Grad der Anpassung. Diese Rechnungen setzen intervallskalierte Daten voraus, es müssen mindestens zwei Variablen zur Verfügung stehen, die Daten sollten normalverteilt sein. Wir schaffen uns wieder einen Datensatz: Der Fall sei folgender: Daten existieren vom jährlichen Benzinverbrauch im Pkw, der gefahrenen Strecke und von dem Durchschnitt des an 20 Stichtagen gemessenen Gegenwindes in km/h. Wir nehmen an, daß zwischen dem jährlichen Benzinverbrauch in Litern und der gefahrenen Strecke in km/Jahr eine lineare Beziehung besteht. Wir nehmen an, daß das Durchschnittsauto etwa 12,5 l pro 100 km verbraucht. Wir geben noch eine Konstante und einen Zufallsfaktor hinzu mit einem arithmetischen Mittel von 0 und einer Standardabweichung von 300. Compute Strecke = RV.Normal(20000,3000). COMPUTE Benzin = Strecke * 0.08 + 1000 + RV.Normal(0,300). EXECUTE .

72

(Hier könnte man schon eine einfache Korrelation und Regression rechnen und einen Scatterplot machen). (CORRELATIONS /VARIABLES=Benzin Strecke /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE . GRAPH /SCATTERPLOT(BIVAR)=Strecke WITH Benzin /MISSING=LISTWISE .) Außerdem hänge der Benzinverbrauch vom Gegenwind ab. Den kalkulieren wir mit einer Durchschnittsgeschwindigkeit von 20kmh und einer Standardabweichung von 4 kmh. COMPUTE Gegenwind = RV.NORMAL(20,4) . EXECUTE . Den Einfluß des Gegenwindes auf den schon vorhandenen Benzinverbrauch schätzen wir so ein, daß der Gegenwind den Benzinverbrauch so vermehrt, daß der schon vorhandene Verbrauch mit einem Faktor multipliziert werden muß, den wir bei „Gegenwind/20“ ansetzen. Weiterhin hängt der Benzinverbrauch davon ab, ob man benzinsparend fährt. Wer das nicht tut, rast. Daher macht es Sinn, einen weiteren Zufallsfaktor, den wir schlicht „Rasen“ nennen, zu schaffen und in das Modell einzubauen: Compute Rasen = RV.normal(20,5). Weiterhin vermuten wir, daß Männer mehr zum Rasen neigen als Frauen. Deshalb bilden wir wiederum die Variable SEX und verknüpfen mit ihr die Neigung zu erhöhtem Rasen bei den Männern, die den Code 0 bei SEX haben, während wir die leidenschaftslos Auto fahrenden Frauen mit einer wohlverdienten 1 kodieren: Compute Sex = trunc(Unifom(2)). IF (Sex = 0) Rasen = Rasen*50. EXECUTE . IF (Sex = 1) Rasen = Rasen. EXECUTE . Jetzt simulieren wir den Benzinverbrauch unter Berücksichtigung von Gegenwind, Rasen und Geschlecht (wobei der Einfluß des Geschlechts schon im Rasen drinsteckt). Syntax: COMPUTE Benzin1 = Benzin + Benzin *Gegenwind/20 + Rasen. Execute. Wir stellen jetzt noch einmal die Beziehung zwischen Benzinverbrauch (Benzin1) und gefahrener Strecke dar. Hierzu berechnen wir den Korrelationskoeffizienten und fordern ein Streudiagramm an. Die Syntax ist: CORRELATIONS /VARIABLES=Benzin1 Strecke /PRINT=TWOTAIL NOSIG

73

/MISSING=PAIRWISE . GRAPH /SCATTERPLOT(BIVAR)=Strecke WITH Benzin1 /MISSING=LISTWISE .

Korrelationen

1 ,551**,000

3000 3000,551** 1,000

3000 3000

Korrelation nach PearsonSignifikanz (2-seitig)NKorrelation nach PearsonSignifikanz (2-seitig)N

Benzin1

Strecke

Benzin1 Strecke

Die Korrelation ist auf dem Niveau von 0,01 (2-seitig)signifikant.

**.

Wir stellen fest: Die Korrelation ist signifikant auf dem 1 Promille-Niveau und ihre Stärke beträgt r = 0,551. Quadriert man diesen Korrelationskoeffizienten, dann ergibt sich ein Wert von R² = 0,304, der aussagt, daß 30,4 % der zu erklärenden Varianz des Bezinverbrauchs durch die Strecke geleistet werden. Der Rest ist auf Zufallsfaktoren zurückzuführen. Der Scatterplot hat folgendes Aussehen:

74

5000,00 10000,00 15000,00 20000,00 25000,00 30000,00 35000,00

Strecke

2000,00

4000,00

6000,00

8000,00

10000,00B

enzi

n1

Um jetzt auch noch die Regressionskoeffizienten zu bekommen, wende ich folgende Syntax an: Analysieren, lineare Regression. Die Variable „Benzin1“ ist die abhängige Variable, „Strecke“ die unabhängige Variable. Syntax: REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Benzin1 /METHOD=ENTER Strecke .

75

Von dem dann erscheinenden Output interessieren uns zunächst nur die Regressionskoeffizienten. Sie lauten (eingesetzt in die Regressionsgeradengleichung):

Koeffizientena

2562,582 88,918 28,819 ,000,157 ,004 ,551 36,177 ,000

(Konstante)Strecke

Modell1

BStandardf

ehler

Nicht standardisierteKoeffizienten

Beta

Standardisierte

Koeffizienten

T Signifikanz

Abhängige Variable: Benzin1a.

Benzin1 = 2562,582 + 0,157*Strecke; beide Koeffizienten sind hochsignifikant (wegen der hohen T-Werte). Dies bedeutet, daß unsere Daten nicht aus einer Stichprobe stammen können, mit a und b (Achsenabschnitt und Steigung) gleich Null. Das „Betagewicht“ ist hier (nur zwei Variablen) identisch mit dem Korrelationskoeffizienten r. R² = 0,304, das heißt 30,4 % der Varianz werden durch Benzin1 erklärt. Wenn wir uns nun der Bedeutung des Gegenwindes zuwenden, dann müßten wir untersuchen, ob der Gegenwind als „Störvariable“ statistisch eliminiert werden kann. Dies können wir feststellen, wenn wir eine sogenannte partielle Korrelation berechnen. Wir finden diese Möglichkeit unter Analysieren, Korrelation, Partiell: Dort geben wir als abhängige Variable ein: Benzin1. Als unabhängige: die Strecke und als Kontrollvariable den Gegenwind. Die Syntax lautet: PARTIAL CORR /VARIABLES= Benzin1 Strecke BY Gegenwind /SIGNIFICANCE=TWOTAIL /STATISTICS=CORR /MISSING=LISTWISE . Die Ergebnisausgabe zeigt folgendes: Partielle Korrelation

76

Korrelationen

1,000 ,551 ,472. ,000 ,000

0 2998 2998,551 1,000 ,008,000 . ,644

2998 0 2998,472 ,008 1,000,000 ,644 .

2998 2998 01,000 ,621

. ,0000 2997

,621 1,000,000 .

2997 0

KorrelationSignifikanz (zweiseitig)FreiheitsgradeKorrelationSignifikanz (zweiseitig)FreiheitsgradeKorrelationSignifikanz (zweiseitig)FreiheitsgradeKorrelationSignifikanz (zweiseitig)FreiheitsgradeKorrelationSignifikanz (zweiseitig)Freiheitsgrade

Benzin1

Strecke

Gegenwind

Benzin1

Strecke

Kontrollvariablen-keine-a

Gegenwind

Benzin1 Strecke Gegenwind

Die Zellen enthalten Korrelationen nullter Ordnung (Pearson).a.

Der Korrelationskoeffizient zwischen Strecke und Benzin1 bleibt bei 0,551, sofern wir den Gegenwind nicht „auspartialisieren“. Partialisieren wir ihn aber aus, dann steigt der Korrelationskoeffizient an auf r = 0,621. Das heißt: Es besteht dann eine Beziehung zwischen Strecke und Benzinverbrauch, bei der der Benzinverbrauch R²= 0.386 beträgt und damit werden 38,6% des Benzinverbrauchs durch die Streckenlänge erklärt, statt nur 30,4 %, wenn wir den Gegenwind nicht auspartialisieren. Wollen wir nun in einer einzigen Rechnung sowohl den Einfluß der Strecke als auch des Gegenwindes und des Geschlechts auf den Benzinverbrauch (Benzin1) berechnen, dann bietet sich hierzu wiederum unsere lineare Regression an, wobei wir allerdings drei unabhängige Variablen eingeben, die Strecke und den Gegenwind und das Geschlecht, das sich ja über das „Rasen“ auf den Benzinverbrauch auswirkt. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Benzin1 /METHOD=ENTER Strecke Gegenwind Sex. Von dem dann erscheinenden Output schauen wir uns die Angaben über die Modellzusammenfassung und die Regressionskoeffizienten an:

Modellzusammenfassung

,837a ,701 ,701 625,96228Modell1

R R-QuadratKorrigiertesR-Quadrat

Standardfehler desSchätzers

Einflußvariablen : (Konstante), Sex, Strecke,Gegenwind

a.

Die „Modellzusammenfassung“ zeigt einen multiplen Korrelationskoeffizienten R, dessen Quadrat bei 0,701 liegt, was bedeutet, daß jetzt schon 70 % der Varianz des Benzinverbrauchs aufgeklärt werden können. Die Regressionskoeffizienten sind jetzt folgende:

77

Koeffizientena

419,949 82,346 5,100 ,000,158 ,003 ,555 55,574 ,000

130,705 2,871 ,455 45,524 ,000-969,373 22,873 -,423 -42,381 ,000

(Konstante)StreckeGegenwindSex

Modell1

BStandardf

ehler


Beta

Standardisierte

Koeffizienten

T Signifikanz

Abhängige Variable: Benzin1a.

Wir erhalten aus diesem Output neben den unstandardisierten Regressionskoeffizienten eine Formulierung der Regressionsgeraden mit standardisierten Werten (bei dem Kriterium (hier: Benzin1)) für die Prädiktoren (hier: Strecke und Gegenwind und SEX). Dadurch, daß die Werte standardisiert sind (z-Standardisierung), fällt in der Gleichung die Konstante (y-Achsenabschnitt) weg und es verbleiben (allgemeine Form der Regressionsgeraden für standardisierte Werte) die standardisierten Prädikatoren mit sogenannten Beta-Gewichten, die eine „optimale Gewichtung der standardisierten Prädikatoren“ darstellen, so daß eine maximale Korrelation der für z’Yi vorhandenen und vorhergesagten Werte entsteht. z’Yi = β1z1i + βz2i+β3z3i + .... + βpzpi für unseren Fall mit 3 Prädiktoren können wir schreiben: zBenzin1 = 0,555* ZStrecke + 0,455*ZGegenwind –0,423*ZSEX. Wir können nun ausprobieren, wie gut die z-Werte der Kriteriumsvariable durch die z-Werte der Prädiktorvariablen vorhergesagt werden. Der Save-Befehl in „Descriptives“ liefert uns die gewünschten Variablen zBenzin1, zStrecke, zGegenwind, ZSEX. DESCRIPTIVES VARIABLES= Benzin1 Strecke Gegenwind SEX /SAVE /STATISTICS=MEAN . Wir können nun ausprobieren, wie gut unsere obige Regressionsrechnung funktioniert, indem wir eine neue Variable (zbenzin2) berechnen, die wir mit den Werten der Variable ZBenzin1 vergleichen, indem wir schlicht die Korrelation beider Variablen bilden: Compute zBenzin2 = 0.555 * ZStrecke + 0.455 * ZGegenwind - 0.423 * ZSex . Execute. CORRELATIONS /VARIABLES=ZBenzin1 zBenzin2 /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE . Die Korrelation erbringt:

78

Korrelationen

1 ,837**,000

3000 3000,837** 1,000

3000 3000

Korrelation nach PearsonSignifikanz (2-seitig)NKorrelation nach PearsonSignifikanz (2-seitig)N

Z-Wert(Benzin1)

zBenzin2

Z-Wert(Benzin1) zBenzin2

Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.**.

Dieser Korrelationskoeffizient ist r = 0,837. Wir haben ihn oben schon im Output gesehen. Hier noch einmal dieser Output:


,837a ,701 ,701 625,96228Modell1

R R-QuadratKorrigiertesR-Quadrat

Standardfehler desSchätzers

Einflußvariablen : (Konstante), Sex, Strecke,Gegenwind

a.

R ist höher als die bei der partiellen Korrelation erzielte Korrelation. Die Einbeziehung der weiteren Variablen Gegenwind und SEX hat sich daher in bezug auf die Prognosegenauigkeit ausgezahlt. Versuchen Sie nun, diesen Prozess für eine Stichprobe im Umfang von n = 100 nachzuvollziehen. Es muß hier nur nach der Stichprobenziehung folgende Syntax nochmals benutzt werden: REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Benzin1 /METHOD=ENTER Strecke Gegenwind Sex. CORRELATIONS /VARIABLES=ZBenzin1 zBenzin2 /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE . Bei meinen Rechnungen (BD) blieben die Ergebnisse stabil.

79

Komplette Syntax für die Thematik: Korrelation und Regression: COMPUTE Strecke = RV.NORMAL(20000,3000) . EXECUTE . COMPUTE Benzin = Strecke * 0.08 + 1000 + RV.Normal(0,300). EXECUTE . COMPUTE Gegenwind = RV.NORMAL(20,4) . EXECUTE . Compute Rasen = RV.normal(20,5). Execute. Compute Sex = trunc(Unifom(2)). Execute. IF (Sex = 0) Rasen = Rasen * 50 . EXECUTE . IF (Sex = 1) Rasen = Rasen. EXECUTE . COMPUTE Benzin1 = Benzin + Benzin *Gegenwind/20 + Rasen. Execute. CORRELATIONS /VARIABLES=Benzin1 Strecke /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE . GRAPH /SCATTERPLOT(BIVAR)=Strecke WITH Benzin1 /MISSING=LISTWISE . REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Benzin1 /METHOD=ENTER Strecke . PARTIAL CORR /VARIABLES= Benzin1 Strecke BY Gegenwind /SIGNIFICANCE=TWOTAIL /STATISTICS=CORR /MISSING=LISTWISE . REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Benzin1 /METHOD=ENTER Strecke Gegenwind Sex. DESCRIPTIVES VARIABLES= Benzin1 Strecke Gegenwind SEX /SAVE /STATISTICS=MEAN . Compute zBenzin2 = 0.427 * ZStrecke + 0.494 * ZGegenwind - 0.459 * ZSex . Execute. CORRELATIONS /VARIABLES=ZBenzin1 zBenzin2 /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE .

80

COMPUTE Alter = TRUNC(UNIFORM(5)) . EXECUTE . COMPUTE Alter = (Alter+2)*10 . EXECUTE . COMPUTE Benzin3 = Benzin + Benzin *Gegenwind/20 + Rasen+ Benzin*20/alter. Execute. CORRELATIONS /VARIABLES=Benzin1 Strecke /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE . REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Benzin3 /METHOD=ENTER Strecke Gegenwind Sex Alter. COMPUTE Verbrauch = Benzin3/Strecke . EXECUTE . 4.2. Multiple Regression Wir werden nun für die multiple Regressionsanalyse einen Datenfile herstellen und auswerten mit n = 800 Abhängige Variable – Klausurnote - , Mittel = 2,5, s = 0,75 Syntax: COMPUTE Klausn = RV.NORMAL(2.5,0.75)+0.5 . EXECUTE . Um mit positiven Korrelationen argumentieren zu können, muß die Klausurnote in Punktezahlen umgerechnet werden, wobei eine hohe Qualität einer hohen Punktezahl entspricht, während bei Noten eine hohe Qualität einer geringen Note (1 etc.) entspricht. Der Algorithmus der Umrechnung ist folgender: Die Note wird z-standardisiert durch den SAVE-Befehl in DESKRIPTIVES. Syntax: DESCRIPTIVES VARIABLES=klausn /SAVE /STATISTICS=MEAN . Es entsteht hierbei eine neue Variable: zklausn Die Vorzeichen werden umgedreht. Die Verteilung bekommt ein Mittel von 65 und eine Standardabweichung von 10 Syntax:

81

COMPUTE zklausnminus = Zklausn*(-1) . EXECUTE . COMPUTE Punkteroh = zklausnminus* 10 + 65 . EXECUTE . Die Variable Punkte soll erklärt werden durch folgende unabhängige Variablen: Dabei müssen, wenn man sich durch Simulation einen Datenfile mit den gewünschten Eigenschaften herstellen will, zuerst die Verteilungen der unabhängigen Variablen erzeugt werden und dann deren funktionale Beziehung zu der Variable Punkte. Diese wird hierbei natürlich verändert und erhält im Laufe dieser Prozedur jedesmal einen neuen Namen, z. B. Punkteroh, Punktesex, Punkteabw, Punktedid..., je nachdem, welchen Einfluß man jeweils in die Verteilung der Variablen „einwirken“ läßt.

82

Unabhängige Variablen

Kürzel Verteilungs-eigenschaften

Syntax

Verteilungseigen schaften der simulierten Variablen

Ideen für Zusammenhänge mit der abhängigen Variablen.

Syntax der Simulation der Zusammen hänge

Geschlecht der Studierenden

Sexstud gleichverteilt

Compute Sexstud = trunc(uniform(2)). execute.

48,4 % Männer (0) 51,6 % Frauen (1)

Geschlecht der Dozenten

Sexdoz ungleichverteilt

COMPUTE Sexdoz = RV.BINOM(1,0.1) . EXECUTE .

10,4 % Frauen, 89,6 % Männer

Wenn das Geschlecht der Studierenden und der Dozenten identisch sind, wird eine bessere Note gegeben als wenn sie verschieden sind. Bei verschiedenem Geschlecht ist ist Note um 5 % schlechter als bei gleichem Geschlecht

IF (sexstud ~= sexdoz) Punktesex = Punkteroh - 0.05*Punkteroh . EXECUTE . IF (sexstud = sexdoz) Punktesex = Punkteroh. EXECUTE .

Anwesenheit Anwesen

gleichverteilte Fehltage, maximale Anwesenheit 15 Tage

COMPUTE Anwesen = 15 – TRUNC (UNIFORM (4)) . EXECUTE .

je 25 % mit 12,13,14,15 Tagen Anwesenheit

Bei geringerer Anwesenheit als 15 Tage verringert sich die Punktezahl in der Klausur um 5 % je Abwesenheitstag.

COMPUTE Punkteabw = Punktesex - 0.05 * (15-Anwesen)*Punktesex . EXECUTE .

Evaluierte Zeit des Dozenten als Maß für die didaktische Qualifikation

Didqualf linksschiefe Verteilung über 0 bis 54Monate

COMPUTE didqualf = trunc(RV.CHISQ(2))*3 . EXECUTE .

links schief, max 54 Bei hoher didaktischer Qualifikation steigt die Punktezahl an, und zwar um ein Promille pro Monat didaktischer Qualifikation

COMPUTE Punktedid = Punkteabw + 0.001 * didqualf*Punkteabw . EXECUTE .

Zeitaufwand der Studierenden

Zeitauf Anwesenheit*xwobei x zwischen 0 und 1 liegt.

COMPUTE Zeitauf = anwesen * RV.NORMAL(0.5,0.2) . EXECUTE .

Mittel 6,9, s= 2,7 Bei steigendem Zeitaufwand steigt die Punktezahl an, und zwar um 3 % pro Lernstunde

COMPUTE Punktezeit = Punktedid + 0.03 * Zeitauf * Punktedid . EXECUTE .

Vorwissen (Mathenote)

Mathen Normalverteilt zwischen 1 und 4

COMPUTE Mathen = TRUNC(RV.NORMAL(2.5,0.5)+0.5) . EXECUTE .

Mittel 2,5, normalvert. Bei fehlendem Vorwissen sinkt die Punktezahl um den Faktor Mathenote * 4 Punkte absolut ab.

COMPUTE Punktemathe = Punktezeit - 4 * Mathen . EXECUTE .

Begabung Intellig normalverteilt, Mittel 110 s=5

COMPUTE Intellig = RV.NORMAL(110,5) . EXECUTE .

109,8; S=4,9 Bei variierender Begabung verändert sich die Punktezahl um soviel Prozent wie der IQ vom arithmetischen Mittel der Gruppe abweicht.

COMPUTE Punkteintelli = Punktemathe + ((Intellig - 109.8)/100)*Punktemathe . EXECUTE .

83

Unabhängige Variablen

Kürzel Verteilungs-eigenschaften

Syntax

Verteilungseigen schaften der simulierten Variablen

Ideen für Zusammenhänge mit der abhängigen Variablen.

Syntax der Simulation der Zusammen hänge

Gruppengröße Gruppgr Ungleichvert. links schief zwischen 5 und 200

COMPUTE Gruppgr = TRUNC(RV.CHISQ(3)*10)+5 . EXECUTE .

Mittel 35, Min: 5, Max 194, linksschief

Bei variierender Gruppengröße sinkt die Punktezahl, wenn die Gruppe größer als 20 ist, um den Quotienten aus der Gruppengröße/10.

IF (Gruppgr > 20) Punktegrupp = Punkteintelli - Gruppgr/10 . EXECUTE . IF (Gruppgr <= 20) Punktegrupp = Punkteintelli . EXECUTE .

Zufall Die zuletzt berechnete Punktezahl „Punktegrupp“ wird noch durch einen Zufallsfaktor vermindert

COMPUTE Punktezufall = Punktegrupp - RV.NORMAL(15,3) . EXECUTE .

Verschiebung der Variablen in einen plausiblen Bereich

Punkteplausibl

normalverteilt mit Mittel 65 und Standardabweichung 8

Die zuletzt berechnete Punktezahl wird noch in einen plausiblen Bereich verlegt, der sowohl das arithmethische Mittel 65 aufweist als auch nur eine Standardabweichung von 8 Punkten hat, ohne daß die Grenzen 0 und 100 unter- oder überschritten werden

COMPUTE Punkteplausib = ZPunktezufall*8 + 65 . EXECUTE .

Bei der multiplen Regressionsrechnung wählen wir die Schaltfläche

84

Wichtig ist hier, daß wir die Methode „Vorwärts“ angekreuzt haben: Das ist ein Verfahren zur schrittweisen Variablenauswahl, in dem die Variablen nacheinander in das Modell aufgenommen werden. Die erste Variable, die in Betracht gezogen wird, ist die mit der größten positiven bzw. negativen Korrelation mit der abhängigen Variablen. Diese Variable wird nur dann in die Gleichung aufgenommen, wenn sie das Aufnahmekriterium erfüllt. Wenn die erste Variable ausgewählt ist, wird die unabhängige Variable mit der größten partiellen Korrelation betrachtet. Das Verfahren endet, wenn keine verbliebene Variable das Aufnahmekriterium erfüllt. Bei „Statistiken“ kreuzen wir Schätzer, Anpassungsgüte des Modells, Änderung in R-Quadrat und Deskriptive Statistik an.

Bei den Optionen verfahren wir wie auf der nachfolgenden Schaltfläche zu sehen ist.

85

Die sich jetzt ergebende Syntax lautet: GRAPH /HISTOGRAM=Punkteplausib. (Hier habe ich die Verteilung der abhängigen Variable dargestellt) REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA CHANGE /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT Punkteplausib /METHOD=FORWARD sexstud sexdoz anwesen didqualf Zeitauf Mathen Intellig Gruppgr . Der Output sieht wie folgt aus: Graphik der abhängigen Variable Punkteplausib:

86

40,00 50,00 60,00 70,00 80,00 90,00

Punkteplausib

0

10

20

30

40

50

60

70H

äufig

keit

Mean = 65,00Std. Dev. = 8,00N = 800

Hier sind alle Mittelwerte und Standardabweichungen sowie die N der untersuchten Variablen aufgelistet:


65,0000 8,00000 800,5163 ,50005 800,1038 ,30513 800

13,4725 1,11839 8004,9013 6,22092 8006,9169 2,71497 8002,4975 ,57698 800

109,8370 4,90679 80035,1000 26,84932 800

PunkteplausibsexstudsexdozanwesendidqualfZeitaufMathenIntelligGruppgr


87

Die obige Tabelle dient in erster Linie der Korrektur des Rechenganges, wenn N zu stark variiert oder sich andere Fehler in den Daten zeigen wie nicht plausible Mittelwerte etc. In der folgenden Tabelle sehen wir dieMatrix der Korrelationskoeffizienten und der Signifikanzen. Außer der jeweils ersten Zeile ist nur die Korrelation zwischen Anwesenheit und Zeitaufwand interessant, die wir ja in der

Korrelationen

1,000 -,088 ,006 ,347 ,020 ,385 -,166 ,194 -,270-,088 1,000 -,064 -,003 -,033 -,055 ,015 ,003 ,047,006 -,064 1,000 ,025 -,025 -,037 -,009 -,012 ,027,347 -,003 ,025 1,000 ,063 ,244 -,012 ,016 ,007,020 -,033 -,025 ,063 1,000 ,022 -,026 ,036 ,017,385 -,055 -,037 ,244 ,022 1,000 ,000 -,024 -,007

-,166 ,015 -,009 -,012 -,026 ,000 1,000 -,006 -,027,194 ,003 -,012 ,016 ,036 -,024 -,006 1,000 -,038

-,270 ,047 ,027 ,007 ,017 -,007 -,027 -,038 1,000. ,006 ,438 ,000 ,290 ,000 ,000 ,000 ,000

,006 . ,034 ,471 ,172 ,060 ,333 ,463 ,092,438 ,034 . ,241 ,241 ,151 ,398 ,372 ,222,000 ,471 ,241 . ,037 ,000 ,370 ,323 ,425,290 ,172 ,241 ,037 . ,271 ,228 ,155 ,320,000 ,060 ,151 ,000 ,271 . ,498 ,252 ,418,000 ,333 ,398 ,370 ,228 ,498 . ,430 ,221,000 ,463 ,372 ,323 ,155 ,252 ,430 . ,142,000 ,092 ,222 ,425 ,320 ,418 ,221 ,142 .800 800 800 800 800 800 800 800 800800 800 800 800 800 800 800 800 800800 800 800 800 800 800 800 800 800800 800 800 800 800 800 800 800 800800 800 800 800 800 800 800 800 800800 800 800 800 800 800 800 800 800800 800 800 800 800 800 800 800 800800 800 800 800 800 800 800 800 800800 800 800 800 800 800 800 800 800

PunkteplausibsexstudsexdozanwesendidqualfZeitaufMathenIntelligGruppgrPunkteplausibsexstudsexdozanwesendidqualfZeitaufMathenIntelligGruppgrPunkteplausibsexstudsexdozanwesendidqualfZeitaufMathenIntelligGruppgr

KorrelationnachPearson

Signifikanz(einseitig)

N

Punkteplausib sexstud sexdoz anwesen didqualf Zeitauf Mathen Intellig Gruppgr

Simulation bewußt erzeugt haben. Alle anderen unabhängigen Variablen sind unkorreliert oder nicht signifikant korreliert. Würden sie untereinander korrelieren, würde „Multikollinearität“ bestehen, eine unerwünschte Eigenschaft der Variablen.

Aufgenommene/Entfernte Variablena

Zeitauf . Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert fürAufnahme <= ,050)

Gruppgr . Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert fürAufnahme <= ,050)

anwesen . Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert fürAufnahme <= ,050)

Intellig . Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert fürAufnahme <= ,050)

Mathen . Vorwährts- (Kriterium: Wahrscheinlichkeit von F-Wert fürAufnahme <= ,050)

Modell1

2

3

4

5

Aufgenommene Variablen

EntfernteVariablen Methode

Abhängige Variable: Punkteplausiba.

Das Modell hat 5 Variablen aufgenommen, drei Variablen wurden nicht berücksichtigt: Die didaktische Qualifikation und das Geschlecht der Studierenden und der Dozenten. Wir hatten die didaktische Qualifikation als stark links-schief angenommen, dadurch blieb ihr Einfluß gering. Das Geschlecht der Studierenden – und damit auch der Dozenten – spielte nur eine geringe Rolle, weil nur in ca. 53 % der Fälle das Geschlecht übereingestimmt haben dürfte, und nur in diesem Fall gab es einen negativen Effekt auf die Note. Außerdem

88

wurde dieser Effekt früh in unserer Simulation erzeugt und könnte daher von anderen überlagert worden sein (möglicher Suppressionseffekt). Hier folgt jetzt die Zusammenfassung von 5 verschiedenen Modellen: Modell 5 hat die höchste Erklärungsleistung:


,385a ,469b ,538c ,570d ,594e

,148 ,220 ,289 ,325 ,353

,147 ,218 ,287 ,321 ,349

7,38798 7,07490 6,75600 6,59089 6,45376

,148 ,072 ,070 ,035 ,029

138,862 73,189 78,014 41,381 35,1441 1 1 1 1

798 797 796 795 794

,000 ,000 ,000 ,000 ,000

RR-QuadratKorrigiertes R-Quadrat

Standardfehler des Schätzers

Änderung inR-QuadratÄnderung in Fdf1df2Änderung inSignifikanzvon F

Änderungsstatistiken

1 2 3 4 5Modell

Einflußvariablen : (Konstante), Zeitaufa.

Einflußvariablen : (Konstante), Zeitauf, Gruppgrb.

Einflußvariablen : (Konstante), Zeitauf, Gruppgr, anwesenc.

Einflußvariablen : (Konstante), Zeitauf, Gruppgr, anwesen, Intelligd.

Einflußvariablen : (Konstante), Zeitauf, Gruppgr, anwesen, Intellig, Mathene.

Das höchste R wurde im 5. Modell erreicht, in dem 35 % der Varianz erklärt werden. Die Änderung in R² wird immer geringer, je mehr Variablen einbezogen werden. Die folgende Varianzanalyse zeigt, daß von Modell zu Modell der F-Wert immer mehr absinkt.

89

ANOVAf

7579,414 1 7579,414 138,862 ,000a

43556,586 798 54,58251136,000 79911242,846 2 5621,423 112,307 ,000b

39893,154 797 50,05451136,000 79914803,706 3 4934,569 108,111 ,000c

36332,294 796 45,64451136,000 79916601,299 4 4150,325 95,542 ,000d

34534,701 795 43,44051136,000 79918065,071 5 3613,014 86,745 ,000e

33070,929 794 41,65151136,000 799

RegressionResiduenGesamtRegressionResiduenGesamtRegressionResiduenGesamtRegressionResiduenGesamtRegressionResiduenGesamt

Modell1

2

3

4

5

Quadratsumme df


Einflußvariablen : (Konstante), Zeitaufa.

Einflußvariablen : (Konstante), Zeitauf, Gruppgrb.

Einflußvariablen : (Konstante), Zeitauf, Gruppgr, anwesenc.

Einflußvariablen : (Konstante), Zeitauf, Gruppgr, anwesen, Intelligd.

Einflußvariablen : (Konstante), Zeitauf, Gruppgr, anwesen, Intellig, Mathene.

Abhängige Variable: Punkteplausibf.

Die Koeffizienten der multiplen Regressionsanalyse für die gerechneten 5 Modelle zeigt die folgende Tabelle:

90

Koeffizientena

57,153 ,715 79,903 ,000

1,134 ,096 ,385 11,784 ,000

59,992 ,761 78,820 ,000

1,129 ,092 ,383 12,243 ,000-,080 ,009 -,268 -8,555 ,000

35,146 2,905 12,097 ,000

,933 ,091 ,317 10,282 ,000-,080 ,009 -,270 -9,036 ,000

1,946 ,220 ,272 8,833 ,000

1,769 5,912 ,299 ,765

,950 ,089 ,322 10,720 ,000-,078 ,009 -,263 -9,008 ,000

1,914 ,215 ,268 8,903 ,000

,306 ,048 ,188 6,433 ,000

8,081 5,886 1,373 ,170

,951 ,087 ,323 10,964 ,000-,080 ,009 -,267 -9,359 ,000

1,900 ,211 ,266 9,022 ,000

,304 ,047 ,187 6,528 ,000-2,347 ,396 -,169 -5,928 ,000

(Konstante)Zeitauf(Konstante)ZeitaufGruppgr(Konstante)ZeitaufGruppgranwesen(Konstante)ZeitaufGruppgranwesenIntellig(Konstante)ZeitaufGruppgranwesenIntelligMathen

Modell1

2

3

4

5

BStandard

fehler


Beta

Standardisierte

Koeffiziente

n

TSignifikanz

Abhängige Variable: Punkteplausiba.

Die Betagewichte der einbezogenen Variablen ändern sich, wenn andere Variablen in das jeweilige Modell einbezogen werden. Die folgende Tabelle zeigt die Betagewichte der jeweils ausgeschlossenen Variablen und ihre Signifikanz.

91

Ausgeschlossene Variablenf

-,067a -2,054 ,040 -,073 ,997,020a ,600 ,549 ,021 ,999,270a 8,342 ,000 ,283 ,941,011a ,345 ,730 ,012 1,000

-,166a -5,171 ,000 -,180 1,000,204a 6,386 ,000 ,221 ,999

-,268a -8,555 ,000 -,290 1,000-,055b -1,746 ,081 -,062 ,995,027b ,857 ,392 ,030 ,998,272b 8,833 ,000 ,299 ,941,016b ,503 ,615 ,018 ,999

-,174b -5,657 ,000 -,197 ,999,194b 6,336 ,000 ,219 ,998

-,058c -1,925 ,055 -,068 ,995,018c ,592 ,554 ,021 ,997,000c -,001 ,999 ,000 ,996

-,171c -5,824 ,000 -,202 ,999,188c 6,433 ,000 ,222 ,997

-,058d -1,996 ,046 -,071 ,995,020d ,686 ,493 ,024 ,997

-,007d -,231 ,817 -,008 ,994-,169d -5,928 ,000 -,206 ,999-,055e -1,938 ,053 -,069 ,994,019e ,652 ,515 ,023 ,997

-,011e -,385 ,700 -,014 ,994

sexstudsexdozanwesendidqualfMathenIntelligGruppgrsexstudsexdozanwesendidqualfMathenIntelligsexstudsexdozdidqualfMathenIntelligsexstudsexdozdidqualfMathensexstudsexdozdidqualf

Modell1

2

3

4

5

Beta In T SignifikanzPartielle

Korrelation Toleranz

Kollinearitätsstatistik

Einflußvariablen im Modell: (Konstante), Zeitaufa.

Einflußvariablen im Modell: (Konstante), Zeitauf, Gruppgrb.

Einflußvariablen im Modell: (Konstante), Zeitauf, Gruppgr, anwesenc.

Einflußvariablen im Modell: (Konstante), Zeitauf, Gruppgr, anwesen, Intelligd.

Einflußvariablen im Modell: (Konstante), Zeitauf, Gruppgr, anwesen, Intellig,Mathen

e.

Abhängige Variable: Punkteplausibf.

Regressionsmodelle sollen, wie schon gesagt, möglichst keine Korrelationen innerhalb der Gruppe der unabhängigen Variablen aufweisen. Wäre dies der Fall, läge Multikollinearität vor. Zur Prüfung eines Modells auf Multikollinearität bietet SPSS statistische Kennziffern für eine Kollinearitätsdiagnose an. In der Dialogbox "Lineare Regression" klickt man die Schaltfläche "Statistik" zur Öffnung der Unterdialogbox "Lineare Regression: Statistik". Hier fordert man "Kollinearitätsdiagnose" an. An die Tabelle mit den Regressionskoeffizienten werden Kennziffern zur Diagnose von Multikollinearität angehängt: "Toleranz" und "VIF". Der Wert von "Toleranz" einer Erklärungsvariable gibt an, wie hoch der Varianzanteil dieser Variable ist, der durch die anderen unabhängigen Variablen in der Gleichung nicht erklärt wird. Der Wert von "VIF" (Variance Inflation Factor) ist der Kehrwert von "Tolerance". Eine Variable mit kleiner Toleranz (und damit hohem VIF) trägt wenig zur Vorhersage der abhängigen Variable bei. Mit abnehmender "Tolerance" (d. h. zunehmendem VIF) steigt auch die Varianz des Regressionskoeffizienten, wodurch er zu einer instabilen Schätzung wird.

92

Machen Sie mit den Daten Versuche bezüglich anderer „Methoden“ der Abarbeitung der unabhängigen Variablen wie : Einschluß, Schrittweise, Vorwärts, Rückwärts. Versuchen Sie, Deutungen der sich dann ergebenden unterschiedlichen Outputs zu erarbeiten und zu diskutieren.

Kapitel 5 Cluster-Analyse Die Clusteranalyse dient dazu, Fälle aus einer Gruppe von Fällen nach bestimmten Kriterien in Teilgruppen anzuordnen. Diese Teilgruppen nennt man Cluster. Man unterscheidet hierarchische Verfahren und sog. Partitionierungsverfahren. Während bei den hierarchischen Verfahren die Menge der Fälle zunächst die Menge der Cluster bestimmt, die dann nach einem bestimmten Agglomerationskriterium fortlaufend fusioniert werden, bis alle Fälle in einem einzigen Cluster vereinigt sind, arbeitet das Partitionierungsverfahren so, daß eine bestimmte Menge der Cluster vorgegeben wird, und das Verfahren verteilt dann die Fälle solang auf die verschiedenen Cluster, bis ein Optimierungskriterium (Minimierung der „Quadratsummen innerhalb der Cluster“ – k-means Verfahren - ) erfüllt ist. 5.1. Partitionierungsverfahren. Zur Demonstration schaffen wir uns einen Datensatz, in dem wir nur zwei Variablen erzeugen und diese so organisieren, daß die Wertepaare optisch hinreichend genau getrennte Datenhaufen bilden, die durch die Clusteranalyse erkannt werden können. Um uns einen solchen Datensatz zu schaffen, konstruieren wir uns zunächst einen Datensatz mit gleichverteilten Wertepaaren mit den Variablen x1 und x2; n wählen wir bei ca 300, oder größer. COMPUTE x1 = RV.UNIFORM(0,1000) . EXECUTE . COMPUTE x2 = RV.UNIFORM(0,1000) . EXECUTE . GRAPH /SCATTERPLOT(BIVAR)=x1 WITH x2 /MISSING=LISTWISE . Diesen Datensatz stellen wir uns als Scatterplot dar.

93

0,00 200,00 400,00 600,00 800,00 1000,00

x1

0,00

200,00

400,00

600,00

800,00

1000,00x2

Aus diesem Datensatz „machen“ wir 4 getrennte Datenhaufen mittels Recodierung der Variablen x1 und x2, indem wir bei x1 und x2 jeweils die mittleren Werte (zwischen 400 und 600) als fehlend kodieren. Die folgende Syntax ist über Transformieren und Umkodieren (selbe Variable) zu erzeugen: DO IF (x1 > 400 & x1 < 600). RECODE x1 (ELSE=SYSMIS). END IF . EXECUTE . DO IF (x2 > 400 & x2 < 600). RECODE x2 (ELSE=SYSMIS) . END IF . EXECUTE . GRAPH /SCATTERPLOT(BIVAR)=x1 WITH x2 /MISSING=LISTWISE . Ihre Ausführung ergibt folgendes Streudiagramm, in dem eine kreuzförmige leere Fläche in der Mitte vier noch gut besetzte Gebiete voneinander trennt.

94

0,00 200,00 400,00 600,00 800,00 1000,00

x1

0,00

200,00

400,00

600,00

800,00

1000,00x2

Auf diese Datenstruktur wenden wir jetzt die Clusteranalyse an: Wir wählen als Partitionierungsverfahren die Clusterzentrenanalyse:

95

Über die Schaltflächen Analysieren, Klassifizieren, Clusterzentrenanalyse erhalten wir folgende Syntax, sofern wir bei Optionen den paarweisen Fallausschluß anfordern, vier Cluster anfordern (hier wird vorausgesetzt, daß wir die Menge der zu bildenden Cluster angeben) und bei Speichern die Clusterzugehörigkeit speichern lassen. QUICK CLUSTER x1 x2 /MISSING=PAIRWISE /CRITERIA= CLUSTER(4) MXITER(10) CONVERGE(0) /METHOD=KMEANS(NOUPDATE) /SAVE CLUSTER /PRINT NONE. Der Output ist folgender: Quick Cluster

Iterationsprotokolla

174,997 246,518 226,224 226,96435,079 34,009 17,252 25,035

,000 ,000 ,000 ,000

Iteration123

1 2 3 4Änderung in Clusterzentren

Konvergenz wurde aufgrund geringer oder keinerÄnderungen der Clusterzentren erreicht. Diemaximale Änderung der absoluten Koordinaten fürjedes Zentrum ist ,000. Die aktuelle Iteration lautet 3.Der Mindestabstand zwischen den anfänglichenZentren beträgt 870,244.

a.

Wenn die „Änderung“ der Cluster-Zentren bei Null angelangt ist, hört der Rechner auf, durch Iteration die Clusterzentren zu verändern.

Clusterzentren der endgültigen Lösung

817,91 186,16 208,65 761,89831,70 750,98 220,89 183,81

x1x2

1 2 3 4Cluster

Die Clusterzentren sollten die Teilnehmer an diesem Kursus in die Cluster einzeichnen. Versuchen Sie es bitte. Dann sehen Sie auch den Sinn dieser Zentren.

Anzahl der Fälle in jedem Cluster

78,00053,00069,00081,000

281,0009,000

1234

Cluster

GültigFehlend

96

Der Datensatz enthält jetzt eine neue Variable (QCL_1) mit der Nummer des Clusters, dem die Wertepaare zugehören. Wir können die Graphik jetzt erneut darstellen mit der Clusternummer als Fall-Kennzeichen: GRAPH /SCATTERPLOT(BIVAR)=x1 WITH x2 BY QCL_1 (NAME) /MISSING=LISTWISE .

0,00 200,00 400,00 600,00 800,00 1000,00

x1

0,00

200,00

400,00

600,00

800,00

1000,00

x2

1

1

34

2

2

3

33

1

1

4

2

44

3

1

4 4

1

4

3 3

2

2

1

4

1

3

1

4

2

4

2

3

4

1

1

3 4

12 1

43

4

1

1

3

11

2

4

4

2

4

1

2

1

1

1

3 4

2

1

34

4

2

1

44

1

22

1

4

3

21

4

4

11

3

3

4

4

4

1

4

2

4

3

3

2

1

3

3

3

1

2

1

2

4

2

4

3

1

3

3

2

3

1

4

12

1

4

2

3

4

1

2

1

2

3

1

1

21

4

1

4

4

2

3

3

43

4

12

3

2

1

1

4

1

2

4

1

3

1

3

2

2

43

33

4

1

4

2

3

43

1

4

3

4

3

3

2

4

3

3

2

4

4

3

4

21

3

4

4

4

1

4

3

2 1

2

4

3

3

3

2

97

5.2. Hierarchische Cluster-Analyse Wenn wir nun die gleiche Prozedur mit einer hierarchischen Clusteranalyse durchführen, dann arbeiten wir mit folgender Schaltfläche:

In der „Statistik“ fordern wir eine Mindest und Höchstzahl von Clustern an. Bei den Diagrammen forderm wir ein Dendrogramm an (das wir aber nicht hier abdrucken, weil es zu groß ist). Unter „Speichern“ fordern wir die Speicherung der Clusternummer unter den verschiedenen Voraussetzungen bei 2 oder mehr Clustern an. Alle übrigen Voreinstellungen übernehmen wir. Ein Dendrogramm wird unten noch gezeigt – mit weniger Fällen. Die Syntax lautet dann: CLUSTER x1 x2 /METHOD WAVERAGE /MEASURE= SEUCLID /PRINT CLUSTER(2,8) /PLOT DENDROGRAM /SAVE CLUSTER(2,8) . Sie führt dazu, daß im Datensatz sieben neue Variablen gebildet werden: Sie heißen CLU2_1 CLU3_1 CLU4_1 CLU5_1 CLU6_1 CLU7_1 CLU8_1 Wir können diese Variablen optisch anschaulich auswerten, wenn wir die Zuordnung der Clusterbezeichnungen, die als Lösung angeboten werden, in 7 verschiedenen Scatterplots anfordern: GRAPH /SCATTERPLOT(BIVAR)=x1 WITH x2 BY CLU2_1 (NAME) /MISSING=LISTWISE . GRAPH

98

/SCATTERPLOT(BIVAR)=x1 WITH x2 BY CLU3_1 (NAME) /MISSING=LISTWISE . GRAPH /SCATTERPLOT(BIVAR)=x1 WITH x2 BY CLU4_1 (NAME) /MISSING=LISTWISE . GRAPH /SCATTERPLOT(BIVAR)=x1 WITH x2 BY CLU5_1 (NAME) /MISSING=LISTWISE . GRAPH /SCATTERPLOT(BIVAR)=x1 WITH x2 BY CLU6_1 (NAME) /MISSING=LISTWISE . GRAPH /SCATTERPLOT(BIVAR)=x1 WITH x2 BY CLU7_1 (NAME) /MISSING=LISTWISE . GRAPH /SCATTERPLOT(BIVAR)=x1 WITH x2 BY CLU8_1 (NAME) /MISSING=LISTWISE . Es werden hierauf 7 Scatterplots erzeugt, in denen den Meßwertpaaren die Clusternummern zugeordnet werden. Ich drucke drei davon ab: mit 2 Clustern, mit 4 Clustern und mit 8 Clustern: Lösung mit 2 Clustern:

0,00 200,00 400,00 600,00 800,00 1000,00

x1

0,00

200,00

400,00

600,00

800,00

1000,00

x2

1

2

11

2

2

2

2

1

1

1

2

2

2

1

1

2

2

1

1

2

1

1

2

2

2

2

2 2

1

2

2

11

2

2

1

2

1

2

2

1

2

2

1

2

1

2

2

1

1

1

11

1

1

2

1

1

1

1

1

2

2

1

2

2

2

1

2

1

2

2

2

1

1

1

2

1

2

1

2

2

1

1

1

2

2

1

2

1

2

2

2

1

2

11

1

2

1

11

1

1

2

1

2

1

11

2

1

1

1

1

1

2

1

1

2

1

1

2

1

2

1

1

11

1

1

1

1

2

2

1

2

1

2

1

2

1

1

11

2

1

2

2

2

1

2

1

2

11

1

2

1

2

1

2

2

1

2

2

1

1

1

1

22

2

1

1

1

1

2

1

2

2

2

2

1

2

2

2

1

1

2

1

2

2

2

1

2

2

11

1

1

99

Lösung mit 4 Clustern:

0,00 200,00 400,00 600,00 800,00 1000,00

x1

0,00

200,00

400,00

600,00

800,00

1000,00

x2

1

2

11

2

3

3

3

4

1

4

2

3

2

1

1

2

3

1

4

3

1

1

3

3

3

2

2 2

1

3

2

41

2

3

4

3

1

3

2

1

2

2

1

3

1

3

2

1

1

1

44

4

4

3

1

4

1

1

4

2

3

1

2

2

2

4

3

4

3

3

3

1

4

4

2

4

2

4

2

2

4

4

4

3

2

1

2

4

2

3

3

4

2

11

4

2

4

11

4

1

3

1

3

4

14

2

4

1

1

1

1

3

4

4

3

1

1

3

1

2

1

1

44

1

4

1

1

3

3

1

3

1

2

1

2

4

4

41

3

1

2

2

2

4

2

4

2

44

4

2

1

2

1

3

3

1

2

3

4

1

1

1

23

3

1

1

4

1

2

4

2

3

2

2

4

3

2

3

4

1

3

1

2

3

3

4

2

2

11

4

1

Lösung mit 8 Clustern:

0,00 200,00 400,00 600,00 800,00 1000,00

x1

0,00

200,00

400,00

600,00

800,00

1000,00

x2

1

2

33

2

4

4

4

5

3

5

6

7

2

1

1

2

7

3

5

7

3

1

4

4

4

2

2 6

3

4

2

83

2

4

8

7

3

7

6

1

2

2

3

4

3

4

2

1

3

3

55

5

5

7

3

5

3

3

5

6

4

1

6

2

2

8

4

8

4

7

7

3

5

5

2

8

6

8

6

2

8

5

5

7

2

1

2

5

2

4

7

5

6

13

8

2

11

5

3

7

1

4

5

3

8

2

5

3

1

1

1

4

8

5

4

1

1

7

3

2

1

3

85

3

8

3

3

4

4

3

7

3

6

1

6

8

5

53

4

3

6

6

6

5

2

5

2

55

5

6

3

2

3

4

7

3

6

4

5

3

1

1

27

7

3

3

8

1

2

8

2

7

6

6

5

7

6

4

5

3

4

1

2

7

7

5

2

2

33

5

3

Wie die Graphiken zeigen, gibt es hier keine „richtige“ Lösung, sondern nur eine plausible, die der Nutzer sich aussucht.

100

5.3. Two-Step-Cluster-Analyse (nur ab SPSS 12 möglich) Wir können auch eine weitere Variante der Clusteranalyse ausprobieren, bei der der Rechner über die Menge der Cluster entscheidet: Die sog Two-Step-Clusteranalyse.

Wir lassen von ihr entscheiden, wieviele Cluster sinnvoll aus den Daten gebildet werden können. Wir fordern bei den Diagrammen ein Kreisdiagramm an und bei der Ausgabe

101

die Deskriptive Statistik nach Cluster, die Cluster-Häufigkeiten und lassen eine Variable erstellen, die die Clusterzugehörigkeit zum Ausdruck bringt. Die Syntax ist dann folgende: TWOSTEP CLUSTER /CONTINUOUS VARIABLES = x2 x1 /DISTANCE LIKELIHOOD /NUMCLUSTERS AUTO 15 BIC /HANDLENOISE 0 /MEMALLOCATE 64 /CRITERIA INITHRESHOLD (0) MXBRANCH (8) MXLEVEL (3) /PLOT PIEFREQ /PRINT COUNT SUMMARY /SAVE VARIABLE=TSC_484 . AIM TSC_484 /CONTINUOUS x2 x1 /PLOT ERRORBAR CLUSTER (TYPE=PIE) . Es wird der folgende Output erzeugt: Die Menge der Elemente in den gebildeten Clustern:

Clusterverteilung

48 23,8% 16,0%44 21,8% 14,7%62 30,7% 20,7%48 23,8% 16,0%

202 100,0% 67,3%98 32,7%

300 100,0%

1234Kombiniert

Cluster

Ausgeschlossene FälleGesamtwert

N% der

Kombination

% derGesamts

umme

102

Die Koordinaten jener Punkte (Mittelwert-Kombination von x2 und x1), die als Schwerpunkte der Cluster gelten (Zentroide):

Zentroide

195,6961 113,99825 780,4008 112,54911190,2032 118,01954 188,3613 106,74477812,9094 117,64863 180,2411 115,19406799,8536 116,49085 770,6954 113,62934527,5035 327,76248 464,9280 316,67458

1234Kombiniert

ClusterMittelwert

Standardabweichung Mittelwert

Standardabweichung

x2 x1

Die Häufigkeitsverteilung der Elemente nach Cluster als Kreisdiagramm:

Nummer des TwoStep Clusters

1234

Clustergröße

103

Wie wir sehen, werden – wie wir das in unserem Datensatz auch intuitiv tun würden - automatisch 4 Cluster gebildet, die im Wesentlichen der oben referierten Lösung mit vorgegebenen 4 Clustern entspricht.

0,00 200,00 400,00 600,00 800,00 1000,00

x1

0,00

200,00

400,00

600,00

800,00

1000,00

x2

3

1

33

1

2

2

2

4

3

4

12

1

3

3

1

2

3

4

2

3

3

2

2

2

1

1 1

3

2

1

43

1

2

4

2

3

2

1

3

1

1

3

2

3

2

1

3

3

3

44

4

4

2

3

4

3

3

4

1

2

3

1

1

1

4

2

4

2

2

2

3

4

4

1

4

1

4

1

1

4

4

4

2

1

3

1

4

1

2

2

4

1

33

4

1

4

33

4

3

2

3

2

4

3

4

1

4

3

3

3

3

2

4

4

2

3

3

2

3

1

3

3

44

3

4

3

3

2

2

3

2

3

1

3

1

4

4

43

2

3

1

1

1

4

1

4

1

44

4

1

3

1

3

2

2

3

1

2

4

3

3

12

2

3

3

4

3

1

4

1

2

1

1

4

2

1

2

4

3

2

3

1

2

2

4

1

1

33

4

3

Wir stellen fest, daß die Reihenfolge, in der die Cluster durchnumeriert werden, willkürlich erscheint. Einen der wenigen Hinweise auf „Signifikanz“ der Clusterlösungen finden wir in der mitgelieferten Varianzanalyse. 5.4. Das Dendrogramm Wir hatten oben darauf hingewiesen, daß wir noch ein Dendrogramm nachliefern wollten. Das lohnt sich aber – wegen der Größe – praktisch nur bei wenigen Fällen. Wir führen hier einen Fall mit 64 Fällen vor, in dem 4 Cluster gebildet werden. Dieser Fall ist durch Wahl der ersten 64 Fälle aus den Daten des vorigen Kapitels entstanden. Dies erreichen wir im Menü über „Daten – Auswählen“. FILTER OFF. use 1 thru 64 . EXECUTE . CLUSTER x1 x2 /METHOD BAVERAGE /MEASURE= SEUCLID /PRINT CLUSTER(4) /PLOT DENDROGRAM

104

/SAVE CLUSTER(4) . GRAPH /SCATTERPLOT(BIVAR)=x1 WITH x2 BY CLU4_1 (Name) /MISSING=LISTWISE .

105

Der Output zeigt jetzt.

Cluster-Zugehörigkeit

12112333414232112314311333222132412343132122

Fall13456101112131415161819202122232425272829313233353637384145464749505253565758606264

4 Cluster

Das Dendrogramm – Baumdiagramm – sieht folgendermaßen aus: (Die Clusterbezeichnungen wurden von mir nachträglich eingefügt:

106

22 64 6 19 49 3 35 45 62 58 16 37 36 11 31 33 41 18 57 32 50 10 12 27 53 23 14 20 5 21 29 60 1 38 47 28 56 4 24 13 25 15 46 52 Die Lage der Clusterpunkte im Streudiagramm ist folgende:

Cluster 2

Cluster 3

Cluster 1

Cluster 4

107

0,00 200,00 400,00 600,00 800,00 1000,00

x1

0,00

200,00

400,00

600,00

800,00

1000,00x2

1

2

1

1

2

3

3

3

4

1

4

23

2

1

1

2

3

1

4

3

1

1

3

3

3

2

2 2

1

3

2

41

2

3

4

3

1

3

2

1

2

2

Das gleiche Streudiagramm mit Fallbezeichnungen:

0,00 200,00 400,00 600,00 800,00 1000,00

x1

0,00

200,00

400,00

600,00

800,00

1000,00

x2

1,00

3,00

4,005,00

6,00

10,00

11,00

12,00

13,00

14,00

15,00

16,0018,00

19,00

20,00

21,00

22,00

23,00

24,00

25,00

27,00

28,00

29,00

31,00

32,00

33,00

35,00

36,00 37,00

38,00

41,00

45,00

46,0047,00

49,00

50,00

52,00

53,00

56,00

57,00

58,00

60,00

62,00

64,00

Andere Darstellungsformen von Clusteranalyse–Ergebnissen sind ausgesprochen unübersichtlich, wie etwa das Eiszapfendiagramm. Wenn in diesem Diagramm statt der Kreuze die Clusternummern stünden, wäre es erheblich brauchbarer.

108

Horizontales Eiszapfendiagramm

X X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X X X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X XX X X X

Fall57 18 41 33 31 11 53 27 23 50 32 12 10 36 37 16 58 62 45 49 19 64 22 6 35 3 52 46 15 25 13 20 14 47 38 56 28 24 4 21 5 60 29 1

1 2 3 4Anzahl der Cluster

Nachdem man die Clusteranalyse durchgeführt hat, ist es – wie oben schon angedeutet - sinnvoll, für die Analyse der Cluster wie folgt zu verfahren: Man nehme die Clusterzugehörigkeit als Variable und vergleiche die Mittelwerte der Cluster auf interessierenden Variablen graphisch und mittels

Cluster Nr. 3

Cluster Nr. 2

Cluster Nr. 4

Cluster Nr. 1

109

Varianzanalyse. Außerdem lohnt es sich, festzustellen, welche Variablen innerhalb der Cluster hoch miteinander korrelieren. 5.5. Ein weiteres Beispiel für eine hierarchische Clusteranalyse aus Diehl und Staufenbiel S 522 Fünf Personen geben ihren Fernsehkonsum in den Bereichen Politik und Unterhaltung in Stunden pro Tag an. Daten: Zusammenfassung von Fällen(a) Person Politik Unterhaltung 1 1,00 1,00 1,002 2,00 1,00 2,003 3,00 8,00 2,004 4,00 6,00 3,005 5,00 8,00 ,00Insgesamt N 5 5 5

Die Syntax lautet: CLUSTER Politik Unterhaltung /METHOD SINGLE /MEASURE= EUCLID /PRINT SCHEDULE /PRINT DISTANCE /PLOT DENDROGRAM VICICLE. Der Output ist:

110

Cluster Verarbeitete Fällea

5 100,0 0 ,0 5 100,0N Prozent N Prozent N Prozent

Gültig Fehlend GesamtFälle

Single Linkagea.

Näherungsmatrix

,000 1,000 7,071 5,385 7,0711,000 ,000 7,000 5,099 7,2807,071 7,000 ,000 2,236 2,0005,385 5,099 2,236 ,000 3,6067,071 7,280 2,000 3,606 ,000

Fall12345

1 2 3 4 5 Euklidisches Distanzmaß

Dies ist eine Unähnlichkeitsmatrix Single Linkage

Zuordnungsübersicht

1 2 1,000 0 0 43 5 2,000 0 0 33 4 2,236 2 0 41 3 5,099 1 3 0

Schritt1234

Cluster 1 Cluster 2

ZusammengeführteCluster

Koeffizienten Cluster 1 Cluster 2

Erstes Vorkommendes Clusters Nächster

Schritt

Vertikales Eiszapfendiagramm

X X X X X X X X XX X X X X X X XX X X X X X XX X X X X X

Anzahl der Cluster1234

4 5 3 2 1

Fall

Dendrogramm * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

111

Dendrogram using Single Linkage Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 1

2 3 5

4 Man kann erkennen, bei welcher Distanz die jeweils höheren Cluster gebildet wurden. 5.6. Ein weiteres Beispiel für eine hierarchische Clusteranalyse aus Diehl und Staufenbiel S. 524 Mit einem Datensatz von Mezzich und Worthington (Datei MEZZICH.SAV) wird eine Clusteranalyse durchgeführt. Der Datensatz enthält Beschreibungen von vier prototypischen Patienten auf 17 Merkmalen durch 11 Psychiater. die Prototypen sind: Zyklotomie: Depresssion Zyklotomie: Manie Einfache Schizophrenie Parnoide Schizophrenie. Mezzich & Worthington (1978) baten nun 11 Psychiater, sich jeweils einen typischen depressiven, einen manischen, einen schizophrenen und einen paranoiden Patienten vorzustellen und diese prototypischen Patienten hinsichtlich von 17 Symptomen auf einer 7-stufigen Skala von 0 = Symptom nicht vorhanden bis 6 = Symptom sehr stark ausgeprägt einzustufen. Die 17 Symptome sind (mit ihren Variablennamen in der Datei MEZZICH. SAV): A = Krankheitsbefürchtungen (BEFUER), B = Angst (ANGST), C = Emotionale Zurückgezogenheit (ZURUECK), D = Formale Denkstörungen (FORDENK), E = Schuldgefühle (SCHULD), F = Anspannung (ANSPAN), G = Manieriert-heit (MANIER), H = Größenideen (GROESSEN), I = Depressive Verstimmung (DEPRESS), J = Feindseligkeit (FEINDSEL), K = Misstrauen (MISSTRAU), L = Halluzinationen (HALLUZ), M = Psychomotorische Hemmung (HEMM), N = Autistisches Verhalten (AUTIST), 0 = Inhaltliche Denkstörungen (INDENK), P= Affektive Verflachung (VERFLACH), Q = Erregtheit (ERREGT). Mittels Clusteranalyse soll untersucht werden, ob sich die vier prototypischen Patienten an Hand der Merkmalseinstufungen der Psychiater als homogene Gruppen identifizieren lassen. Anzugeben sind in der Eingangs-Dialogbox die Variable(n) BEFUER bis ER- REGT und unter Fallbeschriftung die String-Variable Patiententyp. Die Cluster- Methode (»Linkage zwischen den Gruppen«) wird ebenso wie die Unähnlichkei- ten (»quadrierter Euklidischer Abstand«) in der Voreinstellung belassen. Im Dialogfeld Diagramme wird das Dendrogramm angewählt und das Eiszapfendiagramm unterdrückt (Eiszapfen: Keine). Schließlich wird in der Box Statistik sowie im Dialogfeld Speichern jeweils die Ausgabe bzw. Speicherung der 4-Cluster Lösung durch die Angabe von »4« unter Einzelne Lösung veranlasst. Folgende Syntax resultiert:

112

CLUSTER Angst Zurück Fordenk Schuld Anspan Manier Groessen Depress Feindseel Misstrau Halluz Hemm Autist Indenk Verflach Erregt /METHOD BAVERAGE /MEASURE= SEUCLID /ID=Patiententyp /PRINT SCHEDULE CLUSTER(4) /PLOT DENDROGRAM /SAVE CLUSTER(4) . Unähnlichkeitsmaß ist – im Gegensatz zu Diehl – der quadrierte euklidische Abstand (Druckfehler dort). Der folgende Output resultiert:

Verarbeitete Fällea,b

44 100,0 0 ,0 44 100,0N Prozent N Prozent N Prozent

Gültig Fehlend GesamtFälle

Quadriertes euklidisches Distanzmaß wurde verwendeta.

Linkage zwischen den Gruppenb.

Zuordnungsübersicht

113

Zusammengeführte

Cluster Erstes Vorkommen des

Clusters

Schritt Cluster 1 Cluster 2 Koeffizienten Cluster 1 Cluster 2 Nächster

Schritt 1 13 20 8,000 0 0 38 2 34 43 9,000 0 0 8 3 40 41 10,000 0 0 11 4 23 30 10,000 0 0 18 5 17 22 11,000 0 0 14 6 1 6 11,000 0 0 24 7 18 19 12,000 0 0 19 8 34 39 12,500 2 0 23 9 27 31 13,000 0 0 39 10 24 33 14,000 0 0 18 11 38 40 18,000 0 3 23 12 14 15 18,000 0 0 21 13 2 8 19,000 0 0 24 14 12 17 19,500 0 5 19 15 42 44 20,000 0 0 25 16 28 32 20,000 0 0 27 17 35 37 21,000 0 0 37 18 23 24 24,000 4 10 20 19 12 18 24,667 14 7 21 20 23 29 27,000 18 0 35 21 12 14 27,000 19 12 32 22 9 11 27,000 0 0 29 23 34 38 27,111 8 11 25 24 1 2 28,500 6 13 30 25 34 42 30,500 23 15 28 26 7 10 32,000 0 0 29 27 25 28 33,000 0 16 31 28 34 36 36,500 25 0 34 29 7 9 36,500 26 22 36 30 1 5 41,500 24 0 33 31 25 26 43,000 27 0 35 32 12 16 45,000 21 0 38 33 1 4 46,600 30 0 36 34 21 34 47,444 0 28 37 35 23 25 48,250 20 31 39 36 1 7 58,250 33 29 40 37 21 35 60,300 34 17 41 38 12 13 60,625 32 1 41 39 23 27 72,389 35 9 42 40 1 3 78,600 36 0 42 41 12 21 96,017 38 37 43 42 1 23 112,405 40 39 43 43 1 12 196,376 42 41 0

Cluster-Zugehörigkeit

114

Fall

4 Cluster

1: 1,00 1 2: 1,00 1 3: 1,00 1 4: 1,00 1 5: 1,00 1 6: 1,00 1 7: 1,00 1 8: 1,00 1 9: 1,00 1 10: 1,00 1 11: 1,00 1 12: 2,00 2 13: 2,00 2 14: 2,00 2 15: 2,00 2 16: 2,00 2 17: 2,00 2 18: 2,00 2 19: 2,00 2 20: 2,00 2 21: 2,00 3 22: 2,00 2 23: 3,00 4 24: 3,00 4 25: 3,00 4 26: 3,00 4 27: 3,00 4 28: 3,00 4 29: 3,00 4 30: 3,00 4 31: 3,00 4 32: 3,00 4 33: 3,00 4 34: 4,00 3 35: 4,00 3 36: 4,00 3 37: 4,00 3 38: 4,00 3 39: 4,00 3 40: 4,00 3 41: 4,00 3 42: 4,00 3 43: 4,00 3 44: 4,00 3

115

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 2,00 13 2,00 20 2,00 14 2,00 15 2,00 18 2,00 19 2,00 17 2,00 22 2,00 12

2,00 16 4,00 35 4,00 37 4,00 42 4,00 44 4,00 34 4,00 43 4,00 39 4,00 40 4,00 41 4,00 38 4,00 36 2,00 21 3,00 27 3,00 31 3,00 23 3,00 30 3,00 24 3,00 33 3,00 29 3,00 28 3,00 32 3,00 25 3,00 26

1,00 9 1,00 11 1,00 7 1,00 10 1,00 1 1,00 6 1,00 2 1,00 8

116

1,00 5 1,00 4 1,00 3 Patiententyp * Average Linkage (Between Groups) Kreuztabelle Anzahl

Average Linkage (Between Groups) 1 2 3 4 Gesamt

1,00 11 0 0 0 11 2,00 0 10 1 0 11 3,00 0 0 0 11 11

Patiententyp

4,00 0 0 11 0 11 Gesamt 11 10 12 11 44

5.7. Ein weiteres Beispiel für Clusteranalysen: Die Hundehalterstudie Die Interpretation dieser Ergebnisse ist nur möglich, wenn Sie die unten vorgestellte Hundehalterstudie zuerst zur Kenntnis nehmen. Versuchen Sie, danach die folgenden Ergebnisse zu deuten. Wir laden den File: HundehalterDatenbereinigt.sav Syntax: TWOSTEP CLUSTER /CATEGORICAL VARIABLES = geschhal grupneu alterrec /CONTINUOUS VARIABLES = praefhun praefman dominanz präfhobb präfreis /DISTANCE LIKELIHOOD /NUMCLUSTERS FIXED = 4 /HANDLENOISE 0 /MEMALLOCATE 64 /CRITERIA INITHRESHOLD (0) MXBRANCH (8) MXLEVEL (3) /PLOT BARFREQ PIEFREQ /PRINT COUNT SUMMARY /SAVE VARIABLE=TSC_1933 . AIM TSC_1933 /CATEGORICAL geschhal grupneu alterrec /CONTINUOUS praefhun praefman dominanz präfhobb präfreis /PLOT ERRORBAR CATEGORY CLUSTER (TYPE=PIE) . Output: TwoStep Cluster

117

Clusterverteilung

170 17,6% 17,1%223 23,1% 22,5%325 33,6% 32,8%249 25,7% 25,1%967 100,0% 97,5%

25 2,5%992 100,0%

1234Kombiniert

Cluster

Ausgeschlossene FälleGesamtwert

N% der

Kombination

% derGesamts

umme

Clusterprofile

Zentroide

-,07455 ,01300 ,53245 -,65282 ,00075

,840548 ,992091 ,563641 1,161684 1,004520

-,09798 -,05921 ,05309 ,09197 ,01065

,939149 1,088167 1,041997 ,892339 1,000267

-,15069 -,05138 ,29087 -,23962 -,00228

,928289 1,024383 ,961284 1,034644 1,012196

-,38172 -,10817 ,33674 -,19812 -,02989

,933213 1,119665 1,144538 ,939080 1,087177

-,15588 ,29067 -,25777 ,18446 ,00049

1,020029 ,970963 ,996285 ,924244 1,002903

MittelwertStandardabweichungMittelwertStandardabweichungMittelwertStandardabweichungMittelwertStandardabweichungMittelwertStandardabweichung

Präferenz fürHunde

Präferenz fürMenschen

Dominanz

Präferenz fürHobbies imClub

Präferenz fürReisen

1 2 3 4 KombiniertCluster

Häufigkeiten

Geschl. d. Befragten

92 15,6% 78 20,7%122 20,7% 101 26,8%236 40,0% 89 23,6%140 23,7% 109 28,9%590 100,0% 377 100,0%

1234Kombiniert

ClusterHäufigkeit Prozent Häufigkeit Prozent

weiblich männlich

118

grupneu

0 143 0 249 392,0% 36,5% ,0% 63,5% 100,0%170 5 0 0 175

97,1% 2,9% ,0% ,0% 100,0%

0 0 98 0 98,0% ,0% 100,0% ,0% 100,0%

0 0 83 0 83,0% ,0% 100,0% ,0% 100,0%

0 75 144 0 219,0% 34,2% 65,8% ,0% 100,0%

HäufigkeitProzentHäufigkeitProzent

HäufigkeitProzentHäufigkeitProzentHäufigkeitProzent

ohne Hund

Haupterhebung

Tierarztpraxis

Hundesportund -Politik

Naturwiss.Sammlungs-Besucher


alterrec

0 54 7 0 61,0% 88,5% 11,5% ,0% 100,0%

64 0 74 109 24725,9% ,0% 30,0% 44,1% 100,0%

50 0 147 140 33714,8% ,0% 43,6% 41,5% 100,0%

34 97 70 0 20116,9% 48,3% 34,8% ,0% 100,0%

20 62 24 0 10618,9% 58,5% 22,6% ,0% 100,0%

2 10 3 0 1513,3% 66,7% 20,0% ,0% 100,0%

HäufigkeitProzentHäufigkeitProzentHäufigkeitProzentHäufigkeitProzentHäufigkeitProzentHäufigkeitProzent

8,00

23,00

38,00

53,00

68,00

83,00


119

Nummer des TwoStep Clusters

1234

Clustergröße

120

Gesamt

4

3

2

1

Clu

ster

0 20 40 60 80

Prozent innerhalb Cluster


weiblichmännlich

Innerhalb Clusterprozentsatz Geschl. d. Befragten

121

Gesamt

4

3

2

1

Clu

ster

0 20 40 60 80 100


grupneuohne HundHaupterhebungTierarztpraxisHundesport und -PolitikNaturwiss. Sammlungs-Besucher

Innerhalb Clusterprozentsatz grupneu

122

Gesamt

4

3

2

1

Clu

ster

0 10 20 30 40 50 60


alterrec8,0023,0038,0053,0068,0083,00

Innerhalb Clusterprozentsatz alterrec

123

1 2 3 4

Cluster

-1,000

-0,500

0,000

0,500

Präf

eren

z fü

r Hun

de

Bezugslinie entspricht dem Gesamtmittelwert = ,001

Gleichzeitig 95% Konfidenzintervalle für Mittelwerte

124

1 2 3 4

Cluster

-0,300

-0,200

-0,100

0,000

0,100

0,200

0,300

Präf

eren

z fü

r Men

sche

n



125

1 2 3 4

Cluster

-0,400

-0,200

0,000

0,200

0,400

Dom

inan

z

Bezugslinie entspricht dem Gesamtmittelwert = -,002


126

1 2 3 4

Cluster

-0,600

-0,400

-0,200

0,000

0,200

0,400

0,600

Präf

eren

z fü

r Hob

bies

im C

lub

Bezugslinie entspricht dem Gesamtmittelwert = -,030


127

1 2 3 4

Cluster

-0,400

-0,200

0,000

0,200

0,400

0,600

Präf

eren

z fü

r Rei

sen



128

Kapitel 6 Chiquadrat - Verfahren Vergleich von Häufigkeitsverteilungen und Überprüfung ihrer Übereinstimmung mittels Chiquadrat-Techniken und anderer Verfahren. 6.1. Chiquadrat-Test

6.1.1 Allgemeines Ausgehend von der sogenannten „Pearsonschen Testfunktion",

( ) ( )∑∑==

−=

−=

r

i e

ebr

ii

ii

fff

npnpy

Chi11

2

2 ²

die für große n näherungsweise chiquadrat-verteilt ist, können verschiedene Anpassungstests formuliert werden, also Tests, die die Gestalt der Verteilungsfunktion einer Zufallsvariable betreffen und nicht den einen oder anderen Parameter der Zufallsvariable. In der o.a. Funktion bedeuten yi = Zufallsvariable, Anzahl von Versuchen (z.B. Würfeln), bei denen das Ereignis A eintritt (z.B. die Zahl 4). yi entspricht der beobachteten Häufigkeit eines Ereignisses fb. pi = ist die Eintrittswahrscheinlichkeit für das Ereignis Ai. n = Menge der Versuche in einem Experiment. r = Menge verschiedener möglicher Ereignisse Ai np = fe = erwartete Häufigkeit eines Ereignisses A Für konkrete Versuche berechnen wir zunächst für jedes Ereignis den Erwartungswert aus n * pi. Dies sind die „erwarteten Häufigkeiten". Diese subtrahieren wir von den beobachteten Häufigkeiten, die für konkrete Untersuchungen an die Stelle der yi in der o.a. Formel treten. Wir quadrieren die Differenz (yi - npi)2 und dividieren diese durch (n * pi), so daß wir schließlich aus den Chiquadratwerten der Einzelereignisse die Summe bilden können. Diese Summe ist der Wert der Testfunktion, den wir wiederum mit einem Kriteriumswert zu vergleichen haben, wenn wir über die Annahme oder Ablehnung einer Nullhypothese entscheiden.

6.1.2. Eindimensionales und zweidimensionales Chiquadrat-Design Wie können wir bei Chiquadratverfahren die Nullhypothese formulieren ? Hierzu gibt es zwei Möglichkeiten: Für eine monovariate (eindimensionale) Häufigkeitsverteilung:

VariabledieH ⇒0 y ist (gleichverteilt, normalverteilt etc.) in der Grundgesamtheit

VariabledieH ⇒1 y ist nicht (gleichverteilt, normalverteilt etc.) in der Grundgesamtheit

129

Für eine kombinierte (zweidimensionale) Häufigkeitsverteilung der Variablen v und w:

vwVariablendieH ⇒0 sind gleichverteilt in der Grundgesamtheit

vwVariablendieH ⇒1 sind nicht gleichverteilt in der Grundgesamtheit oder

vwVariablendieH ⇒0 sind „randverteilt“ in der Grundgesamtheit

vwVariablendieH ⇒1 sind nicht „randverteilt“ in der Grundgesamtheit Bei Gleichverteilung sind die Erwartungswerte für jede Häufigkeit der Verteilung gleich groß. Bei „Randverteilung“ unterscheiden sich die Erwartungswerte der verschiedenen kombinierten Häufigkeiten. Sie werden aus den Randsummen einer n*m-Tabelle ermittelt, und zwar so, daß pro Häufigkeit der folgende Ausdruck berechnet wird:

Erwartungswert pro Zelle = (Zeilensumme * Spaltensumme) /Tabellensumme Wie bestimmen wir jetzt die Freiheitsgrade jener Chiquadratfunktion, aus der wir unser Kriterium für die Entscheidung über die Nullhypothese gewinnen ? Hier sind die folgenden zwei Fälle zu unterscheiden: • Bei monovariaten Häufigkeitsverteilungen wird der Kriteriumswert für die Entscheidung über die

Nullhypothese aus einer Chiquadratverteilung mit k-1 Freiheitsgraden gewonnen, wobei k die Menge der Kategorien ist, in die die Variable eingeteilt ist.

• Bei bivariaten Häufigkeitsverteilungen, die auch in Tabellenform dargestellt werden können, wird der

Kriteriumswert für die Entscheidung über die Nullhypothese aus einer Chiquadratverteilung mit (r-1)*(c-1) Freiheitsgraden gewonnen, wobei r die Menge der Zeilen einer solchen Tabelle ist, c die Menge der Spalten.

6.1.2.1. Rechenbeispiele: 6.1.2.1.1 „Eindimensionales Chiquadrat“ Es wird 1026 mal gewürfelt. Die Nullhypothese ist: Die Augenzahl ist gleichverteilt. Erwartet werden daher für die verschiedenen Augenzahlen jeweils n/k = 1026/6 = 171-maliges Auftreten. Die untenstehende Tabelle enthält neben den tatsächlich aufgetretenen Häufigkeiten der verschiedenen Augen noch die erwarteten Häufigkeiten und deren Differenz zu den erwarteten Häufigkeiten (Residuen). Setzt man jetzt die Werte in die Testfunktionsformel ein, dann erhält man die unten abgedruckte Chiquadratsumme. Diese beträgt 10,76 und muß mit einem Kriteriumswert verglichen werden, der aus einer Chiquadratverteilung mit k-1 = 6-1= 5 Freiheitsgraden gewonnen wird. Führen wir eine einseitigen Chiquadrattest mit einer Irrtumswahrscheinlichkeit von 5 %, dann ist c, der Kriteriumswert, gleich 11,7.

AUGEN

192 171,0 21,0178 171,0 7,0142 171,0 -29,0158 171,0 -13,0189 171,0 18,0167 171,0 -4,0

1026

1,002,003,004,005,006,00Gesamt

BeobachtetesN

ErwarteteAnzahl Residuum

130

Statistik für Test

10,7605

,056

Chi-Quadrata

dfExakte Signifikanz

AUGEN

Bei 0 Zellen (,0%) werden weniger als5 Häufigkeiten erwartet. Die kleinsteerwartete Zellenhäufigkeit ist 171,0.

a.

Da das berechnete Chiquadrat kleiner ist als der Kriteriumswert für 5% Irrtumswahrscheinlichkeit bei fünf Freiheitsgraden, behalten wir die Nullhypothese bei. Die Angabe der „exakten Signifikanz“ in der o.a. Tabelle entspricht der Größe des Integrals in einer Chiquadratverteilung mit fünf Freiheitsgraden von 10,76 bis unendlich. 6.1.2.2.2.„Zweidimensionales Chiquadrat“ In einer Untersuchung über die Einstellung von Menschen zu Hunden werden zwei Vorgaben gemacht: (a) Mein Hund soll schön und auffallend sein. Item-Stufen: Keinesfalls, eher nicht, vielleicht doch, eher ja. (b) Wenn ein Hund seine Aufgaben nicht erfüllt, sollte man sich einen anderen Hund anschaffen. Item-Stufen: Keinesfalls, eher nicht, vielleicht doch, eher ja. Die wissenschaftliche Hypothese, die zu dieser kombinierten Auszählung (Bildung einer sogenannten Kreuztabelle) Anlaß gibt, lautet: Menschen, denen es vor allem auf das schöne Aussehen eines Hundes ankommt, sind eher bereit, den Hund abzuschaffen, wenn er seine Aufgaben nicht erfüllt, als Menschen, denen es nicht so sehr auf die Schönheit ankommt. Aus dieser wissenschaftlichen Hypothese wird die statistische Hypothese entwickelt:

vwVariablendieH ⇒0 sind „randverteilt“ in der Grundgesamtheit

vwVariablendieH ⇒1 sind nicht „randverteilt“ in der Grundgesamtheit Was heißt nun „randverteilt“? Randverteilung liegt vor, wenn alle Zellen-Häufigkeiten (in allen Zeilen und allen Spalten) im gleichen Verhältnis stehen wie die Randsummen der Tabelle. Ist dies der Fall, dann unterscheiden sich beobachtete und erwartete Häufigkeiten nicht. Es gibt dann keine Häufigkeiten, die auf Unter- oder Überrepräsentation bestimmter Wertekombinationen hindeuten. Sind die Zellenhäufigkeiten aber anders verteilt (in bestimmten Zeilen oder Spalten) als die entsprechenden Randsummen, dann liegen in diesen Zellen Über- oder Unterrepräsentationen von Wertekombinationen vor, die auf einen statistischen Zusammenhang zweier Variablen hindeuten. Für das oben aufgeführte Beispiel müßten also Menschen, die auf einen schönen Hund Wert legen, signifikant häufiger als andere Menschen bereit sein, sich einen anderen Hund anzuschaffen, wenn ihr derzeitiger Hund seine Aufgaben nicht erfüllt. Hier nun die empirischen Ergebnisse aus einer Untersuchung des Autors:

131

Mein Hund soll schön und auffallend sein / Wenn der Hund seine Aufgaben nicht erfüllt: Anderenanschaffen

86 20 6 10 12271,6 27,3 11,1 12,0 122,014,4 -7,3 -5,1 -2,0120 51 10 15 196

115,1 43,8 17,8 19,3 196,04,9 7,2 -7,8 -4,374 33 18 13 138

81,0 30,8 12,5 13,6 138,0

-7,0 2,2 5,5 -,6

30 14 14 14 7242,3 16,1 6,5 7,1 72,0

-12,3 -2,1 7,5 6,9310 118 48 52 528

310,0 118,0 48,0 52,0 528,0

AnzahlErwartete AnzahlResiduenAnzahlErwartete AnzahlResiduenAnzahlErwartete AnzahlResiduen

AnzahlErwartete AnzahlResiduenAnzahlErwartete Anzahl

keines-falls

ehernicht

vielleichtdoch

eher ja

SchönerHund

Gesamt

keinesfalls eher nicht

vielleichtdoch eher ja

Anderen anschaffen

Gesamt

Chi-Quadrat-Tests

35,491a

9

528

Chi-Quadrat nachPearsonAnzahl der gültigen Fälle

Wert df

0 Zellen (,0%) haben eine erwartete Häufigkeitkleiner 5. Die minimale erwartete Häufigkeit ist 6,55.

a.

Die obige Kreuztabelle enthält in ihren Zellen die beobachteten Häufigkeiten, die erwarteten Häufigkeiten und deren Differenz, die sog. Residuen. Würden alle beobachteten Häufigkeiten randverteilt sein, würden sie den erwarteten entsprechen und die Residuen wären gleich null. Weichen die beobachteten Häufigkeiten positiv von den erwarteten ab, dann liegt eine Überrepräsentation der entsprechenden Wertekombination vor, weichen die beobachteten Häufigkeiten negativ von den erwarteten ab, dann liegt eine Unterrepräsentation der entsprechenden Wertekombination vor. Wie eine Inspektion der Tabelle zeigt, sind vor allem die Zellen der sogenannten Hauptdiagonale (von oben links nach unten rechts) mit Häufigkeiten versehen, die auf Überrepräsentation hindeuten, Zellen die oben rechts und unten links von der Hauptdiagonale liegen, weisen eher Unterrepräsentationen auf. Dieses Phänomen kann zufällig auftreten oder auf einen statistischen Zusammenhang hindeuten. Ob ein solcher Zusammenhang angenommen werden kann, hängt davon ab, ob unsere Nullhypothese („Randverteilung“) beibehalten werden kann oder ob sie abgelehnt werden muß. Das Kriterium hierzu gewinnen wir aus einer Chiquadratverteilung mit (r-1)(c-1) Freiheitsgraden. Bei 4 Zeilen (r) und 4 Spalten (c) ist df (Menge der Freiheitsgrade) gleich 3*3= 9. Testen wir unsere Hypothese einseitig bei 1 % Irrtumswahrscheinlichkeit wäre unser Kriteriums-Chiquadrat-Wert gleich 21,67. Aus der Tabelle berechnen wir nach der Formel

eine Chiquadratsumme für die ganze Tabelle von 35,491. Da unser Kriteriums-Chiquadrat (21,67) kleiner als das berechnete ist, lehnen wir bei einseitigem Test mit 1 % Irrtumswahrscheinlichkeit die Nullhypothese ab. Dies heißt zunächst nur, daß unsere Stichprobe nicht zufällig einer Grundgesamtheit entnommen worden sein kann, in der die Zellenverteilungen sich nach den Randsummenverteilungen richten. Es müssen also Über- und Unterrepräsentationen in der Tabelle vorkommen. Welche sind das ? Dadurch, daß die positiven Residuen

( )∑=

−=

r

i e

eb

fffChi

1

2 ²

132

(Überrepräsentationen) überwiegend auf der Hauptdiagonale liegen, kommen wir zu dem Schluß, daß die wachsende Priorität für die Schönheit des Hundes mit einer wachsenden Bereitschaft einhergeht, ihn gegebenenfalls zu ersetzen. Generell kann nun gesagt werden: Es läßt sich für alle Chi2-Verteilungen (entweder mit k-1 Freiheitsgraden oder mit (r-1)*(c-1) Freiheitsgraden) jener kritische Wert c bestimmen, der ein Integral der entsprechenden Chi2-Verteilung rechts begrenzt, welches einer bestimmten Irrtumswahrscheinlichkeit α entspricht. Liegt unser berechnetes Chi2 oberhalb dieses kritischen Wertes, dann müssen wir die Null-Hypothese ablehnen. Sonderfall: Für den eindimensionalen Test von Übereinstimmung einer Verteilung mit einer von unbekannten Parametern (z.B. von µ und σ) abhängigen Funktion (z.B. der Normalverteilung) verringert sich die Menge der Freiheitsgrade, die sonst df = r-1 ist, um die Menge der Parameter m, so daß für diesen Fall df = r - 1 - m beträgt. Testen wir also die Übereinstimmung mit einer Normalverteilung, dann müssen wir für die Berechnung der pi und der fi Meßwertklassen bilden; die Freiheitsgrade für den Test wären dann hiernach gleich „Menge der Meßwertklassen minus 3". (vgl. Bosch, a.a.O., S. 103 ff., hierzu siehe S. 108).

6.1.3. Standardisierte, korrigierte Chiquadratresiduen Will man bei einem zweidimensionalen Chiquadrat-Test den Beitrag einzelner Zellen zum Tabellen-Chiquadrat ermitteln, dann bieten sich hierzu mehrere Möglichkeiten an: Beispiel: Die Differenz von beobachteter Häufigkeit und erwarteter Häufigkeit ergibt die Residuen. Sind diese groß, dann ist der Beitrag der Zelle zum Tabellen-Chiquadrat groß. Diese Chiquadrat-Residuen kann man „standardisieren“, indem man sie durch die Wurzel aus den erwarteten Häufigkeiten teilt. Auch hier ist der Beitrag zum Tabellen-Chiquadrat erkennbar. Die standardisierten Residuen kann man durch eine weitere Operation in die sogenannten „korrigierten“ standardisierten Residuen verwandeln:

Es bedeuten: Z = Zeilensumme für die jeweilige Zelle S = Spaltensumme für die jeweilige Zelle n = Stichprobengröße (Tabellensumme). Diese korrigierten, standardisierten Residuen sind z-verteilt, d.h. man kann aus ihnen ablesen, ob der Beitrag einer Zelle zum Tabellen-Chiquadrat „signifikant“ ist. Das Auftreten von z-Werten oberhalb bestimmter Schwellenwerte ist umso weniger wahrscheinlich, je größer diese Schwellenwerte sind. Sinkt diese Wahrscheinlichkeit unter bestimmte kritische Werte ab, z. B. auf 1 % oder 0,1%, dann kann man dem entsprechenden z bzw. dem standardisierten, korrigierten Chiquadrat-Residuum schon die Eigenschaft zusprechen, eine „signifikante“ Über- oder „Unterrepräsentation“ der jeweiligen Kombination von Werten für eine bestimmte Zelle in einer Kreuztabelle zu signalisieren. So kann man sowohl über die Signifikanz der Beziehung zwischen den Variablen in der Tabelle als auch über die Bedeutung der einzelnen Zellen hierbei eine Aussage machen.

133

Versuchen Sie, dies anhand der folgenden Daten nachzuvollziehen: Die Daten entstammen einer Befragung von Hundehaltern, die entscheiden sollten, ob ihr Hund eher Wach- und Schutzhund sein sollte oder nicht. Auffällig sind beispielsweise die standardisierten, korrigierten Chiquadratresiduen bei der Ausprägung „Auf jeden Fall“. Sie liegen bei – 4,3 (für die Frauen) und + 4,3 (für die Männer). Die Wahrscheinlichkeit, daß oberhalb von z-Werten von 4,3 noch weitere z-Werte auftreten, ist mit p = 0,0000008540 annähernd Null. Analog wäre das Auftreten von standardisierten, korrigierten Chiquadratresiduen oberhalb von 4,2 ähnlich wenig wahrscheinlich. Wir deuten daher solche Werte als Zeichen für signifikante Über- oder Unterrepräsentation der entsprechenden Kombination von Ausprägungen in der Tabelle:

Verarbeitete Fälle

961 96,9% 31 3,1% 992 100,0%Geschl. d. Befragten *Mein H. soll Wach-und Schutzhund sein

N Prozent N Prozent N ProzentGültig Fehlend Gesamt

Fälle

Geschlecht der Befragten * Mein H. soll Wach- und Schutzhund sein, Kreuztabelle

72 212 143 114 40 58170,1 188,6 149,9 112,5 59,9 581,0

,2 1,7 -,6 ,1 -2,6,4 3,3 -1,0 ,3 -4,3

44 100 105 72 59 38045,9 123,4 98,1 73,5 39,1 380,0

-,3 -2,1 ,7 -,2 3,2-,4 -3,3 1,0 -,3 4,3

116 312 248 186 99 961116,0 312,0 248,0 186,0 99,0 961,0

AnzahlErwartete AnzahlStandardisierte ResiduKorrigierte ResiduenAnzahlErwartete AnzahlStandardisierte ResiduKorrigierte ResiduenAnzahlErwartete Anzahl

weiblich

männlich

Geschl. d.Befragten

Gesamt

Auf keinenFall Eher nicht Teils-teils eher ja Auf jeden Fall

Mein H. soll Wach- und Schutzhund sein

Gesamt

Chi-Quadrat-Tests

24,968a

4 ,000

1 ,000961

Chi-Quadrat nachPearson

Anzahl der gültigen Fälle

Wert df

Asymptotische Signifikanz

(2-seitig)

0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Dieminimale erwartete Häufigkeit ist 39,15.

a.

134

Symmetrische Maße

,161 ,000961

Cramer-VNominal-MaßAnzahl der gültigen Fälle

Wert

Näherungsweise

Signifikanz

Die Null-Hyphothese wird nicht angenommen.a.

Unter Annahme der Null-Hyphothese wird der asymptotischeStandardfehler verwendet.

b.

6.1.4 Zwei nominal skalierte Merkmale: Zusammenhangsmessung 6.1.4.1. Cramérs V Für den Fall nominal skalierter Merkmale ist die Möglichkeit nicht mehr gegeben, zwischen einer gleichsinnigen oder ungleichsinnigen Veränderung der Variablen y bei Veränderung der Variablen x zu unterscheiden, sondern nur noch die Möglichkeit, zu messen, wie stark die beobachteten Werte von erwarteten Werten abweichen. Genau dies haben wir beim zweidimensionalen Chiquadrat-Test getan. Ist diese Abweichung groß, dann wird das Bestehen eines Zusammenhangs vermutet. Was dies bedeutet, kann an folgendem Beispiel demonstriert werden: Wir benutzen wiederum das oben zum Chiquadrat-Test angeführte Beispiel:

Mein Hund soll schön und auffallend sein / Wenn der Hund seine Aufgaben nicht erfüllt: Anderenanschaffen

86 20 6 10 12271,6 27,3 11,1 12,0 122,014,4 -7,3 -5,1 -2,0120 51 10 15 196

115,1 43,8 17,8 19,3 196,04,9 7,2 -7,8 -4,374 33 18 13 138

81,0 30,8 12,5 13,6 138,0

-7,0 2,2 5,5 -,6

30 14 14 14 7242,3 16,1 6,5 7,1 72,0

-12,3 -2,1 7,5 6,9310 118 48 52 528

310,0 118,0 48,0 52,0 528,0

AnzahlErwartete AnzahlResiduenAnzahlErwartete AnzahlResiduenAnzahlErwartete AnzahlResiduen

AnzahlErwartete AnzahlResiduenAnzahlErwartete Anzahl

keines-falls

ehernicht

vielleichtdoch

eher ja

SchönerHund

Gesamt

keinesfalls eher nicht

vielleichtdoch eher ja

Anderen anschaffen

Gesamt

135

Chi-Quadrat-Tests

35,491a

9

528


Wert df

0 Zellen (,0%) haben eine erwartete Häufigkeitkleiner 5. Die minimale erwartete Häufigkeit ist 6,55.

a.

Hier gilt es nur noch, ein Maß der Stärke des Zusammenhangs nachzureichen. Die Stärke des Zusammenhangs wird durch folgenden Koeffizienten gemessen, der nur zwischen 0 und 1 definiert ist, nicht zwischen –1 und +1:

( ) ( )( )1;1

2

−−=

crMinnV

χ

Dieser Koeffizient, Cramérs V, hat im Zähler das oben berechnete χ2, im Nenner das Produkt aus n (der Tabellensumme) und dem kleineren von zwei Werten (das bedeutet „Min"): der Menge der Zeilen minus 1 (=r-1); unsere obige Tabelle hat 4 Zeilen; oder der Menge der Spalten minus 1 (=c-1); unsere obige Tabelle hat 4 Spalten. Da unsere Tabelle gleich viele Zeilen und Spalten hat, ist r-1 = c-1 = 3. Für unser konkretes Beispiel errechnen wir

( ) 149,014*528

419,35=

−=V

Die Definition des Nenners stellt sicher, daß V den Wert 1 auch dann erreichen kann, wenn keine quadratische Matrix vorliegt. Im vorliegenden Fall haben wir es mit einem schwachen Zusammenhang zu tun, der aber – weil die Nullhypothese im Chiquadrat-Test abgelehnt wurde, als statistisch auf dem 1%-Niveau der Irrtumswahrscheinlichkeit gesichert gilt.

6.1.4.2 Phi und korrigiertes Chiquadrat Die Messung von Zusammenhängen zwischen nominal skalierten Merkmalen durch Cramers V bezog sich auf den Fall von Tabellen beliebig großen Formats. Sinkt das Tabellenformat auf 2 x 2 ab, dann sinkt der Freiheitsgrad von χ2 auf 1. In diesem Fall wirkt sich die Tatsache, daß bei der oben gezeigten Berechnungsmethode für Erwartungswerte auch Brüche vorkommen können, in der Realität aber nur ganze Zahlen als absolute Häufigkeiten denkbar sind, verfälschend auf den Wert von χ2 aus. Weiterhin gibt es für Vierfeldertabellen ein vereinfachtes Verfahren der Berechnung des statistischen Zusammenhangs, d.h. es brauchen nicht mehr einzelne Erwartungswerte etc. ermittelt zu werden, sondern nur noch der folgende Ausdruck (Phi):

( )( )( )( )dbcadcbabcad

++++−

=Φ

Das zur Kontinuitätskorrektur nach Yates modifizierte Chiquadrat errechnet man für Vierfeldertafeln nach

[ ]( )( )( )( )dbcadcba

nbcad n

y ++++−−

=2

22χ

136

Die Buchstaben a, b, c und d in diesen Formeln bedeuten absolute Häufigkeiten in den Zellen einer quadratischen Tabelle mit 4 Feldern: a b c d "a" ist also immer die Häufigkeit „links oben", „d" die Häufigkeit „rechts unten" etc. Rechenbeispiel: In einer Untersuchung über die geschlechtsspezifischen Einstellungen zur Nutzung der Atomkraft verteilten sich die Aussagen für bzw. gegen ein sofortiges Abschalten aller Atomkraftwerke wie folgt: für sofortiges Abschalten Frauen Männer Summe der AKW 7 4 11 gegen sofortiges 5 9 14 Abschalten der AKW Summe 12 13 25 Setzt man die Werte in die Formel für Φ ein, ergibt sich:

( )( )( )( )28,0

945795475*49*7

=++++

−=Φ

Prüft man die Nullhypothese, daß die Häufigkeiten „randverteilt“ sind bei 1 % Irrtumswahrscheinlichkeit einseitig, dann müßte man dies an einer Chiquadratverteilung mit einem Freiheitsgrad tun. Der Kriteriumswert betrüge dann 6,63. Da das berechnete Chiquadrat nur 0,968 beträgt, behalten wir die Nullhypothese bei, d.h. wir rechnen nicht mit einem Zusammenhang von Geschlecht und Einstellung zur Nutzung der Atomkraft. Der Statistiker Cole schlägt noch eine Korrektur von Phi vor, weil Phi den Maximalwert 1 nur annehmen kann, wenn die Felder einer Diagonale leer sind. Um eine Unterschätzung des Zusammenhangs zu vermeiden, schlägt er vor, Phi nach verschiedenen Formeln zu berechnen, je nachdem, ob der Zähler ein positives oder negatives Vorzeichen hat. Einzelheiten referieren Clauß und Ebner (Grundlagen der Statistik für Psychologen, Pädagogen und Soziologen, 2. Auflage 1975, S. 285).

6.1.5. Einschränkungen der Chiquadrat-Tests für Cramers V und Phi Es sei hier noch nachgetragen, daß bei Tabellen mit im Durchschnitt weniger als 5 Elementen pro Zelle der Chiquadrattest problematisch wird, weil die Chiquadratverteilung große n voraussetzt. In der Praxis wird man daher durch Modifikation von Tabellen (mittels Zusammenfassung von Kategorien oder Weglassen schlecht besetzter Kategorien) dafür Sorge tragen, daß nicht mehr als 20 % der Zellen Erwartungswerte von weniger als 5 haben. Allerdings ist in der Berichterstattung auf eine solche Prozedur hinzuweisen.

6.1.6. Fisher's exakter Test Für kleine n wird statt der Chiquadrat-Methoden „Fishers exakter Test" empfohlen, der allerdings nur den Vierfelder-Fall betrifft.

[ ]( )( )( )( ) 968,0

1312141125*5*49*7 2

225

2 =−−

=yχ

137

Eine Methode zur Analyse von Vierfeldertafeln in bezug auf die Frage, ob bestehende Zusammenhänge auch in der Grundgesamtheit vorhanden sind, bietet Fisher's „exakter" Test. Er gestattet es, die Wahrscheinlichkeiten für das Auftreten bestimmter Zellenbesetzungen zu berechnen, wenn die Randverteilungen gegeben sind. Für folgenden Fall

10

10

10 10 sind folgende Zellenbesetzungen denkbar: 0 10 1 9 2 8 3 7 4 6 10 0 9 1 8 2 7 3 6 4 5 5 6 4 7 3 8 2 9 1 5 5 4 6 83 7 2 8 1 9 10 0 0 10 Der Test berechnet für eine konkrete Verteilung, z.B. für die Verteilung 3 7 7 3 die Wahrscheinlichkeit ihres Eintretens nach Maßgabe der hypergeometrischen Verteilung mit der Formel

Formel: ( ) ( ) ( ) ( ) ( )x

p a a b c d a c b da b c d n

=+ + + +! ! ! !

! ! ! ! !

Hierbei sind a, b, c und d die Häufigkeiten einer Vierfeldertabelle a b c d p (a) x ist die Wahrscheinlichkeit, daß - bei gegebenen Randsummen - a den Wert x annimmt.

138

Für unser o.a. Beispiel können wir ermitteln: Punktwahrscheinlichkeiten aufsummierte Werte: p(a)0= 0,000005413 0,000005413 p(a)1= 0,000541254 0,001087921 p(a)2= 0,010960402 0,011507069 p(a)3= 0,077940635 0,089447703 p(a)4= 0,238693193 0,328140896 p(a)5= 0,343718198 0,6718591 p(a)6= 0,238693193 0,410552287 p(a)7= 0,077940635 0,988492922 p(a)8= 0,010960402 0,99453324 p(a)9= 0,000541254 0,999994578 p(a)10= 0,000005413 1,0000 Der Fisher Test summiert nun die Wahrscheinlichkeiten auf, die für ein konkretes a = x und alle möglichen kleineren a < x gelten. Diese Summe

( )i

x

p a i=

=0Σ

wird nun wie folgt interpretiert: Ist ihr Wert größer als ein Kriteriumswert (die zugelassene Wahrscheinlichkeit für die irrtümliche Ablehnung der Nullhypothese, daß in der Grundgesamtheit kein Zusammenhang besteht), wird die Nullhypothese angenommen. Der Fisher-Test wird als „einseitiger" Test interpretiert: er ist nur anwendbar auf die schwächstbesetzte Zelle einer Tabelle! Diese muß beim Test immer in der Position von a sein: a Modifikationen referiert Sidney Sigel, a.a.O., S. 101 ff. Die o.a. Berechnungen zeigen, daß der Fall 2 8 noch zur Ablehnung der Nullhypothese führt, 8 2 daß aber der Fall 3 7 schon zur Annahme der Nullhypothese führt. 7 3 Das gleiche Ergebnis ist aber auch näherungsweise mit Hilfe der Chiquadrattechnik zu erzielen, wenn man die Yates-Korrektur benutzt.

139

6.2. Beispiele in SPSS:

6.2.1.Eindimensionale Tests

6.2.1.1 Chiquadrat-Test auf Gleichverteilung Gegeben sei folgende Häufigkeitsverteilung:

Zigaretten

27 8,386 26,5

122 37,558 17,832 9,8

325 100,0

WestRothändleCamelErnte 23HBGesamt

GültigHäufigkeit

GültigeProzente

Wir können aus ihr folgenden Datensatz rekonstruieren: Zigarettenmarke Häufigkeit 1,00 27,00 2,00 86,00 3,00 122,00 4,00 58,00 5,00 32,00 Wir wollen prüfen, ob die Häufigkeit der gerauchten Zigaretten in bezug auf die Marken gleichverteilt ist. Aufgrund der Struktur unseres Datensatzes müssen wir die Variable Zigaretten gewichten. Dies geschieht wie folgt: Daten- Fälle gewichten, Häufigkeit als Gewichtungsvariable einsetzen.

Hieraus resultiert folgende Syntax: WEIGHT BY Häufigkeit .

140

Wir wählen dann in der Schaltfläche der nichtparametrischen Tests den Chiquadrat Test. Die Testvariable ist: Zigaretten. Für den Test auf Gleichverteilung lassen wir alle Kategorien „gleich“.

Die vollständige Syntax ist: WEIGHT BY Häufigkeit . NPAR TEST /CHISQUARE=Zigaretten /EXPECTED=EQUAL /MISSING ANALYSIS. Folgender Output resultiert: Chi-Quadrat-Test Häufigkeiten

Zigaretten

27 65,0 -38,086 65,0 21,0

122 65,0 57,058 65,0 -7,032 65,0 -33,0

325


BeobachtetesN


Statistik für Test

96,4924

,000

Chi-Quadrata

dfAsymptotische Signifikanz

Zigaretten


a.

141

Es kommt ein Chiquadrat-Wert zustande, der mit 96,492 erheblich größer ist als beispielsweise der kritische Chiquadratwert für eine Irrtumswahrscheinlichkeit von 0,1 % bei 4 Freiheitsgraden, der 18,467 beträgt. Wir können die Nullhypothese auf einem Niveau von 0,1 % ablehnen.

6.2.1.2 Chiquadrat-Test auf irreguläre Verteilung Wenn wir aus der Statistik der Zigarettenindustrie die Information hätten, daß in der Region, in der unsere Stichprobe gezogen wurde, folgende prozentuale Verteilung vorliegt, dann müßten wir dies beim Chiquadrat-Test berücksichtigen. Zigarettenmarke Anteil Erwartungs

wert = p * n West 10 % 32,5 Rothändle 30 % 97,5 Camel 35 % 113,75 Ernte 23 20 % 65 HB 5 % 16,25 Summe 100 % 325 Wir rufen für den Chiquadrat-Test die gleiche Schaltfläche auf, geben aber die o.a. Erwartungswerte an der entsprechenden Stelle ein:

Folgende Syntax resultiert hieraus, wenn wir noch den Gewichtungsbefehl voranstellen: Weight by Häufigkeit. NPAR TEST /CHISQUARE=Zigaretten /EXPECTED=32.5 97.5 113.75 65 16.25 /MISSING ANALYSIS.

142

Folgender Output ist das Ergebnis: Chi-Quadrat-Test Häufigkeiten

Zigaretten

27 32,5 -5,586 97,5 -11,5

122 113,8 8,358 65,0 -7,032 16,3 15,8

325


BeobachtetesN


Statistik für Test

18,9054

,001

Chi-Quadrata


Zigaretten


a.

Das Ergebnis ist bei df = 4 wiederum auf dem 0,1 % Niveau signifikant, aber der Chiquadratwert liegt schon wesentlich niedriger, da 18,905 > 18,467.

6.2.1.3.Chiquadrat-Test auf Übereinstimmung mit einer Normal-Verteilung 6.2.1.3.1. Ausführliches Verfahren Gegeben sei eine Häufigkeitsverteilung über einer mindestens intervallskalierten Variable: Wir stellen uns vor, es handele sich um die Ergebnisse einer Geschwindigkeitsmessung bei 50 km/h zulässige Höchstgeschwindigkeit bei 300 Fahrzeugen. Das Problem ist die Ermittlung der Erwartungswerte. Die Verteilung der erhobenen Variable „Speedred“habe folgende Gestalt:

143

Statistiken

Speedred300

055,520056,0000

56,003,13406

-,012

,141

-,266

,281

15,0047,0062,00

GültigFehlend

N

MittelwertMedianModusStandardabweichungSchiefeStandardfehler der Schiefe

KurtosisStandardfehler der Kurtosis

SpannweiteMinimumMaximum

Speedred

3 1,0 1,0 1,023 7,7 7,7 8,788 29,3 29,3 38,0

107 35,7 35,7 73,763 21,0 21,0 94,716 5,3 5,3 100,0

300 100,0 100,0

47,0050,0053,0056,0059,0062,00Gesamt

GültigHäufigkeit Prozent

GültigeProzente

KumulierteProzente

144

47,00 50,00 53,00 56,00 59,00 62,00

Speedred

0

20

40

60

80

100

120

Häu

figke

it

Speedred

Wir können diese Verteilung in SPSS reproduzieren, wenn wir als Variable Speedred mit den Klassenmitten als Meßwerten eingeben und als Gewichtungsvariable die Häufigkeiten verwenden: Weight by Häufigkeit. FREQUENCIES VARIABLES=Speedred /STATISTICS=STDDEV MEAN MEDIAN MODE SKEWNESS SESKEW KURTOSIS SEKURT /ORDER= ANALYSIS . Die Erwartungswerte resultieren auch hier aus p * n. Wir können p ermitteln, wenn wir in SPSS die oberen Klassengrenzen (Variable obereklg) ermitteln und sie als Variable berechnen: COMPUTE obereklg = Speedred + 1.5 . EXECUTE . Für diese können wir mittels folgender Syntax die Wahrscheinlichkeiten ermitteln, die bei gegebenem arithmetischem Mittel und gegebener Standardabweichung einer Normalverteilung aufkumuliert werden können. Daher übernehmen wir von oben oder ermitteln diese Kennwerte. Sie betragen: (s.o.) Mittel = 55,52 Standardabweichung= 3,13406

145

Die Syntax für die Ermittlung der aufkumulierten p an den Klassengrenzen ist: COMPUTE pklasseng = CDF.NORMAL(Klassengr,55.52,3.13406) . EXECUTE . Wir erhalten im Datensatz das Ergebnis der Berechnung als neue Variable pklasseng: Obereklg pKlasseng 45,50 ,00069 48,50 ,01255 51,50 ,09980 54,50 ,37242 57,50 ,73623 60,50 ,94397 63,50 ,99456 Um jetzt zu den Erwartungswerten zu gelangen, fertigen wir folgende Tabelle an: Mittels der folgenden Syntax produzieren wir im Datensatz die kumulierten Erwartungswerte, indem wir die pklasseng mit n (hier = 300) multiplizieren. COMPUTE kumerw = pklasseng * 300 . EXECUTE . Vorher setzen wir aber den Betrag der Wahrscheinlichkeit der obersten Klassengrenze auf 1, da ja die Normalverteilung keine Obergrenze hat, unsere Daten aber hier begrenzt sind. (Außerdem verzichten wir auf den p-Wert unterhalb der untersten Klassengrenze (45,5), da hier auch das Problem berücksichtigt werden muß, daß die Normalverteilung nach unten nicht begrenzt ist, aber unsere Daten durchaus). Klassenmitten (obere)

Klassengrenzen pKlassengrenzen kumulierte

Erwartunsgwerte „kumerw“

Erwartungswerte

47 48,50 ,01255 3,76 3,76 50 51,50 ,09980 29,94 26,18 53 54,50 ,37242 111,73 81,19 56 57,50 ,73623 220,87 109,14 59 60,50 ,94397 283,19 63,32 62 63,50 1,0000 300,00 16,81 300 Diese Erwartungswerte geben wir in die Schaltfläche von Chiquadrat ein:

146

Die Syntax lautet: Weight by häufigkeit. NPAR TEST /CHISQUARE=Speedred /EXPECTED=3.76 26.18 81.19 109.4 63.32 16.81 /MISSING ANALYSIS. Folgender Output resultiert, in dem wir erkennen, daß keine signifikante Abweichung von realisierter und erwarteter Verteilung existiert:

Speedred

3 3,8 -,823 26,1 -3,188 81,0 7,0

107 109,2 -2,263 63,2 -,216 16,8 -,8

300

47,0050,0053,0056,0059,0062,00Gesamt

BeobachtetesN


Statistik für Test

1,2065

,944

Chi-Quadrata


Speedred

Bei 1 Zellen (16,7%) werden wenigerals 5 Häufigkeiten erwartet. Die kleinsteerwartete Zellenhäufigkeit ist 3,8.

a.

Im Gegensatz zu diesem Output müßten wir hier nach Bosch (siehe oben) nicht 5 Freiheitsgrade annehmen, sondern 3, da wir zwei Freiheitsgrade durch die Festlegung der Kennwerte arithmetisches Mittel und Standardabweichung verlieren. Hierdurch verändert sich der kritische Chiquadratwert von

147

11,07 auf 7,81. In beiden Fällen ist dieser kritische Chiquadratwert aber größer als unser „empirischer“ Chiquadrat-Wert, so daß die Nullhypothese beibehalten werden kann, daß unsere Daten aus einer normalverteilten Grundgesamtheit entnommen worden sein können.

6.2.1.3.2. Abgekürztes Verfahren Zur Schnellprüfung der Normalverteilung einer gegebenen Verteilung kann folgende Formel herangezogen werden. Setzen wir die oben mitgeteilten Werte für die Schiefe und den Exzess in diese Formel ein, dann erhalten wir einen Chiquadratwert von 0,89 für 2 Freiheitsgrade.

( )2;246

3 222 =+=

−df

nn

ExSchChi

Wir können daraufhin berechnen, daß wir bei einem Niveau von 65 % Irrtumswahrscheinlichkeit die Nullhypothese verwerfen könnten, was wir natürlich nicht tun.

6.2.2. Zweidimensionale Tests 6.2.2.1. Chiquadrat und Cramers V 6.2.1.1.1. Fall eines signifikanten Zusammenhangs. In einer religionswissenschaftlichen Untersuchung der HU werden zwei nominalskalierte Variablen miteinander in einer Kreuztabelle dargestellt: a) Mitgliedschaft in einer Religionsgemeinschaft; Ausprägungen: Kein Mitglied; katholisch; evangelisch;

Sonstige Mitgliedschaften. b) Was denken Sie? Ausprägungen: Juden und Christen haben denselben Gott – nicht denselben Gott. Nach dem der Datensatz: Religion.sav geladen wurde, werden über die Schaltfläche: Analysieren, Deskriptive Statistik / Kreuztabellen die genannten Variablen für die Zeile und Spalte angefordert, zusätzlich für die Statistik Chiquadrat und Cramers V, für die Zellen: die beobachteten Werte, die erwarteten Werte, die Zeilenprozente, die Spaltenprozente und die angepaßten, standardisierten Chiquadratresiduen.

148

Die Syntax lautet: CROSSTABS /TABLES=v496 BY v1431 /FORMAT= AVALUE TABLES /STATISTIC=CHISQ PHI /CELLS= COUNT EXPECTED ROW COLUMN ASRESID /COUNT ASIS . Das Ergebnis ist:

Verarbeitete Fälle

1349 70,1% 575 29,9% 1924 100,0%

F84a/ Was denken Sie:Juden und Christenhaben: * MitgliedeinerReligionsgemeinschaft


Fälle

149

F84a/ Was denken Sie: Juden und Christen haben: * Mitglied einer ReligionsgemeinschaftKreuztabelle

181 145 672 18 1016

221,4 142,3 634,9 17,3 1016,0

17,8% 14,3% 66,1% 1,8% 100,0%

61,6% 76,7% 79,7% 78,3% 75,3%

-6,2 ,5 4,8 ,3

113 44 171 5 333

72,6 46,7 208,1 5,7 333,0

33,9% 13,2% 51,4% 1,5% 100,0%

38,4% 23,3% 20,3% 21,7% 24,7%

6,2 -,5 -4,8 -,3

294 189 843 23 1349

294,0 189,0 843,0 23,0 1349,0

21,8% 14,0% 62,5% 1,7% 100,0%

100,0% 100,0% 100% 100,0% 100,0%

AnzahlErwarteteAnzahl% von F84a/Was denkenSie: Judenund Christenhaben:

% vonMitgliedeinerReligionsgemeinschaftKorrigierteResiduenAnzahlErwarteteAnzahl% von F84a/Was denkenSie: Judenund Christenhaben:

% vonMitgliedeinerReligionsgemeinschaftKorrigierteResiduenAnzahlErwarteteAnzahl% von F84a/Was denkenSie: Judenund Christenhaben:

% vonMitgliedeinerReligionsgemeinschaft

DenselbenGott

Nichtdenselb. Gott

F84a/ Was denkenSie: Juden undChristen haben:

Gesamt

KeinMitglied

Katholisch

Evangelisc

hSonsti

ge

Mitglied einer Religionsgemeinschaft

Gesamt

150

Chi-Quadrat-Tests

38,987a

3 ,000

1349


Wert df


(2-seitig)


a.

Symmetrische Maße

,170 ,0001349

Cramer-VAnzahl der gültigen Fälle

Wert

Näherungsweise

Signifikanz



b.

Am Ergebnis kann man erkennen, daß es eine signifikante Beziehung beider Variablen gibt: Der Chiquadratwert ist hochsignifikant, die Nullhypothese wird abgelehnt, die Tabelle hat drei Freiheitsgrade. Cramers V signalisiert einen schwachen Zusammenhang. Die Nichtmitglieder sehen eine große Differenz zwischen Christen und Juden, die Evangelischen eher nicht, die Katholiken sind neutral. Untersucht man mit der gleichen Tabelle den Zusammenhang der Zugehörigkeit zu einer Religionsgemeinschaft mit der Frage: Was denken Sie: Muslime und Christen haben denselben Gott, nicht denselben Gott, dann zeigt sich, daß keine signifikante Beziehung der Variablen besteht.

Verarbeitete Fälle

1217 63,3% 707 36,7% 1924 100,0%

F84b/ Was denken Sie:Muslime und Christenhaben * Mitglied einerReligionsgemeinschaft


Fälle

151

F84b/ Was denken Sie: Muslime und Christen haben * Mitglied einer Religionsgemeinschaft Kreuztabelle

141 101 429 15 686155,0 90,8 423,9 16,3 686,0

20,6% 14,7% 62,5% 2,2% 100,0%

51,3% 62,7% 57,0% 51,7% 56,4%

-1,9 1,7 ,6 -,5

134 60 323 14 531120,0 70,2 328,1 12,7 531,0

25,2% 11,3% 60,8% 2,6% 100,0%

48,7% 37,3% 43,0% 48,3% 43,6%

1,9 -1,7 -,6 ,5

275 161 752 29 1217275,0 161,0 752,0 29,0 1217,0

22,6% 13,2% 61,8% 2,4% 100,0%

100,0% 100,0% 100,0% 100,0% 100,0%

AnzahlErwartete Anzahl% von F84b/ Wasdenken Sie:Muslime undChristen haben% von MitgliedeinerReligionsgemeinschaftKorrigierteResiduenAnzahlErwartete Anzahl% von F84b/ Wasdenken Sie:Muslime undChristen haben% von MitgliedeinerReligionsgemeinschaftKorrigierteResiduenAnzahlErwartete Anzahl% von F84b/ Wasdenken Sie:Muslime undChristen haben% von MitgliedeinerReligionsgemeinschaft

Denselben Gott

Nichtdenselb.Gott

F84b/ Wasdenken Sie:Muslime undChristenhaben

Gesamt

Kein Mitglied Katholisch Evangelisch SonstigeMitglied einer Religionsgemeinschaft

Gesamt

Chi-Quadrat-Tests

5,951a

3 ,114

1217


Wert df


(2-seitig)


a.

Die Ergebnisse zeigen einen nicht signifikanten Chiquadrat – Wert

152

Symmetrische Maße

,070 ,1141217

Cramer-VAnzahl der gültigen Fälle

Wert

Näherungsweise

Signifikanz



b.

Cramers V zeigt einen sehr schwachen, nicht signifikanten Zusammenhang. Versuchen Sie, die in den Tabellen angegebenen Zeilen- Prozente und Spaltenprozente für die Interpretation heranzuziehen.

6.2.2.2. Phi und die Yates-Korrektur von Chiquadrat Wir wollen wissen, ob die Mitgliedschaft in einer Religionsgemeinschaft mit dem Alter zusammenhängt. Es genügt uns eine Information auf der Basis binärer Variablen. Zu didaktischen Zwecken recodieren und transformieren wir unsere Daten so, daß wir diese binären Variablen aus dem Datensatz „Religion.sav“ erhalten: RECODE v143 (1=1) (ELSE=2) INTO v143rec . EXECUTE . DESCRIPTIVES VARIABLES=v108 /SAVE /STATISTICS=MEAN STDDEV MIN MAX . RECODE Zv108 (Lowest thru 0=1) (0 thru Highest=2) INTO Jung_Alt . EXECUTE . Dann fordern wir über die o.a. Schaltfläche die Kreuztabelle dieser Variablen an: CROSSTABS /TABLES=Jung_Alt BY v143rec /FORMAT= AVALUE TABLES /STATISTIC=CHISQ PHI /CELLS= COUNT EXPECTED ROW COLUMN ASRESID /COUNT ASIS .

153

Jung_Alt * Mitglied einer Rel.Gemeinschaft - nein-ja Kreuztabelle

325 637 962269,4 692,6 962,0

33,8% 66,2% 100,0%

62,3% 47,5% 51,6%

5,7 -5,7197 705 902

252,6 649,4 902,021,8% 78,2% 100,0%

37,7% 52,5% 48,4%

-5,7 5,7522 1342 1864

522,0 1342,0 1864,028,0% 72,0% 100,0%

100,0% 100,0% 100,0%

AnzahlErwartete Anzahl% von Jung_Alt% von Mitglied einer Rel.Gemeinschaft - nein-jaKorrigierte ResiduenAnzahlErwartete Anzahl% von Jung_Alt% von Mitglied einer Rel.Gemeinschaft - nein-jaKorrigierte ResiduenAnzahlErwartete Anzahl% von Jung_Alt% von Mitglied einer Rel.Gemeinschaft - nein-ja

Jung

Alt

Jung_Alt

Gesamt

nein ja

Mitglied einer Rel.Gemeinschaft - nein-ja

Gesamt

Chi-Quadrat-Tests

32,935b

1 ,000

32,346 1 ,0001 ,000

,000 ,00032,918 1 ,000

1864

Chi-Quadrat nachPearsonKontinuitätskorrektura

Exakter Test nach Fisher


Wert df


(2-seitig)

ExakteSignifikanz(2-seitig)


Wird nur für eine 2x2-Tabelle berechneta.

0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeitist 252,60.

b.

Symmetrische Maße

,133 ,000,133 ,000

1864

Phi


Wert

Näherungsweise

Signifikanz



b.

154

Es zeigt sich ein hochsignifikanter Zusammenhang zwischen Variablen, der jedoch nur schwach ausgeprägt ist. Chiquadrat mit df= 1 ist deutlich über jedem Kriteriumswert, Phi liegt jedoch nur bei 0,133. Die Tabelle zeigt eine deutliche Überrepräsentation der Jungen bei den Nichtmitgliedern, der Alten bei den Mitgliedern einer Religionsgemeinschaft. In der Auswertung ist die Yates-Korrektur mitgeliefert worden, sie erbringt hier ein unwesentlich abgesenktes Chiquadrat. Der exakte Test von Fischer ist ebenfalls gerechnet worden, obwohl er eigentlich nur bei sehr kleinen Zellenbesetzungen Sinn macht.

6.2.2.3. Fishers exakter Test Um eine möglichst kleine Zellenbesetzung zu demonstrieren, wählen wir aus den Fällen die ältesten Mitglieder der Befragtengruppe aus und kommen dann mit der oben auch schon benützen Syntax zu einer neuen Vierfelder-Tabelle: Temporary. Select if (zv108 > (2.34)). CROSSTABS /TABLES=v109 BY v143rec /FORMAT= AVALUE TABLES /STATISTIC=CHISQ PHI /CELLS= COUNT EXPECTED ROW COLUMN ASRESID /COUNT ASIS . Das Ergebnis ist:

Verarbeitete Fälle

22 100,0% 0 ,0% 22 100,0%F14.1/ Geschlecht *Mitglied einer Rel.Gemeinschaft - nein-ja


Fälle

155

F14.1/ Geschlecht * Mitglied einer Rel.Gemeinschaft - nein-ja Kreuztabelle

2 14 162,2 13,8 16,0

12,5% 87,5% 100,0%

66,7% 73,7% 72,7%

-,3 ,31 5 6,8 5,2 6,0

16,7% 83,3% 100,0%

33,3% 26,3% 27,3%

,3 -,33 19 22

3,0 19,0 22,013,6% 86,4% 100,0%

100,0% 100,0% 100,0%

AnzahlErwartete Anzahl% von F14.1/ Geschlecht% von Mitglied einer Rel.Gemeinschaft - nein-jaKorrigierte ResiduenAnzahlErwartete Anzahl% von F14.1/ Geschlecht% von Mitglied einer Rel.Gemeinschaft - nein-jaKorrigierte ResiduenAnzahlErwartete Anzahl% von F14.1/ Geschlecht% von Mitglied einer Rel.Gemeinschaft - nein-ja

Weiblich

Männlich

F14.1/ Geschlecht

Gesamt

nein ja

Mitglied einer Rel.Gemeinschaft - nein-ja

Gesamt

Chi-Quadrat-Tests

,064b

1 ,800

,000 1 1,0001,000 ,636

22

Chi-Quadrat nachPearsonKontinuitätskorrektura

Exakter Test nach FisherAnzahl der gültigen Fälle

Wert df


(2-seitig)



Wird nur für eine 2x2-Tabelle berechneta.

2 Zellen (50,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeitist ,82.

b.

Wir sehen hier, daß keine signifikante Beziehung besteht. Die Nullhypothese wird bei dem sehr niedrigen Chiquadratwert bei 1 df beibehalten. Nach der Kontinuitätskorrektur nach Yates wird der Chiquadratwert auf Null abgesenkt. Der exakte Test von Fischer erbringt für die Irrtumswahrscheinlichkeit, bei der die Nullhypothese im einseitigen Test abgelehnt werden könnte, einen Wert von 0,636; das ist mehr als man aus der „asymptotischen Signifikanz“ des unkorrigierten Chiquadrattest (0,8 / 2 = 0, 4) erhielte. Das Beispiel zeigt, daß bei sehr geringer Anzahl der Befragten deutliche Differenzen zwischen den verschiedenen Verfahren bezüglich der rechnerischen Ergebnisse resultieren können.

Symmetrische Maße

-,054 ,80022

PhiAnzahl der gültigen Fälle

Wert

Näherungsweise

Signifikanz

Phi zeigt einen nicht signifikanten, sehr niedrigen Wert.

156

Kapitel 7. Faktorenanalyse Gegeben sei ein Datensatz: HundehalterWS2004_5.sav Wir laden diesen Datensatz. Hintergrund ist ein Projekt aus einem früheren Empiriekurs. Über dieses Projekt ist folgendes zu berichten (die Gliederung wird aus dem Bericht über dieses Projekt übernommen)

7.1. Theoretische Grundlagen - Anlage der Teilstichproben

7.1.1 Theoretische Grundlagen eines als Beispiel verwendeten empirischen Projekts Abgesehen von den historischen Analysen Wippermanns war eine der wichtigsten Quellen für die Anlage der Untersuchung war „Mensch und Hund“ von R. Bergler (Köln 1986). Unsere Untersuchung sollte nicht nur eine qualitative sein, sondern ganz wesentlich quantitative Elemente haben. Daher bot sich an, einem Hinweis von Bergler auf auf eine amerikanische psychologische Untersuchung von W.C. Schulz: FIRO: A three-dimensional theory of interpersonal behavior. New York 1958 nachzugehen. Schulz hat Guttman-Skalen für folgende Dimensionen der Beziehung von Menschen zu Menschen entwickelt. Dimension Vollzogenes eigenes Verhalten Erwartetes (gewünschtes) Verhalten

von anderen Einbeziehung Ich initiiere die Interaktion mit

Fremden (11) Ich möchte einbezogen werden (12)

Kontrolle Ich kontrolliere Fremde (21)

Ich möchte, daß Menschen mich kontrollieren (22)

Gefühlsnähe Ich handle nah und persönlich mit Fremden (31)

Ich möchte daß Menschen mit mir nah und persönlich umgehen (32)

Diese Skalen für die „aktive“ und „passive“ Beziehung von Menschen zu Menschen – so sagten wir uns, könnten uns erlauben, Hundehalter und Nichthundehalter zu beschreiben und möglicherweise dabei die Hypothesen zu testen, daß die beiden Gruppen sich auf diesen Skalen signifikant unterscheiden. Diese Skalen wurden von mir ins Deutsche übersetzt. Ein Teil der Items wurde für die Messung einer Dimension benutzt, die wir generell „Beziehung zu Menschen“ genannt haben, wobei die Unterscheidung von vollzogenem eigenen Verhalten (aktive Seite, Dominanz) und erwartetem – gewünschten Verhalten (passive Seite, Bedürfnis nach Zuwendung) sich als sehr wichtig erweisen sollte. Weitere Items wurden zusammengestellt, die die Beziehung von Menschen zu Hunden betreffen: Zum Hund als Partner (eventuell auch „Kuschelhund“), zum Hund als Aufgabenträger, der im „Club“ oder im „Verein“ ausgebildet wird, zum Hund als Repräsentant von Luxus und als Bewacher desselben, zum Hund als Kontaktagenten. Im Wesentlichen kann als Erkenntnisziel der Arbeit die Beantwortung der Frage benannt werden, ob und wie die verschiedenen Beziehungen zu Hunden mit den verschiedenen Beziehungen zwischen Menschen zusammenhängen. Bei der Lektüre vorliegender Forschung hierzu wurde uns klar, daß solche Beziehungen sehr vielfältig und differenziert und in verschiedenen Gruppen von Hundehaltern sehr unterschiedlich kombiniert sein können. Außerdem sind solche Beziehungen einem interessanten historischen Wandel unterworfen, wie man in dem oben schon genannten Bericht von Wolfgang Wippermann und Detlef Berentzen: Die Deutschen und ihre Hunde, nachlesen kann. In dem einsemestrigen Kursus wäre es nicht möglich gewesen, sehr differenzierte Hypothesen zu entwickeln und zu testen. Außerdem sollten die Interviews kurz sein (möglichst nicht länger als 15 Minuten).Wir entschieden uns daher dafür, nur ungefähr 50 Items im Fragebogen unterzubringen. Weiterhin hatten wir auch

157

weder die Zeit noch das Geld, um aus der Berliner Grundgesamtheit der Hundesteuerzahler und einer hierzu passenden Grundgesamtheit der Nicht-Hundebesitzer eine Zufallsstichprobe zu ziehen, aus der - mit dem Anspruch auf Repräsentativität - Schlüsse gezogen werden könnten, die es gestatteten, die Grundgesamtheit relativ genau zu charakterisieren. Um überhaupt an statistisch auswertbares Material zu gelangen, und darum ging es in diesem Methodenkursus hauptsächlich, wurde bei der Datenbeschaffung pragmatisch verfahren: Alle Studierenden wurden gebeten, jeweils 10 Hundebesitzer und 10 Nicht-Hundebesitzer zu befragen, und zwar entweder in Hundeauslaufgebieten, in der Nähe von Verkaufsstellen für Hundefutter bzw. -Zubehör, im Bekanntenkreis oder in sonstigen Umgebungen des Stadtgebietes Berlin. Bei diesen Erhebungen konnten die Studierenden das Ausfüllen des Fragebogens kontrollieren. Nur vom Befragten allein ausgefüllte Fragebogen (ohne Anwesenheit von Interviewern) stammen von weiteren verschiedenen Orten: Es wurden in einer Berliner Tierarztpraxis ( Dr. A. Quade,Treskowstr. 63, 13156 Berlin) Fragebögen ausgelegt. Die Auswahl dieser Praxis geschah nicht in systematischer Absicht, sondern aufgrund persönlicher Bekanntschaft. Die Lage der Praxis in Pankow war so, daß hierdurch „durchschnittliche“ Hundehalter in die Befragung hineinkamen. Die Hundedichte in Pankow liegt nur unwesentlich über dem Berliner Durchschnitt. Nach zahlreichen Presseechos auf Ergebnisse eines Vorberichts - wurden noch folgende Gruppen befragt: • das Publikum einer Podiumsdiskussion über Probleme der „Hundehaltung und Hundeverordnung in Berlin“

(organisiert im Ufapalast am 22.10. 2000 von der Journalistin Katharina Rutschky, Wartenburgstraße 8, 10963 Berlin) und

• Mitglieder eines Berliner Hundesportvereins (Hundesportler des HSV Berlin Buchholz sowie

Hundebesitzer, die in diesem Verein einen Hunderziehungskursus belegt hatten). Vermittelt hat dies Herr Hans J. Zuchowski, Brunnenstraße 95, 13355 Berlin).

• Auf eine Anfrage eines westdeutschen Hundessportvereins (Gewährsmann: Martin Poettgen & Partner -

Agentur für Kommunikation & Aktionsmarketing Kohlenstraße 70 44795 Bochum Germany) wurde der Fragebogen ins Internet gestellt und von Mitgliedern dieses Vereins beantwortet (Per Fax zugeschickt).

Dem war folgender Brief vorausgegangen:

Sehr geehrter Herr Prof. Dr. Dieckmann, Gerne biete ich Ihnen meine Hilfe bei der Distribution von Fragebögen an. Nur sollten Sie folgende Zahlen meiner Vereinsmitgliedschaften kennen: 1. Unser Rassezuchtverband 1.American Staffordshire Terrier Club hat insgesamt etwa 200 Mitglieder. Bei Veranstaltungen sind derzeit noch ca. 25 - 30 anwesend - leider nur noch ein kleines Häuflein von Idealisten 2. Unser Ausbildungsverein (DVG) HSV Lippetal hat ca. 30 Mitglieder, von denen etwa 10 - 15 noch aktiv arbeiten. 3. Unser Ausbildungsverein (DVG) Bochum Süd-West hat ca. 100 Mitglieder, von denen sind etwa 40 aktiv. Gerne biete ich Ihnen folgendes an: 1. Auslage der Fragebögen bei den kommenden Veranstaltungen der o.g. Vereine. 2. Publikation des Fragebogens auf der www.1astc.de (ca. 8000 Zugriffe/Monat). 3. Ausserdem produzieren wir eine Zeitung, die "Stafford-News". Darin könnte man wunderbar über Ihre jüngsten Erkenntnisse berichten. Eine Garantie für den Rücklauf kann ich kaum übernehmen. Jedoch greifen wir als Liebhaber unserer Hunde nach jedem Strohhalm, der Seriosität vermittelt.

• Schließlich hat noch die Leitung der Naturwissenschaftlichen Sammlungen Berlin, dafür gesorgt, daß

Fragebogen in der folgenden Ausstellung ausgelegt wurden,

158

Wölfe Opferhunde Karrenköter

Die "Hundeausstellung" der Naturwissenschaftlichen Sammlungen Berlin vom 7. November 2001 bis zum 8. April 2002

Schloßstraße 69a 14059 Berlin (Charlottenburg)

7.1.2. Anlage der Teilstichproben im Beispiel-Projekt Auf diese Weise kam ein Rücklauf mit folgenden 7 Teilgruppen zustande: • Menschen ohne Hund aus den verschiedenen unten aufgeführten Erhebungssituationen, • Menschen mit Hund in der Haupterhebung der Studierenden, • Besucher/innen der Tierarztpraxis mit Hund • Besucher/innen einer Podiumsdiskussion zum Problem einer Berliner Verordnung zur Hundehaltung mit

Hund. • Mitglieder eines Berliner Hundesportvereins, die anläßlich dieser Diskussion anboten, den Fragebogen

auszufüllen, mit Hund. • Mitglieder eines westdeutschen Hundesportvereins (American Staffordshire Terrier) mit Hund • Besucher der Ausstellung „Wölfe, Opferhunde, Karrenköter...“ mit Hund In diesen Teilgruppen waren verschiedene „Interviewsituationen“ vertreten, wie • Das Interview wurde von Studenten im Kreise der Bekannten gemacht • Das Interview wurde von Studenten im Hundeauslaufgebiet gemacht • Das Interview wurde von Studenten in der Nähe von Verkaufstellen von Hundefutter gemacht • Das Interview wurde von Studenten an sonstigen Orten im Berliner Stadtgebiet gemacht. • Der Fragebogen wurde in einer Tierarztpraxis ausgefüllt • Der Fragebogen wurde am Rande einer Podiumsdikusssion ausgefüllt • Der Fragebogen wurde von Angehörigen oder Kunden eines Berliner Hundesportvereins ausgefüllt • Der Fragebogen wurde von Angehörigen zweier westdeutscher Hundesportvereine ausgefüllt, die sich den

Bogen aus dem Internet kopierten • Der Fragebogen wurde in den Räumen der Ausstellung „Wölfe, Opferhunde, Karrenköter ausgefüllt“ Zusammensetzung der Befragten aus verschiedenen Gruppen und Interviewsituationen:

159

Gruppe * Situation des Interviews Kreuztabelle

Anzahl

52 26 78

55 124 179

2 5 7

60 22 2 8468 100 168

7 52 59

18 18

6 12 18

157 224 381

407 177 100 52 20 12 224 992

BekanntenkreisHundeauslaufgebietNäheVerkaufsstelleHundeartikelSonstigesArztpraxisPodiumsdisk.mitHundefreundenHundesportvereinHundesportverein- InternetNaturwissensch.Sammlungen

SituationdesInterviews

Gesamt

Hundelose Haupterhebung Tierarztpraxis

Hundepolitischaktive

Personen

HundesportvereinBerlin

Westdeutscher

Hundesportverein

Naturwissenschaftl.Sammlun

gen

Gruppe

Gesamt

Da wir – wie oben schon betont wurde - keine repräsentative Stichprobe aus Berliner Karteien haben ziehen können, mußte eine Auswertungsstrategie gewählt werden, in der wir uns im Wesentlichen auf den Vergleich von Teilstichproben beschränkt haben. Hierbei haben wir in einer Teilstichprobe (Gruppe) drei der o.a. Gruppen zusammengefaßt, und zwar „die hundepolitisch aktiven Personen“, die Antworten aus dem „Hundesportverein in Berlin“ und aus dem „Hundesportverein in Bochum / Lippetal“. Die drei Gruppen erschienen von ihren Aktivitäten und Einstellungen her weitgehend ähnlich, so daß die Zusammenfassung legitim und vernünftig (Erhöhung der Fallzahl pro Gruppe) schien. 7.2. Verteilung der Befragten nach Geschlecht, Alter und Hundebesitz Die Verteilung aller Befragten nach Alter und Geschlecht ist die folgende:

160

Befragte nach Alter und Geschlecht

33 28 6154,1% 45,9% 100,0%

5,6% 7,4% 6,3%

158 89 24764,0% 36,0% 100,0%

26,8% 23,6% 25,5%

209 128 33762,0% 38,0% 100,0%

35,4% 34,0% 34,9%

123 78 20161,2% 38,8% 100,0%

20,8% 20,7% 20,8%

61 45 10657,5% 42,5% 100,0%

10,3% 11,9% 11,0%

6 9 1540,0% 60,0% 100,0%

1,0% 2,4% 1,6%

590 377 96761,0% 39,0% 100,0%

100,0% 100,0% 100,0%

Anzahl% von ALTERREC% von Geschl. d.BefragtenAnzahl% von ALTERREC% von Geschl. d.BefragtenAnzahl% von ALTERREC% von Geschl. d.BefragtenAnzahl% von ALTERREC% von Geschl. d.BefragtenAnzahl% von ALTERREC% von Geschl. d.BefragtenAnzahl% von ALTERREC% von Geschl. d.BefragtenAnzahl% von ALTERREC% von Geschl. d.Befragten

1 bis 15

16 bis30

31 - 45

46 bis60

61 bis75

76 bis90

ALTERREC

Gesamt

weiblich männlichGeschl. d. Befragten

Gesamt

Altersgruppen

76-9061-7546-6031-4516-301-15

Anza

hl

300

200

100

0


weiblich

männlich

45

78

128

89

28

61

123

209

158

33

Auffällig ist bei der Verteilung der Befragten nach Alter und Geschlecht, daß sich wesentlich mehr Frauen als Männer an der Umfrage beteiligt haben (61 % Frauen, 39 % Männer) und daß die mittleren Altersgruppen wesentlich stärker besetzt sind als die Jüngeren und Älteren. Teilt man diese Daten noch nach dem Kriterium der Hundehaltung auf, dann ergibt sich folgendes:

161

Nicht-Besitzer von Hunden

Altersgruppen

83,0068,0053,0038,0023,008,00

Pro

zent

40

30

20

10

0


weiblich

männlich2

10

15

38

25

109

17

34

30

9

Hundebesitzer

Altersgruppen

83,0068,0053,0038,0023,008,00

Pro

zent

40

30

20

10

0


weiblich

männlich2

14

25

31

23

5

11

23

36

25

4

Die Alters- und Geschlechterstrukturen der befragten Hundebesitzer und Nichtbesitzer weichen nur unwesentlich von einander ab. Doch gibt es ein paar Differenzen, die für die weiteren Überlegungen von Bedeutung sein könnten: • Die mittleren Klassen sind stärker besetzt als die Randklassen. • Die Frauen sind in der Klasse der 30 bis 45 –Jährigen bei den Hundebesitzern etwas überrepräsentiert, bei

den Nichthundebesitzern etwas unterrepräsentiert. • Die älteren Klassen sind bei den Hundebesitzern stärker vertreten als bei den Nicht-Hundebesitzern.

162

7.3. Der Fragebogen Der Fragebogen wurde an 4 Personen getestet (die Testbögen sind in der jetzigen Auswertung mitberücksichtigt), im Seminar ausführlich diskutiert und in der folgenden Form im Forschungsfeld benutzt:

7.3.1. Form des Fragebogens: Guten Tag! Dieser Fragebogen kommt aus einem Seminar für Forschungsmethoden von Professor Dieckmann an der Technischen Universität, wo ein kleines Projekt zum Thema „Hunde und Menschen“ durchgeführt wird. Wir befragen Menschen in beim Spazierengehen, in Tierarztpraxen und Hundesportvereinen. Wir – die Seminarteilnehmerinnen – würden uns freuen, wenn wird Ihnen zum genannten Thema ein paar Fragen stellen könnten. Das Ausfüllen geht auch ziemlich schnell. Sind Sie selber Hundebesitzer? Bitte kreuzen sie für die folgenden Aussagen den Grad an, zu dem Sie den Aussagen zustimmen /die Aussagen ablehnen: Ich mag Menschen, die immer einen Hund in ihrer Nähe haben wollen Wenn ein Hund krank ist, sollte man bereit sein, solange Geld für seine Heilung auszugeben, bis er gesund ist Ich finde Menschen sympathisch, die ihren Hund für ihren wichtigsten Freund halten Arbeit und Kosten, die man für einen Hund aufwendet, sollten nicht als Belastung empfunden werden Hundehalter sollten am Tag folgende Zeit aktiv mit ihrem Hund (Spielen, Spazieren gehen, Hundeausbildung, Sport, Sauberkeit, Kosmetik) verbringen: Bitte sagen Sie uns, wie viel Zeit Sie für notwendig halten (bitte die Zahl der Minuten rechtsbündig eintragen):

Bitte kreuzen sie wieder für die folgenden Aussagen den Grad an, zu dem Sie den Aussagen zustimmen /die Aussagen ablehnen: Es geht jetzt auch um Sie selber: Ich mache gern lange und weite Reisen Ich habe schon viel von der Welt gesehen und war oft im Ausland

Nein Ja, ich habe Hunde

Auf Keinen Fall

Eher nicht

Teils/ teils

Eher ja Auf Jeden Fall

Auf Keinen Fall

Eher nicht

Teils/ teils


163

Ich versuche, zu anderen Menschen enge, persönliche Beziehungen zu haben Ich mag es, wenn andere Menschen mich vertraulich und persönlich behandeln Ich fühle mich wohl, wenn ich mit anderen Menschen zusammen bin Ich versuche, am Leben von Vereinen oder Clubs teilzunehmen, wenn sich die Gelegenheit dazu bietet Ich versuche, wenn sich die Gelegenheit bietet, Verantwortung zu übernehmen. Bitte kreuzen sie für die folgenden Aussagen den Grad an, zu dem Sie den Aussagen zustimmen /die Aussagen ablehnen: Wenn ein Hund seine ihm zugedachten Aufgaben nicht erfüllt, sollte man sich an seiner Stelle einen anderen Hund anschaffen Hunde müssen keine besonderen Aufgaben haben. Wichtig ist nur, dass man sie in der Nähe haben kann. Ich selber bin ein Mensch, der sich gut durchsetzen kann Ich halte mich für einen optimistischen, fröhlichen Menschen Ich habe ziemlich viel Mut, Angst kenne ich nicht Wenn ich eine Gelegenheit sehe, anderen zu helfen, nehme ich sie wahr Ich lege Wert auf mein Äußeres Ich habe Freude an schönen und schnellen Autos beziehungsweise an eleganten Wohnungen Mein Hund soll (Wenn ich einen Hund hätte, dann müsste der vor allem) Wachhund und Schutzhund sein mir ein Freund sein mir die Gelegenheit geben, mit anderen interessanten Menschen in Kontakt zu kommen, schön und auffallend sein mir die Gelegenheit geben, ein Hobby auszuüben (z. B. Hundesport, Hundezüchtung, Wandern, Jagd). Ich selbst bin... männlich weiblich Ich bin geboren im Jahre Ich lebe... mit anderen zusammen allein In meiner Wohnung leben auch Kinder (unter 14 Jahre)

Auf Keinen Fall

Eher nicht

Teils/ teils


164

(Anzahl rechtsbündig eintragen) Meine Wohnung hat ca. folgende Größe (in Quadratmetern) Ich habe einen Garten zur meiner Verfügung in folgender Größe (in Quadratmetern) Mein Hund (Wenn ich einen Hund hätte) gehört keiner bestimmten Rasse an /ist ein Rassehund (würde ich mir wünschen: einen): Mischling Rassehund Egal Falls Rassehund: Welche Rasse? Falls Mischling oder egal: Art des Hundes? Nur für Hundebesitzer: (bezogen auf den Hund, der jetzt am längsten im Besitz ist): Gewicht des Hundes in kg Alter des Hundes in Monaten: Ausbildung des Hundes Keine Ausbildung Ausbildung ohne Prüfung mit Prüfung Geschlecht des Hundes männlich weiblich Kastration Nein Ja Sonstige Operationen (krankheitsbedingte) Nein Ja Sonstige Operationen (um das Aussehen zu verbessern) Nein Ja Monatliche Kosten insgesamt im Jahresdurchschnitt (alles zusammen) Für alle: Hundebesitzer und Nichtbesitzer: Was meinen Sie: Haben Hunde eine Seele? Nein Vielleicht Ja Sollte man Hunde, wenn sie sterben, in Ehren bestatten (z.B. auf einem Hundefriedhof)? Nein Ja Nun eine letzte Frage: Was braucht ein Hund vor allem, wenn er „artgerecht“ gehalten wird?

165

7.3.2. Im Fragebogen gemessene Eigenschaften und Dimensionen Der Fragebogen richtete sich an Hundebesitzer und –nichtbesitzer in gleicher Weise, so daß beide Gruppen ihre Einstellung zu Hunden und zu Menschen äußern konnten. Neben einigen Variablen, die die Lebensverhältnisse der Befragten beschreiben und die Eigenarten des gehaltenenen Hundes charakterisieren sollen, gibt es mehrere Gruppen von Einstellungvariablen: • Einstellungen zum Hund, aus denen hervorgeht, welche unterschiedlichen Bedeutungen der Hund für den

jeweiligen Befragten hat (Partnerhund, Funktionshund, Hund demonstriert Luxus, etc.). • Einstellungen zum Menschen und zur Welt, gegliedert in drei Gruppen:

• Wunsch nach Zuwendung durch andere Menschen (ich lasse mich durch andere kontrollieren) • Wunsch, sich durch eigenes Handeln anderen Menschen zuzuwenden (andere zu kontrollieren,

Dominanzwunsch) • Kontaktwünsche • Mobilitätswünsche

Überdies gibt es zwei offene Fragen zur • Art („Rasse“) des gehaltenen (gewünschten) Hundes • artgerechten Hundehaltung Ziel der Auswertung ist es in erster Linie, zu prüfen, • ob zwischen den beschriebenen Gruppen signifikante Einstellungs-Unterschiede bestehen • ob das Datenmaterial auf die Existenz anderer Gruppen hinweist, die sich in bezug auf die Beziehungen

zwischen Mensch und Hund bzw. Mensch und Mensch relevant unterscheiden. Soviel aus den Hintergründen des Projekts. Mit der Faktorenanalyse wird versucht, die zugrundeliegenden Variablen oder Faktoren zu bestimmen, welche die Korrelationsmuster innerhalb eines Satzes beobachteter Variablen erklären. Die Faktorenanalyse wird häufig zur Datenreduktion verwendet, indem wenige Faktoren identifiziert werden, welche den größten Teil der in einer großen Anzahl manifester Variablen aufgetretenen Varianz erklären. Die Faktorenanalyse kann auch zum Erzeugen von Hypothesen über kausale Mechanismen oder zum Sichten von Variablen für die anschließende Analyse verwendet werden (zum Beispiel, um vor einer linearen Regressionsanalyse Kollinearität zu erkennen). Die Prozedur “Faktorenanalyse” bietet ein hohes Maß an Flexibilität: Es stehen sieben Methoden der Faktorextraktion zur Verfügung. Es sind fünf Rotationsmethoden verfügbar, einschließlich der direkten Oblimin-Methode und Promax-Methode für nicht orthogonale Rotationen. Für die Berechnung von Faktorwerten stehen drei Methoden zur Verfügung. Die Werte können für weitere Analysen als Variablen gespeichert werden. 7.4. Erläuterungen der Voraussetzungen für die Faktorenanalyse Daten. Die Variablen müssen auf dem Intervall- oder Verhältnis-Niveau (quantitativ) definiert sein. Kategoriale Daten (wie beispielsweise Religion oder Geburtsland) sind für die Faktorenanalyse nicht geeignet. Daten, für welche die Korrelationskoeffizienten nach Pearson sinnvoll berechnet werden können, eignen sich gewöhnlich für eine Faktorenanalyse. Annahmen. Die Daten sollten für jedes Variablenpaar in einer bivariaten Normalverteilung vorliegen. Beobachtungen müssen unabhängig sein. Im Modell der Faktorenanalyse ist festgelegt, daß Variablen durch gemeinsame Faktoren (die vom Modell geschätzten Faktoren) und eindeutige Faktoren (die sich nicht zwischen den beobachteten Variablen überschneiden) bestimmt sind. Die errechneten Schätzwerte basieren auf der Annahme, daß alle eindeutigen Faktoren weder miteinander noch mit den gemeinsamen Faktoren korrelieren.

166

7.5. Rechnen einer Faktorenanalyse mit SPSS 12 Laden Sie den Datenfile „HundehalterWS2004_5.sav. Wählen Sie die folgenden Befehle aus den Men aus: Analysieren Dimensionsreduktion Faktorenanalyse... Laden Sie den Datenfile „HundehalterWS2004_5.sav. Wählen Sie Variablen für die Faktorenanalyse aus, die als Einstellungdaten definiert sind.

7.5.1.Faktorenanalyse: Deskriptive Statistiken

Statistiken. Univariate Statistiken enthalten den Mittelwert, die Standardabweichung und die Anzahl gültiger Fälle für jede Variable. Die Anfangslösung zeigt die anfänglichen Kommunalitäten, Eigenwerte und den Prozentwert der erklärten Varianz an. Korrelationsmatrix. Die verfügbaren Optionen sind Koeffizienten, Signifikanzniveaus, Determinante, Inverse, Reproduziert, Anti-Image sowie KMO und Bartlett-Test auf Sphärizität.

167

KMO und Bartlett-Test auf Sphärizität. Das Kaiser-Meyer-Olkin-Maß für Angemessenheit der Stichproben überprüft, ob die partiellen Korrelationen zwischen Variablen klein sind. Der Bartlett-Test auf Sphärizität prüft, ob die Korrelationsmatrix eine Einheitsmatrix ist, wobei das Faktorenmodell in diesem Fall ungeeignet wäre. Reproduziert. Die geschätzte Korrelationsmatrix aus der Faktorlösung. Residuen (Differenz zwischen geschätzten und beobachteten Korrelationen) werden ebenfalls angezeigt. Anti-Image. Die Anti-Image-Korrelationsmatrix enthält die negativen Werte der partiellen Korrelationskoeffizienten. Die Anti-Image-Kovarianzmatrix enthält die negativen Werte der partiellen Kovarianzen. In einem guten Faktorenmodell sind die meisten außerhalb der Diagonalen liegenden Elemente klein. Das Maß der Stichprobeneignung einer Variablen wird auf der Diagonalen der Anti-Image-Korrelationsmatrix angezeigt. 7.5.2. Faktorenanalyse: Extraktion

Methode. Hier kann die Methode der Faktorenextraktion festgelegt werden. Folgende Methoden sind verfügbar: Hauptkomponenten, ungewichtete kleinste Quadrate, verallgemeinerte kleinste Quadrate, Maximum Likelihood, Hauptachsen-Faktorenanalyse, Alpha-Faktorisierung und Image-Faktorisierung. Hauptkomponentenanalyse (Factor Analysis). Eine Methode zur Faktorextraktion. Sie wird verwendet, um unkorrelierte Linearkombinationen der beobachteten Variablen zu bilden. Die erste Komponente besitzt den größten Varianzanteil. Nachfolgende Komponenten erklären stufenweise kleinere Anteile der Varianz. Sie sind alle miteinander unkorreliert. Die Hauptkomponentenanalyse wird zur Ermittlung der Anfangslösung der Faktorenanalyse verwendet. Weitere Extraktionsmethoden sind: Ungewichtete kleinste Quadrate (Factor Analysis). Eine Faktorextraktionsmethode, welche die Summe der quadrierten Differenzen zwischen der beobachteten und der reproduzierten Korrelationsmatrix unter Nichtberücksichtigung der Diagonalen minimiert. Verallgemeinerte Methode der kleinsten Quadrate (Factor Analysis). Eine Methode der Faktorextraktion, welche die Summe der quadrierten Abweichungen zwischen der beobachteten und der reproduzierten Korrelationsmatrix minimiert. Die Korrelationen werden mit dem inversen Wert der Eindeutigkeit gewichtet, so daß Variablen mit großer Eindeutigkeit schwach und solche mit kleiner Eindeutigkeit stärker gewichtet werden. Maximum-Likelihood-Methode (Factor Analysis). Eine Methode für die Faktorextraktion, die Parameterschätzer erzeugt, bei denen dieWahrscheinlichkeit am größten ist, daß sie die beobachtete Korrelationsmatrix erzeugt haben, wenn die Stichprobe aus einer multivariaten Normalverteilung stammt.

168

Die Korrelationen werden durch die inverse Eindeutigkeit der Variablen gewichtet, und es wird ein iterativer Algorithmus eingesetzt. Hauptachsen-Faktorenanalyse (Factor Analysis). Eine Methode der Faktorextraktion aus der ursprünglichen Korrelationsmatrix, bei der die auf der Diagonalen befindlichen quadrierten Korrelationskoeffizienten als Anfangsschätzer der Kommunalitäten verwendet werden. Diese Faktorladungen werden benutzt, um neue Kommunalitäten zu schätzen, welche die alten Schätzer auf der Diagonalen ersetzen. Die Iterationen werden so lange fortgesetzt, bis die Änderungen in den Kommunalitäten von einer Iteration zur nächsten das Konvergenzkriterium der Extraktion erfüllen. Alpha (Factor). Eine Methode der Faktorextraktion, welche die Variablen in der Analyse als eine Stichprobe aus einer Grundgesamtheit aller potentiellen Variablen betrachtet. Dies vergrößert die Alpha-Reliabilität der Faktoren. Image-Faktorisierung (Factor Analysis). Eine Faktorextraktionsmethode, die von Guttman entwickelt wurde und auf der Imagetheorie basiert. Der gemeinsame Teil einer Variablen - partielles Image genannt - ist als ihre lineare Regression auf die verbleibenden Variablen definiert, und nicht als eine Funktion von hypothetischen Faktoren. Analysieren. Hier können Sie entweder eine Korrelationsmatrix oder eine Kovarianzmatrix festlegen. Korrelationsmatrix. Diese Funktion ist nützlich, wenn die Variablen in Ihrer Analyse anhand verschiedener Skalen gemessen werden. Kovarianzmatrix. Diese Funktion ist nützlich, wenn Sie die Faktorenanalyse auf mehrere Gruppen mit unterschiedlichen Varianzen für die einzelnen Variablen anwenden möchten. Extrahieren. Sie können entweder alle Faktoren, deren Eigenwerte über einem festgelegten Wert liegen, oder aber eine festgelegte Anzahl von Faktoren beibehalten. Anzeigen. Hier können Sie die nicht rotierte Faktorlösung und ein Screeplot der Eigenwerte anfordern. Nicht rotierte Faktorlösung (Factor Analysis). Zeigt unrotierte Faktorladungen (Faktormustermatrix), Kommunalitäten und Eigenwerte für die Faktorlösung an. Screeplot. Ein Diagramm der Varianz, die jedem Faktor zugeordnet ist. Es dient dazu, die Anzahl der Faktoren zu bestimmen, die behalten werden soll. Normalerweise zeigt das Diagramm einen deutlichen Bruch zwischen der starken Steigung der “großen” Faktoren und dem graduellen Verlauf der restlichen Faktoren (der “Geröllhalde”). Maximalzahl der Iterationen für Konvergenz. Hier können Sie für den Algorithmus eine Maximalzahl von Schritten zum Schätzen der Lösung festlegen.

169

7.5.3. Faktorenanalyse: Rotation

Methode. Hier können Sie die Methode der Faktor-Rotation auswählen. Die verfügbaren Methoden sind Varimax, Quartimax, Equamax, Promax oder Oblimin, direkt. Varimax-Rotation (Factor Analysis). Eine orthogonale Rotationsmethode, die die Anzahl der Variablen mit hohen Ladungen für jeden Faktor minimiert. Sie vereinfacht die Interpretation der Faktoren. Weitere Methoden sind: Methode “Oblimin, direkt”. Ein Verfahren zur schiefwinkligen (nichtorthogonalen) Rotation. Wenn Delta den Wert 0 annimmt (Standardeinstellung), sind die Ergebnisse am meisten schiefwinklig. Mit zunehmendem negativen Wert von Delta werden die Faktoren weniger schiefwinklig. Um den Standardwert von 0 zu überschreiben, geben Sie eine Zahl kleiner gleich 0,8 ein. Quartimax-Rotation (Factor Analysis). Eine Rotationsmethode, welche die Zahl der Faktoren minimiert, die zum Erklären aller Variablen benötigt werden. Sie vereinfacht die Interpretation der beobachteten Variablen. Equamax-Rotation (Factor Analysis). Eine Rotationsmethode, die eine Kombination zwischen der Varimax-Methode (sie vereinfacht Faktoren) und der Quartimax-Methode (sie vereinfacht Variablen) darstellt. Die Anzahl der Variablen mit hohen Ladungen auf einen Faktor sowie die Anzahl der Faktoren, die benötigt werden, um eine Variable zu erklären, werden minimiert. Promax-Rotation (Factor Analysis). Eine schiefe Rotation, bei der Faktoren korreliert sein dürfen. Sie kann schneller ermittelt werden als eine direkte Oblim-Rotation und ist daher für große Datenmengen geeignet. Anzeigen. Hiermit können Sie eine Ausgabe für die rotierte Lösung sowie Ladungsdiagramme für die ersten zwei oder drei Faktoren einbeziehen. Rotierte Lösung (Factor Analysis). Um eine rotierte Lösung zu erhalten, muß eine Rotationsmethode ausgewählt sein. Für orthogonale Rotationen werden die rotierte Mustermatrix und Faktortransformationsmatrix angezeigt. Für schiefe Rotationen werden Muster, Struktur und Faktorkorrelationsmatrix angezeigt. Diagramm der Faktorladungen. Dreidimensionales Diagramm der Faktorladungen für die ersten drei Faktoren. Für eine Lösung mit zwei Faktoren wird ein dreidimensionales Diagramm angezeigt. Das Diagramm wird nicht angezeigt, wenn nur ein Faktor extrahiert wird. Auf Wunsch zeigen die Diagramme rotierte Lösungen an.

170

Maximalzahl der Iterationen für Konvergenz. Hier können Sie eine Maximalzahl von Schritten zum Durchführen der Rotation für den Algorithmus festlegen. 7.5.4. Faktorenanalyse: Faktorwerte

Als Variablen speichern. Hiermit wird für jeden Faktor in der endgültigen Lösung eine neue Variable erstellt. Wählen Sie eine der folgenden Methoden für die Berechnung der Faktorwerte aus: Regression, Bartlett oder Anderson-Rubin. Regressionsmethode (Factor Analysis). Eine Methode, um Koeffizienten für Faktorwerte zu schätzen. Die Faktorwerte haben einen Mittelwert von 0 und eine Varianz, die der quadrierten Mehrfachkorrelation zwischen den geschätzten und den wahren Faktorwerten entspricht. Die Werte können korreliert sein, selbst wenn die Faktoren orthogonal sind. Barlett-Werte. Eine Methode zum Schätzen von Koeffizienten für Faktorwerte. Die erzeugten Faktorwerte haben einen Mittelwert von 0. Die Quadratsumme der eindeutigen Faktoren über dem Variablenbereich wird minimiert. Anderson-Rubin-Methode (Factor Analysis). Eine Methode zur Berechnung von Faktorwerten; eine Modifizierung der Bartlett-Methode, die die Orthogonalität der geschätzten Faktoren gewährleistet. Die berechneten Werte haben einen Mittelwert von 0 und eine Standardabweichung von 1 und sind unkorreliert. Koeffizientenmatrix der Faktorwerte anzeigen. Hiermit werden die Koeffizienten angezeigt, mit denen die Variablen multipliziert werden, um Faktorwerte zu erhalten. Hiermit werden auch die Korrelationen zwischen Faktorwerten angezeigt.

7.5.5. Faktorenanalyse: Optionen für Fallausschluß und Sortierung

171

Fehlende Werte. Hier können Sie festlegen, wie fehlende Werte behandelt werden. Es stehen zur Verfügung: “Listenweiser Fallausschluß”, “Paarweiser Fallausschluß” und “Durch Mittelwert ersetzen”. Anzeigeformat für Koeffizienten. Hiermit können Sie Einstellungen für Aspekte der Ausgabematrix vornehmen. Sie können die Koeffizienten nach Größe sortieren lassen und Koeffizienten mit absoluten Werten kleiner als der festgelegte Wert unterdrücken. Beispiel für eine Faktorenanalyse – Syntax. FACTOR /VARIABLES h_naehe h_kran_g hwichtfr arbkosnb aktive_z weiterei ausland engebind vertraul zusammen verclubs verantwo hundaufg aufgunwi gutdurch optimist mut_k_an and_helf aeussere auto_woh wachschu freundhu kontakth schoenhu hobbyhun alter hundseel h_friedh /MISSING MEANSUB /ANALYSIS h_naehe h_kran_g hwichtfr arbkosnb aktive_z weiterei ausland engebind vertraul zusammen verclubs verantwo hundaufg aufgunwi gutdurch optimist mut_k_an and_helf aeussere auto_woh wachschu freundhu kontakth schoenhu hobbyhun alter hundseel h_friedh /PRINT UNIVARIATE AIC ROTATION /FORMAT SORT BLANK(.45) /PLOT EIGEN /CRITERIA MINEIGEN(1) ITERATE(25) /EXTRACTION PC /CRITERIA ITERATE(25) /ROTATION VARIMAX /SAVE REG(ALL) /METHOD=CORRELATION . Sie erhalten u.a. folgenden Output:

172

7.5.6. Faktorenanalyse: Wichtige Teile des Outputs

7.5.6.1. Deskriptive Statistiken Deskriptive Statistiken

Mittelwert Standardabw

eichung(a) Analyse

N(a) Fehlendes N Mag Menschen, die Hund in ihrer Nähe haben wollen 3,84 1,119 992 9

Wenn der Hund krank ist, sollte man bereit sein, viel Geld auszugeben

4,41 ,909 992 4

Hund wichtigster Freund 3,53 1,212 992 3 Arbeit und Kosten sollten nicht als Belastung gelten 4,03 1,342 992 13

Aktive Zeit in Minuten pro Tag 171,63 93,112 992 65

Ich mache gern weite Reisen 3,25 1,211 992 5

Ich habe schon viel von der Welt gesehen 3,10 1,195 992 4

Ich versuche zu anderen Menschen enge persönliche Bindungen zu haben

3,76 ,931 992 18

Ich mag es, wenn andere mich vertraulich und persönlich behandeln

3,90 ,920 992 3

Ich fühle mich wohl, wenn ich mit anderen Menschen zusammen bin

4,03 ,871 992 6

Ich versuche, am Leben von Vereinen oder Clubs teilzunehmen

2,89 1,230 992 7

Ich versuche... Verantwortung zu übernehmen

3,85 ,920 992 8

Wenn eine Hund seine Aufgaben nicht erfüllt, sollte man sich einen anderen Hund anschaffen

1,68 1,009 992 11

Hunde müssen keine besonderen Aufgaben haben...

3,39 1,155 992 12

Ich selber bin ein Mensch, der sich gut durchsetzen kann

3,73 ,848 992 11

Ich halte mich für einen optimistischen, fröhlichen Menschen

3,89 ,914 992 8

Ich habe ziemlich viel Mut, Angst kenne ich nicht 3,18 ,893 992 12

173

Wenn ich eine Gelegenheit sehe, anderen zu helfen, nehme ich sie wahr 4,10 ,781 992 8

Ich lege Wert auf mein Äußeres 3,78 ,923 992 10

Ich habe Freude an schönen und schnellen Autos beziehungsweise an eleganten Wohnungen

2,76 1,210 992 17

Mein H. soll Wach- und Schutzhund sein 2,83 1,159 992 29

Mein Hund soll mir ein Freund sein 4,53 ,766 992 16

Mein Hund soll mir Gelegenheit geben, mit anderen interessanten Menschen in Kontakt zu kommen

3,27 1,122 992 14

Mein Hund soll schön und auffallend sein 2,32 1,033 992 18

Mein Hund soll mir die Gelegenheit geben, ein Hobby auszuüben

2,80 1,264 992 51

alter 39,3564 15,90582 992 24 Haben Hunde eine Seele 2,75 ,509 992 73 Sollte man Hunde in Ehren bestatten 1,64 ,451 992 121

a Bei jeder Variablen werden fehlende Werte durch den Mittelwert der Variablen ersetzt.

7.5.6.2. Die Anti-Image-Kovarianzmatrix und andere Informationen über die Angemessenheit der Stichprobe Die Anti-Image-Kovarianzmatrix ist für den Abdruck hier zu groß. Die Anti-Image-Kovarianzmatrix enthält die negativen Werte der partiellen Kovarianzen. In einem guten Faktorenmodell sind die meisten außerhalb der Diagonalen liegenden Elemente klein. Das Maß der Stichprobeneignung einer Variablen wird auf der Diagonalen der Anti-Image-Korrelationsmatrix angezeigt. Sein Maximum ist 1. Gute Werte liegen nahe bei 1. Das Kaiser-Meyer-Olkin-Maß für Angemessenheit der Stichproben überprüft, ob die partiellen Korrelationen zwischen Variablen klein sind. Der Bartlett-Test auf Sphärizität prüft, ob die Korrelationsmatrix eine Einheitsmatrix ist, wobei das Faktorenmodell in diesem Fall ungeeignet wäre.

174

7.5.6.3. Screeplot und rotierte Komponentenmatrix Der Eigenwert eines Faktors j berechnet sich als Summe der quadrierten Ladungen eines Faktors. Er kennzeichnet den durch einen Faktor j erfaßten Varianzanteil.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28

Faktor

0

1

2

3

4

Eige

nwer

t

Screeplot

Rotierte Komponentenmatrix(a)

Komponente 1 2 3 4 5 6 7 Hund wichtigster Freund ,756 Mag Menschen, die Hund in ihrer Nähe haben wollen ,743

Mein Hund soll mir ein Freund sein ,682

Wenn der Hund krank ist, sollte man bereit sein, viel Geld auszugeben

,654

Haben Hunde eine Seele ,500 Wenn eine Hund seine Aufgaben nicht erfüllt, sollte man sich einen anderen Hund anschaffen

-,494

175

Hunde müssen keine besonderen Aufgaben haben...

,490

Sollte man Hunde in Ehren bestatten ,459

Ich mag es, wenn andere mich vertraulich und persönlich behandeln

,792

Ich fühle mich wohl, wenn ich mit anderen Menschen zusammen bin

,773

Ich versuche zu anderen Menschen enge persönliche Bindungen zu haben

,756

Ich selber bin ein Mensch, der sich gut durchsetzen kann

,706

Ich habe ziemlich viel Mut, Angst kenne ich nicht ,657

Ich halte mich für einen optimistischen, fröhlichen Menschen

,614

Ich versuche... Verantwortung zu übernehmen

,544

Wenn ich eine Gelegenheit sehe, anderen zu helfen, nehme ich sie wahr ,451

Mein Hund soll mir die Gelegenheit geben, ein Hobby auszuüben

,758

Ich versuche, am Leben von Vereinen oder Clubs teilzunehmen

,595

Mein Hund soll mir Gelegenheit geben, mit anderen interessanten Menschen in Kontakt zu kommen

,487 ,554

Ich habe Freude an schönen und schnellen Autos beziehungsweise an eleganten Wohnungen

,750

Mein Hund soll schön und auffallend sein ,657

Ich lege Wert auf mein Äußeres ,633


Ich habe schon viel von der Welt gesehen ,846

Ich mache gern weite Reisen ,819

alter -,726Arbeit und Kosten sollten nicht als Belastung gelten ,538

176

Erklärte Gesamtvarianz

3,608 12,885 12,8852,345 8,375 21,2602,226 7,951 29,2111,782 6,364 35,5751,729 6,176 41,7511,601 5,719 47,4701,347 4,810 52,280

Komponente1234567

Gesamt % der Varianz Kumulierte %Rotierte Summe der quadrierten Ladungen

Extraktionsmethode: Hauptkomponentenanalyse.

7.5.6.4 . Graphische Darstellung der Faktorwerte nach Geschlecht und Alter GRAPH /BAR(GROUPED)=MEAN(FAC1_1) BY geschhal BY alterrec . GRAPH /BAR(GROUPED)=MEAN(FAC2_1) BY geschhal BY alterrec . GRAPH /BAR(GROUPED)=MEAN(FAC3_1) BY geschhal BY alterrec . GRAPH /BAR(GROUPED)=MEAN(FAC4_1) BY geschhal BY alterrec . GRAPH /BAR(GROUPED)=MEAN(FAC5_1) BY geschhal BY alterrec . GRAPH /BAR(GROUPED)=MEAN(FAC6_1) BY geschhal BY alterrec . GRAPH /BAR(GROUPED)=MEAN(FAC7_1) BY geschhal BY alterrec . Faktoren-Mittelwerte nach Alter und Geschlecht. Faktor 1: Präferenz für Hunde

177

weiblich männlich


-0,60000

-0,40000

-0,20000

0,00000

0,20000

0,40000

0,60000

0,80000M

ittel

wer

t REG

R fa

ctor

sco

re

1 fo

r ana

lysi

s 1

alterrec8,0023,0038,0053,0068,0083,00

Faktor 2 Präferenz für die Zuwendung anderer Menschen

178

weiblich männlich


-0,60000

-0,40000

-0,20000

0,00000

0,20000

0,40000

0,60000

0,80000M

ittel

wer

t REG

R fa

ctor

sco

re

2 fo

r ana

lysi

s 1

alterrec8,0023,0038,0053,0068,0083,00

179

Faktor 3: Dominanz

weiblich männlich


-0,40000

-0,20000

0,00000

0,20000

0,40000

0,60000

0,80000

1,00000

Mitt

elw

ert R

EGR

fact

or s

core

3

for a

naly

sis

1

alterrec8,0023,0038,0053,0068,0083,00

180

Faktor 4 Kontaktsuche u.a. im Vereinsleben mittels Hund

weiblich männlich


-0,20000

0,00000

0,20000

0,40000

0,60000

Mitt

elw

ert R

EGR

fact

or s

core

4

for a

naly

sis

1

alterrec8,0023,0038,0053,0068,0083,00

181

Faktor 5 Hund und Luxus

weiblich männlich


-0,20000

0,00000

0,20000

0,40000

Mitt

elw

ert R

EGR

fact

or s

core

5

for a

naly

sis

1

alterrec8,0023,0038,0053,0068,0083,00

182

Faktor 6 Mobilität

weiblich männlich


-0,40000

-0,20000

0,00000

0,20000

0,40000

Mitt

elw

ert R

EGR

fact

or s

core

6

for a

naly

sis

1

alterrec8,0023,0038,0053,0068,0083,00

183

Faktor 7 Breitschaft, sich für das Wohl des Hundes anzustrengen

weiblich männlich


-2,00000

-1,00000

0,00000

1,00000

Mitt

elw

ert R

EGR

fact

or s

core

7

for a

naly

sis

1

alterrec8,0023,0038,0053,0068,0083,00

7.5.6.5. Graphische Darstellung der Faktorwerte nach Geschlecht und „Gruppenzugehörigkeit“ GRAPH /BAR(GROUPED)=MEAN(FAC1_1) BY geschhal BY grupord . GRAPH /BAR(GROUPED)=MEAN(FAC2_1) BY geschhal BY grupord . GRAPH /BAR(GROUPED)=MEAN(FAC3_1) BY geschhal BY grupord . GRAPH /BAR(GROUPED)=MEAN(FAC4_1) BY geschhal BY grupord . GRAPH /BAR(GROUPED)=MEAN(FAC5_1) BY geschhal BY grupord . GRAPH /BAR(GROUPED)=MEAN(FAC6_1) BY geschhal BY grupord . GRAPH /BAR(GROUPED)=MEAN(FAC7_1) BY geschhal BY grupord .

184

Faktor 1

weiblich männlich


-0,80000

-0,60000

-0,40000

-0,20000

0,00000

0,20000

0,40000

0,60000

Mitt

elw

ert R

EGR

fact

or s

core

1

for a

naly

sis

1

Geordnete GruppenHundeloseHaupterhebungTierarztpraxisNaturwiss.Sammlung "Hund"Hundesport und h-politisch aktive

185

Faktor 2

weiblich männlich


-0,30000

-0,20000

-0,10000

0,00000

0,10000

0,20000

Mitt

elw

ert R

EGR

fact

or s

core

2

for a

naly

sis

1


186

Faktor 3

weiblich männlich


-0,20000

-0,10000

0,00000

0,10000

0,20000

0,30000

0,40000

0,50000

Mitt

elw

ert R

EGR

fact

or s

core

3

for a

naly

sis

1


187

Faktor 4

weiblich männlich


-0,40000

-0,20000

0,00000

0,20000

0,40000

0,60000

0,80000

Mitt

elw

ert R

EGR

fact

or s

core

4

for a

naly

sis

1


188

Faktor 5

weiblich männlich


-0,40000

-0,20000

0,00000

0,20000

0,40000

Mitt

elw

ert R

EGR

fact

or s

core

5

for a

naly

sis

1


189

Faktor 6

weiblich männlich


-0,50000

-0,25000

0,00000

0,25000

0,50000

0,75000

Mitt

elw

ert R

EGR

fact

or s

core

6

for a

naly

sis

1


190

Faktor 7

weiblich männlich


-0,30000

-0,20000

-0,10000

0,00000

0,10000

0,20000

Mitt

elw

ert R

EGR

fact

or s

core

7

for a

naly

sis

1


191

Kapitel 8 Standardgraphiken 8.1.Balkendiagramme, einfache Auszählungen.

Balkendiagramme können für einfache Häufigkeitsauszählungen benutzt werden, sofern nur eine Variable in das folgende Fenster eingegeben wird.

Durch Anklicken von „Definieren“ erhalten wir die Schaltfläche, die uns angibt, welche Varianten für die „Bedeutung der Balken“ – ohne Zusatzbearbeitung der Graphik – möglich sind.

Es sind: Einfache und kumulierte absolute und prozentuale Häufigkeiten. Wählt man diese Möglichkeiten aus und erzeugt die entsprechende Syntax durch „Einfügen“, dann erhält man folgende Varianten der Syntax: GRAPH /BAR(SIMPLE)=COUNT BY weiterei /MISSING=REPORT. GRAPH /BAR(SIMPLE)=CUFREQ BY weiterei /MISSING=REPORT.

192

GRAPH /BAR(SIMPLE)=PCT BY weiterei /MISSING=REPORT. GRAPH /BAR(SIMPLE)=CUPCT BY weiterei /MISSING=REPORT. Führt man diese Syntax aus, dann erscheinen vier verschiedene Graphiken mit unterschiedlichen Beschriftung und Skalen an der linken Seite und unterschiedlicher Gestalt der Verteilung. Die kumulierten Verteilungen steigen immer von links nach rechts an und enden bei der aufkumulierten Summe der Fälle bzw. bei 100 %: Diagramm

Ich mache gern weite Reisen

Auf jeden Falleher ja

Teils-teilsEher nicht

Auf keinen FallFehlend

Abs

olut

e W

erte

300

200

100

0

Diagramm

193





Kum

ulat

ive

Häu

figke

it1200

1000

800

600

400

200

0

Diagramm





Pro

zent

30

20

10

0

Diagramm

194





Kum

ulat

ive

Pro

zent

120

100

80

60

40

20

0

In allen diesen Graphiken sind die fehlenden Fälle mit enthalten. Dies kann man unterdrücken, wenn man in der Syntax den entsprechenden Zusatz streicht und den „Punkt“ ans Ende der verbleibenden Syntax setzt. GRAPH /BAR(SIMPLE)=COUNT BY weiterei. /MISSING=REPORT. Man erhält dann die Graphik ohne die fehlenden Fälle:


Auf jeden Falleher jaTeils-teilsEher nichtAuf keinen Fall

Abs

olut

e W

erte

300

200

100

0

195

8.2. „Andere Auswertungsfunktionen“ Wählt man aber in der o.a. Schaltfläche die Option: „Andere Auswertungsfunktion“, dann wird vom Rechner die Eingabe einer weiteren Variable verlangt, deren Mittelwerte (nach Voreinstellung) man den Ausprägungen der Variable zuordnen kann, die man als „Kategorie“ benutzt hat.

In der Syntax erscheint jetzt ein „by“; Die Möglichkeit ist gegeben, den Zusammenhang zweier Variablen darzustellen: GRAPH /BAR(SIMPLE)=MEAN(kg_hund) BY weiterei. Der Output sieht wie folgt aus:



Mitt

elw

ert G

ewic

ht d

es H

unde

s in

Kg

28,0

27,5

27,0

26,5

26,0

25,5

Die Graphik zeigt, daß im Durchschnitt das Gewicht der Hunde derjenigen Leute größer ist, die keine Lust zum Reisen haben. Diese Aussage stimmt natürlich nur, wenn man hier die Leute nicht mitzählt, die keinen Hund besitzen. Neben der Möglichkeit, hier den Durchschnitt der zweiten Variable der ersten Variable zuzuweisen, bestehen noch folgende weitere Optionen: Zum Beispiel kann man sich die Summe ausdrucken lassen.

196

Die Syntax lautet dann: GRAPH /BAR(SIMPLE)=SUM(kg_hund) BY weiterei /MISSING=REPORT. An der Graphik sieht man, dass die Summe der Gewichte der Hunde, die auf die verschiedenen Kategorien der Reiselust entfallen, wesentlich weniger informativ sind, es sei denn man wäre an dem Gesamtgewicht des Hundefleischs interessiert, weil alle Befragten in den verschiedenen Kategorien ihre Hunde schlachten...:





Sum

me

Gew

icht

des

Hun

des

in K

g

5000

4000

3000

2000

1000

0

197

8.3. Übersicht über spezielle Auswertungsfunktionen Die anderen Varianten der „Anderen Auswertungsfunktionen“ haben folgende Syntax und Gestalt der Graphik: (gleiche Daten): Angefordert wird GRAPH /BAR(SIMPLE)=MED(kg_hund) BY weiterei Median /MISSING=REPORT. GRAPH /BAR(SIMPLE)=MODE(kg_hund) BY weiterei Modus /MISSING=REPORT. GRAPH /BAR(SIMPLE)=N(kg_hund) BY weiterei Anzahl /MISSING=REPORT. GRAPH /BAR(SIMPLE)=STD(kg_hund) BY weiterei Standardabweichung /MISSING=REPORT. GRAPH /BAR(SIMPLE)=VAR(kg_hund) BY weiterei Varianz /MISSING=REPORT. GRAPH /BAR(SIMPLE)=MIN(kg_hund) BY weiterei Minimum /MISSING=REPORT. GRAPH /BAR(SIMPLE)=MAX(kg_hund) BY weiterei Maximum /MISSING=REPORT. GRAPH /BAR(SIMPLE)=CUS(kg_hund) BY weiterei kumulierte Summe /MISSING=REPORT. GRAPH /BAR(SIMPLE)=PGT(10)(kg_hund) BY weiterei % größer als 10 kg /MISSING=REPORT. GRAPH /BAR(SIMPLE)=PLT(10)(kg_hund) BY weiterei % kleiner als 10kg /MISSING=REPORT. GRAPH /BAR(SIMPLE)=NGT(10)(kg_hund) BY weiterei Anzahl größer als 10 kg /MISSING=REPORT. GRAPH /BAR(SIMPLE)=NLT(10)(kg_hund) BY weiterei Anzahl kleiner als 10 kg /MISSING=REPORT. GRAPH /BAR(SIMPLE)=PIN(5 25)(kg_hund) BY weiterei % im Intervall von 5-25 kg /MISSING=REPORT. GRAPH /BAR(SIMPLE)=NIN(5 25)(kg_hund) BY weiterei Anzahl im Intervall von 5-25 kg /MISSING=REPORT. Die entsprechenden Balkengraphiken sehen wie folgt aus:

198





Med

Gew

icht

des

Hun

des

in K

g27,0

26,5

26,0

25,5

25,0

24,5





Mod

us G

ewic

ht d

es H

unde

s in

Kg

32

30

28

26

24

22

20

18

199





N v

on G

ewic

ht d

es H

unde

s in

Kg

200

100

0





Std

.Abw

. G

ewic

ht d

es H

unde

s in

Kg

18

16

14

12

10

8

6

4

200





Var

Gew

icht

des

Hun

des

in K

g400

300

200

100

0





Min

Gew

icht

des

Hun

des

in K

g

30

20

10

0

201





Max

Gew

icht

des

Hun

des

in K

g100

90

80

70

60

50

40

30

20





KuS

umm

e G

ewic

ht d

es H

unde

s in

Kg

16000

14000

12000

10000

8000

6000

4000

2000

0

202





%>1

0 fü

r Gew

icht

des

Hun

des

in K

g110

100

90

80

70





%<1

0 fü

r Gew

icht

des

Hun

des

in K

g

20

10

0

203





N>1

0 fü

r Gew

icht

des

Hun

des

in K

g160

140

120

100

80

60

40

20

0





N<1

0 fü

r Gew

icht

des

Hun

des

in K

g

20

10

0

204





%in

(5;2

5) G

ewic

ht d

es H

unde

s in

Kg

52

50

48

46

44

42





Nin

(5;2

5) G

ewic

ht d

es H

unde

s in

Kg

100

80

60

40

20

0

Es ist wichtig zu wissen, dass diese Graphiken alle sehr verschiedene Aussagen beinhalten und es ist deshalb von großer Bedeutung, durch entsprechende Beschriftungen auf diese unterschiedlichen Aussagen aufmerksam zu machen.

205

8.4 Änderungen und Zusätze Hierzu kann jede Graphik noch in ihrer Fläche bearbeitet werden. Wer dies nicht möchte, kann auch nachträglich die Graphik in Word beschriften, aber nicht mehr im Feld der Graphik selber, sondern nur außerhalb. Das kann von Vorteil sein, wenn man spätere Änderungen vornehmen möchte, zu denen man aber die Daten nicht mehr hat, aus denen die Graphik produziert worden ist. Wir gehen wieder von den Durchschnittsgewichten der Hunde aus, die die Leute mit unterschiedlichen Reisepräferenzen haben:



Mitt

elw

ert G

ewic

ht d

es H

unde

s in

Kg

28,0

27,5

27,0

26,5

26,0

25,5

Bevor man diese Graphik bearbeiten kann, muß man sie in den Chart-SPSS-Diagramm-Editor transportieren, was durch Doppelklick geschieht. Das darin erscheinende Bild kann man auf Bildschirmgröße vergrößern. Zunächst verändern wir die Farbe von rot in gelb. Hierzu klicken wir die Balken an, die dann mit schwarzen Karos markiert werden:

206

Dann holen wir uns die Schaltfläche „Farbe“ (sieht wie ein Lippenstift aus) und weisen den Balken das Gelb zu.

207

Danach schließen wir diese Schaltfläche wieder. Wollen wir die Balken mit der Information über die Durchschnittsgewichte versehen, holen wir nach Anklicken der Balken die Schaltfläche „Balkenbeschriftung“ und wählen dort die „Standard“-Beschriftung, die wir den Balken „zuweisen“.

Für die Zuweisung eines Titels erhalten wir unter „Diagramme“ die Schaltfläche: „Titel“:

Dort können wir Titel, Untertitel etc. eingeben und auch festlegen, wie der Titel formatiert werden soll. Unsere Graphik sieht dann wie folgt aus: (Allerdings müssen wir zuerst noch die Schriftgröße des Titels durch die Schaltfläche „T“ (=Text) auf die Größe 8 setzen, weil der lange Titeltext sonst nicht in das für ihn vorgesehene Feld passt.

208

Befragte nach Reiselust und Durchschnittsgewicht des Hundes



Mitt

elw

ert G

ewic

ht d

es H

unde

s in

Kg

28,0

27,5

27,0

26,5

26,0

25,5

26,1

25,9

26,2

25,9

27,5

8.5 Auswertung über mehrere Variablen In der Schaltfläche Balkendiagramme findet sich als zweite Option die Möglichkeit, eine (gleichzeitige) Auswertung verschiedener Variablen durchzuführen.

209

Beispiel: wir lassen uns die Durchschnitte des Hundegewichts, des Hundealters und der Wohnungs- fläche gleichzeitig anzeigen: GRAPH /BAR(SIMPLE)= MEAN(kg_hund) MEAN(alter_hu) MEAN(wohnungm) /MISSING=VARIABLEWISE .

Meine Wohnung hat caAlter des Hundes in

Gewicht des Hundes i

Mitt

elw

ert

100

80

60

40

20

0

Eine solche Gegenüberstellung macht für einzelne Stichproben wenig Sinn, ist aber für den Vergleich von Teilgruppen u. U. recht illustrativ.

210

So lässt sich für verschiedene Altersgruppen von Hundehaltern der Durchschnitt des Alters und des Gewichts der Hunde ermitteln: GRAPH /BAR(GROUPED)=MEAN(kg_hund) MEAN(alter_hu) BY alterrec /MISSING=LISTWISE REPORT.

ALTERREC

83,0068,0053,0038,0023,008,00

Mitt

elw

ert

120

100

80

60

40

20

0

Gewicht des Hundes i

n Kg

Alter des Hundes in

Monaten

So zeigt sich bei dieser Gegenüberstellung von Altersgruppen, dass das Alter des Hundebesitzers positiv mit dem Alter des Hundes korreliert, über den berichtet wird, und leicht negativ mit seinem Gewicht korreliert, wie man hier gut sehen, aber auch nachrechnen kann: Siehe die folgende Tabelle:

211

Korrelationen

1,000 -,074 ,253**, ,100 ,000

515 497 511-,074 1,000 -,116**,100 , ,007497 546 542,253** -,116** 1,000,000 ,007 ,511 542 968

Korrelation nach PearsonSignifikanz (2-seitig)NKorrelation nach PearsonSignifikanz (2-seitig)NKorrelation nach PearsonSignifikanz (2-seitig)N

Alter des Hundesin Monaten

Gewicht desHundes in Kg

ALTER

Alter desHundes inMonaten

Gewicht desHundes in Kg ALTER

Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.**.

Bei diesem „Gegenüberstellen“ verschiedener Variablen haben wir als Auswertungsfunktionen wieder die Liste der oben aufgeführten Möglichkeiten zur Verfügung, wie die folgende – oben schon benutzte – Schaltfläche nochmals zeigt.

8.6 Werte einzelner Fälle Als letze Möglichkeit, einfache Balkendiagramme zu benutzen, wird die Option angeboten, „Werte einzelner Fälle“ zu dokumentieren. Diese Option ist natürlich nur für kleine Fall-Mengen sinnvoll. Zieht man beispielsweise eine Stichprobe aus unserer Datei mit 10 Fällen, und will man sich schnell über deren Alter und deren Messwert auf dem Optimismus-Item informieren, wäre das wie folgt möglich: GRAPH /BAR(SIMPLE)=VALUE( optimist ) BY alter .

212

ALTER

74,0025,0063,0060,0038,0039,0028,0040,0055,0023,00

Wer

t Ich

hal

te m

ich

für e

inen

opt

imis

tisch

en, f

röhl

ich

5,5

5,0

4,5

4,0

3,5

3,0

2,5

2,0

1,5

8.7 Gestapelte Balkengraphik Unter den Möglichkeiten der Balkengraphik wird auch die gestapelte Balkengraphik angeboten. Beispiel: Wir wollen wissen, wie sich unsere Befragten prozentual nach Alter und Geschlecht verteilen.

213

Nach Wahl des gestapelten Diagramms für die Auswertung einer Variablen bekommen wir folgende Schaltfläche, in der wir als Kategorienachse das Alter wählen und die Stapel durch die Variable Geschlecht definieren. Die resultierende Syntax ist: GRAPH /BAR(STACK)=PCT BY alterrec BY geschhal. Die Graphik hat folgendes Aussehen (ich habe hier noch durch weitere Bearbeitung die Beschriftung der Stapel mit den Werten der Prozente veranlaßt):

ALTERREC

83,0068,0053,0038,0023,008,00

Pro

zent

80

60

40

20

0


männlich

weiblich

12

21

34

24

710

21

35

27

6

Es besteht ebenfalls die Möglichkeit, bei Stapelgraphiken mehrere Variablen zu vergleichen: Diefolgende Stapelgraphik vergleicht die Mittelwerte der Variablen: „Aktive Zeit am Tag mit dem Hund in Minuten“ sowie „Kosten pro Monat in DM“ zwischen Gruppen verschieden großer Reiselust. GRAPH /BAR(STACK)=MEAN(aktive_z) MEAN(kosten_m) BY weiterei /MISSING=VARIABLEWISE .

214




Auf keinen Fall

Mitt

elw

ert

500

400

300

200

100

0

Kosten im Monat in D

M

Aktive Zeit in Minut

en pro Tag

173152158

183

210

156172165

185199

Tendenziell fällt das arithmetische Mittel beider Variablen, je größer die Reiselust ist. 8.8. Liniengraphiken (Häufigkeitspolygon) Die Liniengraphiken sind in ihrer Variationsmöglichkeit der Balkengraphik sehr ähnlich. Allerdings gibt es zwei wesentliche Unterschiede: Während zwischen den Balken freie Räume sind, für die keine Werte existieren, die einen Sinn haben müssten, werden die Linien über die ganze Breite der Graphik durchgezogen und alle ihre Punkte müssten interpretationsfähig sein. Liniengraphiken setzen insofern stetige Variablen voraus, was bei Balkengraphiken nicht der Fall ist. Weiterhin können Linien für den gleichen Meßpunkt der Kategorienachse mehrere Informationen gleichzeitig anzeigen, was zwar auch für Balkengraphiken möglich ist, aber es ist nur durch Nebeneinanderstellen der Balken zu realisieren, was umständlicher wirkt als übereinander herlaufende Linien. Im folgenden werden zwei Liniengraphiken gezeigt, die den gleichen Sachverhalt betreffen: Das durchschnittliche Gewicht des gehaltenen Hundes nach Alter und Geschlecht des Befragten. Hier haben wir die Syntax und die Graphik als multiple Liniengraphik, die zeigt, dass der Hund von Männern im Durchschnitt schwerer ist als der Hund von Frauen, verglichen über verschiedene Altersgruppen hinweg. GRAPH /LINE(MULTIPLE)MEAN(kg_hund) BY alterrec BY geschhal.

215

ALTERREC

83,0068,0053,0038,0023,008,00

Mitt

elw

ert G

ewic

ht d

es H

unde

s in

Kg

40

30

20

10

0


weiblich

männlich

Die gleiche Information – dargestellt mittels „Veerbundliniensystem“ – ergibt folgendes Bild: Hier werden vor allem die Abstände hervorgehoben: GRAPH /LINE(DROP)=MEAN(kg_hund) BY alterrec BY geschhal.

ALTERREC

83,0068,0053,0038,0023,008,00

Mitt

elw

ert G

ewic

ht d

es H

unde

s in

Kg

40

30

20

10

0


weiblich

männlich

216

8.9 Fächengraphiken Bei Flächengraphiken besteht die Notwendigkeit, daß die Fläche interpretiert werden kann. Dies ist immer dann der Fall, wenn dem Integral der Kurve bei Liniengraphiken Sinn zugesprochen werden kann. Wenn nur der Abstand der Linie von der „x-Achse“ einen Sinn hat, sollte man auf Flächengraphiken verzichten. GRAPH /LINE(AREA)=MEAN(aktive_z) BY alterrec.

ALTERREC

83,0068,0053,0038,0023,008,00

Mitt

elw

ert A

ktiv

e Ze

it in

Min

uten

pro

Tag

200

190

180

170

160

150

140

130

120

Obige Flächengraphik über den Zusammenhang von „Aktive Zeit in Minuten pro Tag bei der Betreuung des Hundes“ und Lebensalter der Befragten ist m.E. problematisch, wenn es auch technisch möglich ist, sie herzustellen. Die Fläche mag schön aussehen, hätte aber nur dann präzise inhaltliche Bedeutung, wenn die Altersvariable und die Variable „aktive Zeit…“ kontinuierlich wäre und wenn man dann das Integral der aktiven Zeit über der Altersvariable zeichnen könnte. Ähnlich ist es mit der folgenden Graphik zur gleichzeitigen Auswertung mehrerer Variablen: GRAPH /LINE(AREA)=PGT(1)(operatio) PGT(1)(schoenop) BY h_kran_g. Das Bild sieht beeindruckend aus, es wäre aber besser eine Liniengraphik oder Balkengraphik erstellt worden:

217

Wenn der Hund krank ist, sollte man bereit sein, viel Geld auszuge

Auf jeden Falleher jaTeils-teilsEher nicht

% >

130

20

10

0

schönheitsbedingte O

perationen

krankheitsbedingte O

perationen

Die entsprechende Balkengraphik wäre:

218

Wenn der Hund krank ist, sollte man bereit sein, viel Geld auszuge

Auf jeden Falleher jaTeils-teilsEher nicht

% >

130

20

10

0

krankheitsbedingte O

perationen

schönheitsbedingte O

perationen222

25

23

1920

Aus ihr geht hervor, dass den verschiedenen Ausprägungen der Variable „Wenn der Hund krank ist, sollte man bereit sein, viel Geld auszugeben…“ unterschiedliche prozentuale Häufigkeiten des Vorkommens von krankheits- und schönheitsbedingten Operationen zugeordnet werden können. Wider Erwarten haben hiernach diejenigen, die kein Geld für Schönheitsoperationen am Hund ausgeben wollen, am häufigsten solche Operationen machen lassen, bei krankheitsbedingten Operationen sind die am häufigsten vertreten, die auch die größte Bereitschaft zeigen, entsprechende Gelder in den Hund zu investieren. Während bei der Flächengraphik undeutlich ist, ob die Flächen addiert sind oder hintereinander stehen, ist ein solcher Zweifel bei der Balkengraphik nicht möglich. Sie ist zwar nicht so „schön“, aber eindeutig. 8.10 Kreisgraphiken Kreisgraphiken eignen sich vor allem zur Darstellung von einfachen Häufigkeitsverteilungen – absolute oder prozentuale Häufigkeiten. Sie wirken anders als Balkendiagramme, wie man am Vergleich des folgenden Kreisdiagramms und des inhaltlich entsprechenden Balkendiagramms zeigen kann: Syntax: GRAPH /PIE=PCT BY grupneu /MISSING=REPORT. GRAPH /BAR(SIMPLE)=PCT BY grupneu /MISSING=REPORT.

219

Naturwiss. Sammlungs

Hundesport und -Poli

Tierarztpraxis

Haupterhebung

ohne Hund

GRUPNEU

Naturwiss. SammlungsHundesport und -Poli

TierarztpraxisHaupterhebung

ohne Hund

Pro

zent

50

40

30

20

10

0

Kleine Häufigkeiten treten in der Kreisgraphik schlechter hervor als in der Balkengraphik, Anteile können aber m. E. besser eingeschätzt werden

220

8.11 Histogramme Im Gegensatz zu Balkendiagrammen kann man bei Histogrammen kontinuierliche Variablen darstellen, und der Rechner „entscheidet“ selber, wie er die Klassen bildet. GRAPH /HISTOGRAM=alter .

ALTER

85,080,0

75,070,0

65,060,0

55,050,0

45,040,0

35,030,0

25,020,0

15,010,0

5,0

140

120

100

80

60

40

20

0

Std.abw. = 16,10 Mittel = 39,4

N = 968,00

In der obigen Graphik wurde die Untergrenze der kleinsten Klasse bei Null und die Klassenbreite mit 10 bestimmt. Wenn wir dies ändern wollen, haben wir dazu folgende Möglichkeiten: Wir machen einen Doppelklick auf die Graphik und transportieren sie so in den Chart- Graphik Editor. Dort klicken wir auf die Intervall–Achse, und es erscheint eine Schaltfläche:

Wir wählen dort die Optionen „Anpassen“ und „Definieren“:

221

Dort ändern wir die angezeigten Werte so, wie wir es für sinnvoll halten, wobei man auch mehrere Varianten ausprobieren kann. Wir erhalten, wenn wir die obigen Werte benutzen wollen, folgendes Ergebnis:

ALTER

75,065,055,045,035,025,015,0

300

200

100

0


N = 968,00

Wir können dem Histogramm auch noch eine Normalverteilungskurve hinzufügen, was eine grobe Einschätzung erlaubt, ob unsere Daten normalverteilt sind:

222

ALTER

87,577,567,557,547,537,527,517,57,5

300

200

100

0


N = 968,00

223

8.12 Fehlerbalken Wir wählen im Graphik-Menü die Option „Fehlerbalken“.

Nach Eingabe der kategorialen Variable und einer kontinuierlichen Variable können wir bei „Bedeutung der Balken“ unter mehreren Varianten wählen. Hier habe ich den Standardfehler des Mittelwerts und einen Multiplikator ausgewählt, den ich auf 1 gesetzt habe. Das Ergebnis ist für die Altersvariable und die Kategorien „Gruppneu“ folgendes (ich habe noch einen Titel eingefügt): GRAPH /ERRORBAR( STERROR 1 )=alter BY grupneu /TITLE= 'Altersverteilung über die Gruppen der Erhebung ' 'unter Berliner'+ ' HundehalterInnen'.

224

2208398175392N =

Altersverteilung über die Gruppen der Erhebun

unter Berliner HundehalterInnen

GRUPNEU



ohne Hund

Mitt

elw

ert +

- 1 S

E A

LTE

R

48

46

44

42

40

38

36

34

Der Fehlerbalken zeigt den Altersdurchschnitt in den Befragten Gruppen und den Standardfehler des Alters für die verschieden großen Teilstichproben. Wollte man Vertrauensintervalle zeigen, so könnte man auch dies erreichen, indem man das in der entsprechenden Schaltfläche wählt und den entsprechenden Prozentsatz anklickt:

225

GRAPH /ERRORBAR( CI 95 )=alter BY grupneu /TITLE= 'Altersverteilung über die Gruppen der Erhebung ' 'unter Berliner'+ ' HundehalterInnen'.

2208398175392N =

Altersverteilung über die Gruppen der Erhebun

unter Berliner HundehalterInnen

GRUPNEU



ohne Hund

95%

CI A

LTE

R

48

46

44

42

40

38

36

34

Wie man sieht, überlappen sich die Vertrauensintervalle (Konfidenzintervalle), was darauf hindeuten dürfte, dass die Altersunterschiede in den Teilgruppen nicht alle signifikant sind. Versuchen Sie das durch eine Varianzanalyse herauszubekommen! Man kann hier auch noch innerhalb der gewählten Kategorien weitere Teilgruppen unterscheiden. Die folgende Graphik unterteilt noch zusätzlich nach dem Geschlecht und wählt ein Konfidenzintervall von 99 %: GRAPH /ERRORBAR( CI 99 )=alter BY grupneu BY geschhal .

226

58313479175 161526496217N =

GRUPNEU



ohne Hund

99%

CI A

LTE

R60

50

40

30


weiblich

männlich

Deutlich ins Auge fallen die großen Altersdifferenzen der Geschlechter in der Gruppe „Hundesport- und –politik“, sowie in der Tierarztpraxis. Führen Sie hierzu eine univariate Varianzanalyse durch !

227

Kapitel 9 Korrespondenzanalyse Als Beispiel werden zwei Variablen aus der Hundehalteruntersuchung genommen: Die Syntax lautet: CORRESPONDENCE TABLE = grupneu(0 4) BY wachschu(1 5) /DIMENSIONS = 2 /MEASURE = CHISQ /STANDARDIZE = RCMEAN /NORMALIZATION = SYMMETRICAL /PRINT = TABLE RPOINTS CPOINTS PERMUTATION(1) RPROFILES CPROFILES RCONF CCONF /PLOT = NDIM(1,MAX) BIPLOT(20) RPOINTS(20) CPOINTS(20) TRROWS(20) TRCOLUMNS(20) . Es folgt der Output mit Erläuterungen:

Korrespondenztabelle

31 114 102 94 55 39618 51 49 36 20 17410 34 34 11 7 9620 26 16 12 6 80

37 88 48 33 11 217

116 313 249 186 99 963

grupneuohne HundHaupterhebungTierarztpraxisHundesport und -PolitikNaturwiss.Sammlungs-BesucherAktiver Rand

Auf keinenFall Eher nicht Teils-teils eher ja Auf jeden Fall Aktiver Rand


Hier wird eine Kreuztabelle gezeigt, die in den Zellen kombinierte Häufigkeiten und an den Rändern die Zeilensummen und Spaltensummen zeigt, so wie wir es von „crosstabs“ kennen, ohne Prozentuierung.

Zeilenprofile

,078 ,288 ,258 ,237 ,139 1,000,103 ,293 ,282 ,207 ,115 1,000,104 ,354 ,354 ,115 ,073 1,000,250 ,325 ,200 ,150 ,075 1,000

,171 ,406 ,221 ,152 ,051 1,000

,120 ,325 ,259 ,193 ,103

grupneuohne HundHaupterhebungTierarztpraxisHundesport und -PolitikNaturwiss.Sammlungs-BesucherMasse



Die Tabelle enthält nicht – wie wir es von Crosstabs kennen, die Zeilenprozente, sondern die relativen Zeilen-Häufigkeiten (Häufigkeit /Zeilensumme). Der Begriff „Masse“ an der Stelle der Spaltensumme ergibt sich aus der Division von Spaltensumme/Tabellensumme.

228

Spaltenprofile

,267 ,364 ,410 ,505 ,556 ,411,155 ,163 ,197 ,194 ,202 ,181,086 ,109 ,137 ,059 ,071 ,100,172 ,083 ,064 ,065 ,061 ,083

,319 ,281 ,193 ,177 ,111 ,225

1,000 1,000 1,000 1,000 1,000


Auf keinenFall Eher nicht Teils-teils eher ja Auf jeden Fall Masse


Die Tabelle enthält nicht – wie wir es von Crosstabs kennen, die Spaltenprozente, sondern die relativen Spalten-Häufigkeiten (Häufigkeit /Spaltensumme) Der Begriff „Masse“ an der Stelle der Zeilensummen ergibt sich aus der Division von Zeilensummen/Tabellensumme.

Auswertung

,214 ,046 ,769 ,769 ,032 ,088,102 ,010 ,175 ,944 ,032,057 ,003 ,054 ,998,010 ,000 ,002 1,000

,059 57,272 ,000a

1,000 1,000

Dimension1234Gesamtauswertung

SingulärwertAuswertungfür Trägheit

Chi-Quadrat Sig. Bedingen Kumuliert

Anteil der Trägheit

Standardabweichung 2

Korrelation

Singulärwert für Konfidenz

16 Freiheitsgradea.

Die Tabelle enthält neue Begriffe für uns. Betrachten wir zunächst den Chiquadratwert. Er hat die Größenordnung des Chiquadratwertes, den wir mit Crosstabs erhalten würden. Bei 16 Freiheitgraden läßt dies auf eine signifikante Beziehung der Variablen schließen. Weiterhin hat SPSS alle Distanzen zwischen den vorhandenen Datenpunkten berechnet und in eine Distanzmatrix hineingeschrieben. Dies Distanzmatrix wurde einer uns aus der Faktorenanalyse bekannten „Hauptkomponentenanalyse“ unterzogen, die für unseren Fall 4 Dimensionen (Faktoren oder Komponenten) berechnet hat. Für diese wird eine sogenannte „Auswertung für Trägheit“ berechnet. Sie entspricht dem „Eigenwert“ aus der Faktorenanalyse, d.h. dem Beitrag der Faktoren zur Erklärung der Gesamtvarianz. Dieser Beitrag liegt insgesamt sehr niedrig, nämlich bei 5,9 %. Die Eigenwerte spiegeln die relative Bedeutung der einzelnen Faktoren. Die ebenfalls aufgeführten Singulärwerte sind die Quadratwurzeln der Eigenwerte. Sie werden als die höchstmögliche kanonische Korelation zwischen den Kategorien der Variablen für jede der Komponenten gedeutet. In den Spalten unter der Überschrift „Anteil der Trägheit“ stehen die Überschriften „Bedingen“ und „kumuliert“. Die dortigen Zahlen ergeben sich aus der Division der Eigenwerte durch ihre am Fuß der Tabelle abgedruckte Summe, und sie werden einzeln und kumuliert aufgelistet. Damit geben sie die auf sie entfallenden Anteile der erklärten Varianz wieder. Die rechts in der Tabelle stehende „Standardabweichung“ bezieht sich auf den Singulärwert (die Quadratwurzel des Eigenwertes). Welche „Korrelation“ in der Tabelle angegeben wurde, weiß ich nicht, vermute aber daß es die Korrelaton der ersten mit der zweiten Komponente (Dimension) ist.

229

Übersicht über Zeilenpunktea

,411 -,433 -,117 ,017 ,361 ,055 ,961 ,033,181 -,195 ,046 ,002 ,032 ,004 ,815 ,021,100 ,170 ,832 ,008 ,013 ,676 ,076 ,875,083 ,753 -,571 ,014 ,220 ,265 ,715 ,196

,225 ,595 ,019 ,018 ,373 ,001 ,931 ,000

1,000 ,059 1,000 1,000

grupneuohne HundHaupterhebungTierarztpraxisHundesport und -PolitikNaturwiss.Sammlungs-BesucherAktiver Gesamtwert

Masse 1 2

Wert inDimension Über

sichtüberTrägheit 1 2

des Punktes ander Trägheit der

Dimension1 2

der Dimensionan der Trägheit

des Punktes

Beitrag

Symmetrische Normalisierunga.

Obige Tabelle stellt eine Analyse der einzelnen „Zeilenpunkte“ dar. Die Zeilenpunkte beziehen sich hier auf die Variable: Gruppe-neu in der Hundehalteruntersuchung. Die Anteile der Zeilensummen an der Tabellensumme werden hier wiederum als „Masse“ aufgeführt. Der Zweck ist, den Effekt ungleich großer Teilstichproben zu kompensieren. Die „Werte in der Dimension 1 und 2 bedeuten folgendes: Jeder Punkt auf der Skala „Gruppeneu“ hat auf jeder der beiden „Dimensionen“ einen Koordinatenpunkt. Das entsprechende Wertepaar wird hier angegeben. Die Trägheitswerte sind Angaben über die Anteile an der insgesamt erklärten Varianz (s.o.). Der „Beitrag des Punktes an der Trägheit der Dimension“ ist so etwas wie eine Faktorladung auf der Dimension. Der „Beitrag der Dimension an der Trägheit des Punktes“ listet multiple Korrelationen auf, die wiederspiegeln, wie gut die Hauptkomponentenanalyse jeden einzelnen Punkt reproduziert.

230

Übersicht über Spaltenpunktea

,120 ,879 -,44 ,023 ,436 ,227 ,867 ,103 ,970,325 ,274 ,129 ,007 ,114 ,053 ,737 ,078 ,815,259 -,139 ,409 ,006 ,023 ,422 ,172 ,709 ,881,193 -,433 -,34 ,010 ,170 ,215 ,753 ,218 ,971,103 -,732 -,29 ,013 ,257 ,083 ,912 ,067 ,979

1,000 ,059 1,000 1,000

Mein H. soll Wach-und Schutzhund seinAuf keinen FallEher nichtTeils-teilseher jaAuf jeden FallAktiver Gesamtwert

Masse 1 2

Wert inDimension

ÜbersichtüberTrägheit 1 2

des Punktes ander Trägheit der

Dimension

1 2

Gesamtübersic

ht

der Dimension an derTrägheit des Punktes

Beitrag

Symmetrische Normalisierunga.

Die obige Tabelle ist analog aufgebaut wie die vorher gezeigte, sie enthält nur noch eine Summenspalte zusätzlich, die die multiplen Korrelationen aufsummiert.

Konfidenzzeilenpunkte

,065 ,100 -,263,148 ,235 ,093,267 ,250 -,170,292 ,405 -,064

,117 ,260 -,270

grupneuohne HundHaupterhebungTierarztpraxisHundesport und -PolitikNaturwiss.Sammlungs-Besucher

1 2

Standardabweichungin Dimension

1-2Korrelation

Konfidenzspaltenpunkte

,200 ,270 ,227,115 ,222 -,178,149 ,193 ,134,149 ,170 -,226,183 ,265 -,177

Mein H. soll Wach-und Schutzhund seinAuf keinen FallEher nichtTeils-teilseher jaAuf jeden Fall

1 2

Standardabweichungin Dimension

1-2Korrelation

Beide obigen Tabellen geben für die Zeilen und Spalten unserer Kreuztabelle an, welche Standardabweichungen für jeden Skalenpunkt auf den zugeordneten Dimensionen berechnet wurden, und wie hoch die Dimensionen am entprechenden Skalenpunkt korrelieren.

231

ohne Hund

Haupterhebung

Tierarztpraxis


Naturwiss. Sammlung

grupneu

-0,6

-0,4

-0,2

0,0

0,2

0,4

0,6

0,8

Dim

ensi

on 1

Tra

nsfo

rmie

rte

grup

neu

Kat

egor

ien

Symmetrisch-Normalisierung

Dimension 1 Transformierte grupneu Kategorien

232

ohne Hund

Haupterhebung

Tierarztpraxis


Naturwiss. Sammlung

grupneu

-0,6

-0,3

0,0

0,3

0,6

0,9

Dim

ensi

on 2

Tra

nsfo

rmie

rte

grup

neu

Kat

egor

ien


Dimension 2 Transformierte grupneu Kategorien

Obige Plots zeigen, wie die Skalenpunkte von Grupneu auf der Dimension 1 und 2 abgebildet wurden. Die Dimensionen sind mit dem arithmetischen Mittel 0 und der Standardabweichung 1 gebildet worden, also „standardisiert“. Es wird bei der Darstellung des Verfahrens im Internet darauf verwiesen, daß es verschiedene Standardisierungsmethoden gebe, die erheblichen Einfluß auf das Ergebnis haben könnten.

233

Auf keinen Fall Eher nicht Teils-teils eher ja Auf jeden Fall


-1,0

-0,5

0,0

0,5

1,0

Dim

ensi

on 1

Tra

nsfo

rmie

rte

Mei

n H

. sol

l W

ach-

und

Sch

utzh

und

sein

Kat

egor

ien


Dimension 1 Transformierte Mein H. soll Wach- und Schutzhund sein Kategorien

234

Auf keinen Fall Eher nicht Teils-teils eher ja Auf jeden Fall


-0,4

-0,2

0,0

0,2

0,4

Dim

ensi

on 2

Tra

nsfo

rmie

rte

Mei

n H

. sol

l W

ach-

und

Sch

utzh

und

sein

Kat

egor

ien


Dimension 2 Transformierte Mein H. soll Wach- und Schutzhund sein Kategorien

Die obigen zwei weiteren Plots zeigen, wie die Skalenpunkte von „Mein Hund soll Wach- und Schutzhund sein“ auf der Dimension 1 und 2 abgebildet wurden. Die Dimensionen sind mit dem arithmetischen Mittel 0 und der Standardabweichung 1 gebildet worden, also „standardisiert“. Es wird bei der Darstellung des Verfahrens im Internet darauf verwiesen, daß es verschiedene Standardisierungsmethoden gebe, die erheblichen Einfluß auf das Ergebnis haben könnten.

235

-0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8

Dimension 1

-0,6

-0,3

0,0

0,3

0,6

0,9

Dim

ensi

on 2

ohne Hund

Haupterhebung

Tierarztpraxis




Zeilenpunkte für grupneu

Obige Graphik zeigt, wie die von Grupneu in beiden Dimensionen (Faktoren) gleichzeitig abgebildet werden.

236

-1,0 -0,5 0,0 0,5 1,0

Dimension 1

-0,4

-0,2

0,0

0,2

0,4

Dim

ensi

on 2

Auf keinen Fall

Eher nicht

Teils-teils

eher ja

Auf jeden Fall


Spaltenpunkte für Mein H. soll Wach- und Schutzhund sein

Obige Graphik zeigt, wie die von „Mein Hund soll Wach- und Schutzhund sein“ in beiden Dimensionen (Faktoren) gleichzeitig abgebildet werden.

237

-1,0 -0,5 0,0 0,5 1,0

Dimension 1

-0,6

-0,3

0,0

0,3

0,6

0,9

Dim

ensi

on 2

ohne Hund

Haupterhebung

Tierarztpraxis



Auf keinen Fall

Eher nicht

Teils-teils

eher jaAuf jeden Fall

grupneuMein H. soll Wach- und Schutzhund sein


Zeilen- und Spaltenpunkte

Obige Graphik kombiniert die Abbildung beider Skalen auf beide Dimensionen gleichzeitig. Die Verbindung der Punkte jeder Skala miteinander habe ich selber nachgetragen, sie wird von SPSS nicht geliefert. Wir wissen, daß die Korrespondenz nicht sehr stark ist, und es ist daher zu fragen, was uns diese Graphik sagen „will“. Dies zeigt uns die folgende permutierte Korrespondenztabelle, in der die Zeilen und Spalten so vertauscht sind, daß zusammengehöriges besser erkennbar ist: Die Hauptdiagonale ist jetzt wesentlich besser durch stark besetzte Felder von den Werten neben ihr abgehoben als das in der ursprünglichen Tabelle der Fall war: Damit dies erkennbar ist, wird die Ausgangstabelle nochmals unten abgedruckt:

Permutierte Korrespondenztabelle nach Dimension 1.

55 94 102 114 31 39620 36 49 51 18 174

7 11 34 34 10 96

11 33 48 88 37 217

6 12 16 26 20 8099 186 249 313 116 963

grupneuohne HundHaupterhebungTierarztpraxisNaturwiss.Sammlungs-BesucherHundesport und -PolitikAktiver Rand

Auf jeden Fall eher ja Teils-teils Eher nichtAuf keinen

Fall Aktiver Rand


238

Korrespondenztabelle

31 114 102 94 55 39618 51 49 36 20 17410 34 34 11 7 9620 26 16 12 6 80

37 88 48 33 11 217

116 313 249 186 99 963




Fazit: Die Korrespondenzanalyse hilft uns dabei, durch die Analyse verborgener Dimensionen in Nominaldaten versteckte lineare Beziehungen aufzuspüren und diesen Beziehungen entsprechend die Zuordnung von Nominaldaten nach Ähnlichkeiten zu verbessern.

239

Kapitel 10 Reliablilitätsanalyse Wir laden den File: HundehalterWS2004_5.sav Wir öffnen die Schaltfläche: Analysieren, Skalieren, Reliabilitätsanalyse.

Ziel ist es, Variablen zu finden, deren additive Zusammenstellung eine brauchbare Skala ergibt zum Messen interessierender Eigenschaften. Wir möchten drei Skalen bilden: Präferenz für Hunde, Präferenz für Dominanz, Präferenz für die Zuwendung anderer Menschen. Wir beginnen mit der Skala: Präferenz für Hunde. Wir wählen folgende Items aus: h_naehe hwichtfr freundhu h_kran_g arbkosnb aufgunwi kontakth

Auf der o.a. Schaltfläche fordern wir das Menü Statistik und in diesem fordern wir folgende Statistiken an:

240

Die nun erzeugte Syntax lautet: RELIABILITY /VARIABLES=h_naehe hwichtfr freundhu h_kran_g arbkosnb aufgunwi kontakth /FORMAT=LABELS /SCALE(ALPHA)=ALL/MODEL=ALPHA /STATISTICS=DESCRIPTIVE SCALE COV /SUMMARY=TOTAL MEANS VARIANCE COV CORR . Der Output ist folgender: Reliabilität

Zusammenfassung der Fallverarbeitung

945 95,347 4,7

992 100,0

GültigAusgeschlossen a

Insgesamt

FälleAnzahl %

Listenweise Löschung auf der Grundlagealler Variablen in der Prozedur.

a.

Es wird hier automatisch mit der Option „Listwise“ gearbeitet. Meansub etc. steht nicht zur Verfügung.

241

Zuverlässigkeitsstatistik

,681 ,710 7

CronbachsAlpha

Cronbachs Alpha fürstandardisierte Items

Anzahlder Items

Es wird für die ausgewählten Items ein Zuverlässigkeitsmaß berechnet, und zwar nach folgender Formel:

⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜

⎝

⎛

−−

=∑=

21

2

11 tot

k

ii

s

s

kkα

Hierbei bedeutet k = Anzahl der Items s²i = Varianz der verschiedenen Items s²tot = Varianz einer gewichteten Linearkombination der einzelnen Items. Herauszufinden ist, welche Items kombiniert werden können, und wie ihre optimale Gewichtung sein soll. Oben ist für die nicht standardisierten Items und für die standardisierten Items das Maß von Cronbachs Alpha angegeben. Als Faustregel gilt, daß bei Testskalen ab Alpha = .75 eine befriedigende und ab Alpha = .85 eine gute Skalenqualität vorliegt. Da wir oben für die standardisieren Items einen Wert von 0,71 erreicht haben, versuchen wir noch, durch Wegnahme von Items diesen Wert zu steigern (siehe unten). Die folgende Tabelle zeigt, daß immerhin von unseren Probanden 945 in der Itemanalyse berücksichtigt wurden, sowie die Mittelwerte und Standardabweichungen unserer Items.

Itemstatistik

3,85 1,121 945

3,55 1,204 945

4,53 ,771 945

4,42 ,905 945

4,06 1,333 945

3,39 1,157 945

3,28 1,129 945

Mag Menschen, die Hundin ihrer Nähe habenwollenHund wichtigster FreundMein Hund soll mir einFreund seinWenn der Hund krank ist,sollte man bereit sein, vielGeld auszugebenArbeit und Kosten solltennicht als Belastung geltenHunde müssen keinebesonderen Aufgabenhaben...Mein Hund soll mirGelegenheit geben, mitanderen interessantenMenschen in Kontakt zukommen

MittelwertStd.

-Abweichung Anzahl

242

Die folgende Kovarianzmatrix wird benötigt, um Alpha (s.o) zu berechnen.

Matrix für die Kovarianz zwischen den Items

1,256 ,844 ,392 ,459 ,114 ,298 ,492

,844 1,449 ,430 ,508 ,109 ,328 ,536

,392 ,430 ,595 ,259 ,112 ,205 ,271

,459 ,508 ,259 ,819 ,101 ,176 ,269

,114 ,109 ,112 ,101 1,777 -,058 -,009

,298 ,328 ,205 ,176 -,058 1,340 ,127

,492 ,536 ,271 ,269 -,009 ,127 1,274

Mag Menschen, die Hin ihrer Nähe habenwollenHund wichtigster FreuMein Hund soll mir eiFreund seinWenn der Hund kransollte man bereit seinGeld auszugebenArbeit und Kosten sonicht als Belastung gHunde müssen keinebesonderen Aufgabehaben...Mein Hund soll mirGelegenheit geben, manderen interessanteMenschen in Kontaktkommen

MagMenschen,die Hund inihrer Nähe

haben wollen

Hundwichtigster

Freund

Mein Hundsoll mir einFreund sein

Wenn derHund krankst, sollte manbereit sein,viel Geld

auszugeben

Arbeit undKosten sollten

nicht alsBelastung

gelten

Hundemüssen keinebesonderenAufgabenhaben...

Mein Hundsoll mir

Gelegenheitgeben, mitanderen

nteressantenMenschen inKontakt zukommen

Die Kovarianzmatrix wird berechnet und in der Analyse verwendet.

Zusammenfassung der Itemstatistiken

3,866 3,275 4,527 1,252 1,382 ,243 71,216 ,595 1,777 1,182 2,987 ,155 7

,284 -,058 ,844 ,902 -14,433 ,044 7,259 -,038 ,625 ,663 -16,502 ,032 7

Item-MittelwerteItem-VarianzenInter-Item-KovarianzenInter-Item-Korrelationen

Mittelwert Minimum Maximum BereichMaximum /Minimum Varianz

Anzahlder Items

Die Kovarianzmatrix wird berechnet und in der Analyse verwendet.

Die folgende Übersicht ist für uns die interessanteste Tabelle. Sie zeigt uns vor allem die Trennschärfen (Item-Skala-Korrelation) und den Wert von Cronbachs Alpha, wenn man das jeweilige Alpha fortläßt. Das bringt uns auf die Idee, auszuprobieren, was passiert, wenn wir die Items mit den geringsten Trennschärfen fortlassen (s.u.).

243

Gesamt-Itemstatistik

23,21 13,982 ,620 ,464 ,577

23,52 13,475 ,623 ,478 ,571

22,53 16,501 ,533 ,299 ,624

22,65 16,072 ,488 ,279 ,626

23,00 17,921 ,065 ,023 ,749

23,67 16,945 ,226 ,086 ,692

23,79 15,789 ,376 ,205 ,650

Mag Menschen, die Hundin ihrer Nähe habenwollenHund wichtigster FreundMein Hund soll mir einFreund seinWenn der Hund krank ist,sollte man bereit sein, vielGeld auszugebenArbeit und Kosten solltennicht als Belastung geltenHunde müssen keinebesonderen Aufgabenhaben...Mein Hund soll mirGelegenheit geben, mitanderen interessantenMenschen in Kontakt zukommen

Skalenmittelwert, wenn Itemweggelassen

Skalenvarianz,wenn Item

weggelassen

KorrigierteItem-Skala-Korrelation

Quadriertemultiple

Korrelation

CronbachsAlpha, wenn

Itemweggelassen

Skalenstatistik

27,06 20,435 4,520 7Mittelwert Varianz

Std.-Abweichung

Anzahlder Items

Um dies nun auszuprobieren entfernen wir schrittweise diese Items, und zwar in folgender Reihenfolge:

Arbeit und Kosten sollten nicht als Belastung gelten, Hunde müssen keine besonderen Aufgaben haben Mein Hund soll mir Gelegenheit geben, mit anderen interessanten Menschen in Kontakt zu kommen.

Wir streichen die Items daher schrittweise aus unserer Syntax: RELIABILITY /VARIABLES=h_naehe hwichtfr freundhu h_kran_g arbkosnb aufgunwi kontakth /FORMAT=LABELS /SCALE(ALPHA)=ALL/MODEL=ALPHA /STATISTICS=DESCRIPTIVE SCALE COV /SUMMARY=TOTAL MEANS VARIANCE COV CORR .

244

Der Effekt ist.


,748 ,757 6

CronbachsAlpha


Anzahlder Items

Cronbachs Alpha steigt auf 0,748 bzw. 0,757 an. Streichen wir das zweitgenannte Item, müßte Alpha auf 0,778 ansteigen. Wir probieren das aus:


19,14 11,649 ,648 ,463 ,664

19,45 11,117 ,658 ,480 ,657

18,46 14,181 ,531 ,290 ,710

18,57 13,715 ,495 ,276 ,712

19,59 14,275 ,257 ,080 ,778

19,72 13,176 ,414 ,203 ,734

Mag Menschen, die Hundin ihrer Nähe habenwollenHund wichtigster FreundMein Hund soll mir einFreund seinWenn der Hund krank ist,sollte man bereit sein, vielGeld auszugebenHunde müssen keinebesonderen Aufgabenhaben...Mein Hund soll mirGelegenheit geben, mitanderen interessantenMenschen in Kontakt zukommen



weggelassen


Quadriertemultiple

Korrelation


Itemweggelassen

RELIABILITY /VARIABLES=h_naehe hwichtfr freundhu h_kran_g arbkosnb aufgunwi kontakth /FORMAT=LABELS /SCALE(ALPHA)=ALL/MODEL=ALPHA /STATISTICS=DESCRIPTIVE SCALE COV /SUMMARY=TOTAL MEANS VARIANCE COV CORR . Der Effekt ist:


,778 ,782 5

CronbachsAlpha


Anzahlder Items

Cronbachs Alpha steigt auf 0,778 bzw. 0,782 an. und:

245


15,75 8,635 ,660 ,459 ,697

16,06 8,162 ,672 ,475 ,692

15,07 10,971 ,524 ,281 ,752

15,18 10,447 ,508 ,276 ,752

16,33 9,835 ,441 ,201 ,778

Mag Menschen, die Hundin ihrer Nähe habenwollenHund wichtigster FreundMein Hund soll mir einFreund seinWenn der Hund krank ist,sollte man bereit sein, vielGeld auszugebenMein Hund soll mirGelegenheit geben, mitanderen interessantenMenschen in Kontakt zukommen



weggelassen


Quadriertemultiple

Korrelation


Itemweggelassen

Wenn wir jetzt das dritte Item streichen, könnte das unser Alpha schon wieder reduzieren: RELIABILITY /VARIABLES=h_naehe hwichtfr freundhu h_kran_g arbkosnb aufgunwi kontakth /FORMAT=LABELS /SCALE(ALPHA)=ALL/MODEL=ALPHA /STATISTICS=DESCRIPTIVE SCALE COV /SUMMARY=TOTAL MEANS VARIANCE COV CORR . Wir probieren das aus: Der Effekt ist:


,777 ,780 4

CronbachsAlpha


Anzahlder Items

Das heißt, wir behalten dieses Item bei und bauen eine Skala, die unsere Präferenz für Hunde mißt, auf folgenden Items: h_naehe hwichtfr freundhu h_kran_g kontakth Die Syntax am Schluß unserer Bemühungen um Itemauswahl für die Präferenz für Hunde wäre daher: RELIABILITY /VARIABLES=h_naehe hwichtfr freundhu h_kran_g kontakth /FORMAT=LABELS /SCALE(ALPHA)=ALL/MODEL=ALPHA /STATISTICS=DESCRIPTIVE SCALE COV

246

/SUMMARY=TOTAL MEANS VARIANCE COV CORR . Nun zur Bestimmung der optimalen Gewichtung unserer Items. Eine einfache Methode wäre die folgende: Wir führen eine Kategoriale Hauptkomponentenanalyse durch (CATPCA). Dazu wählen wir unter „Analysieren“ – Dimensionsreduktion – „Optimale Skalierung“. Wir erhalten folgende Schaltfläche:

Wir kreuzen an: Einige Variablen sind nicht mehrfach nominal und klicken auf „Definieren“. Wir erhalten die folgende Schaltfläche und ziehen in die Analyse-Variablen hinein. Danach wandeln wir sie um in Ordinalskalierte mit dem Gewicht 1 und setzen die „Zahl der Dimensionen“ auf 1:

247

In der Schaltfläche „Speichern“ fordern wir die Speicherung der transformierten Variablen an.

Dann drücken wir auf „Weiter“ und „Einfügen“ und erhalten folgende Syntax: CATPCA VARIABLES=h_naehe h_kran_g hwichtfr freundhu kontakth /ANALYSIS=h_naehe(WEIGHT=1,LEVEL=ORDI) h_kran_g(WEIGHT=1,LEVEL=ORDI) hwichtfr(WEIGHT=1,LEVEL=ORDI) freundhu(WEIGHT=1 ,LEVEL=ORDI) kontakth(WEIGHT=1,LEVEL=ORDI) /MISSING=h_naehe(PASSIVE,MODEIMPU) h_kran_g(PASSIVE,MODEIMPU) hwichtfr(PASSIVE,MODEIMPU) freundhu(PASSIVE,MODEIMPU) kontakth(PASSIVE,MODEIMPU) /DIMENSION=1 /NORMALIZATION=VPRINCIPAL /MAXITER=100 /CRITITER=.00001 /PRINT=CORR LOADING /PLOT=OBJECT (20) /SAVE=TRDATA . Wenn wir diese ausführen, schreibt das Programm uns unsere standardisierten Variablen mit 1 gewichtet in unseren Datensatz. Ansonsten ist die Ausgabe folgende: Sie zeigt, daß die Variablen standardisiert wurden und jetzt ein Alpha ergeben, das mit 0,797 noch oberhalb des o.a. Alpha liegt. CATPCA


,797 2,757,797 2,757

Dimension1Gesamtwert

CronbachsAlpha

Gesamt(Eigenwert)

Varianzberücksichtigt

248

Die Korrelationsmatrix der durch die CATPCA transformierten Variablen zeigt, daß diese höher miteinander korrelieren als die Rohwerte:

Durch Korrelationen transformierte Variablen

1,000 ,459 ,624 ,452 ,402

,459 1,000 ,482 ,359 ,265

,624 ,482 1,000 ,449 ,403

,452 ,359 ,449 1,000 ,311

,402 ,265 ,403 ,311 1,000

1 2 3 4 52,707 ,745 ,638 ,535 ,375

Mag Menschen, die Hundin ihrer Nähe habenwollen

a

Wenn der Hund krank ist,sollte man bereit sein, vielGeld auszugeben

a

Hund wichtigster Freunda

Mein Hund soll mir einFreund sein

a

Mein Hund soll mirGelegenheit geben, mitanderen interessantenMenschen in Kontakt zukommen

a

DimensionEigenwert

MagMenschen,die Hund inihrer Nähe

haben wollen

Wenn derHund krank

ist, sollte manbereit sein,viel Geld

auszugeben

Hundwichtigster

Freund

Mein Hundsoll mir einFreund sein

Mein Hundsoll mir

Gelegenheitgeben, mitanderen

interessantenMenschen inKontakt zukommen

Fehlende Werte wurden mit dem Modalwert der quantifizierten Variable angewendet.a.

249

Komponentenladungen

Komponentenladungen

,824

,704

,848

,693

,620

Mag Menschen, die Hundin ihrer Nähe habenwollenWenn der Hund krank ist,sollte man bereit sein, vielGeld auszugebenHund wichtigster FreundMein Hund soll mir einFreund seinMein Hund soll mirGelegenheit geben, mitanderen interessantenMenschen in Kontakt zukommen

1Dimension

Normalisierung mit Variablen-Prinzipal.

Die Tabelle der Komponentenladungen zeigt, daß unsere Variablen sehr hohe Ladunen auf einer gemeinsamen Dimension haben, höher als sie auf z.B. einem der Faktoren bei einer Faktorenanalyse gehabt hätten. Wenn wir uns jetzt unseren Datensatz ansehen, bemerken wir, daß die transformierten Variablen ans Ende des Datensatzes angefügt sind. Würden wir sie nochmals einer Reliabilitätsanalyse unterziehen, dann würden wir feststellen, daß wir mit dieser ein noch höheres Cronbachsches Alpa erzielen würden, das die o.a. Größenordnung (0,797) erreicht. Wir können daher unsere neue Skala (Präferenz für Hunde) als Summation der neu gebildeten Variablen konstruieren. Dazu benennen wir im Datensatz die dort hineingeschriebenen Variablen COMPUTE Praefhund = TRA1_1 + TRA2_1 + TRA3_1 + TRA4_1 + TRA5_1 . EXECUTE . Mit der neuen Skala „Praefhund“ können wir nun untersuchen, welche Gruppen hohe oder geringere Präferenzen haben. Die Ergebnisse sind genauer als wenn wir für den gleichen Zweck Faktorwerte aus der Faktorenanalyse genommen hätten.

250

Beispiele: GRAPH /BAR(GROUPED)=MEAN(Praefhund) BY grupord BY geschhal .

Hundelose

Haupterhebung

Tierarztpraxis

Naturwiss.Sammlung "Hund"

Hundesport und h-politisch aktive

Geordnete Gruppen

-3,00

-2,00

-1,00

0,00

1,00

2,00

3,00

Mitt

elw

ert P

raef

hund


weiblichmännlich

251

GRAPH /LINE(MULTIPLE)MEAN(Praefhund) BY alterrec BY geschhal .

8,00 23,00 38,00 53,00 68,00 83,00

alterrec

-2,00

-1,00

0,00

1,00

2,00

Mitt

elw

ert P

raef

hund


weiblichmännlich

Quelle für den mathematischen Hintergrund: http://www.rrz.uni-hamburg.de/RRZ/Software/SPSS/Algorith.120/catpca.pdf

Frauen

252

Kapitel 11 Interaktive Diagramme Interaktive Diagramme unterscheiden sichdadurch von Standard-Diagrammen, daß es möglich ist, • Variablen im Diagramm zu ändern. verbunden mit einer • unmittelbaren Aktualisierung des Diagramms, • das Ändern von Auswertungsfunktionen nach dem Erstellen des Diagramms und das • Einfügen von zusätzlichen Diagrammelementen. Die Benutzeroberfläche für das Erstellen und Ändern von Standarddiagrammen unterscheidet sich von der für interaktive Diagramme in einigen Punkten, beispielsweise: • Das Auswählen von Variablen durch Ziehen und Ablegen steht nur bei interaktiven Diagrammen zur

Verfügung. • Die Variablenauswahl in den Dialogfeldern für Standarddiagramme erfolgt genauso wie die

Variablenauswahl in statistischen Dialogfeldern. 1. In den Dialogfeldern für Diagramme können Sie festlegen, obVariablennamen oder Variablenlabels

angezeigt werden. Klicken Sie dazu mit derrechten Maustaste auf eine Variablenliste, und verwenden Sie das dann angezeigteKontextmenü. (Bei den Dialogfeldern für Standarddiagramme stellen Sie dieAnzeige von Variablennamen oder Variablenlabels auf der Registerkarte"Allgemein" im Dialogfeld "Optionen" ein. Wählen Sie dazu im Menü"Bearbeiten" den Befehl "Optionen". Diese Einstellung tritt jeweils erst mit demnächsten Öffnen einer Datendatei in Kraft.)

Variablen wie in Datei sortiert:

253

2. In den Variablenlisten in den Dialogfeldern für interaktive Diagramme werdenSymbole verwendet,

durch die Variablen als systemeigen, metrisch oder kategorial gekennzeichnet werden. Durch Klicken mit der rechten Maustaste in die Liste der Quellvariablen öffnen Sie einKontextmenü, mit dem Sie die Klassifikation von kategorialen und metrischenVariablen ändern können. In den Dialogfeldern für Standarddiagramme werden dieVariablen durch Symbole entweder als numerische oder als String-Variablen(alphanumerisch) gekennzeichnet. Diese Klassifikation basiert auf der Festlegungdes Variablentyps im Daten-Editor.)

Variablen alphabetisch sortiert:

Anzahl der Hunde ist hier als metrische Variable definiert, das kann man aber ändern:

Systemeigene Variablen sind Anzahl, Fall und Prozent

metrische Variable kategoriale Variable

254

3. In den Dialogfeldern für Standarddiagrammen können Sie mit Hilfe der rechtenMaustaste auf

Direkthilfe für Steuerelemente zugreifen. In den Dialogfeldern für interaktive Diagramme ist diese Funktion nicht verfügbar.

4. In den Dialogfeldern von Standarddiagrammen können Sie Information über dieVariablen erhalten,

indem Sie mit der rechten Maustaste auf die Variablenlistenklicken. In den Dialogfeldern für interaktive Diagramme ist diese Funktion nicht verfügbar. (Mit der Option "Variablen" im Menü "Extras" stehen Ihnen ähnliche Informationen zur Verfügung.).

Jetzt ist Anzahl der Hunde als kategoriale Variable definiert:

255

5. Interaktive Diagramme werden im Viewer-Fenster bearbeitet. Standarddiagrammewerden in einem anderen Fenster bearbeitet (Chart-Editor).

6. Interaktive Diagramme können geändert werden, beispielsweise durch Einfügen zusätzlicher

Variablen, Elemente, Auswertungsfunktionen usw. (DieMöglichkeiten zur Änderung von Standarddiagrammen beschränken sich imallgemeinen darauf, daß Sie Attribute von Elementen ändern können, die bereits beim Erstellen des Diagramms vorhanden waren..

7. Interaktive Diagramme können als vollständig interaktive ActiveX-Objekte in anderen Anwendungen

eingebettet oder als Bitmaps eingefügt werden. (Standarddiagramme können nicht in andere Anwendungen eingebettet werden. Sie können aber als Metadateien (Bilder) oder Bitmaps eingefügt werden).

Erstellen von interaktiven Diagrammen mit Hilfe des Menüs Grafiken: Wenn Sie die im Menü "Grafiken" unter "Interaktiv" aufgeführten Prozeduren verwenden, können Sie die Variablen und Diagrammoptionen vor dem Erstellen einesDiagramms festlegen. Das Diagramm kann später im Viewer geändert werden. WennSie im Menü "Grafiken" unter "Interaktiv" einen Diagrammtyp auswählen, wird dasentsprechende Dialogfeld angezeigt, wobei die Registerkarte „Variablen zuweisen“ ausgewählt ist. Zum Erstellen eines Diagramms müssen Sie lediglich Variablen zuweisen. Wenn Sie Ihr Diagramm anpassen möchten, können Sie aber auch andere Registerkarten verwenden. Registerkarte „Variablen zuweisen“ für Liniendiagramm:

Quelliste. In der Quelliste finden Sie die für einen Diagrammtyp verfügbarenVariablen. Sie können die Reihenfolge der Variablen in der Liste ändern, indem Sie mitder rechten Maustaste auf eine Variable

256

klicken und aus dem angezeigtenKontextmenü die Option Nach Name sortieren, Nach Reihenfolge in Datei sortieren oderNach Typ sortieren wählen (siehe oben). Sie können auch Variablenlabels anzeigen oderVariablennamen anzeigen auswählen. Diese Befehle im Kontextmenü ersetzen die Befehle Direkthilfe und Info zu Variablen, die Sie in anderen Dialogfeldern des Systemsfinden. Zuweisen von Variablen. Sie weisen Achsenvariablen zu, indem Sie dieAchsenvariablen aus der Quelliste ziehen und sie auf dem Achsenzielfeld ablegen. Leere Registerkarte für Balkendiagramm:

257

Registerkarte für Balkendiagramm mit zugewiesener Variable, deren prozentuale Häufigkeiten angezeigt werden sollen:

Ohne weitere Änderungen entsteht hieraus folgende Graphik:

Auf keinen FallEher nicht

Teils-teilseher ja

Auf jeden Fall

Mag Menschen, die Hund in ihrer Nähe haben wollen

0%

10%

20%

30%

Proz

ente

n=36 n=83 n=245 n=255 n=364

258

Sie können Variablen auch von einem Zielfeld zum anderen ziehen. Wenn Sie eineVariable auf einem Zielfeld ablegen, dem schon eine andere Variable zugewiesenwurde, tauschen die Variablen die Plätze. Dies ist dann von Interesse, wenn man den beiden Achsen zwei Variablen gleichzeitig zuweist: Vor dem Austausch der Variablen:

und danach:

Auswertungsfunktion: Modus:

259

Weist man den beiden Dimensionen 2 kategoriale Variablen zu, steht als Auswertungsfunktion nur der Modus zur Verfügung: Andere Auswertungsfunktionen. Bei der Zuweisung einer metrischen zur einer kategorialen Variable gibt es auch andere Auswertungsfunktionen als den Modus. Die Auswertungsfunktion für eine metrische Variable kann aus einer Liste von Auswertungsfunktionen am unteren Randdieses Dialogfelds festgelegt werden.

Dort ist die Liste der verfügbaren Auswertungsfunktionen verborgen: Die oben gewählten Optionen würden folgendes Ergebnis haben:

260

Balken zeigen Mittelwerte

Auf keinen FallAuf jeden Fall

eher jaTeils-teils

Eher nicht


0

50

100

150

200

Akt

ive

Zeit

in M

inut

en p

ro T

ag

n=52 n=189 n=204 n=233 n=245

Fertigstellen des Diagramms. Ein Diagramm kann erstellt und im Viewer dargestelltwerden, sobald eine ausreichende Anzahl von Variablen zugewiesen worden ist. OK istimmer aktiviert. Wenn Sie auf OK klicken, das Programm aber feststellt, daß weitereInformationen benötigt werden, wird eine diesbezügliche Warnung angezeigt. Ehe Sieauf OK klicken, können Sie das Diagramm aber auch mit den Optionen auf den anderen Registerkarten des Dialogfelds anpassen. Die folgenden Optionen sind verfügbar: • Sie können das Diagrammelement aufteilen, indem Sie Farbe, Muster und Größe kategoriale Variablen

zuweisen, sofern sich dies für den jeweiligen Diagrammtypeignet.. • Durch Zuweisen einer metrischen Variablen zu Farbe können Sie denDiagrammobjekten Farben

zuweisen.. • Durch Zuweisen einer metrischen Variablen zu Größe können Sie den Diagrammobjekten Größen

zuweisen. • Durch Zuweisen einer metrischen Variablen zu Feldvariablen können Sie dasDiagramm in einzelne

Felder aufteilen. • Die Auswertungsfunktion für die abhängige Variable kann geändert werden.

261

Registerkarte für eine nach Geschlecht gruppierte Darstellung der Variable: „Ich habe schon viel von der Welt gesehen“:

und die entsprechende Graphik:

weiblichmännlich


Balken zeigen Prozent


Teils-teilseher ja

Auf jeden Fall

Ich habe schon viel von der Welt gesehen

0%

5%

10%

15%

Proz

ente

262

Das gleiche als Stapelgraphik:

weiblichmännlich




Teils-teilseher ja

Auf jeden Fall


0%

10%

20%

30%

Proz

ente

Hierzu wurde die Variable Geschlecht in der Registerkarte nur nach unten in die Muster verschoben: (Klickt man Gruppe an, wechselt die Anzeige zu Stapel und umgekehrt, so daß man Farbe, Muster, Gruppierung und Stapeln beliebig kombinieren kann).

263

Würden wir die Variable Geschlecht in die Fläche für die Feldvariable verschieben, hätte das folgenden Effekt: Registerkarte:

Entsprechende Graphik:



Teils-teilseher ja

Auf jeden Fall


0%

10%

20%

30%

Proz

ente

weiblich männlich


Teils-teilseher ja

Auf jeden Fall


264

Varianten der o.a. Graphik: Wir ziehen die Variable Geschlecht von den Feldvariablen weg in das Feld „Farbe“.

Der Effekt ist:

265

weiblichmännlich




Teils-teilseher ja

Auf jeden Fall


0%

5%

10%

15%

Proz

ente

Wenn wir Beschriftungen für die Balke wünschen, verfahren wir wie folgt: Wir klicken doppelt auf die Graphik und holen uns den Diagramm-Manager:

Wir klicken beim Diagramm-Inhalt auf Balken/ Bearbeiten:

266

Dort wählen wir bei der Beschriftung „Werte“ und klicken auf o.K. Wir erhalten:

weiblichmännlich



Teils-teilseher ja

Auf jeden Fall


0%

5%

10%

15%

Proz

ente

5%

2%

18%

11%

17%

10%

13%

8%7%

9%

267

Wir hätten auf über die Option „Anzahl“ die absoluten Häufigkeiten erhalten können.

Wenn wir statt der farbigen Gruppen-Darstellung lieber eine farbig differenzierte Stapelgraphik erhalten wollen, wählen wir nur bei der Kategorie „Farbe“ die Option „Stapel“: Wir erhalten dann:

weiblichmännlich




Teils-teilseher ja

Auf jeden Fall


0%

10%

20%

30%

Proz

ente

n=18

n=53

n=104

n=179

n=95

n=166

n=75

n=130

n=92

n=69

268

In diese Graphik wurden absolute Häufigkeiten über den Diagramm-Manager eingefügt. Will man statt der farblichen Differenzierung eine Differenzierung nach Muster haben, ist auch dies möglich:

Das Ergebnis ist:

weiblichmännlich


Balken zeigen Häufigkeiten


Teils-teilseher ja

Auf jeden Fall


50

100

150

200

250

Anz

ahl

269

Hier wurden die Balkenbeschriftungen weggelassen. Auch ein 3-D-Effekt ist möglich:

270

Über eine Option am Kopf des Rahmens, den man erhält, wenn man auf die interaktive Graphik klickt, erhält man hier die 3D-Darstellung. Diese ist verbunden mit der Möglichkeit, die Graphik zu drehen:

Klickt man die Hand in dieser Schaltfläche an, dann erlaubt es diese Hand, wenn man sie in die Graphik zieht, die Graphik nach allen Seiten zu drehen:

Das Ergebnis ist:

271

weiblichmännlich


Bei der Gestaltung der Balken hat man auch noch etliche Auswahlmöglichkeiten. So stehen zum Beispiel kreisförmige Grundflächen und spitze Hütchen zur Verfügung:

272

weiblichmännlich

Geschl. d. B

273

Zu erwähnen bleibt noch die auf 100 Prozent aufgeblasene Stapelgraphik: Hier wird das bezeichnete Feld angekreuzt. Weiterhin wurde die um 90°gedrehte Graphik ausgewählt. Der Effekt ist unten zu sehen:

weiblichmännlich


0% 25% 50% 75% 100%

Anzahl

Auf keinen Fall

Eher nicht

Teils-teils

eher ja

Auf jeden Fall

Ich

habe

sch

on v

iel v

on d

er W

elt g

eseh

en

18 53

104 179

95 166

75 130

92 69

Materialien für die Einführung in SPSS SS 2006 · KAPITEL 5 CLUSTER-ANALYSE ... Prozedur aus.Zum...

Documents

Transcript of Materialien für die Einführung in SPSS SS 2006 · KAPITEL 5 CLUSTER-ANALYSE ... Prozedur aus.Zum...