Messung von Reliabilität und Validität · Block Nr. I, Thema Nr. 2 Messung von Reliabilität und...

Block Nr. I, Thema Nr. 2

Messung von Reliabilität und Validität

Referat im Rahmen des Speziellen Seminars zum Thema

„Multivariate Analyseverfahren und deren Anwendung am Bei-

spiel des 10th GVU’s WWW User Surveys“

im Wintersemester 1999/00

eingereicht bei

Prof. Dr. Bernd Skiera

Lehrstuhl für Betriebswirtschaftslehre,

insbesondere Electronic Commerce

Johann Wolfgang Goethe-Universität

Frankfurt am Main

von

stud. rer. pol. Dietmar Walter Zilz

[email protected]

http://www.wiwi.uni-frankfurt.de/~zilz

Studienrichtung: Betriebswirtschaftslehre

8. Fachsemester

Abgabedatum: 28. September 1999

zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 II

Inhaltsverzeichnis

Abbildungsverzeichnis .............................................................................................................. IV

Tabellenverzeichnis.....................................................................................................................V

Abkürzungsverzeichnis ............................................................................................................. VI

Symbolverzeichnis ................................................................................................................... VII

1 Einleitung ...............................................................................................................................1

2 Begriffsbildung ......................................................................................................................1

2.1 Klassifizierung von Meßfehlern......................................................................................1

2.2 Definition der Reliabilität................................................................................................2

2.3 Definition der Validität ...................................................................................................3

2.4 Zusammenhang von Reliabilität und Validität................................................................4

3 Methoden................................................................................................................................5

3.1 Methoden der Messung von Reliabilität .........................................................................53.1.1 Inter-Rater oder Inter-Observer Reliabilität ..........................................................53.1.2 Test-Retest Reliabilität..........................................................................................53.1.3 Paralleltest-Reliabilität und Alternativtest-Reliabilität .........................................63.1.4 Interne-Konsistenz-Reliabilität .............................................................................6

3.1.4.1 Split-Half-Reliabilität ..............................................................................73.1.4.2 Cronbach’s Alpha ....................................................................................73.1.4.3 Kuder_Richardson Formel (KR20)..........................................................83.1.4.4 G-Theorie (Generalisierungs-Theorie).....................................................9

3.2 Methoden der Messung von Validität ...........................................................................103.2.1 Externe und Interne Validitaet ............................................................................103.2.2 Inhaltsvaliditaet (Augenscheinvaliditaet und Expertenvaliditaet) ......................103.2.3 Konstruktvalidität (Konvergenz- und Diskriminanzvalidität) ............................113.2.4 Kriteriumsvalidität (Prognose- und Übereinstimmungsvalidität) .......................113.2.5 Nomologische Validitaet.....................................................................................11

3.3 Multitrait-Multimethod-(MTMM) Matrix zur Messung der Konstruktvalidität...........12

3.4 Kausalanalyse zur Messung von Reliabilität und Validität....................................143.4.1 Exploratorische Faktoranalyse ............................................................................143.4.2 Konfirmatorische Faktoranalyse .........................................................................15

4 Messen bzw. Schätzen .........................................................................................................16

4.1 Messung der Inter-Rater oder Inter-Observer Reliabilität.............................................16

4.2 Messung der Test-Retest Reliabilität ............................................................................16

4.3 Messung der Paralleltest-Reliabilität und Alternativtest-Reliabilität............................17

4.4 Messung der Interne-Konsistenz-Reliabilität mittels Split-Half-Reliabilität undCronbach’s Alpha..........................................................................................................17

4.5 Messung der Konstruktvalidität mittels der MTMM Matrix .................................19

zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 III

5 Zusammenfassung...............................................................................................................21

Literaturverzeichnis................................................................................................................24

Anzahl Wörter: 6391

Dateiname: zilz_skiera_multivariat_thema2_280999.doc

zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 IV

Abbildungsverzeichnis

Abbildung 1: Zusammenhang von Reliabilität und Validität .....................................................4

Abbildung 2: Multitrait-Multimethod Matrix ...........................................................................12

Abbildung 3 Historische Entwicklung der Kausalanalysei .......................................................14

Abbildung 4: Cronbach’sches Alpha und Split-Half Reliabilität (Analyse am 10. GVU) .......18

zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 V

Tabellenverzeichnis

Tabelle 1: Ausgewählte Reliabilitätsgrade..................................................................................3

Tabelle 2: Zusammenhang von dem Wert des Cronbach’schen Alphas in Bezug auf die

Anzahl von Items pro Skala und Kategorien pro Item ........................................8

Tabelle 3: Liste der verwendeten Variablen aus Datei „spss_use.sav“:....................................18

Tabelle 4: Konstruierte MTMM-Matrix aus dem Datensatz (spss_use.sav) ............................20

Tabelle 5: Zweiseitiges Signifikanzniveau ...............................................................................21

zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 VI

Abkürzungsverzeichnis

G-Theorie Generalisierungstheorie

GVU Graphic, Visualization, & Usability Center

KR20 Kuder-Richardson Formel

M Methode

MTMM Multitrait-Multimethod

TCD Total Coefficient of Determination

zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 VII

Symbolverzeichnis

x0: Meßwert

xT: wahrer Meßwert

xERR: Meßfehler

xR: Zufallsfehler

xS: systematische Fehler

r: Reliabilität2tσ Varianz des wahren Werts

2Oσ Varianz des beobachteten Werts

xS: systematische Fehler

r: Reliabilität

rsb Split-Half-Reliabilität nach Spearman-Brown

rxy Varianz des beobachteten Werts

α Cronbach’s Alpha2tσ Gesamtvarianz

k Anzahl Teile

p Proportion

q Komplement von p

A Arbeit

F Fun

M Methode

Q Question

x Vektor der Indikatorvariablen

ΛΛΛΛ Matrix der Faktorladungen

ξ Vektor der latenten Faktoren

δδδδ Vektor der Meßfehler

r Anzahl der zu schätzenden Parameter

q Anzahl von Indikatorvariablen

S empirische Kovarianzmatrix

Σ^

. theoretische Kovarianzmatrix

zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 1

1 EinleitungBis hin zu den 80er Jahren haben Unternehmen kaum Wert darauf gelegt ob und inwieweit

von ihnen durchgeführte Marktforschungen wirklich Gültigkeit haben. In Anbetracht der Tat-

sache, daß gerade im Zuge der Entwicklung von zunehmend anonymen Transaktionen über

das WWW eine Einschätzung von Ergebnissen wichtig ist, ist dieses Thema aktuell wie nie

zuvor. Die Reliabilität und Validität von Surveys und Marktforschungen. ist von großer und

steigender Wichtigkeit für Unternehmen, zumal schon 1995 in den USA allein über $50 Mil-

liarden hierfür investiert wurden1. Diese Arbeit konzentriert sich auf die Messung von Relia-

bilität und Validität im Hinblick auf Marktforschungen (Surveys) mittels des WorldWide-

Web. Ziel der Arbeit ist es, die Theorie und die Meßmethoden der Reliabilität und Validität

ausführlich zu erläutern, und Analysen mittels der Standardsoftware SPSS durchzuführen. Der

theoretische Teil konzentriert sich daher auf die Möglichkeiten, die SPSS bietet. Hierzu wird

zunächst erläutert wie sich Meßfehler klassifizieren lassen, was Validität und Reliabilität ist

und welche Zusammenhänge zwischen ihnen bestehen. Des weiteren werden die verschiede-

nen Methoden zur Schätzung der Reliabilität und Validität aufgeführt und zwei herausragende

Methoden, die Multitrait-Multimethod Matrix sowie die Kausalanalyse betrachtet. Anschlie-

ßend werden die gewonnenen Erkenntnisse mittels SPSS umgesetzt.

2 Begriffsbildung

2.1 Klassifizierung von Meßfehlern

Jede Messung beinhaltet immer ein gewisses Maß an Ungenauigkeit. Optimal wäre, wenn

jede Messung genau ihrem originalem Wert entspräche. Aufgrund von unterschiedlichen

Faktoren, die mehr oder weniger stabil, situationsbezogen, und variierend sein können, gibt es

jedoch unter Umständen gravierende Abweichungen der Messungen von der Wirklichkeit.

Der Meßwert (x0) kann daher wie folgt beschrieben werden2:

ERRT xxx +=0

1 Duboff (1996), S.19.2 vgl. Peter (1979), S.7; vgl.http://www.stsoftinc.com/textbook/streliab.html), 30.8.1999


Wobei x0 der Meßwert, xT der wahre Wert (true Value) ist und xERRder Fehler (ERR). Dieser

Fehler wird zur besseren Analyse und Problemlösung in der Literatur in zwei Arten unterteilt.

Erstens in die Zufallsfehler xR (random errors), welche durch die Höhe der Reliabilität ange-

zeigt werden sowie zweitens in die systematischen Fehler xS, welche durch die Höhe der Va-

lidität ausgedrückt werden3. Gibt es bei einer Messung keine zufälligen Fehler (xR=0), so ist

sie vollständig reliabel. Die Zufallsfehler werden auch als transitorische Fehler bezeichnet, die

durch bestimmte Merkmale einer Person oder eine besondere Situation gekennzeichnet sind,

während die systematischen Fehler konstante Fehler sind, die etwa auf einer falschen Eichung

eines Meßinstrumentes beruhen4. Gibt es keine systematischen Fehler (xS=0), so liegt ein voll-

ständig valides Meßergebnis vor5.

Es ist wichtig, schon vor Beginn der Messung zu prüfen ob diese auch wirklich reliabel und

valide ist, denn obgleich es über 3000 publizierte Tests gibt und ‚Marketing Scales‘ Handbü-

cher existieren6, welche typische Skalen von Antworten mit Angaben ihrer Validität und Re-

liabilität enthalten, sind solche Vorgaben nicht einfach auf neue Tests und neue Zielgruppen

zu übertragen7.

2.2 Definition der Reliabilität

Reliabilität beschreibt das Ausmaß in welchem ein Experiment, ein Test oder ein anderes

Meßverfahren gleiche Resultate bei wiederholten Versuchen konsistent liefert8. Ein ideal re-

liabler Test liefert also zu unterschiedlichen Zeitpunkten und unterschiedlichen Umweltbedin-

gungen immer die gleichen Ergebnisse.

Mathematisch ausgedrückt gilt9:

2

2

O

tr

σσ

=

3 Churchill (1979), S.65.4 Churchill (1992), S.75.5 Churchill (1979) S.65.6 z.b. Bruner et. Al (1994).7 Rentsch/Hutchison (1999), S.13.8 vgl Peter (1979) S.6. Torabi (1994) S.57f.9 (Finn/Kayande (1997), S.263.)


Wobei r für die Reliabilität 2tσ für die Varianz des wahren Werts (true score) und2Oσ für die

Varianz des beobachteten Werts (observed score) steht. Da der wahre Wert der Varianzen von

Meßwerten in der Regel nicht bekannt ist, läßt sich die Reliabilität nicht exakt berechnen.

Reliabilität muß geschätzt werden10. Wie man erkennt, liegt der zu beobachtende Wert zwi-

schen Null und Eins. In der Literatur herrscht weitgehend Übereinstimmung darüber, eine

Reliabilität ab einem Wert von etwa 0,75 als reliabel zu bezeichnen wie die Tabelle 1 bei-

spielhaft belegt.

Tabelle 1:Ausgewählte ReliabilitätsgradeAutor Situation Empfohlener Mindestgrad

Kaplan und Sacuzzo (1982), S.106 Grundlagenforschung

Zweckforschung

0,7-0,8

0,95

Nunnally (1978), S.226 Grundlagenforschung

Zweckforschung

0,8

0,95

(Quelle: Peterson (1994), S.382)

Es gibt unterschiedliche Methoden die Reliabilität zu messen. Jeder dieser anschließend er-

läuterten Reliabilitätsschätzer (3.2) wird differierende Werte für die Reliabilität ausgeben. Im

allgemeinen werden die Test-Retest- und die Inter-Rater-Reliabilität kleiner sein als die Par-

alleltest- und die Interne-Konsistenz-Reliabilität, da die ersten beiden Messungen zu unter-

schiedlichen Zeiten stattfinden bzw. unterschiedliche Befragte beinhalten11.

2.3 Definition der Validität

Ein Meßinstrument wird dann als valide oder “gültig” bezeichnet, wenn es genau jenes mißt,

was gemessen werden soll. Nicht nur Messungen selbst können nicht valide sein, sondern

auch die Schlüsse und Folgerungen, die aus den Messungen gezogen werden. Validität als

Genauigkeitsgrad liegt in dem Maße vor, in dem die Messungen frei von “systematischen”

Fehlern sind12. Systematische Fehler sind solche, die die Messung kontinuierlich beeinflussen.

10 Trochim, (1999), http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99.11 Trochim, (1999), http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99.12 Hüttner (1997), S.543


2.4 Zusammenhang von Reliabilität und Validität

Reliabilität und Validität können nicht voneinander getrennt betrachtet werden. Eine Messung

sollte möglichst hohe Werte für die Reliabilität und die Validität gleichzeitig haben.

Abbildung 1: Zusammenhang von Reliabilität und Validität

Quelle: Trochim (1996),http://trochim.human.cornell.edu/kb/rel&val.htm, 30.8.1999.

Die obige Zielscheibengrafik beschreibt dieses Problem deutlich. Der Kern stellt den wahren

Wert xT dar, die kleinen Punkte sind die jeweiligen Meßwerte x0. Die erste Grafik zeigt eine

Konzentration auf einen Punkt. Innerhalb der Messung gibt es also keine außergewöhnlichen

zufälligen Abweichungen: Die Messung ist reliabel, aber nicht valide, weil sie systematisch

falsche, vom Meßwert abweichende Werte liefert. Die zweite Grafik zeigt durchschnittlich

gleichverteilte Werte, eine systematische Abweichung ist nicht festzustellen. In der dritten

Grafik gibt es eine systematische Abweichung sowie eine zufällige Abweichung, so daß diese

Messung weder als valide noch als reliabel bezeichnet werden kann13. Reliabilität ist eine

notwendige Bedingung für Validität, außer dann, wenn vom reinen Durchschnitt ausgegangen

wird, wie in der zweiten Grafik und dieser Durchschnitt genau dem wahren Wert entspricht.

Die gegenseitige Abhängigkeit von Reliabilität und Validität ist jedoch nicht zu unterschät-

zen, zumal in letzter Zeit vermehrt auf die Reliabilität geachtet wurde, die mit wenig Aufwand

per SPSS-Menübefehl berechnet werden kann. Dieses macht eine Optimierung im Hinblick

auf die Reliabilität leicht, aber schadet im Zweifelsfall der Validität. Nicht ohne Grund fällt

daher in den modernen Modellen der später erläuterten Kausalanalyse die Trennung von Re-

liabilität und Validität weg.

13 vgl. Trochim (1996),http://trochim.human.cornell.edu/kb/rel&val.htm, 30.8.1999.


3 Methoden

3.1 Methoden der Messung von Reliabilität

3.1.1 Inter-Rater oder Inter-Observer Reliabilität

Misst den Grad in dem zwei unterschiedliche Beobachter/Bewerter konsistente Einschätzun-

gen eines Phänomens geben14. Unterschiedliche Beobachter produzieren unterschiedliche Re-

sultate aufgrund der Natur des Menschen. So reagieren die Menschen anders auf Störungen

von innen und außen, sie differieren in Ihrer Art Informationen wahrzunehmen, aufzunehmen

und zu interpretieren.

Eine Messung ist z.B. folgendermaßen möglich. Die erste ist anzuwenden, wenn nach Katego-

rien gemessen wird, die zweite bei einer kontinuierlichen Messung.

Zunächst können den Beobachtern Kontrollfragen zu einzelnen Fragen gestellt werden, nach

denen bestimmte Begriffe eingeschätzt werden. Zum Beispiel: „Was verstehen Sie unter groß,

160, 180 oder 200 cm? Wenn dann zum Beispiel 86 von 100 Beobachtungen in die gleiche

Kategorie gewählt werden, bekommt man einen Grad der Übereinstimmung dieser beiden

Beobachter von 86%.

Eine Messung der Inter-Rater-Reliabilität ist im Nachhinein nicht möglich.

3.1.2 Test-Retest Reliabilität

Die Test-Retest Reliabilität, auch Stabilitätskoeffizient genannt15, bestimmt die Konsistenz

von Messungen von einem Zeitpunkt zum nächsten. Sie korreliert die Ergebnisse zweier Un-

tersuchungen, die mit demselben Meßinstrument innerhalb eines bestimmten Zeitraumes wie-

derholt an der gleichen Auswahl von Beobachtern unter möglichst gleichen Bedingungen vor-

genommen wurden. Diese Vorgehensweise setzt voraus, daß inzwischen keine substantielle

Veränderung im gemessenen Konstrukt stattgefunden hat.

Die Länge des Zeitraumes zwischen zwei verschiedenen Messungen ist entscheidend und

führt in den allermeisten Fällen zu unterschiedlichen Ergebnissen. In der Regel ist davon aus-

zugehen, daß bei kurzen Zeiträumen zwischen den Messungen eine hohe Korrelation und bei

langen Zeiträumen eine niedrige Korrelation zu erwarten ist. Die Gründe liegen vor allem in

14 Trochim, (1999),http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99.15 Keppler, (1996), S.196 f.


Lerneffekten der Beobachter (gelerntes wird im Zuge der Zeit vergessen) und den Verände-

rungen in der Umwelt (die Wahrscheinlichkeit steigt, daß das Konstrukt veraltet)16. Desweite-

ren kann bei einer Veränderung eines Phänomens nicht festgestellt werden, ob es wirklich

eine Veränderung oder lediglich eine niedrige Reliabilität des Tests ist17. Und schließlich ist

die Retest Korrelation nur teilweise abhängig von der Korrelation zwischen den Items, weil in

die Summenkorrelation auch die Korrelationen der Items mit sich selbst eingehen.

3.1.3 Paralleltest-Reliabilität und Alternativtest-Reliabilität

Die Parallel-Test und Alternativtestreliabilitäten bestimmen die Konsistenz der Resultate

zweier aufgebauter Tests. Der Unterschied zwischen Paralleltest und der Alternativtest besteht

lediglich darin, daß der Alternativtest zeitverschoben durchgeführt wird18. Es werden zwei

verschiedene, jedoch streng vergleichbare Erhebungsinstrumente denselben Beobachtern vor-

gelegt und deren Ergebnisse korreliert19. Beide Instrumente werden der gleichen Auswahl von

Personen vorgelegt. Die Korrelation zwischen diesen beiden Formen ist die Schätzung dieser

Reliabilität. Das Hauptproblem dieser Anwendung ist ein Menge wirklich streng vergleichbar

sind, daß also der Durchschnitt, die Varianz und die Interkorrelation der Items äquivalent

sind20. Daher stammt auch die Bezeichnug Äquivalenzkoeffizient für diesen Reliabilitäts-

schätzer.

3.1.4 Interne-Konsistenz-Reliabilität

Die Interne-Konsistenz-Reliabilität bestimmt die Konsistenz von Resultaten zwischen Varia-

blen innerhalb eines Tests21. (Trochim, Types of Reliability, 1999). Die Interne Konsistenz

Reliabilität läßt sich darstellen bzw. schätzen durch die durchschnittliche Inter-Item Korrelati-

on, die durchschnittliche Item-Total-Korrelation, die Split-Half-Reliabilität sowie Cronbach’s

Alpha und die Kuder-Richardson Formel. Diese Formen, vor allem das Cronbach’sche Alpha

16Trochim, (1999),http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99.17 Peter (1979), S.8.18 Trochim, (1999),http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99.19 Keppler, (1996), S.197.20 Peter (1979), S.8.21 Trochim, (1999),http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99.


bzw. die Kuder-Richardson Formel sind die aufgrund ihrer Einfachheit und der in den aller-

meisten Fällen ausreichenden Genauigkeit die häufig benutzten Methoden22.

Die interne Konsistenz ist sehr wichtig für das Ergebnis, weil inkonsistente Fragen wider-

sprüchlich wären und die Aussagekraft der Untersuchung erheblich herabsetzen oder gar auf-

heben würden.

3.1.4.1 Split-Half-Reliabilität

Bei der Split-Half-Reliabilität werden nach dem Zufallsprinzip alle Elemente, die zu der Mes-

sung desselben Konstrukts beitragen in zwei Sets aufgeteilt. Das gesamte Erhebungsinstru-

ment wird der befragten Person zur Auswahl gegeben, aber zur Überprüfung der Reliabilität

werden nur die Korrelationen der jeweiligen Hälfte berechnet23. Mathematisch ausgedrückt

gilt24.

Wobei rsb die Split-Half-Reliabilität nach Spearman-Brown ist undrxy die Korrelation zwi-

schen den beiden Hälften beschreibt

Die Split-Half-Reliabilität ist ein einfaches, aber dafür sehr robustes Verfahren.

3.1.4.2 Cronbach’s Alpha

Cronbach’s Alpha25 entspricht der Berechnung des Durchschnittswertes aller k-möglichen

Split-Half-Reliabilitäten. Mittels der Formel von Cronbach wird dieser große Rechenaufwand

jedoch deutlich vereinfacht. Dieses ist sicherlich der Grund weswegen Cronbach’s Alpha der

am häufigsten benutzte Reliabilitätskoeffizient ist26.

��

�

�

��

�

�

−−

=�

=2

1

2

1*1 t

k

ii

k

k

σ

σα

22 vgl. Peterson (1994) S.383; vgl. Parameswaran et al. (1979) S.20.23 Trochim, (1999),http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99.24 http://www.statsoftinc.com/textbook/streliab.html, 30.8.99.25 vgl. Cronbach (1951).26 Homburg/Giering, 1996, S.8.

)1(

2

xy

xysb r

rr

+=


Wobei k der Anzahl der Items in der Skala,2iσ der Varianz der Items i und 2tσ der Gesamtva-

rianz (total variance) der Skala entspricht. Der Wertebereich liegt zwischen Null und Eins,

wobei ein hoher Wert eine hohe Reliabilität anzeigt27. Eine bemerkenswerte Tatsache ist, daß

bei einer steigenden Anzahl von Items pro Skala und einer steigenden Anzahl von Kategorien

in einem Item der Wert deutlich wächst. Es sollten daher mindestens 4 Scale Items und min-

destens 3 Antworten pro Frage (Kategorien pro Item) verwandt werden. Dies wird in der em-

pirischen Tabelle von Peterson (1994) anhand der durchschnittlichen Werte von Cronbach’s

Alpha (α ) aus über 3000 Studien (n) überzeugend belegt.

Tabelle 2: Zusammenhang von dem Wert des Cronbach’schen Alphas in Bezug auf die Anzahlvon Items pro Skala und Kategorien pro Item

Anzahl von Items pro Skala

2 oder 3 4 oder mehr

2 αα = 0,62

(n=23)

α = 0,71

(n=186)

Anzahl vonmöglichenAntwortenpro Frage 3 oder

mehrαα = 0,74

(n=710)

αα = 0,78

(n=2536)

Quelle: Peterson (1994), S.388.

Die Nachteile von Cronbach’s Alpha liegen einerseits in der nicht möglichen inferenzstatis-

tischen Beurteilung des Koeffizienten28, und andererseits in der Tatsache, daß die Höhe der

Koeffizienten positiv von der Anzahl der Indikatoren abhängen29. Bei einer großen Anzahl

von Elementen ist Cronbach’s Alpha das am häufigsten benutzte Instrument.

3.1.4.3 Kuder_Richardson Formel (KR20)

Die Kuder-Richardson Formel unterscheidet sich unwesentlich vom Cronbach’schen Alpha.

Sie wird hier lediglich einem eigenen Punkt zugeordnet, weil diese Formel von SPSS bei di-

chotomen Daten verwandt wird, wenn man ‚Coefficient Alpha‘ auswählt30,weil sie in der Lite-

ratur häufiger auftaucht. Der Ansatz geht auch davon aus den Test in k-Teile zu splitten. Der

27 vgl. Homburg/Giering, 1996 S.22 [7].28 vgl. Homburg/Giering, 1996 S.8.29 vgl. Homburg/Giering, 1996 S.22 [8]30 SPSS Context Help, (SPSS Version 9.0 engl.): „Coefficient alpha. For dichotomous data, this is

equivalent to theKuder-Richardson 20 (KR20) coefficient.“ Weitere Aufschlüsse gibt das„SPSS Statistical Algorithms Manual“, welches leider nicht zur Verfügung stand.


Grad in dem die Element miteinander korrelieren bestimmt die Höhe der Reliabilität. Die

Formel lautet31:

��

�

�

��

�

�

−−

=�

=2

11*1 t

k

i

pq

k

kr

σ

Wobei k der Anzahl der Items in der Skala, p der Proportion der richtigen Antworten und q

dem Gegenteil von p entspricht (q=1-p).

3.1.4.4 G-Theorie (Generalisierungs-Theorie)

Die Tatsache, daß die unterschiedlichen Realibilitätsschätzer sich voneinander unterscheiden

und aufgrund ihrer Art unterschiedliche Werte liefern ist nicht zufriedenstellend. So sind die

Teile der Varianzen, die Fehler bilden bei den unterschiedlichen Reliabilitätsformen unter-

schiedlich groß. Die G-Theorie wurde eingeführt, um gleichzeitig verschiedene kontrollierba-

re32 Ursprünge von Varianzen in einer einzigen Prozedur zu analysieren33.Die Formel der G-

Theorie läßt sich analog zur klassischen Realibilität formulieren34.

22

22

rorrelativeEroreuniverseSc

oreuniverseScEσσ

σρ+

=

wobei σ2universeScoreder Varianzkomponente in Bezug zu jedem Meßobjekt ist (dies entspricht

dem wahren Wert xT bei der klassischen Analyse. Bei einer Untersuchung mit nur einem ein-

zigen Generalisierungsaspekt entspricht der Koeffizient der G-Theorie somit dem der klassi-

schen Realibilität. Eine genauere empfehlenswerte Einführung in die G-Theorie findet sich bei

Finn/Kayande (1997), die betonen, daß G-Theorie eine großes Potential zur Optimierung von

Messungen hat..

31 Parameswaran et al. (1979), S.20.32 Finn/Kayande (1997), S.263.33 Peter (1979),S.10.34 Finn/Kayande (1997): Verweis auf Cronbach et al (1972),


3.2 Methoden der Messung von Validität

3.2.1 Externe und Interne Validitaet

Die externe Validitaet: bezieht sich auf die Übertragbarkeit spezifischer Marktforschunger-

gebnisse auf andere Außenbedingungen.35

Sie liegt dann vor, wenn das Ergebnis einer Untersuchung über die Stichprobe und die Unter-

suchungsbedingungen hinaus generalisierbar ist. Externe Validität sinkt, je unnatürlicher die

Untersuchungsbedingungen sind und je weniger repräsentativ die untersuchte Stichprobe für

die Grundgesamtheit ist36.

Die interne Validität beschreibt den Grad der eindeutigen Intepretierbarkeit, sie steigt mit

sinkender Anzahl plausibler Alternativerklärungen, wenn die Anzahl äußerer Störeinflüsse

reduziert wird37.

In der Regel stehen externe und interne Validität in einem Spannungsverhältnis zueinander.

Mit steigender interner Validität, etwa durch einen abgeschlossenen Studioversuch, sinkt die

externe Validität, weil der Versuch durch die Ausschaltung gewöhnlicherweise gegebener

Störeinflüsse reduziert wird38.

In der Internetumfrage ist die interne Validität nur schwer bestimmbar, weil äußere Störein-

flüsse auf die Befragten kaum feststellbar sind. Während die interne Validität denn auch

schon spätestens bei der Erfassung der Messungen bestimmt werden sollte, gibt es einige

Möglichkeiten auch nachträglich Validität festzustellen wie fortfolgend erläutert wird.

3.2.2 Inhaltsvaliditaet (Augenscheinvaliditaet und Expertenvaliditaet)

Die Inhaltsvalidität prüft die inhaltlich semantische Übereinstimmung zwischen dem vorlie-

genden Meßinstrument und dem Konstrukt auf Plausibilität. Sie fordert, daß die Untersu-

chungsinhalte eine repräsentative Auswahl der zu erfassenden Merkmale darstellen. Dies ist

insbesondere zur Beurteilung und der Erfassung aller relevanten Items von Bedeutung. Dabei

35 Christof/Pepels 1998, S.45.36 Bortz (1999) S.7.37 vgl. Christof/Pepels S.44.38 vgl. Christof/Pepels S.44.


ist Inhaltsvalidität entweder offensichtlich (Augenschein- oder Face-Validität) oder wird

durch Experten als valide beurteilt (Expertenvalidität)39.

3.2.3 Konstruktvalidität (Konvergenz- und Diskriminanzvalidität)

Die Validitätsform, die sich direkt mit der Validierung der Umsetzung des theoretischen Kon-

struktes in die Realität beschäftigt ist dieKonstruktvalidität . Sie mißt den Grad der Überein-

stimmung zwischen den Konstrukten und ihren Messungen40. Durch eine einfache Studie kann

Konstruktvalidität nicht abschließend bewiesen werden. Cronbach (1971) bemerkt vielmehr,

daß Konstruktvalidierung ein fortwährender Prozeß von Untersuchungen und Entwicklungen

ist. Eine verbreitete Methode ist die „Multitrait-Multimethod“ (MTMM) von Campbell und

Fiske (1959). Sie dient dem Nachweis von Diskriminanz- und Konvergenzvalidität und wird

als eine der wesentlichen Methoden zur Messung von Validität, die zudem noch mittels einer

kommerziellen Software wie SPSS durchzuführen ist, unter Punkt 3.3 als Methode gesondert

erwähnt. DieKonvergenzvalidität beschreibt die Übereinstimmung eines Konstruktes mit

verschiedenen Messinstrumenten, dieDiskriminanzvalidität den Grad in dem andere Kon-

strukte bei der Messung ausgeschlossen sind41.

3.2.4 Kriteriumsvalidität (Prognose- und Übereinstimmungsvalidität)

Bei der Kriteriumsvalidität dient die Messung eines angemessenen Vergleichskriteriums als

Basis42. Unterschieden werden hier die Prognose- und die Übereinstimmungsvalidität (concur-

rent validity). Die Prognose-Validität stellt auf Übereinstimmung mit einer später zeitlich

erfolgenden Messung ab.

Die Übereinstimmungsvalidität bezeichnet den Vergleich von Messungen, die zum gleichen

Zeitpunkt vorliegen43.

3.2.5 Nomologische Validitaet

Die Nomologische Validität mißt ob eine beobachtete Beziehung zwischen Messungen ver-

schiedener Konstukte (welche konzeptuell zusammengehören) angehört44. Das Konstrukt er-

fordert somit eine Einbindung in einen übergeordneten theoretischen Rahmen45

39 Keppler (1996) S.199.40 vgl. Keppler(1996).S.219.41 Huettner (1997).S.530.42 vgl. Keppler(1996) S. 218; vgl. Huettner(1997) S. 532


3.3 Multitrait-Multimethod-(MTMM) Matrix zur Messung derKonstruktvalidität

Als ein Weg zum Abschätzen der Konstruktvalidität führten Campbell und Fiske (1959) die

MTMM Matrix ein. Sie ist eine Matrix von Korrelationen und dient der Abschätzung von

Konvergenz- und Diskrimanzvalidität. einer Messung46. Empfohlen wird, daß die unter-

schiedliche Konzepte (Traits) durch mehrere Methoden (auch Skalen) gemessen werden47.

Idealerweise mißt man jede Konzeption mit jeder Methode.

Abbildung 2: Multitrait-Multimethod Matrix

Quelle: Trochim (1999),http://trochim.human.cornell.edu/kb/mtmmmat.htm, 30.8.1999

.

Die obige Grafik zeigt eine MTMM Matrix für drei Traits (Konzeptionen 1,2,3) von denen

jede durch drei verschiedene Methoden gemessen werden. Die MTMM Matrix ist also essen-

tiell eine Korrelationsmatrix zwischen den Messungen mit dem Unterschied, daß die Werte

der Diagonalen, die bei einer reinen Korrelationsmatrix den Wert ‚Eins‘ haben müßten, durch

die Schätzungen der Reliabilität (reliability diagonal) ersetzt werden.

43 Huettner (1997).S.532.44 Peter (1981), S.135.45 Homburg/Giering (1996), S.7.46 Churchill (1979), S.70.47 Campbell/Fiske (1959), S.103.


Die MTMM Matrix läßt sich in weitere Bereiche je nach Anwendung der Methoden unter-

gliedern, was die Orientierung auf der Matrix sehr unterstützt. DieRealibilitätsdiagonale (1)

hat in der Regel immer die höchsten Werte in der Matrix48. Sind die Realibilitäten niedriger,

so ist aller Wahrscheinlichkeit nach nur eine unzureichende Konsistenz der Daten vorhanden.

Die Validitätsdiagonalen (2) bilden sich aus den Koeffizienten, die das gleich Trait messen,

aber unterschiedliche Methoden benutzen (monotrait-heteromethods). Sie stellen einen Nach-

weis derKonvergenzvalidität dar49, welche dann gegeben ist, wenn sich ihre Werte signifi-

kant von Null unterscheiden. In dieser Systematik lassen sich nun auch die vier weiteren Ele-

mente der Matrix aufteilen50. So gibt es die Dreiecke, die die Korrelationen von Messungen

zweier Traits mit einer Methodedarstellen (Heterotrait-Monomethod-Dreiecke(3)) und

umgekehrt (Heterotrait-Monomethod-Dreiecke(4)) und schließlich die Blöcke die mit glei-

chen (Monomethod Block (5)) und jene, die mit verschiedenen Methoden (Heteromethod

Block (6)) messen.

Die Bestimmung derDiskriminanzvalidität erfordert drei Vergleiche51. Erstens sollte der

Koeffizient auf der Validitätsdiagonale (Validitätskoeffizienten) größer sein als die anderen

Werte der Zeile und der Spalte in der er liegt. Zweitens sollten die Validitätskoeffizienten

auch größer sein als die Korrelationen im Heterotrait-Monomethod-Dreieck. Und drittens

sollte das Muster in allen Heterotrait-Dreiecken gleich sein, weil dann die Traits in Gegen-

überstellung zu den Methoden jeweils gleich signifikant sind, dieses läßt sich leicht durch

einenRangordnungskoeffizientenberechnen.

Die Herangehensweise mittels der MTMM Matrix kann sehr hilfreich sein, besonders, wenn

nur wenige Attribute und Methoden involviert sind52. Nachteilig ist jedoch, daß die Prozedu-

ren von Campbell und Fiske (1959) keine Kriterien beinhalten, nach denen Operationalisie-

rungen als Konzepte ausgedrückt werden können. Das Ausmaß der Varianz von Konzept vs.

Methode, oder die Feststellung der Adäquanz einer gesamten MTMM Matrix53, wird jedoch

nur unter Zuhilfenahme der Kausalanalyse erreicht. Dies liegt nicht daran, daß die MTMM

48 Trochim (1999):http://trochim.human.cornell.edu/kb/mtmmmat.htm, 30.8.1999.49 Churchill (1979), S.70.50 Trochim (1999):http://trochim.human.cornell.edu/kb/mtmmmat.htm, 30.8.1999.51 Churchill (1979), S.71.52 Malhotra (1988), S.11.53 Malhotra (1988) S.11.


Matrix schwieriger zu erstellen ist, sondern daran, daß ihre Ergebnisse zuviel Interpretations-

spielraum bieten54.

3.4 Kausalanalyse zur Messung von Reliabilität und Validität

Die Kausalanalyse ist eine vergleichsweise neue Methode, Meßmodelle auf Reliabilität und

Validität zu untersuchen. Die Analyse ist mehr als nur eine einzelne Berechnung oder Schät-

zung, sondern eher ein regelrechtes Programm mit der Prüfung von mehreren Schritten. Histo-

risch gesehen hat sie sich aus verschiedenen Fachgebieten der Konfirmatorischen Faktorana-

lyse, den Strukturgleichungsmodellen und der Pfadanalyse entwickelt.

Abbildung 3 Historische Entwicklung der Kausalanalysei

Quelle:Vgl. Homburg (1989).

Die Kausalanalyse kombiniert jedoch nicht nur verschiedene mathematische Herangehenswei-

sen, sondert unterscheidet sich auch in zwei wesentliche Herangehensweisen. Dieexplorato-

rische Faktorenanalyseuntersucht die vorliegenden Indikatoren im Hinblick auf die ihnen

zugrunde liegende Faktorenstruktur. Bei derkonfirmatorischen Faktorenanalyse liegen

vielmehr bereits Hypothesen vor. In dieser Arbeit wird die Kausalanalyse nur kurz umrissen,

weil die Komplexen Formeln mit SPSS nicht ausgeführt werden können. Benötigt wird viel-

mehr Standardsoftware wie zum Beispiel LISREL, EQS LVPLS sowie SAS55.

3.4.1 Exploratorische Faktoranalyse

Die exploratorische Faktorenanalyse wird von Homburg/Giering (1996) zusammen mit dem

Cronbach’schen Alpha und den Item-Total-Korrelationen als Ansätze der „ersten Generati-

on“56 bezeichnet. Die Verdichtung der Indikatoren durch dieses Verfahren läßt Schlüsse auf

die Konvergenz- und Diskriminanzvalidität zu. Auf die Darstellung weiterer Einzelheiten

54 Trochim (1999):http://trochim.human.cornell.edu/kb/mtmmmat.htm, 30.8.1999.55 Homburg (1989), S.200ff.56 Homburg/Giering (1996), S.8.

Konfimatorische Faktoranalyse(Psychometrie)

Kausalanalyse

Strukturgleichungsmodelle(Oekonometrie)

Pfadanalyse(Biometrie)


wird an dieser Stelle verzichtet, weil die Anwendung dieser Modelle deutlich am Sinken ist,

während die konfirmatorische Analyse sich als überlegen zeigt57 . Anderson/Gerbing (1988)

behaupten gar, daß die exploratorische Faktoranalyse durchaus als preliminäre Technik zur

Konstruktuktion von Skalen verwandt werden kann, daß aber die konfirmatorische Faktora-

nalyse gebraucht wird um die Skalen zu evaluieren und die resultierenden Skalen zu optimie-

ren58.

3.4.2 Konfirmatorische Faktoranalyse

Die konfirmatorische Faktorenanalyse ist ein Sonderfall des allgemeinen Modells der Kau-

salanalyse, die genauer als Kovarianzstrukturanalyse bezeichnet wird (Homburg Giering

(1996) S.9:,Bagozzi/Baumgartner (1994), S. 417.). Dieses Modell stellt sich aus zwei mathe-

matischen Bestandteilen zusammen, dem Meßmodell auf Basis der konfirmatorischen Fakto-

renanalyse und dem Strukturmodell auf Basis der Strukturgleichungsanalyse.

Die Vorgehensweise ist wie folgt: Zunächst erfolgt eine Parameterschätzung, dann eine Ge-

samtgütebeurteilung und folgend eine Beurteilung der Teilstrukturen des Meßmodells

Ihre Darstellung kann im Zusammenhang mit der Messung eines Konstrukts durch die Glei-

chung

δξ +Λ= *x

ausgedrückt werden, wobeix der Vektor der Indikatorvariablen,ΛΛΛΛ die Matrix der Faktorla-

dungen,ξ der Vektor der latenten Faktoren undδδδδ der Vektor der Meßfehler ist. Die Tatsache,

daß hier nicht mehr zwischen systematischen und zufälligen Meßfehlern unterschieden wird,

„impliziert, daß eine klare Trennung von Reliabilität und Validität ... nicht immer möglich

ist“.59

An die Parameterschätzung sollte eine Gütebeurteilung des nun entstandenen Meßmodells

anschliessen.

In erster Linie sind in diesem Zusammenhang der Chi-Quadrat Test (χ2-Test), der Goodneß-

of-fit Index (GFI) und der Determinationsköffizient des Meßmodells (TCD) von Bedeutung.

57 Homburg (1996), S.9, Malhotra et al. (1999), S.172.58 Gerbing/Anderson (1988), S.189.59 Homburg/Giering (1996), S.9.


Obgleich der Chi-Quadrat-Test Standard Bestandteil von SPSS ist und so als einziger Koeffi-

zient mittels dieser Software ausgegeben werden kann, macht eine weitere Erläuterung keinen

Sinn zumal Jöreskog und Sörbom (1989) empfehlen denχ2-Wert als deskriptives Anpas-

sungsmaß zu benutzen:

rqqtsgradederFreihei −+=

)1(2

1#

22 χχ

wobei r für die Anzahl der zu schätzenden Parameter und q die Anzahl von Indikatorvariablen

darstellt.

Der GFI und AGFI sind deskriptive Anpassungsmaße, sie dienen der Beurteilung von der

Diskrepanz zwischen der empirischen Kovarianzmatrix S und der theoretischen Kovarianz-

matrixΣ^

.

Die Teilstrukturen werden durch die Indikatorreliabilität, die Faktorreliabilität und die durch-

schnittliche erfaßte Varianz eines Faktors beurteilt. „Die Indikatorreliabilität gibt den für ein-

zelne beobachtete Variablen den Anteil der durch den zugehörigen Faktor erklärten Varianz

an der Gesamtvarianz dieser Variablen an“60. Die Faktorreliabilität und die durchschnittliche

erfaßte Varianz hingegen erfassen „wie gut der Faktor durch alle ihm zugeordneten Indikato-

ren gemeinsam gemessen wird.

4 Messen bzw. Schätzen

4.1 Messung der Inter-Rater oder Inter-Observer Reliabilität

Eine Messung der Inter-Rater-Reliabilität ist im Nachhinein nicht möglich, sondern muß be-

reits während des Tests durchgeführt werden.

4.2 Messung der Test-Retest Reliabilität

Für das Medium Internet ist der Test-Retest nur bedingt geeignet und wurde nicht beim GVU

durchgeführt. Voraussetzung wäre ein Passwortzugang oder eine Identifikation über einen

Cookie, damit sichergestellt werden kann, daß die gleiche Person beim zweiten Test getestet

wird. Schwieriger ist die Person dazu zu bewegen nach wenigen Wochen, den u.U. zeitrau-

benden Test nochmals durchzuführen. Auch kann nicht kontrolliert werden, unter welchen

60 Homburg/Giering (1996), S.10.


Bedingungen die Testpersonen den Test durchführen oder ob und welche Merkhilfen sie anle-

gen. Vom Kostenpunkt ist das Test-Retest Verfahren über das Internet jedoch der günstigste

Weg, da bei herkömmlichen Formen wieder hohe Personal- und Materialkosten anfallen.

Gemessen wird der Koeffizient einfach zwischen den zwei Tests. Beim 10. GVU Suvey wur-

de auch kein Test-Retest durchgeführt, so daß sich leider keine Zahlen vergleichen lassen. Die

Idee die Ergebnisse mit denen des sechs Monate älteren 9. Surveys zu vergleichen, erwies sich

auch nicht als umsetzbar, weil die Fragen geändert wurden und die Identifikation der Personen

nicht zwischen beiden Tests vorgenommen wurde..

4.3 Messung der Paralleltest-Reliabilität und Alternativtest-Reliabilität

Die Parallel-Test und Alternativtestreliabilitäten bestimmen die Konsistenz der Resultate

zweier aufgebauter Tests. Der Unterschied zwischen Paralleltest und der Alternativtest besteht

lediglich darin, daß der Alternativtest zeitverschoben durchgeführt wird61, während der Paral-

leltest zeitgleich stattfindet. Es werden zwei verschiedene, jedoch streng vergleichbare Erhe-

bungsinstrumente denselben Beobachtern vorgelegt und deren Ergebnisse korreliert62. Beide

Instrumente werden der gleichen Auswahl von Personen vorgelegt. Die Korrelation zwischen

diesen beiden Formen ist die Schätzung dieser Reliabilität. Das Hauptproblem dieser Anwen-

dung ist, ein Paare von Fragen zu bilden, die wirklich streng vergleichbar sind, daß also der

Durchschnitt, die Varianz und die Interkorrelation der Items äquivalent sind63. Daher stammt

auch die Bezeichnug Äquivalenzkoeffizient für diesen Reliabilitätsschätzer.

Im GVU ist keine Systematik zu erkennen, nach der ein Paralleltest vorbereitet worden ist, so

findet keine wirkliche Paralleltestberechnung statt, da SPSS gezwungenermaßen zufällige

Parallelformen bildet.

4.4 Messung der Interne-Konsistenz-Reliabilität mittels Split-Half-Reliabilität und Cronbach’s Alpha

Zur Messung der Reliabilität wählte ich Items, die ein gemeinsames Konzept und eine ge-

meinsame Skala haben, um eine Vergleichbarkeit zu gewährleisten.

61 Trochim, (1999),http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99.62 Keppler, (1996), S.197.63 Peter (1979), S.8.


Die ersten Fragen wählte ich aus dem Bereich „Computer, Web and Internet Use“. Sie fragten

alle danach ob und wie eine Organisation das Web effizient nutzt.

Tabelle 3: Liste der verwendeten Variablen aus Datei „spss_use.sav“:

Merkmal Inhalt Merkmalsskalierung

Q05 Organisation uses Web effectively Kategoriala

Q06 ... to reach customers Kategoriala

Q07 ... to streamline operations Kategoriala

Q08 ... to interact with customers Kategoriala

Q09 ... in training Kategoriala

Q10 ... to reduce red tape Kategoriala

aEs gab die 5 abgestuften Kategorien „strongly agree“ bis „strongly disagree“,plus eine Kategorie „nicht anwendbar“ (wurde nicht ausgewertet)

D.h. die Fragen bilden einen Fragenkomplex, nämlich effektive Nutzung des Web, und zwar

Q05: allgemein, Q06: um Kunden zu erreichen, Q07: um Operationen zu rationalisieren, Q08:

um mit Kunden zu interagieren, Q09: um es effektiv zur Ausbildung zu nutzen, und Q10: um

das Web zur Reduzierung von Bürokratie einzusetzen. Die Antwortmöglichkeiten reichten

mit fünf Skalenwerten von „Stimme stark zu“ bis „Stimme stark dagegen“, die sechste Mög-

lichkeit war eine Enthaltung für „Nicht Anwendbar/Wird Nicht Gemacht“. Diese sechste

Möglichkeit wurde zur Berechnung der Korrelationen als Fehlender Wert (missing value)

definiert, da sie keinen Wert auf der Skala darstellt. Dadurch reduzierte sich die Gruppengrö-

ße um etwa 40%. Es war anzunehmen, daß es hier starke Korrelationen und schließlich eine

hohe Reliabilität der Messung der Items geben würde. Dieses war deutlich der Fall: Mit einem

Cronbach’schen Alpha (Berechnung siehe Anhang 1) von 0,9163 und einer Split-Half Relia-

bilität (Berechnung siehe Anhang 2) von 0,91 ist an einer Reliabilität der Messung durch diese

Skalen kaum zu zweifeln. SPSS liefert eine Reihe von anderen Werten, die relevanten sind

markiert.

Abbildung 4: Cronbach’sches Alpha und Split-Half Reliabilität (Analyse am 10. GVU)R E L I A B I L I T Y A N A L Y S I S of „Organization Uses Web Effectively...“

N of Cases = 1767.0

Cronbach’s Alpha

Alpha = .9163 Standardized item alpha = .9162

SPLIT-HALF ANALYSE

Reliability Coefficients 6 items

Correlation between forms = .8348 Equal-length Spearman-Brown = .9100

Guttman Split-half = .9095 Unequal-length Spearman-Brown = .9100


Alpha for part 1 = .8620 Alpha for part 2 = .8362

3 items in part 1 3 items in part 2

(Die Abbildung ist eine Kopie aus SPSS Output, siehe Anhang für Syntax)

4.5 Messung der Konstruktvalidität mittels der MTMM Matrix

Selbst eine kleine MTMM Matrix ist aus dem 10. GVU Survey nicht direkt zu erstellen, weil

sich keine Fragenkomplexe mit zwei Traits (Konzepten) finden lassen, die gleichzeitig mit

zwei Methoden (hier: Skalen) messen. Dennoch läßt sich eine solche Matrix mit vergleichs-

weise geringem Aufwand konstruieren. Die beiden gewählten Konzepte sind Fun (F) und Ar-

beit (A) mit dem Web. Die Methode 1 ist die Skala „strongly agree“ bis „strongly disagree“

(M1) und die Methode 2 die Skala „daily bis never“ (M2).

Die Daten werden direkt aus der Umfrage nach ‚Computer, Web und Internet Use‘ (Original-

Dateiname: spss_use.sav) genommen. Folgende Hypothesen wurden getroffen: Die Fragen

Q05 bis Q08 beschreiben das Konstrukt (A), ebenso die Fragen Q102 bis Q105. Die Fragen

Q115 bis Q118 sowie die Fragen Qn1 bis Qn4 beschreiben das Konstrukt Arbeit. Die Metho-

de 1 als Antwortmöglichkeit von den Fragen Q102 bis Q105 und von Q115 bis Q118 benutzt

die Methode 2 von den anderen beiden. Da dies das einzige Set war, daß sich zumindest der

MTMM Idee annähert, aber trotzdem nur drei von 4 notwendigen Fragekomplexen vorhanden

waren, wurden die Fragen Qn1 bis Qn4 sind frei ausgedacht und benutzen die Datensätze der

Fragen (Q5,Q6,Q9;Q10).

Zur Erstellung der MTMM Matrix werden zunächst die verschiedenen Reliabilitäten berech-

net, dann die Korrelationswerte und diese dann in der der MTMM – Matrix zusammengefügt

(siehe Anhang 3).


Tabelle 4: Konstruierte MTMM-Matrix aus dem Datensatz (spss_use.sav)

ÿþýüûú ø ÷��þþ�ú��þþ� ÿþýüûú � ÷��þ��þ��

� �� ý ø ��þ�ý�

��

� �� ý � ��

� �

� �� ý ø ��þ�ý�

�ø

��ý � ��

�ø

��ý ø ��þ�ý�

��ÿþýþü

ÿþýüûú ø

÷��þþ�ú��þþ� ��ý � ��

� �ÿ�� ÿ��

� �� ý ø ��þ�ý�

�ø�ÿ �ýý �ÿ��ü ÿ��

ÿþýüûú �

÷��þ��þ�� ý � ��

�ø�ÿ��ý �ÿ �ý� ÿ�� ÿ��

Die Validitätsprüfung kann nun Schritt für Schritt durchgeführt werden. Die Werte der Relia-

bilitätsdiagonale (A2A2,F2F2,A1A1,F1F1) sollen höher sein als alle anderen Werte der Ma-

trix, das ist fast der Fall, es gibt nur einen Ausreißer (F1A1). Die Konvergenzvalidität ist dann

erreicht, wenn sich die Werte auf der Validitätsdiagonale (A1A2,F1F2) signifikant von Null

unterscheiden. Dies ist nicht der Fall. Die Bestimmung derDiskriminanzvalidität liefert

ebenso keine zufriedenstellenden Ergebnisse. Erstens sollte der Koeffizient auf der Validitäts-

diagonale (Validitätskoeffizienten) größer sein als die anderen Werte der Zeile und der Spalte

in der er liegt, diese Bedingung ist verletzt (F2A2 > A1A2). Die anderen Bedingungen werden

damit auch nicht erfüllt, da die Heterotrait-Monomethod-Dreiecke bei dieser kleinen Matrix

nur aus jeweils einem Wert bestehen (F2A2,F1A1) und diese auch größer sind als die Werte

der Validitätsdiagonale. Und drittens sollte das Muster in allen Heterotrait-Dreiecken gleich

sein, also die Randgodungen zwischen den Koeffizienten gleich sein. Da die Prozedur "Biva-

riate Korrelationen" in SPSS bei dem Korrelationskoeffizienten nach Spearman ihre jeweili-

gen Signifikanzniveaus errechnet, läßt sich dieses auch direkt ablesen. Mit Korrelationen wer-

den die Beziehungen zwischen Variablen oder deren Rängen gemessen.


Tabelle 5: Zweiseitiges Signifikanzniveau

�� ø �ø

�� ÿ

� � ÿ�� ÿ

�ø ÿýþü ÿþ�� ÿ

�ø ÿý� ÿý�� ÿ�� ÿ

Man erkennt, daß auch das letzte Kriterium zur Erfüllung von Diskriminanzvalidität verletzt

wurde, da F2A2 und F1A1 überhaupt nicht korrelieren. Der Grund des Versagens besteht

nicht in der Tatsache, daß F1 aus den Qn-Fragen konstruiert wurde, vielmehr deuten auch A2

und F2 mit ihren niedrigen Reliabilitäten auf Inkonsistenzen bezüglich der Messung hin.

5 ZusammenfassungHierzu wird zunächst erläutert wie sich Meßfehler klassifizieren lassen, was Validität und

Reliabilität ist und welche Zusammenhänge zwischen ihnen bestehen. Des weiteren werden

die verschiedenen Methoden zur Schätzung der Reliabilität und Validität aufgeführt und zwei

herausragende Methoden, die Multitrait-Multimethod Matrix sowie die Kausalanalyse be-

trachtet. Anschließend werden die gewonnenen Erkenntnisse mittels SPSS umgesetzt.

Ziel der Arbeit war es einen Überblick über die Theorie der Reliabilität und Validität und ihre

Zusammenhänge zu bilden, die Methoden die es zur Einschätzung von Reliabilität und Vali-

dität einer Marktforschung gibt aufzuführen, zu erläutern und praktisch anzuwenden.

Festgestellt werden konnte, daß aufgrund des Zusammenhanges von Reliabilität und Validität

beides gemessen werden muß und daß modernere Verfahren wie die Kausalanalyse dieses

berücksichtigen.

Eine weitere wichtige Erkenntnis ist, daß viele Schätzmethoden eine Berücksichtigung schon

im Testdesign erfordern, da der Test auf sie angelegt sein muß (Paralleltest, Test-Retest).

Weiter ist es inbesondere aus Kostengründen ratsam auch schon vor der Durchführung des

Tests sogenannte Pre-Tests durchzuführen, die entscheiden ob das Test-Design reliable und

valide Ergebnisse liefert.


Anhang

Anhang 1 Cronbach’s Alpha

RELIABILITY/VARIABLES=q05 q06 q07 q08 q09 q10/FORMAT=NOLABELS/SCALE(ALPHA)=ALL/MODEL=ALPHA.

Anhang 2 Split-Half-Reliabilität

RELIABILITY/VARIABLES=q05 q06 q07 q08 q09 q10/FORMAT=NOLABELS/SCALE(SPLIT)=ALL/MODEL=SPLIT..

Anhang 2 MTMM Matrix

Tabelle: Liste der verwendeten Variablen aus Datei „spss_use.sav“:

Merkmal Inhalt Merkmalsskalierung Gehört

zu

Q05 Organisation uses Web effectively Kategoriala A1

Q06 ... to reach customers Kategoriala A1

Q07 ... to streamline operations Kategoriala A1

Q08 ... to interact with customers Kategoriala A1

Qn1 Many of my collegues use the web for fun Kategoriala F1

Qn2 ... in internet games Kategoriala F1

Qn3 ... by having social contact Kategoriala F1

Qn4 ... in enhancing wisdom Kategoriala F1

Q102 Freq. of assessing Newsgroups Kategorialb A2

Q103 ... Electronic News Kategorialb A2

Q104 ... Product Information Kategorialb A2

Q105 ... Purchases Kategorialb A2

Q115 Freq. of Using the Web instead of watching TV Kategorialb F2

Q116 ... using phone Kategorialb F2

Q117 ... sleeping Kategorialb F2

Q118 ... exercising Kategorialb F2aEs gab die 5 abgestuften Kategorien „strongly agree“ bis „strongly disagree“,plus eine Kategorie „nicht anwendbar“ (wurde nicht ausgewertet)b Es gab die 5 abgestuften Kategorien „daily“, „weekly“, „monthly“, „less than once amonth“, „never“

* Als erstes berechne ich die verschiedenen Reliabillitäten.*T1,T2 sind Trait 1,2*M1,M2 sind Methode 1,2* A1 (T1M2)RELIABILITY

/VARIABLES=q05 q06 q07 q08/FORMAT=NOLABELS/SCALE(ALPHA)=ALL/MODEL=ALPHA.


* A2 (T1M1)RELIABILITY


* F1 (T2M1)RELIABILITY


* F2 (T2M2)RELIABILITY


* Im zweiten berechne ich die Korrelationswerte der MTMM - Matrix.* -----------------------------------------------------------------------------------------* Wegen der nicht zur Skala gehörenden Antwortmöglichkeit 'not applicable'* werden diese Antworten als Missing Values definidert* MISSING VALUE Q05 TO Q10(1).

* Zur Aufteilung in die Konzepte und Methoden werden die einzelnen* Fragen zusammengefaßt. Hier werden die Variablen summiert, die Wahl* der Methode steht jedoch frei, solange jeweils die gleiche gewählt wird.* Die Fragen werden entsprechend ihrer Konzepte und Methoden benannt.

* A-Konzept (Trait) zur Messung von Arbeit* F-Konzept (Trait) zur Messung von Freizeit* 1-Skala 'agree/disagree'* 2-Skala 'frequency'

COMPUTE A1 = SUM(Q05 TO Q08).COMPUTE A2 = SUM(Q102 TO Q105).COMPUTE F1 = SUM(Q05, Q06, Q09, Q10).COMPUTE F2 = SUM(Q115 TO Q118).

EXECUTE.

*und schließlich die Korrelationsmatrix, die außerdem die Signifikanzen*und die absoluten Häufigkeiten ausgibt

NONPAR CORR/VARIABLES=A2 F2 A1 F1/PRINT=SPEARMAN TWOTAIL SIG/MISSING=PAIRWISE .

EXECUTE.


Literaturverzeichnis

Bortz, Jürgen (1999): „Statistik für Sozialwissenschaftler“, Heidelberg: Springer-Verlag..

Bruner, Gordon C.and Hensel, Paul J. (1994): „Marketing scales handbook: a compilation ofmulti-item measures“ New York.

Campbell und Fiske (1959):“Convergent and Discriminant Validation by the Multitrait-Multimethod Matrix“, in Psychological Bulletin, 56. Jg., Feb., S.64-73.

Christof, Karin und Pepels, Werner (1999): „Praktische quantitative Marktforschung : Bei-spielauswertungen mit SPSS“, Muenchen : Vahlen

Churchill,G.A. (1979): „A Paradigm for Developing Better Measures of Marketing Con-structs“ in Journal of Marketing Research, Vol. XVI (February 1979, S.64-73.

Churchill,G.A. (1992):“Special Section on Scaling and Measurement – Better MeasurementPractices are Critical to Better Understanding of Sales Management Ißüs“, Journal of PersonalSelling and Sales Management, 12, 73-80.

Cronbach, Lee J., Goldine C. Gleser, Harinder Nanda and Nageswari Rajaratnam (1972):„The Dependability of Behavioral Measurements: Theory of Generalizablility for Scores andProfiles“

Duboff, Rob (1996): „The Money Pit“, in Across the Board (Nov/Dec 1996), S.19-23.

Gerbing, David and and James C. Anderson (1988): „An Updated Paradigm of Scale Deve-lopment Incorporating Unidimensionality and its Assessment“ in Journal of Marketing Rese-arch 25 (May): 186-192.

Finn, Adam und Kayande, Ujwal (1997): „Reliability Assessment and Optimization of Mar-keting Measurement“ in Journal of Marketing Research 36 (May): 262-275

Homburg, Christian (1989): „Exploratorische Ansätze der Kausalanalyse als Instrument derMarketingplanung“, Europäische Hochschulschriften: Frankfurt am Main.

Homburg, Christian und Giering, Annette (1996):“Konzeptualisierung und Operationalisie-rung komplexer Konstrukte – Ein Leitfaden für die Marketingforschung“ , Marketing ZFP, 18,5-24.

Hüttner, Manfred [u.a.] (1997): „Grundzüge der Marktforschung“ München: Oldenbourg.

Malhotra, Naresh K.; Peterson,Mark; Kleiser, Susan Bardi (1999): „Marketing research: Astate-of-the-art review and directions for the twenty-first century“ in Academy of MarketingScience. Journal; Greenvale; Spring 1999,Volume: 27, Iss.: 2, S.: 160-183

Malhotra, Naresh K.; Peterson,Mark; Kleiser, Susan Bardi (1988): „Some Observations on theState of the Art in Marketing Research“ in Academy of Marketing Science. Journal; Green-vale; Spring 1988,Volume: 16, No. 1, S.:4-24.

Parameswaran, Ravi; Greenberg, Barnett A.; Bellenger, Danny; Robertson, Dan H. (1979):„Measuring Reliability: A Comparison of Alternative Techniques“, in Journal of MarketingResearch, Vol 16, S.18-25.

Peter, J. Paul (1981):“Construct Validity: A Review of Basic Ißüs and Marketing Practices“ inJournal of Marketing Research 18 (May): 133-145.


Peterson, Robert A. (1994): „A Meta-analysis of Cornbach’s Cöfficient Alpha“ in Journal ofConsumer Research, Vol.21, 381-391.

Torabi, M.R. (1994) “Reliability Methods and Number of items in development of health in-struments”Health Valüs: The Journal of Health Behavior, Education and Promotion, Vol.18N6 (Nov.-Dec.), S. 56-59.

Trochim (1999): Research Methods Knowledge Base, http://trochim.human.cornell.edu/kb.

Weiterführende Literatur

Baumgartner, Hans und Christian Homburg (1996): „Applications of Structural Equation Mo-deling in Marketing and Consumer Research: A Review.“ International Journal of Research inMarketing 13 (2): S. 139-161.

Perreault, Willam D., Jr. And Leigh, Laurence, E. (1989): "Reliability of Nominal Data Basedon Qualitative Judgments." Journal of Marketing Research 26 (May): 135-148.

Hildebrandt, Lutz und Homburg, Christian (1998): „Die Kausalanalyse: Ein Instrument derempirischen betriebswirtschaftlichen Forschung“, Stuttgart, Schäffer-Pöschel.

Richins, Marsha L. (1987), "A Multivariate Analysis of Responses to Dissatisfaction," Journalof the Academy of Marketing Science, 15 (3), 24-31

Homburg, Christian und Baumgartner, Hans (1995a): Die Kausalanalyse als Instrument derMarketingforschung: Eine Bestandsaufnahme“ in Zeitschrift für die Betriebswirtschaft, 65.Jg., 1995, Nr.10,S.1091-1108.

Homburg, Christian und Baumgartner, Hans (1995b): Beurteilung von Kausalmodellen“ inMarketing ZFP, 17.Jg.,1995,Nr.3,S.162-176.

Long, J. Scott (1983): „Confirmatory Factor Analysis – A Preface to Lisrel“, Newbury Park:Sage Publications.

Nunnally, J.C. (1978) “Psychometric Theory (1st ed.)” Mc-Graw Hill, New York.1999. AMAWinter Marketing Educators Conference Feb 20-23

Messung von Reliabilität und Validität · Block Nr. I, Thema Nr. 2 Messung von Reliabilität und...

Documents

Transcript of Messung von Reliabilität und Validität · Block Nr. I, Thema Nr. 2 Messung von Reliabilität und...