Messung von Reliabilität und Validität · Block Nr. I, Thema Nr. 2 Messung von Reliabilität und...
-
Upload
hoangtuyen -
Category
Documents
-
view
225 -
download
0
Transcript of Messung von Reliabilität und Validität · Block Nr. I, Thema Nr. 2 Messung von Reliabilität und...
Block Nr. I, Thema Nr. 2
Messung von Reliabilität und Validität
Referat im Rahmen des Speziellen Seminars zum Thema
„Multivariate Analyseverfahren und deren Anwendung am Bei-
spiel des 10th GVU’s WWW User Surveys“
im Wintersemester 1999/00
eingereicht bei
Prof. Dr. Bernd Skiera
Lehrstuhl für Betriebswirtschaftslehre,
insbesondere Electronic Commerce
Johann Wolfgang Goethe-Universität
Frankfurt am Main
von
stud. rer. pol. Dietmar Walter Zilz
http://www.wiwi.uni-frankfurt.de/~zilz
Studienrichtung: Betriebswirtschaftslehre
8. Fachsemester
Abgabedatum: 28. September 1999
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 II
Inhaltsverzeichnis
Abbildungsverzeichnis .............................................................................................................. IV
Tabellenverzeichnis.....................................................................................................................V
Abkürzungsverzeichnis ............................................................................................................. VI
Symbolverzeichnis ................................................................................................................... VII
1 Einleitung ...............................................................................................................................1
2 Begriffsbildung ......................................................................................................................1
2.1 Klassifizierung von Meßfehlern......................................................................................1
2.2 Definition der Reliabilität................................................................................................2
2.3 Definition der Validität ...................................................................................................3
2.4 Zusammenhang von Reliabilität und Validität................................................................4
3 Methoden................................................................................................................................5
3.1 Methoden der Messung von Reliabilität .........................................................................53.1.1 Inter-Rater oder Inter-Observer Reliabilität ..........................................................53.1.2 Test-Retest Reliabilität..........................................................................................53.1.3 Paralleltest-Reliabilität und Alternativtest-Reliabilität .........................................63.1.4 Interne-Konsistenz-Reliabilität .............................................................................6
3.1.4.1 Split-Half-Reliabilität ..............................................................................73.1.4.2 Cronbach’s Alpha ....................................................................................73.1.4.3 Kuder_Richardson Formel (KR20)..........................................................83.1.4.4 G-Theorie (Generalisierungs-Theorie).....................................................9
3.2 Methoden der Messung von Validität ...........................................................................103.2.1 Externe und Interne Validitaet ............................................................................103.2.2 Inhaltsvaliditaet (Augenscheinvaliditaet und Expertenvaliditaet) ......................103.2.3 Konstruktvalidität (Konvergenz- und Diskriminanzvalidität) ............................113.2.4 Kriteriumsvalidität (Prognose- und Übereinstimmungsvalidität) .......................113.2.5 Nomologische Validitaet.....................................................................................11
3.3 Multitrait-Multimethod-(MTMM) Matrix zur Messung der Konstruktvalidität...........12
3.4 Kausalanalyse zur Messung von Reliabilität und Validität....................................143.4.1 Exploratorische Faktoranalyse ............................................................................143.4.2 Konfirmatorische Faktoranalyse .........................................................................15
4 Messen bzw. Schätzen .........................................................................................................16
4.1 Messung der Inter-Rater oder Inter-Observer Reliabilität.............................................16
4.2 Messung der Test-Retest Reliabilität ............................................................................16
4.3 Messung der Paralleltest-Reliabilität und Alternativtest-Reliabilität............................17
4.4 Messung der Interne-Konsistenz-Reliabilität mittels Split-Half-Reliabilität undCronbach’s Alpha..........................................................................................................17
4.5 Messung der Konstruktvalidität mittels der MTMM Matrix .................................19
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 III
5 Zusammenfassung...............................................................................................................21
Literaturverzeichnis................................................................................................................24
Anzahl Wörter: 6391
Dateiname: zilz_skiera_multivariat_thema2_280999.doc
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 IV
Abbildungsverzeichnis
Abbildung 1: Zusammenhang von Reliabilität und Validität .....................................................4
Abbildung 2: Multitrait-Multimethod Matrix ...........................................................................12
Abbildung 3 Historische Entwicklung der Kausalanalysei .......................................................14
Abbildung 4: Cronbach’sches Alpha und Split-Half Reliabilität (Analyse am 10. GVU) .......18
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 V
Tabellenverzeichnis
Tabelle 1: Ausgewählte Reliabilitätsgrade..................................................................................3
Tabelle 2: Zusammenhang von dem Wert des Cronbach’schen Alphas in Bezug auf die
Anzahl von Items pro Skala und Kategorien pro Item ........................................8
Tabelle 3: Liste der verwendeten Variablen aus Datei „spss_use.sav“:....................................18
Tabelle 4: Konstruierte MTMM-Matrix aus dem Datensatz (spss_use.sav) ............................20
Tabelle 5: Zweiseitiges Signifikanzniveau ...............................................................................21
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 VI
Abkürzungsverzeichnis
G-Theorie Generalisierungstheorie
GVU Graphic, Visualization, & Usability Center
KR20 Kuder-Richardson Formel
M Methode
MTMM Multitrait-Multimethod
TCD Total Coefficient of Determination
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 VII
Symbolverzeichnis
x0: Meßwert
xT: wahrer Meßwert
xERR: Meßfehler
xR: Zufallsfehler
xS: systematische Fehler
r: Reliabilität2tσ Varianz des wahren Werts
2Oσ Varianz des beobachteten Werts
xS: systematische Fehler
r: Reliabilität
rsb Split-Half-Reliabilität nach Spearman-Brown
rxy Varianz des beobachteten Werts
α Cronbach’s Alpha2tσ Gesamtvarianz
k Anzahl Teile
p Proportion
q Komplement von p
A Arbeit
F Fun
M Methode
Q Question
x Vektor der Indikatorvariablen
ΛΛΛΛ Matrix der Faktorladungen
ξ Vektor der latenten Faktoren
δδδδ Vektor der Meßfehler
r Anzahl der zu schätzenden Parameter
q Anzahl von Indikatorvariablen
S empirische Kovarianzmatrix
Σ^
. theoretische Kovarianzmatrix
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 1
1 EinleitungBis hin zu den 80er Jahren haben Unternehmen kaum Wert darauf gelegt ob und inwieweit
von ihnen durchgeführte Marktforschungen wirklich Gültigkeit haben. In Anbetracht der Tat-
sache, daß gerade im Zuge der Entwicklung von zunehmend anonymen Transaktionen über
das WWW eine Einschätzung von Ergebnissen wichtig ist, ist dieses Thema aktuell wie nie
zuvor. Die Reliabilität und Validität von Surveys und Marktforschungen. ist von großer und
steigender Wichtigkeit für Unternehmen, zumal schon 1995 in den USA allein über $50 Mil-
liarden hierfür investiert wurden1. Diese Arbeit konzentriert sich auf die Messung von Relia-
bilität und Validität im Hinblick auf Marktforschungen (Surveys) mittels des WorldWide-
Web. Ziel der Arbeit ist es, die Theorie und die Meßmethoden der Reliabilität und Validität
ausführlich zu erläutern, und Analysen mittels der Standardsoftware SPSS durchzuführen. Der
theoretische Teil konzentriert sich daher auf die Möglichkeiten, die SPSS bietet. Hierzu wird
zunächst erläutert wie sich Meßfehler klassifizieren lassen, was Validität und Reliabilität ist
und welche Zusammenhänge zwischen ihnen bestehen. Des weiteren werden die verschiede-
nen Methoden zur Schätzung der Reliabilität und Validität aufgeführt und zwei herausragende
Methoden, die Multitrait-Multimethod Matrix sowie die Kausalanalyse betrachtet. Anschlie-
ßend werden die gewonnenen Erkenntnisse mittels SPSS umgesetzt.
2 Begriffsbildung
2.1 Klassifizierung von Meßfehlern
Jede Messung beinhaltet immer ein gewisses Maß an Ungenauigkeit. Optimal wäre, wenn
jede Messung genau ihrem originalem Wert entspräche. Aufgrund von unterschiedlichen
Faktoren, die mehr oder weniger stabil, situationsbezogen, und variierend sein können, gibt es
jedoch unter Umständen gravierende Abweichungen der Messungen von der Wirklichkeit.
Der Meßwert (x0) kann daher wie folgt beschrieben werden2:
ERRT xxx +=0
1 Duboff (1996), S.19.2 vgl. Peter (1979), S.7; vgl.http://www.stsoftinc.com/textbook/streliab.html), 30.8.1999
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 2
Wobei x0 der Meßwert, xT der wahre Wert (true Value) ist und xERRder Fehler (ERR). Dieser
Fehler wird zur besseren Analyse und Problemlösung in der Literatur in zwei Arten unterteilt.
Erstens in die Zufallsfehler xR (random errors), welche durch die Höhe der Reliabilität ange-
zeigt werden sowie zweitens in die systematischen Fehler xS, welche durch die Höhe der Va-
lidität ausgedrückt werden3. Gibt es bei einer Messung keine zufälligen Fehler (xR=0), so ist
sie vollständig reliabel. Die Zufallsfehler werden auch als transitorische Fehler bezeichnet, die
durch bestimmte Merkmale einer Person oder eine besondere Situation gekennzeichnet sind,
während die systematischen Fehler konstante Fehler sind, die etwa auf einer falschen Eichung
eines Meßinstrumentes beruhen4. Gibt es keine systematischen Fehler (xS=0), so liegt ein voll-
ständig valides Meßergebnis vor5.
Es ist wichtig, schon vor Beginn der Messung zu prüfen ob diese auch wirklich reliabel und
valide ist, denn obgleich es über 3000 publizierte Tests gibt und ‚Marketing Scales‘ Handbü-
cher existieren6, welche typische Skalen von Antworten mit Angaben ihrer Validität und Re-
liabilität enthalten, sind solche Vorgaben nicht einfach auf neue Tests und neue Zielgruppen
zu übertragen7.
2.2 Definition der Reliabilität
Reliabilität beschreibt das Ausmaß in welchem ein Experiment, ein Test oder ein anderes
Meßverfahren gleiche Resultate bei wiederholten Versuchen konsistent liefert8. Ein ideal re-
liabler Test liefert also zu unterschiedlichen Zeitpunkten und unterschiedlichen Umweltbedin-
gungen immer die gleichen Ergebnisse.
Mathematisch ausgedrückt gilt9:
2
2
O
tr
σσ
=
3 Churchill (1979), S.65.4 Churchill (1992), S.75.5 Churchill (1979) S.65.6 z.b. Bruner et. Al (1994).7 Rentsch/Hutchison (1999), S.13.8 vgl Peter (1979) S.6. Torabi (1994) S.57f.9 (Finn/Kayande (1997), S.263.)
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 3
Wobei r für die Reliabilität 2tσ für die Varianz des wahren Werts (true score) und2Oσ für die
Varianz des beobachteten Werts (observed score) steht. Da der wahre Wert der Varianzen von
Meßwerten in der Regel nicht bekannt ist, läßt sich die Reliabilität nicht exakt berechnen.
Reliabilität muß geschätzt werden10. Wie man erkennt, liegt der zu beobachtende Wert zwi-
schen Null und Eins. In der Literatur herrscht weitgehend Übereinstimmung darüber, eine
Reliabilität ab einem Wert von etwa 0,75 als reliabel zu bezeichnen wie die Tabelle 1 bei-
spielhaft belegt.
Tabelle 1:Ausgewählte ReliabilitätsgradeAutor Situation Empfohlener Mindestgrad
Kaplan und Sacuzzo (1982), S.106 Grundlagenforschung
Zweckforschung
0,7-0,8
0,95
Nunnally (1978), S.226 Grundlagenforschung
Zweckforschung
0,8
0,95
(Quelle: Peterson (1994), S.382)
Es gibt unterschiedliche Methoden die Reliabilität zu messen. Jeder dieser anschließend er-
läuterten Reliabilitätsschätzer (3.2) wird differierende Werte für die Reliabilität ausgeben. Im
allgemeinen werden die Test-Retest- und die Inter-Rater-Reliabilität kleiner sein als die Par-
alleltest- und die Interne-Konsistenz-Reliabilität, da die ersten beiden Messungen zu unter-
schiedlichen Zeiten stattfinden bzw. unterschiedliche Befragte beinhalten11.
2.3 Definition der Validität
Ein Meßinstrument wird dann als valide oder “gültig” bezeichnet, wenn es genau jenes mißt,
was gemessen werden soll. Nicht nur Messungen selbst können nicht valide sein, sondern
auch die Schlüsse und Folgerungen, die aus den Messungen gezogen werden. Validität als
Genauigkeitsgrad liegt in dem Maße vor, in dem die Messungen frei von “systematischen”
Fehlern sind12. Systematische Fehler sind solche, die die Messung kontinuierlich beeinflussen.
10 Trochim, (1999), http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99.11 Trochim, (1999), http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99.12 Hüttner (1997), S.543
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 4
2.4 Zusammenhang von Reliabilität und Validität
Reliabilität und Validität können nicht voneinander getrennt betrachtet werden. Eine Messung
sollte möglichst hohe Werte für die Reliabilität und die Validität gleichzeitig haben.
Abbildung 1: Zusammenhang von Reliabilität und Validität
Quelle: Trochim (1996),http://trochim.human.cornell.edu/kb/rel&val.htm, 30.8.1999.
Die obige Zielscheibengrafik beschreibt dieses Problem deutlich. Der Kern stellt den wahren
Wert xT dar, die kleinen Punkte sind die jeweiligen Meßwerte x0. Die erste Grafik zeigt eine
Konzentration auf einen Punkt. Innerhalb der Messung gibt es also keine außergewöhnlichen
zufälligen Abweichungen: Die Messung ist reliabel, aber nicht valide, weil sie systematisch
falsche, vom Meßwert abweichende Werte liefert. Die zweite Grafik zeigt durchschnittlich
gleichverteilte Werte, eine systematische Abweichung ist nicht festzustellen. In der dritten
Grafik gibt es eine systematische Abweichung sowie eine zufällige Abweichung, so daß diese
Messung weder als valide noch als reliabel bezeichnet werden kann13. Reliabilität ist eine
notwendige Bedingung für Validität, außer dann, wenn vom reinen Durchschnitt ausgegangen
wird, wie in der zweiten Grafik und dieser Durchschnitt genau dem wahren Wert entspricht.
Die gegenseitige Abhängigkeit von Reliabilität und Validität ist jedoch nicht zu unterschät-
zen, zumal in letzter Zeit vermehrt auf die Reliabilität geachtet wurde, die mit wenig Aufwand
per SPSS-Menübefehl berechnet werden kann. Dieses macht eine Optimierung im Hinblick
auf die Reliabilität leicht, aber schadet im Zweifelsfall der Validität. Nicht ohne Grund fällt
daher in den modernen Modellen der später erläuterten Kausalanalyse die Trennung von Re-
liabilität und Validität weg.
13 vgl. Trochim (1996),http://trochim.human.cornell.edu/kb/rel&val.htm, 30.8.1999.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 5
3 Methoden
3.1 Methoden der Messung von Reliabilität
3.1.1 Inter-Rater oder Inter-Observer Reliabilität
Misst den Grad in dem zwei unterschiedliche Beobachter/Bewerter konsistente Einschätzun-
gen eines Phänomens geben14. Unterschiedliche Beobachter produzieren unterschiedliche Re-
sultate aufgrund der Natur des Menschen. So reagieren die Menschen anders auf Störungen
von innen und außen, sie differieren in Ihrer Art Informationen wahrzunehmen, aufzunehmen
und zu interpretieren.
Eine Messung ist z.B. folgendermaßen möglich. Die erste ist anzuwenden, wenn nach Katego-
rien gemessen wird, die zweite bei einer kontinuierlichen Messung.
Zunächst können den Beobachtern Kontrollfragen zu einzelnen Fragen gestellt werden, nach
denen bestimmte Begriffe eingeschätzt werden. Zum Beispiel: „Was verstehen Sie unter groß,
160, 180 oder 200 cm? Wenn dann zum Beispiel 86 von 100 Beobachtungen in die gleiche
Kategorie gewählt werden, bekommt man einen Grad der Übereinstimmung dieser beiden
Beobachter von 86%.
Eine Messung der Inter-Rater-Reliabilität ist im Nachhinein nicht möglich.
3.1.2 Test-Retest Reliabilität
Die Test-Retest Reliabilität, auch Stabilitätskoeffizient genannt15, bestimmt die Konsistenz
von Messungen von einem Zeitpunkt zum nächsten. Sie korreliert die Ergebnisse zweier Un-
tersuchungen, die mit demselben Meßinstrument innerhalb eines bestimmten Zeitraumes wie-
derholt an der gleichen Auswahl von Beobachtern unter möglichst gleichen Bedingungen vor-
genommen wurden. Diese Vorgehensweise setzt voraus, daß inzwischen keine substantielle
Veränderung im gemessenen Konstrukt stattgefunden hat.
Die Länge des Zeitraumes zwischen zwei verschiedenen Messungen ist entscheidend und
führt in den allermeisten Fällen zu unterschiedlichen Ergebnissen. In der Regel ist davon aus-
zugehen, daß bei kurzen Zeiträumen zwischen den Messungen eine hohe Korrelation und bei
langen Zeiträumen eine niedrige Korrelation zu erwarten ist. Die Gründe liegen vor allem in
14 Trochim, (1999),http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99.15 Keppler, (1996), S.196 f.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 6
Lerneffekten der Beobachter (gelerntes wird im Zuge der Zeit vergessen) und den Verände-
rungen in der Umwelt (die Wahrscheinlichkeit steigt, daß das Konstrukt veraltet)16. Desweite-
ren kann bei einer Veränderung eines Phänomens nicht festgestellt werden, ob es wirklich
eine Veränderung oder lediglich eine niedrige Reliabilität des Tests ist17. Und schließlich ist
die Retest Korrelation nur teilweise abhängig von der Korrelation zwischen den Items, weil in
die Summenkorrelation auch die Korrelationen der Items mit sich selbst eingehen.
3.1.3 Paralleltest-Reliabilität und Alternativtest-Reliabilität
Die Parallel-Test und Alternativtestreliabilitäten bestimmen die Konsistenz der Resultate
zweier aufgebauter Tests. Der Unterschied zwischen Paralleltest und der Alternativtest besteht
lediglich darin, daß der Alternativtest zeitverschoben durchgeführt wird18. Es werden zwei
verschiedene, jedoch streng vergleichbare Erhebungsinstrumente denselben Beobachtern vor-
gelegt und deren Ergebnisse korreliert19. Beide Instrumente werden der gleichen Auswahl von
Personen vorgelegt. Die Korrelation zwischen diesen beiden Formen ist die Schätzung dieser
Reliabilität. Das Hauptproblem dieser Anwendung ist ein Menge wirklich streng vergleichbar
sind, daß also der Durchschnitt, die Varianz und die Interkorrelation der Items äquivalent
sind20. Daher stammt auch die Bezeichnug Äquivalenzkoeffizient für diesen Reliabilitäts-
schätzer.
3.1.4 Interne-Konsistenz-Reliabilität
Die Interne-Konsistenz-Reliabilität bestimmt die Konsistenz von Resultaten zwischen Varia-
blen innerhalb eines Tests21. (Trochim, Types of Reliability, 1999). Die Interne Konsistenz
Reliabilität läßt sich darstellen bzw. schätzen durch die durchschnittliche Inter-Item Korrelati-
on, die durchschnittliche Item-Total-Korrelation, die Split-Half-Reliabilität sowie Cronbach’s
Alpha und die Kuder-Richardson Formel. Diese Formen, vor allem das Cronbach’sche Alpha
16Trochim, (1999),http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99.17 Peter (1979), S.8.18 Trochim, (1999),http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99.19 Keppler, (1996), S.197.20 Peter (1979), S.8.21 Trochim, (1999),http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 7
bzw. die Kuder-Richardson Formel sind die aufgrund ihrer Einfachheit und der in den aller-
meisten Fällen ausreichenden Genauigkeit die häufig benutzten Methoden22.
Die interne Konsistenz ist sehr wichtig für das Ergebnis, weil inkonsistente Fragen wider-
sprüchlich wären und die Aussagekraft der Untersuchung erheblich herabsetzen oder gar auf-
heben würden.
3.1.4.1 Split-Half-Reliabilität
Bei der Split-Half-Reliabilität werden nach dem Zufallsprinzip alle Elemente, die zu der Mes-
sung desselben Konstrukts beitragen in zwei Sets aufgeteilt. Das gesamte Erhebungsinstru-
ment wird der befragten Person zur Auswahl gegeben, aber zur Überprüfung der Reliabilität
werden nur die Korrelationen der jeweiligen Hälfte berechnet23. Mathematisch ausgedrückt
gilt24.
Wobei rsb die Split-Half-Reliabilität nach Spearman-Brown ist undrxy die Korrelation zwi-
schen den beiden Hälften beschreibt
Die Split-Half-Reliabilität ist ein einfaches, aber dafür sehr robustes Verfahren.
3.1.4.2 Cronbach’s Alpha
Cronbach’s Alpha25 entspricht der Berechnung des Durchschnittswertes aller k-möglichen
Split-Half-Reliabilitäten. Mittels der Formel von Cronbach wird dieser große Rechenaufwand
jedoch deutlich vereinfacht. Dieses ist sicherlich der Grund weswegen Cronbach’s Alpha der
am häufigsten benutzte Reliabilitätskoeffizient ist26.
����
�
�
����
�
�
−−
=�
=2
1
2
1*1 t
k
ii
k
k
σ
σα
22 vgl. Peterson (1994) S.383; vgl. Parameswaran et al. (1979) S.20.23 Trochim, (1999),http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99.24 http://www.statsoftinc.com/textbook/streliab.html, 30.8.99.25 vgl. Cronbach (1951).26 Homburg/Giering, 1996, S.8.
)1(
2
xy
xysb r
rr
+=
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 8
Wobei k der Anzahl der Items in der Skala,2iσ der Varianz der Items i und 2tσ der Gesamtva-
rianz (total variance) der Skala entspricht. Der Wertebereich liegt zwischen Null und Eins,
wobei ein hoher Wert eine hohe Reliabilität anzeigt27. Eine bemerkenswerte Tatsache ist, daß
bei einer steigenden Anzahl von Items pro Skala und einer steigenden Anzahl von Kategorien
in einem Item der Wert deutlich wächst. Es sollten daher mindestens 4 Scale Items und min-
destens 3 Antworten pro Frage (Kategorien pro Item) verwandt werden. Dies wird in der em-
pirischen Tabelle von Peterson (1994) anhand der durchschnittlichen Werte von Cronbach’s
Alpha (α ) aus über 3000 Studien (n) überzeugend belegt.
Tabelle 2: Zusammenhang von dem Wert des Cronbach’schen Alphas in Bezug auf die Anzahlvon Items pro Skala und Kategorien pro Item
Anzahl von Items pro Skala
2 oder 3 4 oder mehr
2 αα = 0,62
(n=23)
α = 0,71
(n=186)
Anzahl vonmöglichenAntwortenpro Frage 3 oder
mehrαα = 0,74
(n=710)
αα = 0,78
(n=2536)
Quelle: Peterson (1994), S.388.
Die Nachteile von Cronbach’s Alpha liegen einerseits in der nicht möglichen inferenzstatis-
tischen Beurteilung des Koeffizienten28, und andererseits in der Tatsache, daß die Höhe der
Koeffizienten positiv von der Anzahl der Indikatoren abhängen29. Bei einer großen Anzahl
von Elementen ist Cronbach’s Alpha das am häufigsten benutzte Instrument.
3.1.4.3 Kuder_Richardson Formel (KR20)
Die Kuder-Richardson Formel unterscheidet sich unwesentlich vom Cronbach’schen Alpha.
Sie wird hier lediglich einem eigenen Punkt zugeordnet, weil diese Formel von SPSS bei di-
chotomen Daten verwandt wird, wenn man ‚Coefficient Alpha‘ auswählt30,weil sie in der Lite-
ratur häufiger auftaucht. Der Ansatz geht auch davon aus den Test in k-Teile zu splitten. Der
27 vgl. Homburg/Giering, 1996 S.22 [7].28 vgl. Homburg/Giering, 1996 S.8.29 vgl. Homburg/Giering, 1996 S.22 [8]30 SPSS Context Help, (SPSS Version 9.0 engl.): „Coefficient alpha. For dichotomous data, this is
equivalent to theKuder-Richardson 20 (KR20) coefficient.“ Weitere Aufschlüsse gibt das„SPSS Statistical Algorithms Manual“, welches leider nicht zur Verfügung stand.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 9
Grad in dem die Element miteinander korrelieren bestimmt die Höhe der Reliabilität. Die
Formel lautet31:
����
�
�
����
�
�
−−
=�
=2
11*1 t
k
i
pq
k
kr
σ
Wobei k der Anzahl der Items in der Skala, p der Proportion der richtigen Antworten und q
dem Gegenteil von p entspricht (q=1-p).
3.1.4.4 G-Theorie (Generalisierungs-Theorie)
Die Tatsache, daß die unterschiedlichen Realibilitätsschätzer sich voneinander unterscheiden
und aufgrund ihrer Art unterschiedliche Werte liefern ist nicht zufriedenstellend. So sind die
Teile der Varianzen, die Fehler bilden bei den unterschiedlichen Reliabilitätsformen unter-
schiedlich groß. Die G-Theorie wurde eingeführt, um gleichzeitig verschiedene kontrollierba-
re32 Ursprünge von Varianzen in einer einzigen Prozedur zu analysieren33.Die Formel der G-
Theorie läßt sich analog zur klassischen Realibilität formulieren34.
22
22
rorrelativeEroreuniverseSc
oreuniverseScEσσ
σρ+
=
wobei σ2universeScoreder Varianzkomponente in Bezug zu jedem Meßobjekt ist (dies entspricht
dem wahren Wert xT bei der klassischen Analyse. Bei einer Untersuchung mit nur einem ein-
zigen Generalisierungsaspekt entspricht der Koeffizient der G-Theorie somit dem der klassi-
schen Realibilität. Eine genauere empfehlenswerte Einführung in die G-Theorie findet sich bei
Finn/Kayande (1997), die betonen, daß G-Theorie eine großes Potential zur Optimierung von
Messungen hat..
31 Parameswaran et al. (1979), S.20.32 Finn/Kayande (1997), S.263.33 Peter (1979),S.10.34 Finn/Kayande (1997): Verweis auf Cronbach et al (1972),
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 10
3.2 Methoden der Messung von Validität
3.2.1 Externe und Interne Validitaet
Die externe Validitaet: bezieht sich auf die Übertragbarkeit spezifischer Marktforschunger-
gebnisse auf andere Außenbedingungen.35
Sie liegt dann vor, wenn das Ergebnis einer Untersuchung über die Stichprobe und die Unter-
suchungsbedingungen hinaus generalisierbar ist. Externe Validität sinkt, je unnatürlicher die
Untersuchungsbedingungen sind und je weniger repräsentativ die untersuchte Stichprobe für
die Grundgesamtheit ist36.
Die interne Validität beschreibt den Grad der eindeutigen Intepretierbarkeit, sie steigt mit
sinkender Anzahl plausibler Alternativerklärungen, wenn die Anzahl äußerer Störeinflüsse
reduziert wird37.
In der Regel stehen externe und interne Validität in einem Spannungsverhältnis zueinander.
Mit steigender interner Validität, etwa durch einen abgeschlossenen Studioversuch, sinkt die
externe Validität, weil der Versuch durch die Ausschaltung gewöhnlicherweise gegebener
Störeinflüsse reduziert wird38.
In der Internetumfrage ist die interne Validität nur schwer bestimmbar, weil äußere Störein-
flüsse auf die Befragten kaum feststellbar sind. Während die interne Validität denn auch
schon spätestens bei der Erfassung der Messungen bestimmt werden sollte, gibt es einige
Möglichkeiten auch nachträglich Validität festzustellen wie fortfolgend erläutert wird.
3.2.2 Inhaltsvaliditaet (Augenscheinvaliditaet und Expertenvaliditaet)
Die Inhaltsvalidität prüft die inhaltlich semantische Übereinstimmung zwischen dem vorlie-
genden Meßinstrument und dem Konstrukt auf Plausibilität. Sie fordert, daß die Untersu-
chungsinhalte eine repräsentative Auswahl der zu erfassenden Merkmale darstellen. Dies ist
insbesondere zur Beurteilung und der Erfassung aller relevanten Items von Bedeutung. Dabei
35 Christof/Pepels 1998, S.45.36 Bortz (1999) S.7.37 vgl. Christof/Pepels S.44.38 vgl. Christof/Pepels S.44.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 11
ist Inhaltsvalidität entweder offensichtlich (Augenschein- oder Face-Validität) oder wird
durch Experten als valide beurteilt (Expertenvalidität)39.
3.2.3 Konstruktvalidität (Konvergenz- und Diskriminanzvalidität)
Die Validitätsform, die sich direkt mit der Validierung der Umsetzung des theoretischen Kon-
struktes in die Realität beschäftigt ist dieKonstruktvalidität . Sie mißt den Grad der Überein-
stimmung zwischen den Konstrukten und ihren Messungen40. Durch eine einfache Studie kann
Konstruktvalidität nicht abschließend bewiesen werden. Cronbach (1971) bemerkt vielmehr,
daß Konstruktvalidierung ein fortwährender Prozeß von Untersuchungen und Entwicklungen
ist. Eine verbreitete Methode ist die „Multitrait-Multimethod“ (MTMM) von Campbell und
Fiske (1959). Sie dient dem Nachweis von Diskriminanz- und Konvergenzvalidität und wird
als eine der wesentlichen Methoden zur Messung von Validität, die zudem noch mittels einer
kommerziellen Software wie SPSS durchzuführen ist, unter Punkt 3.3 als Methode gesondert
erwähnt. DieKonvergenzvalidität beschreibt die Übereinstimmung eines Konstruktes mit
verschiedenen Messinstrumenten, dieDiskriminanzvalidität den Grad in dem andere Kon-
strukte bei der Messung ausgeschlossen sind41.
3.2.4 Kriteriumsvalidität (Prognose- und Übereinstimmungsvalidität)
Bei der Kriteriumsvalidität dient die Messung eines angemessenen Vergleichskriteriums als
Basis42. Unterschieden werden hier die Prognose- und die Übereinstimmungsvalidität (concur-
rent validity). Die Prognose-Validität stellt auf Übereinstimmung mit einer später zeitlich
erfolgenden Messung ab.
Die Übereinstimmungsvalidität bezeichnet den Vergleich von Messungen, die zum gleichen
Zeitpunkt vorliegen43.
3.2.5 Nomologische Validitaet
Die Nomologische Validität mißt ob eine beobachtete Beziehung zwischen Messungen ver-
schiedener Konstukte (welche konzeptuell zusammengehören) angehört44. Das Konstrukt er-
fordert somit eine Einbindung in einen übergeordneten theoretischen Rahmen45
39 Keppler (1996) S.199.40 vgl. Keppler(1996).S.219.41 Huettner (1997).S.530.42 vgl. Keppler(1996) S. 218; vgl. Huettner(1997) S. 532
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 12
3.3 Multitrait-Multimethod-(MTMM) Matrix zur Messung derKonstruktvalidität
Als ein Weg zum Abschätzen der Konstruktvalidität führten Campbell und Fiske (1959) die
MTMM Matrix ein. Sie ist eine Matrix von Korrelationen und dient der Abschätzung von
Konvergenz- und Diskrimanzvalidität. einer Messung46. Empfohlen wird, daß die unter-
schiedliche Konzepte (Traits) durch mehrere Methoden (auch Skalen) gemessen werden47.
Idealerweise mißt man jede Konzeption mit jeder Methode.
Abbildung 2: Multitrait-Multimethod Matrix
Quelle: Trochim (1999),http://trochim.human.cornell.edu/kb/mtmmmat.htm, 30.8.1999
.
Die obige Grafik zeigt eine MTMM Matrix für drei Traits (Konzeptionen 1,2,3) von denen
jede durch drei verschiedene Methoden gemessen werden. Die MTMM Matrix ist also essen-
tiell eine Korrelationsmatrix zwischen den Messungen mit dem Unterschied, daß die Werte
der Diagonalen, die bei einer reinen Korrelationsmatrix den Wert ‚Eins‘ haben müßten, durch
die Schätzungen der Reliabilität (reliability diagonal) ersetzt werden.
43 Huettner (1997).S.532.44 Peter (1981), S.135.45 Homburg/Giering (1996), S.7.46 Churchill (1979), S.70.47 Campbell/Fiske (1959), S.103.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 13
Die MTMM Matrix läßt sich in weitere Bereiche je nach Anwendung der Methoden unter-
gliedern, was die Orientierung auf der Matrix sehr unterstützt. DieRealibilitätsdiagonale (1)
hat in der Regel immer die höchsten Werte in der Matrix48. Sind die Realibilitäten niedriger,
so ist aller Wahrscheinlichkeit nach nur eine unzureichende Konsistenz der Daten vorhanden.
Die Validitätsdiagonalen (2) bilden sich aus den Koeffizienten, die das gleich Trait messen,
aber unterschiedliche Methoden benutzen (monotrait-heteromethods). Sie stellen einen Nach-
weis derKonvergenzvalidität dar49, welche dann gegeben ist, wenn sich ihre Werte signifi-
kant von Null unterscheiden. In dieser Systematik lassen sich nun auch die vier weiteren Ele-
mente der Matrix aufteilen50. So gibt es die Dreiecke, die die Korrelationen von Messungen
zweier Traits mit einer Methodedarstellen (Heterotrait-Monomethod-Dreiecke(3)) und
umgekehrt (Heterotrait-Monomethod-Dreiecke(4)) und schließlich die Blöcke die mit glei-
chen (Monomethod Block (5)) und jene, die mit verschiedenen Methoden (Heteromethod
Block (6)) messen.
Die Bestimmung derDiskriminanzvalidität erfordert drei Vergleiche51. Erstens sollte der
Koeffizient auf der Validitätsdiagonale (Validitätskoeffizienten) größer sein als die anderen
Werte der Zeile und der Spalte in der er liegt. Zweitens sollten die Validitätskoeffizienten
auch größer sein als die Korrelationen im Heterotrait-Monomethod-Dreieck. Und drittens
sollte das Muster in allen Heterotrait-Dreiecken gleich sein, weil dann die Traits in Gegen-
überstellung zu den Methoden jeweils gleich signifikant sind, dieses läßt sich leicht durch
einenRangordnungskoeffizientenberechnen.
Die Herangehensweise mittels der MTMM Matrix kann sehr hilfreich sein, besonders, wenn
nur wenige Attribute und Methoden involviert sind52. Nachteilig ist jedoch, daß die Prozedu-
ren von Campbell und Fiske (1959) keine Kriterien beinhalten, nach denen Operationalisie-
rungen als Konzepte ausgedrückt werden können. Das Ausmaß der Varianz von Konzept vs.
Methode, oder die Feststellung der Adäquanz einer gesamten MTMM Matrix53, wird jedoch
nur unter Zuhilfenahme der Kausalanalyse erreicht. Dies liegt nicht daran, daß die MTMM
48 Trochim (1999):http://trochim.human.cornell.edu/kb/mtmmmat.htm, 30.8.1999.49 Churchill (1979), S.70.50 Trochim (1999):http://trochim.human.cornell.edu/kb/mtmmmat.htm, 30.8.1999.51 Churchill (1979), S.71.52 Malhotra (1988), S.11.53 Malhotra (1988) S.11.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 14
Matrix schwieriger zu erstellen ist, sondern daran, daß ihre Ergebnisse zuviel Interpretations-
spielraum bieten54.
3.4 Kausalanalyse zur Messung von Reliabilität und Validität
Die Kausalanalyse ist eine vergleichsweise neue Methode, Meßmodelle auf Reliabilität und
Validität zu untersuchen. Die Analyse ist mehr als nur eine einzelne Berechnung oder Schät-
zung, sondern eher ein regelrechtes Programm mit der Prüfung von mehreren Schritten. Histo-
risch gesehen hat sie sich aus verschiedenen Fachgebieten der Konfirmatorischen Faktorana-
lyse, den Strukturgleichungsmodellen und der Pfadanalyse entwickelt.
Abbildung 3 Historische Entwicklung der Kausalanalysei
Quelle:Vgl. Homburg (1989).
Die Kausalanalyse kombiniert jedoch nicht nur verschiedene mathematische Herangehenswei-
sen, sondert unterscheidet sich auch in zwei wesentliche Herangehensweisen. Dieexplorato-
rische Faktorenanalyseuntersucht die vorliegenden Indikatoren im Hinblick auf die ihnen
zugrunde liegende Faktorenstruktur. Bei derkonfirmatorischen Faktorenanalyse liegen
vielmehr bereits Hypothesen vor. In dieser Arbeit wird die Kausalanalyse nur kurz umrissen,
weil die Komplexen Formeln mit SPSS nicht ausgeführt werden können. Benötigt wird viel-
mehr Standardsoftware wie zum Beispiel LISREL, EQS LVPLS sowie SAS55.
3.4.1 Exploratorische Faktoranalyse
Die exploratorische Faktorenanalyse wird von Homburg/Giering (1996) zusammen mit dem
Cronbach’schen Alpha und den Item-Total-Korrelationen als Ansätze der „ersten Generati-
on“56 bezeichnet. Die Verdichtung der Indikatoren durch dieses Verfahren läßt Schlüsse auf
die Konvergenz- und Diskriminanzvalidität zu. Auf die Darstellung weiterer Einzelheiten
54 Trochim (1999):http://trochim.human.cornell.edu/kb/mtmmmat.htm, 30.8.1999.55 Homburg (1989), S.200ff.56 Homburg/Giering (1996), S.8.
Konfimatorische Faktoranalyse(Psychometrie)
Kausalanalyse
Strukturgleichungsmodelle(Oekonometrie)
Pfadanalyse(Biometrie)
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 15
wird an dieser Stelle verzichtet, weil die Anwendung dieser Modelle deutlich am Sinken ist,
während die konfirmatorische Analyse sich als überlegen zeigt57 . Anderson/Gerbing (1988)
behaupten gar, daß die exploratorische Faktoranalyse durchaus als preliminäre Technik zur
Konstruktuktion von Skalen verwandt werden kann, daß aber die konfirmatorische Faktora-
nalyse gebraucht wird um die Skalen zu evaluieren und die resultierenden Skalen zu optimie-
ren58.
3.4.2 Konfirmatorische Faktoranalyse
Die konfirmatorische Faktorenanalyse ist ein Sonderfall des allgemeinen Modells der Kau-
salanalyse, die genauer als Kovarianzstrukturanalyse bezeichnet wird (Homburg Giering
(1996) S.9:,Bagozzi/Baumgartner (1994), S. 417.). Dieses Modell stellt sich aus zwei mathe-
matischen Bestandteilen zusammen, dem Meßmodell auf Basis der konfirmatorischen Fakto-
renanalyse und dem Strukturmodell auf Basis der Strukturgleichungsanalyse.
Die Vorgehensweise ist wie folgt: Zunächst erfolgt eine Parameterschätzung, dann eine Ge-
samtgütebeurteilung und folgend eine Beurteilung der Teilstrukturen des Meßmodells
Ihre Darstellung kann im Zusammenhang mit der Messung eines Konstrukts durch die Glei-
chung
δξ +Λ= *x
ausgedrückt werden, wobeix der Vektor der Indikatorvariablen,ΛΛΛΛ die Matrix der Faktorla-
dungen,ξ der Vektor der latenten Faktoren undδδδδ der Vektor der Meßfehler ist. Die Tatsache,
daß hier nicht mehr zwischen systematischen und zufälligen Meßfehlern unterschieden wird,
„impliziert, daß eine klare Trennung von Reliabilität und Validität ... nicht immer möglich
ist“.59
An die Parameterschätzung sollte eine Gütebeurteilung des nun entstandenen Meßmodells
anschliessen.
In erster Linie sind in diesem Zusammenhang der Chi-Quadrat Test (χ2-Test), der Goodneß-
of-fit Index (GFI) und der Determinationsköffizient des Meßmodells (TCD) von Bedeutung.
57 Homburg (1996), S.9, Malhotra et al. (1999), S.172.58 Gerbing/Anderson (1988), S.189.59 Homburg/Giering (1996), S.9.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 16
Obgleich der Chi-Quadrat-Test Standard Bestandteil von SPSS ist und so als einziger Koeffi-
zient mittels dieser Software ausgegeben werden kann, macht eine weitere Erläuterung keinen
Sinn zumal Jöreskog und Sörbom (1989) empfehlen denχ2-Wert als deskriptives Anpas-
sungsmaß zu benutzen:
rqqtsgradederFreihei −+=
)1(2
1#
22 χχ
wobei r für die Anzahl der zu schätzenden Parameter und q die Anzahl von Indikatorvariablen
darstellt.
Der GFI und AGFI sind deskriptive Anpassungsmaße, sie dienen der Beurteilung von der
Diskrepanz zwischen der empirischen Kovarianzmatrix S und der theoretischen Kovarianz-
matrixΣ^
.
Die Teilstrukturen werden durch die Indikatorreliabilität, die Faktorreliabilität und die durch-
schnittliche erfaßte Varianz eines Faktors beurteilt. „Die Indikatorreliabilität gibt den für ein-
zelne beobachtete Variablen den Anteil der durch den zugehörigen Faktor erklärten Varianz
an der Gesamtvarianz dieser Variablen an“60. Die Faktorreliabilität und die durchschnittliche
erfaßte Varianz hingegen erfassen „wie gut der Faktor durch alle ihm zugeordneten Indikato-
ren gemeinsam gemessen wird.
4 Messen bzw. Schätzen
4.1 Messung der Inter-Rater oder Inter-Observer Reliabilität
Eine Messung der Inter-Rater-Reliabilität ist im Nachhinein nicht möglich, sondern muß be-
reits während des Tests durchgeführt werden.
4.2 Messung der Test-Retest Reliabilität
Für das Medium Internet ist der Test-Retest nur bedingt geeignet und wurde nicht beim GVU
durchgeführt. Voraussetzung wäre ein Passwortzugang oder eine Identifikation über einen
Cookie, damit sichergestellt werden kann, daß die gleiche Person beim zweiten Test getestet
wird. Schwieriger ist die Person dazu zu bewegen nach wenigen Wochen, den u.U. zeitrau-
benden Test nochmals durchzuführen. Auch kann nicht kontrolliert werden, unter welchen
60 Homburg/Giering (1996), S.10.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 17
Bedingungen die Testpersonen den Test durchführen oder ob und welche Merkhilfen sie anle-
gen. Vom Kostenpunkt ist das Test-Retest Verfahren über das Internet jedoch der günstigste
Weg, da bei herkömmlichen Formen wieder hohe Personal- und Materialkosten anfallen.
Gemessen wird der Koeffizient einfach zwischen den zwei Tests. Beim 10. GVU Suvey wur-
de auch kein Test-Retest durchgeführt, so daß sich leider keine Zahlen vergleichen lassen. Die
Idee die Ergebnisse mit denen des sechs Monate älteren 9. Surveys zu vergleichen, erwies sich
auch nicht als umsetzbar, weil die Fragen geändert wurden und die Identifikation der Personen
nicht zwischen beiden Tests vorgenommen wurde..
4.3 Messung der Paralleltest-Reliabilität und Alternativtest-Reliabilität
Die Parallel-Test und Alternativtestreliabilitäten bestimmen die Konsistenz der Resultate
zweier aufgebauter Tests. Der Unterschied zwischen Paralleltest und der Alternativtest besteht
lediglich darin, daß der Alternativtest zeitverschoben durchgeführt wird61, während der Paral-
leltest zeitgleich stattfindet. Es werden zwei verschiedene, jedoch streng vergleichbare Erhe-
bungsinstrumente denselben Beobachtern vorgelegt und deren Ergebnisse korreliert62. Beide
Instrumente werden der gleichen Auswahl von Personen vorgelegt. Die Korrelation zwischen
diesen beiden Formen ist die Schätzung dieser Reliabilität. Das Hauptproblem dieser Anwen-
dung ist, ein Paare von Fragen zu bilden, die wirklich streng vergleichbar sind, daß also der
Durchschnitt, die Varianz und die Interkorrelation der Items äquivalent sind63. Daher stammt
auch die Bezeichnug Äquivalenzkoeffizient für diesen Reliabilitätsschätzer.
Im GVU ist keine Systematik zu erkennen, nach der ein Paralleltest vorbereitet worden ist, so
findet keine wirkliche Paralleltestberechnung statt, da SPSS gezwungenermaßen zufällige
Parallelformen bildet.
4.4 Messung der Interne-Konsistenz-Reliabilität mittels Split-Half-Reliabilität und Cronbach’s Alpha
Zur Messung der Reliabilität wählte ich Items, die ein gemeinsames Konzept und eine ge-
meinsame Skala haben, um eine Vergleichbarkeit zu gewährleisten.
61 Trochim, (1999),http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99.62 Keppler, (1996), S.197.63 Peter (1979), S.8.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 18
Die ersten Fragen wählte ich aus dem Bereich „Computer, Web and Internet Use“. Sie fragten
alle danach ob und wie eine Organisation das Web effizient nutzt.
Tabelle 3: Liste der verwendeten Variablen aus Datei „spss_use.sav“:
Merkmal Inhalt Merkmalsskalierung
Q05 Organisation uses Web effectively Kategoriala
Q06 ... to reach customers Kategoriala
Q07 ... to streamline operations Kategoriala
Q08 ... to interact with customers Kategoriala
Q09 ... in training Kategoriala
Q10 ... to reduce red tape Kategoriala
aEs gab die 5 abgestuften Kategorien „strongly agree“ bis „strongly disagree“,plus eine Kategorie „nicht anwendbar“ (wurde nicht ausgewertet)
D.h. die Fragen bilden einen Fragenkomplex, nämlich effektive Nutzung des Web, und zwar
Q05: allgemein, Q06: um Kunden zu erreichen, Q07: um Operationen zu rationalisieren, Q08:
um mit Kunden zu interagieren, Q09: um es effektiv zur Ausbildung zu nutzen, und Q10: um
das Web zur Reduzierung von Bürokratie einzusetzen. Die Antwortmöglichkeiten reichten
mit fünf Skalenwerten von „Stimme stark zu“ bis „Stimme stark dagegen“, die sechste Mög-
lichkeit war eine Enthaltung für „Nicht Anwendbar/Wird Nicht Gemacht“. Diese sechste
Möglichkeit wurde zur Berechnung der Korrelationen als Fehlender Wert (missing value)
definiert, da sie keinen Wert auf der Skala darstellt. Dadurch reduzierte sich die Gruppengrö-
ße um etwa 40%. Es war anzunehmen, daß es hier starke Korrelationen und schließlich eine
hohe Reliabilität der Messung der Items geben würde. Dieses war deutlich der Fall: Mit einem
Cronbach’schen Alpha (Berechnung siehe Anhang 1) von 0,9163 und einer Split-Half Relia-
bilität (Berechnung siehe Anhang 2) von 0,91 ist an einer Reliabilität der Messung durch diese
Skalen kaum zu zweifeln. SPSS liefert eine Reihe von anderen Werten, die relevanten sind
markiert.
Abbildung 4: Cronbach’sches Alpha und Split-Half Reliabilität (Analyse am 10. GVU)R E L I A B I L I T Y A N A L Y S I S of „Organization Uses Web Effectively...“
N of Cases = 1767.0
Cronbach’s Alpha
Alpha = .9163 Standardized item alpha = .9162
SPLIT-HALF ANALYSE
Reliability Coefficients 6 items
Correlation between forms = .8348 Equal-length Spearman-Brown = .9100
Guttman Split-half = .9095 Unequal-length Spearman-Brown = .9100
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 19
Alpha for part 1 = .8620 Alpha for part 2 = .8362
3 items in part 1 3 items in part 2
(Die Abbildung ist eine Kopie aus SPSS Output, siehe Anhang für Syntax)
4.5 Messung der Konstruktvalidität mittels der MTMM Matrix
Selbst eine kleine MTMM Matrix ist aus dem 10. GVU Survey nicht direkt zu erstellen, weil
sich keine Fragenkomplexe mit zwei Traits (Konzepten) finden lassen, die gleichzeitig mit
zwei Methoden (hier: Skalen) messen. Dennoch läßt sich eine solche Matrix mit vergleichs-
weise geringem Aufwand konstruieren. Die beiden gewählten Konzepte sind Fun (F) und Ar-
beit (A) mit dem Web. Die Methode 1 ist die Skala „strongly agree“ bis „strongly disagree“
(M1) und die Methode 2 die Skala „daily bis never“ (M2).
Die Daten werden direkt aus der Umfrage nach ‚Computer, Web und Internet Use‘ (Original-
Dateiname: spss_use.sav) genommen. Folgende Hypothesen wurden getroffen: Die Fragen
Q05 bis Q08 beschreiben das Konstrukt (A), ebenso die Fragen Q102 bis Q105. Die Fragen
Q115 bis Q118 sowie die Fragen Qn1 bis Qn4 beschreiben das Konstrukt Arbeit. Die Metho-
de 1 als Antwortmöglichkeit von den Fragen Q102 bis Q105 und von Q115 bis Q118 benutzt
die Methode 2 von den anderen beiden. Da dies das einzige Set war, daß sich zumindest der
MTMM Idee annähert, aber trotzdem nur drei von 4 notwendigen Fragekomplexen vorhanden
waren, wurden die Fragen Qn1 bis Qn4 sind frei ausgedacht und benutzen die Datensätze der
Fragen (Q5,Q6,Q9;Q10).
Zur Erstellung der MTMM Matrix werden zunächst die verschiedenen Reliabilitäten berech-
net, dann die Korrelationswerte und diese dann in der der MTMM – Matrix zusammengefügt
(siehe Anhang 3).
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 20
Tabelle 4: Konstruierte MTMM-Matrix aus dem Datensatz (spss_use.sav)
ÿþýüûú ø ÷���þþ�ú�����þþ� ÿþýüûú � ÷��þ��þ����
� �� �ý ø ����þ�ý�
��
� �� �ý � �� � � �
� �
� �� �ý ø ����þ�ý�
�ø
����ý � �� � � �
�ø
����ý ø ����þ�ý�
��ÿþýþü
ÿþýüûú ø
÷���þþ�ú�����þþ� ����ý � �� � � �
� �ÿ��� ÿ����
� �� �ý ø ����þ�ý�
�ø�ÿ �ýý �ÿ��ü ÿ����
ÿþýüûú �
÷��þ��þ���� � �� �ý � �� � � �
�ø�ÿ��ý �ÿ �ý� ÿ��� ÿ��� �
Die Validitätsprüfung kann nun Schritt für Schritt durchgeführt werden. Die Werte der Relia-
bilitätsdiagonale (A2A2,F2F2,A1A1,F1F1) sollen höher sein als alle anderen Werte der Ma-
trix, das ist fast der Fall, es gibt nur einen Ausreißer (F1A1). Die Konvergenzvalidität ist dann
erreicht, wenn sich die Werte auf der Validitätsdiagonale (A1A2,F1F2) signifikant von Null
unterscheiden. Dies ist nicht der Fall. Die Bestimmung derDiskriminanzvalidität liefert
ebenso keine zufriedenstellenden Ergebnisse. Erstens sollte der Koeffizient auf der Validitäts-
diagonale (Validitätskoeffizienten) größer sein als die anderen Werte der Zeile und der Spalte
in der er liegt, diese Bedingung ist verletzt (F2A2 > A1A2). Die anderen Bedingungen werden
damit auch nicht erfüllt, da die Heterotrait-Monomethod-Dreiecke bei dieser kleinen Matrix
nur aus jeweils einem Wert bestehen (F2A2,F1A1) und diese auch größer sind als die Werte
der Validitätsdiagonale. Und drittens sollte das Muster in allen Heterotrait-Dreiecken gleich
sein, also die Randgodungen zwischen den Koeffizienten gleich sein. Da die Prozedur "Biva-
riate Korrelationen" in SPSS bei dem Korrelationskoeffizienten nach Spearman ihre jeweili-
gen Signifikanzniveaus errechnet, läßt sich dieses auch direkt ablesen. Mit Korrelationen wer-
den die Beziehungen zwischen Variablen oder deren Rängen gemessen.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 21
Tabelle 5: Zweiseitiges Signifikanzniveau
�� � � �ø �ø
�� ÿ
� � ÿ��� ÿ
�ø ÿýþü ÿþ�� ÿ
�ø ÿý� ÿý�� ÿ��� ÿ
Man erkennt, daß auch das letzte Kriterium zur Erfüllung von Diskriminanzvalidität verletzt
wurde, da F2A2 und F1A1 überhaupt nicht korrelieren. Der Grund des Versagens besteht
nicht in der Tatsache, daß F1 aus den Qn-Fragen konstruiert wurde, vielmehr deuten auch A2
und F2 mit ihren niedrigen Reliabilitäten auf Inkonsistenzen bezüglich der Messung hin.
5 ZusammenfassungHierzu wird zunächst erläutert wie sich Meßfehler klassifizieren lassen, was Validität und
Reliabilität ist und welche Zusammenhänge zwischen ihnen bestehen. Des weiteren werden
die verschiedenen Methoden zur Schätzung der Reliabilität und Validität aufgeführt und zwei
herausragende Methoden, die Multitrait-Multimethod Matrix sowie die Kausalanalyse be-
trachtet. Anschließend werden die gewonnenen Erkenntnisse mittels SPSS umgesetzt.
Ziel der Arbeit war es einen Überblick über die Theorie der Reliabilität und Validität und ihre
Zusammenhänge zu bilden, die Methoden die es zur Einschätzung von Reliabilität und Vali-
dität einer Marktforschung gibt aufzuführen, zu erläutern und praktisch anzuwenden.
Festgestellt werden konnte, daß aufgrund des Zusammenhanges von Reliabilität und Validität
beides gemessen werden muß und daß modernere Verfahren wie die Kausalanalyse dieses
berücksichtigen.
Eine weitere wichtige Erkenntnis ist, daß viele Schätzmethoden eine Berücksichtigung schon
im Testdesign erfordern, da der Test auf sie angelegt sein muß (Paralleltest, Test-Retest).
Weiter ist es inbesondere aus Kostengründen ratsam auch schon vor der Durchführung des
Tests sogenannte Pre-Tests durchzuführen, die entscheiden ob das Test-Design reliable und
valide Ergebnisse liefert.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 22
Anhang
Anhang 1 Cronbach’s Alpha
RELIABILITY/VARIABLES=q05 q06 q07 q08 q09 q10/FORMAT=NOLABELS/SCALE(ALPHA)=ALL/MODEL=ALPHA.
Anhang 2 Split-Half-Reliabilität
RELIABILITY/VARIABLES=q05 q06 q07 q08 q09 q10/FORMAT=NOLABELS/SCALE(SPLIT)=ALL/MODEL=SPLIT..
Anhang 2 MTMM Matrix
Tabelle: Liste der verwendeten Variablen aus Datei „spss_use.sav“:
Merkmal Inhalt Merkmalsskalierung Gehört
zu
Q05 Organisation uses Web effectively Kategoriala A1
Q06 ... to reach customers Kategoriala A1
Q07 ... to streamline operations Kategoriala A1
Q08 ... to interact with customers Kategoriala A1
Qn1 Many of my collegues use the web for fun Kategoriala F1
Qn2 ... in internet games Kategoriala F1
Qn3 ... by having social contact Kategoriala F1
Qn4 ... in enhancing wisdom Kategoriala F1
Q102 Freq. of assessing Newsgroups Kategorialb A2
Q103 ... Electronic News Kategorialb A2
Q104 ... Product Information Kategorialb A2
Q105 ... Purchases Kategorialb A2
Q115 Freq. of Using the Web instead of watching TV Kategorialb F2
Q116 ... using phone Kategorialb F2
Q117 ... sleeping Kategorialb F2
Q118 ... exercising Kategorialb F2aEs gab die 5 abgestuften Kategorien „strongly agree“ bis „strongly disagree“,plus eine Kategorie „nicht anwendbar“ (wurde nicht ausgewertet)b Es gab die 5 abgestuften Kategorien „daily“, „weekly“, „monthly“, „less than once amonth“, „never“
* Als erstes berechne ich die verschiedenen Reliabillitäten.*T1,T2 sind Trait 1,2*M1,M2 sind Methode 1,2* A1 (T1M2)RELIABILITY
/VARIABLES=q05 q06 q07 q08/FORMAT=NOLABELS/SCALE(ALPHA)=ALL/MODEL=ALPHA.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 23
* A2 (T1M1)RELIABILITY
/VARIABLES=q102 q103 q104 q105/FORMAT=NOLABELS/SCALE(ALPHA)=ALL/MODEL=ALPHA.
* F1 (T2M1)RELIABILITY
/VARIABLES=q09 q10 q05 q06/FORMAT=NOLABELS/SCALE(ALPHA)=ALL/MODEL=ALPHA.
* F2 (T2M2)RELIABILITY
/VARIABLES=q115 q116 q117 q118/FORMAT=NOLABELS/SCALE(ALPHA)=ALL/MODEL=ALPHA.
* Im zweiten berechne ich die Korrelationswerte der MTMM - Matrix.* -----------------------------------------------------------------------------------------* Wegen der nicht zur Skala gehörenden Antwortmöglichkeit 'not applicable'* werden diese Antworten als Missing Values definidert* MISSING VALUE Q05 TO Q10(1).
* Zur Aufteilung in die Konzepte und Methoden werden die einzelnen* Fragen zusammengefaßt. Hier werden die Variablen summiert, die Wahl* der Methode steht jedoch frei, solange jeweils die gleiche gewählt wird.* Die Fragen werden entsprechend ihrer Konzepte und Methoden benannt.
* A-Konzept (Trait) zur Messung von Arbeit* F-Konzept (Trait) zur Messung von Freizeit* 1-Skala 'agree/disagree'* 2-Skala 'frequency'
COMPUTE A1 = SUM(Q05 TO Q08).COMPUTE A2 = SUM(Q102 TO Q105).COMPUTE F1 = SUM(Q05, Q06, Q09, Q10).COMPUTE F2 = SUM(Q115 TO Q118).
EXECUTE.
*und schließlich die Korrelationsmatrix, die außerdem die Signifikanzen*und die absoluten Häufigkeiten ausgibt
NONPAR CORR/VARIABLES=A2 F2 A1 F1/PRINT=SPEARMAN TWOTAIL SIG/MISSING=PAIRWISE .
EXECUTE.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 24
Literaturverzeichnis
Bortz, Jürgen (1999): „Statistik für Sozialwissenschaftler“, Heidelberg: Springer-Verlag..
Bruner, Gordon C.and Hensel, Paul J. (1994): „Marketing scales handbook: a compilation ofmulti-item measures“ New York.
Campbell und Fiske (1959):“Convergent and Discriminant Validation by the Multitrait-Multimethod Matrix“, in Psychological Bulletin, 56. Jg., Feb., S.64-73.
Christof, Karin und Pepels, Werner (1999): „Praktische quantitative Marktforschung : Bei-spielauswertungen mit SPSS“, Muenchen : Vahlen
Churchill,G.A. (1979): „A Paradigm for Developing Better Measures of Marketing Con-structs“ in Journal of Marketing Research, Vol. XVI (February 1979, S.64-73.
Churchill,G.A. (1992):“Special Section on Scaling and Measurement – Better MeasurementPractices are Critical to Better Understanding of Sales Management Ißüs“, Journal of PersonalSelling and Sales Management, 12, 73-80.
Cronbach, Lee J., Goldine C. Gleser, Harinder Nanda and Nageswari Rajaratnam (1972):„The Dependability of Behavioral Measurements: Theory of Generalizablility for Scores andProfiles“
Duboff, Rob (1996): „The Money Pit“, in Across the Board (Nov/Dec 1996), S.19-23.
Gerbing, David and and James C. Anderson (1988): „An Updated Paradigm of Scale Deve-lopment Incorporating Unidimensionality and its Assessment“ in Journal of Marketing Rese-arch 25 (May): 186-192.
Finn, Adam und Kayande, Ujwal (1997): „Reliability Assessment and Optimization of Mar-keting Measurement“ in Journal of Marketing Research 36 (May): 262-275
Homburg, Christian (1989): „Exploratorische Ansätze der Kausalanalyse als Instrument derMarketingplanung“, Europäische Hochschulschriften: Frankfurt am Main.
Homburg, Christian und Giering, Annette (1996):“Konzeptualisierung und Operationalisie-rung komplexer Konstrukte – Ein Leitfaden für die Marketingforschung“ , Marketing ZFP, 18,5-24.
Hüttner, Manfred [u.a.] (1997): „Grundzüge der Marktforschung“ München: Oldenbourg.
Malhotra, Naresh K.; Peterson,Mark; Kleiser, Susan Bardi (1999): „Marketing research: Astate-of-the-art review and directions for the twenty-first century“ in Academy of MarketingScience. Journal; Greenvale; Spring 1999,Volume: 27, Iss.: 2, S.: 160-183
Malhotra, Naresh K.; Peterson,Mark; Kleiser, Susan Bardi (1988): „Some Observations on theState of the Art in Marketing Research“ in Academy of Marketing Science. Journal; Green-vale; Spring 1988,Volume: 16, No. 1, S.:4-24.
Parameswaran, Ravi; Greenberg, Barnett A.; Bellenger, Danny; Robertson, Dan H. (1979):„Measuring Reliability: A Comparison of Alternative Techniques“, in Journal of MarketingResearch, Vol 16, S.18-25.
Peter, J. Paul (1981):“Construct Validity: A Review of Basic Ißüs and Marketing Practices“ inJournal of Marketing Research 18 (May): 133-145.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 25
Peterson, Robert A. (1994): „A Meta-analysis of Cornbach’s Cöfficient Alpha“ in Journal ofConsumer Research, Vol.21, 381-391.
Torabi, M.R. (1994) “Reliability Methods and Number of items in development of health in-struments”Health Valüs: The Journal of Health Behavior, Education and Promotion, Vol.18N6 (Nov.-Dec.), S. 56-59.
Trochim (1999): Research Methods Knowledge Base, http://trochim.human.cornell.edu/kb.
Weiterführende Literatur
Baumgartner, Hans und Christian Homburg (1996): „Applications of Structural Equation Mo-deling in Marketing and Consumer Research: A Review.“ International Journal of Research inMarketing 13 (2): S. 139-161.
Perreault, Willam D., Jr. And Leigh, Laurence, E. (1989): "Reliability of Nominal Data Basedon Qualitative Judgments." Journal of Marketing Research 26 (May): 135-148.
Hildebrandt, Lutz und Homburg, Christian (1998): „Die Kausalanalyse: Ein Instrument derempirischen betriebswirtschaftlichen Forschung“, Stuttgart, Schäffer-Pöschel.
Richins, Marsha L. (1987), "A Multivariate Analysis of Responses to Dissatisfaction," Journalof the Academy of Marketing Science, 15 (3), 24-31
Homburg, Christian und Baumgartner, Hans (1995a): Die Kausalanalyse als Instrument derMarketingforschung: Eine Bestandsaufnahme“ in Zeitschrift für die Betriebswirtschaft, 65.Jg., 1995, Nr.10,S.1091-1108.
Homburg, Christian und Baumgartner, Hans (1995b): Beurteilung von Kausalmodellen“ inMarketing ZFP, 17.Jg.,1995,Nr.3,S.162-176.
Long, J. Scott (1983): „Confirmatory Factor Analysis – A Preface to Lisrel“, Newbury Park:Sage Publications.
Nunnally, J.C. (1978) “Psychometric Theory (1st ed.)” Mc-Graw Hill, New York.1999. AMAWinter Marketing Educators Conference Feb 20-23