Benutzermanual zum SAS-Programm KFA-SAS · 1: Nutzung der Chi-Quadrat-Statistik, 2: Anwendung der...
Transcript of Benutzermanual zum SAS-Programm KFA-SAS · 1: Nutzung der Chi-Quadrat-Statistik, 2: Anwendung der...
Benutzermanual zum SAS-Programm KFA-SAS „Konfirmatorische und explorative Identifizierung von Typen
und Syndromen in Kontingenztafeln“
Programmerstellung: Oliver Mast, 1991
Manual: Jianghong Qian, Mai 2003 1. Berechnungen
Das Programm gestattet folgende Berechnungen:
• Anpassen des Unabhängigkeitsmodells und des Quasi-Unabhängigkeitsmodells zu
vorgegebenen strukturellen Nullen
• Durchführung der entsprechenden Goodness-of-fit-Tests
• Konfirmatorische Typentests mit drei asymptotisch äquivalenten Teststatistiken
• Explorative Analyse bei vorgegebener Maximalanzahl zu identifizierender Typen
und Irrtumswahrscheinlichkeit
2. Module
Die Berechnungen werden durch Aufruf folgender Module realisiert:
Modulen Funktion
unab Unabhängigkeitsmodell und –test
chikomp KFA nach Krauth-Lienert
quasi Quasi-Unabhängigkeitsmodell und –test
difftest Typ-Test I über Gof-Statistik-Differenzen
loglin Typ-Test II mit linearem Modell und standardisierten Parametern
suchen Suche von Typen in einer Tafel
1
3. Programmablauf
Der Ablauf des Programms erfolgt in fünf Phasen, die im Folgenden beschrieben sind.
3.1. Laden und Start des Programms
Erforderlich ist die Installation des SAS-Systems. Das Programm „KFA-SAS“ besteht
aus einer SAS-Befehlsfolge und ist als SAS-Datei unter dem Namen „KFA-
SAS.SAS“ gespeichert. Der Programmstart erfolgt durch Doppelklick. Nach dem
Start erscheint auf dem Bildschirm das SAS-Fenster. Das SAS-Fenster enthält fünf
Unterfenster, deren Namen jeweils in den Titelleisten stehen. Eines der Unterfenster
enthält die SAS-Befehlsfolge und wird durch Betätigen der betreffenden Schaltfläche
in der Fensterleiste am unteren Rand des SAS-Fenster aktiviert (Abb. 1).
Click
Abb.1: SAS-Fenster.
2
3.2. Deklaration globaler Variablen
Folgende globale Variablen müssen vor der Ausführung des Programms deklariert
werden:
saus mögliche Werte sind 1 und 0,
1: Module zeigen Ergebnisse an, 0: Module zeigen keine Ergebnisse an;
sind mögliche Werte sind 1 und 0,
1: Designmatrix wird ausgeben, 0: Designmatrix wird nicht ausgeben;
srand mögliche Werte sind 1 und 0, 1: Tafel wird mit Randsummen ausgeben,
0: Tafel wird ohne Randsummen ausgeben;
alpha Signifikanz-Niveau;
gmax maximale Anzahl der Iterationen im Modul;
nullwert Korrekturwert für Zellen mit Wert 0;
k maximale Typezahl bei Funktionen suchen;
stat statistische Methoden bei Funktionen suchen; mögliche Werte sind 1 und 2,
1: Nutzung der Chi-Quadrat-Statistik, 2: Anwendung der LQ-Statistik.
In dem hier beschriebenen Beispiel werden für die globalen Variablen folgende Werte
eingesetzt.
saus = 1; /* Module zeigen Ergebnisse an */ sind = 0; /* Designmatrizen nicht ausgeben */
srand = 0; /* Tafeln ohne Randsummen ausgeben */
alpha = 0.05; /* Signifikanz-Niveau */ gmax = 50; /* maximale Anzahl der Iterationen im Modul Quasi*/ nullwert = 0.0625; /* Korrekturwert für Zellen mit Wert 0 */ k = 1; /* maximale Typenzahl beim Suchen */ stat = 1; /* Chi-Quadrat-Teststatistik beim Suchen */
Die Werte der globalen Variablen können auch von Benutzer editiert werden. (Abb.
2).
3
Deklaration globaler Variablen
Abb. 2: Deklaration globaler Variablen.
Eingabe einer Kontingenztafel:
Die Kontingenztafel wird als Spaltenvektor an die Variable tafel übergeben und mit
der Funktion matdat in das vom System vorgeschriebene zweidimensionale Format
transformiert. Außerdem generiert matdat eine Reihe globaler Variablen, z.B. den
Freiheitsgrad der χ2 Statistik beim Unabhängigkeitstest und diverse Designmatrizen,
z. B. zur Berechnung der Randsummen.
An tafel wird ein Vektor übergeben mit folgendem Aufruf:
tafel = { a d1 . . . dn z1 . . . . zn }; run matdat;
* a: /* Anzahl der Dimensionen */
di /* Anzahl der Ausprägungen in Dimension i */
zj /* Wert der Zelle j */
Beispiel:
Eingabe einer 2x2x2 Kontingenztafel
tafel = { 3 2 2 2 5 2 10 15 14 10 11 17 }; run matdat;
4
Ausgabe: Kontingenztafel
=============== Dimension der Tafel: 3 D5 D1 D2 D3 D4 1 2 1 1 1 1 5.00 2.00 1 1 1 2 10.00 15.00 1 1 2 1 14.00 10.00 1 1 2 2 11.00 17.00 Summe aller 8 Zellhaeufigkeiten: 84.0 ---------------------------------------------------------------- Randsummen Anzahl 1 2 D1 1 84.0 84.0 D2 1 84.0 84.0 D3 2 32.0 52.0 D4 2 31.0 53.0 D5 2 40.0 44.0 Additive Konstante fuer leere Zellen: 0.0625
Beispiel:
Eingabe einer 2x2x3 Kontingenztafel
tafel = { 3 2 2 3 5 2 10 15 14 10 11 17 14 18 16 15}; run matdat;
Ausgabe: Kontingenztafel
=============== Dimension der Tafel: 3 D5 D1 D2 D3 D4 1 2 3 1 1 1 1 5.00 2.00 10.00 1 1 1 2 15.00 14.00 10.00 1 1 2 1 11.00 17.00 14.00 1 1 2 2 18.00 16.00 15.00 Summe aller 12 Zellhaeufigkeiten: 147.0 ---------------------------------------------------------------- Randsummen Anzahl 1 2 3 D1 1 147.0 147.0 147.0 D2 1 147.0 147.0 147.0 D3 2 56.0 91.0 56.0 D4 2 59.0 88.0 59.0 D5 3 49.0 49.0 49.0
Additive Konstante fuer leere Zellen: 0.0625
5
3.3. Eingabe von Indexmatrizen (optional)
Die Module quasi, difftest und loglin benötigen die Indexmatrix dqt (Designmatrix
Typzellen/Modell in quasi/difftest, aus it gebildet) Die Module difftest
und loglin benötigen darüber hinaus die Indexmatrix dqs (Designmatrix Typzellen in difftest, aus is gebildet).
Die Matrizen dqt und dqs haben das gleiche Format wie die Variable tafel. Mit einer 1
wird eine Zelle ausgewählt, sonst stehen Nullen in der Matrix.
Es gibt zwei Möglichkeiten der Zuweisung:
• Direkte Zuweisung an dqt, dqs
Beispiel: dqt = { 1 0 0, 0 0 1, 0 0 0 };
• Indirekte Zuweisung an dqt und dqs über it (Index-Übergabe-Matrix für dqt)
bzw. is (Index-Übergabe-Matrix für dqs) und anschließendem Aufruf von
Funktion index
Beispiel:
it = { 1 1, 2 3 }; run index;
3.4. Aufruf statistischer Funktionen und Verändern globaler Variablen
• unab (Unabhängigkeitstest)
Beispiel:
tafel = {3 2 2 3 5 2 10 15 14 10 11 17 14 18 16 15}; run matdat; run unab;
Ausgabe: Kontingenztafel =============== Dimension der Tafel: 3 D5 D1 D2 D3 D4 1 2 3 1 1 1 1 5.00 2.00 10.00 1 1 1 2 15.00 14.00 10.00 1 1 2 1 11.00 17.00 14.00 1 1 2 2 18.00 16.00 15.00 Summe aller 12 Zellhaeufigkeiten: 147.0 ----------------------------------------------------------------
6
Randsummen Anzahl 1 2 3 D1 1 147.0 147.0 147.0 D2 1 147.0 147.0 147.0 D3 2 56.0 91.0 56.0 D4 2 59.0 88.0 59.0 D5 3 49.0 49.0 49.0 Additive Konstante fuer leere Zellen: 0.0625
Test der totalen Unabhaengigkeit: ================================ Erwartete Tafel unter totaler Unabhaengigkeit --------------------------------------------- Dimension der Tafel: 3
D5 D1 D2 D3 D4 1 2 3 1 1 1 1 7.49 7.49 7.49 1 1 1 2 11.17 11.17 11.17 1 1 2 1 12.17 12.17 12.17 1 1 2 2 18.16 18.16 18.16 Summe aller 12 Zellhaeufigkeiten: 147.0 ---------------------------------------------------------------- Ergebnis des Tests der totalen Unabhaengigkeit: ----------------------------------------------- Teststat. DF p-Wert Chi-Quadrat 10.95 7 0.141 log-Likelihood 12.30 7 0.091
• chikomp (KFA nach Krauth - Lienert)
Beispiel:
tafel = {3 2 2 3 5 2 10 15 14 10 11 17 14 18 16 15}; run matdat; run chikomp;
Ausgabe: Kontingenztafel =============== Dimension der Tafel: 3 D5 D1 D2 D3 D4 1 2 3 1 1 1 1 5.00 2.00 10.00 1 1 1 2 15.00 14.00 10.00 1 1 2 1 11.00 17.00 14.00 1 1 2 2 18.00 16.00 15.00 Summe aller 12 Zellhaeufigkeiten: 147.0
7
---------------------------------------------------------------- Randsummen Anzahl 1 2 3 D1 1 147.0 147.0 147.0 D2 1 147.0 147.0 147.0 D3 2 56.0 91.0 56.0 D4 2 59.0 88.0 59.0 D5 3 49.0 49.0 49.0 Additive Konstante fuer leere Zellen: 0.0625
KFA nach KRAUTH-LIENERT: ======================== Chi-Quadrat-Komponenten: ------------------------ Dimension der Tafel: 3 D5
D1 D2 D3 D4 1 2 3 1 1 1 1 0.83 4.03 0.84 1 1 1 2 1.31 0.71 0.12 1 1 2 1 0.11 1.91 0.27 1 1 2 2 0.00 0.26 0.55 Summe aller 12 Zellhaeufigkeiten: 10.9 ---------------------------------------------------------------- Zugehoerige p-Werte (Chi-Q., df=1): ----------------------------------- Dimension der Tafel: 3 D5 D1 D2 D3 D4 1 2 3 1 1 1 1 0.3626 0.0448 0.3595 1 1 1 2 0.2525 0.3980 0.7253 1 1 2 1 0.7364 0.1667 0.6009 1 1 2 2 0.9703 0.6124 0.4585
• quasi (Quasi-Unabhängigkeitsmodell und –test)
Beispiel:
tafel = {3 2 2 3 5 2 10 15 14 10 11 17 14 18 16 15}; run matdat; sind=0;it={1 1 1}; run index; run quasi;
Ausgabe: Kontingenztafel
=============== Dimension der Tafel: 3 D5 D1 D2 D3 D4 1 2 3 1 1 1 1 5.00 2.00 10.00 1 1 1 2 15.00 14.00 10.00
8
1 1 2 1 11.00 17.00 14.00 1 1 2 2 18.00 16.00 15.00 Summe aller 12 Zellhaeufigkeiten: 147.0 ---------------------------------------------------------------- Randsummen Anzahl 1 2 3 D1 1 147.0 147.0 147.0 D2 1 147.0 147.0 147.0 D3 2 56.0 91.0 56.0 D4 2 59.0 88.0 59.0 D5 3 49.0 49.0 49.0 Additive Konstante fuer leere Zellen: 0.062
Test der Quasi-Unabhaengigkeit: =============================== Zugrunde liegendes Typenmodell: -------------------------------- (1: Typen, 0: Nicht-Typen) Dimension der Tafel: 3 D5 D1 D2 D3 D4 1 2 3 1 1 1 1 1.0 0.0 0.0 1 1 1 2 0.0 0.0 0.0 1 1 2 1 0.0 0.0 0.0 1 1 2 2 0.0 0.0 0.0 Unter Quasi-Unabhaengigkeit erwartete Tafel: -------------------------------------------- Dimension der Tafel: 3 D5 D1 D2 D3 D4 1 2 3 1 1 1 1 8.68 8.07 8.07 1 1 1 2 12.19 11.33 11.33 1 1 2 1 13.23 12.31 12.31 1 1 2 2 18.58 17.28 17.28 Summe aller 12 Zellhaeufigkeiten: 150.7 ---------------------------------------------------------------- Ergebnis des Tests der Quasi-Unabhaengigkeit: --------------------------------------------- Teststat. DF p-Wert Chi-Quadrat 9.27 6 0.1588 log-Likelihood 10.99 6 0.0886
9
• difftest (Typ-Test I: Differenztest der Gof-Statistiken)
Beispiel:
tafel = {3 2 2 3 5 2 10 15 14 10 11 17 14 18 16 15}; run matdat; sind = 0; it = {1 1 1}; run index; run difftest;
Ausgabe:
Kontingenztafel =============== Dimension der Tafel: 3 D5 D1 D2 D3 D4 1 2 3 1 1 1 1 5.00 2.00 10.00 1 1 1 2 15.00 14.00 10.00 1 1 2 1 11.00 17.00 14.00 1 1 2 2 18.00 16.00 15.00 Summe aller 12 Zellhaeufigkeiten: 147.0 ---------------------------------------------------------------- Randsummen Anzahl 1 2 3 D1 1 147.0 147.0 147.0 D2 1 147.0 147.0 147.0 D3 2 56.0 91.0 56.0 D4 2 59.0 88.0 59.0 D5 3 49.0 49.0 49.0 Additive Konstante fuer leere Zellen: 0.0625
Typen-Tests I (Basierend auf goodness-of-fit Statistiken) ********************************************************* Zu Grunde liegendes Typenmodell und zu testende Zellen: ------------------------------------------------------- ( >0: Typenmenge T, 2: zu testende Zellen S )
Dimension der Tafel: 3 D5 D1 D2 D3 D4 1 2 3 1 1 1 1 2.0 0.0 0.0 1 1 1 2 0.0 0.0 0.0 1 1 2 1 0.0 0.0 0.0 1 1 2 2 0.0 0.0 0.0 Test der totalen Unabhaengigkeit: ================================ Erwartete Tafel unter totaler Unabhaengigkeit ---------------------------------------------
10
Dimension der Tafel: 3 D5 D1 D2 D3 D4 1 2 3 1 1 1 1 7.49 7.49 7.49 1 1 1 2 11.17 11.17 11.17 1 1 2 1 12.17 12.17 12.17 1 1 2 2 18.16 18.16 18.16 Summe aller 12 Zellhaeufigkeiten: 147.0 ---------------------------------------------------------------- Ergebnis des Tests der totalen Unabhaengigkeit: -----------------------------------------------
Teststat. DF p-Wert Chi-Quadrat 10.95 7 0.141 log-Likelihood 12.30 7 0.091
Test der Quasi-Unabhaengigkeit: =============================== Zugrunde liegendes Typenmodell: -------------------------------- (1: Typen, 0: Nicht-Typen) Dimension der Tafel: 3 D5 D1 D2 D3 D4 1 2 3 1 1 1 1 1.0 0.0 0.0 1 1 1 2 0.0 0.0 0.0 1 1 2 1 0.0 0.0 0.0 1 1 2 2 0.0 0.0 0.0 Unter Quasi-Unabhaengigkeit erwartete Tafel: -------------------------------------------- Dimension der Tafel: 3 D5 D1 D2 D3 D4 1 2 3 1 1 1 1 8.68 8.07 8.07 1 1 1 2 12.19 11.33 11.33 1 1 2 1 13.23 12.31 12.31 1 1 2 2 18.58 17.28 17.28 Summe aller 12 Zellhaeufigkeiten: 150.7 ---------------------------------------------------------------- Ergebnis des Tests der Quasi-Unabhaengigkeit: ---------------------------------------------
Teststat. DF p-Wert Chi-Quadrat 9.27 6 0.1588 log-Likelihood 10.99 6 0.0886
11
Ergebnis der Typentests I (HO: tau=0 fuer Menge S)
----------------------------------------------------- Teststat. DF p-Wert Differenz Chi-Quadrat 1.68 1 0.1956 Differenz log-Likelihood 1.31 1 0.2525 HABERMANs Chi-Quadrat 1.20 1 0.2724
• loglin (Typ-Test II mit linearem Modell und standardisierten Parametern)
Beispiel:
tafel = {3 2 2 3 5 2 10 15 14 10 11 17 14 18 16 15}; run matdat; sind = 0; is = {1 1 1}; run index; run loglin;
Ausgabe:
Kontingenztafel =============== Dimension der Tafel: 3 D5 D1 D2 D3 D4 1 2 3 1 1 1 1 5.00 2.00 10.00 1 1 1 2 15.00 14.00 10.00 1 1 2 1 11.00 17.00 14.00 1 1 2 2 18.00 16.00 15.00 Summe aller 12 Zellhaeufigkeiten: 147.0 ---------------------------------------------------------------- Randsummen Anzahl 1 2 3 D1 1 147.0 147.0 147.0 D2 1 147.0 147.0 147.0 D3 2 56.0 91.0 56.0 D4 2 59.0 88.0 59.0 D5 3 49.0 49.0 49.0 Additive Konstante fuer leere Zellen: 0.0625
Test der totalen Unabhaengigkeit: ================================ Erwartete Tafel unter totaler Unabhaengigkeit --------------------------------------------- Dimension der Tafel: 3
D5 D1 D2 D3 D4 1 2 3 1 1 1 1 7.49 7.49 7.49 1 1 1 2 11.17 11.17 11.17
12
1 1 2 1 12.17 12.17 12.17 1 1 2 2 18.16 18.16 18.16 Summe aller 12 Zellhaeufigkeiten: 147.0 ---------------------------------------------------------------- Ergebnis des Tests der totalen Unabhaengigkeit: ----------------------------------------------- Teststat. DF p-Wert Chi-Quadrat 10.95 7 0.141 log-Likelihood 12.30 7 0.091 KFA nach KRAUTH-LIENERT: ======================== Chi-Quadrat-Komponenten: ------------------------
Dimension der Tafel: 3 D5 D1 D2 D3 D4 1 2 3 1 1 1 1 0.83 4.03 0.84 1 1 1 2 1.31 0.71 0.12 1 1 2 1 0.11 1.91 0.27 1 1 2 2 0.00 0.26 0.55 Summe aller 12 Zellhaeufigkeiten: 10.9 ---------------------------------------------------------------- Zugehoerige p-Werte (Chi-Q., df=1): -----------------------------------
Dimension der Tafel: 3 D5 D1 D2 D3 D4 1 2 3 1 1 1 1 0.3626 0.0448 0.3595 1 1 1 2 0.2525 0.3980 0.7253 1 1 2 1 0.7364 0.1667 0.6009 1 1 2 2 0.9703 0.6124 0.4585
• Suchen (Suchen nach Typ-Zellen in einer Kontingenztafel)
Beispiel:
tafel = {3 2 2 3 5 2 10 15 14 10 11 17 14 18 16 15}; run matdat; k=5; stat=1; run suchen; stat=2; run suchen;
13
Ausgabe:
Kontingenztafel =============== Dimension der Tafel: 3 D5 D1 D2 D3 D4 1 2 3 1 1 1 1 5.00 2.00 10.00 1 1 1 2 15.00 14.00 10.00 1 1 2 1 11.00 17.00 14.00 1 1 2 2 18.00 16.00 15.00 Summe aller 12 Zellhaeufigkeiten: 147.0 ---------------------------------------------------------------- Randsummen Anzahl 1 2 3 D1 1 147.0 147.0 147.0 D2 1 147.0 147.0 147.0 D3 2 56.0 91.0 56.0 D4 2 59.0 88.0 59.0 D5 3 49.0 49.0 49.0 Additive Konstante fuer leere Zellen: 0.0625
Schrittweise Typensuche *********************** Identifizierungs-Teststatistik: Chi-Quadrat-Statistik Reihenfolge der Forward-Identifizierung : ----------------------------------------- Dimension der Tafel: 3 D5
D1 D2 D3 D4 1 2 3 1 1 1 1 2.0 1.0 6.0 1 1 1 2 6.0 6.0 6.0 1 1 2 1 3.0 6.0 5.0 1 1 2 2 6.0 6.0 4.0 ---------------------------------------- Ergebnisse der Tests bei Forward-Suche ---------------------------------------- Typ-Test p-Wert B.-Holm Q.-U.-Test p-Wert 1 6.32 0.0119 0.0042 4.63 0.5924 2 2.74 0.0978 0.0045 1.89 0.8646 3 1.55 0.2138 0.0050 0.34 0.9870 4 0.19 0.6651 0.0056 0.15 0.9847 5 0.14 0.7118 0.0063 0.02 0.9915
14
15
Als Typen identifizierte Zellen (Backward-Vgl. mit B.-HOLM): ------------------------------------------------------------ Dimension der Tafel: 3 D5 D1 D2 D3 D4 1 2 3 1 1 1 1 0.0 0.0 0.0 1 1 1 2 0.0 0.0 0.0 1 1 2 1 0.0 0.0 0.0 1 1 2 2 0.0 0.0 0.0
Schrittweise Typensuche *********************** Identifizierungs-Teststatistik: LQ-Statistik Reihenfolge der Forward-Identifizierung :
----------------------------------------- Dimension der Tafel: 3 D5 D1 D2 D3 D4 1 2 3 1 1 1 1 2.0 1.0 6.0 1 1 1 2 6.0 6.0 6.0 1 1 2 1 3.0 6.0 5.0 1 1 2 2 6.0 6.0 4.0 ---------------------------------------- Ergebnisse der Tests bei Forward-Suche ---------------------------------------- Typ-Test p-Wert B.-Holm Q.-U.-Test p-Wert 1 7.46 0.0063 0.0042 4.84 0.5645 2 2.90 0.0886 0.0045 1.94 0.8575 3 1.60 0.2062 0.0050 0.34 0.9870 4 0.19 0.6642 0.0056 0.15 0.9848 5 0.14 0.7125 0.0063 0.02 0.9915
Als Typen identifizierte Zellen (Backward-Vgl. mit B.-HOLM): ------------------------------------------------------------ Dimension der Tafel: 3 D5 D1 D2 D3 D4 1 2 3 1 1 1 1 0.0 0.0 0.0 1 1 1 2 0.0 0.0 0.0 1 1 2 1 0.0 0.0 0.0 1 1 2 2 0.0 0.0 0.0