Post on 24-Jul-2019
ANALISISANALISISANALISISANALISIS
DATA LONGITUDINALDATA LONGITUDINALDATA LONGITUDINALDATA LONGITUDINAL
Johan HarlanJohan HarlanJohan HarlanJohan Harlan
AAAAnalisisnalisisnalisisnalisis Data LongitudinalData LongitudinalData LongitudinalData Longitudinal
Penulis : Johan Harlan
Cetakan Pertama, Mei 2018
Disain cover : Joko Slameto
Diterbitkan pertama kali oleh Gunadarma
Jl. Margonda Raya No. 100, Pondokcina, Depok 16424
Telp. +62-21-78881112, 7863819 Faks. +62-21-7872829
e-mail : sektor@gunadarma.ac.id
Hak Cipta dilindungi undang-undang. Dilarang mengutip atau
memperbanyak dalam bentuk apapun sebagian atau seluruh isi
buku tanpa ijin tertulis dari penerbit.
v
KATA PENGANTAR
Analisis statistik pada tingkat dasar bermula pada analisis data cross-
sectional. Analisis data longitudinal, yang dikenal juga sebagai analisis data
panel, dapat dianggap sebagai salah satu pembahasan analisis untuk tingkat
lanjut. Studi longitudinal memiliki banyak kelebihan dibandingkan dengan
studi cross-sectional, walaupun demikian buku-buku tentang analisis data
longitudinal seringkali kurang diminati karena umumnya dipenuhi dengan
rumus dan pembahasan statistika matematik yang rumit.
Dalam buku ini penulis mencoba membahas analisis data longitudinal
secara ringkas, tanpa terlalu banyak membahas aspek teoretik dan tidak
membahas keseluruhan macam metode analisis untuk data longitudinal.
Metode yang dianggap ‘tradisional’ namun masih sering digunakan, yang
dibahas adalah Analisis Variansi dan Analisis Variansi Multivariat dengan
pengukuran berulang (Repeated-measurements ANOVA dan MANOVA).
Metode yang dianggap mutakhir yang dibahas adalah Analisis GEE
(Generalized Estimating Equations) dan Analisis Koefisien Random
(Random Coefficient Analysis). Pembahasan metode ekonometrik yang tetap
mendominasi ranah bidang Ekonomi, namun relatif kurang dikenal dalam
ranah bidang ilmu pengetahuan lainnya, dibatasi pada Analisis Regresi
Variabel Instrumental, dengan pembahasan singkat untuk Estimator Efek
Random, Efek Fixed, dan Fixed-Differenced. Analisis data untuk contoh-
contoh soal dilakukan dengan menggunakan paket statistik komputer Stata
15.
vi
Penulis sangat mengharapkan saran-saran yang berguna dari pembaca
untuk memperbaiki kesalahan-kesalahan yang mungkin terjadi dalam
penulisan isi buku ini serta meningkatkan kualitas pembahasannya.
Jakarta, Mei 2018
Penulis
vii
DAFTAR ISI
Kata Pengantar v
Daftar Isi vii
Bab 1 Pendahuluan 1
Pengertian Data Longitudinal 1
Format Data Longitudinal 2
Bab 2 Dasar-Dasar Analisis Data Longitudinal 15
Deklarasi Dataset Longitudinal 15
Analisis Deskriptif Data Longitudinal 19
Bab 3 ANOVA dengan Pengukuran Berulang 27
Telaah Ulang ANOVA dengan Pengukuran Berulang 27
Rancangan Pengukuran Berulang Faktor Tunggal 28
Rancangan Pengukuran Berulang Dua-Faktor 32
Bab 4 MANOVA dengan Pengukuran Berulang 41
Telaah Teoretik MANOVA 41
Asumsi pada Analisis Variansi Multivariat 42
Analisis MANOVA dengan Stata 42
Bab 5 Analisis Generalized Estimating Equations 63
Pengertian GEE 63
Struktur Korelasi Kerja 63
Analisis GEE dengan Stata 66
viii
Bab 6 Analisis Koefisien Random 79
Pengertian Analisis Koefisien Random 79
Analisis Koefisien Random dengan Stata 82
Bab 7 Regresi Variabel Instrumental dengan
Estimator Koefisien Random dan Fixed
89
Variabel Instrumental dan Regresi Variabel
Instrumental
89
Estimator Efek Random dan Efek Fixed 90
Bab 8 Regresi Variabel Instrumental dengan
Estimator First-Differenced
99
Pengertian Estimator First-Differenced 99
Estimator First-Differenced dengan Stata 99
Kepustakaan 105
Lampiran: Ukuran Sampel pada Studi Longitudinal 106
1
BAB 1
PENDAHULUAN
� Pengertian Data Longitudinal
Data longitudinal adalah data hasil pengukuran berulang untuk satu
atau beberapa variabel pada setiap anggota sejumlah subjek atau individu
yang sama, yang diamati pada sejumlah titik waktu berbeda.
Data longitudinal dibedakan dari data runtun-waktu (time-series data)
yang umumnya menyangkut sedikit subjek dengan rentang seri pengukuran
yang jauh lebih panjang, sedangkan data longitudinal menyangkut lebih
banyak subjek dengan panel (gelombang waktu pengukuran data) yang
relatif sedikit. Sejumlah ahli juga membedakan pengertian data longitudinal
dengan data panel, walaupun sebagian besar ahli statistika menganggap
keduanya sama, termasuk anggapan yang diberlakukan dalam buku ini.
Pada data longitudinal, jumlah titik waktu ini dapat mencakup
interval waktu (jarak antara 2 titik waktu pengukuran) yang sama (regularly
spaced measurements) ataupun tak sama (irregularly spaced measurements).
Data longitudinal juga dibedakan atas data balans (balanced data), yaitu
setiap subjek diukur pada tiap panel dan data tidak balans (unbalanced data),
yaitu jumlah subjek yang diukur dapat berbeda di tiap panel. Pada data
longitudinal terhadap tiap subjek dilakukan pengukuran berulang (repeated
measurement). Variabel hasil pengukuran berulang ini dikatakan “tersarang
dalam” (nested in) variabel pengidentifikasi subjek.
Analisis data longitudinal merupakan analisis statistika yang rumit,
karena sifat data longitudinal yang saling berkorelasi dalam-subjek,
mengakibatkan sejumlah analisis statistika yang didasarkan atas
independensi data menjadi tidak valid. Pada analisis data longitudinal
diperlukan sejumlah teknik statistika yang dapat mengakomodasi korelasi
ini. Sifat data longitudinal yang saling berkorelasi ini menyerupai data
kluster pada analisis multilevel, bahkan analisis data longitudinal dapat
dianggap sebagai salah satu varian analisis multilevel. Pada data kluster yang
2
ada adalah korelasi intra-kluster, sedangkan pada data longitudinal
didapatkan korelasi dalam-subjek.
Beberapa kelebihan studi longitudinal jika dibandingkan dengan studi
potong-lintang (cross-sectional study) yaitu:
1. Perkembangan terjadinya variabel respons dapat diamati dalam
perjalanan waktu.
2. Perkembangan terjadinya variabel respons dapat dikaitkan dengan
perkembangan terjadinya variabel lain.
Studi longitudinal juga memiliki kekurangan dibandingkan dengan
studi potong lintang, antara lain yaitu:
1. Studi longitudinal umumnya membutuhkan biaya yang relatif besar.
2. Studi longitudinal membutuhkan waktu yang lebih lama.
3 Data longitudinal lebih sulit untuk dianalisis.
Pengetahuan dasar yang dibutuhkan untuk mempelajari analisis data
longitudinal adalah pemahaman tentang beberapa teknik statistika pada studi
potong-lintang, seperti analisis regresi linear, analisis regresi logistik, dan
analisis variansi. Selama lebih daripada setengah abad, analisis data
longitudinal terpaku pada metode tradisional ANOVA untuk pengukuran
berulang yang diperkenalkan oleh Fisher pada tahun 1918. Kemajuan di
bidang Statistika dan Ilmu Komputer memungkinkan pengembangan
program statistik seperti GEE (Generalized Estimating Equations) dan
analisis koefisien random (random coefficient analysis) sebagai bentuk
modifikasi Generalized Linear Model untuk data berkorelasi.
� Format Data Longitudinal
Data longitudinal dapat disajikan dalam format memanjang (long)
ataupun melebar (wide). Tampilan kedua format tersebut pada Stata adalah:
3
long
+------------+ wide
| i j stub | +----------------+
|------------| | i stub1 stub2 |
| 1 1 4.1 | reshape |----------------|
| 1 2 4.5 | <---------> | 1 4.1 4.5 |
| 2 1 3.3 | | 2 3.3 3.0 |
| 2 2 3.0 | +----------------+
+------------+
Perintah Stata untuk mengubah format memanjang menjadi format
melebar yaitu:
reshape wide stub, i (id) j (time)
stub : Variabel respons yang akan diubah formatnya
stub# : Hasil pengukuran stub ke-#
id : Nomor identitas subjek (individu)
time : Variabel waktu, menyatakan nomor urut pengukuran
Perintah untuk mengembalikan data ke format melebar setelah sebelumnya
diubah menjadi format memanjang:
reshape long
Perintah Stata untuk mengubah format melebar menjadi format memanjang
yaitu:
reshape long stub, i (id) j (j)
stub : Variabel respons yang akan diubah formatnya
id : Nomor identitas subjek (individu)
time : Variabel waktu, menyatakan nomor urut pengukuran
Perintah untuk mengembalikan data ke format melebar setelah sebelumnya
diubah menjadi format memanjang:
reshape wide
4
Contoh 1.1:
. use “D:\Analisis Data Longitudinal\Data\repeat1.dta”, clear
Ada 8 subjek yang masing-masing menjalani 4 kali pengukuran
respons pada 4 titik waktu. Data tersimpan dalam format melebar (wide
format), y1 adalah respons pada titik waktu 1, y2 adalah respons pada titik
waktu 2, dan seterusnya. Subjek terbagi dalam 2 grup, masing-masing terdiri
atas 4 subjek dengan menggunakan variabel trt.
. list
+----------------------------------+
| id trt y1 y2 y3 y4 |
|----------------------------------|
1. | 1 1 3.5 4.5 7.5 7.5 |
2. | 2 1 6.5 5.5 8.5 8.5 |
3. | 3 1 3.5 4.5 7.5 9.5 |
4. | 4 1 3.5 3.5 6.5 8.5 |
5. | 5 2 1 2 5 10 |
|----------------------------------|
6. | 6 2 2 3 6 10 |
7. | 7 2 2 4 5 9 |
8. | 8 2 2 3 6 11 |
+----------------------------------+
Mengubah data menjadi format memanjang (long form):
. reshape long y, i(id) j(time)
(note: j = 1 2 3 4)
Data wide -> long
---------------------------------------------------
Number of obs. 8 -> 32
Number of variables 6 -> 4
j variable (4 values) -> time
xij variables:
y1 y2 ... y4 -> y
---------------------------------------------------
5
. list, sep(4)
+-----------------------+
| id time trt y |
|-----------------------|
1. | 1 1 1 3.5 |
2. | 1 2 1 4.5 |
3. | 1 3 1 7.5 |
4. | 1 4 1 7.5 |
|-----------------------|
5. | 2 1 1 6.5 |
6. | 2 2 1 5.5 |
... | . . . ... |
... | . . . ... |
... | . . . ... |
27. | 7 3 2 5 |
28. | 7 4 2 9 |
|-----------------------|
29. | 8 1 2 2 |
30. | 8 2 2 3 |
31. | 8 3 2 6 |
32. | 8 4 2 11 |
+-----------------------+
Contoh 1.2:
. use “D:/Analisis Data Longitudinal/Data/reshape1.dta”
Memperlihatkan nilai-nilai pada dataset:
. list
6
+-------------------------------------------------------+
| id sex inc80 inc81 inc82 ue80 ue81 ue82 |
|-------------------------------------------------------|
1. | 1 0 5000 5500 6000 0 1 0 |
2. | 2 1 2000 2200 3300 1 0 0 |
3. | 3 0 3000 2000 1000 0 0 1 |
+-------------------------------------------------------+
Di sini terdapat 2 variabel yang perlu diubah formatnya, yaitu inc dan ue.
Perintah untuk mengubah data dari format melebar menjadi format
memanjang adalah:
. reshape long inc ue, i(id) j(year)
(note: j = 80 81 82)
Data wide -> long
----------------------------------------
Number of obs. 3 -> 9
Number of variables 8 -> 5
j variable (3 values) -> year
xij variables:
inc80 inc81 inc82 -> inc
ue80 ue81 ue82 -> ue
----------------------------------------
Memperlihatkan tampilan nilai setelah menjadi format memanjang:
. list, sepby(id)
+-----------------------------+
| id year sex inc ue |
|-----------------------------|
1. | 1 80 0 5000 0 |
2. | 1 81 0 5500 1 |
3. | 1 82 0 6000 0 |
|-----------------------------|
4. | 2 80 1 2000 1 |
7
5. | 2 81 1 2200 0 |
6. | 2 82 1 3300 0 |
|-----------------------------|
7. | 3 80 0 3000 0 |
8. | 3 81 0 2000 0 |
9. | 3 82 0 1000 1 |
+-----------------------------+
Mengembalikan data ke format melebar:
. reshape wide
(note: j = 80 81 82)
Data long -> wide
----------------------------------------------------
Number of obs. 9 -> 3
Number of variables 5 -> 8
j variable (3 values) year -> (dropped)
xij variables:
inc -> inc80 inc81 inc82
ue -> ue80 ue81 ue82
----------------------------------------------------
Contoh 1.3:
. use “D:/Analisis Data Longitudinal/Data/reshape5.dta”, clear
. list
+-------------------------+
| hid sex year inc |
|-------------------------|
1. | 1 f 90 3200 |
2. | 1 f 91 4700 |
3. | 1 m 90 4500 |
4. | 1 m 91 4600 |
+-------------------------+
8
Berikut data akan diubah dari format memanjang-memanjang (long-
long) menjadi format melebar-melebar (wide-wide) untuk 2 variabel j (sex
dan year). Perubahan yang menyangkut 2 variabel ini tidak dapat dilakukan
dalam 1 tahap dengan 1 perintah Stata, melainkan memerlukan 2 tahap
dengan 2 perintah Stata. Karena tidak ada variabel identitas i, maka
digunakan kombinasi (hid year), sedangkan untuk pengulangan pengukuran
j digunakan (sex), yang tidak membentuk inc1 dan inc2 pada format
melebar, melainkan minc (male inc) dan finc (female inc). Operator @ di
depan inc menyatakan huruf m (male) dan f (female) diletakkan di depan
inc. Opsi string menyatakan variabel sex adalah string.
. reshape wide @inc, i(hid year) j(sex) string
(note: j = f m)
Data long -> wide
------------------------------------------------
Number of obs. 4 -> 2
Number of variables 4 -> 4
j variable (2 values) sex -> (dropped)
xij variables:
inc -> finc minc
------------------------------------------------
. list
+--------------------------+
| hid year finc minc |
|--------------------------|
1. | 1 90 3200 4500 |
2. | 1 91 4700 4600 |
+--------------------------+
Selanjutnya diberikan perintah reshape kedua untuk mengubah
format finc dan minc dengan hid sebagai variabel identitas dan year
sebagai variabel waktu.
. reshape wide minc finc, i(hid) j(year)
(note: j = 90 91)
9
Data long -> wide
-------------------------------------------------
Number of obs. 2 -> 1
Number of variables 4 -> 5
j variable (2 values) year -> (dropped)
xij variables:
minc -> minc90 minc91
finc -> finc90 finc91
-------------------------------------------------
Memperlihatkan hasil perintah Stata tersebut:
. list
+-----------------------------------------+
| hid finc90 minc90 finc91 minc91 |
|-----------------------------------------|
1. | 1 3200 4500 4700 4600 |
+-----------------------------------------+
Karena pada perubahan format memanjang menjadi melebar
diperlukan 2 tahap dengan 2 perintah Stata, pada pengembalian data dari
format melebar-melebar menjadi memanjang-memanjang juga diperlukan 2
tahap dengan 2 perintah Stata:
. reshape long minc finc, i(hid) j(year)
(note: j = 90 91)
Data wide -> long
-------------------------------------------
Number of obs. 1 -> 2
Number of variables 5 -> 4
j variable (2 values) -> year
xij variables:
minc90 minc91 -> minc
finc90 finc91 -> finc
-------------------------------------------
10
. reshape long @inc, i(hid year) j(sex) string
(note: j = f m)
Data wide -> long
-----------------------------------------------
Number of obs. 2 -> 4
Number of variables 4 -> 4
j variable (2 values) -> sex
xij variables:
finc minc -> inc
-----------------------------------------------
Memperlihatkan hasil perintah Stata tersebut:
. list
+-------------------------+
| hid year sex inc |
|-------------------------|
1. | 1 90 f 3200 |
2. | 1 90 m 4500 |
3. | 1 91 f 4700 |
4. | 1 91 m 4600 |
+-------------------------+
Analisis data longitudinal di sini dibatasi untuk model regresi dengan
variabel prediktor dan respons. Untuk variabel prediktor dikenal istilah
tergantung-waktu (time-dependent) dan tak-tergantung-waktu (time-
independent).
Prediktor tergantung-waktu adalah variabel yang dapat berubah-ubah
nilainya dalam perjalanan waktu, sedangkan prediktor tak-tergantung-waktu
selalu bernilai tetap, misalnya jenis kelamin.
11
Contoh 1.4:
. use "D:\Analisis Data Longitudinal\Data\teenprov.dta"
Berikut diperlihatkan data untuk 3 kasus pertama.
. list in 1/3
+-------------------------------------------------------------------+
1. | id | pov1 | mother1 | spouse1 | school1 | hours1 | pov2 | mother2 |
| 22 | 1 | 0 | 0 | 1 | 21 | 0 | 0 |
|-------------------------------------------------------------------|
| spouse2 | school2 | hours2 | pov3 | mother3 | spouse3 | school3 |
| 0 | 1 | 15 | 0 | 0 | 0 | 1 |
|-------------------------------------------------------------------|
| hours3 | pov4 | mother4 | spouse4 | school4 | hours4 | age |
| 3 | 0 | 0 | 0 | 1 | 0 | 16 |
|-------------------------------------------------------------------|
| black | pov5 | mother5 | spouse5 | school5 | hours5 |
| 0 | 0 | 0 | 0 | 1 | 0 |
+-------------------------------------------------------------------+
+-------------------------------------------------------------------+
2. | id | pov1 | mother1 | spouse1 | school1 | hours1 | pov2 | mother2 |
| 75 | 0 | 0 | 0 | 1 | 8 | 0 | 0 |
|-------------------------------------------------------------------|
| spouse2 | school2 | hours2 | pov3 | mother3 | spouse3 | school3 |
| 0 | 1 | 0 | 0 | 0 | 0 | 1 |
|-------------------------------------------------------------------|
| hours3 | pov4 | mother4 | spouse4 | school4 | hours4 | age |
| 0 | 0 | 0 | 0 | 1 | 4 | 17 |
|-------------------------------------------------------------------|
| black | pov5 | mother5 | spouse5 | school5 | hours5 |
| 0 | 1 | 0 | 0 | 1 | 0 |
+-------------------------------------------------------------------+
12
+-------------------------------------------------------------------+
3. | id | pov1 | mother1 | spouse1 | school1 | hours1 | pov2 | mother2 |
| 92 | 0 | 0 | 0 | 1 | 30 | 0 | 0 |
|-------------------------------------------------------------------|
| spouse2 | school2 | hours2 | pov3 | mother3 | spouse3 | school3 |
| 0 | 1 | 27 | 0 | 0 | 0 | 1 |
|-------------------------------------------------------------------|
| hours3 | pov4 | mother4 | spouse4 | school4 | hours4 | age |
| 24 | 1 | 1 | 0 | 0 | 31 | 16 |
|-------------------------------------------------------------------|
| black | pov5 | mother5 | spouse5 | school5 | hours5 |
| 0 | 1 | 1 | 0 | 1 | 0 |
+-------------------------------------------------------------------+
Sekarang data akan diubah dari format melebar (wide) menjadi
format memanjang (long).
. reshape long pov mother spouse school hours, i(id) j(year)
(note: j = 1 2 3 4 5)
Data wide -> long
------------------------------------------------
Number of obs. 1151 -> 5755
Number of variables 28 -> 9
j variable (5 values) -> year
xij variables:
pov1 pov2 ... pov5 -> pov
mother1 mother2 ... mother5 -> mother
spouse1 spouse2 ... spouse5 -> spouse
school1 school2 ... school5 -> school
hours1 hours2 ... hours5 -> hours
------------------------------------------------
Berikut diperlihatkan data 3 kasus pertama yang sekarang telah
berubah menjadi 15 records.
13
. list in 1/15
+----------------------------------------------------------+
| id year age black pov mother spouse school hours |
|----------------------------------------------------------|
1. | 22 1 16 0 1 0 0 1 21 |
2. | 22 2 16 0 0 0 0 1 15 |
3. | 22 3 16 0 0 0 0 1 3 |
4. | 22 4 16 0 0 0 0 1 0 |
5. | 22 5 16 0 0 0 0 1 0 |
|----------------------------------------------------------|
6. | 75 1 17 0 0 0 0 1 8 |
7. | 75 2 17 0 0 0 0 1 0 |
8. | 75 3 17 0 0 0 0 1 0 |
9. | 75 4 17 0 0 0 0 1 4 |
10. | 75 5 17 0 1 0 0 1 0 |
|----------------------------------------------------------|
11. | 92 1 16 0 0 0 0 1 30 |
12. | 92 2 16 0 0 0 0 1 27 |
13. | 92 3 16 0 0 0 0 1 24 |
14. | 92 4 16 0 1 1 0 0 31 |
15. | 92 5 16 0 1 1 0 0 0 |
+----------------------------------------------------------+
. save "D:\Analisis Data Longitudinal\Data\teenprov_long.dta"
file D:\Longitudinal Data Analysis\Data\teenprov_long.dta saved
15
BAB 2
DASAR-DASAR ANALISIS DATA
LONGITUDINAL
� Deklarasi Dataset Longitudinal
Dataset terlebih dahulu harus dideklarasikan sebagai dataset
longitudinal dengan perintah:
xtset panelvar
jika dataset tidak memiliki variabel waktu dan:
xtset panelvar timevar [, options]
jika dataset memiliki variabel waktu.
panelvar : Variabel panel, variabel tempat subjek tersarang
timevar : Variabel waktu; dapat berupa yearly, quaterly, monthly,
weekly, daily, dan generic. Data dalam format melebar
tidak memiliki variabel waktu.
Contoh 2.1:
. use "D:\Analisis Data Longitudinal\Data\nlswork.dta"
(National Longitudinal Survey. Young Women 14-26
years of age in 1968)
Sebagian data untuk beberapa variabel pada dataset diperlihatkan
dengan perintah berikut:
16
. list idcode year union age grade not_smsa south in 1/10
+--------------------------------------------------------+
| idcode year union age grade not_smsa south |
|--------------------------------------------------------|
1. | 1 70 . 18 12 0 0 |
2. | 1 71 . 19 12 0 0 |
3. | 1 72 1 20 12 0 0 |
4. | 1 73 . 21 12 0 0 |
5. | 1 75 . 23 12 0 0 |
|--------------------------------------------------------|
6. | 1 77 0 25 12 0 0 |
7. | 1 78 . 26 12 0 0 |
8. | 1 80 1 28 12 0 0 |
9. | 1 83 1 31 12 0 0 |
10. | 1 85 1 33 12 0 0 |
+--------------------------------------------------------+
Tampak bahwa variabel panel adalah idcode, karena nilai-nilai data
tersarang pada variabel ini, sedangkan variabel waktu adalah year., tetapi
pada deklarasi data longitudinal di sini hanya akan digunakan variabel panel.
. xtset idcode
panel variable: idcode (unbalanced)
Contoh 2.2:
. use "D:\Analisis Data Longitudinal\Data\union.dta", clear
(NLS Women 14-24 in 1968)
Dataset ini memiliki daftar variabel yang hampir sama namun lebih
sedikit daripada Contoh 2.1.
17
. list idcode year union age grade not_smsa south in 1/10
+--------------------------------------------------------+
| idcode year union age grade not_smsa south |
|--------------------------------------------------------|
1. | 1 72 1 20 12 0 0 |
2. | 1 77 0 25 12 0 0 |
3. | 1 80 1 28 12 0 0 |
4. | 1 83 1 31 12 0 0 |
5. | 1 85 1 33 12 0 0 |
|--------------------------------------------------------|
6. | 1 87 1 35 12 0 0 |
7. | 1 88 1 37 12 0 0 |
8. | 2 71 0 19 12 0 0 |
9. | 2 77 1 25 12 0 0 |
10. | 2 78 1 26 12 0 0 |
+--------------------------------------------------------+
Di sini deklarasi dataset longitudinal akan dilakukan dengan variabel
panel idcode dan variabel waktu year.
. xtset id year
panel variable: idcode (unbalanced)
time variable: year, 70 to 88, but with gaps
delta: 1 unit
Contoh 2.3:
. use "D:\Analisis Data Longitudinal\Data\teenprov_long.dta"
Dataset ini yang berasal dari the National Longitudinal Study of
Youth (NLSY), memuat data tentang 1151 gadis remaja yang diwawancarai
selama 5 tahun berturut-turut.
18
. list in 1/5
+----------------------------------------------------------+
| id year age black pov mother spouse school hours |
|----------------------------------------------------------|
1. | 22 1 16 0 1 0 0 1 21 |
2. | 22 2 16 0 0 0 0 1 15 |
3. | 22 3 16 0 0 0 0 1 3 |
4. | 22 4 16 0 0 0 0 1 0 |
5. | 22 5 16 0 0 0 0 1 0 |
|----------------------------------------------------------|
Variabel-variabel penelitian adalah:
• id: Nomor identitas subjek
• year: Tahun pengumpulan data
• age: Usia subjek pada wawancara pertama.
• black: Kode 1 jika subjek kulit hitam, jika tidak kode 0
• pov: Kode 1 jika subjek dalam keadaan miskin (poverty) selama periode
observasi, jika tidak kode 0
• mother: Kode 1 jika subjek memiliki 1 anak atau lebih, jika tidak kode
0
• spouse: Kode 1 jika subjek memiliki pasangan hidup bersama, jika
tidak kode 0
• school: Kode 1 jika subjek masih bersekolah, jika tidak kode 0
• hours: Jumlah jam subjek bekerja dalam seminggu menjalani survei
Variabel panel adalah id dan variabel waktu adalah year.
. xtset id year
panel variable: id (strongly balanced)
time variable: year, 1 to 5
delta: 1 unit
Untuk menampilkan kembali hasil deklarasi terdahulu, perintahnya
adalah:
19
. xtset
panel variable: id (strongly balanced)
time variable: year, 1 to 5
delta: 1 unit
� Analisis Deskriptif Data Longitudinal
Beberapa perintah standar Stata untuk analisis deskriptif data
longitudinal (tidak semua spesifik untuk data longitudinal) yaitu:
• Perintah untuk mendeskripsikan pola data xt:
xtdescribe [if] [in] [, options]
• Perintah untuk melakukan tabulasi data xt:
xttab varname [if]
• Perintah untuk membuat ringkasan data xt:
xtsum [varlist] [if]
• Perintah untuk menampilkan grafik, tidak spesifik untuk data xt, tidak
memerlukan deklarasi data xt:
twoway scatter varlist [if] [in], [, options]
Menampilkan grafik diagram tebar.
graph box yvar [if] [in] [, options]
Menampilkan grafik kotak dan titik.
• Perintah untuk menampilkan matriks korelasi antar-variabel, tidak
spesifik untuk dataset xt, tidak memerlukan deklarasi data xt:
correlate [varlist] [if] [in] [, options]
Menampilkan matriks kovariansi,
pwcorr [varlist] [if] [in] [, pwcorr_options]
Menampilkan matriks koefisien korelasi.
20
Contoh 2.4:
Lihat kembali dataset pada Contoh 2.2.
. use "D:\Analisis Data Longitudinal\Data\union.dta", clear
. xtset id year
Hasil perintah terdahulu pada Contoh 2.2 tidak ditampilkan.
. xtdes
idcode: 1, 2, ..., 5159 n = 4434
year: 70, 71, ..., 88 T = 12
Delta(year) = 1 unit
Span(year) = 19 periods
(idcode*year uniquely identifies each observation)
Distribution of T_i: min 5% 25% 50% 75% 95% max
1 1 3 6 8 11 12
Freq. Percent Cum. | Pattern
---------------------------+---------------------
190 4.29 4.29 | 1111...11.1.11.1.11
129 2.91 7.19 | .......11.1.11.1.11
93 2.10 9.29 | 1..................
78 1.76 11.05 | .......1...........
68 1.53 12.58 | ..11...11.1.11.1.11
64 1.44 14.03 | ...1...11.1.11.1.11
60 1.35 15.38 | .111...11.1.11.1.11
52 1.17 16.55 | 11.................
52 1.17 17.73 | 1111...............
3648 82.27 100.00 | (other patterns)
---------------------------+---------------------
4434 100.00 | XXXX...XX.X.XX.X.XX
21
Contoh 2.5:
Lihat kembali dataset pada Contoh 2.1.
. use "D:\Analisis Data Longitudinal\Data\nlswork.dta"
. xtset idcode year
panel variable: idcode (unbalanced)
time variable: year, 68 to 88, but with gaps
delta: 1 unit
. xttab msp
Overall Between Within
msp | Freq. Percent Freq. Percent Percent
------+--------------------------------------------------
0 | 11324 39.71 3113 66.08 62.69
1 | 17194 60.29 3643 77.33 75.75
------+--------------------------------------------------
Total | 28518 100.00 6756 143.41 69.73
(n = 4711)
. xttab race
Overall Between Within
race | Freq. Percent Freq. Percent Percent
------+--------------------------------------------------
white | 20180 70.72 3329 70.66 100.00
black | 8051 28.22 1325 28.13 100.00
other | 303 1.06 57 1.21 100.00
------+--------------------------------------------------
Total | 28534 100.00 4711 100.00 100.00
(n = 4711)
22
Contoh 2.6:
Lihat kembali dataset pada Contoh 2.3.
. use "D:\Analisis Data Longitudinal\Data\teenprov_long.dta"
. xtset id year
. xtsum
Variable | Mean Std. Dev. Min Max Observations
---------------+----------------------------------------+------------
id overall | 6016.672 3298.064 22 12539 | N = 5755
between | 3299.211 22 12539 | n = 1151
within | 0 6016.672 6016.672 | T = 5
| |
year overall | 3 1.414336 1 5 | N = 5755
between | 0 3 3 | n = 1151
within | 1.414336 1 5 | T = 5
| |
age overall | 15.64639 1.04682 14 17 | N = 5755
between | 1.047184 14 17 | n = 1151
within | 0 15.64639 15.64639 | T = 5
| |
black overall | .5742832 .4944942 0 1 | N = 5755
between | .4946661 0 1 | n = 1151
within | 0 .5742832 .5742832 | T = 5
| |
pov overall | .3768897 .484649 0 1 | N = 5755
between | .3100424 0 1 | n = 1151
within | .3725925 -.4231103 1.17689 | T = 5
| |
mother overall | .1986099 .3989883 0 1 | N = 5755
between | .3253864 0 1 | n = 1151
within | .2310605 -.6013901 .9986099 | T = 5
| |
23
spouse overall | .0992181 .2989806 0 1 | N = 5755
between | .2206498 0 1 | n = 1151
within | .2018338 -.7007819 .8992181 | T = 5
| |
school overall | .6304083 .4827361 0 1 | N = 5755
between | .32013 0 1 | n = 1151
within | .3614169 -.1695917 1.430408 | T = 5
| |
hours overall | 8.671764 14.54341 0 90 | N = 5755
between | 9.363817 0 52.4 | n = 1151
within | 11.13062 -43.72824 72.07176 | T = 5
Contoh 2.7:
. use "D:\Analisis Data Longitudinal\Data\depress.dta"
. list in 1/5
+-------------------------------------------------------------+
| subj dep1 dep2 dep3 dep4 dep5 dep6 group pre |
|-------------------------------------------------------------|
1. | 1 17 18 15 17 14 15 0 18 |
2. | 2 26 23 18 17 12 10 0 27 |
3. | 3 17 14 . . . . 0 16 |
4. | 4 14 23 17 13 12 12 0 17 |
5. | 5 12 10 8 4 5 5 0 15 |
+-------------------------------------------------------------+
Tampak data berada dalam format melebar.
24
. graph box dep1-dep6, by(group)
. reshape long dep, i(subj) j(visit)
(note: j = 1 2 3 4 5 6)
Data wide -> long
-----------------------------------------------
Number of obs. 61 -> 366
Number of variables 9 -> 5
j variable (6 values) -> visit
xij variables:
dep1 dep2 ... dep6 -> dep
-----------------------------------------------
010
20
30
25
. list in 1/5
+----------------------------------+
| subj visit dep group pre |
|----------------------------------|
1. | 1 1 17 0 18 |
2. | 1 2 18 0 18 |
3. | 1 3 15 0 18 |
4. | 1 4 17 0 18 |
5. | 1 5 14 0 18 |
+----------------------------------+
. twoway scatter dep visit, connect(1)
(note: named style 1 not found in class connectstyle, default
attributes used)
010
20
30
dep
26
Contoh 2.8:
. use "D:\Analisis Data Longitudinal\Data\epil.dta"
. reshape long y, i(subj) j(time)
(note: j = 1 2 3 4)
Data wide -> long
--------------------------------------------------
Number of obs. 59 -> 236
Number of variables 9 -> 7
j variable (4 values) -> time
xij variables:
y1 y2 ... y4 -> y
---------------------------------------------------
. list in 1/5
+------------------------------------------------+
| subj time id y treat baseline age |
|------------------------------------------------|
1. | 1 1 104 5 0 11 31 |
2. | 1 2 104 3 0 11 31 |
3. | 1 3 104 3 0 11 31 |
4. | 1 4 104 3 0 11 31 |
5. | 2 1 106 3 0 11 30 |
+------------------------------------------------+
. corr time treat age baseline
(obs=236)
| time treat age baseline
----------+------------------------------------
time | 1.0000
treat | 0.0000 1.0000
age | 0.0000 -0.1005 1.0000
baseline | 0.0000 0.0155 -0.1890 1.0000
27
BAB 3
ANOVA DENGAN
PENGUKURAN BERULANG
� Telaah Ulang ANOVA dengan Pengukuran
Berulang
Model untuk ANOVA dengan pengukuran berulang (Repeated
Measurements ANOVA) adalah:
ijky = µ + iβ + jτ + kγ + ( )jk
τγ + ijkε
i = 1, 2, . . . , jn ; j = 1, 2, . . . , q; k = 1, 2, . . . , p
ijky : respons pengukuran unit ke-i pada waktu ke-k dalam grup j
µ : rerata total (overall mean)
iβ : efek blok (subjek) ke-i
jτ : efek perlakuan oleh grup j
kγ : efek waktu (pengulangan) ke-k
( )jk
τγ : efek interaksi antara grup j dengan waktu ke-k
ijkε : galat pada unit ke-i dalam grup j pada waktu ke-k
Asumsi-asumsi yang berlaku untuk ANOVA dengan pengukuran
berulang adalah::
1. Asumsi umum untuk Analisis Variansi:
- Asumsi normalitas: Varianbel respons berdistribusi normal
- Homogenitas variansi: Variansi dalam tiap grup perlakuan sama.
2. Khusus untuk Analisis Variansi dengan pengukuran berulang: Respons
pengamatan berulang yang diperoleh dari subjek yang sama tidak
independen satu sama lain. Asumsi khusus terpenting untuk ANOVA
dengan pengukuran adalah asumsi spherisitas, salah satu bentuknya
yaitu asumsi simetri compound dengan karakteristik berikut:
28
� Korelasi antar pengukuran sama. Misalkan dilakukan tiga kali
pengukuran berulang, maka:
12r = 13r = 23r
� Variansi pada tiap pengukuran sama. Misalnya dilakukan tiga
kali pengukuran, maka:
21s = 2
2s = 23s
Jika asumsi simetri compound tak terpenuhi, opsi yang tersedia
adalah:
• Penggunaan faktor koreksi epsilon dengan uji F konservatif
(Huynh-Feld, Greenhouse-Geisser, dan Box).
• Penggunaan Analisis Variansi Multivariat.
Tiga pertanyaan yang perlu dikaji jawabannya pada Analisis Variansi
dengan pengukuran berulang yaitu:
1. Adakah perbedaan efek perlakuan yang bermakna antar grup
penelitian?
2. Adakah perbedaan respons yang bermakna antar waktu pengukuran?
3. Adakah interaksi antara taraf perlakuan dengan waktu pengukuran?
� Rancangan Pengukuran Berulang Faktor
Tunggal
Model untuk rancangan pengukuran berulang dengan faktor tunggal
additif dan efek fixed adalah:
ijy = µ + iβ + jτ + ijε
i = 1, 2, . . . , n ; j = 1, 2, . . . , p
ijy : nilai observasi subjek (individu)
µ : rerata keseluruhan populasi
29
iβ : efek ‘subjek’ (blok)
jτ : efek pengulangan / waktu (perlakuan)
ijε : komponen residual yang merepresentasikan semua sumber variasi
selain perlakuan dan subjek
Dalam model ini tidak ada efek grup (seluruh subjek hanya
merupakan 1 grup), sehingga tidak ada interaksi antara grup dengan waktu
(perlakuan). Penguraian variansi responsnya disajikan dalam bentuk tabel
ANOVA berikut.
Tabel ANOVA untuk Rancangan Pengukuran Berulang
Sumber variasi db Jumlah
Kuadrat
Rerata
Kuadrat F
Antar-subjek n – 1 JKB RKB RKB/RKG
Waktu (perlakuan) p – 1 JKP RKP RKP/RKG
Residual (n – 1)(p – 1) JKG RKG
Total np – 1 JKT
JKB : Jumlah Kuadrat Blok
JKP : Jumlah Kuadrat Perlakuan
JKG : Jumlah Kuadrat Galat
JKT : Jumlah Kuadrat Total
RKB : Rerata Kuadrat Blok; RKB = JKB / (n – 1)
RKP : Rerata Kuadrat Perlakuan; RKP = JKP / (p – 1)
RKG : Rerata Kuadrat Galat; RKG = JKG / [(n – 1)(p – 1)]
Asumsi yang berlaku pada Rancangan Pengukuran Berulang dengan
faktor tunggal ini yaitu:
� Observasi dalam-subjek saling berkorelasi.
� Observasi antar-subjek independen.
� Matriks kovariansi antara observasi dalam-subjek konstan: Asumsi
compound symmetry
30
Dengan Stata, perintahnya adalah:
anova depvar id timevar, repeated(timevar)
depvar : Variabel dependen, respons individual
id : Variabel blok (subjek)
timevar : Variabel waktu (pengulangan)
Perintah Stata ini diberikan pada dataset yang dalam format
memanjang, tidak memerlukan deklarasi dataset logitudinal.
Contoh 3.1:
. use "D:\Analisis Data Longitudinal\Data\rat.dta"
. list
+--------------------------------+
| rat trial1 trial2 trial3 |
|--------------------------------|
1. | 1 10 8.2 5.3 |
2. | 2 12.1 11.2 9.1 |
3. | 3 9.2 8.1 4.6 |
4. | 4 11.6 10.5 8.1 |
5. | 5 8.3 7.6 5.5 |
|--------------------------------|
6. | 6 10.5 9.5 8.1 |
+--------------------------------+
. reshape long trial, i(rat) j(repeat)
(note: j = 1 2 3)
Data wide -> long
------------------------------------------------
Number of obs. 6 -> 18
Number of variables 4 -> 3
j variable (3 values) -> repeat
xij variables:
trial1 trial2 trial3 -> trial
------------------------------------------------
31
. list in 1/10
+----------------------+
| rat repeat trial |
|----------------------|
1. | 1 1 10 |
2. | 1 2 8.2 |
3. | 1 3 5.3 |
4. | 2 1 12.1 |
5. | 2 2 11.2 |
|----------------------|
6. | 2 3 9.1 |
7. | 3 1 9.2 |
8. | 3 2 8.1 |
9. | 3 3 4.6 |
10. | 4 1 11.6 |
|----------------------|
. anova trial rat repeat, repeated(repeat)
Number of obs = 18 R-squared = 0.9655
Root MSE = .514458 Adj R-squared = 0.9413
Source | Partial SS df MS F Prob>F
---------+--------------------------------------------
Model | 74.058335 17 10.579762 39.97 0.0000
|
rat | 35.618338 5 7.1236675 26.92 0.0000
repeat | 38.439997 2 19.219999 72.62 0.0000
|
Residual | 2.6466672 10 .26466672
---------+--------------------------------------------
Total | 76.705002 17 4.5120589
32
Between-subjects error term: rat
Levels: 6 (5 df)
Lowest b.s.e. variable: rat
Repeated variable: repeat
Huynh-Feldt epsilon = 0.6461
Greenhouse-Geisser epsilon = 0.5801
Box's conservative epsilon = 0.5000
------------ Prob > F ------------
Source | df F Regular H-F G-G Box
---------+-----------------------------------------------
repeat | 2 72.62 0.0000 0.0001 0.0001 0.0004
Residual | 10
---------------------------------------------------------
� Rancangan Pengukuran Berulang Dua-
Faktor
Model rancangan Analisis Variansi dengan dua-faktor melibatkan 2
faktor, A dan B, dengan potensi interaksi antara keduanya. Pada model
Analisis Variansi dengan pengukuran berulang ini faktor pertama adalah
grup dan faktor kedua adalah waktu.
ijky = µ + iβ + jτ + kγ + ( )jk
τγ + ijkε
i = 1, 2, . . . , jn ; j = 1, 2, . . . , q; k = 1, 2, . . . , p
ijky : respons pengukuran unit ke-i pada waktu ke-k dalam grup j
µ : rerata total (overall mean)
iβ : efek blok (subjek) ke-i
jτ : efek perlakuan oleh grup j
kγ : efek waktu (pengulangan) ke-k
( )jk
τγ : efek interaksi antara grup j dengan waktu ke-k
33
ijkε : galat pada unit ke-i dalam grup j pada waktu ke-k
Perintah Stata adalah:
anova depvar group / id|group timevar timevar#group, repeated(time)
depvar : Variabel dependen, respons individual
group : Grup perlakuan
id : Variabel blok (subjek)
timevar : Variabel waktu (pengulangan)
Perintah Stata ini diberikan pada dataset yang dalam format
memanjang, tidak memerlukan deklarasi dataset logitudinal.
Contoh 3.2:
. use "D:\Analisis Data Longitudinal\Data\rat1.dta"
. list in 1/5
+------------------------------+
| rat repeat trial treat |
|------------------------------|
1. | 1 1 10 1 |
2. | 1 2 8.2 1 |
3. | 1 3 5.3 1 |
4. | 2 1 12.1 0 |
5. | 2 2 11.2 0 |
|------------------------------|
. anova trial treat / rat|treat repeat repeat#treat, repeated(repeat)
Number of obs = 18 R-squared = 0.9781
Root MSE = .458561 Adj R-squared = 0.9534
34
Source | Partial SS df MS F Prob>F
-------------+-------------------------------------------
Model | 75.02278 9 8.3358644 39.64 0.0000
|
treat | 31.733893 1 31.733893 32.68 0.0046
rat|treat | 3.8844446 4 .97111116
-------------+-------------------------------------------
repeat | 38.439997 2 19.219999 91.40 0.0000
repeat#treat | .96444486 2 .48222243 2.29 0.1632
|
Residual | 1.6822223 8 .21027779
-------------+-------------------------------------------
Total | 76.705002 17 4.5120589
Between-subjects error term: rat|treat
Levels: 6 (4 df)
Lowest b.s.e. variable: rat
Covariance pooled over: treat (for repeated variable)
Repeated variable: repeat
Huynh-Feldt epsilon = 0.9908
Greenhouse-Geisser epsilon = 0.6218
Box's conservative epsilon = 0.5000
---------- Prob > F -----------
Source | df F Regular H-F G-G Box
-------------+-------------------------------------------
repeat | 2 91.40 0.0000 0.0000 0.0002 0.0007
repeat#treat | 2 2.29 0.1632 0.1639 0.1940 0.2045
Residual | 8
---------------------------------------------------------
35
Contoh 3.3:
. use “D:\Analisis Data Longitudinal\Data\repeat1.dta”, clear
. sum y1-y4
Variable | Obs Mean Std. Dev. Min Max
---------+-----------------------------------
y1 | 8 3 1.690309 1 6.5
y2 | 8 3.75 1.101946 2 5.5
y3 | 8 6.5 1.253566 5 8.5
y4 | 8 9.25 1.101946 7.5 11
. tabstat y1-y4, by(trt) stat(n mean sd var)
Summary statistics: N, mean, sd, variance
by categories of: trt
trt | y1 y2 y3 y4
------+----------------------------------------
1 | 4 4 4 4
| 4.25 4.5 7.5 8.5
| 1.5 .8164966 .8164966 .8164966
| 2.25 .6666667 .6666667 .6666667
------+----------------------------------------
2 | 4 4 4 4
| 1.75 3 5.5 10
| .5 .8164966 .5773503 .8164966
| .25 .6666667 .3333333 .6666667
------+----------------------------------------
Total | 8 8 8 8
| 3 3.75 6.5 9.25
| 1.690309 1.101946 1.253566 1.101946
| 2.857143 1.214286 1.571429 1.214286
-----------------------------------------------
Grafik untuk kedelapan rerata
. profileplot y1-y4, by(trt)
Gambar 1 Plot rerata respons pada keempat titik waktu pengukuran
menurut grup perlakuan
Matriks korelasi dan kovariansi respons menurut titik waktu
masing adalah:
. correlate y1-y4
(obs=8)
| y1 y2 y3 y4
--------+------------------------------------
y1 | 1.0000
y2 | 0.8820 1.0000
y3 | 0.9102 0.8273 1.0000
y4 | -0.5752 -0.6471
36
Grafik untuk kedelapan rerata sel di atas adalah:
Gambar 1 Plot rerata respons pada keempat titik waktu pengukuran
menurut grup perlakuan
Matriks korelasi dan kovariansi respons menurut titik waktu masing-
| y1 y2 y3 y4
------------------------------------
y2 | 0.8820 1.0000
y3 | 0.9102 0.8273 1.0000
0.6471 -0.5171 1.0000
37
. correlate y1-y4, cov
(obs=8)
| y1 y2 y3 y4
--------+------------------------------------
y1 | 2.85714
y2 | 1.64286 1.21429
y3 | 1.92857 1.14286 1.57143
y4 | -1.07143 -.785714 -.714286 1.21429
Pada ANOVA dengan pengukuran berulang diasumsikan struktur
kovariansi dalam-subjek bersifat simetrik compound. Matriks kovariansi di
atas tidak memiliki simetri compound. Selanjutnya data akan diubah menjadi
bentuk memanjang (long form).
. reshape long y, i(id) j(time)
(note: j = 1 2 3 4)
Data wide -> long
------------------------------------------
Number of obs. 8 -> 32
Number of variables 6 -> 4
j variable (4 values) -> time
xij variables:
y1 y2 ... y4 -> y
------------------------------------------
. list in 1/5
+-----------------------+
| id time trt y |
|-----------------------|
1. | 1 1 1 3.5 |
2. | 1 2 1 4.5 |
3. | 1 3 1 7.5 |
4. | 1 4 1 7.5 |
5. | 2 1 1 6.5 |
+-----------------------+
38
Rancangan ini dinamakan juga Analisis Variansi Faktorial Split-
plot. Pada Stata dengan format data memanjang, perlu dispesifikasikan suku
galat untuk efek antar-subjek maupun dalam-subjek. Syaratnya yaitu ada satu
suku galat untuk seluruh efek antar-subjek, suku galat terpisah untuk tiap
faktor dalam subjek, dan interaksi antar faktor dalam-subjek. Pada model ini
juga ada 2 suku galat tersebut. Efek antar-subjek adalah treatment (trt) dan
suku galatnya tersarang dalam treatment (id | trt). Faktor waktu dalam-
subjek adalah time. Suku galatnya adalah galat residual untuk model.
Pada ANOVA dengan pengukuran berulang diasumsikan struktur
kovariansi bersifat simetrik compound, yang dikenal juga sebagai
exchangeable. Dengan simetri compound diasumsikan variansi sama pada
tiap titik waktu dan kovariansi juga sama satu dengan lainnya. Jika struktur
kovariansi dalam-subjek tidak memiliki simetri compound, maka nilai p yang
diperoleh pada ANOVA dengan pengukuran berulang tidak merefleksikan
probabilitas yang “benar” secara akurat. Pada Stata ketiadaan simetri
compound dikoreksi dengan memasukkan opsi repeated() ke dalam
perintah anova yang akan menghasilkan perhitungan nilai p dengan uji F
konservatif.
. anova y trt / id|trt time trt#time, repeated(time)
Number of obs = 32 R-squared = 0.9624
Root MSE = .712 Adj R-squared = 0.9352
Source | Partial SS df MS F Prob>F
---------+--------------------------------------------
Model | 233.375 13 17.951923 35.41 0.0000
|
trt | 10.125 1 10.125 6.48 0.0438
id|trt | 9.375 6 1.5625
---------+--------------------------------------------
time | 194.5 3 64.833333 127.89 0.0000
trt#time | 19.375 3 6.4583333 12.74 0.0001
|
39
Residual | 9.125 18 .50694444
---------+--------------------------------------------
Total | 242.5 31 7.8225806
Between-subjects error term: id|trt
Levels: 8 (6 df)
Lowest b.s.e. variable: id
Covariance pooled over: trt (for repeated variable)
Repeated variable: time
Huynh-Feldt epsilon = 0.9432
Greenhouse-Geisser epsilon = 0.5841
Box's conservative epsilon = 0.3333
------------ Prob > F ------------
Source | df F Regular H-F G-G Box
---------+----------------------------------------
time | 3 127.89 0.0000 0.0000 0.0000 0.0000
trt#time | 3 12.74 0.0001 0.0002 0.0019 0.0118
Residual | 18
--------------------------------------------------
Efek-efek utama yaitu treatment dan time keduanya bermakna,
begitu pula interaksi antara keduanya. Pada keluaran tercantum hasil ketiga
uji F konservatif, yaitu Huynh-Feldt, Greenhouse-Geisser, dan Box.
Ketiganya menghasilkan nilai p yang benar walaupun asumsi simetri
compound tidak terpenuhi. Disimpulkan bahwa baik treatment maupun
time, begitu pula interaksi antara keduanya memiliki efek yang bermakna
terhadap variabel respons.
Untuk mengkaji efek treatment pada tiap titik waktu digunakan
perintah contrast.
40
. contrast time@trt, effect
Contrasts of marginal linear predictions
Margins : asbalanced
-----------------------------------------------
| df F P>F
------------+----------------------------------
time@trt |
1 | 3 35.96 0.0000
2 | 3 104.67 0.0000
Joint | 6 70.32 0.0000
|
Denominator | 18
-----------------------------------------------
---------------+-----------------------------------------------------
| Contrast Std. Err. t P>|t| [95% Conf. Interval]
---------------------------------------------------------------------
time@trt |
(2 vs base) 1 | .25 .5034602 0.50 0.626 -.8077307 1.307731
(2 vs base) 2 | 1.25 .5034602 2.48 0.023 .1922693 2.307731
(3 vs base) 1 | 3.25 .5034602 6.46 0.000 2.192269 4.307731
(3 vs base) 2 | 3.75 .5034602 7.45 0.000 2.692269 4.807731
(4 vs base) 1 | 4.25 .5034602 8.44 0.000 3.192269 5.307731
(4 vs base) 2 | 8.25 .5034602 16.39 0.000 7.192269 9.307731
---------------------------------------------------------------------
41
BAB 4
MANOVA DENGAN
PENGUKURAN BERULANG
� Telaah Teoretik MANOVA
Rancangan analisis variansi multivariat (MANOVA) 1-arah dengan 3
variabel dependen dapat digambarkan sebagai berikut:
Pada MANOVA secara umum terdapat satu atau lebih prediktor
kategorik dengan lebih daripada satu variabel respons yang galatnya saling
berkorelasi. Himpunan variabel respons ini membentuk matriks variabel
dependen yang diasumsikan berdistribusi normal multivariat.
MANOVA dapat digunakan untuk rancangan studi balans (jumlah
anggota sampel tiap kategori prediktor sama banyak) ataupun rancangan
studi tak-balans.
Keluaran perintah manova dengan Stata memuat 4 statistik penguji
multivariat untuk setiap variabel prediktor, yaitu:
a. Wilks’ lambda: Proporsi variansi respons yang tidak ‘dijelaskan’
oleh salah satu prediktor.
b. Pillai’s trace: Jumlah rasio setiap eigenvalue dengan 1 + akar
karakteristik.
42
c. Lawley-Hotelling trace: Jumlah akar perkalian matriks jumlah
kuadrat model dengan matriks jumlah kuadrat galat.
d. Roy’s largest root: Akar terbesar perkalian matriks jumlah kuadrat
model dengan matriks jumlah kuadrat galat.
� Asumsi pada Analisis Variansi Multivariat
Pada Analisis Variansi univariat dengan pengukuran berulang
diperlukan pemenuhan sejumlah asumsi, antara lain asumsi normalitas dan
homogenitas variansi. Selain itu, asumsi yang juga sangat penting adalah
asumsi spherisitas, antara lain dalam bentuk asumsi simetri compound.
Pada Analisis Variansi multivariat sebagian asumsi tersebut tetap
berlaku bahkan dalam bentuk perluasannya, yaitu:
� Normalitas multivariat: Tiap variabel dependen masing-masing
berdistribusi normal dan secara bersama berdistribusi normal multivariat.
� Homogenitas matriks kovariansi: Variansi setiap variabel dependen
dan kovariansi antar tiap pasangan variabel dependen homogen.
Asumsi spherisitas dan simetri compound tak berlaku pada Analisis
Variansi multivariat. Dalam kenyataannya asumsi demikian memang
seringkali tak terpenuhi pada data dengan lebih daripada 2 pengukuran
berulang. Walaupun didapat uji spherisitas termasuk untuk asumsi simetri
compound, antara lain dengan uji Mauchly, uji demikian sangat sensitif
terhadap penyimpangan berbagai asumsi lainnya, sehingga umumnya tidak
terlalu dianjurkan. Keuntungan analisis multivariat di sini ialah bahwa
asumsi spherisitas termasuk simetri compound tidak diperlukan pada
MANOVA dengan pengukuran berulang.
� Analisis Variansi Multivariat dengan Stata
Walaupun teknik MANOVA telah mulai dikembangkan sejak 1930-
an dan 1940-an, penerapannya secara luas dalam bidang penelitian baru
terutama terjadi pada era komputer. Perintah Stata untuk MANOVA dengan
pengukuran berulang adalah:
43
� Uji asumsi normalitas multivariat:
mvtest normality varlist [if] [in] [, options]
� Uji asumsi homogenitas matriks kovariansi:
mvtest covariances varlist [if] [in] [, options]
� Uji hipotesis 0H : 1τ =
2τ = . . . = k
τ = 0
manova depvarlist = termlist [if] [in] [, options]
termlist adalah daftar variabel-faktor yang memenuhi syarat-syarat
berikut:
• Variabel diasumsikan kategorik.
• Simbol | menyatakan interaksi.
• Simbol / sesudah suatu suku menyatakan suku sesudahnya adalah
galat untuk suku sebelumnya.
� Uji hipotesis 0H : 1µ =
2µ = . . . = k
µ
manovatest term [, ytransform(matname)]
term adalah term dari termlist pada perintah manova sebelumnya.
Perintah manova dan manovatest tidak perlu didahului dengan
deklarasi dataset longitudinal dan dilakukan terhadap dataset dengan format
melebar.
Contoh 4.1:
Di sini diperlihatkan pelaksanaan uji normalitas multivariat dan uji
homogenitas matriks kovariansi.
. use “D:\Analisis Data Longitudinal\Data\manova3.dta”, clear
Ada 3 grup pada dataset ini. Grup 1 dinamakan grup treatment,
grup 2 dinamakan control_1, dan grup 3 adalah control_2. Untuk tiap
grup, variabel respons adalah useful, difficulty, dan importance.
44
. summarize useful difficulty importance
Variable | Obs Mean Std. Dev. Min Max
-----------+------------------------------------------
useful | 33 16.3303 3.292461 11.9 24.3
difficulty | 33 5.715152 2.017598 2.4 10.25
importance | 33 6.475758 3.985131 .2 18.8
. tabulate group, nolabel
group | Freq. Percent Cum.
-------+----------------------------
1 | 11 33.33 33.33
2 | 11 33.33 66.67
3 | 11 33.33 100.00
-------+----------------------------
Total | 33 100.00
. tabstat difficulty useful importance, by(group)
Summary statistics: mean
by categories of: group
group | diffic~y useful import~e
----------+------------------------------
treatment | 6.190909 18.11818 8.681818
control_1 | 5.581818 15.52727 5.109091
control_2 | 5.372727 15.34545 5.636364
----------+------------------------------
Total | 5.715152 16.3303 6.475758
-----------------------------------------
45
. correlate useful difficulty importance
(obs=33)
| useful diffic~y import~e
-------------+---------------------------
useful | 1.0000
difficulty | 0.0978 1.0000
importance | -0.3411 0.1978 1.0000
. mvtest normality difficult useful importance
Test for multivariate normality
Doornik-Hansen chi2(6) = 13.371 Prob>chi2 = 0.0375
Tampak bahwa data tidak memenuhi asumsi normalitas multivariat.
. mvtest covariance difficult useful importance, by(group)
Test of equality of covariance matrices across 3 samples
Modified LR chi2 = 12.02242
Box F(12,4361.5) = 0.85 Prob > F = 0.5938
Box chi2(12) = 10.29 Prob > chi2 = 0.5909
Disimpulkan bahwa matriks kovariansi homogen.
Contoh 4.2:
. use “D:\Analisis Data Longitudinal\Data\manova_nobetween.dta”,
clear
. list
+---------------------------------+
| subject test1 test2 test3 |
|---------------------------------|
1. | 1 68 69 95 |
2. | 2 50 74 69 |
46
3. | 3 72 89 71 |
4. | 4 61 64 61 |
5. | 5 60 71 90 |
+---------------------------------+
. generate mycons = 1
. manova test1 test2 test3 = mycons, noconstant
Number of obs = 5
W = Wilks' lambda L = Lawley-Hotelling trace
P = Pillai's trace R = Roy's largest root
Source | Statistic df F(df1, df2) = F Prob>F
---------+----------------------------------------------
mycons | W 0.0076 1 3.0 2.0 86.91 0.0114 e
| P 0.9924 3.0 2.0 86.91 0.0114 e
| L 130.3722 3.0 2.0 86.91 0.0114 e
| R 130.3722 3.0 2.0 86.91 0.0114 e
|----------------------------------------------
Residual | 4
---------+----------------------------------------------
Total | 5
--------------------------------------------------------
e = exact, a = approximate, u = upper bound on F
Perintah manova menguji hipotesis nol bahwa rerata semua variabel
dependen sama dengan nol. Tampak bahwa hasil pengujian dengan keempat
statistik penguji semuanya menolak hipotesis nol.
. mat in c = (1,0,-1\0,1,-1)
47
. manovatest mycons, ytransform(c)
Transformations of the dependent variables
(1) test1 - test3
(2) test2 - test3
W = Wilks' lambda L = Lawley-Hotelling trace
P = Pillai's trace R = Roy's largest root
Source | Statistic df F(df1, df2) = F Prob>F
---------+----------------------------------------------
mycons | W 0.2352 1 2.0 3.0 4.88 0.1141 e
| P 0.7648 2.0 3.0 4.88 0.1141 e
| L 3.2509 2.0 3.0 4.88 0.1141 e
| R 3.2509 2.0 3.0 4.88 0.1141 e
|----------------------------------------------
Residual | 4
--------------------------------------------------------
e = exact, a = approximate, u = upper bound on F
Perintah manovatest menguji hipotesis nol bahwa rerata semua
variabel dependen sama. Hasil tes menunjukkan bahwa hipotesis nol bahwa
rerata semua variabel dependen sama tidak ditolak. Berikut sebagai
perbandingan akan diperlihatkan hasil uji multivariat MANOVA di atas
dengan uji univariat ANOVA, format data perlu terlebih dahulu diubah
menjadi memanjang.
. reshape long test, i(subject) j(testnum)
(note: j = 1 2 3)
Data wide -> long
------------------------------------------------------
Number of obs. 5 -> 15
Number of variables 5 -> 4
48
j variable (3 values) -> testnum
xij variables:
test1 test2 test3 -> test
-------------------------------------------------------
. anova test subject testnum, repeated(testnum)
Number of obs = 15 R-squared = 0.5938
Root MSE = 10.3231 Adj R-squared = 0.2892
Source | Partial SS df MS F Prob>F
---------+--------------------------------------------
Model | 1246.4 6 207.73333 1.95 0.1878
|
subject | 638.26667 4 159.56667 1.50 0.2901
testnum | 608.13333 2 304.06667 2.85 0.1160
|
Residual | 852.53333 8 106.56667
---------+--------------------------------------------
Total | 2098.9333 14 149.92381
Between-subjects error term: subject
Levels: 5 (4 df)
Lowest b.s.e. variable: subject
Repeated variable: testnum
Huynh-Feldt epsilon = 0.9760
Greenhouse-Geisser epsilon = 0.7054
Box's conservative epsilon = 0.5000
----------- Prob > F ----------
Source | df F Regular H-F G-G Box
---------+-------------------------------------------
testnum | 2 2.85 0.1160 0.1181 0.1435 0.1665
Residual | 8
-----------------------------------------------------
49
. Tampak bahwa dengan Repeated Measures ANOVA diperoleh hasil
yang praktis sama, walaupun dengan nilai p yang sedikit berbeda.
Contoh 4.3:
Pada Contoh 4.3 ini akan diperlihatkan contoh dengan rancangan
dalam-subjek, yang dikenal juga sebagai rancangan blok randomisasi.
Untuk tiap subjek dilakukan 4 kali pengamatan, yaitu y1. y2, y3, dan y4.
. use "D:\Analisis Data Longitudinal\Data\manova1.dta"
Akan dibuat kontras antar variabel dependen dengan menggunakan
matriks ycomp sebagai berikut.
. matrix input ycomp = (1 0 0 -1\0 1 0 -1\0 0 1 -1)
. mat list ycomp
ycomp[3,4]
c1 c2 c3 c4
r1 1 0 0 -1
r2 0 1 0 -1
r3 0 0 1 -1
. manovatest con, ytrans(ycomp)
Transformations of the dependent variables
(1) y1 - y4
(2) y2 - y4
(3) y3 - y4
W = Wilks' lambda L = Lawley-Hotelling trace
P = Pillai's trace R = Roy's largest root
50
Source | Statistic df F(df1, df2) = F Prob>F
---------+----------------------------------------------
con | W 0.2458 1 3.0 5.0 5.11 0.0554 e
| P 0.7542 3.0 5.0 5.11 0.0554 e
| L 3.0682 3.0 5.0 5.11 0.0554 e
| R 3.0682 3.0 5.0 5.11 0.0554 e
|----------------------------------------------
Residual | 7
--------------------------------------------------------
e = exact, a = approximate, u = upper bound on F
Tampak bahwa perbedaan antar variabel dependen tidak bermakna
pada tingkat signifikansi 0.05.
Contoh 4.4:
Dataset pada Contoh 4.4 ini juga menggunakan rancangan blok
randomisasi.
. use “D:\Analisis Data Longitudinal\Data\sorghum.dta”, clear
((Leaf area index on 4 sorghum varieties, Milliken & Johnson
(2009)))
. manova time1 time2 time3 time4 time5 = variety block
Number of obs = 20
W = Wilks' lambda L = Lawley-Hotelling trace
P = Pillai's trace R = Roy's largest root
Source | Statistic df F(df1, df2) = F Prob>F
---------+-------------------------------------------------
Model | W 0.0001 7 35.0 36.1 9.50 0.0000 a
| P 3.3890 35.0 60.0 3.61 0.0000 a
| L 126.2712 35.0 32.0 23.09 0.0000 a
| R 109.7360 7.0 12.0 188.12 0.0000 u
51
|-------------------------------------------------
Residual | 12
---------+-------------------------------------------------
variety | W 0.0011 3 15.0 22.5 16.11 0.0000 a
| P 2.5031 15.0 30.0 10.08 0.0000 a
| L 48.3550 15.0 20.0 21.49 0.0000 a
| R 40.0068 5.0 10.0 80.01 0.0000 u
|-------------------------------------------------
block | W 0.0047 4 20.0 27.5 5.55 0.0000 a
| P 1.7518 20.0 44.0 1.71 0.0681 a
| L 77.9162 20.0 26.0 25.32 0.0000 a
| R 76.4899 5.0 11.0 168.28 0.0000 u
|-------------------------------------------------
Residual | 12
---------+-------------------------------------------------
Total | 19
-----------------------------------------------------------
e = exact, a = approximate, u = upper bound on F
. matrix m1 = J(1,5,1)
. matrix inp m2 = (1,-1,0,0,0 \ 1,0,-1,0,0 \ 1,0,0,-1,0 \ 1,0,0,0,-1)
. manovatest, showorder
Order of columns in the design matrix
1: (variety==1)
2: (variety==2)
3: (variety==3)
4: (variety==4)
5: (block==1)
6: (block==2)
7: (block==3)
8: (block==4)
9: (block==5)
10: _cons
52
. matrix inp c1 = (1 −1 0 0 0 0 0 0 0 0\1 0 −1 0 0 0 0 0 0 0\1 0 0 −1 0 0 0
0 0 0)
. matrix inp c2 = (.25 .25 .25 .25 .2 .2 .2 .2 .2 1)
. manovatest, test(c1) ytransform(m1)
Transformation of the dependent variables
(1) time1 + time2 + time3 + time4 + time5
Test constraints
(1) 1.variety - 2.variety = 0
(2) 1.variety - 3.variety = 0
(3) 1.variety - 4.variety = 0
W = Wilks' lambda L = Lawley-Hotelling trace
P = Pillai's trace R = Roy's largest root
Source | Statistic df F(df1, df2) = F Prob>F
-----------+-----------------------------------------------
manovatest | W 0.0435 3 3.0 12.0 88.05 0.0000 e
| P 0.9565 3.0 12.0 88.05 0.0000 e
| L 22.0133 3.0 12.0 88.05 0.0000 e
| R 22.0133 3.0 12.0 88.05 0.0000 e
|-----------------------------------------------
Residual | 12
-----------------------------------------------------------
e = exact, a = approximate, u = upper bound on F
. manovatest, test(c2) ytransform(m2)
Transformations of the dependent variables
(1) time1 - time2
(2) time1 - time3
(3) time1 - time4
(4) time1 - time5
53
Test constraint
(1) .25*1.variety + .25*2.variety + .25*3.variety +
.25*4.variety + .2*1.block + .2*2.block + .2*3.block +
.2*4.block + .2*5.block + _cons = 0
W = Wilks' lambda L = Lawley-Hotelling trace
P = Pillai's trace R = Roy's largest root
Source | Statistic df F(df1, df2) = F Prob>F
-----------+-------------------------------------------------
manovatest | W 0.0050 1 4.0 9.0 445.62 0.0000 e
| P 0.9950 4.0 9.0 445.62 0.0000 e
| L 198.0544 4.0 9.0 445.62 0.0000 e
| R 198.0544 4.0 9.0 445.62 0.0000 e
|-------------------------------------------------
Residual | 12
-------------------------------------------------------------
e = exact, a = approximate, u = upper bound on F
. manovatest, test(c1) ytransform(m2)
Transformations of the dependent variables
(1) time1 - time2
(2) time1 - time3
(3) time1 - time4
(4) time1 - time5
Test constraints
(1) 1.variety - 2.variety = 0
(2) 1.variety - 3.variety = 0
(3) 1.variety - 4.variety = 0
W = Wilks' lambda L = Lawley-Hotelling trace
P = Pillai's trace R = Roy's largest root
54
Source | Statistic df F(df1, df2) = F Prob>F
-----------+------------------------------------------------
manovatest | W 0.0143 3 12.0 24.1 8.00 0.0000 a
| P 2.1463 12.0 33.0 6.91 0.0000 a
| L 12.1760 12.0 23.0 7.78 0.0000 a
| R 8.7953 4.0 11.0 24.19 0.0000 u
|------------------------------------------------
Residual | 12
------------------------------------------------------------
e = exact, a = approximate, u = upper bound on F
Contoh 4.5:
Di sini diperlihatkan contoh rancangan dalam-subjek dengan 2 level,
yang dapat digolongkan ke dalam rancangan faktorial split-plot.
. use "D:\Analisis Data Longitudinal\Data\manova2.dta"
Berikut dilakukan uji MANOVA terhadap faktor antar-subjek.
. manova y1 y2 y3 y4 = a
Number of obs = 8
W = Wilks' lambda L = Lawley-Hotelling trace
P = Pillai's trace R = Roy's largest root
Source | Statistic df F(df1, df2) = F Prob>F
---------+----------------------------------------------
a | W 0.1374 1 4.0 3.0 4.71 0.1169 e
| P 0.8626 4.0 3.0 4.71 0.1169 e
| L 6.2764 4.0 3.0 4.71 0.1169 e
| R 6.2764 4.0 3.0 4.71 0.1169 e
|----------------------------------------------
Residual | 6
---------+----------------------------------------------
Total | 7
--------------------------------------------------------
55
e = exact, a = approximate, u = upper bound on F
Faktor antar-subjek tidak bermakna secara statistik. Selanjutnya
dilakukan pengkodean kontras antar variabel dependen dengan matriks ymat
dan dilakukan uji interaksi a*y (antar-subjek*dalam-subjek).
. mat in ymat = (1 0 0 -1\0 1 0 -1\0 0 1 -1)
. mat list ymat
ymat[3,4]
c1 c2 c3 c4
r1 1 0 0 -1
r2 0 1 0 -1
r3 0 0 1 -1
. manovatest a, ytransform(ymat)
Transformations of the dependent variables
(1) y1 - y4
(2) y2 - y4
(3) y3 - y4
W = Wilks' lambda L = Lawley-Hotelling trace
P = Pillai's trace R = Roy's largest root
Source | Statistic df F(df1, df2) = F Prob>F
---------+----------------------------------------------
a | W 0.1443 1 3.0 4.0 7.91 0.0371 e
| P 0.8557 3.0 4.0 7.91 0.0371 e
| L 5.9296 3.0 4.0 7.91 0.0371 e
| R 5.9296 3.0 4.0 7.91 0.0371 e
|----------------------------------------------
Residual | 6
--------------------------------------------------------
e = exact, a = approximate, u = upper bound on F
56
Berikut akan diuji efek variabel dalam-subjek dengan menggunakan
matriks xmat untuk membentuk kontras bagi variabel prediktor.
. mat in xmat = (1 0.5 0.5)
. mat list xmat
xmat[1,3]
c1 c2 c3
r1 1 .5 .5
. manovatest, test(xmat) ytransform(ymat)
Transformations of the dependent variables
(1) y1 - y4
(2) y2 - y4
(3) y3 - y4
Test constraint
(1) 1.a + .5*2.a + .5*_cons = 0
W = Wilks' lambda L = Lawley-Hotelling trace
P = Pillai's trace R = Roy's largest root
Source | Statistic df F(df1, df2) = F Prob>F
-----------+----------------------------------------------
manovatest | W 0.0392 1 3.0 4.0 32.66 0.0028 e
| P 0.9608 3.0 4.0 32.66 0.0028 e
| L 24.4930 3.0 4.0 32.66 0.0028 e
| R 24.4930 3.0 4.0 32.66 0.0028 e
|----------------------------------------------
Residual | 6
----------------------------------------------------------
e = exact, a = approximate, u = upper bound on F
Uji faktor dalam-subjek juga bermakna, walaupun hal ini diakibatkan
oleh adanya interaksi.
57
Contoh 4.6:
Lihat kembali dataset pada Contoh 4.1. Setelah uji asumsi pada
Contoh 4.1, uji MANOVA akan dilanjutkan di sini.
. use “D:\Analisis Data Longitudinal\Data\manova3.dta”, clear
. manova difficulty useful importance = group
Number of obs = 33
W = Wilks’ lambda L = Lawley-Hotelling trace
P = Pillai’s trace R = Roy’s largest root
Source | Statistic df F(df1, df2) = F Prob>F
---------+-----------------------------------------------
group | W 0.5258 2 6.0 56.0 3.54 0.0049 e
| P 0.4767 6.0 58.0 3.02 0.0122 a
| L 0.8972 6.0 54.0 4.04 0.0021 a
| R 0.8920 3.0 29.0 8.62 0.0003 u
|-----------------------------------------------
Residual | 30
---------+-----------------------------------------------
Total | 32
e = exact, a = approximate, u = upper bound on F
Untuk menilai output MANOVA, diperlukan matriks eigenvalues
jumlah kuadrat model dan jumlah kuadrat galat berikut.
. matrix list e(eigvals_m)
e(eigvals_m)[1,2]
c1 c2
r1 .8919879 .00524207
Tampak eigenvalues hasil perkalian jumlah kuadrat model dengan
jumlah kuadrat galat. Hanya ada 2 nilai eigenvalues yang ditampilkan karena
eigenvalue ketiga sama dengan nol.
58
Perhitungan keempat statistik penguji multivariat untuk group
adalah:
� Wilk’s lambda:
= 1
1i iλ+∑
= 1
1 0.8919879+ +
1
1 0.00524207+ +
1
1 0+
= 0.5258
� Pillai’s trace:
= 0.8919879
1 0.8919879+ +
0.00524207
1 0.00524207+ +
0
1 0+
= 0.4767
� Lawley-Hotelling trace:
= 0.8919879 + 0.00524207 + 0
= 0.8972
� Roy’s largest root:
= 0.8920
Tampak bahwa untuk keempat statistik penguji multivariat tersebut,
prediktor group bermakna secara statistik.
. manovatest, showorder
Order of columns in the design matrix
1: (group==1)
2: (group==2)
3: (group==3)
4: _cons
. matrix c1=(2,-1,-1,0)
. manovatest, test(c1)
59
Test constraint
(1) 2*1.group - 2.group - 3.group = 0
W = Wilks' lambda L = Lawley-Hotelling trace
P = Pillai's trace R = Roy's largest root
Source | Statistic df F(df1, df2) = F Prob>F
-----------+-----------------------------------------------
manovatest | W 0.5290 1 3.0 28.0 8.31 0.0004 e
| P 0.4710 3.0 28.0 8.31 0.0004 e
| L 0.8904 3.0 28.0 8.31 0.0004 e
| R 0.8904 3.0 28.0 8.31 0.0004 e
|-----------------------------------------------
Residual | 30
-----------------------------------------------------------
e = exact, a = approximate, u = upper bound on F
Grup 1 tampak berbeda secara bermakna dengan rerata grup 2 dan
grup 3.
. matrix c2=(0,1,-1,0)
. manovatest, test(c2)
Test constraint
(1) 2.group - 3.group = 0
W = Wilks' lambda L = Lawley-Hotelling trace
P = Pillai's trace R = Roy's largest root
Source | Statistic df F(df1, df2) = F Prob>F
-----------+-----------------------------------------------
manovatest | W 0.9932 1 3.0 28.0 0.06 0.9785 e
| P 0.0068 3.0 28.0 0.06 0.9785 e
60
| L 0.0068 3.0 28.0 0.06 0.9785 e
| R 0.0068 3.0 28.0 0.06 0.9785 e
|-----------------------------------------------
Residual | 30
-----------------------------------------------------------
e = exact, a = approximate, u = upper bound on F
Hasil di sini menunjukkan bahwa grup kontrol 1 (grup 2) tidak
berbeda secara bermakna dengan grup kontrol 2 (grup 3). Untuk
memprediksi nilai-nilai suaian (adjusted values) bagi tiap grup digunakan
perintah margins.
. margins group, predict(equation(difficulty))
Adjusted predictions Number of obs = 33
Expression : Linear prediction, predict(equation(difficulty))
---------------------------------------------------------------
| Delta-method
| Margin Std. Err. t P>|t| [95% Conf. Interval]
-----------+---------------------------------------------------
group |
treatment | 6.190909 .6186184 10.01 0.000 4.927522 7.454296
control_1 | 5.581818 .6186184 9.02 0.000 4.318431 6.845206
control_2 | 5.372727 .6186184 8.69 0.000 4.10934 6.636115
---------------------------------------------------------------
. margins group, predict(equation(useful))
Adjusted predictions Number of obs = 33
Expression : Linear prediction, predict(equation(useful))
61
---------------------------------------------------------------
| Delta-method
| Margin Std. Err. t P>|t| [95% Conf. Interval]
-----------+---------------------------------------------------
group |
treatment | 18.11818 .9438243 19.20 0.000 16.19064 20.04573
control_1 | 15.52727 .9438243 16.45 0.000 13.59973 17.45482
control_2 | 15.34545 .9438243 16.26 0.000 13.41791 17.273
---------------------------------------------------------------
. margins group, predict(equation(importance))
Adjusted predictions Number of obs = 33
Expression : Linear prediction, predict(equation(importance))
---------------------------------------------------------------
| Delta-method
| Margin Std. Err. t P>|t| [95% Conf. Interval]
-----------+---------------------------------------------------
group |
treatment | 8.681818 1.136676 7.64 0.000 6.360415 11.00322
control_1 | 5.109091 1.136676 4.49 0.000 2.787688 7.430494
control_2 | 5.636364 1.136676 4.96 0.000 3.314961 7.957766
---------------------------------------------------------------
63
BAB 5
ANALISIS GENERALIZED
ESTIMATING EQUATIONS
� Pengertian GEE
Generalized Estimating Equations (GEE) adalah himpunan prosedur
inferensi statistik bagi data yang berkorelasi, terutama data longitudinal,
yang tidak memenuhi asumsi Generalized Linear Models tentang normalitas
dan independensi. GEE merupakan pengembangan GLM yang khusus
diperuntukkan untuk data berkorelasi.
Model yang digunakan adalah model sederhana untuk korelasi
dalam-subjek dengan matriks korelasi kerja (working correlation matrix)
yang mengakomodasikan korelasi tersebut. Dengan prosedur iteratif yang
menggunakan metode quasi-likelihood diperoleh estimasi parameter rerata
yang konsisten, walaupun spesifikasi struktur kovariansi yang digunakan
tidak benar.
� Struktur Korelasi Kerja
Hasil pengukuran berulang dalam satu subjek pada data longitudinal
saling berkorelasi dan tidak independen satu sama lain. Untuk
mengkoreksinya, pada GEE secara apriori diasumsikan struktur korelasi
‘kerja’ tertentu bagi variabel respons Y.
Beberapa struktur korelasi kerja (working correlations) yang dapat
dipilih antara lain yaitu:
� Struktur independen (independent structure)
Korelasi antar pengukuran berturutan diasumsikan sama dengan nol.
Struktur korelasinya adalah:
64
1t 2t 3t 4t 5t 6t
1t − 0 0 0 0 0
2t 0 − 0 0 0 0
3t 0 0 − 0 0 0
4t 0 0 0 − 0 0
5t 0 0 0 0 − 0
6t 0 0 0 0 0 −
� Struktur pertukaran (exchangeable structure)
Seluruh korelasi antara 2 pengukuran diasumsikan sama besar, tak
tergantung besar jarak waktu yang memisahkannya.
1t 2t 3t 4t 5t 6t
1t − ρ ρ ρ ρ ρ
2t ρ − ρ ρ ρ ρ
3t ρ ρ − ρ ρ ρ
4t ρ ρ ρ − ρ ρ
5t ρ ρ ρ ρ − ρ
6t ρ ρ ρ ρ ρ −
� Struktur m-dependen stasioner (stationary m-dependent structure)
Korelasi yang terpisah t pengukuran sama besar, korelasi yang terpisah
t + 1 sama besar, dan seterusnya untuk t = 1 sampai dengan t = m.
Korelasi yang terpisah lebih daripada m pengukuran diasumsikan sama
dengan nol.
65
1t 2t 3t 4t 5t 6t
1t − 1ρ 2ρ 0 0 0
2t 1ρ − 1ρ 2ρ 0 0
3t 2ρ 1ρ − 1ρ 2ρ 0
4t 0 2ρ 1ρ − 1ρ 2ρ
5t 0 0 2ρ 1ρ − 1ρ
6t 0 0 0 2ρ 1ρ −
� Struktur korelasi autoregresi (autoregressive correlation structure)
Korelasi yang terpisah 1 pengukuran diasumsikan sama dengan ρ ,
yang terpisah 2 pengukuran diasumsikan sama dengan 2ρ , yang
terpisah t pengukuran diasumsikan sama dengan tρ .
1t 2t 3t 4t 5t 6t
1t − 1ρ 2
ρ 3ρ 4
ρ 5ρ
2t 1ρ − 1
ρ 2ρ 3
ρ 4ρ
3t 2ρ 1
ρ − 1ρ 2
ρ 3ρ
4t 3ρ 2
ρ 1ρ − 1
ρ 2ρ
5t 4ρ 3
ρ 2ρ 1
ρ − 1ρ
6t 5ρ 4
ρ 3ρ 2
ρ 1ρ −
� Struktur korelasi tak-terstruktur (unstructured correlation
structure)
Pada struktur ini, seluruh korelasi diasumsikan berbeda:
1t 2t 3t 4t 5t 6t
1t − 1ρ 2ρ 3ρ 4ρ 5ρ
2t 1ρ − 6ρ 7ρ 8ρ 9ρ
3t 2ρ 6ρ − 10ρ 11ρ 12ρ
66
4t 3ρ 7ρ 10ρ − 13ρ 14ρ
5t 4ρ 8ρ 11ρ 13ρ − 15ρ
6t 5ρ 9ρ 12ρ 14ρ 15ρ −
� Analisis GEE dengan Stata
Estimasi model GEE dilakukan setelah dataset dideklarasikan sebagai
dataset longitudinal. Perintah untuk estimasi model GEE adalah:
xtgee depvar [indepvars] [if] [in] [, options]
depvar : Respons / variabel dependen
indepvars : Prediktor / variabel independen
Beberapa opsi:
family(family) : Distribusi respons, default-nya adalah
family(gaussian)
link(link) : Fungsi link, default-nya adalah fungsi link yang sesuai
dengan family-nya.
corr(correlation) : Struktur korelasi dalam-grup, default-nya adalah
corr(exchangeable)
Daftar distribusi respons dan fungsi link diperlihatkan pada tabel 6.1
berikut.
Tabel 6.1 Daftar Family dan Link untuk beberapa model regresi
No Model regresi Family Link Sintaks Stata
1 Regresi Linear gaussian identity regress
2 Regresi Logistik bernoulli logit logit
3 Regresi Poisson poisson log poisson
4 Regresi Binomial
Negatif nbinomial *) log *) nbreg
67
Opsi struktur korelasi yang tersedia pada Stata adalah:
exchangeable : pertukaran (exchangeable)
independent : independen
unstructured : tak-terstruktur
ar # : auto-regresi derajat #
stationary # : stasioner derajat #
- Seluruh struktur korelasi dapat digunakan untuk rancangan balans
maupun tak-balans.
- Seluruh struktur korelasi dapat digunakan rancangan equal spacing
(jarak waktu pengukuran sama). Kecuali struktur korelasi ar # dan
stationary #, seluruh struktur korelasi lainnya dapat digunakan untuk
unequal spacing (jarak waktu pengukuran tak sama).
Pasangan struktur korelasi yang sesuai untuk tiap family dan link
diperlihatkan pada tabel berikut:
family link corr
gaussian identity independent
gaussian identity exchangeable
gaussian identity
binomial logit independent
binomial logit exchangeable
nbinomial log independent
poisson log independent
poisson log exchangeable
Contoh 5.1:
. use "D:\Analisis Data Longitudinal\Data\union.dta", clear
(NLS Women 14-24 in 1968)
68
. xtset id year
panel variable: idcode (unbalanced)
time variable: year, 70 to 88, but with gaps
delta: 1 unit
. xtgee union age grade not_smsa south, family(binomial) link(logit)
Iteration 1: tolerance = .07327489
Iteration 2: tolerance = .00519852
Iteration 3: tolerance = .00024049
Iteration 4: tolerance = .00001086
Iteration 5: tolerance = 4.907e-07
GEE population-averaged model Number of obs = 26,200
Group variable: idcode Number of groups = 4,434
Link: logit Obs per group:
Family: binomial min = 1
Correlation: exchangeable avg = 5.9
max = 12
Wald chi2(4) = 229.87
Scale parameter: 1 Prob > chi2 = 0.0000
----------------------------------------------------------------
union | Coef. Std. Err. z P>|z| [95% Conf. Interval]
---------+------------------------------------------------------
age | .0098801 .0020824 4.74 0.000 .0057986 .0139616
grade | .0606146 .0108383 5.59 0.000 .0393719 .0818573
not_smsa | -.1257349 .0483488 -2.60 0.009 -.2204969 -.0309729
south | -.5747081 .048645 -11.81 0.000 -.6700506 -.4793656
_cons | -2.163394 .1484472 -14.57 0.000 -2.454345 -1.872443
----------------------------------------------------------------
69
Contoh 5.2:
. use "D:\Analisis Data Longitudinal\Data\nlswork.dta"
(National Longitudinal Survey. Young Women 14-26
years of age in 1968)
. xtset idcode
panel variable: idcode (unbalanced)
. xtgee union age not_smsa, family(binomial) link(logit)
corr(exchangeable)
Iteration 1: tolerance = .08812485
Iteration 2: tolerance = .00597886
Iteration 3: tolerance = .00022492
Iteration 4: tolerance = 7.966e-06
Iteration 5: tolerance = 2.747e-07
GEE population-averaged model Number of obs = 19,226
Group variable: idcode Number of groups = 4,150
Link: logit Obs per group:
Family: binomial min = 1
Correlation: exchangeable avg = 4.6
max = 12
Wald chi2(2) = 29.83
Scale parameter: 1 Prob > chi2 = 0.0000
------------------------------------------------------------------
union | Coef. Std. Err. z P>|z| [95% Conf. Interval]
---------+--------------------------------------------------------
age | .0078591 .0024113 3.26 0.001 .0031331 .0125851
not_smsa | -.2502181 .0558235 -4.48 0.000 -.3596302 -.140806
_cons | -1.446498 .0831114 -17.40 0.000 -1.609393 -1.283602
------------------------------------------------------------------
70
Contoh 5.3:
. use "D:\Analisis Data Longitudinal\Data\teenprov.dta"
Dataset ini yang berasal dari the National Longitudinal Study of
Youth (NLSY), memuat data tentang 1151 gadis remaja yang diwawancarai
selama 5 tahun berturut-turut. Berikut diperlihatkan data untuk 3 kasus
pertama.
. list in 1/3
+-------------------------------------------------------------------+
1. | id | pov1 | mother1 | spouse1 | school1 | hours1 | pov2 | mother2 |
| 22 | 1 | 0 | 0 | 1 | 21 | 0 | 0 |
|-------------------------------------------------------------------|
| spouse2 | school2 | hours2 | pov3 | mother3 | spouse3 | school3 |
| 0 | 1 | 15 | 0 | 0 | 0 | 1 |
|-------------------------------------------------------------------|
| hours3 | pov4 | mother4 | spouse4 | school4 | hours4 | age |
| 3 | 0 | 0 | 0 | 1 | 0 | 16 |
|-------------------------------------------------------------------|
| black | pov5 | mother5 | spouse5 | school5 | hours5 |
| 0 | 0 | 0 | 0 | 1 | 0 |
+-------------------------------------------------------------------+
+-------------------------------------------------------------------+
2. | id | pov1 | mother1 | spouse1 | school1 | hours1 | pov2 | mother2 |
| 75 | 0 | 0 | 0 | 1 | 8 | 0 | 0 |
|-------------------------------------------------------------------|
| spouse2 | school2 | hours2 | pov3 | mother3 | spouse3 | school3 |
| 0 | 1 | 0 | 0 | 0 | 0 | 1 |
|-------------------------------------------------------------------|
| hours3 | pov4 | mother4 | spouse4 | school4 | hours4 | age |
| 0 | 0 | 0 | 0 | 1 | 4 | 17 |
|-------------------------------------------------------------------|
| black | pov5 | mother5 | spouse5 | school5 | hours5 |
| 0 | 1 | 0 | 0 | 1 | 0 |
+-------------------------------------------------------------------+
71
+-------------------------------------------------------------------+
3. | id | pov1 | mother1 | spouse1 | school1 | hours1 | pov2 | mother2 |
| 92 | 0 | 0 | 0 | 1 | 30 | 0 | 0 |
|-------------------------------------------------------------------|
| spouse2 | school2 | hours2 | pov3 | mother3 | spouse3 | school3 |
| 0 | 1 | 27 | 0 | 0 | 0 | 1 |
|-------------------------------------------------------------------|
| hours3 | pov4 | mother4 | spouse4 | school4 | hours4 | age |
| 24 | 1 | 1 | 0 | 0 | 31 | 16 |
|-------------------------------------------------------------------|
| black | pov5 | mother5 | spouse5 | school5 | hours5 |
| 0 | 1 | 1 | 0 | 1 | 0 |
+-------------------------------------------------------------------+
Variabel-variabel penelitian adalah:
• id: Nomor identitas subjek
• pov: Kode 1 jika subjek dalam keadaan miskin (poverty) selama periode
observasi, jika tidak kode 0
• age: Usia subjek pada wawancara pertama.
• black: Kode 1 jika subjek kulit hitam, jika tidak kode 0
• mother: Kode 1 jika subjek memiliki 1 anak atau lebih, jika tidak kode
0
• spouse: Kode 1 jika subjek memiliki pasangan hidup bersama, jika
tidak kode 0
• school: Kode 1 jika subjek masih bersekolah, jika tidak kode 0
• hours: Jumlah jam subjek bekerja dalam seminggu menjalani survei
Sekarang data akan diubah dari format melebar (wide) menjadi
format memanjang (long).
. reshape long pov mother spouse school hours, i(id) j(year)
(note: j = 1 2 3 4 5)
72
Data wide -> long
------------------------------------------------
Number of obs. 1151 -> 5755
Number of variables 28 -> 9
j variable (5 values) -> year
xij variables:
pov1 pov2 ... pov5 -> pov
mother1 mother2 ... mother5 -> mother
spouse1 spouse2 ... spouse5 -> spouse
school1 school2 ... school5 -> school
hours1 hours2 ... hours5 -> hours
------------------------------------------------
Berikut diperlihatkan data 3 kasus pertama yang sekarang telah
berubah menjadi 15 records.
. list in 1/15
+----------------------------------------------------------+
| id year age black pov mother spouse school hours |
|----------------------------------------------------------|
1. | 22 1 16 0 1 0 0 1 21 |
2. | 22 2 16 0 0 0 0 1 15 |
3. | 22 3 16 0 0 0 0 1 3 |
4. | 22 4 16 0 0 0 0 1 0 |
5. | 22 5 16 0 0 0 0 1 0 |
|----------------------------------------------------------|
6. | 75 1 17 0 0 0 0 1 8 |
7. | 75 2 17 0 0 0 0 1 0 |
8. | 75 3 17 0 0 0 0 1 0 |
9. | 75 4 17 0 0 0 0 1 4 |
10. | 75 5 17 0 1 0 0 1 0 |
|----------------------------------------------------------|
11. | 92 1 16 0 0 0 0 1 30 |
12. | 92 2 16 0 0 0 0 1 27 |
13. | 92 3 16 0 0 0 0 1 24 |
73
14. | 92 4 16 0 1 1 0 0 31 |
15. | 92 5 16 0 1 1 0 0 0 |
+----------------------------------------------------------+
. xtset id year
panel variable: id (strongly balanced)
time variable: year, 1 to 5
delta: 1 unit
. xtsum
Variable | Mean Std. Dev. Min Max Observations
---------------+----------------------------------------+------------
id overall | 6016.672 3298.064 22 12539 | N = 5755
between | 3299.211 22 12539 | n = 1151
within | 0 6016.672 6016.672 | T = 5
| |
year overall | 3 1.414336 1 5 | N = 5755
between | 0 3 3 | n = 1151
within | 1.414336 1 5 | T = 5
| |
age overall | 15.64639 1.04682 14 17 | N = 5755
between | 1.047184 14 17 | n = 1151
within | 0 15.64639 15.64639 | T = 5
| |
black overall | .5742832 .4944942 0 1 | N = 5755
between | .4946661 0 1 | n = 1151
within | 0 .5742832 .5742832 | T = 5
| |
pov overall | .3768897 .484649 0 1 | N = 5755
between | .3100424 0 1 | n = 1151
within | .3725925 -.4231103 1.17689 | T = 5
| |
74
mother overall | .1986099 .3989883 0 1 | N = 5755
between | .3253864 0 1 | n = 1151
within | .2310605 -.6013901 .9986099 | T = 5
| |
spouse overall | .0992181 .2989806 0 1 | N = 5755
between | .2206498 0 1 | n = 1151
within | .2018338 -.7007819 .8992181 | T = 5
| |
school overall | .6304083 .4827361 0 1 | N = 5755
between | .32013 0 1 | n = 1151
within | .3614169 -.1695917 1.430408 | T = 5
| |
hours overall | 8.671764 14.54341 0 90 | N = 5755
between | 9.363817 0 52.4 | n = 1151
within | 11.13062 -43.72824 72.07176 | T = 5
. xtgee pov age black mother spouse school hours, family(binomial)
link(logit)
Iteration 1: tolerance = .23785495
Iteration 2: tolerance = .00689453
Iteration 3: tolerance = .00010833
Iteration 4: tolerance = 5.219e-06
Iteration 5: tolerance = 2.425e-07
GEE population-averaged model Number of obs = 5,755
Group variable: id Number of groups = 1,151
Link: logit Obs per group:
Family: binomial min = 5
Correlation: exchangeable avg = 5.0
max = 5
Wald chi2(6) = 260.71
Scale parameter: 1 Prob > chi2 = 0.0000
75
---------------------------------------------------------------
pov | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------+-------------------------------------------------------
age | -.0569927 .0369965 -1.54 0.123 -.1295045 .0155192
black | .4980237 .077386 6.44 0.000 .34635 .6496974
mother | .8258969 .0923618 8.94 0.000 .644871 1.006923
spouse | -.9493282 .1219036 -7.79 0.000 -1.188255 -.7104015
school | -.1081528 .0725594 -1.49 0.136 -.2503666 .034061
hours | -.0208458 .002309 -9.03 0.000 -.0253713 -.0163202
_cons | .2429719 .58535 0.42 0.678 -.9042931 1.390237
---------------------------------------------------------------
Contoh 5.4:
. use "D:\Analisis Data Longitudinal\Data\epil.dta"
. reshape long y, i(subj) j(time)
(note: j = 1 2 3 4)
Data wide -> long
-----------------------------------------------
Number of obs. 59 -> 236
Number of variables 9 -> 7
j variable (4 values) -> time
xij variables:
y1 y2 ... y4 -> y
-----------------------------------------------
. list in 1/12
+------------------------------------------------+
| subj time id y treat baseline age |
|------------------------------------------------|
1. | 1 1 104 5 0 11 31 |
2. | 1 2 104 3 0 11 31 |
3. | 1 3 104 3 0 11 31 |
76
4. | 1 4 104 3 0 11 31 |
5. | 2 1 106 3 0 11 30 |
|------------------------------------------------|
6. | 2 2 106 5 0 11 30 |
7. | 2 3 106 3 0 11 30 |
8. | 2 4 106 3 0 11 30 |
9. | 3 1 107 2 0 6 25 |
10. | 3 2 107 4 0 6 25 |
|------------------------------------------------|
11. | 3 3 107 0 0 6 25 |
12. | 3 4 107 5 0 6 25 |
+------------------------------------------------+
. xtset subj time
panel variable: subj (strongly balanced)
time variable: time, 1 to 4
delta: 1 unit
. corr time treat age baseline
(obs=236)
| time treat age baseline
---------+-----------------------------------
time | 1.0000
treat | 0.0000 1.0000
age | 0.0000 -0.1005 1.0000
baseline | 0.0000 0.0155 -0.1890 1.0000
. xtgee y time treat age baseline, family(poisson) link(log)
corr(exchangeable)
Iteration 1: tolerance = .0183008
Iteration 2: tolerance = 2.535e-06
Iteration 3: tolerance = 1.030e-09
77
GEE population-averaged model Number of obs = 236
Group variable: subj Number of groups = 59
Link: log Obs per group:
Family: Poisson min = 4
Correlation: exchangeable avg = 4.0
max = 4
Wald chi2(4) = 970.41
Scale parameter: 1 Prob > chi2 = 0.0000
-----------------------------------------------------------------
y | Coef. Std. Err. z P>|z| [95% Conf. Interval]
---------+-------------------------------------------------------
time | -.0587233 .0156912 -3.74 0.000 -.0894776 -.0279691
treat | -.1478458 .0709743 -2.08 0.037 -.286953 -.0087386
age | .0235715 .0059738 3.95 0.000 .0118631 .03528
baseline | .0227431 .0007557 30.10 0.000 .021262 .0242243
_cons | .6759401 .2048927 3.30 0.001 .2743578 1.077522
-----------------------------------------------------------------
79
BAB 6
ANALISIS KOEFISIEN RANDOM
� Pengertian Analisis Koefisien Random
Analisis koefisien random (random coefficient analysis) merupakan
bagian ataupun varian analisis multilevel, yaitu analisis terhadap model
mixed yang memiliki random intercept dan/atau random slope. Pada model
multilevel didapatkan sejumlah grup dan kluster, dengan anggota grup atau
kluster yang sama saling berkorelasi. Pada analisis koefisien random untuk
data longitudinal, analogi dengan kluster pada analisis multilevel, yang
saling berkorelasi adalah pengamatan berulang dalam satu subjek. Lihat
gambar 6.1 (Harlan, 2016).
Gambar 6.1 Atas: Analisis multilevel; bawah: analisis koefisien random
untuk data longitudinal
Model analisis koefisien random dengan
itY = 0iβ +
1β t + itε
itY : Respons subjek ke-i pada waktu
0iβ : Intersep random
1β : Slope fixed
t : Waktu pengukuran
itε : Galat untuk subjek ke-i pada waktu
Tampak bahwa slope 1β
sedangkan intersep 0iβ nilainya bervariasi untuk tiap subjek ke
6.2). Model ini digunakan jika efek waktu terhadap tiap subjek diasumsikan
sama besar, tetapi tiap subjek memiliki titik awal /
Gambar 6.2 Model mixed: intersep random, slope
Model analisis koefisien random dengan
itY = 0β +
1iβ t + itε
itY : Respons subjek ke-i pada waktu
0β : Intersep fixed
1iβ : Slope random
t : Waktu pengukuran
itε : Galat untuk subjek ke-i pada waktu
80
Model analisis koefisien random dengan random intercept adalah:
pada waktu t
pada waktu t
1 adalah konstan untuk tiap subjek,
nilainya bervariasi untuk tiap subjek ke-i (gambar
Model ini digunakan jika efek waktu terhadap tiap subjek diasumsikan
sama besar, tetapi tiap subjek memiliki titik awal / baseline yang berbeda.
Model mixed: intersep random, slope fixed
Model analisis koefisien random dengan random slope adalah:
pada waktu t
pada waktu t
Tampak bahwa intersep β
sedangkan slope 1iβ nilainya bervariasi untuk tiap subjek ke
Model ini digunakan jika tiap subjek memulai pengamatan dari
yang sama, tetapi efek waktu terhadap tiap subjek b
Gambar 6.3 Model mixed:
Model analisis koefisien random dengan
random slope adalah:
itY = 0iβ +
1iβ t + itε
itY : Respons subjek ke-i pada waktu
0iβ : Intersep random
1iβ : Slope random
t : Waktu pengukuran
itε : Galat untuk subjek ke-i pada waktu
Tampak bahwa baik intersep
bervariasi untuk tiap subjek ke-i (gambar
subjek mulai dari baseline berbeda, demikian pula efek waktu terhadap tiap
subjek tidak sama.
81
0β adalah konstan untuk tiap subjek,
nilainya bervariasi untuk tiap subjek ke-i (gambar 6.3).
Model ini digunakan jika tiap subjek memulai pengamatan dari baseline
yang sama, tetapi efek waktu terhadap tiap subjek bervariasi.
Model mixed: intersep fixed, slope random
Model analisis koefisien random dengan random intercept dan
pada waktu t
pada waktu t
Tampak bahwa baik intersep 0iβ maupun slope
1iβ nilainya
(gambar 6.4). Model digunakan jika tiap
berbeda, demikian pula efek waktu terhadap tiap
:
Gambar 6.4 Model mixed: intersep dan slope random
� Analisis Koefisien Random dengan Stata
Di sini hanya akan dibahas perintah beserta contoh untuk Analisis
Koefisien Random dengan model Gauss dan model logit. Analisis Koefisien
Random juga dapat dilakukan untuk model
negatif yang tidak dibahas di sini.
Sintaks:
� Model Gauss:
xtreg depvar indepvars
� Model logit:
xtlogit depvar indepvars
xtlogit depvar indepvars
Contoh 6.1:
. use "D:\Analisis Data Longitu
. xtreg invest market stock
Random-effects GLS regression Number of obs = 100
Group variable: company Number of groups = 5
82
Model mixed: intersep dan slope random
Analisis Koefisien Random dengan Stata
Di sini hanya akan dibahas perintah beserta contoh untuk Analisis
Koefisien Random dengan model Gauss dan model logit. Analisis Koefisien
Random juga dapat dilakukan untuk model ologit, poisson, dan binomial
depvar indepvars [if] [in], [, options]
indepvars cat_indepvars [if] [in] [, options]
indepvars cat_indepvars [if] [in], or [options]
udinal\Data\invest2.dta"
effects GLS regression Number of obs = 100
Group variable: company Number of groups = 5
83
R-sq: Obs per group:
within = 0.8003 min = 20
between = 0.7696 avg = 20.0
overall = 0.7781 max = 20
Wald chi2(2) = 384.93
corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000
------------------------------------------------------------------
invest | Coef. Std. Err. z P>|z| [95% Conf. Interval]
--------+---------------------------------------------------------
market | .1048856 .0147972 7.09 0.000 .0758835 .1338876
stock | .3460156 .0242535 14.27 0.000 .2984796 .3935517
_cons | -60.29049 54.48388 -1.11 0.268 -167.0769 46.49595
--------+---------------------------------------------------------
sigma_u | 104.65267
sigma_e | 69.117977
rho | .69628394 (fraction of variance due to u_i)
------------------------------------------------------------------
Bandingkan hasilnya dengan analisis GEE:
. xtgee invest market stock
Iteration 1: tolerance = .24911713
Iteration 2: tolerance = .00224596
Iteration 3: tolerance = 6.192e-06
Iteration 4: tolerance = 1.711e-08
GEE population-averaged model Number of obs = 100
Group variable: company Number of groups = 5
Link: identity Obs per group:
Family: Gaussian min = 20
Correlation: exchangeable avg = 20.0
84
max = 20
Wald chi2(2) = 397.01
Scale parameter: 15930.98 Prob > chi2 = 0.0000
----------------------------------------------------------------
invest | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------+--------------------------------------------------------
market | .1049279 .0146039 7.18 0.000 .0763048 .1335511
stock | .3460474 .02386 14.50 0.000 .2992826 .3928121
_cons | -60.38182 54.62176 -1.11 0.269 -167.4385 46.67487
----------------------------------------------------------------
.Contoh 6.2:
. use "D:\Analisis Data Longitudinal\Data\union.dta"
(NLS Women 14-24 in 1968)
. xtset idcode year
panel variable: idcode (unbalanced)
time variable: year, 70 to 88, but with
gaps
delta: 1 unit
. xtlogit union age grade not_smsa south##c.year
Fitting comparison model:
Iteration 0: log likelihood = -13864.23
Iteration 1: log likelihood = -13547.326
Iteration 2: log likelihood = -13542.493
Iteration 3: log likelihood = -13542.49
Iteration 4: log likelihood = -13542.49
Fitting full model:
tau = 0.0 log likelihood = -13542.49
85
tau = 0.1 log likelihood = -12923.751
tau = 0.2 log likelihood = -12417.651
tau = 0.3 log likelihood = -12001.665
tau = 0.4 log likelihood = -11655.586
tau = 0.5 log likelihood = -11366.441
tau = 0.6 log likelihood = -11128.749
tau = 0.7 log likelihood = -10946.399
tau = 0.8 log likelihood = -10844.833
Iteration 0: log likelihood = -10946.488
Iteration 1: log likelihood = -10557.39
Iteration 2: log likelihood = -10540.493
Iteration 3: log likelihood = -10540.274
Iteration 4: log likelihood = -10540.274 (backed up)
Iteration 5: log likelihood = -10540.274
Random-effects logistic regression Number of obs = 26,200
Group variable: idcode Number of groups = 4,434
Random effects u_i ~ Gaussian Obs per group:
min = 1
avg = 5.9
max = 12
Integration method: mvaghermite Integration pts. = 12
Wald chi2(6) = 227.46
Log likelihood = -10540.274 Prob > chi2 = 0.0000
-----------------------------------------------------------------------
union | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+---------------------------------------------------------
age | .0156732 .0149895 1.05 0.296 -.0137056 .045052
grade | .0870851 .0176476 4.93 0.000 .0524965 .1216738
not_smsa | -.2511884 .0823508 -3.05 0.002 -.4125929 -.0897839
86
1.south | -2.839112 .6413116 -4.43 0.000 -4.096059 -1.582164
year | -.0068604 .0156575 -0.44 0.661 -.0375486 .0238277
|
south#c.year |
1 | .0238506 .0079732 2.99 0.003 .0082235 .0394777
|
_cons | -3.009365 .8414963 -3.58 0.000 -4.658667 -1.360062
-------------+---------------------------------------------------------
/lnsig2u | 1.749366 .0470017 1.657245 1.841488
-------------+---------------------------------------------------------
sigma_u | 2.398116 .0563577 2.290162 2.511158
rho | .6361098 .0108797 .6145307 .6571548
-----------------------------------------------------------------------
LR test of rho=0: chibar2(01) = 6004.43
Prob >= chibar2 = 0.000
Dengan analisis GEE diperoleh estimasi yang agak berbeda:
. xtgee union age grade not_smsa south##c.year,
family(binomial) link(logit)
Iteration 1: tolerance = .14878775
Iteration 2: tolerance = .00949339
Iteration 3: tolerance = .00040606
Iteration 4: tolerance = .00001602
Iteration 5: tolerance = 6.628e-07
GEE population-averaged model Number of obs = 26,200
Group variable: idcode Number of groups = 4,434
Link: logit Obs per group:
Family: binomial min = 1
Correlation: exchangeable avg = 5.9
max = 12
Wald chi2(6) = 235.08
Scale parameter: 1 Prob > chi2 = 0.0000
87
----------------------------------------------------------------------
union | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+--------------------------------------------------------
age | .0165893 .0092229 1.80 0.072 -.0014873 .0346659
grade | .0600669 .0108343 5.54 0.000 .0388321 .0813016
not_smsa | -.1215445 .0483713 -2.51 0.012 -.2163505 -.0267384
1.south | -1.857094 .372967 -4.98 0.000 -2.588096 -1.126092
year | -.0121168 .0095707 -1.27 0.205 -.030875 .0066413
|
south#c.year |
1 | .0160193 .0046076 3.48 0.001 .0069886 .0250501
|
_cons | -1.39755 .5089508 -2.75 0.006 -2.395075 -.4000247
----------------------------------------------------------------------
89
BAB 7
REGRESI VARIABEL INSTRUMENTAL
DENGAN ESTIMATOR EFEK
RANDOM DAN FIXED
� Variabel Instrumental dan Regresi Variabel
Instrumental
Dari sebuah model regresi linear, satu ataupun beberapa prediktornya
disebut sebagai variabel instrumental jika prediktor ataupun himpunan prediktor
tersebut berkorelasi dengan suku galat. Model demikian dinamakan sebagai
model regresi variabel instrumental.
Misalkan dimiliki model regresi:
y = 0β + 1β x + u (7.1)
dengan x dan u berkorelasi:
Cov (x ; u) ≠ 0
Misalkan pula dimiliki juga observable variable z yang memenuhi 2 asumsi
berikut:
1. z tak berkorelasi dengan u:
Cov (z ; u) = 0
2. z berkorelasi dengan x:
Cov (z ; x) ≠ 0
Maka z disebut sebagai variabel instrumental untuk x atau cukup z instrumen
untuk x. Secara visual, representasi variabel instrumental diperlihatkan sebagai
berikut:
Sebuah prediktor dinyatakan bersifat
berkorelasi dengan suku galat.
Eksogenitas instrumen menyatakan bahwa setelah mengendalikan
variabel yang tak diamati (omitted variables
terhadap y dan z tak berkorelasi dengan variabel yang tak diamati.
Regresi variabel instrumental untuk data longitudinal pad
dengan perintah xtivreg. Untuk perintah Stata ini tersedia beberapa opsi
estimator, antara lain yaitu estimator
estimator fe (fixed effects), dan fd (
regresi variabel instrumental untuk data longitudinal dengan estimator
Sintaks untuk perintah xtivreg
xtivreg depvar [varlist1]
depvar : Variabel dependen
varlist1 : Himpunan variabel independen yang tak berkorelasi dengan galat,
disebut variabel eksogen
varlist2 : Himpunan variabel independen yang berkorelasi dengan galat,
disebut variabel endogen yang terinstrumentasi oleh (
by) variabel instrumental.
varlistIV : Variabel instrumental
� Estimator Efek Random
Misalkan dimiliki model:
ity = 0β + 1β 1itx + . . . +
dengan asumsi: Cov ( itjx ; ia ) = 0 ; t
90
Sebuah prediktor dinyatakan bersifat endogen jika prediktor tersebut
menyatakan bahwa setelah mengendalikan x dan
omitted variables), z tak memiliki efek parsial
tak berkorelasi dengan variabel yang tak diamati.
Regresi variabel instrumental untuk data longitudinal pada Stata dilakukan
Untuk perintah Stata ini tersedia beberapa opsi
estimator, antara lain yaitu estimator re (random effects) sebagai default,
(first-difference). Di sini hanya akan dibahas
regresi variabel instrumental untuk data longitudinal dengan estimator re dan fd.
xtivreg ini adalah:
] [varlist2 = varlistIV] [if] [in] [, options]
Himpunan variabel independen yang tak berkorelasi dengan galat,
disebut variabel eksogen
Himpunan variabel independen yang berkorelasi dengan galat,
disebut variabel endogen yang terinstrumentasi oleh (instrumented
mental.
Efek Random dan Efek Fixed
+ . . . + k
βitk
x + ia + itu (7.2)
t = 1, 2, . . . , T ; j = 1, 2, . . . , k
91
Didefinisikan juga suku galat komposit itν :
itν = ia + itu
Maka: ity = 0β + 1β 1itx + . . . + k
βitk
x + itν (7.3)
Corr ( itν ; isν ) = 2
2 2a
a u
σ
σ σ+ ; t ≠ s
2aσ = Var ( ia ) ; 2
uσ = Var ( itu )
Persamaan 7.2 dapat dinyatakan sebagai:
iy = 0β + 1β 1ix + . . . + k
βik
x + iν (7.4)
Selanjutnya didefinisikan pula:
θ = 1 − 2
2 2u
u aT
σ
σ σ+ ; 0 < θ < 1 (7.5)
Maka diperoleh:
ity − θ iy = 0β (1 − θ ) + 1β ( 1itx − θ 1ix ) + . . . + k
β (itk
x − θik
x )
+ ( itν − θ iν ) (7.6)
yang disebut sebagai quasi-demeaned data. Persamaan ini diselesaikan dengan
estimator GLS (Generalized Least Squares), yaitu estimator pooled OLS terhadap
persamaan quasi-demeaned data tersebut.
Pada Stata, dengan asumsi ia tak berkorelasi dengan kovariat lainnya,
estimator yang digunakan adalah estimator G2SLS Balestra dan Varadharajan-
Krishnakumar (1987) sebagai default untuk estimator efek random. Opsi lain
yang dapat digunakan adalah estimator EC2SLS Baltagi. Perintah Stata untuk
regresi variabel instrumental dengan efek random adalah:
xtivreg depvar [varlist1] [varlist2 = varlistIV] [if] [in], re [re_options]
depvar : Variabel dependen
varlist1 : Himpunan variabel independen yang tak berkorelasi dengan galat,
disebut variabel eksogen
92
varlist2 : Himpunan variabel independen yang berkorelasi dengan galat,
disebut variabel endogen yang terinstrumentasi oleh (instrumented
by) variabel instrumental.
varlistIV : Variabel instrumental
Sebagai perbandingan, perintah Stata untuk regresi variabel instrumental
dengan efek fixed dilakukan dengan mengganti opsi re pada perintah Stata di atas
dengan opsi fe.
Contoh 7.1:
. use “D:\Analisis Data Longitudinal\Data\nlswork.dta”, clear
(National Longitudinal Survey. Young Women 14-26 years of age
in 1968)
Variabel age, c.age#c.age, not_smsa, 2.race, tenure, union,
birth, dan south akan diregresikan terhadap variabel dependen ln_wage.
. xtivreg ln_w age c.age#c.age not_smsa 2.race (tenure = union birth
south), re
G2SLS random-effects IV regression Number of obs = 19,007
Group variable: idcode Number of groups = 4,134
R-sq: Obs per group:
within = 0.0664 min = 1
between = 0.2098 avg = 4.6
overall = 0.1463 max = 12
Wald chi2(5) = 1446.37
corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000
93
---------------------------------------------------------------------
ln_wage | Coef. Std. Err. z P>|z| [95% Conf. Interval]
------------+--------------------------------------------------------
tenure | .1391798 .0078756 17.67 0.000 .123744 .1546157
age | .0279649 .0054182 5.16 0.000 .0173454 .0385843
|
c.age#c.age | -.0008357 .0000871 -9.60 0.000 -.0010063 -.000665
|
not_smsa | -.2235103 .0111371 -20.07 0.000 -.2453386 -.2016821
|
race |
black | -.2078613 .0125803 -16.52 0.000 -.2325183 -.1832044
_cons | 1.337684 .0844988 15.83 0.000 1.172069 1.503299
------------+--------------------------------------------------------
sigma_u | .36582493
sigma_e | .63031479
rho | .25197078 (fraction of variance due to u_i)
----------------------------------------------------------------------
Instrumented: tenure
Instruments: age c.age#c.age not_smsa 2.race union birth_yr south
---------------------------------------------------------------------
Tampak bahwa semua prediktor bermakna. Selanjutnya, sebagai
perbandingan pada Contoh 7.2 akan diperlihatkan penyelesaian model yang sama
dengan estimator fixed effects.
Contoh 7.2:
Pada regresi variabel instrumental untuk data longitudinal dengan
estimator fd ini ia pada persamaan 7.2 diasumsikan berkorelasi dengan kovariat x
dan yang digunakan adalah demeaned data, yaitu θ = 1.
. xtivreg ln_w age c.age#c.age not_smsa 2.race (tenure = union birth
south), fe
94
Fixed-effects (within) IV regression Number of obs = 19,007
Group variable: idcode Number of groups = 4,134
R-sq: Obs per group:
within = . min = 1
between = 0.1304 avg = 4.6
overall = 0.0897 max = 12
Wald chi2(4) = 147926.58
corr(u_i, Xb) = -0.6843 Prob > chi2 = 0.0000
---------------------------------------------------------------------
ln_wage | Coef. Std. Err. z P>|z| [95% Conf. Interval]
------------+--------------------------------------------------------
tenure | .2403531 .0373419 6.44 0.000 .1671643 .3135419
age | .0118437 .0090032 1.32 0.188 -.0058023 .0294897
|
c.age#c.age | -.0012145 .0001968 -6.17 0.000 -.0016003 -.0008286
|
not_smsa | -.0167178 .0339236 -0.49 0.622 -.0832069 .0497713
|
race |
black | 0 (omitted)
_cons | 1.678287 .1626657 10.32 0.000 1.359468 1.997106
------------+--------------------------------------------------------
sigma_u | .70661941
sigma_e | .63029359
rho | .55690561 (fraction of variance due to u_i)
---------------------------------------------------------------------
F test that all u_i=0: F(4133,14869) = 1.36 Prob > F = 0.0000
---------------------------------------------------------------------
Instrumented: tenure
Instruments: age c.age#c.age not_smsa 2.race union birth_yr south
---------------------------------------------------------------------
95
. Tampak bahwa dengan asumsi yang berbeda, hasil yang diperoleh berbeda
pula antara estimator efek random dengan efek fixed.
Contoh 7.3:
. use “D:\Analisis Data Longitudinal\Data\airfare.dta”
Variabel-variabel pada dataset adalah:
lpassen : log(passen)
passen : rata-rata penumpang per hari
ldist : log(distance)
dist : jarak dalam mil
ldistsq : ldist^2
y98 : = 1 jika year==1998
y99 : = 1 jika year==1999
y00 : = 1 jika year==2000
lfare : log(fare)
fare : rata-rata tarif one-way dalam $
concen : bmktshr (the market share of the largest carrier in a market)
. xtivreg lpassen ldist ldistsq y98 y99 y00 (lfare = concen), re theta
G2SLS random-effects IV regression Number of obs = 4,596
Group variable: id Number of groups = 1,149
R-sq: Obs per group:
within = 0.4075 min = 4
between = 0.0542 avg = 4.0
overall = 0.0641 max = 4
Wald chi2(6) = 231.10
corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000
theta = .91099494
96
-------------------------------------------------------------------------------------
lpassen | Coef. Std. Err. z P>|z| [95% Conf. Interval]
--------+----------------------------------------------------------
lfare | -.5078761 .229698 -2.21 0.027 -.9580759 -.0576762
ldist | -1.504805 .6933146 -2.17 0.030 -2.863677 -.1459332
ldistsq | .1176012 .0546255 2.15 0.031 .0105373 .2246651
y98 | .0307363 .0086054 3.57 0.000 .0138699 .0476027
y99 | .0796548 .01038 7.67 0.000 .0593104 .0999992
y00 | .1325795 .0229831 5.77 0.000 .0875335 .1776255
_cons | 13.29643 2.626949 5.06 0.000 8.147707 18.44516
--------+----------------------------------------------------------
sigma_u | .94920686
sigma_e | .16964171
rho | .96904799 (fraction of variance due to u_i)
-------------------------------------------------------------------
Instrumented: lfare
Instruments: ldist ldistsq y98 y99 y00 concen
-------------------------------------------------------------------
. egen concenb = mean(concen), by(id)
Regresi variabel instrumental dengan estimator efek random adalah:
. xtivreg lpassen ldist ldistsq y98 y99 y00 concenb (lfare = concen),
re theta
G2SLS random-effects IV regression Number of obs = 4,596
Group variable: id Number of groups = 1,149
R-sq: Obs per group:
within = 0.3188 min = 4
between = 0.0600 avg = 4.0
overall = 0.0669 max = 4
Wald chi2(7) = 218.80
corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000
theta = .90084889
97
-------------------------------------------------------------------
lpassen | Coef. Std. Err. z P>|z| [95% Conf. Interval]
--------+----------------------------------------------------------
lfare | -.3015762 .2764376 -1.09 0.275 -.8433839 .2402315
ldist | -1.148781 .697019 -1.65 0.099 -2.514913 .2173511
ldistsq | .0772565 .0570609 1.35 0.176 -.0345808 .1890938
y98 | .0257147 .0097479 2.64 0.008 .0066092 .0448203
y99 | .0724166 .0119924 6.04 0.000 .0489118 .0959213
y00 | .1127914 .0274377 4.11 0.000 .0590146 .1665682
concenb | -.5933022 .1926313 -3.08 0.002 -.9708526 -.2157518
_cons | 12.0578 2.735977 4.41 0.000 6.695385 17.42022
--------+----------------------------------------------------------
sigma_u | .85125514
sigma_e | .16964171
rho | .96180277 (fraction of variance due to u_i)
-------------------------------------------------------------------
Instrumented: lfare
Instruments: ldist ldistsq y98 y99 y00 concenb concen
-------------------------------------------------------------------
Regresi variabel instrumental dengan estimator efek fixed adalah:
. xtivreg lpassen ldist ldistsq y98 y99 y00 (lfare = concen), fe vce(cl
id)
Fixed-effects (within) IV regression Number of obs = 4,596
Group variable: id Number of groups = 1,149
R-sq: Obs per group:
within = 0.2265 min = 4
between = 0.0487 avg = 4.0
overall = 0.0574 max = 4
Wald chi2(4) = 114.26
corr(u_i, Xb) = 0.0708 Prob > chi2 = 0.0000
98
(Std. Err. adjusted for 1,149 clusters in id)
------------------------------------------------------------------
| Robust
lpassen | Coef. Std. Err. z P>|z| [95% Conf. Interval]
--------+---------------------------------------------------------
lfare | -.3015761 .6129462 -0.49 0.623 -1.502929 .8997764
ldist | 0 (omitted)
ldistsq | 0 (omitted)
y98 | .0257147 .0164237 1.57 0.117 -.0064751 .0579046
y99 | .0724166 .0251189 2.88 0.004 .0231843 .1216488
y00 | .1127914 .0620655 1.82 0.069 -.0088547 .2344375
_cons | 7.501008 3.098097 2.42 0.015 1.428849 13.57317
--------+---------------------------------------------------------
sigma_u | .8493153
sigma_e | .16964171
rho | .96163479 (fraction of variance due to u_i)
------------------------------------------------------------------
Instrumented: lfare
Instruments: ldist ldistsq y98 y99 y00 concen
------------------------------------------------------------------
99
BAB 8
REGRESI VARIABEL INSTRUMENTAL
DENGAN ESTIMATOR
FIRST-DIFFERENCED
� Pengertian Estimator First-Differenced
Dalam model ini iy∆ diregresikan dengan metode kuadrat terkecil 2-
tahap terhadap ix∆ . Misalkan dimiliki model:
ity = ( 0β + 0δ ) + 1β itx + ia + itu ; t = 1, 2
0δ : dummy variable; 0δ = 0 untuk t = 1 dan 0δ = 1 untuk t = 2
( ia + itu ) merupakan suku galat. ia merupakan komponen galat tak
tergantung waktu (time-independent), sedangkan itu adalah komponen galat
yang tergantung waktu (time-dependent). Tampak bahwa prediktor itx
berkorelasi dengan komponen suku galat itu .
Diperoleh: 2iy = ( 0β + 1) + 1β 2ix + ia + 2iu (t = 2)
1iy = 0β + 1β 1ix + ia + 1iu (t = 1)
Selanjutnya substraksikan:
( 2iy − 1iy ) = 0δ + 1β ( 2ix − 1ix ) + ( 2iu − 1iu )
iy∆ = 1 + 1β ix∆ + iu∆
iu∆ tak berkorelasi dengan ix∆ , sehingga persamaan terakhir ini
dapat diselesaikan dengan estimator OLS.
� Estimator First-Differenced dengan Stata
Sintaks Stata untuk regresi variabel instrumental dengan estimator
first-differenced adalah:
xtivreg depvar [varlist1] (varlist2 = varlistI IV) [if] [in], fd [FD_options]
100
depvar : Variabel dependen
varlist1 : Himpunan variabel independen yang tak berkorelasi dengan
galat, disebut variabel eksogen
varlist2 : Himpunan variabel independen yang berkorelasi dengan galat,
disebut variabel endogen yang terinstrumentasi oleh
(instrumented by) variabel instrumental.
varlistIV : Variabel instrumental
Opsi:
fd : Gunakan estimator selisih-pertama (first-differenced
estimator)
regress : Perlakukan kovariat sebagai variabel eksogen, abaikan
variabel instrumental
first : Laporkan estimasi tahap pertama
small : Laporkan statistik t dan F, bukan statistik Z dan 2χ
Perintah Stara xtivreg, fd harus didahului dengan deklarasi dataset
xt dengan spesifikasi variabel panel dan variabel waktu.
Contoh 8.1:
Sebagai contoh, digunakan file data abdata.dta. mengenai tenaga
kerja pada sejumlah firma, dan beberapa data tentang masing-masing firma.
Beberapa variabel yang akan dianalisis adalah:
itn : log tenaga kerja pada firma i pada waktu t
itw : log naturalis gaji (wage) untuk produk real
itk : log naturalis stok kapital gross
itys : log naturalis output industri
yr1980, yr1981, yr1982, yr1983, dan yr1984 adalah variabel-variabel
indikator yang menyatakan waktu.
101
. use “D:\Analisis Data Longitudinal\Data\abdata.dta”
. xtivreg n l2.n l(0/1).w l(0/2).(k ys) yr1981-yr1984 (l.n = l3.n), fd
vce(robust)
First-differenced IV regression
Group variable: id Number of obs = 471
Time variable: year Number of groups = 140
R-sq: Obs per group:
within = 0.0141 min = 3
between = 0.9165 avg = 3.4
overall = 0.9892 max = 5
Wald chi2(14) = 259.49
corr(u_i, Xb) = 0.9239 Prob > chi2 = 0.0000
(Std. Err. adjusted for 140 clusters in id)
----------------------------------------------------------------------
| Robust
D.n | Coef. Std. Err. z P>|z| [95% Conf. Interval]
--------+-------------------------------------------------------------
n |
LD. | 1.422765 1.019992 1.39 0.163 -.5763824 3.421913
L2D. | -.1645517 .1300598 -1.27 0.206 -.4194643 .0903609
|
w |
D1. | -.7524675 .2341305 -3.21 0.001 -1.211355 -.29358
LD. | .9627611 .7828358 1.23 0.219 -.5715688 2.497091
|
k |
D1. | .3221686 .1066645 3.02 0.003 .1131099 .5312273
LD. | -.3248778 .3933448 -0.83 0.409 -1.095819 .4460637
L2D. | -.0953947 .1257672 -0.76 0.448 -.3418938 .1511045
|
102
ys |
D1. | .7660906 .3172664 2.41 0.016 .14426 1.387921
LD. | -1.361881 .8980497 -1.52 0.129 -3.122026 .3982639
L2D. | .3212993 .4234835 0.76 0.448 -.508713 1.151312
|
yr1981 |
D1. | -.0574197 .0323419 -1.78 0.076 -.1208088 .0059693
|
yr1982 |
D1. | -.0882952 .0580339 -1.52 0.128 -.2020395 .0254491
|
yr1983 |
D1. | -.1063153 .0934136 -1.14 0.255 -.2894026 .0767719
|
yr1984 |
D1. | -.1172108 .1150944 -1.02 0.308 -.3427917 .1083701
|
_cons | .0161204 .025376 0.64 0.525 -.0336155 .0658564
--------+-------------------------------------------------------------
sigma_u | .29069213
sigma_e | .34152632
rho | .42011045 (fraction of variance due to u_i)
----------------------------------------------------------------------
Instrumented: L.n
Instruments: L2.n w L.w k L.k L2.k ys L.ys L2.ys yr1981 yr1982 yr1983
yr1984 L3.n
----------------------------------------------------------------------
Perhatikan:
- L : Lagged
- D : Difference
- L0.x = x = ix
L1.x = L.x = 1ix −
L2.x = 2ix −
103
- D.x = L0D.x = ix − 1ix −
LD.x = L1D.x = 1ix − − 2ix −
L2D.x = 2ix − − 3ix −
Pada perintah xtivreg, variabel dependen adalah n, tetapi adanya
opsi fd (first-differenced) menyebabkan variabel dependen menjadi D.n.
. list n L0.n L.n L1.n L2.n in 1/10
+------------------------------------------------------+
| L. L. L2.|
| n n n n n |
|------------------------------------------------------|
1. | 1.617604 1.617604 . . . |
2. | 1.722767 1.722767 1.617604 1.617604 . |
3. | 1.612433 1.612433 1.722767 1.722767 1.617604 |
4. | 1.550749 1.550749 1.612433 1.612433 1.722767 |
5. | 1.409278 1.409278 1.550749 1.550749 1.612433 |
|------------------------------------------------------|
6. | 1.152469 1.152469 1.409278 1.409278 1.550749 |
7. | 1.077048 1.077048 1.152469 1.152469 1.409278 |
8. | 4.267163 4.267163 . . . |
9. | 4.257639 4.257639 4.267163 4.267163 . |
10. | 4.261524 4.261524 4.257639 4.257639 4.267163 |
+------------------------------------------------------+
Tampak bahwa n = L0.n dan L.n = L1.n.
. list n D.n L0D.n LD.n L1D.n L2D.n in 1/10
+-----------------------------------------------------------------+
| D. D. LD. LD. L2D.|
| n n n n n n |
|-----------------------------------------------------------------|
1. | 1.617604 . . . . . |
2. | 1.722767 .1051621 .1051621 . . . |
104
3. | 1.612433 -.1103332 -.1103332 .1051621 .1051621 . |
4. | 1.550749 -.0616845 -.0616845 -.1103332 -.1103332 .1051621 |
5. | 1.409278 -.1414708 -.1414708 -.0616845 -.0616845 -.1103332 |
|-----------------------------------------------------------------|
6. | 1.152469 -.2568092 -.2568092 -.1414708 -.1414708 -.0616845 |
7. | 1.077048 -.0754207 -.0754207 -.2568092 -.2568092 -.1414708 |
8. | 4.267163 . . . . . |
9. | 4.257639 -.0095239 -.0095239 . . . |
10. | 4.261524 .0038853 .0038853 -.0095239 -.0095239 . |
+-----------------------------------------------------------------+
Tampak bahwa D.n = L0D.n dan LD.n = L1D.n. Estimasi pada
analisis regresi variabel instrumental dengan estimator first-difference dapat
dinyatakan sebagai:
D.n = 1.423LD.n – 0.165L2D.n − .0.752D1.w + . . .
( in − 1in − ) = 1.423( 1in − − 2in − ) − 0.165( 2in − − 3in − ) – 0.752( iw − 1iw − ) . . .
Tampak juga bahwa selain faktor waktu (year), prediktor yang bermakna
adalah D1.w, D1.k, dan D1.ys.
105
KEPUSTAKAAN
Davis CS. Statistical Methods for the Analysis of Repeated
Measurements. New York: Springer, 2002.
Diggle PJ, Heagerty P, Liang K-Y, Zeger SL. Analysis of Longitudinal
Data, 2nd Ed. Oxford: Oxford University Press, 2013.
Federer WT, King F. Variations on Split Plot and Split Block Experiment
Designs. Hoboken, New Jersey: John Wiley & Sons, 2007.
Hirotsu C. Advanced Analysis of Variance. Hoboken, New Jersey: John
Wiley & Sons, 2017.
Hoffman L. Longitudinal Analysis: Modeling Within-Person Fluctuation
and Change. New York: Routledge, 2015.
Lipsitz S, Fitzmaurice G. “Generalized estimating equations for longitudinal
data analysis”. In: G Fitzmaurice, M Davidian, G Verbeke, G
Molenberghs (eds), Longitudinal Data Analysis. Boca Raton, FL: CRC
Press, Taylor & Francis Group, 2009, pp 43-78
Mallinckrodt C, Lipkovich I. Analyzing Longitudinal Clinical Trial Data:
A Practical Guide. Boca Raton, FL: CRC Press, Taylor & Francis
Group, 2017.
Menard S. “Introduction: Longitudinal research design and analysis”. In: S
Menard (ed), Handbook of Longitudinal Research: Design,
Measurement, and Analysis. Amsterdam: Elsevier, 2008, pp 3-12.
StataCorp LP. Stata Longitudinal-Data/Panel-Data Reference Manual
Release 15. Lakeway Drive, College Station, Texas: Stata Press, 2017.
Twisk JWR. Applied Longitudinal Data Analysis for Epidemiology, 2nd
Ed. Cambridge: Cambridge University Press, 2013.
Woolridge JM. Econometric Analysis of Cross Section and Panel Data,
2nd Ed. Cambridge, Massachusetts: The MIT Press, 2010.
106
Lampiran
UKURAN SAMPEL
PADA STUDI LONGITUDINAL
Respons Kontinu
Model regresi longitudinal untuk rancangan balans adalah:
ijY = 0β +
1β 1ijx + 2β 2ijx + . . . + pβ ijpx + ijε (1)
i : Urutan subjek dengan jumlah subjek = m; i = 1, 2, . . . , m
j : Urutan pengukuran pada tiap subjek dengan jumlah pengukuran pada
tiap subjek = n; j = 1, 2, . . . , n
k : Urutan kovariat dengan jumlah kovariat = p; k = 1, 2, . . . , p
Dalam notasi matriks, model ini dituliskan sebagai:
ijY = iX ββββ + iεεεε (2)
Untuk perbandingan 2 kelompok, A dan B dengan 1 kovariat, model
(1) untuk kelompok A menjadi:
ijY = 0 Aβ +
1Aβ ijx + ijε (3.a)
dan untuk kelompok B menjadi:
ijY = 0Bβ +
1Bβ ijx + ijε (3.b)
Diasumsikan kedua kelompok masing-masing memiliki jumlah
subjek yang sama m dan tiap subjek menjalani jumlah pengukuran yang
sama n. Maka ukuran sampel minimum per kelompok m yang diharapkan
dapat mendeteksi selisih koefisien regresi minimum d = 1β∆ =
1Bβ − 1Aβ
dengan kesalahan tipe I α dan power 1 − β adalah:
m = ( ) ( )
22
2 2
2 1
x
Z Z
ns d
α β σ ρ+ − (4)
dengan:
107
2σ : Variansi suku galat; 2σ = Var ( ijε )
ρ : Koefisien korelasi matriks uniform; diasumsikan data longitudinal
memiliki struktur korelasi uniform (exchangeable); ρ = jkr untuk
j ≠ k. 2xs : Variansi dalam-subjek untuk subjek ke-j, jx
2xs =
( )2
j
j
x x
n
−∑ (4.a)
Contoh 1:
Misalkan dimiliki data hipotetis untuk uji klinik terhadap pengobatan
baru untuk hipertensi. Pasien dibagi menjadi 2 kelompok, kelompok uji dan
kelompok kontrol. Tiap pasien akan diperiksa tekanan darah pada 3 kali
kunjungan, yaitu bulan ke-0, ke-2, dan ke-5. Dengan kesalahan tipe I sebesar
0.05 dan power 0.8, variansi dalam-subjek sebesar 4.22, serta perbedaan
tekanan darah minimum yang dianggap bermakna antara kedua kelompok
sebesar 0.5 mm Hg/bulan, maka:
Zα = 1.64 Zβ = 0.84
n = 3 d = 0.5
2xs = 4.22
m = ( ) ( )
22
2 2
2 1
x
Z Z
ns d
α β σ ρ+ −
= ( ) ( )
( )( )( )
2 22 1.64 0.84 1
3 4.22 0.25
σ ρ+ −
= 3.89 2σ ( )1 ρ−
Untuk beberapa nilai 2σ dan ( )1 ρ− , hasil perhitungan ukuran
sampel minimum per kelompok m yang dibutuhkan adalah:
ρ 2σ
100 200 300
0.2 313 625 937
0.5 195 391 586
0.8 79 157 235
108
Tampak bahwa tiap nilai tertentu 2σ , jika korelasi ρ meningkat
maka ukuran sampel yang dibutuhkan m mengecil.
Respons Biner
Untuk respons biner dengan 2 kelompok perbandingan A dan B,
diasumsikan:
P ( ijY = 1) = untuk grup
untuk grup
Aij
B
p AY
p B
i = 1, 2, . . . , m ; j = 1, 2, . . . , n
Diasumsikan pula struktur korelasi uniform (exchangeable), yaitu
Corr ( ijY ; ik
Y ) = ρ untuk j ≠ k, dan d adalah selisih minimum probabilitas
respons yang bermakna antara kedua kelompok perbandingan, maka ukuran
sampel minimum yang dibutuhkan per kelompok adalah:
m = { } ( ){ }
2
2
2 1 1B BA AZ pq Z p q p q n
nd
α β ρ+ + + − (5)
dengan: p = 2
BAp p+
; q = 1 − p (5.a)
Contoh 2:
Misalkan pada suatu studi longitudinal dengan 2 kelompok
perbandingan A dan B diasumsikan kesalahan tipe I adalah 0.05, power
adalah 0.8, pengukuran untuk tiap subjek dilakukan 3 kali, dan probabilitas
respons pada kelompok A adalah 0.5, maka:
Zα = 1.64 Zβ = 0.84
n = 3 Ap = 0.5
d = Bp − Ap
Jika data diasumsikan memiliki struktur korelasi exchangeable, maka
ukuran sampel minimum per kelompok yang dibutuhkan adalah:
m = { } ( ){ }
2
2
2 1 1B BA AZ pq Z p q p q n
nd
α β ρ+ + + −
109
=
( ) ( ){ } { }2
2 2
2
1.64 2 0.25 0.25 0.84 0.25 0.25 1 2
3
d d
d
ρ− + + − +
Untuk beberapa nilai ρ dan d, ukuran sampel minimum per
kelompok m yang dibutuhkan adalah:
ρ d
0.3 0.2 0.1
0.2 15 35 143
0.5 21 49 204
0.8 27 64 265
Tampak bahwa untuk tiap nilai d tertentu, membesarnya ukuran
korelasi ρ mengakibatkan bertambahnya ukuran sampel minimum per
kelompok yang dibutuhkan.