Influence Diagnostic
Transcript of Influence Diagnostic
Influence Diagnostics
Diagnosa Pengamatan Berpengaruh
Suliadi,PhD
Program Studi Statistika
Fakultas Matematika dan Ilmu Pengetahuan Alam
Universitas Islam Bandung
1 Pendahuluan
Analisis regresi merupakan salah satu metode statistika yang paling terkenal dan mungkin
paling banyak digunakan. Dalam analsis regresi, ingin ketahui hubungan fungsional
antara sekelompok peubah (yang biasanya disebut dengan peubah bebas/independen)
dengan peubah lainnya (yang biasanya disebut peubah tak bebas. Bentuk hubungan ini
biasanya dinyatakan dalam
y = f(x, β) + ε
= β0 + β1x1 + β2x2 + · · ·+ βkxk + ε.
atau dalam notasi matrik:
y = Xβ + ε
dengan β = (β0, β1, . . . , βk)T . Yang menjadi perhatian utama dalam model di tersebut
adalah bagaimana kita menduga parameter-parameter β0, β1, . . . , βk) yang tidak lain
merupakan koefisien dari intersep dan peubah bebas x1, x2, . . . , xk atau β dalam notasi
matrik. Metode yang paling umum dipergunakan adalah metode kuadrat terkecil (MKT,
OLS: ordinary least square). Dugaan bagi β dengan MKT adalah
β=β = b = (XTX)−1XTy. (1)
1
Dalam analisis regresi dengan menggunakan metode kuadrat terkecil (OLS, MKT)
adalah Asumsi yang perlu diperiksa
• Galat ε berdistribusi normalan sisaan dengan nilai tengah nol, E(εi) = 0.
• Ragam/varian dari galat homogen (homoskedastis). Ini dapat dinyatakan sebagai
Var(ε) = σ2I atau Var(ε1) =Var(ε2)=· · ·=Var(εn) = σ2
• Tidak ada autokorelasi diantara sisaan (hanya untuk time series data). Ini juga
dapat dinyatakan dalam bentuk kovariannya: Cov(εi, εj) = 0, untuk i 6= j.
• Tidak ada masalah multikolinier (hanya untuk multiple regression)
Dalam suatu analisis regresi, kita mungkin akan berhadapan dengan suatu penga-
matan yang agak aneh dalam arti bahwa pengamatan tersebut memberikan sisaan yang
besar atau pengamatan tersebut memberikan pengaruh yang besar terhadap koefisien
regresi hasil dugaan kita. Untuk itu kita perlu melakukan inspeksi ada tidaknya penga-
matan yang termasuk kategori pencilan (outlier) dan juga pengamatan yang sangat
berpengaruh.
Untuk mendeteksi pengamatan berpengaruh, kita bisa menggunakan dua ukuran
sebagai alat bantu, yaitu (i) pencilan (outlier) (ii) pengamatan berpengaruh.
1.1 Hat matrik
Vektor dugaan bagi y adalah
y = Xβ = Xb = X(XTX)−1XTy = Hy
di mana H = X(XTX)−1XT .
Matrik H ini disebut sebagai matrik hat (hat matrix) atau matrik proyeksi. Disebut
sebagai matrik proyeksi karena matrik ini akan memproyeksikan vektor pengamatan y
ke dalam ruang pendugaan y. Matrik hat ini memegang peranan penting dalam analisis
residual dan juga analisis pengamatan berpengaruh (influence diagnostics).
Sifat-sifat matrik hat adalah:
2
1. Simetris: HT = H (buktikan)
2. Idempoten H.H = H (buktikan)
3. HX = X (buktikan)
4. Jumlah unsur-unsur diagonal matrik H adalah p, Trace(H)=∑n
i=1 hii = p, di mana
p banyaknya kolom matrik X. Jika banyaknya peubah bebas adalah k dan model-
nya ada intersep, maka p = k + 1.
5. Nilai hii = xTi (XTX)−1xi tidak lain adalah jarak antara peubah bebas pengamatan
ke-i dengan rata-ratanya, atau jarak xi ke x. Nilai hii ini disebut sebagai leverage.
Semakin besar nilai hii mengindikasikan semakin jauhnya x pengamatakan ke-i
dari kumpulannya. Hal ini mengindikasikan sebagai pencilan, tetapi bukan dari
sudut pandang peubah respon (y) (Ruang Y), akan tetapi dari sudut pandang
ruang peubah bebas (Ruang X). Jadi jika hii besar menunjukkan adanya pencilan
dari ruang X (ruang peubah bebas).
6. Jika model regresi kita mengandung konstanta/intersep, maka 1n≤ hii ≤ 1.0.
Leverage (hii) dapat dijadikan indikator terhadap pengamatan berpengaruh. Hal ini
disebabkan hii mengukur jarak (terstandarkan) dari pengamatan semua peubah bebas
terhadap rata-rata semua peubah bebas. Nilai hii besar menunjukkan bahwa peubah be-
bas pengamatan ke-i jauh dari kumpulannya, sehingga berpotensi menjadi pengamatan
yang berpengaruh. Jadi nilai hii yang besar tidak menjadi jaminan bahwa pengamatan
ke-i tersebut adalah pengamatan yang berpengaruh. Perhatikan Gambar 1.1 terkait den-
gan high leverage point. Perhatikan titik pengamatan A pada gambar (a). Pengamatan
ini memiliki leverage (hii) yang besar karena jika dilihat pada sumbu X (ruang peubah
bebas) pengamatan ini jauh dari kumpulannya. Pengamatan B pada gambar (b) juga
merupakan high leverage point, sebab dilihat daru ruang X, pengamatan ini juga jauh
dari kelompoknya.
Meskipun kedua pengamatan tersebut adalah high leverage point, tetapi sifatnya
bebeda. Pengamatan A bukanlah pengamatan yang berpengaruh sebab ada atau tidaknya
3
Figure 1: High Leverage Point
Figure 2: Efek High Leverage Point
pengamatan A tidak mengubah garis regresi secara drastis. Sedangkan pengamatan B
adalah pengamatan berpengaruh. Hal ini disebabkan jika pengamatan B tidak diikut-
sertakan dalam pendugaan / penaksiran parameter regresi, maka koefisien regesi hasil
pendugaan kita akan berubah drastis (lihat Gambar 1.1)
1.2 Sisaan dalam notasi hat matrik
Dengan model untuk populasi y = Xβ + ε, maka model untuk sampelnya adalah
y = Xb+ e,
4
di mana b = (XTX)−1XTy. Sedangkan y = Xb = Hy . Dengan menggunakan hat
matrik di atas maka
e = y − y (2)
= y −Hy (3)
= (I −H)y (4)
Sifat-sifat matrik I −H adalah:
1. Simetris: (I −H)T = (I −H) (buktikan)
2. Idempoten (I −H).(I −H) = (I −H) (buktikan)
3. (I −H)X = 0
4. Var(e)=σ2(I − H). Dengan kata lain, Var(ei)=σ2 · (1 − hii) di mana hii adalah
diagonal ke-i matrik H. Perhatikan hasil ini. Meskipun kita asumsikan bahwa
ragam error (galat, ε) adalah homogen, ternyata sisaan ragamnya tidak homogen,
tetapi tergantung kepada nilai hii.
5. Cov(ei, ej)=σ2 · (−hij) untuk i 6= j, dengan kata lain ada korelasi antara ei dengan
ej dan ini bertentangan dengan asumsi regresi MKT.
2 Macam-macam Sisaan
Sisaan atau residual, ei adalah selisih antara pengamatan dengan nilai dugaan atau (yi−
yi). Sisaan memagang peranan penting dalam analisis regresi. Meskipun sisaan tidak ada
gunanya dalam prediksi maupun dalam model, akan tetapi sisaan dapat dipergunakan
untuk melihat berbagai hal:
1. melihat ketepatan model
2. melihat apakah ada asumsi-asumsi regresi MKT yang dilanggar
3. perlunya tindakan tertentu, seperti pengecekan data, maupun transformasi yang
diperlukan.
5
Ada tiga jenis sisaan yang biasa dipakai, yaitu sisaan biasa (ordinary residual) dan
biasa dikenal dengan ”sisaan” saja, yang dinotasikan dengan
ei = yi − yi.
dengan V ar(ei) = S2(1− hii). Oleh karena kita tidak tepat membandingkan apakah ei
dengan ej sebab ragam/varian dari ei dengan ej tidak sama. Oleh karena itu dalam mem-
bandingkan sisaan dan juga plot sisaan sebaiknya menggunakan sisaan yang dibakukan
yang disebut juga dengan standardized residual atau studentized residual, yang diny-
atakan dengan
ri =ei
s√
1− hii. (5)
Karena itu sekarang semua studentized residual ini (semua ri: r1, r2, . . . , rn) mempunyai
nilai tengah (rata-rata) sama dengan nol dan ragam sama dengan satu. Dengan demikian
kita bisa membandingkan apakah sisaan tersebut sama atau tidak, yang satu lebih besar
dari yang lain, dengan membandingkan studentized residual ini. studentized residual ini
tidak mempunyai skala, sehingga kita bisa membandingkan satu sama lainnya. Meskipun
rumus ri sama dengan rumus t-hitung, ri tidak berdistribusi t-student, tetapi hampir
mendekati distribusi t-student.
Kelemahan dari studentized residual di atas adalah bahwa studentized residual tidak
berdistribusi t-student, sehingga kita tidak dapat menguji apakah suatu ri termasuk
kategori pencilan atau tidak.
Ukuran sisaan lainnya adalah studentized deleted residual yang juga dikenal sebagai
R-student, yang dinyatakan sebagai
ti =yi − yi
s−i√
1− hii, (6)
di mana
s−i =
√(n− p)s2 − e2i /(1− hii)
n− p− 1. (7)
Besaran ti ini berdistribusi t-student dengan derajat bebas (n-p-1). Oleh karena itu
untuk melihat apakah pengamatan (observasi) ke-i menghasilkan pencilan atau tidak
adalah dengan membandingkan ti dengan tabel t-student, dengan kriteria
6
• Pengamatan ke-i adalah pencilan jika |ti| ≥ t(1−α2,n−p−1);
• Pengamatan ke-i adalah bukan pencilan jika |ti| < t(1−α2,n−p−1);
2.1 Panduan deteksi pengamatan yang tak biasa
Dalam pendeteksian pengamatan yang tidak biasa (unusula observation) kita bisa meng-
gunakan dua besaran yaitu pencilan (outlier) dan high leverage.
Pada bagian 2 di atas, untuk mendeteksi apakah suatu pengamatan merupakan pen-
cilan atau tidak adalah dengan menggunakan besaran studentized deleted residual, ti.
Nilai ti yang besar ini berpotensi sebagai pengamatan yang berpengaruh. Sedangkan
untuk melihat pengamatan yang tidak biasa dalam ruang X atau ruang peubah bebas,
kita bisa menggunakan leverage yaitu hii. Nilai hii yang besar berarti pengamatan terse-
but termasuk pencilan dalam ruang pebuah bebas atau ruang X. Patokan yang dapat
dipergunakan adalah jika hii > 2p/n, maka pengamatan tersebut merupakan pencilan
(dilihat dalam ruang X), dan perlu diwaspadi karena berpotensi sebagai pengamatan
yang berpengaruh. Sedangkan jika hii ≤ 2p/n maka pengamatan tersebut bukan meru-
apakan pencilan dalam ruang X.
Yang perlu digarisbawahi adalah (Myers, 1990 p.254)
a Pencilan (outlier) tidak selalu merupakan pengamatan yang berpengaruh, dan ter-
gantung pada besarnya leverage
b Pengamatan dengan leverage yang besar tidak selalu merupakan pengamatan berpen-
garuh.
c Pengamatan yang berpengaruh tidak selalu merupakan outlier.
3 Pengamatan Berpengaruh
Dalam pendugaan parameter model regresi, kondisi idealnya adalah bahwa semua penga-
matan memberikan pengaruh yang sama besar terhadap nilai dugaan parameter. Akan
tetapi falam praktek, sering kali kita temui satu pengamatan atau beberapa pengamatan
7
Figure 3: Pengamatan dengan high leverage (a) dan (b) pengamatan pencilan (outlier)
memberikan pengaruh besar terhadap model regresi. Pengamatan yang besar pengaruh-
nya ini mungkin disebabkan oleh adalah pencilan. Meskipun demikian, pencilan yang
besar tidak selalu menjadikan pengamatan tersebut sebagai pengamatan yang berpen-
garuh. Perhatikan gambar berikut ini (Gambar 3). Pada Gambar 3 di atas, gambar (a)
ada satu titik dengan nilai leverage yang sangat besar. Pengamatan ini sangat menen-
tukan besarnya nilai dugaan β. Jika titik ini dibuang, maka model persamaan dugaan
akan berubah secara drastis.
Perhatikan gambar (b). Pada gambar (b) ada satu pengamatan dengan sisaan yang
besar, yang kita kenal sebagai pencilan (outlier). Meskipun pengamatan tersebut terma-
suk pencilan, akan tetapi pengaruh dari pengamatan tersebut terhadap β kecil, sehingga
pengamatan pada gambar (b) tidak termasuk pengamatan yang berpengaruh. Lantas
apa yang dimaksud sebagai pengamatan yang berpengaruh dan bagaimana cara kita
mendeteksinya?
Perhatikan Gambar ??. Termasuk kategori outlier, high leverage ataukah keduanya
titik-titik A, B, dan C? Jika titik-titik tersebut dibuang, apa yang akan terjadi? Apakah
koefesien regresi akan berubah drastis atau tidak?
Untuk memahami konsep pengamatan berpengaruh sebenarnya sederhana. Pada
kondisi yang ideal, semua pengamatan akan memberikan kontribusi yang sama (hampir
sama). Oleh karena itu, jika semua pengamatan pengaruhnya hampir sama, maka jika
ada satu pengamatan dibuang, maka efek terhadap dugaan β dan yi juga akan kecil.
8
Figure 4: Berbagai Kemungkinan Pengamatan dengan high leverage dan pencilan (out-
lier)
Jika suatu pengamatan pengaruhnya besar, maka kalau pengamatan tersebut dibuang
(tidak diikutsertakan dalam penaksiran β) maka ada perbedaan yang besar antara β
yang penaksirannya memasukkan data tersebut, dengan β yang penaksirannya tanpa
memasukkan pengamatan yang bersangkutan.
3.1 Konsep deleted observation
Untuk mengetahui apakah pengamatan ke-i termasuk pengamatan berpengaruh atau
tidak, kita bisa melakukannya dengan melihat apakah ada perbedaan besar antara hasil
regresi dengan data full dengan regresi tanpa pengamatan ke-i. Untuk memudahkan,
kita akan menggunakan notasi-notasi berikut ini.
Dari analisis regresi dengan data full, kita akan memperoleh
yi : nilai dugaan untuk pengamatan ke-i
bbb : vektor koefisien regresi bbb = (b0, b1, . . . , bk)T
bj : koefisien regresi peubah bebas ke-j
ei : sisaan pengamatan ke-i = yi − yis : simpangan baku
Sedangkan regresi tanpa pengamatan ke-i atau pengamatan ke-i tidak diikutsertakan
dalam penaksiran/pendugaan parameter regresi:
9
yr,−i : nilai dugaan untuk pengamatan ke-r dengan menggunakan model yang diperoleh tanpa pengamatan ke-i
bbb−i : vektor koefisien regresi bbb−i = (b0,−i, b1,−i, . . . , bk,−i)T yang diperoleh tanpa pengamatan ke-i
bj,−i : koefisien regresi peubah bebas ke-j yang diperoleh tanpa pengamatan ke-i,
er,−i : sisaan pengamatan ke-r, jika penaksiran model tanda data ke-i = yr − yr,−i
s−i : simpangan baku yang diperoleh dari regresi tanpa data ke-i
Jadi untuk melihat apakah setiap pengamatan, yaitu pengamatan ke-1, pengamatan
ke-2, · · · , pengamatan ke-n merupakan pengamatan yang berpengaruh atau tidak, (se-
cara teoritis) adalah dengan membuat regresi sebanyak n kali.
1. Buang data ke-1, dan regresikan y vs x tanpa data ke-1 dan diperoleh bbb−1 =
(b0,−1, b1,−1, . . . , bk,−1)T . Hitungy1,−1 dan yang lainnya.
2. Masukkan kembali data ke-1, sehingga data jadi full kembali. Buang pengamatan
ke-2 dan buat regresi tanpa pengamatan ke-2, dapatkan bbb−2 = (b0,−2, b1,−2, . . . , bk,−2)T
. Hitungy2,−2 dan yang lainnya.
3. dst untuk pengamatan ke-3.
4. lakukan sampai data ke-n.
3.2 DFFITS
Konsep dari DFFITS adalah ingin melihat besarnya perubahan yang terjadi terhadap fit atau nilai dugaan
(y) pengamatan pengamatan ke-i jika pengamatan ke-i tidak diikutsertakan dalam pen-
dugaan model. Rumus DFFITS adalah
DFFITSi =yi − yi,−is−i√hii
. (8)
Perhatikan rumus di atas. Nilai y adalah nilai dugaan y untuk pengamatan ke-i di mana
koefisien regresi diduga dengan menggunakan data full.
yi = b0 + b1x1i + · · ·+ bkxki.
Sedangkan yi,−i adalah nilai dugaan pengamatan ke-i, dimana koefisien regresi diduga
tanpa menggunakan pengamatan ke-i.
yi,−i = b0,−i + b1,−ix1i + · · ·+ bk,−ixki.
10
Sebagai contoh untuk pengamatan ke-1:
y1 = b0 + b1x11 + · · ·+ bkxk1 dan y1,−1 = b0,−1 + b1,−1x11 + · · ·+ bk,−1xk1.
di mana b0,−1, b1,−1, . . . , bk,−1 adalah koefisen regresi yang diperoleh jika pengamatan
ke-1 tidak disertakan dalam penaksiran koefisien regresi.
NilaiDFFITSi yang besar menunjukkan adanya perubahan yang besar ketika penga-
matan ke-i dibuang atau tidak disertakan dalam pendugaan parameter model. Dengan
kata lain, jika DFFITSi besar berarti pengamatan ke-i berpengauh besar terhadap
pendugaan nilai respon y (y fit) nya.
Software statistika yang bisa menampilkan nilai DFFITS antara lain SAS dan Minitab.
Dalam perhitungannya, software tidak melakukan perhitungan berulangkali sampai n
kali, tetapi DFFITS untuk i = 1, 2, . . . , n dihitung menggunakan hasil dari regresi den-
gan data full dengan rumus:
DFFITSi = (R− Student)i[
hii1− hii
]1/2(9)
di mana s−i dihitung dengan menggunakan rumus (7).
Dari rumus di atas nampak bahwa DFFITS dipengaruhi oleh R-Student yang meru-
pakan ukuran pencilan (dalam ruang y atau ruang respon) dan hii yang merupakan
indikator pencilan dalam ruang X atau ruang peubah bebas. DFFITS akan besar jika
R-student besar dan hii besar atau hii dekat dengan 1.0.
Sedanhkan jika hii dekat dengan nol, maka DFFITS akan kecil, dengan kata lain
jika nilai peubah bebas dekat dengan rata-rata peubah bebas, maka kemungkinannya
DFFITS akan kecil (Dengan kata lain pengamatan tersebut pengaruhnya kecil) terhadap
prediksi.
3.3 DFBETAS
Konsep DFBETAS sama dengan konsep DFFITS. Dalam DFBETAS yang ingin dil-
ihat adalah bagaimana besar pengaruh pengamatan ke-i terhadap koefisien regresi.
DFBETASi menunjukkan besarnya perubahan atau perbedaan koefisien regresi yang
11
diperoleh denggan menggunakan data full dengan koefisien regresi yang diperoleh tanpa
menggunakan data ke-i.
DFBETASi yang besar menunjukkan pengamatan ke-i punya pengaruh besar, sebab
jika tidak diikutkan dalam penaksiran mengakibatkan koefisien regresi berubah drastis.
Untuk model regresi dengan konstanta serta sebanyak k peubah bebas, maka akan ada
p = k + 1 koefisien regresi. Untuk koefisien regresi ke-j, j = 0, 1, 2, . . . , k, maka DFBE-
TAS untuk pengamatan ke-i adalah
DFBETASj,i =bj − bj,−is−i√cjj
(10)
di mana cjj adalah unsur diagonal ke-j matrik (XTX)−1. Karena bj,−i adalah koe-
fisien regresi peubah bebas ke-j yang diperoleh tanpa mengikutsertakan pengamatan
ke-i, maka DFBETASj,i dapat diartikan sebagai besarnya perubahan yang terjadi ter-
hadap koefisen regresi bj jika pengamatan ke-i tidak diikutsertakan dalam pendugaan
model regresi. Nilai DFBETASj,i besar menunjukkan bahwa pengamatan ke-i berpen-
garuh besar terhadap koefisien regresi ke-j atau bj.
Untuk setiap koefisien regresi ke-j, kita bisa mendapatkan n nilai DFBETASj. Jadi
secara keseluruhan kita bisa mendapatkan n × (k + 1) = n × p nilai DFBETAS. Dari
nilai-nilai tersebut kita bisa melihat pengamatan mana saja yang pengaruhnya besar
dan koefisien apa saja yang dipengaruhi oleh pengamatan tersebut.
3.4 Cook’s Distance atau Cook’s D
Dalam DFBETAS akan ada p = k + 1 nilai DFBETAS untuk setiap pengamatan ke-
i, yaitu DFBETAS0,i, DFBETAS1,i, DFBETAS2,i,. . ., DFBETASk,i. Keseluruhan nilai
DFBETAS ini dapat disatukan menjadi satu nilai yang disebut sebagai Cook’s distance
yang didefnisikan sebagai:
Di =(b− b−i)T (XTX)(b− b−i)(b− b−i)T (XTX)(b− b−i)(b− b−i)T (XTX)(b− b−i)
ps2. (11)
Besaran Di ini menunjukan jarak antara vektor koefisien regresi yang diperoleh dengan
data full (yaitu bbb dengan vektor koefisien regresi yang diperoleh tanpa pengamatan ke-
i (yaitu bbb−i). Dengan demikian nilai Di yang besar menunjukkan besarnya pengaruh
pengamatan ke-i terhadap keseluruhan koefisien regresi.
12
3.5 COVRATIO
COVRATIO ke-i adalah rasio antara determinan varian tanpa pengamatan ke-i den-
gan determinan varian data full. Jika COVRATIO ke-i nilainya besar maka hal itu
menunjukkan pengamatan tersebut berpengaruh besar terhadap varian.
(COV RATIO)i =|(XT
−iX−i)−1s2−i|
|(XTX)−1s2|.
4 Nilai-nilai Patokan
Ketika kita dihadapakan pada nilai-nilai RSTUDENT, DFFITS dan DFBETAS, maka
pertanyaan yang muncul adalah bagaimana kita menentukan apakah suatu pengamatan
atau pengamatan ke-i merupakan suatu pengamatan berpengaruh atau bukan. Disini
kita perlu suatu angka yang menjadi batas apakah pengamatan dianggap sebagai penga-
matan berpengaruh atau bukan. Berikut ini patokan berdasarkan Belsley, et al. (2004,
Chap. 2) dan Myers (1990):
• Leverage hii. Jika hii > 2p/n maka pengamatan ke-i merupakan pencilan dalam
ruang X, dimana p = k + 1.
• Rstudent, ti. Jika |ti| > t(1−α/2,n−p−1), maka pengamatan ke-i adalah pencilan
dalam ruang Y
• COVRATIO. Jika COV RATIO > 1 + 3(p/n) atau COV RATIO < 1 − 3(p/n)
maka pengamatan tersebut perlu diwaspadai sebagai pengamatan berpengaruh.
Aturan rasio covarian ini berlakua hanya jika n > 3p.
• DFBETAS. Jika DFBETAS > 2/√n maka pengamtan tersebut adalah penga-
matan berpengaruh.
• DFFITS. Jika DFFITS > 2√p/n maka pengamtan tersebut adalah pengamatan
berpengaruh.
Hoffmann (2010, Chap. 12) memberikan patokan cut-off bagi ukuran influence observa-
tion, sebagai berikut. Pengamatan ke-i dianggap pencilan jika (Catatan p = k + 1)
13
• Untuk Studentized deleted residual atau RStuden ti: |ti| > 2 ==> ti < −2 atau
ti > 2
• Cook’s Distance: Cook′sD > 4/[n − k − 1] atau Cook′sD > 4/[n − p]. Sebagai
contoh untuk model dengan tiga peubah bebas dengan ukuran sample 75, maka
Cook’s Distance > 4/[75−3−1] = 0.056 merupakan indikasi pengamatan tersebut
adalah pengamatan berpengaruh.
• DFFITS: DFFITS > 2√
(k + 1)/n atau DFFITS > 2√p/n. Sebagai con-
toh untuk model dengan tiga peubah bebas dengan ukuran sample 75, maka
|DFFiTS| > 2√
(3 + 1)/75 = 0.46 merupakan indikasi pengamatan tersebut
adalah pengamatan berpengaruh.
5 Influence Diagnostic Dengan Software Statistika
5.1 Influence Diagnostic dengan Minitab
Pada seksi ini akan dibahas bagaimana diagnosis pengamatan berpengaruh dengan
menggunakan Minitab. Kali ini Minitab yang dipergunakan adalah Minitab versi 14.
Untuk versi yang lain, perintahnya tidak jauh berbeda.
Untuk melakukan diagnosis pengematan berpengaruh dengan menggunakan Minitab,
langkah langkahnya adalah sebagai berikut.
(i) Masuk ke Menu STAT, kemudian pilih REGRESSION, pilih lagi REGRESSION.
Akan muncul jendela seperti Gambar 5.
(ii) Masukkan Peubah Respon (peubah tak bebas) serta Peubah Bebas yang dikehen-
daki.
(iii) Untuk menyimpan beberapa nilai yang dapat dipergunakan untuk diagnosis penga-
matan berpengaruh, klik tombol STORAGE. Selanjutnya akan muncul jendela
seperti Gambar 6.
14
Figure 5: Jendela Analisis Regresi pada Minitab
Figure 6: Jendela untuk Menyimpan Nilai untuk Influence Diagnostic
15
Figure 7: Worksheet Minitab yang Menunjukkan Bebebrapa Nilai yang Disimpan
(iv) Tidak semua ukuran untuk diagnosis pengamatan berpengaruh dapat dikeluarkan
oleh Minitab. Beberapa nilai yang dapat disimpan diantaranya adalah
• Standardized Residual (yang kita sebut juga dengan studentized residual)
• Deleted t residual (yang kita sebut juga dengan studentized deleted residual
atau RStudent)
• Hi (leverage)
• Cook’s D (atau cook’s distance)
• DFFITS
(v) Check untuk setiap nilai yang kita inginkan dan tekan tombol OK.
(vi) Kembali ke jendela regressi, tekan tombol OK.
(vii) Nilai-nilai yang disimpan tersebut dapat dilihat pada windows data (lihat Gambar
7), kemudian bisa kita copy ke Excel atau MS Word (lihat Tabel 1).
5.2 Influence Diagnostic dengan SAS
SAS juga dapat dipergunakan untuk melakukan diagnosis pengamatan berpengaruh.
Perintah untuk mengeluarkan ukuran/nilai untuk influence diagnosis menyatu dengan
PROC REG. Perintah khususnya adalah option command pada pernyataan MODEL
16
Table 1: Hasil Keluaran MinitabNo SRES1 TRES1 HI1 COOK1 DFIT1
1 -0.35700 -0.35042 0.32553 0.01230 -0.24344
2 0.24301 0.23818 0.09273 0.00121 0.07615
3 0.61596 0.60782 0.09557 0.00802 0.19758
4 2.58119 2.97297 0.42415 0.98146 2.55148
5 -0.28251 -0.27702 0.17370 0.00336 -0.12701
6 0.32246 0.31636 0.15524 0.00382 0.13562
7 -0.29914 -0.29339 0.19171 0.00425 -0.14288
8 -1.36996 -1.39685 0.20237 0.09524 -0.70359
9 -1.82715 -1.92778 0.07942 0.05760 -0.56623
10 -1.23039 -1.24436 0.06693 0.02172 -0.33326
11 -0.16519 -0.16181 0.05104 0.00029 -0.03753
12 -1.15867 -1.16739 0.06175 0.01767 -0.29949
13 -0.23511 -0.23042 0.08878 0.00108 -0.07193
14 0.17486 0.17129 0.23021 0.00183 0.09367
15 -0.40521 -0.39804 0.10154 0.00371 -0.13382
16 1.12869 1.13547 0.37689 0.15411 0.88309
17 0.11509 0.11269 0.16063 0.00051 0.04930
18 -1.72987 -1.81005 0.19365 0.14373 -0.88702
19 1.21348 1.22614 0.13060 0.04424 0.47522
20 0.00325 0.00318 0.10887 0.00000 0.00111
21 0.79649 0.79023 0.08274 0.01145 0.23734
22 2.12878 2.31383 0.26839 0.33248 1.40142
23 0.68995 0.68222 0.12284 0.01333 0.25531
24 -1.68342 -1.75484 0.30988 0.25450 -1.17590
25 -0.38830 -0.38132 0.30794 0.01342 -0.25436
26 0.39443 0.38738 0.16957 0.00635 0.17505
27 0.47479 0.46699 0.15133 0.00804 0.19720
28 -0.11184 -0.10951 0.12552 0.00036 -0.04149
29 0.94597 0.94382 0.15051 0.03171 0.39728
17
pada PROC REG yaitu sub command INFLUENCE. Pernyataan INFLUENCE pada
perintah MODEL secara otomatis akan mengeluarkan nilai-nilai
(i) Residual/ sisaan : ei = yi − yi
(ii) RStudent atau studentized deleted residual
(iii) Leverage atau hii atau diagonal matrik hat
(iv) COVRATIO
(v) DFFITS
(vi) DFBETAS
PROC REG DATA=....;
MODEL Y = X X X/INFLUENCE;
RUN;
Berikut ini contoh analisis dengan SAS;
Data Regression;
input heatflux insolation east south north;
cards;
271.8 783.35 33.53 40.55 16.66 13.20
264.0 748.45 36.50 36.19 16.46 14.11
238.8 684.45 34.66 37.31 17.66 15.68
230.7 827.80 33.13 32.52 17.50 10.53
251.6 860.45 35.75 33.71 16.40 11.00
257.9 875.15 34.46 34.14 16.28 11.31
263.9 909.45 34.60 34.85 16.06 11.96
266.5 905.55 35.38 35.89 15.93 12.58
229.1 756.00 35.85 33.53 16.60 10.66
239.3 769.35 35.68 33.79 16.41 10.85
258.0 793.50 35.35 34.72 16.17 11.41
257.6 801.65 35.04 35.22 15.92 11.91
267.3 819.65 34.07 36.50 16.04 12.85
267.0 808.55 32.20 37.60 16.19 13.58
18
259.6 774.95 34.32 37.89 16.62 14.21
240.4 711.85 31.08 37.71 17.37 15.56
227.2 694.85 35.73 37.00 18.12 15.83
196.0 638.10 34.11 36.76 18.53 16.41
278.7 774.55 34.79 34.62 15.54 13.10
272.3 757.90 35.77 35.40 15.70 13.63
267.4 753.35 36.44 35.96 16.45 14.51
254.5 704.70 37.82 36.26 17.62 15.38
224.7 666.80 35.07 36.34 18.12 16.10
181.5 568.55 35.26 35.90 19.05 16.73
227.5 653.10 35.56 31.84 16.51 10.58
253.6 704.05 35.73 33.16 16.02 11.28
263.0 709.60 36.46 33.83 15.89 11.91
265.8 726.90 36.26 34.89 15.83 12.65
263.8 697.15 37.20 36.27 16.71 14.06
;
proc reg data=regression;
model heatflux=insolation east south north/influence;
run;
Berikut ini output SAS dari perintah di atas.
The REG Procedure
Model: MODEL1
Dependent Variable: heatflux
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 4 13080 3270.00740 48.99 <.0001
Error 24 1601.89866 66.74578
Corrected Total 28 14682
Root MSE 8.16981 R-Square 0.8909
Dependent Mean 249.63793 Adj R-Sq 0.8727
19
Coeff Var 3.27266
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Intercept 1 270.21013 88.21060 3.06 0.0053
insolation 1 0.05156 0.02685 1.92 0.0668
east 1 2.95141 1.23167 2.40 0.0247
south 1 5.33861 0.91506 5.83 <.0001
north 1 -21.11940 2.36936 -8.91 <.0001
The REG Procedure
Model: MODEL1
Dependent Variable: heatflux
Output Statistics
Hat Diag Cov
Obs Residual RStudent H Ratio DFFITS
1 -2.3953 -0.3504 0.3255 1.7860 -0.2434
2 1.8910 0.2382 0.0927 1.3469 0.0761
3 4.7858 0.6078 0.0956 1.2631 0.1976
4 16.0025 2.9730 0.4241 0.4226 2.5515
5 -2.0981 -0.2770 0.1737 1.4725 -0.1270
6 2.4213 0.3164 0.1552 1.4330 0.1356
7 -2.1972 -0.2934 0.1917 1.5022 -0.1429
8 -9.9959 -1.3968 0.2024 1.0323 -0.7036
9 -14.3224 -1.9278 0.0794 0.6355 -0.5662
10 -9.7098 -1.2444 0.0669 0.9572 -0.3333
11 -1.3147 -0.1618 0.0510 1.2963 -0.0375
12 -9.1692 -1.1674 0.0618 0.9888 -0.2995
13 -1.8335 -0.2304 0.0888 1.3421 -0.0719
14 1.2534 0.1713 0.2302 1.5969 0.0937
15 -3.1379 -0.3980 0.1015 1.3305 -0.1338
16 7.2789 1.1355 0.3769 1.5115 0.8831
20
17 0.8614 0.1127 0.1606 1.4698 0.0493
18 -12.6908 -1.8100 0.1936 0.7883 -0.8870
19 9.2439 1.2261 0.1306 1.0368 0.4752
20 0.0250 0.003179 0.1089 1.3883 0.0011
21 6.2321 0.7902 0.0827 1.1797 0.2373
22 14.8759 2.3138 0.2684 0.5939 1.4014
23 5.2792 0.6822 0.1228 1.2760 0.2553
24 -11.4253 -1.7548 0.3099 0.9564 -1.1759
25 -2.6390 -0.3813 0.3079 1.7322 -0.2544
26 2.9365 0.3874 0.1696 1.4421 0.1750
27 3.5734 0.4670 0.1513 1.3905 0.1972
28 -0.8544 -0.1095 0.1255 1.4110 -0.0415
29 7.1231 0.9438 0.1505 1.2043 0.3973
Output Statistics
--------------------------DFBETAS--------------------------
Obs Intercept insolation east south north
1 0.0471 -0.0046 0.0173 -0.2117 0.0494
2 -0.0341 0.0021 0.0523 0.0374 -0.0112
3 -0.0320 -0.0428 -0.0117 0.0794 0.0453
4 0.2438 1.1234 -0.9944 -1.8250 1.4949
5 0.0532 -0.0982 -0.0422 0.0469 -0.0629
6 -0.0181 0.0965 -0.0116 -0.0537 0.0503
7 0.0461 -0.1172 -0.0112 0.0185 -0.0480
8 0.3919 -0.5688 -0.2696 -0.1587 -0.1686
9 -0.0510 -0.0453 -0.0845 0.3712 -0.0901
10 -0.0493 -0.0275 -0.0343 0.1960 -0.0088
11 -0.0037 -0.0064 -0.0030 0.0080 0.0071
12 -0.0770 -0.0018 0.0254 -0.0096 0.1442
13 -0.0130 -0.0083 0.0231 -0.0247 0.0264
14 0.0431 -0.0138 -0.0670 0.0261 -0.0359
15 0.0208 -0.0057 0.0091 -0.0988 0.0248
16 0.5020 -0.3174 -0.7686 0.0393 -0.1390
17 -0.0337 0.0137 0.0219 0.0138 0.0337
18 0.0316 0.1650 0.2212 0.0236 -0.4303
21
19 0.3380 -0.2295 -0.1803 -0.0661 -0.3753
20 0.0004 -0.0005 0.0001 0.0002 -0.0009
21 -0.1051 0.0159 0.1627 0.1005 -0.0283
22 -1.1236 0.4250 1.2006 0.4056 0.6615
23 -0.0718 -0.0118 0.0178 0.0056 0.1472
24 0.1040 0.3191 0.0148 0.1868 -0.5799
25 -0.1814 0.1606 0.0835 0.1768 0.0825
26 0.1221 -0.1132 -0.0382 -0.0856 -0.0990
27 0.0911 -0.1185 0.0199 -0.0438 -0.1245
28 -0.0145 0.0231 -0.0070 -0.0032 0.0299
29 -0.1560 -0.0769 0.2829 0.1779 -0.0607
Sum of Residuals 0
Sum of Squared Residuals 1601.89866
Predicted Residual SS (PRESS) 2847.16749
5.3 Influence Diagnostic dengan SPSS
SPSS menyediakan cukup lengkap untuk keperluan influence diagnostic. Langkah-
langkah untuk mengeluarkan influence diagnostic dilakukan melalui perintah regres.
Dari jendela regresi dilanjutkan dengan meng-klik tomobol SAVE. Lihat Gambar 8.
Setelah tombol SAVE di-klik selanjutnya muncul jendela penyimpanan (lihat Gambar
9). Kita bisa menyimpan nilai-nilai yang kita inginkan. Ada
Untuk keperluan influence diagnostic, nilai-nilai yang bisa dikeluarkan oleh SPSS
antara lain:
(i) Unstandardized residual sama dengan residual biasa
(ii) Studentized residual (pada bahasan kita di atas sama dengan standardized residual
atau studentized)
(iii) Studentized deleted (pada bahasan kita di atas sama dengan RStudent atau stu-
dentized deleted residual)
(iv) Cook’s atau cook’s distance
22
Figure 8: Jendela Regresi SPSS
(v) Leverage value atau hii
(vi) Standardized DfBetas atau DFBETAS
(vii) Standardized DfFit atau DFFITS
(viii) Covariance ratio.
23
Figure 9: Jendela Untuk Menyimpan Nilai-nilai yang Dikehendaki
24