Outlier P ada Analisis Regresi
description
Transcript of Outlier P ada Analisis Regresi
Outlier Pada Analisis Regresi
By Eni Sumarminingsih, SSi, MM
Pendahuluan
Tujuan dari Analisis Regresi adalah mengepas persamaan pada peubah yang terobservasi
Model regresi linier klasik mengasumsikan hubungan berikut :
Dimana n adalah ukuran contohVariabel xi1, …, xip adalah variabel penjelas dan yi
adalah variabel respon
Pada theori klasik diasumsikan eror ei menyebar normal dengan rata – rata nol dan ragam 2
Jadi dengan analisis regresi kita menduga parameter
Dari data
Dengan menggunakan metode penduga regresi pada data tersebut didapatkan
Dimana adalah koefisien regresi adalah nilai duga y yang didapat dari
persamaan berikut
Residual ri dari amatan ke I adalah selisih antara y observasi dan y dugaan
Metode Kuadrat Terkecil (MKT) atau Ordinary Least Square (OLS) adalah metode paling populer untuk menduga parameter model regresi
Ide dasar metode OLS adalah mencari nilai duga paramete yang meminimumkan Jumlah Kuadrat Galat
Efek Outlier pada Regresi Linier Sederhana
Model Regresi Linier Sederhana
Misal kita memiliki 5 observasi (x1,y1),…, (x5,y5) yang jika diplotkan akan tampak seperti berikut : setiap titik sangat dekat dengan garis regresi
Misalkan terdapat kesalahan penulisan y4, maka titik (x4,y4) akan terletak jauh dari garis idealnya.
Titik ini dinamakan outlier dalam y, dan mempengaruhi garis LS
Outlier juga dapat terjadi dalam X. Berikut adalah plot dari 5 titik (x1,y1), … (x5,y5) berikut garis LS-nya
Misalkan kita membuat kesalahan dalam mencatat x1 sehingga maka kita dapatkan gambar berikut
Titik (x1,y1) dinamakan outlier dalam arah x dan efeknya pada penduga LS sangat besar karena merubah garis LS.
Titik (x1,y1) disebut leverage point
Perhatikan bahwa (xk,yk) dalam gambar berikut bukan leverage point. Mengapa?
Breakdown Point
Misalkan terdapat sample dengan n titik data
Dan misalkan T adalah penduga regresi sehingga Misalkan Z’ adalah sample yang didapat dari Z
dimana m titik dalam Z diganti dengan titik – titik yang sembarang (ada kemungkinan outlier)
Notasikan bias(m; T, Z) adalah bias maksimum yang dapat disebabkan oleh kontaminasi tersebut
Jika bias (m;T, Z) infinite berarti m outlier dapat memiliki efek yang besar pada T atau dapat dikatakan bahwa estimator “breaks down”
Breakdown point dari estimator T pada sample Z didefinisikan sebagai
Dengan kata lain, break down point adalah proporsi kontaminasi terkecil yang dapat menyebabkan estimator T menghasilkan yang cukup jauh dari T(Z)
Breakdown point untuk MKT (OLS) adalah
Karena telah kita lihat bahwa satu outlier sudah dapat merubah nilai koefisien regresi
Hal ini menunjukkan bahwa OLS sangat sensitif terhadap outlier
Identifikasi Pencilan pada Y
Dalam beberapa analisis regresi seringkali ditemukan adanya amatan ekstrem, yaitu bernilai jauh dengan amatan yang lain dalam sampel
Adanya amatan ekstrem atau pencilan ini dapat menyebabkan residual yang besar dan seringkali memiliki efek yang besar pada dugaan fungsi regresi yang menggunakan OLS sehingga penduga koefisien regresi menjadi bias dan atau tidak konsisten
Pencilan harus diteliti dengan hati – hati apakah sebaiknya amatan ini dipertahankan atau dihilangkan.
Jika dipertahankan, efek pencilan ini harus dikurangi
Suatu amatan dapat menjadi pencilan pada Y atau pada X atau pada keduanya
Pendeteksian Outlier
Untuk pendeteksian pencilan , diperlukan suatu matriks yang dinamakan hat matrix yang dilambangkan dengan H
Penduga Y dapat ditulis sebagai
Dengan
Elemen diagonal dari matriks H memberikan informasi tentang data observasi yang mempunyai nilai leverage yang besar
Elemen diagonal ke-i dari matriks H yang dilambangkan dengan hii diperoleh dari:
Dengan adalah vektor baris yang berisi nilai-nilai dari variabel bebas atau independen dalam pengamatan ke-i.
Pada elemen diagonal matriks H, diperoleh
dimana p adalah banyaknya peubah dalam model
Pendeteksian pencilan pada X
Jika nilai lebih besar dari 2(p+1)/n maka pengamatan ke-i dikatakan sebagai outlier pada X (leverage point).
Pendeteksian Pencilan pada Y
Hipotesis yang digunakan untuk menguji adalah:H0 : Pengamatan ke-i bukan outlierH1 : Pengamatan ke-i merupakan outlierStatistik uji yang dapat digunakan untuk
menguji adalah studentized residual atau studentized deleted residual yang didefinisikan:
Pendeteksian Pencilan pada Y
Kriteria yang digunakan untuk menguji ada tidaknya outlier adalah
di mana p adalah banyaknya variabel bebas ditambah satu
Pendeteksian Pengamatan Berpengaruh
Pengamatan berpengaruh• merupakan pengamatan yang berpengaruh
besar dalam pendugaan koefisien regresi• memiliki nilai galat atau sisaan yang besar atau
mungkin pula tidak, tergantung pada model yang digunakan
Metode untuk mendeteksi pengamatan berpengaruh
1. Cook’s DistanceCook’s Distance merupakan jarak antara
pendugaan parameter dengan MKT yang diperoleh dari n pengamatan atau observasi yaitu dan pendugaan parameter yang diperoleh dengan terlebih dahulu menghapus pengamatan atau observasi ke-i yaitu
Jarak tersebut dapat dituliskan sebagai berikut:
dengan
Hipotesis untuk menguji adanya pengamatan berpengaruh adalah sebagai berikut:
H0 : Pengamatan ke-i tidak berpengaruhH1 : Pengamatan ke-i berpengaruhkriteria yang digunakan untuk menguji hipotesis
tersebut adalah sebagai berikut, alpha = 0.5:
2. The Difference In Fits Statistic (DFITS)Hipotesis untuk menguji adanya pengamatan
berpengaruh adalah sebagai berikut:H0 : Pengamatan ke-i tidak berpengaruhH1 : Pengamatan ke-i berpengaruh merupakan pengaruh pengamatan atau
observasi ke-i pada nilai duga yang didefinisikan sebagai
Kriteria yang digunakan untuk menguji hipotesis tersebut adalah
Metode untuk Penanganan Pencilan
1. Metode TheilMerupakan metode regresi nonparametrikTidak terpengaruh terhadap adanya data outlier
atau pencilanAsumsi:• Contoh yang diambil bersifat acak dan kontinyu;• Regresi bersifat linier;• Data diasumsikan tidak berdistribusi normal.
Misalkan terdapat n pasangan pengamatan, (X1, Y1), (X2, Y2), …, (Xn, Yn), persamaan regresi linier sederhana adalah:
Theil (1950) dalam Sprent (1991, hal 179-180) mengusulkan perkiraan slope garis regresi sebagai median slope dari seluruh pasangan garis dari titik-titik dengan nilai X yang berbeda
Untuk satu pasangan (Xi, Yi) dan (Xj, Yj) slope-nya adalah
untuk i < jpenduga dinotasikan dengan dinyatakan
sebagai median dari nilai-nilai sehingga
Penduga M (M-Estimator) dengan Fungsi Huber
Penduga M adalah solusi
(1)Dimana (.) adalah fungsi kriteria yang dapat
berubah-ubah
fungsi krtiteria (.) mempunyai beberapa sifat sebagai berikut:
Untuk mendapatkan penduga koefisien regresi maka fungsi kriteria diturunkan dan disamakan dengan nol
Dimana adalah hasil diferensiasi dari fungsi kriteria dan Xij adalah observasi ke-i pada regressor ke-j
Bentuk umum dari persamaan (1) adalah
Dan bentuk umum persamaan (2) adalah
Fungsi kriteria Huber yang didefinisikan sebagai berikut :
Dan fungsi pengaruhnya adalah
Dengan
Persamaan kedua dapat dituliskan
Dengan
Jika maka persamaan (2) menjadi
Untuk fungsi pengaruh Huber, diperloleh pembobot sebagai berikut :
Langkah-langkah penghitungan penduga M: