Penduga Kekar untuk Ukuran Pemusatan dan Ukuran...

Post on 30-Mar-2019

271 views 3 download

Transcript of Penduga Kekar untuk Ukuran Pemusatan dan Ukuran...

STK335 Analisis Eksplorasi Data Pertemuan 07

Penduga Kekar untuk Ukuran Pemusatan dan Ukuran Penyebaran

Bagus Sartono

Outline

• Pendahuluan

• Ladder Transformation (Tukey, 1977)

• Box-Cox Transformation

Mengapa Butuh Penduga yang Kekar (Robust)

• Terdapat kemungkinan adanya pencilan (outlier) dalam data yang kita miliki

• Sebaran dari data tidak selalu sama dengan yang kita asumsikan

• Perspektif lain: – Tidak semua orang rajin melakukan screening terhadap data

– Proses screening bisa jadi membuang-buang waktu

– Pada data multivariate, tidak mudah mendeteksi pencilan

– Pada pendugaan ukuran penyebaran, membuang pencilan akan menyebabkan penduganya bersifat under-estimate

Apa itu statistik yang kekar?

• Statistik yang tidak sensitif jika ada pelanggaran asumsi atau data-data yang menyebabkan sebarannya sedikit berbeda dengan yang diasumsikan

Ukuran Pemusatan yang Kekar

• Median

• Trimmed Mean (rataan terpangkas, rataan terpancung)

• Winsorized Mean

• M-estimator (penduga M)

Median

siapa tidak kenal median?

Trimmed Mean

• Merupakan rata-rata dari 1 - 2 bagian tengah dari data dengan 0 < < 1

• Artinya sebanyak n data paling besar dan n data paling kecil disisihkan dan tidak ikut dalam perhitunganr rataan.

• Jika nilai αn tidak integer, bagian bilangan integer-nya yang digunakan

M-estimator

• Prinsip dasar: memberikan bobot yang lebih kecil kepada data-data pencilan

Ukuran Penyebaran yang Robust

• Ragam dan simpangan baku adalah ukuran penyebaran yang banyak digunakan. Namun keduanya sensitif terhadap keberadaan pencilan.

• Beberapa ukuran penyebaran yang kekar: – IQR, interquartile range, jarak/jangkauan antar kuartile

– MAD, median absolute deviation

– Gini’s mean difference

IQR (inter quartile range)

• IQR didefinisikan sebagai selisih antara kuartil ketiga dengan kuartil pertama

IQR=Q3 – Q1

• Pada data yang menyebar normal, nilai simpangan baku adalah sebesar 1.34898 IQR.

MAD (median absolute deviation)

• Merupakan ukuran penyebaran kekar yang paling banyak digunakan

• Definisi

MAD = median {|xi – median(x)|}

• Tahapan perhitungan – Hitung median dari data, beri nama median(x)

– Hitung selisih mutlak dari setiap data terhadap median(x)

– Hitung median dari selisih mutlah

• Pada data yang menyebar normal, nilai simpangan baku adalah sebesar 1.4826 MAD

Gini’s mean difference

• Merupakan rata-rata dari setiap selisih antar amatan

• Pada data yang menyebar normal, simpangan baku dapat didekati sebesar G / 2

• Prosedur di SAS yang dapat digunakan untuk menghasilkan nilai penduga kekar: – UNIVARIATE – STDIZE

• Ilustrasi proc univariate data=data robustscale trimmed=0.2

winsorized=0.2; var x; run;

proc stdize data=data method=huber pstat; var x; run;