Analisis klaster
-
Upload
jordan-drummer -
Category
Data & Analytics
-
view
428 -
download
0
Transcript of Analisis klaster
Analisis Klaster(Cluster Analysis)
Pengertian• Metode statistik yang digunakan untuk
mengelompokkan subjek atau objek
penelitian dalam jumlah banyak
menjadi kelompok-kelompok dalam
jumlah kecil yang bersifat homogen
dan mutually exclusive, yang disebut
klaster.
Karakteristik
• Analisis klaster meneliti seluruh hubungan interdependensi antara seluruh set variabel sehingga tidak ada pembedaan variabel bebas dan variabel tidak bebas.
• Suatu kelompok (klaster) terdiri atas subjek atau objek yang mempunyai karakteristik homogen, sedangkan subjek atau objek antar kelompok mempunyai karakteristik yang heterogen.
• Cluster analysis juga disebut denganclassification analysis atau numerical taxonomy.
• Baik analisis diskriminan maupunanalisis klaster berkenaan denganpenanganan klasifikasi.
• Klasifikasi grup dalam analisisdiskriminan sudah ditentukanterlebih dahulu, sedangkan dalamanalisis klaster grup ditentukanberdasarkan data.
Tujuan Analisis Klaster• Mengelompokkan objek-objek berdasarkan
kesamaan karakteristik di antara objek-objektertentu berdasarkan pada suatu set variabel yang dipertimbangkan untuk diteliti.
• Suatu objek dapat berupa produk, benda, perusahaan, orang, atau kesempatanpertumbuhan (growth opportunity).
• Objek tersebut akan diklasifikasikan ke dalamsatu atau lebih klaster sehingga objek-objek yang berada dalam satu klaster akan mempunyaikemiripan satu dengan yang lain.
Analisis Klaster vs Analisis Faktor
• Analisis faktor (R Factor Analysis) bertujuan
untuk mereduksi variabel. Dalam SPSS
analisis faktor adalah perlakuan terhadap
KOLOM.
• Analisis klaster (Q Factor Analysis) bertujuan
untuk mengelompokkan isi variabel. Dalam
SPSS analisis klaster adalah perlakuan
terhadap BARIS.
Proses Dasar Analisis Klaster
• Mengukur kesamaan antar objek. Metode yang digunakan adalah:
1. Mengukur korelasi antar sepasang objek pada beberapa variabel.
2. Mengukur jarak antara dua objek jika datanya adalah data metrik. Metode yang paling populer adalah Euclidean Distance, yaitu akar dari jumlah kuadrat perbedaan/deviasi di dalam nilai untuk setiap variabel.
3. Mengukur asosiasi antar objek jika datanya adalah data non metrik.
• Membuat klaster yang dilakukan dengan metode:
1. HIRARCHICAL METHOD. Metode ini memulai pengelompokkan dengan dua atau lebih objek yang mempunyai kesamaan paling dekat. Kemudian, proses diteruskan ke objek lain yang mempunyai kedekatan kedua, ketiga, dan seterusnya sehingga klaster akan membentuk semacam pohon dengan hirarki yang jelas antar objek. Pada umumnya, dendogram digunakan untuk membantu memperjelas proses hirarki tersebut.
2. NON-HIRARCHICAL METHOD. Metode ini
dimulai dengan menentukan terlebih dahulu
jumlah klaster yang diinginkan. Setelah itu,
baru proses klaster dilakukan tanpa
mengikuti proses hirarki. Metode ini
biasanya disebut dengan K-Means Cluster.
• Setelah klaster terbentuk, kemudian
dilakukan interpretasi terhadap klaster-
klaster tersebut dan memberi nama
spesifik untuk menggambarkan isi
klaster tersebut.
• Melakukan Validasi dan Profiling Cluster.
Klaster yang terbentuk diuji validitasnya.
Kemudian, dilakukan proses profilling
untuk menjelaskan karakteristik setiap
klaster berdasarkan profil tertentu. Data
dari profilling tersebut bisa dilakukan
analisis lanjutan, seperti analisis
diskriminan.
Asumsi dan Model Analisis Klaster
• Sample harus representatif.
• Bebas multiklinearitas.
• Tidak ada variabel dependen maupun
variabel independen sehingga tidak
ada model definitif untuk klaster
analisis.
Metode Proses Clustering Secara Hirarki
• Single Linkage
Metode ini akan mengelompokkan dua objek
yang mempunyai jarak terdekat terlebih
dahulu.
• Complete Linkage
Metode ini merupakan kebalikan dari metode
Single Linkage.
• Average Linkage
Metode ini mengelompokkan objek
berdasarkan jarak rata-rata yang didapat
dengan mencari rata-rata semua jarak
antar objek terlebih dahulu.
• Ward’s Method
Jarak antara dua klaster yang terbentuk
adalah jumlah kuadrat di antara dua
klaster tersebut.
• Centroid Method
Jarak antara dua klaster adalah jarak di antara
dua centroid klaster-klaster tersebut. Centroid
adalah rata-rata jarak yang ada pada sebuah
klaster, yang didapat dengan melakukan rata-
rata semua anggota suatu klaster tertentu.
K-MEANS CLUSTER
• Dalam metode ini, semua objek (kasus)
diproses secara serentak (sekaligus). Proses
dimulai dengan penentuan jumlah klaster yang
diinginkan terlebih dahulu, misalnya 2 klaster,
3 klaster, atau jumlah klaster yang lainnya.
KASUS 1
• Tujuan penelitian adalah untuk
mengelompokkan konsumen berdasarkan
profil konsumen.
• Buka file Cluster
• Variabel-variabel yang digunakan dalam
Analisis Klaster adalah variabel-variabel yang
diukur dengan data metrik (interval atau rasio).
• Perhatikan isi data setiap variabel. Jika satuan
data sangat bervariasi, akan menyebabkan
bias dalam Analisis klaster. Oleh karena itu,
data asli harus ditransformasi (standarisasi)
terlebih dahulu sehingga berbentuk z skor.
• Setelah data diubah menjadi z skor,
kemudian dilakukan analisis dengan metode
K-MEANS CLUSTER atau NON-
HIERARCHICAL CLUSTER.
Standarisasi Data Dengan Z-Score
• Data metrik dalam file cluster sangat bervariasi.
• Oleh karena itu, perlu dibakukan (standardized) terlebih dahulu.
• Caranya pilih menu Analyze, Descriptives Statistics, dan Descriptive.
• Masukkan variabel usia, anak, income, koran, tv, motor, k_kredit, beli, konsumsi, kerja, dan shopping ke dalam kolom Variable(s).
• Kemudian, contreng pilihan Save Standadized values as variables.
• Klik OK untuk menjalankan SPSS.
Langkah-langkah K-MEANS CLUSTER
• Dari menu Analyze, pilih submenu Classify, kemudian K-Means Cluster.
• Masukkan semua variabel yang diawali denganZscore: ke dalam bagian Variables:
• Pada bagian Label Cases by: masukkan variabeltinggal.
• Bagian Number of Clusters: masukkan angka 3, yang berarti nanti diharapkan akan terbentuk 3 klaster.
• Buka kotak Saves dan aktifkan Cluster membership dan Distance from cluster center.
• Buka kotak Options. Kemudian pada bagian
Statistics, aktifkan ANOVA table.
• Klik tombol OK untuk proses data.
Output:
• Tabel Final Cluster Centers
Tabel ini menunjukkan hasil akhir dari proses
pengklasteran. Angka-angka dalam tabel
tersebut digunakan untuk menghitung rerata
variabel tertentu pada klaster tertentu.
Final Cluster Centers
Cluster
1 2 3
Zscore: Usia .57272 -.02356 -.36218
Zscore: Jumlah Anak .04507 -.09015 .04507
Zscore: Penghasilan rata-rata per bulan 1.36091 -.23081 -.71494
Zscore: Jumlah Jam membaca Koran per minggu 1.08448 .07182 -.78283
Zscore: Jumlah Jam menonton TV per minggu -.03950 .32998 -.24865
Zscore: Jumlah Motor yang dipunyai .99200 -.13139 -.55184
Zscore: Jumlah Mobil yang dipunyai .95887 .05148 -.68215
Zscore: Jumlah Kartu Kredit/ATM yang dipunyai 1.25712 .08381 -.90792
Zscore: Tingkat Pembelian Barang per minggu 1.16063 .13654 -.88754
Zscore: Tingkat Pengeluaran Bulanan 1.33411 -.22874 -.69879
Zscore: Jumlah Jam Kerja per minggu 1.24930 .03479 -.86186
Zscore: Jumlah Jam Berbelanja per minggu 1.21304 -.07377 -.74721
• Rerata suatu variabel dalam suatu klaster
dihitung dengan rumus berikut:
X = µ + zσ
Keterangan:
X = rerata data variabel pada klaster tertentu.
µ = rerata populasi
σ = standar deviasi
z = angka tabel FCC
• Nilai rerata dan standar deviasi yang
digunakan dalam rumus di atas diperoleh
dengan menggunakan data awal (bukan data
standarisasi).
• Tanda positif dan negatif dalam tabel
memiliki arti sebagai berikut:
– Angka negatif berarti data di bawah rata-rata
total.
– Angka positif berarti data di atas rata-rata total.
Contoh:
• Rerata Usia seluruh populasi adalah 29,88 tahun.
• Standar deviasi Usia adalah 5,66 tahun.
• Rerata Usia klaster 1 = 29,88 + (0,57 x 5,66) = 33,12 th.
• Rerata Usia klaster 2 = 29,88 - (0,24 x 5,66) = 28,54 th.
• Rerata Usia klaster 3 = 29,88 - (0,36 x 5,66) = 27,83 th.
• Jadi, rerata Usia pada klaster 1 > rerata Usia populasi.
• Tabel ANOVA
Tabel ini menunjukkan apakah variabel-
variabel yang telah membentuk klaster
tersebut mempunyai perbedaan pada setiap
klaster. Untuk menentukan apakah suatu
variabel sangat membedakan karakteristik
seluruh klaster yang terbentuk, digunakan
angka Sig. dengan kriteria berikut:
– Jika Sig. > 0,05, variabel tidak membuat berbeda.
– Jika Sig. < 0,05, variabel membuat berbeda.
ANOVA
4,204 2 ,888 57 4,736 ,013
,122 2 1,031 57 ,118 ,889
21,483 2 ,281 57 76,371 ,000
16,814 2 ,445 57 37,775 ,000
1,843 2 ,970 57 1,899 ,159
11,700 2 ,625 57 18,732 ,000
12,966 2 ,580 57 22,349 ,000
22,605 2 ,242 57 93,435 ,000
20,416 2 ,319 57 64,049 ,000
20,622 2 ,312 57 66,199 ,000
21,412 2 ,284 57 75,447 ,000
18,526 2 ,385 57 48,114 ,000
Zscore: Usia
Zscore: Jumlah Anak
Zscore: Penghasilan
rata-rata per bulan
Zscore: Jumlah Jam
membaca Koran set iap
Zscore: Jumlah Jam
menonton TV setiap m
Zscore: Jumlah Motor
yang dipunyai
Zscore: Jumlah Mobil
yang dipunyai
Zscore: Jumlah Kartu
Kredit/ATM yang di
Zscore: Tingkat
Pembelian Barang setiap
Zscore: Tingkat
Pengeluaran Bulanan
Zscore: Jumlah Jam
Kerja setiap minggu
Zscore: Jumlah Jam
Berbelanja setiap mi
Mean Square df
Cluster
Mean Square df
Error
F Sig.
The F tests should be used only f or descriptive purposes because the clusters have been chosen to maximize
the dif f erences among cases in dif ferent clusters. The observed signif icance lev els are not corrected f or this and
thus cannot be interpreted as tests of the hy pothesis that the cluster means are equal.
Tugas K-Means Cluster
• Buka file HATCO.
• Lakukan Analisis klaster terhadap variabel-variabel X1 s.d. X7 dengan metode K-Means Cluster.
• Jumlah klaster ditentukan sebanyak 2.
• Gunakan X11 untuk input bagian Label Cases by.
• Hitung rerata setiap variabel dalam setiap klaster.
• Variabel apa saja yang tidak membuat beda antar klaster.
• Beri nama setiap klaster.
• Simpan hasilnya dengan nama “K-Means Cluster”
HIERARCHICAL CLUSTER
• Proses pengklasteran dengan metode ini didasarkan pada konsep struktur mirip pohon (treelike structure).
• Konsep ini dimulai dengan menggabungkan dua objek yang paling mirip, kemudian gabungan tersebut akan bergabung lagi dengan satu atau lebih objek yang paling mirip lainnya.
• Proses pengklasteran pada akhirnya akan menggumpal menjadi satu klaster besar yang mencakup semua objek.
• Proses tersebut lazim disebut sebagai “agglomerative methods”, yang akan digambarkan dengan Dendogram.
Contoh Klaster Hirarki
• Tujuan penelitian
Membuat profil beberapa produk berdasarkan
kandungan (content) produk tersebut.
• Buka file cluster hierarki.
• Perhatikan isi datanya. Jika satuan data sangat
bervariasi, lakukan standarisasi data dengan
mengubah isi data menjadi bentuk z-score.
• Proses pengubahan tersebut dapat dilakukan secara
otomatis dengan menggunakan menu Method.
Langkah-langkah Hierarchical Cluster
• Dari menu Analyze, pilih submenu Classify,
kemudian pilih Hierarchical Cluster.
• Masukkan variabel-variabel lemak,
karbohidrat, mineral, dan energi ke dalam
bagian Variables, sedangkan variabel susu
dimasukkan ke dalam bagian Label Cases by:
• Munculkan menu Statistics, kemudian aktifkan
Agglomeration Schedule dan Proximity
matrix.
• Pada bagian Cluster membership, aktifkan
Range of solutions, dan isikan angka 2 dalam
kotak From dan 4 dalam kotak Through.
Artinya, nanti akan ditampilkan susunan 2, 3,
dan 4 klaster.
• Buka menu Plots, kemudian aktifkan
Dendogram. Pada bagian Icicle, pilih None.
• Tampilkan menu Method. Pada bagian
Transform Values, pilih Z scores.
• Tekan tombol OK untuk proses data.
Analisis Output• Tabel Proximity Matrix
Tabel tersebut menunjukkan jarak antara dua buah variabel
berdasarkan ukuran Euclidean.Semakin kecil angka jarak antar
dua variabel, makin mirip satu sama lain.
Contoh:
Jarak antara variabel 1 (Oat Quaker) dengan variabel 2 (Nestle
Carnation) adalah 15,758, sedang jarak antara variabel 1 (Oat
Quaker) dengan variabel 3 (Ligo Havermout) adalah 0,608.
Artinya, Oat Quaker lebih mirip dalam karakteristiknya dengan
Ligo Havermout, tetapi berbeda jauh dengan Nestle Carnation.
• Tabel Agglomeration Schedule
Tabel tersebut menunjukkan (1) hasil proses
pengklasteran dengan metode BETWEEN
GROUP LINKAGE dan (2) banyaknya kasus
atau klaster yang akan digabung pada setiap
tahap.
Agglomeration Schedule
StageCluster Combined
CoefficientsStage Cluster First Appears
Next StageCluster 1 Cluster 2 Cluster 1 Cluster 2
1 7 12 .003 0 0 3
2 8 13 .008 0 0 3
3 7 8 .058 1 2 8
4 6 10 .352 0 0 8
5 5 14 .376 0 0 9
6 1 17 .594 0 0 11
7 3 4 .640 0 0 11
8 6 7 .803 4 3 14
9 5 9 .855 5 0 13
10 15 16 1.075 0 0 12
11 1 3 1.774 6 7 13
12 15 18 2.031 10 0 14
13 1 5 3.056 11 9 15
14 6 15 4.340 8 12 15
15 1 6 6.611 13 14 16
16 1 11 17.896 15 0 17
17 1 2 22.576 16 0 0
• Kolom Coefficient merupakan jarak eucledean
yang dikuadratkan antara kasus pada baris
tertentu.
• Kolom Stage Cluster First Appears
menunjukkan tahapan pada saat suatu klaster
pertama dibentuk.
• Kolom Next Stage menunjukkan tahapan pada
saat kasus atau klaster lainnya digabung
dengan klaster yang baru saja dibentuk.
• Tabel Cluster Membership
Tabel tersebut menunjukkan rincian anggota
suatu klaster tertentu sesuai dengan jumlah
klaster yang ditentukan.
• Dendogram merupakan suatu alat grafis untuk
menyajikan hasil pengklasteran. Garis vertikal
mewakili klaster yang digabung bersama.
Posisi garis pada skala menunjukkan jarak
untuk mana klaster digabung. Dendogram
harus dibaca dari kiri ke kanan.
Tugas Klaster Hirarki
• Majamen Hatco ingin mengelompokkan profil konsumennya berdasarkan variabel X1 s.d. X7 dan menetapkan jumlah klaster berkisar antara 2 s.d. 4 klaster.
• Lakukan analisis terhadap output SPSS dan simpan hasilnya dengan nama “Klaster Hirarki”.