Analisis klaster

Analisis Klaster(Cluster Analysis)

Pengertian• Metode statistik yang digunakan untuk

mengelompokkan subjek atau objek

penelitian dalam jumlah banyak

menjadi kelompok-kelompok dalam

jumlah kecil yang bersifat homogen

dan mutually exclusive, yang disebut

klaster.

Karakteristik

• Analisis klaster meneliti seluruh hubungan interdependensi antara seluruh set variabel sehingga tidak ada pembedaan variabel bebas dan variabel tidak bebas.

• Suatu kelompok (klaster) terdiri atas subjek atau objek yang mempunyai karakteristik homogen, sedangkan subjek atau objek antar kelompok mempunyai karakteristik yang heterogen.

• Cluster analysis juga disebut denganclassification analysis atau numerical taxonomy.

• Baik analisis diskriminan maupunanalisis klaster berkenaan denganpenanganan klasifikasi.

• Klasifikasi grup dalam analisisdiskriminan sudah ditentukanterlebih dahulu, sedangkan dalamanalisis klaster grup ditentukanberdasarkan data.

Tujuan Analisis Klaster• Mengelompokkan objek-objek berdasarkan

kesamaan karakteristik di antara objek-objektertentu berdasarkan pada suatu set variabel yang dipertimbangkan untuk diteliti.

• Suatu objek dapat berupa produk, benda, perusahaan, orang, atau kesempatanpertumbuhan (growth opportunity).

• Objek tersebut akan diklasifikasikan ke dalamsatu atau lebih klaster sehingga objek-objek yang berada dalam satu klaster akan mempunyaikemiripan satu dengan yang lain.

Analisis Klaster vs Analisis Faktor

• Analisis faktor (R Factor Analysis) bertujuan

untuk mereduksi variabel. Dalam SPSS

analisis faktor adalah perlakuan terhadap

KOLOM.

• Analisis klaster (Q Factor Analysis) bertujuan

untuk mengelompokkan isi variabel. Dalam

SPSS analisis klaster adalah perlakuan

terhadap BARIS.

Proses Dasar Analisis Klaster

• Mengukur kesamaan antar objek. Metode yang digunakan adalah:

1. Mengukur korelasi antar sepasang objek pada beberapa variabel.

2. Mengukur jarak antara dua objek jika datanya adalah data metrik. Metode yang paling populer adalah Euclidean Distance, yaitu akar dari jumlah kuadrat perbedaan/deviasi di dalam nilai untuk setiap variabel.

3. Mengukur asosiasi antar objek jika datanya adalah data non metrik.

• Membuat klaster yang dilakukan dengan metode:

1. HIRARCHICAL METHOD. Metode ini memulai pengelompokkan dengan dua atau lebih objek yang mempunyai kesamaan paling dekat. Kemudian, proses diteruskan ke objek lain yang mempunyai kedekatan kedua, ketiga, dan seterusnya sehingga klaster akan membentuk semacam pohon dengan hirarki yang jelas antar objek. Pada umumnya, dendogram digunakan untuk membantu memperjelas proses hirarki tersebut.

2. NON-HIRARCHICAL METHOD. Metode ini

dimulai dengan menentukan terlebih dahulu

jumlah klaster yang diinginkan. Setelah itu,

baru proses klaster dilakukan tanpa

mengikuti proses hirarki. Metode ini

biasanya disebut dengan K-Means Cluster.

• Setelah klaster terbentuk, kemudian

dilakukan interpretasi terhadap klaster-

klaster tersebut dan memberi nama

spesifik untuk menggambarkan isi

klaster tersebut.

• Melakukan Validasi dan Profiling Cluster.

Klaster yang terbentuk diuji validitasnya.

Kemudian, dilakukan proses profilling

untuk menjelaskan karakteristik setiap

klaster berdasarkan profil tertentu. Data

dari profilling tersebut bisa dilakukan

analisis lanjutan, seperti analisis

diskriminan.

Asumsi dan Model Analisis Klaster

• Sample harus representatif.

• Bebas multiklinearitas.

• Tidak ada variabel dependen maupun

variabel independen sehingga tidak

ada model definitif untuk klaster

analisis.

Metode Proses Clustering Secara Hirarki

• Single Linkage

Metode ini akan mengelompokkan dua objek

yang mempunyai jarak terdekat terlebih

dahulu.

• Complete Linkage

Metode ini merupakan kebalikan dari metode

Single Linkage.

• Average Linkage

Metode ini mengelompokkan objek

berdasarkan jarak rata-rata yang didapat

dengan mencari rata-rata semua jarak

antar objek terlebih dahulu.

• Ward’s Method

Jarak antara dua klaster yang terbentuk

adalah jumlah kuadrat di antara dua

klaster tersebut.

• Centroid Method

Jarak antara dua klaster adalah jarak di antara

dua centroid klaster-klaster tersebut. Centroid

adalah rata-rata jarak yang ada pada sebuah

klaster, yang didapat dengan melakukan rata-

rata semua anggota suatu klaster tertentu.

K-MEANS CLUSTER

• Dalam metode ini, semua objek (kasus)

diproses secara serentak (sekaligus). Proses

dimulai dengan penentuan jumlah klaster yang

diinginkan terlebih dahulu, misalnya 2 klaster,

3 klaster, atau jumlah klaster yang lainnya.

KASUS 1

• Tujuan penelitian adalah untuk

mengelompokkan konsumen berdasarkan

profil konsumen.

• Buka file Cluster

• Variabel-variabel yang digunakan dalam

Analisis Klaster adalah variabel-variabel yang

diukur dengan data metrik (interval atau rasio).

• Perhatikan isi data setiap variabel. Jika satuan

data sangat bervariasi, akan menyebabkan

bias dalam Analisis klaster. Oleh karena itu,

data asli harus ditransformasi (standarisasi)

terlebih dahulu sehingga berbentuk z skor.

• Setelah data diubah menjadi z skor,

kemudian dilakukan analisis dengan metode

K-MEANS CLUSTER atau NON-

HIERARCHICAL CLUSTER.

Standarisasi Data Dengan Z-Score

• Data metrik dalam file cluster sangat bervariasi.

• Oleh karena itu, perlu dibakukan (standardized) terlebih dahulu.

• Caranya pilih menu Analyze, Descriptives Statistics, dan Descriptive.

• Masukkan variabel usia, anak, income, koran, tv, motor, k_kredit, beli, konsumsi, kerja, dan shopping ke dalam kolom Variable(s).

• Kemudian, contreng pilihan Save Standadized values as variables.

• Klik OK untuk menjalankan SPSS.

Langkah-langkah K-MEANS CLUSTER

• Dari menu Analyze, pilih submenu Classify, kemudian K-Means Cluster.

• Masukkan semua variabel yang diawali denganZscore: ke dalam bagian Variables:

• Pada bagian Label Cases by: masukkan variabeltinggal.

• Bagian Number of Clusters: masukkan angka 3, yang berarti nanti diharapkan akan terbentuk 3 klaster.

• Buka kotak Saves dan aktifkan Cluster membership dan Distance from cluster center.

• Buka kotak Options. Kemudian pada bagian

Statistics, aktifkan ANOVA table.

• Klik tombol OK untuk proses data.

Output:

• Tabel Final Cluster Centers

Tabel ini menunjukkan hasil akhir dari proses

pengklasteran. Angka-angka dalam tabel

tersebut digunakan untuk menghitung rerata

variabel tertentu pada klaster tertentu.

Final Cluster Centers

Cluster

1 2 3

Zscore: Usia .57272 -.02356 -.36218

Zscore: Jumlah Anak .04507 -.09015 .04507

Zscore: Penghasilan rata-rata per bulan 1.36091 -.23081 -.71494

Zscore: Jumlah Jam membaca Koran per minggu 1.08448 .07182 -.78283

Zscore: Jumlah Jam menonton TV per minggu -.03950 .32998 -.24865

Zscore: Jumlah Motor yang dipunyai .99200 -.13139 -.55184

Zscore: Jumlah Mobil yang dipunyai .95887 .05148 -.68215

Zscore: Jumlah Kartu Kredit/ATM yang dipunyai 1.25712 .08381 -.90792

Zscore: Tingkat Pembelian Barang per minggu 1.16063 .13654 -.88754

Zscore: Tingkat Pengeluaran Bulanan 1.33411 -.22874 -.69879

Zscore: Jumlah Jam Kerja per minggu 1.24930 .03479 -.86186

Zscore: Jumlah Jam Berbelanja per minggu 1.21304 -.07377 -.74721

• Rerata suatu variabel dalam suatu klaster

dihitung dengan rumus berikut:

X = µ + zσ

Keterangan:

X = rerata data variabel pada klaster tertentu.

µ = rerata populasi

σ = standar deviasi

z = angka tabel FCC

• Nilai rerata dan standar deviasi yang

digunakan dalam rumus di atas diperoleh

dengan menggunakan data awal (bukan data

standarisasi).

• Tanda positif dan negatif dalam tabel

memiliki arti sebagai berikut:

– Angka negatif berarti data di bawah rata-rata

total.

– Angka positif berarti data di atas rata-rata total.

Contoh:

• Rerata Usia seluruh populasi adalah 29,88 tahun.

• Standar deviasi Usia adalah 5,66 tahun.

• Rerata Usia klaster 1 = 29,88 + (0,57 x 5,66) = 33,12 th.

• Rerata Usia klaster 2 = 29,88 - (0,24 x 5,66) = 28,54 th.

• Rerata Usia klaster 3 = 29,88 - (0,36 x 5,66) = 27,83 th.

• Jadi, rerata Usia pada klaster 1 > rerata Usia populasi.

• Tabel ANOVA

Tabel ini menunjukkan apakah variabel-

variabel yang telah membentuk klaster

tersebut mempunyai perbedaan pada setiap

klaster. Untuk menentukan apakah suatu

variabel sangat membedakan karakteristik

seluruh klaster yang terbentuk, digunakan

angka Sig. dengan kriteria berikut:

– Jika Sig. > 0,05, variabel tidak membuat berbeda.

– Jika Sig. < 0,05, variabel membuat berbeda.

ANOVA

4,204 2 ,888 57 4,736 ,013

,122 2 1,031 57 ,118 ,889

21,483 2 ,281 57 76,371 ,000

16,814 2 ,445 57 37,775 ,000

1,843 2 ,970 57 1,899 ,159

11,700 2 ,625 57 18,732 ,000

12,966 2 ,580 57 22,349 ,000

22,605 2 ,242 57 93,435 ,000

20,416 2 ,319 57 64,049 ,000

20,622 2 ,312 57 66,199 ,000

21,412 2 ,284 57 75,447 ,000

18,526 2 ,385 57 48,114 ,000

Zscore: Usia

Zscore: Jumlah Anak

Zscore: Penghasilan

rata-rata per bulan

Zscore: Jumlah Jam

membaca Koran set iap

Zscore: Jumlah Jam

menonton TV setiap m

Zscore: Jumlah Motor

yang dipunyai

Zscore: Jumlah Mobil

yang dipunyai

Zscore: Jumlah Kartu

Kredit/ATM yang di

Zscore: Tingkat

Pembelian Barang setiap

Zscore: Tingkat

Pengeluaran Bulanan

Zscore: Jumlah Jam

Kerja setiap minggu

Zscore: Jumlah Jam

Berbelanja setiap mi

Mean Square df

Cluster

Mean Square df

Error

F Sig.

The F tests should be used only f or descriptive purposes because the clusters have been chosen to maximize

the dif f erences among cases in dif ferent clusters. The observed signif icance lev els are not corrected f or this and

thus cannot be interpreted as tests of the hy pothesis that the cluster means are equal.

Tugas K-Means Cluster

• Buka file HATCO.

• Lakukan Analisis klaster terhadap variabel-variabel X1 s.d. X7 dengan metode K-Means Cluster.

• Jumlah klaster ditentukan sebanyak 2.

• Gunakan X11 untuk input bagian Label Cases by.

• Hitung rerata setiap variabel dalam setiap klaster.

• Variabel apa saja yang tidak membuat beda antar klaster.

• Beri nama setiap klaster.

• Simpan hasilnya dengan nama “K-Means Cluster”

HIERARCHICAL CLUSTER

• Proses pengklasteran dengan metode ini didasarkan pada konsep struktur mirip pohon (treelike structure).

• Konsep ini dimulai dengan menggabungkan dua objek yang paling mirip, kemudian gabungan tersebut akan bergabung lagi dengan satu atau lebih objek yang paling mirip lainnya.

• Proses pengklasteran pada akhirnya akan menggumpal menjadi satu klaster besar yang mencakup semua objek.

• Proses tersebut lazim disebut sebagai “agglomerative methods”, yang akan digambarkan dengan Dendogram.

Contoh Klaster Hirarki

• Tujuan penelitian

Membuat profil beberapa produk berdasarkan

kandungan (content) produk tersebut.

• Buka file cluster hierarki.

• Perhatikan isi datanya. Jika satuan data sangat

bervariasi, lakukan standarisasi data dengan

mengubah isi data menjadi bentuk z-score.

• Proses pengubahan tersebut dapat dilakukan secara

otomatis dengan menggunakan menu Method.

Langkah-langkah Hierarchical Cluster

• Dari menu Analyze, pilih submenu Classify,

kemudian pilih Hierarchical Cluster.

• Masukkan variabel-variabel lemak,

karbohidrat, mineral, dan energi ke dalam

bagian Variables, sedangkan variabel susu

dimasukkan ke dalam bagian Label Cases by:

• Munculkan menu Statistics, kemudian aktifkan

Agglomeration Schedule dan Proximity

matrix.

• Pada bagian Cluster membership, aktifkan

Range of solutions, dan isikan angka 2 dalam

kotak From dan 4 dalam kotak Through.

Artinya, nanti akan ditampilkan susunan 2, 3,

dan 4 klaster.

• Buka menu Plots, kemudian aktifkan

Dendogram. Pada bagian Icicle, pilih None.

• Tampilkan menu Method. Pada bagian

Transform Values, pilih Z scores.

• Tekan tombol OK untuk proses data.

Analisis Output• Tabel Proximity Matrix

Tabel tersebut menunjukkan jarak antara dua buah variabel

berdasarkan ukuran Euclidean.Semakin kecil angka jarak antar

dua variabel, makin mirip satu sama lain.

Contoh:

Jarak antara variabel 1 (Oat Quaker) dengan variabel 2 (Nestle

Carnation) adalah 15,758, sedang jarak antara variabel 1 (Oat

Quaker) dengan variabel 3 (Ligo Havermout) adalah 0,608.

Artinya, Oat Quaker lebih mirip dalam karakteristiknya dengan

Ligo Havermout, tetapi berbeda jauh dengan Nestle Carnation.

• Tabel Agglomeration Schedule

Tabel tersebut menunjukkan (1) hasil proses

pengklasteran dengan metode BETWEEN

GROUP LINKAGE dan (2) banyaknya kasus

atau klaster yang akan digabung pada setiap

tahap.

Agglomeration Schedule

StageCluster Combined

CoefficientsStage Cluster First Appears

Next StageCluster 1 Cluster 2 Cluster 1 Cluster 2

1 7 12 .003 0 0 3

2 8 13 .008 0 0 3

3 7 8 .058 1 2 8

4 6 10 .352 0 0 8

5 5 14 .376 0 0 9

6 1 17 .594 0 0 11

7 3 4 .640 0 0 11

8 6 7 .803 4 3 14

9 5 9 .855 5 0 13

10 15 16 1.075 0 0 12

11 1 3 1.774 6 7 13

12 15 18 2.031 10 0 14

13 1 5 3.056 11 9 15

14 6 15 4.340 8 12 15

15 1 6 6.611 13 14 16

16 1 11 17.896 15 0 17

17 1 2 22.576 16 0 0

• Kolom Coefficient merupakan jarak eucledean

yang dikuadratkan antara kasus pada baris

tertentu.

• Kolom Stage Cluster First Appears

menunjukkan tahapan pada saat suatu klaster

pertama dibentuk.

• Kolom Next Stage menunjukkan tahapan pada

saat kasus atau klaster lainnya digabung

dengan klaster yang baru saja dibentuk.

• Tabel Cluster Membership

Tabel tersebut menunjukkan rincian anggota

suatu klaster tertentu sesuai dengan jumlah

klaster yang ditentukan.

• Dendogram merupakan suatu alat grafis untuk

menyajikan hasil pengklasteran. Garis vertikal

mewakili klaster yang digabung bersama.

Posisi garis pada skala menunjukkan jarak

untuk mana klaster digabung. Dendogram

harus dibaca dari kiri ke kanan.

Tugas Klaster Hirarki

• Majamen Hatco ingin mengelompokkan profil konsumennya berdasarkan variabel X1 s.d. X7 dan menetapkan jumlah klaster berkisar antara 2 s.d. 4 klaster.

• Lakukan analisis terhadap output SPSS dan simpan hasilnya dengan nama “Klaster Hirarki”.

Analisis klaster

Data & Analytics

Transcript of Analisis klaster