Klasifikasi Berdasarkan Teorema Bayes

KLASIFIKASI BERDASARKAN TEOREMA BAYES

Naïve Bayes Classifier

Pendahuluan

A statistical classifier: menyelesaikan prediksi probabilitas, sebagai

contoh memprediksi peluang keanggotaan suatu class

Foundation: Teorema Bayes

Performance: pengklasifikasi Bayesian sederhana, memiliki

kinerja yang dapat dibandingkan pengklasifikasi decision tree dan neural network

Dasar Teorema Bayes

Diketahui X merupakan sample data. Dalam bayes X disebut “evidence” atau fakta Label class tidak diketahui Umumnya X merupakan record data yang disusun dari n

atribut

H merupakan suatu hypothesis bahwa X termasuk dari class C

Classification adalah untuk menentukan P(H|X), peluang hipotesis dari data sample X Dengan kata lain, dicari peluang bahwa record X termasuk

kelas C, dengan diketahui atribut yang menjelaskan X. Atau, peluang keluarnya hasil H jika diketahui nilai X tertentu.

Dasar Teorema Bayes (lanjutan)

P(H) (prior probability), peluang awal Misal: X akan membeli komputer, tanpa

memperhatikan umur, penghasilan, … P(X) (prior probabilitiy) peluang bahwa data

sampel X diamati tanpa memperhatikan nilai yang lain

P(X|H) (posteriori probability), peluang diamatinya data sampel X dengan mempertimbangkan H Misal: Jika X akan membeli komputer, peluang X

adalah berumur 31..40, medium income

Bayesian Theorem

Jika diberikan data training X, posteriori probability dari suatu hypothesis H, P(H|X), mengikuti teorema Bayes

Dengan kata lain, dapat ditulis sebagai berikut:posteriori = likelihood x prior/evidence

Memperkirakan X termasuk dalam kelas Ci jika peluang P(Ci|X) merupakan tertinggi diantara semua P(Ck|X) untuk semua klas k

Permasalahan nyata: diperlukan pengetahuan awal dari banyak peluang, hal ini dapat merupakan biaya komputasi yang mencolok

)()()|()|(

XXXP

HPHPHP

Bayes Learning

Misal terdapat beberapa alternatif hipotesa h -> h є H.

Bayes Learning: Memaksimalkan hipotesis yang paling mungkin h,

maksimum apriori (MAP)

)|(maxarg xhPhMAP

)(

)()|(maxarg

xP

hPhxP

)()|(maxarg hPhxP

Naïve Bayesian Classifier

Di mana: vNB adalah nilai output hasil klasifikasi naïve

bayes

)|()(maxarg jijVvjNB vaPvPv

Contoh Kasus Data Cuaca dan Keputusan Main

cuaca (x1) temperatur (x2) kelembaban (x3) angin (x4) Keputusan cerah panas tinggi kecil tidakcerah panas tinggi besar tidakmendung panas tinggi kecil yahujan sedang tinggi kecil yahujan dingin normal kecil yahujan dingin normal besar tidakmendung dingin normal besar yacerah sedang tinggi kecil tidakcerah dingin normal kecil Yahujan sedang normal kecil yacerah sedang normal besar yamendung sedang tinggi besar yamendung panas normal kecil yahujan sedang tinggi besar tidak

(Cuaca= cerah, Temperatur=dingin, Kelembaban=tinggi, Angin=besar) yang tidak ada dalam tabel tersebut

Pembahasan

Dalam contoh tersebut ada 14 titik dengan keluaran main atau tidak.

Setiap data ditandai dengan atribut cuaca, temperatur, kelembaban dan angin.

Akan dipakai naïve bayes untuk menentukan kelas dari data berikut:

(Cuaca= cerah, Temperatur=dingin, Kelembaban=tinggi, Angin=besar) yang tidak ada dalam tabel tersebut

Pembahasan (lanjutan)

Soal: (Cuaca= cerah, Temperatur=dingin, Kelembaban=tinggi, Angin=besar) yang tidak ada dalam tabel tersebut P(main) = 9/14 = 0.64 P(tidak) = 5/14 = 0.36 P(Angin=besar | main) = 3/9 = 0.33 P(Angin=besar | tidak) = 3/5 = 0.60

P(main) P(cerah|main) P(dingin|main) P(tinggi|main) P(besar|main) = 9/14*2/9*3/9*3/9 = 0.0053

P(tidak) P(cerah|tidak) P(dingin|tidak) P(tinggi|tidak) P(besar|tidak) = 5/14*3/5*1/5*4/5*3/5 = 0.0206

Dengan Naïve Bayes disimpulkan untuk tidak main.

Estimasi Probabilitas

Alasan: Ada kemungkinan dihasilkan under-estimate probablilitas

bias jika data yang diamati dalam juml. kecil atau bisa juga dihasilkan nol karena salah satu probabilitas = 0

Rumus: P(ai|vj) = nc + m*p

n + m dimana:

n = jumlah data training dimana v=vj

nC = jumlah data training dimana v=vj dan a= ai

p = prior estimate untuk P(ai|vj)

m = ukuran sampel ekuivalen

Contoh

Warnaa1

Tipea2

Asala3

Tercuri?vj

merah Sport Domestik Yamerah Sport Domestik Tidakmerah Sport Domestik YaKuning Sport Domestik TidakKuning Sport Import YaKuning SUV Import TidakKuning SUV Import YaKuning SUV Domestic TidakMerah SUV import TidakMerah sport import Ya

Ya Tidak

Merah:n = 5nc = 3p = 0.5

Merahn = 5nc = 2p = 0.5

SUV:n = 5nc = 1p = 0.5

SUV:n = 5nc = 3p = 0.5

Domestik:n = 5nc = 2p = 0.5

Domestik:n = 5nc = 3p = 0.5

Jika ingin mengelompokkan mobil warna merah, asal domestik dan tipe SUV ??Maka didapatkan nilai-nilai estimasi sbb: (misal m= 3)

Klasifikasi dengan data kontinyu

Contoh: Berapakah P(Memiliki Rumah=Tidak|

Pendapatan=125K)No Status Nikah Pendapatan Memiliki Rumah

1 Belum Menikah 125 Tidak

2 Menikah 100 Tidak

3 Belum Menikah 70 Tidak

4 Menikah 120 Tidak

5 Cerai 95 Ya

6 Menikah 60 Tidak

7 Cerai 220 Tidak

8 Belum Menikah 85 Ya

9 Menikah 75 Tidak

10 Belum Menikah 90 Ya

Untuk data kontinyu

Keterangan: P menyatakan peluang Xi menyatakan atribut ke i. xi menyatakan nilai atribut ke i. Y menyatakan kelas yang dicari. yi menyatakan sub kelas Y yang dicari. µ menyatakan rata-rata dari seluruh atribut ( ) . menyatakan varian dari seluruh atribut ( ).

exp2

1 2

2

2

2

ij

ijix

ijjii yYxXP

Maka peluang tidak memiliki rumah dengan pendapatan 125K sebesar:

1107

752206012070100125

29756

)11075(...)110100()110125( 2222

54.542975

0070.0exp

54.542

1

125K)Pendapatan |TidakRumah P(Memiliki

29752

110125 2

x

Tugas Kelompok (@ 4 orang) Cari1kasus nyata seputar aplikasi

klasifikasi (data 20 record minimum) untuk data latih & 5 data uji

Lakukan perbandingan 2 metode: KNN (weighted dan Unweighted votting) dengan Naive Bayes Classifier Berapa nilai akurasi tertinggi, rata2 dan

terendah Data mix kontinyu & tidak kontinyu untuk

setiap setiap fitur dalam satu data set yang terpisah

Tidak boleh sama kasus yang dipilih

Klasifikasi Berdasarkan Teorema Bayes

Documents

Transcript of Klasifikasi Berdasarkan Teorema Bayes