Post on 14-Sep-2015
description
NaNave ve Bayesian ClassifierBayesian ClassifierDr. Taufik Fuadi Abidin, S.Si., M.Tech
Program Studi Teknik InformatikaFMIPA Universitas Syiah Kuala
www.informatika.unsyiah.ac.id/tfa
Bahan Kuliah Data Mining
Outline Pertemuan
Dasar Teori Bayesian
Nave Bayesian Classifier
Asumsi yang Diberikan
Dataset (Categorical?)
Contoh Klasifikasi Menggunakan Nave Bayesian
Klasifikasi Perlu Training Set
Klasifikasi adalah proses pembelajaran secara terbimbing (supervised learning)
Untuk melakukan klasifikasi, dibutuhkan training set sebagai data pembelajaran
Setiap sampel dari training set memiliki atribut dan klas label
Dua Tahapan Klasifikasi
Learning (training): Pembelajaran menggunakan data training (untuk Nave Bayesian Classifier, nilai probabilitas dihitung dalam proses pembelajaran)
Testing: Menguji model menggunakan data testing
Sumber: Bing Liu, Web Data Mining
Teori Bayesian: Sebagai Dasar
X adalah data sampel dengan klas (label) yang tidak diketahui
H merupakan hipotesa bahwa X adalah data dengan klas (label) C. P(H) adalah peluang dari hipotesa H
P(X) adalah peluang data sampel yang diamati
P(X|H) adalah peluang data sampel X, bila diasumsikan bahwa hipotesa benar (valid)
Teori Bayesian: Sebagai Dasar
Untuk masalah klasifikasi, yang dihitung adalah P(H|X), yaitu peluang bahwa hipotesa benar (valid) untuk data sample X yang diamati:
)()()|()|( XP
HPHXPXHP =
Nave Bayesian Classifier
Adalah metode classifier yang berdasarkan probabilitas dan Teorema Bayesian dengan asumsi bahwa setiap variabel X bersifat bebas (independence)
Dengan kata lain, Nave Bayesian Classifier mengansumsikan bahwa keberadaan sebuah atribut (variabel) tidak ada kaitannya dengan beradaan atribut (variabel) yang lain
Warna Bentuk Diameter Jenis Buah
Merah Bulat 5 cm Apel
Kuning Bulat 4 cm Jeruk
Kuning Panjang 15 cm Pisang
Nave Bayesian Classifier
Karena asumsi atribut tidak saling terkait (conditionally independent), maka:
Bila P(X|Ci) dapat diketahui melalui perhitungan di atas, maka klas (label) dari data sampel X adalah klas (label) yang memiliki
P(X|Ci)*P(Ci) maksimum
=
=
n
kCixkPCiXP
1)|()|(
Datasetage income student credit_rating buys_computer
40 low yes fair yes>40 low yes excellent no3140 low yes excellent yes
Nave Bayesian Classifier: Contoh
Hitung P(xk|Ci) untuk setiap Class i:
P(age=
Nave Bayesian Classifier: Contoh
Hitung P(X|Ci) untuk setiap Class:
P(X|buys_computer=yes) =
0.222 x 0.444 x 0.667 x 0.0.667 = 0.044
P(X|buys_computer=no) =
0.6 x 0.4 x 0.2 x 0.4 =0.019
=
=
n
kCixkPCiXP
1)|()|(
Nave Bayesian Classifier: Contoh
P(X|Ci)*P(Ci ):
P(X|buys_computer=yes) * P(buys_computer=yes) = 0.028
P(X|buys_computer=no) * P(buys_computer=no) = 0.007
X memiliki klas buys_computer=yes karena P(X|buys_computer=yes) memiliki nilai maksimum pada perhitungan di atas
Nave Bayesian: SummaryKekuatan:
Mudah diimplementasi
Memberikan hasil yang baik untuk banyak kasus
Kelemahan:
Harus mengasumsi bahwa antar fitur tidak terkait (independent) Dalam realita, keterkaitan itu ada
Keterkaitan tersebut tidak dapat dimodelkan oleh Nave Bayesian Classifier
Latihan
Class:
C1: buys_computer = yes
C2:buys_computer= no
Tentukan klas label dari X:
X =(Outlook
Praktikum: Nave Bayesian Classifier Menggunakan Weka
Questions &
Discussion