Post on 13-Feb-2022
PENGGUNAAN DATA MINING UNTUK MEMPREDIKSI
TRENDING TOPIK MENGGUNAKAN ALGORITMA K-NEAREST
NEIGHBOR DAN NAÏVE BAYES
THE DATA MINING UTILIZATION TO PREDICT THE TRENDING
TOPIC USING K-NEAREST NEIGHBOR AND NAÏVE BAYES
ALGORITHM
Anwar
SEKOLAH PASCASARJANA
UNIVERSITAS HASANUDDIN
MAKASSAR
2017
PENGGUNAAN DATA MINING UNTUK MEMPREDIKSI
TRENDING TOPIK MENGGUNAKAN ALGORITMA K-NEAREST
NEIGHBOR DAN NAÏVE BAYES
Tesis
Sebagai salah satu syarat untuk mencapai gelar Megister
Program Studi
Teknik Elektro
Disusun dan diajukan oleh
Anwar
Kepada
SEKOLAH PASCASARJANA
UNIVERSITAS HASANUDDIN
MAKASSAR
2017
TESIS
PENGGUNAAN DATA MINING UNTUK MEMPREDIKSI
TRENDING TOPIK MENGGUNAKAN ALGORITMA K-NEAREST
NEIGHBOR DAN NAÏVE BAYES
Disusun dan diajukan oleh :
ANWAR
Nomor pokok : P2700215026
Telah dipertahankan di depan panitia ujian
akhir pada tanggal 25 Juli 2017 dan
dinyatakan telah memenuhi syarat
Menyetuji
Komisi Penasihat,
Prof. Dr. Ir. Syafruddin Syarif, MT Dr. Eng. Ir. Dewiani. MT
Ketua Anggota
Ketua Program Studi Dekan Fakultas Teknik Teknik Elektro
Universitas Hasanuddin
Dr. Ir. Zahir Zainuddin, M.Sc Dr. Ing. Ir. Wahyu H. Piarah, MSME
Nip. 19640427 198910 1 002 Nip. 19600302 198609 1 001
PERNYATAAN KEASLIAN TESIS
Yang bertanda tangan dibawah ini :
Nama : Anwar
Nomor Pokok : P2700215026
Program Studi : Teknik Elektro
Konsentrasi : Teknik Informatika
Menyatakan dengan sebenarnya bahwa tesis yang saya tulis ini
benar-benar merupakan hasil karya saya sendiri, bukan merupakan
pengambilan tulisan atau pikiran orang lain. Apabila di kemudian hari
terbukti atau dapat dibuktikan bahwa sebagian atau keseluruhan tesis ini
hasil karya orang lain, saya bersedia menerima sanksi atas perbuatan
tersebut.
Makassar, 26 Juli 2017
Yang menyatakan
Anwar
v
ABSTRAK
ANWAR. Penggunaan Data Mining Untuk Memprediksi Trending Topik
Menggunakan Algoritma K-Nearest Neighbor dan Naïve Bayes (dibimbing
oleh Syafruddin Syarif dan Dewiani)
Penelitian ini bertujuan membantu pemerintah khususnya kota
Makassar dalam memprediksi trending topik yang akan terjadi dengan
manganalisa tumpukan histori pada data mining.
Metode yang digunakan yaitu K-Nearest Neighbor (KNN) dan Naïve
Bayes. Penelitian ini dilakukan pada berita dan percakapan di media online
dan media sosial yang berhubungan dengan pemerintah kota Makassar,
dengan jumlah data mentah 975.552. Selanjutnya dilakukan pro-precessing
untuk menentukan percakapan yang trending dan tidak trending yang
menghasilkan 2.632 data latih dan data uji. Teknik analisis kinerja sistem
yang diterapkan yaitu confusion matrix dengan perhitungan persentasi
akurasi, presisi, dan recall.
Hasil penelitian menujukkan metode K-Nearest Neighbor lebih lebih
baik dibanding Naïve Bayes dalam memprediksi trending topik dengan
akurasi 84,79% berbanding 73,74%.
Kata Kunci : Trending Topik, Data Mining, K-Nearest Neighbor, Naïve Bayes
ABSTRACT
Anwar. The Data Mining Utilization to Predict the Trending Topic Using
KNearest Neighbor and Naïve Bayes Algorithms (supervised by Syafruddin
Syarif and Dewiani)
The research aimed at assisting the government particularty
Makassar City Government in predicting the trending topic which would
happen by analyzing the historical stack in the mining data.
Method used ware K-Nearest Neighbor (KNN) and Naïve Bayes. The
research was conducted on the news and conversations of the online social
media releted to Makassar City Government with as many as 975.552 raw
data. The pro-precessing was carried our to determine the trending and
non-trending conversations which produced 2.632 trained and test data.
The system performance analysis technique applied was the confusion
matrix with the percentage calculation of the accuracy, precision, and recall.
The research result indicates that K-Nearest Neighbor method is
better than Naïve Bayes method in predicting the trending topic with the
accuracy of 84,79% compared with 73,74%.
Keywords : Data Mining, Trending Topic, K-Nearest Neighbor, Naïve Bayes
KATA PENGANTAR
Puji syukur kita panjatkan kehadirat Allah Subhanahu Wata’ala atas
segala rahmat dan hidayah-Nya sehingga penulisan dapat menyelesaikan
tesis yang berjudul Penggunaan Data Mining untuk Prediksi Trending Topik
Menggunakan Algoritma K-Nearest Neighbor dan Naïve Bayes.
Pertama-tama kami ucapkan terima kasih yang tulus dan terhingga
kepada pembimbing kami Prof. Dr. Ir. Syafruddin Syarif, MT dan Dr. Eng.
Dewiani, MT yang telah memberikan bimbingan dan dorongan semangat
sejak penyusunan konsep, pelaksanaan hingga penulisan tesisi ini. Terima
kasih juga kami sampaikan kepada penguji tesis ini Muhammad Bachtiar
Nappu, ST, MT, Ph.D, Amil Ahmad Ilham, ST, MT, Ph.D dan Dr-Ing. Faizal
Arya Sammang, ST, MT. dan taklupa juga kami ucapkan terima kasih
kepada Ketua Program Studi (KPS) Teknik Elektro.
Kepada seluruh keluarga terutama kedua orang tua kami yang telah
memberi dukungan dan doa, dan juga kepada istriku dr. Fatmawati A.Said,
M.Kes, Sp.THT-KL dan anakku Gaza Akranul Anwar dan Ghaitza Zaurah
Anwar, crew Madzcom Intr, PT Surianto Rasyid, ST, Ahmad Rusaid,
S.Kom, Amiruddin, ST serta teman-teman program pasca sarjana teknik
informatika angkatan 2015 yang telah bersama menempuh kuliah selama
2 tahun.
Dalam penulisan tesis ini kami telah berusaha secara maksimal,
namun jika terdapat kekurangan baik dari segi pengetikan maupun dari segi
isi kami mohon maaf dan memohon petunjuk berupa saran dan kritikan,
demi penulisan selanjutnya yang lebih baik.
Akhir kata kami selaku penulis mengucapkan terima kasih, dan semoga
Allah SWT selalu meridhoi setiap aktivitas kita. Aamiin.
Makassar, 26 Juli 2017
Penulis
DAFTAR ISI
HALAMAN JUDUL ................................................................................. i
HALAMAN PENGESAHAN .................................................................... ii
ABSTRAK .............................................................................................. v
ABSTRACT ........................................................................................... vi
KATA PENGANTAR .............................................................................. vii
DAFTAR ISI ........................................................................................... ix
DAFTAR GAMBAR ................................................................................ xi
DAFTAR TABEL .................................................................................... xii
DAFTAR GRAFIK .................................................................................. xiii
PENDAHULUAN.................................................................................... 1
A. Latar Belakang Masalah.............................................................. 1
B. Rumusan Masalah ...................................................................... 3
C. Tujuan Penelitian ........................................................................ 4
D. Manfaat Penelitian ...................................................................... 4
E. Batasan Masalah ........................................................................ 5
F. Sistimatika................................................................................... 5
TINJAUAN PUSTAKA ........................................................................... 8
A. Landasan Teori ........................................................................... 8
B. Penelitian Terkait ........................................................................ 23
C. State of The Art ........................................................................... 24
D. Kerangka Pikir ............................................................................. 26
METODE PENELITIAN..........................................................................
27
A. Tahap Penelitian ......................................................................... 27
B. Waktu dan Lokasi Penelitian ....................................................... 28
C. Jenis Penelitian ........................................................................... 29
D. Rancangan Penelitian ................................................................. 29
E. Sumber Data ............................................................................... 32
F. Instrumentasi Penelitian .............................................................. 33
G. Jadwal Penelitian ........................................................................ 34
HASIL DAN PEMBAHASAN .................................................................. 35
A. Penarikan Data ........................................................................... 35
B. Penentuan Trending Topik .......................................................... 36
C. Penarikan Atribut......................................................................... 38
D. Implementasi Algoritma ............................................................... 41
E. Perbandingan Kinerja Algoritma .................................................. 41
KESIMPULAN DAN SARAN .................................................................. 57
A. Kesimpulan ................................................................................. 57
B. Saran .......................................................................................... 57
DAFTAR PUSTAKA ............................................................................... 59
DAFTAR GAMBAR Gambar 1. Skema Ekstraksi Informasi ..................................................... 9
Gambar 2. Alur Pembersihan Data ........................................................ 10
Gambar 3. Langkah-langkah Dalam Menentukan Pengetahuan ............ 11
Gambar 4. Ilustrasi Kedekatan Kasus .................................................... 13
Gambar 5. Kerangka Pikir ...................................................................... 26
Gambar 6. Tahap Penelitian .................................................................. 27
Gambar 7. Desain Sistem ...................................................................... 30
Gambar 8. Jadwal Penelitian ................................................................. 34
DAFTAR TABEL
Tabel 1. Confusion Matrix ...................................................................... 21
Tabel 2. State of The Art ........................................................................ 25
Tabel 3. Sampel Penarikan Data ........................................................... 36
Tabel 4. Proses Penentuan Trending Topic ........................................... 37
Tabel 5. Atribut Jenis Media .................................................................. 38
Tabel 6. Atribut Zona Waktu .................................................................. 38
Tabel 7. Atribut Percakapan Awal .......................................................... 39
Tabel 8. Atribut Followers ...................................................................... 40
Tabel 9. Atribut Sentimen Indeks ........................................................... 40
Tabel 10. Optimasi Nilai K pada Algoritma KNN .................................... 42
Tabel 11. Sampel Data Latih dan Data Uji Perhitungan KNN ................. 42
Tabel 12. Perhitungan Menggunakan KNN ............................................ 43
Tabel 13. Hasil Klasifikasi Perhitungan KNN.......................................... 44
Tabel 14. Confusion Matrix Algoritma KNN ............................................ 44
Tabel 15. Akurasi Menggunakan K-Nearest Neighbor ........................... 45
Tabel 16. Akurasi, Presisi dan Recall Algoritma KNN ............................ 47
Tabel 17. Sampel Data Latih dan Data Uji Naive Bayes ........................ 49
Tabel 18. Confusion Matrix Naive Bayes ............................................... 51
Tabel 19. Akurasi Menggunakan Naive Bayes....................................... 52
Tabel 20. Akurasi, Presisi dan Recall Algoritma Naive Bayes ................ 53
Tabel 21. Perbandingan Algoritma KNN dan Naive Bayes .................... 54
DAFTAR GRAFIK
Grafik 1. Akurasi Algoritma K-Nearest Neighbor .................................... 46
Grafik 2. Presisi dan Recall Algoritma K-Nearest Neighbor .................... 47
Grafik 3. Akurasi Algoritma Naïve Bayes ............................................... 52
Grafik 4. Presisi dan Recall algoritma Naive Bayes ............................... 53
Grafik 5. Perbandingan Akurasi KNN dan Naive Bayes ......................... 55
DAFTAR SINGKATAN API : Application Programming Interface
FP : False Positive
FN : False Negative
KDD : Knowledge Discovery in Database
KNN : K-Nearest Neighbor
LDA : Latent Dirichet Allocation
NB : Naive Bayes
SVM : Support Vektor Machine
TN : True Negative
TP : True Posstive
URL : Uniform Resource Locator
1
BAB I
PENDAHULUAN
A. Latar Belakang Masalah
Perkembangan teknologi informasi dan komunikasi saat ini
mengakibatkan terjadinya arus informasi dengan jumlah besar dalam waktu
singkat, kondisi seperti ini menjadi nilai positif bagi pemerintahan kota untuk
dapat melihat setiap perkembangan yang terjadi dalam masyarakat,
termasuk didalamnya kota Makassar yang telah mengembangkan sistem
pemerintahan cerdas atau dikenal dengan Makassar SMART City.Terdapat
percakapan di Twitter dan Facebook rata-rata setiap hari berkisar 500
percakapan, ditambah lagi berita dari media online berkisar 50 berita
perhari sehingga dalam rentang waktu januari 2015 sampai Maret 2017
telah terdapat 443.000 data percakapan (Diskominfo Makassar, 2017).
Arus informasi yang cepat dalam jumlah besar semakin mempermudah
pemerintah dalam mengambil keputusan dengan cepat dan tepat dengan
melihat trending topik yang terjadi dan bahkan dapat dilakukan dengan
teknik prediksi dari data yang terkumpul dalam data mining.
Trending topik menjadi satu pokok bahasan yang menarik dewasa
ini, keberadaannya memberi pengaruh besar dalam pengambilan
keputusan, trending topik dapat dipandang sebagai solusi dalam
melakukan analisis data dan informasi yang mampu membaca arah
2
perkembangan dimasa depan, menurut pengertian trending topik adalah
topik atau isu yang paling banyak di bicarakan orang dalam periode waktu
tertentu. Pada tahap awalnya trending topik cenderung diekstrak dari koran
atau dokumen berbasis kertas lainnya (Anderson et al.,1992). Namun sejak
berkembangnya internet pada tahun 2000 trending topik lebih sering
dijumpai pada situs internet terutama twitter.
Penelitian tentang prediksi trending topik pada sosial media
dilakukan LIU et al (2013), mengambil data dari facebook, twitter dan sina
weibo, dengan menggunakan Support Vektor Machine (SVM) penelitian ini
memprediksi satu tema apakah menjadi trending topik atau tidak.
Penelitian berikutnya mengambil data dari web IMDb, wikipidia,
youtube dan twitter, dengan melakukan prediksi popularitas film dari jumlah
pengikut aktor, penayangan film, like, komentar dan sentiment, penelitian
ini menggunakan algoritma J48, SVM dan KNN untuk memprediksi
popularitas film (Ahmed et al., 2015). Pada penelitian yang hampir sama
menggunakan parameter jenis film, pularitas artis, komentar, sequal film
dan sentiment analisis, yang dioleh dengan algoritma K-Means clustering
untuk pengelompokan dan J48 untuk prediksi diperoleh hasil bahwa
akurasi prediksi ditentukan oleh jumlah pembobotan pada atribut yang
digunakan (Apala et al., 2013).
Penelitian selanjutnya mengambil data dari twitter, facebook, CNN,
dan BBC, dengan menggunakan Latent Dirichet Allocation (LDA) mampu
memprediksi trending topik dari fitur jadwal acara, breaking news dan
3
kemunculan pertama berita, hasil yang diperolah dari penelitian ini
menyimpulkan prediksi tranding topik lebih cepat jika munculnya dari sosial
media, namun media mainstream juga tetap dibutuhkan untuk memberi
penguatan (Lobzhanidze et al., 2013).
Prediksi profesi berdasarkan model bahasa pada tweets, dengan
mangambil data dari twitter yang menjadi trending topik, penelitian ini
menggunakan metode N-gram untuk pengelompokan dan naïve bayes
untuk melakukan prediksi (Toba & Stefanus, 2016).
Berdasarkan penelitian tersebut maka penulis akan melakukan penelitian
dengan mengambil data dari media maentrean yaitu media online dan
sosial media untuk saling menguatkan, kemudian menggunakan teknik
data mining untuk melakukan prediksi tranding topik yang berhubungan
dengan pemerintah kota Makassar dengan metode K Nearest Neighbor
(KNN) dan Naïve Bayes untuk melakukan prediksi.
B. Rumusan Masalah
Rumusan Masalah dari penelitian ini adalah :
1. Bagaimana cara pengambilan data pada sosial media dan media
online dalam membentuk data mining
2. Bagaimana menentukan atribut yang digunakan dalam prediksi
trending topik?
3. Bagaimana penerapan algoritma K-Nearest Neighbor (KNN) dan
Naïve Bayes memprediksi trending topik?
4
C. Tujuan Penelitian
Tujuan yang akan dicapai pada penelitian ini adalah :
1. Menentukan cara pengambilan data pada media sosial dan
media online dalam membentuk data mining.
2. Menentukan atribut yang digunakan dalam prediksi trending
topik.
3. Menentukan perbandingan algoritma K-Nearest Neighbor (KNN)
dan Naïve Bayes dalam memprediksi trending topik.
D. Manfaat Penelitian
Manfaat yang dapat diperoleh dari penelitian ini adalah :
1. Bagi Masyarakat, penelitian ini dapat membantu pihak terkait
untuk memperoleh informasi prediksi trending topik.
2. Bagi peneliti, penelitian ini berguna untuk menambah
pengetahuan dan kemampuan mengenai prediksi trending topik
menggunakan algoritma K-Nearest Neighbor (KNN) dan Naïve
Bayes.
3. Bagi Institusi pendidikan Magister Jurusan Teknik Elektro
Konsentrasi Teknik Informatika, dapat digunakan sebagai
referensi ilmiah dalam penelitian untuk pengembangan data
mining dalam prediksi trending topik.
5
E. Batasan Masalah
Batasan masalah penelitian adalah :
1. Pengambilan data mining dilakukan pada percakapan sosial media
dan media online yang berhubungan dengan pemerintah kota
Makassar, tanpa melakukan filter terhadap percakapan dan akun
yang memuat informasi.
2. Pengolahan data menggunakan algoritma K-Nearest Neighbor
(KNN) dan Naïve Bayes.
3. Data yang digunakan adalah data selama 2 Tahun (2015 – 2017).
F. Sistimatika
Sistematika penulisan pada penelitian ini adalah:
Bab I Pendahuluan
Bab I berisi penjelasan tentang latar belakang masalah, rumusan
masalah, tujuan penelitian, manfaat penelitian, ruang lingkup penelitian
serta sistematika penulisan.
Bab II Landasan Teori dan Kerangka Pemikiran
Bab II berisi penjelasan tentang landasan teori yang digunakan
dalam penelitian dan kerangka pemikiran. Diuraikan pula tentang
tinjauan pustaka yang merupakan penjelasan tentang hasil-hasil
penelitian lainnya yang berkaitan dengan penelitian yang dilakukan.
Landasan teori merupakan suatu penjelasan tentang sumber acuan
6
terbaru dari pustaka primer seperti buku, artikel, jurnal, prosiding dan
tulisan asli lainnya untuk mengetahui perkembangan penelitian yang
relevan dengan judul atau tema penelitian yang dilakukan dan juga
sebagai arahan dalam memecahkan masalah yang diteliti. Dalam bab ini
juga diuraikan tentang kerangka pemikiran yang merupakan penjelasan
tentang kerangka berpikir untuk memecahkan masalah yang sedang
diteliti, termasuk menguraikan objek penelitian serta state of the art dari
beberapa penelitian terkait. Road map dan tahapan – tahapan yang akan
dilakukan untuk menyelesaikan penelitian juga akan di bahas pada bab
ini.
Bab III Metodologi Penelitian
Bab III ini merupakan penjelasan tentang metode penelitian,
penentuan masalah, penentuan atribut yang digunakan, juga penjelasan
bagaimana pengembangan dan penerapan algoritma data mining pada
obyek penelitian, diuraikan pula cara evaluasi dan validasi hasil
penerapan, metode pengumpulan data, metode analisis data, metode
pengukuran penelitian, penerapan algoritma data mining pada masalah
penelitian, pengembangan metode yang menerapkan data mining,
analisa kebutuhan, konstruksi sistem dan pengujian sistem.
7
Bab IV Hasil dan pembahasan
Pada bab IV ini menjelaskan tentang hasil dan pembahasan
penelitian serta implikasi dari penelitian yang dilakukan. Hasil merupakan
suatu penjelasan tentang data kuantitatif yang dikumpulkan dari media
sosial dan media online sesuai dengan metodologi yang telah ditetapkan.
Pembahasan merupakan suatu penjelasan tentang pengolahan data dan
interprestasinya, baik dalam bentuk diskriptif ataupun penarikan
inferensinya. Implikasi penelitian merupakan suatu penjelasan tentang
tindak lanjut penelitian yang terkait dengan aspek manajerial, aspek
sistem, maupun aspek penelitian lanjutan.
Bab V Kesimpulan dan Saran
Pada bab V ini berisi ringkasan temuan, rangkuman kesimpulan
dan saran. Kesimpulan merupakan pernyataan secara general atau
spesifik yang berisi hal-hal penting dan menjadi temuan penelitian yang
bersumber pada hasil dan pembahasan. Saran merupakan pernyataan
atau rekomendasi peneliti yang berisi hal-hal penting sebagaimana yang
telah disampaikan.
8
BAB II
TINJAUAN PUSTAKA
A. Landasan Teori
1. Trending topik
Trending topik adalah topik atau isu yang paling banyak di
bicarakan orang dalam periode waktu tertentu. Pada tahap awalnya
trending topik cenderung diekstrak dari koran atau dokumen berbasis
kertas lainnya. Namun sejak berkembangnya internet pada tahun 2000
trending topik lebih sering dijumpai pada situs internet terutama twitter,
kondisi seperti ini dapat dimanfaatkan oleh lembaga pemerintah dan
swasta untuk melakukan pemetaan dan analisis informasi yang dapat
dijadikan dasar dalam pengambilan keputusan.
Proses awal sebelum pentuan trending topik dimulai dengan
pengumpulan atau ektraksi informasi dari halaman web berita dan sosial
media atau disebut dengan mashup. Mashup adalah website atau web
application yang secara tanpa batas mengkominasikan konten yang
sumbernya lebih dari kedalam sebuah bentuk terintegrasi (Sari&
Wicaksana, 2011). Ekstraksi informasi dapat dilakukan melalui teknik
crawling dan pemanfaatan Application Programming Interface (API)
9
yang disediakan pada halaman website atau sosial media, adapun
skema dalam ekstraksi informasi dapat terlihat pada gambar 1 dibawah
ini.
Gambar 1. Skema ekstraksi informasi
Crawling atau web crawler adalah teknik untuk mengumpulkan
semua informasi yang ada di dalam halaman web. Prinsip kerja crawler
adalah melakukan pemindaian (scanning) terhadap keberadaan
hyperlink yang terhubung ke halaman lain yang belum dikumpulkan
pada halaman halaman yang telah dikumpulkan sebelumnya. Crawler
memulai kerjanya dari sejumlah halaman yag diberikan URL-nya,
kemudian melakukan scanning terhadap URL lain (outlinks) yang
10
berhubungan dari halaman tersebut, pekerjaan ini dilakukan secara
berulang dalam sebuah siklus tanpa henti (Sari & Wicaksana, 2011).
Proses pembersihan data (pre-prosessing) merupakan teknik
yang dilakukan untuk menghilangkan noise dan stopwork pada data
yang telah dikumpulkan, adapun proses pembersihan data meliputi
beberapa fase, yaitu :
1. Fase analisis data
2. Fase pendefinisian alur kerja
3. Fase verifikasi alur kerja
4. Fase transformasi
5. Fase evaluasi
Adapun untuk mengambar alur proses pembersihan data dapat
terlihat seperti pada gambar 2 (Sari & Wicaksana, 2011)
Gambar 2. Alur pembersihan data
2. Data Mining
Data mining adalah serangkaian proses untuk menggali nilai
tambah dari suatu kumpulan data berupa pengetahuan, sedangkan
11
menurut Han & Kamber (2006). Data mining adalah proses
menambang (mining) pengetahuan dari sekumpulan data yang sangat
besar. Data mining merupakan suatu langkah dalam knowledge
discovery in database (KDD). Langkah-langkah dalam menemukan
pengetahuan (discovery knowledge) pada Gambar 3 meliputi :
Gambar 3. Langkah-langkah dalam menentukan pengetahuan (Han &
Kamber, 2006)
1. Data cleaning
Menghilangkan noise dan data yang tidak konsisten.
2. Data integration
Menggabungkan berbagai sumber data
3. Data selection
Menerima data yang berhubungan dengan analisa dari
database.
4. Data transformation
12
Mengubah data ke bentuk yang sesuai untuk mining dengan
melakukan agregasi atau summary.
5. Data mining
Melakukan proses mining untuk mengekstrak data.
6. Pattern evaluation
Mengidentifikasi pola yang menggambarkan pengetahuan
(knowledge).
7. Knowledge presentation
Menampilkan mined knowledge kepada pengguna.
Teknik Data Mining
Kegunaan data mining adalah untuk mengklasifikasikan pola
yang harus ditemukan dalam data mining. Secara umum, data mining
dapat diklasifikasikan dalam dua kategori yaitu deskriptif dan prediktif.
Adapun operasi-operasi dan teknik-teknik yang berhubungan :
1. Operasi Predictive modeling : (classification, value prediction)
2. Database segmentation : (demographic clustering,neural clustering)
3. Link Analysis : (association discovery, sequential pattern discovery,
similar timesequence discovery)
4. Deviation detection : (statistics, visualization)
3. K-Nearest Neighbor (KNN)
Algortima K-Nearest Neighbor (KNN) adalah merupakan sebuah
metode untuk melakukan klasifikasi terhadap obyek baru berdasarkan
13
(K) tetangga terdekatnya. KNN termasuk algoritma supervised learning,
dimana hasil dari query instance yang baru, diklasifikasikan berdasarkan
mayoritas dari kategori pada KNN. Kelas yang paling banyak muncul
yang akan menjadi kelas hasil klasifikasi (Gorunescu, 2011).
Nearest Neighbor adalah suatu pendekatan untuk menghitung
kedekatan antara kasus baru dengan kasus lama, yaitu berdasarkan
pada pencocokan bobot dari sejumlah fitur yang ada. Illustrasi
kedekatan kasus pada Gambar 4
Gambar 4. Ilustrasi kedekatan kasus
Seperti tampak pada gambar 4 memberikan gambaran tentang
proses mencari solusi terhadap seorang pasien baru dengan
menggunakan mengacu pada solusi dari pasien terdahulu. Untuk
mencari kasus pasien mana yang akan digunakan, maka dihitung
kedekatan anatara kasus pasien baru dengan semua kasus pasien
lama. Kasus pasien lama dengan kedekatan terbesar-lah yang akan
diambil solusinya untuk digunakan pada kasus pasien baru (Kusrini &
Luthfi, 2009).
14
Umumnya, KNN digunakan untuk pembelajaran berbasis instan
dan penalaran yang berkaitan dengan data simbolis. KNN dikenal juga
dengan lazy learning yaitu teknik yang melakukan training jika ada data
yang tersedia untuk pelatihan. Ditentukan D adalah training set dan z
adalah test set untuk vektor dari nilai atribut dan memiliki label kelas
yang tidak diketahui. Algoritma KNN akan menghitung jarak antara z dan
semua data training untuk menetukan daftar terdekat dari tetangganya.
Setelah itu memberikan kelas untuk z dengan mengambil kelas
mayoritas dari data tetangganya. Jika ada hubungan data yang tidak
sesuai atau tidak diketahui maka akan ditentukan secara acak atau
dengan mengambil kelas yang paling sering pada training set (Wu &
Kumar, 2009).
Ada beberapa hal yang mempengaruhi kinerja KNN, salah
satunya adalah optimasi nilai K. Jika nilai K terlalu kecil, maka bisa
mengurangi data noise. Namun sebaliknya, jika nilai k terlalu besar,
maka data-data tetangga dari kelas lain akan ikut terseleksi sehingga
dapat menambah data noise. Untuk menentukan nilai terbaik dari K
dapat digunakan cross validation. Selain masalah pemilihan nilai K,
masalah lain adalah pendekatan yang dilakukan untuk menggabungkan
label kelas. Metode yang paling sederhana adalah dengan cara
mengambil putusan mayoritas. Tapi cara ini kurang efektif jika tetangga
terdekat memiliki jarak yang bervariatif dan tetangga dekat lebih
dominan menunjukkan kelas objek. Square distance adalah pendekatan
15
yang baik karena kurang dipengaruhi oleh pemilihan nilai K, setiap bobot
objek ditentukan oleh jaraknya (Wu & Kumar,2009). Berikut persamaan
dari Wu & Kumar, (2009). square distance: .
𝑤𝑖: menyatakan bobot untuk data 𝑥𝑖 yang menjadi tetangga terdekat d(y,
z): menyatakan jarak (ketidakmiripan) antara data 𝑦𝑖 dengan data uji z.
Kemudian nilai 𝑤𝑖 dapat digunakan untuk menghitung pemilihan kelas
hasil prediksi. Berikut persamaannya (Wu & Kumar, 2009) :
Distance-Weighted Voting: 𝑐𝑧 = 𝑎𝑟𝑔𝑚𝑎𝑥 ∑𝑦∈𝑁 𝑤𝑖 × 𝛪 (𝜐 = 𝑐𝑙𝑎𝑠𝑠(𝑐𝑦)) 𝜐∈𝐿
Pemilihan ukuran jarak antara data 𝑥𝑖 dengan data uji z sangat
penting. Umumnya, fungsi jarak yang digunakan untuk mengukur data x
dan z dengan n atribut adalah fungsi Euclidean atau Manhattan.
Berikut persamaannya:
Euclidean distance: (1)
Manhattan distance: (2)
dimana 𝑥𝑘dan 𝑦𝑘adalah atribut ke k dari masing-masing x dan y.
Beberapa pengukuran jarak dipengaruhi oleh dimensi data yang
tinggi. Secara khusus, hal ini dapat mempengaruhi ukuran jarak
Euclidean menjadi kurang diskriminatif karena jumlah atribut meningkat.
Atribut juga harus ditingkatkan untuk mencegah pengukuran jarak yang
didominasi oleh salah satu atribut (Wu & Kumar, 2009).
16
4. Naïve Bayes
Metode klasifikasi Bayesian atau biasa disebut Naive Bayes
adalah pengklasifikasian statistik yang digunakan untuk memprediksi
probabilitas keanggotaan suatu class (Kusrini, 2009), Pada klasifikasi
Naive Bayes nilai atribut suatu kelas tidak tergantung dari nilai atribut
kelas yang lain. Sehingga kondisi ini disebut kelas independen
bersyarat. Cara kerja klasifikasi Naive bayes didasarkan pada teorema
Bayes.
Teorema Bayes dikembangkan olen Thomas bayes pada abad
ke 18 adalah seorang tokoh yang pertama kali mengembangkan teori
probabilitas. Ditentukan data X yang memiliki n atribut, dan H memiliki
beberapa hipotesis dari data X milik kelas C. Untuk malakukan
klasifikasi maka kita akan menentukan 𝑃(𝐻|𝑋) , bahwa probabilitas
hipotesis H merupakan data yang ada pada data X atau mencari
probabilitas data X milik kelas C (Han & Kamber, 2006).
𝑃(𝐻|𝑋) adalah probabilitas posterior atau posteriori, dimana H
dikondisikan pada X. misalnya kita memiliki data pelanggan yang
masing-masing memiliki atribut usia dan pendapatan. X adalah
pelanggan yang berusia 40 tahun dengan pendapatan Rp 3500000. H
adalah hipotesis pelanggan yang akan membeli komputer. Maka 𝑃(𝐻|𝑋)
adalah probabilitas pelanggan X yang akan membeli komputer, dengan
ketentuan nilai dari atribut X sudah diketahui (Han & Kamber,
2006).
17
Sebaliknya, 𝑃(𝐻) adalah probabilitas sebelumnya, atau
probabilitas apriori, dari H. Sebagai contoh kita, probabilitas setiap
pelanggan akan membeli komputer, tanpa memandang usia,
pendapatan, atau informasi lainnya. Probabilitas posterior, 𝑃(𝐻|𝑋) ,
berdasarkan informasi lebih lanjut (misalnya, informasi pelanggan) dari
probabilitas sebelumnya, 𝑃(𝐻), yang independen dari X (jiawei han,
2006).
Dengan demikian, 𝑃(𝑋|𝐻) adalah probabilitas posterior dari X
dikondisikan pada H. Artinya, itu adalah probabilitas pelanggan X yang
berusia 40 tahun dengan penghasilan Rp 3500000, mengingat kita tahu
pelanggan akan membeli komputer. 𝑃(𝑋) adalah probabilitas
sebelumnya dari X, yaitu probabilitas pelanggan yang berusia 40 tahun
dengan penghasilan Rp 3500000.
Teorema Bayes untuk menghitung probabilitas posterior, 𝑃(𝐻|𝑋),
dari 𝑃(𝐻), 𝑃(𝑋|𝐻), dan 𝑃(𝑋) secara umum memiliki bentuk sebagai
berikut (Kusrini, 2009) :
(3)
dimana hal ini :
X = Data dengan class yang belum diketahui
H = Hipotesis data X merupakan suatu class spesifik
𝑃(𝐻|𝑋) = Probabilitas hipotesis H berdasarkan kondisi X
𝑃(𝐻) = Probabilitas hipotesis H
18
Berikut cara kerja klasifikasi Naive Bayes menurut Han & Kamber
(2006). :
1. Ditentukan D adalah data training set yang memiliki kelas label.
Setiap data memiliki vektor atribut n-dimensi, 𝑋 = (𝑥1, 𝑥2, 𝑥3, … 𝑥𝑛), n
adalah pengukuran yang dilakukan pada data n atribut,𝐴1, 𝐴2, . . . , 𝐴𝑛.
2. Misalkan ada sebuah data X yang memiliki kelas m𝐶1, 𝐶2, . . . , 𝐶𝑚 ,
clasifier akan memprediksi X termasuk kelas yang memiliki posterior
probabilitas tertingi yang bersyarat pada X. Artinya, classifier Naive
Bayesian akan memprediksi bahwa data X termasuk kelas 𝐶𝑖 jika dan
hanya jika 𝑃(𝐶𝑖|𝑋) > 𝑃(𝐶𝑗|𝑋) untuk 1 ≤ 𝑗 ≤ 𝑚, 𝑗 ≠ 𝑖dengan teorema
Bayes kita akan memaksimalkan 𝑃(𝐶𝑖|𝑋) sehingga menjadi
(4)
3. Untuk 𝑃(𝑋) adalah konstan untuk semua kelas. Kelas prior
probabilitas dapat diestimasi dengan 𝑃(𝐶𝑖) =
|𝐶𝑖,𝐷|⁄|𝐷| dimana |𝐶𝑖,𝐷| adalah jumlah training data pelatihan kelas 𝐶𝑖di
D. Jika kelas prior probabilitas tidak diketahui, maka umumnya akan
diasumsikan memiliki kelas yang sama, yaitu 𝑃(𝐶𝑖) = 𝑃(𝐶2) = ⋯ =
𝑃(𝐶𝑚)dan akan memaksimalkan 𝑃(𝑋|𝐶𝑖). Jika tidak, maka akan
memaksimalkan 𝑃(𝑋|𝐶𝑖)𝑃(𝐶𝑖).
4. Semakin banyak atribut yang digunakan dalam dataset maka akan
semakin tinggi komputasi untuk menghitung 𝑃(𝑋|𝐶𝑖) , untuk
19
mengantipasi hal tersebut Naive Bayes membuat independen kelas
besyarat (tidak ada hubungan ketergantungan antara atribut).
Berikut persamaannya:
(5)
= 𝑃(𝑥1|𝐶𝑖) × 𝑃(𝑥1|𝐶𝑖) ×. . .× 𝑃(𝑥𝑛|𝐶𝑖)
dimana 𝑥𝑘 adalah nilai atribut 𝐴𝑘 pada tuple X. Ada beberapa hal yang
perlu diperhatikan dalam menghitung 𝑃(𝑋|𝐶𝑖)yaitu:
a) Jika atribut 𝐴𝑘 bernilai kategoris, maka 𝑃(𝑥𝑘|𝐶𝑖) adalah jumlah
tuple dari kelas 𝐶𝑖 di D memiliki nilai 𝑥𝑘 untuk 𝐴𝑘, dibagi
dengan |𝐶𝑖, 𝐷|, jumlah data kelas 𝐶𝑖 di D.
b) Jika atribut 𝐴𝑘 bernilai kontinu, maka akan didistribusikan ke
Gaussian dengan mean μ dan standar σ deviasi, yang
didefinisikan sebagai berikut:
(6)
maka :
𝑃(𝑥𝑘|𝐶𝑖) = 𝑔(𝑥𝑘, 𝜇𝐶𝑖, 𝜎𝐶𝑖) (7)
kemudian menghitung μ 𝐶𝑖 dan σ 𝐶𝑖 , yaitu mean dan standar
deviasi, dari nilai-nilai atribut 𝐴𝑘 untuk data pelatihan dari kelas
𝐶𝑖 . Setelah itu, memasukkan nilai dari dua kuantitas ini ke
Persamaan diatas, bersama-sama dengan
𝑥𝑘 , untuk
20
menentukan 𝑃(𝑥𝑘|𝐶𝑖).
5. Untuk memprediksi label kelas X, fungsi probabilitas 𝑃(𝑋|𝐶𝑖)𝑃(𝐶𝑖)
akan dilakukan evaluasi untuk setiap kelas 𝐶𝑖 . Classifier akan
memprediksi setiap label kelas pada tuple X yang merupakan kelas
𝐶𝑖 jika dan hanya jika
𝑃(𝑋|𝐶𝑖)𝑃(𝐶𝑖) > 𝑃(𝑋|𝐶𝑗)𝑃(𝐶𝑗)untuk 1 ≤ 𝑗 ≤ 𝑚, 𝑗 ≠ 𝑖
Dengan kata lain, label kelas yang diprediksi adalah kelas 𝐶𝑖 dimana
probabilitasnya 𝑃(𝑋|𝐶𝑖)𝑃(𝐶𝑖) mempunyai nilai maksimum.
5. K-Fold Cross Validation
Cross validation merupakan metode yang umum sering
digunakan untuk mengevaluasi hasil klasifikasi dataset dari model
klasifier. Dalam cross validation dataset dibagi menjadi beberapa k
bagian atau lipatan D1, D2, D3,... Dk dengan jumlah data yang sama
untuk setiap bagian yang akan digunakan sebagai pelatihan dan
pengujian sampai k kali. Pada iterasi ke i, partisi data Di dipisahkan
untuk data uji, sedangkan partisi yang lain akan digunakan untuk model
data latih.
Artinya, pada iterasi pertama sub himpunan D2,...Dk digunakan
sebagai data pelatihan untuk mendapatkan model pertama dan D1
sebagai data ujinya. Pada iterasi kedua sub himpunan D1, D3...Dk
digunakan sebagai data pelatihan untuk mendapatkan model kedua dan
21
D2 sebagai data ujinya dan seterusnya. Setiap sampel yang digunakan
untuk pelatihan sampai K kali sama jumlahnya dan akan dilakukan
sekali pengujian. Dalam cross validation pendekatan seperti ini disebut
Leave-one-out, artinya satu sampel data ditinggalkan untuk pengujian
dan sisanya digunakan untuk pelatihan. Pada umumnya nilai K yang
digunakan untuk estimasi akurasi pada cross validation diset K=10
(Han& Kamber, 2006).
6. Akurasi, Presisi dan Recall
Akurasi adalah tingkat kedekatan antara nilai prediksi dengan
nilai aktual, sementara presisi adalah tingkat ketepatan antara informasi
yang diminta oleh pengguna dengan jawaban yang diberikan oleh
sistem. Sedangkan recall adalah tingkat keberhasilan sistem dalam
menemukan kembali sebuah informasi.
Untuk menghitung akurasi, presisi dan recall satu sistem kinerja
pada umumnya digunakan confussion matrix. Confusion matrix
merupakan tabel yang digunakan untuk mencatat hasil dari kinerja
klasifikasi (Nurtanio, 2013). Berikut tabel confusion matrix untuk
melakukan klasifikasi dua kelas.
Tabel 1. Confusion Matrix
Confusion
matrix
PREDIKSI
FALSE TRUE
AKTUAL FALSE TN FP
TRUE FN TP
Keterangan:
22
TN (True Negative) : Jumlah data yang teridentifikasi dengan benar
sebagai kelas negatif
FP (False Positive) : Jumlah data negatif yang teridentifikasi sebagai
kelas positif
FN (False Negative) : Jumlah data positif yang teridentifikasi sebagai
kelas negatif
TP (True Posstive) : Jumlah data yang teridentifikasi dengan benar
sebagai kelas positif
Jika nilai TN, FP, FN, dan TP diperoleh, maka nilai tingkat akurasi,
presisi dan recall dari masing-masing model dapat dihitung dengan
persamaan:
(8)
(9)
(10)
23
B. Penelitian Terkait
Beberapa penelitian terkait prediksi trending topik telah dilakukan
dari tahun ke tahun, sistem prediksi dengan menggunakan data mining
meliputi 3 tahap yaitu pre-processing, pengelompokan dan prediksi
trending topik, berdasarkan proses tersebut ada beberapa penelitian terkait
dari tahun 2013 – 2016 dari literature jurnal nasional dan internasional yang
menjadi acuan untuk pengembangan kedepannya.
Penelitian tentang prediksi trending topik pada sosial media
dilakukan LIU et al (2013), mengambil data dari facebook, twitter dan sina
weibo, dengan menggunakan Support Vektor Machine (SVM) penelitian ini
memprediksi satu tema apakah menjadi trending topik atau tidak.
Penelitian berikutnya mengambil data dari web IMDb, Wikipidia,
Youtube dan Twitter, dengan melakukan prediksi popularitas film dari
jumlah pengikut aktor, penayangan film, like, komentar dan sentiment,
penelitian ini menggunakan algoritma J48, SVM dan KNN untuk
memprediksi popularitas film (Ahmed et al., 2015). Pada penelitian yang
hampir sama menggunakan parameter jenis film, pularitas artis, komentar,
sequal film dan sentiment analisis, yang dioleh dengan algoritma K-Means
clustering untuk pengelompokan dan J48 untuk prediksi diperoleh hasil
bahwa akurasi prediksi ditentukan oleh jumlah pembobotan pada atribut
yang digunakan (Apala et al., 2013).
24
Penelitian selanjutnya mengambil data dari twitter, facebook, CNN,
dan BBC, dengan menggunakan Latent Dirichet Allocation (LDA) mampu
memprediksi trending topik dari fitur jadwal acara, breaking news dan
kemunculan pertama berita, hasil yang diperolah dari penelitian ini
menyimpulkan prediksi tranding topik lebih cepat jika munculnya dari sosial
media, namun media mainstream juga tetap dibutuhkan untuk memberi
penguatan (Lobzhanidze et al., 2013).
Prediksi profesi berdasarkan model bahasa pada tweets, dengan
mangambil data dari twitter yang menjadi trending topik, penelitian ini
menggunakan metode n-gram untuk pengelompokan dan naïve bayes
untuk melakukan prediksi (Toba & Stefanus, 2016). Penelitian selanjutnya
memprediksi hasil pemiliha presiden di pakistan dengan mangambil data
dari twitter berdasarkan jumlah tweets dan sentiment analisis dari partai
politik, dengan menggunakan Chaid, Naïve Bayes dan SVM, diperoleh
hasil bahwa Metode Chaid lebih akurat dibandingkan dengan metode yang
lain (Mahmood et al., 2013).
C. State of The Art
Beberapa penelitian terkait yang membahas tentang trending
topik telah dilakukan dari tahun ke tahun. Proses untuk prediksi trending
topik dilakukan dengan 3 tahap yaitu pengambilan data, tahap pre-
processing, dan tahap prediksi trending topik.
25
Tabel 2. State of the art