PENGGUNAAN DATA MINING UNTUK MEMPREDIKSI TRENDING …

PENGGUNAAN DATA MINING UNTUK MEMPREDIKSI

TRENDING TOPIK MENGGUNAKAN ALGORITMA K-NEAREST

NEIGHBOR DAN NAÏVE BAYES

THE DATA MINING UTILIZATION TO PREDICT THE TRENDING

TOPIC USING K-NEAREST NEIGHBOR AND NAÏVE BAYES

ALGORITHM

SEKOLAH PASCASARJANA

UNIVERSITAS HASANUDDIN

MAKASSAR

Sebagai salah satu syarat untuk mencapai gelar Megister

Program Studi

Teknik Elektro

Disusun dan diajukan oleh

Kepada

SEKOLAH PASCASARJANA

UNIVERSITAS HASANUDDIN

MAKASSAR

Disusun dan diajukan oleh :

Nomor pokok : P2700215026

Telah dipertahankan di depan panitia ujian

akhir pada tanggal 25 Juli 2017 dan

dinyatakan telah memenuhi syarat

Menyetuji

Komisi Penasihat,

Prof. Dr. Ir. Syafruddin Syarif, MT Dr. Eng. Ir. Dewiani. MT

Ketua Anggota

Ketua Program Studi Dekan Fakultas Teknik Teknik Elektro

Universitas Hasanuddin

Dr. Ir. Zahir Zainuddin, M.Sc Dr. Ing. Ir. Wahyu H. Piarah, MSME

Nip. 19640427 198910 1 002 Nip. 19600302 198609 1 001

PERNYATAAN KEASLIAN TESIS

Yang bertanda tangan dibawah ini :

Nama : Anwar

Nomor Pokok : P2700215026

Program Studi : Teknik Elektro

Konsentrasi : Teknik Informatika

Menyatakan dengan sebenarnya bahwa tesis yang saya tulis ini

benar-benar merupakan hasil karya saya sendiri, bukan merupakan

pengambilan tulisan atau pikiran orang lain. Apabila di kemudian hari

terbukti atau dapat dibuktikan bahwa sebagian atau keseluruhan tesis ini

hasil karya orang lain, saya bersedia menerima sanksi atas perbuatan

tersebut.

Makassar, 26 Juli 2017

Yang menyatakan

ABSTRAK

ANWAR. Penggunaan Data Mining Untuk Memprediksi Trending Topik

Menggunakan Algoritma K-Nearest Neighbor dan Naïve Bayes (dibimbing

oleh Syafruddin Syarif dan Dewiani)

Penelitian ini bertujuan membantu pemerintah khususnya kota

Makassar dalam memprediksi trending topik yang akan terjadi dengan

manganalisa tumpukan histori pada data mining.

Metode yang digunakan yaitu K-Nearest Neighbor (KNN) dan Naïve

Bayes. Penelitian ini dilakukan pada berita dan percakapan di media online

dan media sosial yang berhubungan dengan pemerintah kota Makassar,

dengan jumlah data mentah 975.552. Selanjutnya dilakukan pro-precessing

untuk menentukan percakapan yang trending dan tidak trending yang

menghasilkan 2.632 data latih dan data uji. Teknik analisis kinerja sistem

yang diterapkan yaitu confusion matrix dengan perhitungan persentasi

akurasi, presisi, dan recall.

Hasil penelitian menujukkan metode K-Nearest Neighbor lebih lebih

baik dibanding Naïve Bayes dalam memprediksi trending topik dengan

akurasi 84,79% berbanding 73,74%.

Kata Kunci : Trending Topik, Data Mining, K-Nearest Neighbor, Naïve Bayes

ABSTRACT

Anwar. The Data Mining Utilization to Predict the Trending Topic Using

KNearest Neighbor and Naïve Bayes Algorithms (supervised by Syafruddin

Syarif and Dewiani)

The research aimed at assisting the government particularty

Makassar City Government in predicting the trending topic which would

happen by analyzing the historical stack in the mining data.

Method used ware K-Nearest Neighbor (KNN) and Naïve Bayes. The

research was conducted on the news and conversations of the online social

media releted to Makassar City Government with as many as 975.552 raw

data. The pro-precessing was carried our to determine the trending and

non-trending conversations which produced 2.632 trained and test data.

The system performance analysis technique applied was the confusion

matrix with the percentage calculation of the accuracy, precision, and recall.

The research result indicates that K-Nearest Neighbor method is

better than Naïve Bayes method in predicting the trending topic with the

accuracy of 84,79% compared with 73,74%.

Keywords : Data Mining, Trending Topic, K-Nearest Neighbor, Naïve Bayes

KATA PENGANTAR

Puji syukur kita panjatkan kehadirat Allah Subhanahu Wata’ala atas

segala rahmat dan hidayah-Nya sehingga penulisan dapat menyelesaikan

tesis yang berjudul Penggunaan Data Mining untuk Prediksi Trending Topik

Menggunakan Algoritma K-Nearest Neighbor dan Naïve Bayes.

Pertama-tama kami ucapkan terima kasih yang tulus dan terhingga

kepada pembimbing kami Prof. Dr. Ir. Syafruddin Syarif, MT dan Dr. Eng.

Dewiani, MT yang telah memberikan bimbingan dan dorongan semangat

sejak penyusunan konsep, pelaksanaan hingga penulisan tesisi ini. Terima

kasih juga kami sampaikan kepada penguji tesis ini Muhammad Bachtiar

Nappu, ST, MT, Ph.D, Amil Ahmad Ilham, ST, MT, Ph.D dan Dr-Ing. Faizal

Arya Sammang, ST, MT. dan taklupa juga kami ucapkan terima kasih

kepada Ketua Program Studi (KPS) Teknik Elektro.

Kepada seluruh keluarga terutama kedua orang tua kami yang telah

memberi dukungan dan doa, dan juga kepada istriku dr. Fatmawati A.Said,

M.Kes, Sp.THT-KL dan anakku Gaza Akranul Anwar dan Ghaitza Zaurah

Anwar, crew Madzcom Intr, PT Surianto Rasyid, ST, Ahmad Rusaid,

S.Kom, Amiruddin, ST serta teman-teman program pasca sarjana teknik

informatika angkatan 2015 yang telah bersama menempuh kuliah selama

2 tahun.

Dalam penulisan tesis ini kami telah berusaha secara maksimal,

namun jika terdapat kekurangan baik dari segi pengetikan maupun dari segi

isi kami mohon maaf dan memohon petunjuk berupa saran dan kritikan,

demi penulisan selanjutnya yang lebih baik.

Akhir kata kami selaku penulis mengucapkan terima kasih, dan semoga

Allah SWT selalu meridhoi setiap aktivitas kita. Aamiin.

Makassar, 26 Juli 2017

Penulis

DAFTAR ISI

HALAMAN JUDUL ................................................................................. i

HALAMAN PENGESAHAN .................................................................... ii

ABSTRAK .............................................................................................. v

ABSTRACT ........................................................................................... vi

KATA PENGANTAR .............................................................................. vii

DAFTAR ISI ........................................................................................... ix

DAFTAR GAMBAR ................................................................................ xi

DAFTAR TABEL .................................................................................... xii

DAFTAR GRAFIK .................................................................................. xiii

PENDAHULUAN.................................................................................... 1

A. Latar Belakang Masalah.............................................................. 1

B. Rumusan Masalah ...................................................................... 3

C. Tujuan Penelitian ........................................................................ 4

D. Manfaat Penelitian ...................................................................... 4

E. Batasan Masalah ........................................................................ 5

F. Sistimatika................................................................................... 5

TINJAUAN PUSTAKA ........................................................................... 8

A. Landasan Teori ........................................................................... 8

B. Penelitian Terkait ........................................................................ 23

C. State of The Art ........................................................................... 24

D. Kerangka Pikir ............................................................................. 26

METODE PENELITIAN..........................................................................

A. Tahap Penelitian ......................................................................... 27

B. Waktu dan Lokasi Penelitian ....................................................... 28

C. Jenis Penelitian ........................................................................... 29

D. Rancangan Penelitian ................................................................. 29

E. Sumber Data ............................................................................... 32

F. Instrumentasi Penelitian .............................................................. 33

G. Jadwal Penelitian ........................................................................ 34

HASIL DAN PEMBAHASAN .................................................................. 35

A. Penarikan Data ........................................................................... 35

B. Penentuan Trending Topik .......................................................... 36

C. Penarikan Atribut......................................................................... 38

D. Implementasi Algoritma ............................................................... 41

E. Perbandingan Kinerja Algoritma .................................................. 41

KESIMPULAN DAN SARAN .................................................................. 57

A. Kesimpulan ................................................................................. 57

B. Saran .......................................................................................... 57

DAFTAR PUSTAKA ............................................................................... 59

DAFTAR GAMBAR Gambar 1. Skema Ekstraksi Informasi ..................................................... 9

Gambar 2. Alur Pembersihan Data ........................................................ 10

Gambar 3. Langkah-langkah Dalam Menentukan Pengetahuan ............ 11

Gambar 4. Ilustrasi Kedekatan Kasus .................................................... 13

Gambar 5. Kerangka Pikir ...................................................................... 26

Gambar 6. Tahap Penelitian .................................................................. 27

Gambar 7. Desain Sistem ...................................................................... 30

Gambar 8. Jadwal Penelitian ................................................................. 34

DAFTAR TABEL

Tabel 1. Confusion Matrix ...................................................................... 21

Tabel 2. State of The Art ........................................................................ 25

Tabel 3. Sampel Penarikan Data ........................................................... 36

Tabel 4. Proses Penentuan Trending Topic ........................................... 37

Tabel 5. Atribut Jenis Media .................................................................. 38

Tabel 6. Atribut Zona Waktu .................................................................. 38

Tabel 7. Atribut Percakapan Awal .......................................................... 39

Tabel 8. Atribut Followers ...................................................................... 40

Tabel 9. Atribut Sentimen Indeks ........................................................... 40

Tabel 10. Optimasi Nilai K pada Algoritma KNN .................................... 42

Tabel 11. Sampel Data Latih dan Data Uji Perhitungan KNN ................. 42

Tabel 12. Perhitungan Menggunakan KNN ............................................ 43

Tabel 13. Hasil Klasifikasi Perhitungan KNN.......................................... 44

Tabel 14. Confusion Matrix Algoritma KNN ............................................ 44

Tabel 15. Akurasi Menggunakan K-Nearest Neighbor ........................... 45

Tabel 16. Akurasi, Presisi dan Recall Algoritma KNN ............................ 47

Tabel 17. Sampel Data Latih dan Data Uji Naive Bayes ........................ 49

Tabel 18. Confusion Matrix Naive Bayes ............................................... 51

Tabel 19. Akurasi Menggunakan Naive Bayes....................................... 52

Tabel 20. Akurasi, Presisi dan Recall Algoritma Naive Bayes ................ 53

Tabel 21. Perbandingan Algoritma KNN dan Naive Bayes .................... 54

DAFTAR GRAFIK

Grafik 1. Akurasi Algoritma K-Nearest Neighbor .................................... 46

Grafik 2. Presisi dan Recall Algoritma K-Nearest Neighbor .................... 47

Grafik 3. Akurasi Algoritma Naïve Bayes ............................................... 52

Grafik 4. Presisi dan Recall algoritma Naive Bayes ............................... 53

Grafik 5. Perbandingan Akurasi KNN dan Naive Bayes ......................... 55

DAFTAR SINGKATAN API : Application Programming Interface

FP : False Positive

FN : False Negative

KDD : Knowledge Discovery in Database

KNN : K-Nearest Neighbor

LDA : Latent Dirichet Allocation

NB : Naive Bayes

SVM : Support Vektor Machine

TN : True Negative

TP : True Posstive

URL : Uniform Resource Locator

PENDAHULUAN

A. Latar Belakang Masalah

Perkembangan teknologi informasi dan komunikasi saat ini

mengakibatkan terjadinya arus informasi dengan jumlah besar dalam waktu

singkat, kondisi seperti ini menjadi nilai positif bagi pemerintahan kota untuk

dapat melihat setiap perkembangan yang terjadi dalam masyarakat,

termasuk didalamnya kota Makassar yang telah mengembangkan sistem

pemerintahan cerdas atau dikenal dengan Makassar SMART City.Terdapat

percakapan di Twitter dan Facebook rata-rata setiap hari berkisar 500

percakapan, ditambah lagi berita dari media online berkisar 50 berita

perhari sehingga dalam rentang waktu januari 2015 sampai Maret 2017

telah terdapat 443.000 data percakapan (Diskominfo Makassar, 2017).

Arus informasi yang cepat dalam jumlah besar semakin mempermudah

pemerintah dalam mengambil keputusan dengan cepat dan tepat dengan

melihat trending topik yang terjadi dan bahkan dapat dilakukan dengan

teknik prediksi dari data yang terkumpul dalam data mining.

Trending topik menjadi satu pokok bahasan yang menarik dewasa

ini, keberadaannya memberi pengaruh besar dalam pengambilan

keputusan, trending topik dapat dipandang sebagai solusi dalam

melakukan analisis data dan informasi yang mampu membaca arah

perkembangan dimasa depan, menurut pengertian trending topik adalah

topik atau isu yang paling banyak di bicarakan orang dalam periode waktu

tertentu. Pada tahap awalnya trending topik cenderung diekstrak dari koran

atau dokumen berbasis kertas lainnya (Anderson et al.,1992). Namun sejak

berkembangnya internet pada tahun 2000 trending topik lebih sering

dijumpai pada situs internet terutama twitter.

Penelitian tentang prediksi trending topik pada sosial media

dilakukan LIU et al (2013), mengambil data dari facebook, twitter dan sina

weibo, dengan menggunakan Support Vektor Machine (SVM) penelitian ini

memprediksi satu tema apakah menjadi trending topik atau tidak.

Penelitian berikutnya mengambil data dari web IMDb, wikipidia,

youtube dan twitter, dengan melakukan prediksi popularitas film dari jumlah

pengikut aktor, penayangan film, like, komentar dan sentiment, penelitian

ini menggunakan algoritma J48, SVM dan KNN untuk memprediksi

popularitas film (Ahmed et al., 2015). Pada penelitian yang hampir sama

menggunakan parameter jenis film, pularitas artis, komentar, sequal film

dan sentiment analisis, yang dioleh dengan algoritma K-Means clustering

untuk pengelompokan dan J48 untuk prediksi diperoleh hasil bahwa

akurasi prediksi ditentukan oleh jumlah pembobotan pada atribut yang

digunakan (Apala et al., 2013).

Penelitian selanjutnya mengambil data dari twitter, facebook, CNN,

dan BBC, dengan menggunakan Latent Dirichet Allocation (LDA) mampu

memprediksi trending topik dari fitur jadwal acara, breaking news dan

kemunculan pertama berita, hasil yang diperolah dari penelitian ini

menyimpulkan prediksi tranding topik lebih cepat jika munculnya dari sosial

media, namun media mainstream juga tetap dibutuhkan untuk memberi

penguatan (Lobzhanidze et al., 2013).

Prediksi profesi berdasarkan model bahasa pada tweets, dengan

mangambil data dari twitter yang menjadi trending topik, penelitian ini

menggunakan metode N-gram untuk pengelompokan dan naïve bayes

untuk melakukan prediksi (Toba & Stefanus, 2016).

Berdasarkan penelitian tersebut maka penulis akan melakukan penelitian

dengan mengambil data dari media maentrean yaitu media online dan

sosial media untuk saling menguatkan, kemudian menggunakan teknik

data mining untuk melakukan prediksi tranding topik yang berhubungan

dengan pemerintah kota Makassar dengan metode K Nearest Neighbor

(KNN) dan Naïve Bayes untuk melakukan prediksi.

B. Rumusan Masalah

Rumusan Masalah dari penelitian ini adalah :

1. Bagaimana cara pengambilan data pada sosial media dan media

online dalam membentuk data mining

2. Bagaimana menentukan atribut yang digunakan dalam prediksi

trending topik?

3. Bagaimana penerapan algoritma K-Nearest Neighbor (KNN) dan

Naïve Bayes memprediksi trending topik?

C. Tujuan Penelitian

Tujuan yang akan dicapai pada penelitian ini adalah :

1. Menentukan cara pengambilan data pada media sosial dan

media online dalam membentuk data mining.

2. Menentukan atribut yang digunakan dalam prediksi trending

topik.

3. Menentukan perbandingan algoritma K-Nearest Neighbor (KNN)

dan Naïve Bayes dalam memprediksi trending topik.

D. Manfaat Penelitian

Manfaat yang dapat diperoleh dari penelitian ini adalah :

1. Bagi Masyarakat, penelitian ini dapat membantu pihak terkait

untuk memperoleh informasi prediksi trending topik.

2. Bagi peneliti, penelitian ini berguna untuk menambah

pengetahuan dan kemampuan mengenai prediksi trending topik

menggunakan algoritma K-Nearest Neighbor (KNN) dan Naïve

Bayes.

3. Bagi Institusi pendidikan Magister Jurusan Teknik Elektro

Konsentrasi Teknik Informatika, dapat digunakan sebagai

referensi ilmiah dalam penelitian untuk pengembangan data

mining dalam prediksi trending topik.

E. Batasan Masalah

Batasan masalah penelitian adalah :

1. Pengambilan data mining dilakukan pada percakapan sosial media

dan media online yang berhubungan dengan pemerintah kota

Makassar, tanpa melakukan filter terhadap percakapan dan akun

yang memuat informasi.

2. Pengolahan data menggunakan algoritma K-Nearest Neighbor

(KNN) dan Naïve Bayes.

3. Data yang digunakan adalah data selama 2 Tahun (2015 – 2017).

F. Sistimatika

Sistematika penulisan pada penelitian ini adalah:

Bab I Pendahuluan

Bab I berisi penjelasan tentang latar belakang masalah, rumusan

masalah, tujuan penelitian, manfaat penelitian, ruang lingkup penelitian

serta sistematika penulisan.

Bab II Landasan Teori dan Kerangka Pemikiran

Bab II berisi penjelasan tentang landasan teori yang digunakan

dalam penelitian dan kerangka pemikiran. Diuraikan pula tentang

tinjauan pustaka yang merupakan penjelasan tentang hasil-hasil

penelitian lainnya yang berkaitan dengan penelitian yang dilakukan.

Landasan teori merupakan suatu penjelasan tentang sumber acuan

terbaru dari pustaka primer seperti buku, artikel, jurnal, prosiding dan

tulisan asli lainnya untuk mengetahui perkembangan penelitian yang

relevan dengan judul atau tema penelitian yang dilakukan dan juga

sebagai arahan dalam memecahkan masalah yang diteliti. Dalam bab ini

juga diuraikan tentang kerangka pemikiran yang merupakan penjelasan

tentang kerangka berpikir untuk memecahkan masalah yang sedang

diteliti, termasuk menguraikan objek penelitian serta state of the art dari

beberapa penelitian terkait. Road map dan tahapan – tahapan yang akan

dilakukan untuk menyelesaikan penelitian juga akan di bahas pada bab

Bab III Metodologi Penelitian

Bab III ini merupakan penjelasan tentang metode penelitian,

penentuan masalah, penentuan atribut yang digunakan, juga penjelasan

bagaimana pengembangan dan penerapan algoritma data mining pada

obyek penelitian, diuraikan pula cara evaluasi dan validasi hasil

penerapan, metode pengumpulan data, metode analisis data, metode

pengukuran penelitian, penerapan algoritma data mining pada masalah

penelitian, pengembangan metode yang menerapkan data mining,

analisa kebutuhan, konstruksi sistem dan pengujian sistem.

Bab IV Hasil dan pembahasan

Pada bab IV ini menjelaskan tentang hasil dan pembahasan

penelitian serta implikasi dari penelitian yang dilakukan. Hasil merupakan

suatu penjelasan tentang data kuantitatif yang dikumpulkan dari media

sosial dan media online sesuai dengan metodologi yang telah ditetapkan.

Pembahasan merupakan suatu penjelasan tentang pengolahan data dan

interprestasinya, baik dalam bentuk diskriptif ataupun penarikan

inferensinya. Implikasi penelitian merupakan suatu penjelasan tentang

tindak lanjut penelitian yang terkait dengan aspek manajerial, aspek

sistem, maupun aspek penelitian lanjutan.

Bab V Kesimpulan dan Saran

Pada bab V ini berisi ringkasan temuan, rangkuman kesimpulan

dan saran. Kesimpulan merupakan pernyataan secara general atau

spesifik yang berisi hal-hal penting dan menjadi temuan penelitian yang

bersumber pada hasil dan pembahasan. Saran merupakan pernyataan

atau rekomendasi peneliti yang berisi hal-hal penting sebagaimana yang

telah disampaikan.

BAB II

TINJAUAN PUSTAKA

A. Landasan Teori

1. Trending topik

Trending topik adalah topik atau isu yang paling banyak di

bicarakan orang dalam periode waktu tertentu. Pada tahap awalnya

trending topik cenderung diekstrak dari koran atau dokumen berbasis

kertas lainnya. Namun sejak berkembangnya internet pada tahun 2000

trending topik lebih sering dijumpai pada situs internet terutama twitter,

kondisi seperti ini dapat dimanfaatkan oleh lembaga pemerintah dan

swasta untuk melakukan pemetaan dan analisis informasi yang dapat

dijadikan dasar dalam pengambilan keputusan.

Proses awal sebelum pentuan trending topik dimulai dengan

pengumpulan atau ektraksi informasi dari halaman web berita dan sosial

media atau disebut dengan mashup. Mashup adalah website atau web

application yang secara tanpa batas mengkominasikan konten yang

sumbernya lebih dari kedalam sebuah bentuk terintegrasi (Sari&

Wicaksana, 2011). Ekstraksi informasi dapat dilakukan melalui teknik

crawling dan pemanfaatan Application Programming Interface (API)

yang disediakan pada halaman website atau sosial media, adapun

skema dalam ekstraksi informasi dapat terlihat pada gambar 1 dibawah

Gambar 1. Skema ekstraksi informasi

Crawling atau web crawler adalah teknik untuk mengumpulkan

semua informasi yang ada di dalam halaman web. Prinsip kerja crawler

adalah melakukan pemindaian (scanning) terhadap keberadaan

hyperlink yang terhubung ke halaman lain yang belum dikumpulkan

pada halaman halaman yang telah dikumpulkan sebelumnya. Crawler

memulai kerjanya dari sejumlah halaman yag diberikan URL-nya,

kemudian melakukan scanning terhadap URL lain (outlinks) yang

berhubungan dari halaman tersebut, pekerjaan ini dilakukan secara

berulang dalam sebuah siklus tanpa henti (Sari & Wicaksana, 2011).

Proses pembersihan data (pre-prosessing) merupakan teknik

yang dilakukan untuk menghilangkan noise dan stopwork pada data

yang telah dikumpulkan, adapun proses pembersihan data meliputi

beberapa fase, yaitu :

1. Fase analisis data

2. Fase pendefinisian alur kerja

3. Fase verifikasi alur kerja

4. Fase transformasi

5. Fase evaluasi

Adapun untuk mengambar alur proses pembersihan data dapat

terlihat seperti pada gambar 2 (Sari & Wicaksana, 2011)

Gambar 2. Alur pembersihan data

2. Data Mining

Data mining adalah serangkaian proses untuk menggali nilai

tambah dari suatu kumpulan data berupa pengetahuan, sedangkan

menurut Han & Kamber (2006). Data mining adalah proses

menambang (mining) pengetahuan dari sekumpulan data yang sangat

besar. Data mining merupakan suatu langkah dalam knowledge

discovery in database (KDD). Langkah-langkah dalam menemukan

pengetahuan (discovery knowledge) pada Gambar 3 meliputi :

Gambar 3. Langkah-langkah dalam menentukan pengetahuan (Han &

Kamber, 2006)

1. Data cleaning

Menghilangkan noise dan data yang tidak konsisten.

2. Data integration

Menggabungkan berbagai sumber data

3. Data selection

Menerima data yang berhubungan dengan analisa dari

database.

4. Data transformation

Mengubah data ke bentuk yang sesuai untuk mining dengan

melakukan agregasi atau summary.

5. Data mining

Melakukan proses mining untuk mengekstrak data.

6. Pattern evaluation

Mengidentifikasi pola yang menggambarkan pengetahuan

(knowledge).

7. Knowledge presentation

Menampilkan mined knowledge kepada pengguna.

Teknik Data Mining

Kegunaan data mining adalah untuk mengklasifikasikan pola

yang harus ditemukan dalam data mining. Secara umum, data mining

dapat diklasifikasikan dalam dua kategori yaitu deskriptif dan prediktif.

Adapun operasi-operasi dan teknik-teknik yang berhubungan :

1. Operasi Predictive modeling : (classification, value prediction)

2. Database segmentation : (demographic clustering,neural clustering)

3. Link Analysis : (association discovery, sequential pattern discovery,

similar timesequence discovery)

4. Deviation detection : (statistics, visualization)

3. K-Nearest Neighbor (KNN)

Algortima K-Nearest Neighbor (KNN) adalah merupakan sebuah

metode untuk melakukan klasifikasi terhadap obyek baru berdasarkan

(K) tetangga terdekatnya. KNN termasuk algoritma supervised learning,

dimana hasil dari query instance yang baru, diklasifikasikan berdasarkan

mayoritas dari kategori pada KNN. Kelas yang paling banyak muncul

yang akan menjadi kelas hasil klasifikasi (Gorunescu, 2011).

Nearest Neighbor adalah suatu pendekatan untuk menghitung

kedekatan antara kasus baru dengan kasus lama, yaitu berdasarkan

pada pencocokan bobot dari sejumlah fitur yang ada. Illustrasi

kedekatan kasus pada Gambar 4

Gambar 4. Ilustrasi kedekatan kasus

Seperti tampak pada gambar 4 memberikan gambaran tentang

proses mencari solusi terhadap seorang pasien baru dengan

menggunakan mengacu pada solusi dari pasien terdahulu. Untuk

mencari kasus pasien mana yang akan digunakan, maka dihitung

kedekatan anatara kasus pasien baru dengan semua kasus pasien

lama. Kasus pasien lama dengan kedekatan terbesar-lah yang akan

diambil solusinya untuk digunakan pada kasus pasien baru (Kusrini &

Luthfi, 2009).

Umumnya, KNN digunakan untuk pembelajaran berbasis instan

dan penalaran yang berkaitan dengan data simbolis. KNN dikenal juga

dengan lazy learning yaitu teknik yang melakukan training jika ada data

yang tersedia untuk pelatihan. Ditentukan D adalah training set dan z

adalah test set untuk vektor dari nilai atribut dan memiliki label kelas

yang tidak diketahui. Algoritma KNN akan menghitung jarak antara z dan

semua data training untuk menetukan daftar terdekat dari tetangganya.

Setelah itu memberikan kelas untuk z dengan mengambil kelas

mayoritas dari data tetangganya. Jika ada hubungan data yang tidak

sesuai atau tidak diketahui maka akan ditentukan secara acak atau

dengan mengambil kelas yang paling sering pada training set (Wu &

Kumar, 2009).

Ada beberapa hal yang mempengaruhi kinerja KNN, salah

satunya adalah optimasi nilai K. Jika nilai K terlalu kecil, maka bisa

mengurangi data noise. Namun sebaliknya, jika nilai k terlalu besar,

maka data-data tetangga dari kelas lain akan ikut terseleksi sehingga

dapat menambah data noise. Untuk menentukan nilai terbaik dari K

dapat digunakan cross validation. Selain masalah pemilihan nilai K,

masalah lain adalah pendekatan yang dilakukan untuk menggabungkan

label kelas. Metode yang paling sederhana adalah dengan cara

mengambil putusan mayoritas. Tapi cara ini kurang efektif jika tetangga

terdekat memiliki jarak yang bervariatif dan tetangga dekat lebih

dominan menunjukkan kelas objek. Square distance adalah pendekatan

yang baik karena kurang dipengaruhi oleh pemilihan nilai K, setiap bobot

objek ditentukan oleh jaraknya (Wu & Kumar,2009). Berikut persamaan

dari Wu & Kumar, (2009). square distance: .

𝑤𝑖: menyatakan bobot untuk data 𝑥𝑖 yang menjadi tetangga terdekat d(y,

z): menyatakan jarak (ketidakmiripan) antara data 𝑦𝑖 dengan data uji z.

Kemudian nilai 𝑤𝑖 dapat digunakan untuk menghitung pemilihan kelas

hasil prediksi. Berikut persamaannya (Wu & Kumar, 2009) :

Distance-Weighted Voting: 𝑐𝑧 = 𝑎𝑟𝑔𝑚𝑎𝑥 ∑𝑦∈𝑁 𝑤𝑖 × 𝛪 (𝜐 = 𝑐𝑙𝑎𝑠𝑠(𝑐𝑦)) 𝜐∈𝐿

Pemilihan ukuran jarak antara data 𝑥𝑖 dengan data uji z sangat

penting. Umumnya, fungsi jarak yang digunakan untuk mengukur data x

dan z dengan n atribut adalah fungsi Euclidean atau Manhattan.

Berikut persamaannya:

Euclidean distance: (1)

Manhattan distance: (2)

dimana 𝑥𝑘dan 𝑦𝑘adalah atribut ke k dari masing-masing x dan y.

Beberapa pengukuran jarak dipengaruhi oleh dimensi data yang

tinggi. Secara khusus, hal ini dapat mempengaruhi ukuran jarak

Euclidean menjadi kurang diskriminatif karena jumlah atribut meningkat.

Atribut juga harus ditingkatkan untuk mencegah pengukuran jarak yang

didominasi oleh salah satu atribut (Wu & Kumar, 2009).

4. Naïve Bayes

Metode klasifikasi Bayesian atau biasa disebut Naive Bayes

adalah pengklasifikasian statistik yang digunakan untuk memprediksi

probabilitas keanggotaan suatu class (Kusrini, 2009), Pada klasifikasi

Naive Bayes nilai atribut suatu kelas tidak tergantung dari nilai atribut

kelas yang lain. Sehingga kondisi ini disebut kelas independen

bersyarat. Cara kerja klasifikasi Naive bayes didasarkan pada teorema

Bayes.

Teorema Bayes dikembangkan olen Thomas bayes pada abad

ke 18 adalah seorang tokoh yang pertama kali mengembangkan teori

probabilitas. Ditentukan data X yang memiliki n atribut, dan H memiliki

beberapa hipotesis dari data X milik kelas C. Untuk malakukan

klasifikasi maka kita akan menentukan 𝑃(𝐻|𝑋) , bahwa probabilitas

hipotesis H merupakan data yang ada pada data X atau mencari

probabilitas data X milik kelas C (Han & Kamber, 2006).

𝑃(𝐻|𝑋) adalah probabilitas posterior atau posteriori, dimana H

dikondisikan pada X. misalnya kita memiliki data pelanggan yang

masing-masing memiliki atribut usia dan pendapatan. X adalah

pelanggan yang berusia 40 tahun dengan pendapatan Rp 3500000. H

adalah hipotesis pelanggan yang akan membeli komputer. Maka 𝑃(𝐻|𝑋)

adalah probabilitas pelanggan X yang akan membeli komputer, dengan

ketentuan nilai dari atribut X sudah diketahui (Han & Kamber,

2006).

Sebaliknya, 𝑃(𝐻) adalah probabilitas sebelumnya, atau

probabilitas apriori, dari H. Sebagai contoh kita, probabilitas setiap

pelanggan akan membeli komputer, tanpa memandang usia,

pendapatan, atau informasi lainnya. Probabilitas posterior, 𝑃(𝐻|𝑋) ,

berdasarkan informasi lebih lanjut (misalnya, informasi pelanggan) dari

probabilitas sebelumnya, 𝑃(𝐻), yang independen dari X (jiawei han,

2006).

Dengan demikian, 𝑃(𝑋|𝐻) adalah probabilitas posterior dari X

dikondisikan pada H. Artinya, itu adalah probabilitas pelanggan X yang

berusia 40 tahun dengan penghasilan Rp 3500000, mengingat kita tahu

pelanggan akan membeli komputer. 𝑃(𝑋) adalah probabilitas

sebelumnya dari X, yaitu probabilitas pelanggan yang berusia 40 tahun

dengan penghasilan Rp 3500000.

Teorema Bayes untuk menghitung probabilitas posterior, 𝑃(𝐻|𝑋),

dari 𝑃(𝐻), 𝑃(𝑋|𝐻), dan 𝑃(𝑋) secara umum memiliki bentuk sebagai

berikut (Kusrini, 2009) :

dimana hal ini :

X = Data dengan class yang belum diketahui

H = Hipotesis data X merupakan suatu class spesifik

𝑃(𝐻|𝑋) = Probabilitas hipotesis H berdasarkan kondisi X

𝑃(𝐻) = Probabilitas hipotesis H

Berikut cara kerja klasifikasi Naive Bayes menurut Han & Kamber

(2006). :

1. Ditentukan D adalah data training set yang memiliki kelas label.

Setiap data memiliki vektor atribut n-dimensi, 𝑋 = (𝑥1, 𝑥2, 𝑥3, … 𝑥𝑛), n

adalah pengukuran yang dilakukan pada data n atribut,𝐴1, 𝐴2, . . . , 𝐴𝑛.

2. Misalkan ada sebuah data X yang memiliki kelas m𝐶1, 𝐶2, . . . , 𝐶𝑚 ,

clasifier akan memprediksi X termasuk kelas yang memiliki posterior

probabilitas tertingi yang bersyarat pada X. Artinya, classifier Naive

Bayesian akan memprediksi bahwa data X termasuk kelas 𝐶𝑖 jika dan

hanya jika 𝑃(𝐶𝑖|𝑋) > 𝑃(𝐶𝑗|𝑋) untuk 1 ≤ 𝑗 ≤ 𝑚, 𝑗 ≠ 𝑖dengan teorema

Bayes kita akan memaksimalkan 𝑃(𝐶𝑖|𝑋) sehingga menjadi

3. Untuk 𝑃(𝑋) adalah konstan untuk semua kelas. Kelas prior

probabilitas dapat diestimasi dengan 𝑃(𝐶𝑖) =

|𝐶𝑖,𝐷|⁄|𝐷| dimana |𝐶𝑖,𝐷| adalah jumlah training data pelatihan kelas 𝐶𝑖di

D. Jika kelas prior probabilitas tidak diketahui, maka umumnya akan

diasumsikan memiliki kelas yang sama, yaitu 𝑃(𝐶𝑖) = 𝑃(𝐶2) = ⋯ =

𝑃(𝐶𝑚)dan akan memaksimalkan 𝑃(𝑋|𝐶𝑖). Jika tidak, maka akan

memaksimalkan 𝑃(𝑋|𝐶𝑖)𝑃(𝐶𝑖).

4. Semakin banyak atribut yang digunakan dalam dataset maka akan

semakin tinggi komputasi untuk menghitung 𝑃(𝑋|𝐶𝑖) , untuk

mengantipasi hal tersebut Naive Bayes membuat independen kelas

besyarat (tidak ada hubungan ketergantungan antara atribut).

Berikut persamaannya:

= 𝑃(𝑥1|𝐶𝑖) × 𝑃(𝑥1|𝐶𝑖) ×. . .× 𝑃(𝑥𝑛|𝐶𝑖)

dimana 𝑥𝑘 adalah nilai atribut 𝐴𝑘 pada tuple X. Ada beberapa hal yang

perlu diperhatikan dalam menghitung 𝑃(𝑋|𝐶𝑖)yaitu:

a) Jika atribut 𝐴𝑘 bernilai kategoris, maka 𝑃(𝑥𝑘|𝐶𝑖) adalah jumlah

tuple dari kelas 𝐶𝑖 di D memiliki nilai 𝑥𝑘 untuk 𝐴𝑘, dibagi

dengan |𝐶𝑖, 𝐷|, jumlah data kelas 𝐶𝑖 di D.

b) Jika atribut 𝐴𝑘 bernilai kontinu, maka akan didistribusikan ke

Gaussian dengan mean μ dan standar σ deviasi, yang

didefinisikan sebagai berikut:

maka :

𝑃(𝑥𝑘|𝐶𝑖) = 𝑔(𝑥𝑘, 𝜇𝐶𝑖, 𝜎𝐶𝑖) (7)

kemudian menghitung μ 𝐶𝑖 dan σ 𝐶𝑖 , yaitu mean dan standar

deviasi, dari nilai-nilai atribut 𝐴𝑘 untuk data pelatihan dari kelas

𝐶𝑖 . Setelah itu, memasukkan nilai dari dua kuantitas ini ke

Persamaan diatas, bersama-sama dengan

𝑥𝑘 , untuk

menentukan 𝑃(𝑥𝑘|𝐶𝑖).

5. Untuk memprediksi label kelas X, fungsi probabilitas 𝑃(𝑋|𝐶𝑖)𝑃(𝐶𝑖)

akan dilakukan evaluasi untuk setiap kelas 𝐶𝑖 . Classifier akan

memprediksi setiap label kelas pada tuple X yang merupakan kelas

𝐶𝑖 jika dan hanya jika

𝑃(𝑋|𝐶𝑖)𝑃(𝐶𝑖) > 𝑃(𝑋|𝐶𝑗)𝑃(𝐶𝑗)untuk 1 ≤ 𝑗 ≤ 𝑚, 𝑗 ≠ 𝑖

Dengan kata lain, label kelas yang diprediksi adalah kelas 𝐶𝑖 dimana

probabilitasnya 𝑃(𝑋|𝐶𝑖)𝑃(𝐶𝑖) mempunyai nilai maksimum.

5. K-Fold Cross Validation

Cross validation merupakan metode yang umum sering

digunakan untuk mengevaluasi hasil klasifikasi dataset dari model

klasifier. Dalam cross validation dataset dibagi menjadi beberapa k

bagian atau lipatan D1, D2, D3,... Dk dengan jumlah data yang sama

untuk setiap bagian yang akan digunakan sebagai pelatihan dan

pengujian sampai k kali. Pada iterasi ke i, partisi data Di dipisahkan

untuk data uji, sedangkan partisi yang lain akan digunakan untuk model

data latih.

Artinya, pada iterasi pertama sub himpunan D2,...Dk digunakan

sebagai data pelatihan untuk mendapatkan model pertama dan D1

sebagai data ujinya. Pada iterasi kedua sub himpunan D1, D3...Dk

digunakan sebagai data pelatihan untuk mendapatkan model kedua dan

D2 sebagai data ujinya dan seterusnya. Setiap sampel yang digunakan

untuk pelatihan sampai K kali sama jumlahnya dan akan dilakukan

sekali pengujian. Dalam cross validation pendekatan seperti ini disebut

Leave-one-out, artinya satu sampel data ditinggalkan untuk pengujian

dan sisanya digunakan untuk pelatihan. Pada umumnya nilai K yang

digunakan untuk estimasi akurasi pada cross validation diset K=10

(Han& Kamber, 2006).

6. Akurasi, Presisi dan Recall

Akurasi adalah tingkat kedekatan antara nilai prediksi dengan

nilai aktual, sementara presisi adalah tingkat ketepatan antara informasi

yang diminta oleh pengguna dengan jawaban yang diberikan oleh

sistem. Sedangkan recall adalah tingkat keberhasilan sistem dalam

menemukan kembali sebuah informasi.

Untuk menghitung akurasi, presisi dan recall satu sistem kinerja

pada umumnya digunakan confussion matrix. Confusion matrix

merupakan tabel yang digunakan untuk mencatat hasil dari kinerja

klasifikasi (Nurtanio, 2013). Berikut tabel confusion matrix untuk

melakukan klasifikasi dua kelas.

Tabel 1. Confusion Matrix

Confusion

matrix

PREDIKSI

FALSE TRUE

AKTUAL FALSE TN FP

TRUE FN TP

Keterangan:

TN (True Negative) : Jumlah data yang teridentifikasi dengan benar

sebagai kelas negatif

FP (False Positive) : Jumlah data negatif yang teridentifikasi sebagai

kelas positif

FN (False Negative) : Jumlah data positif yang teridentifikasi sebagai

kelas negatif

TP (True Posstive) : Jumlah data yang teridentifikasi dengan benar

sebagai kelas positif

Jika nilai TN, FP, FN, dan TP diperoleh, maka nilai tingkat akurasi,

presisi dan recall dari masing-masing model dapat dihitung dengan

persamaan:

B. Penelitian Terkait

Beberapa penelitian terkait prediksi trending topik telah dilakukan

dari tahun ke tahun, sistem prediksi dengan menggunakan data mining

meliputi 3 tahap yaitu pre-processing, pengelompokan dan prediksi

trending topik, berdasarkan proses tersebut ada beberapa penelitian terkait

dari tahun 2013 – 2016 dari literature jurnal nasional dan internasional yang

menjadi acuan untuk pengembangan kedepannya.

Penelitian tentang prediksi trending topik pada sosial media

dilakukan LIU et al (2013), mengambil data dari facebook, twitter dan sina

weibo, dengan menggunakan Support Vektor Machine (SVM) penelitian ini

memprediksi satu tema apakah menjadi trending topik atau tidak.

Penelitian berikutnya mengambil data dari web IMDb, Wikipidia,

Youtube dan Twitter, dengan melakukan prediksi popularitas film dari

jumlah pengikut aktor, penayangan film, like, komentar dan sentiment,

penelitian ini menggunakan algoritma J48, SVM dan KNN untuk

memprediksi popularitas film (Ahmed et al., 2015). Pada penelitian yang

hampir sama menggunakan parameter jenis film, pularitas artis, komentar,

sequal film dan sentiment analisis, yang dioleh dengan algoritma K-Means

clustering untuk pengelompokan dan J48 untuk prediksi diperoleh hasil

bahwa akurasi prediksi ditentukan oleh jumlah pembobotan pada atribut

yang digunakan (Apala et al., 2013).

Penelitian selanjutnya mengambil data dari twitter, facebook, CNN,

dan BBC, dengan menggunakan Latent Dirichet Allocation (LDA) mampu

memprediksi trending topik dari fitur jadwal acara, breaking news dan

kemunculan pertama berita, hasil yang diperolah dari penelitian ini

menyimpulkan prediksi tranding topik lebih cepat jika munculnya dari sosial

media, namun media mainstream juga tetap dibutuhkan untuk memberi

penguatan (Lobzhanidze et al., 2013).

Prediksi profesi berdasarkan model bahasa pada tweets, dengan

mangambil data dari twitter yang menjadi trending topik, penelitian ini

menggunakan metode n-gram untuk pengelompokan dan naïve bayes

untuk melakukan prediksi (Toba & Stefanus, 2016). Penelitian selanjutnya

memprediksi hasil pemiliha presiden di pakistan dengan mangambil data

dari twitter berdasarkan jumlah tweets dan sentiment analisis dari partai

politik, dengan menggunakan Chaid, Naïve Bayes dan SVM, diperoleh

hasil bahwa Metode Chaid lebih akurat dibandingkan dengan metode yang

lain (Mahmood et al., 2013).

C. State of The Art

Beberapa penelitian terkait yang membahas tentang trending

topik telah dilakukan dari tahun ke tahun. Proses untuk prediksi trending

topik dilakukan dengan 3 tahap yaitu pengambilan data, tahap pre-

processing, dan tahap prediksi trending topik.

Tabel 2. State of the art

PENGGUNAAN DATA MINING UNTUK MEMPREDIKSI TRENDING …

Documents

Transcript of PENGGUNAAN DATA MINING UNTUK MEMPREDIKSI TRENDING …

Estudo E.Life Trending Topics (3º. trimestre/2012)

140 Trending Topics que Hicieron Historia

Penggunaan Teknik Data Mining untuk Memprediksi Financial … · financial distress pemerintah daerah kabupaten/kota di Indonesia dipengaruhi variabel keuangan berupa tingkat kemandirian

Estudo E.Life Trending Topics (2º. trimestre/2012)

TTrends - Medición de trending topic chile mayo

trending topics

Tijgs trending topics serverless e sre

PENERAPAN DATA MINING UNTUK MEMPREDIKSI ...digilib.uin-suka.ac.id/21303/2/12650014_BAB-I_IV-atau-V...Penulis menyadari bahwa dalam penyusunan skripsi ini tidak lepas dari dukungan

MEMPREDIKSI MAKNA

1 Trending Organizadora de eventos corporativos Para Pymesrepository.lasallista.edu.co/dspace/bitstream/10567/2116/1/Trending… · Organizadora de eventos corporativos Para Pymes

TRENDING MARKETING OF THE MONTH - Indonesia Jaman …

PENERAPAN DATA MINING UNTUK MEMPREDIKSI KELULUSAN …simki.unpkediri.ac.id/mahasiswa/file_artikel/2019/14.1.03.02.0196.pdf · zaenuri.alikhlas@gmail.com Risa Helilintar, M.Kom., Daniel

Trending Drinkware 2017

Trending Ecoinnovación Ciencias de la Saludlaboratorioecoinnovacion.com/...Layout_PDF_Salud2.pdf · Ciencias de la Salud 21/12/2017 Trending Ecoinnovación La Fundación Fòrum Ambiental

Penerapan Data Mining untuk Memprediksi Mahasiswa Drop Out ...

Data Mining 1 Mining...ถ้าไม่มีโครงสร้างจะเป็น text-mining, web-mining, image-mining

PENERAPAN DATA MINING UNTUK MEMPREDIKSI PERILAKU …

Consumentenbond - Trending Topic 1

Ide Niche Real-Time Trending-Ver

edocs.ilkom.unsri.ac.idedocs.ilkom.unsri.ac.id/2881/1/MTI_09031281621042... · Web viewSedangkan dengan menggunakan teknik data mining ini tingkat kesalahan dalam memprediksi masa