Architecture Net, Simple Neural Net · Algoritma Perceptron Inisialisasi bobot dan bias (w=b=0) dan 0
SKRIPSI ANALISA ALGORITMA NEURAL NETWORK UNTUK …
Transcript of SKRIPSI ANALISA ALGORITMA NEURAL NETWORK UNTUK …
SKRIPSI
ANALISA ALGORITMA NEURAL NETWORK UNTUK KLASIFIKASI
KANKER PAYUDARA MENGGUNAKAN BREAST CANCER COIMBRA
DATASET
Diajukan untuk memenuhi salah satu syarat memperoleh gelar
Sarjana Teknik Informatika
Disusun Oleh :
ILHAM NUR WIAJI
311421205
SEKOLAH TINGGI TEKNOLOGI
PELITA BANGSA
BEKASI
2018
i
ii
iii
iv
ABSTRAK
Semakin meningkatnya kasus penyakit kanker yang ada di dunia,
membuktikan bahwa penyakit kanker merupakan jenis penyakit yang tergolong
ganas. Bertambahnya angka kematian setiap tahunnya akibat kanker, terutama
kanker payudara. Peningkatan kasus kanker payudara ini memerlukan suatu
langkah untuk upaya penanggulangan dan pencegahan dini dengan cara
melakukan diagnosa dini terhadap penyakit kanker payudara. Dalam penelitian ini
akan dilakukan diagnosa dini penyakit kanker payudara menggunakan proses data
mining, yaitu berupa klasifikasi kanker payudara. Algoritma yang digunakan
adalah neural network.
Algoritma neural network mempunyai kelebihan pada kemampuan belajar
yang dimilikinya, suatu jaringan yang memodelkan sistem saraf otak manusia
dalam melaksanakan tugas pengenalan pola khususnya klasifikasi. Hasil
pengujian yang didapat dengan klasifikasi algoritma neural network terhadap data
penyakit kanker payudara berupa akurasi sebesar 83,33%, presisi 100% dan recall
66,67%.
Kata Kunci : Kanker Payudara, Klasifikasi, Neural Network
v
ABSTRACT
Increasing cases of cancer in the world, prove that cancer is a type of
disease that is classified as malignant. Increases in mortality each year due to
cancer, especially breast cancer. This increase in breast cancer cases requires a
step towards early prevention and prevention efforts by making an early diagnosis
of breast cancer. In this study an early diagnosis of breast cancer will be carried
out using the data mining process, which is a classification of breast cancer. The
algorithm used is a neural network.
Neural network algorithms have advantages in their learning abilities, a
network that models the nervous system of the human brain in carrying out
pattern recognition tasks, especially classification. The test results obtained with
the classification of neural network algorithms on breast cancer data in the form
of accuracy of 83.33%, 100% precision and recall of 66.67%.
Keyword : Breast Cancer, Classification, Neural Network
vi
KATA PENGANTAR
Dengan memanjatkan puji dan syukur kehadirat Allah SWT, sehingga
penulis dapat menyelesaikan Skripsi ini dengan judul “ANALISA ALGORITMA
NEURAL NETWORK UNTUK KLASIFIKASI KANKER PAYUDARA
MENGGUNAKAN BREAST CANCER COIMBRA DATASET”. Yang
merupakan syarat dalam menyelesaikan Program Studi Sl pada Program Studi
Teknik Informatika, Sekolah Tinggi Teknologi Pelita Bangsa. Selama penulisan
skripsi ini penulis mendapat banyak bantuan dan bimbingan dari berbagai pihak,
untuk itu pada kesempatan ini penulis mengucapkan terima kasih yang sebesar-
besarnya. pada :
1. Orang tua dan istri saya telah banyak memberikan dukungan maupun do'a
kepada saya sehingga semua dapat berjalan dengan lancar.
2. Dr. Ir. Supriyanto, M.P., selaku Ketua Sekolah Tinggi Teknologi Pelita
Bangsa.
3. Aswan Supriyadi Sunge, S.E, M.Kom., selaku Ketua Program Studi
Teknik Informatika Sekolah Tinggi Teknologi Pelita Bangsa.
4. Bapak Yoga Religia, S.Kom, M.Kom selaku Dosen Pembimbing I
5. Bapak Nanang Tedi, MT. selaku Dosen Pembimbing II.
6. Seluruh Dosen Teknik Informatika.
7. Teman-teman STT Pelita Bangsa angkatan 2014.
8. Semua pihak yang telah membantu penulis dalam menyelesaikan Skripsi.
Penulis sadar bahwa tentunya dalam penulisan skripsi ini masih banyak
terdapat kekurangan untuk itu saran dan kritik dari pembaca yang sifatnya
membangun sangat diharapkan, demi pengembangan kemampuan penulis ke
depan.
vii
DAFTAR ISI
Halaman
HALAMAN JUDUL
LEMBAR PERSETUJUAN ................................................................................ i
LEMBAR PENGESAHAN ................................................................................ ii
LEMBAR PERNYATAN KEASLIAN SKRIPSI ........................................... iii
ABSTRAK ......................................................................................................... iv
ABSTRACT .......................................................................................................... v
KATA PENGANTAR ........................................................................................ vi
DAFTAR ISI ...................................................................................................... vii
DAFTAR TABEL ................................................................................................ x
DAFTAR GAMBAR .......................................................................................... xi
BAB I PENDAHULUAN
1.1 Latar Belakang ..................................................................................... 1
1.2 Identifikasi Masalah ............................................................................. 4
1.3 Rumusan Masalah ................................................................................ 5
1.4 Batasan Masalah ................................................................................... 5
1.5 Tujuan Penelitian ................................................................................. 5
1.6 Manfaat Penelitian ............................................................................... 6
1.7 Sistematika Penulisan .......................................................................... 6
BAB II LANDASAN TEORI
2.1 Penelitian Terdahulu ............................................................................ 8
viii
2.1.1 Tinjauan Jurnal Pertama ............................................................. 8
2.1.2 Tinjauan Jurnal Kedua ............................................................... 8
2.1.3 Tinjauan Jurnal Ketiga ............................................................... 9
2.1.4 Tinjauan Jurnal Keempat ........................................................... 9
2.2 Kajian Teori ........................................................................................ 10
2.2.1 Pengertian Kanker Payudara .................................................... 10
2.2.2 Terbentuknya Kanker Payudara ............................................... 10
2.2.3 Pengertian Data Mining .......................................................... 11
2.2.4 Pengertian Neural Network ...................................................... 15
2.2.5 Confusion Matriks .................................................................... 22
2.2.6 Rapidminer ............................................................................... 23
2.2.7 Split Validation ........................................................................ 26
2.2.8 Kerangka Pemikiran ................................................................. 27
BAB III METODOLOGI PENELITIAN
3.1 Instrumental Data ............................................................................... 28
3.1.1 Perangkat Lunak (Software) ...................................................... 28
3.1.2 Perangkat Keras (Hardware) .................................................... 28
3.2 Jenis Data ........................................................................................... 29
3.3 Metode Pengumpulan Data ................................................................ 30
3.4 Metode Yang Diusulkan ..................................................................... 30
3.5 Evaluasi dan Validasi ......................................................................... 32
BAB IV HASIL DAN PEMBAHASAN
4.1 Langkah Perhitungan .......................................................................... 33
ix
4.1.1 Metode Yang Diusulkan ........................................................... 34
4.1.2 Langkah Pengujian Rapidminer ............................................... 35
4.2 Hasil Pengujian .................................................................................. 40
4.3 Analisa Hasil Pengujian ..................................................................... 46
BAB V KESIMPULAN DAN SARAN
5.1 Kesimpulan ........................................................................................ 47
5.2 Saran .................................................................................................... 47
DAFTAR PUSTAKA ......................................................................................... 49
LAMPIRAN
Breast Cancer Coimbra Dataset ....................................................................... 51
x
DAFTAR TABEL
Halaman
Tabel 2.1 Perbandingan Saraf Biologi dengan NN .............................................. 10
Tabel 2.2 Model Confusion Matriks .................................................................... 12
Tabel 3.1 Pembagian Data ................................................................................... 13
Tabel 3.2 Evaluasi Pengujian ............................................................................... 14
Tabel 4.1 Nilai Bobot Input Dengan Hidden Layer ............................................. 20
Tabel 4.2 Nilai Bobot Hidden Layer Dengan Output Target ............................... 24
Tabel 4.3 Confusion Matrik Hasil Pengujian ........................................................ 25
Tabel 4.4 Hasil Akurasi ........................................................................................ 25
Tabel 4.5 Hasil Presisi .......................................................................................... 26
Tabel 4.6 Hasil Recall ........................................................................................... 26
xi
DAFTAR GAMBAR
Halaman
Gambar 2.1 Model Biologi Neuron ....................................................................... 8
Gambar 2.2 Kerangka Pemikiran ......................................................................... 15
Gambar 3.1 Diagram Split Validation ................................................................. 16
Gambar 4.1 Model Algoritma Neural Network ................................................... 17
Gambar 4.2 Model Pengujian .............................................................................. 19
Gambar 4.3 Tampilan Awal Rapidminer ............................................................. 23
Gambar 4.4 Menu Utama Sebelum Proses .......................................................... 24
Gambar 4.5 Tampilan Utama New Proses ........................................................... 27
Gambar 4.6 Tampilan Main Proses Read Excel .................................................. 30
Gambar 4.7 Tampilan Data Import Wizard ......................................................... 31
Gambar 4.8 Finish Data Import Wizard ............................................................... 34
Gambar 4.9 Tampilan Split Validasi ..................................................................... 36
Gambar 4.10 Menu Aplly Model ......................................................................... 38
Gambar 4.11 Tombol Run..................................................................................... 39
Gambar 4.12 Tampilan Hasil Pengujian .............................................................. 40
Gambar 4.13 Rasio Split Validasi ........................................................................ 41
Gambar 4.14 Arsitektur Neural Network ............................................................. 42
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Penyakit Kanker merupakan suatu penyakit yang paling ditakuti oleh
masyakat karena proses penyembuhannya yang sulit, efek yang ditimbulkan dan
perlunya biaya yang cukup besar untuk pengobatan dan juga perawatan
(CancerHelps, 2010). Kanker dapat menimpa setiap orang di dunia ini. Tubuh
setiap manusia memiliki sel kanker yang ada sejak lahir, namun tidak selalu
bahwa setiap orang positif mengidap penyakit kanker. Ada beberapa faktor yang
menyebabkan meningkatnya resiko kanker pada diri seseorang seperti terpaparnya
bahan kimia dari asap rokok atau dari industri (dalam kurun yang waktu lama),
penyinaran yang berlebihan (sinar radio aktif, sinar ultraviolet, sinar X dan
radiasi), adanya jenis virus yang berhubungan erat dengan perubahan sel normal
menjadi sel kanker, hormon dan makanan. Kenyataanya dari sejumlah penelitian
dapat diketahui bahwa pemberian hormon tertentu secara berlebihan tidak baik
untuk tubuh dan dapat menyebabkan meningkatnya beberapa jenis resiko penyakit
kanker seperti Kanker Panyudara dan beberapa kanker lainnya (Rostia Ch, 2012).
Kanker payudara adalah kanker invasif yang paling umum terjadi pada
wanita di seluruh dunia. Sebelum membahas tentang kanker payudara atau Breast
Cancer, perlu diketahui pengertian payudara. Payudara adalah organ tubuh yang
letaknya di permukaan bagian dada, sehingga apabila terjadi kelainan seperti
tumor dapat mudah diketahui oleh penderita itu sendiri maupun dokter saat
melakukan pemeriksaan, namun kenyataannya penderita kanker payudara pada
2
stadium awal tidak merasakan sakit apapun tapi muncul benjolan kecil yang tidak
dihiraukan oleh penderita. Menurut statistik data di Laboraturium Patologi
Anatomi yang ada di seluruh Indonesia, penyakit Kanker Payudara menduduki
peringkat kedua terganas setelah Kanker Serviks (kanker mulut rahim) yang
diidap oleh para wanita Indonesia (Naviri, 2016).
Kanker payudara mencakup 16 persen dari semua jenis kanker yang
menyerang wanita, dan 22,9 persen dari semua jenis kanker invasif yang
menyerang wanita. WHO memasukkan kanker payudara ke dalam kategori
international classification of disease. Kanker payudara juga dapat menyerang
kaum pria meski lebih sering terjadi pada wanita. Sebanyak 30,35 persen kanker
payudara menyerang wanita berusia 40-49 tahun. Badan Kesehatan Dunia (WHO)
menyatakan bahwa 8-9 persen wanita akan mengalami kanker payudara. Hal itu
menjadikan kanker payudara sebagai jenis kanker yang paling banyak ditemui
pada wanita. Setiap tahun, lebih dari 250.000 kasus baru kanker payudara
terdiagnosa di Eropa, dan sekitar 175.000 di Amerika Serikat. Masih menurut
WHO pada tahun 2000 ada sekitar 1,2 juta wanita terdiagnosa kanker payudara,
dan lebih dari 700.000 meninggal karenanya (Naviri, 2016).
Belum ada data statistik akurat mengenai kanker payudara di Indonesia,
namun berdasarkan data yang terkumpul dari rumah sakit, ditemukan kenyataan
bahwa kanker payudara menduduki posisi pertama diantara kanker lain yang
menyerang wanita. Data WHO menyebutkan, bahwa penduduk di negara-negara
industri memiliki risiko kanker yang besar. Indonesia sudah mulai masuk menjadi
3
negara industri. Kanker payudara, saat ini diperkirakan rasionya 1 banding 1.000
penduduk positif kanker payudara (Naviri, 2016).
Menakutkannnya kanker payudara bukan hanya kenyataan bahwa setiap
wanita bisa dibilang memiliki risiko untuk mengalaminya, namun juga kenyataan
bahwa penyakit ini tampaknya terus meningkat dari tahun ke tahun. Jika tidak ada
perbaikan signifikan dari faktor gaya hidup dan kemajuan teknik pengobatan, para
ahli memperkirakan pada tahun 2024 nanti, satu dari tujuh wanita akan terkena
kanker payudara. Angka kematian yang terus meningkat dari kasus kanker
payudara membutuhkan perhatian khusus untuk upaya pencegahan dini dan
penanggulanan dengan diagnosa gejala awal kanker payudara (Naviri, 2016).
Diagnosa dini penyakit kanker payudara atau breast cancer dapat
dilakukan dengan metode data mining. Proses data mining bertujuan untuk
menguraikan temuan baru di dalam dataset dan menjelaskan suatu proses yang
menggunakan teknik statistik, matematis, artificial intellegence, dan machine
learning untuk melakukan ekstrak dan identifikasi informasi yang bermanfaat dan
pengetahuan yang terkait dari database tersebut (Suyanto, 2017). Proses data
mining dapat dilakukan menggunakan beberapa metode yaitu asosiasi, clustering,
klasifikasi dan prediksi. Penelitian ini penulis berfokus pada proses data mining
menggunakan metode klasifikasi dengan memanfaatkan algoritma neural network.
Algoritma neural network adalah algoritma yang memiliki kemampuan
adaptive learning, yaitu kemampuan untuk melakukan kegiatan yang didasarkan
atas data yang diberikan pada saat pembelajaran atau dari pengalaman
sebelumnya. Kelebihan neural network terletak pada kemampuan belajar yang
4
dimilikinya, dengan kemampuan tersebut neural network mampu digunakan untuk
menyelesaikan masalah yang rumit atau masalah yang terdapat kaidah atau funsi
yang tidak diketahui (Rifkie Primartha, 2018).
Beberapa penelitian terkait dengan algoritma neural network telah banyak
dilakukan, diantaranya oleh Bakhtiar Rifai (2013) yang berjudul algoritma neural
network untuk prediksi penyakit jantung. Dalam penelitian tersebut dilakukan
pengujian model dengan menggunakan algoritma neural network dengan
menggunakan data pasien yang melakukan pengecekan penyakit jantung. Model
yang dihasilkan diuji untuk mendapat nilai accuracy, precission, recall dari
algoritma, sehinggan didapatkan hasil pengujian tersebut dengan accuracy sebesar
91,45%, precission sebesar 92,79%, dan recall sebesar 94,27%, termasuk ke
dalam excellent classification (Gorunescu, 2011).
Bedasarkan uraian diatas, penulis akan menganalisis breast cancer
Coimbra data set yang diperoleh dari UCI Machine Learning Repository untuk
memprediksi diagnosa kanker payudara menggunakan algoritma neural network.
1.2 Identifikasi Masalah
Identifikasi masalah berdasarkan uraian diatas adalah:
1. Meningkatnya jumlah penderita kanker payudara setiap tahunnya
2. Terlambatnya diagnosa kanker payudara
3. Meningkatnya jumlah kematian akibat kanker payudara
4. Bagaimana pola data mining dapat memprediksi diagnosa kanker
payudara.
5
5. Berapa tingkat keakuratan prediksi diagnosa kanker payudara dengan data
mining.
1.3 Rumusan Masalah
Berdasarkan latar belakang, maka dapat ditarik permasalahan yang akan
dibahas dalam penelitian ini adalah bagaimana melakukan klasifikasi data breast
cancer Coimbra dengan menggunakan algoritma neural network.
1.4 Batasan Masalah
Batasan masalah bedasarkan uraian di atas adalah :
1. Data diagnosa kanker payudara yang digunakan adalah data dari
University of Coimbra, UCI Machine Learning Repository yaitu Breast
cancer Coimbra data set yang berjumlah 116 data.
2. Penerapan algoritma neural network menghasilkan kemungkinan “healty”
(sehat) dan “pasient” (pasien).
3. Hasil pengukuran yang diperoleh adalah akurasi, precission dan recall.
1.5 Tujuan Penelitian
Tujuan penelitian yang diharapkan adalah untuk mengetahui tingkat
akurasi, precission dan recall algoritma neural network dalam memprediksi
diagnosa kanker payudara berdasarkan data breast cancer Coimbra.
6
1.6 Manfaat Penelitian
Penelitian ini semoga bermanfaat :
1. Bagi penulis
a. Menambah wawasan untuk pengetahuan penulis tentang algoritma
neural network untuk prediksi diagnosa kanker payudara.
b. Menerapkan ilmu yang telah didapat selama kuliah.
2. Bagi pembaca
Dapat digunakan sebagai informasi dan tambahan pengetahuan
tentang prediksi diagnosa kanker payudara.
3. Bagi akademik
Dapat dijadikan tolak ukur sejauh mana pemahaman dan
penguasaan materi kuliah yang diberikan selama perkuliahan di Sekolah
Tinggi Teknologi Pelita Bangsa.
1.7 Sistematika Penulisan
Sistematika dalam penulisan skripsi ini, disusun dengan urutan sebagai
berikut :
BAB I PENDAHULUAN
Bab satu berisi penjelasan mengenai latar belakang masalah, identifikasi
masalah, rumusan masalah, batasan masalah, tujuan dan manfaat, serta sistematika
penulisan yang di maksudkan agar dapat memberikan gambaran tentang urutan
pemahaman dalam menyajikan laporan ini.
7
BAB II LANDASAN TEORI
Bab dua membahas mengenai landasan teori yang digunakan untuk
menganalisis masalah dan teori yang dipakai dalam mengolah data penelitian
yaitu teori mengenai klasifikasi neural network dan data mining dan lain-lain.
BAB III METODE PENELITIAN
Tahapan penelitian terdiri dari pengumpulan data dari perusahaan ,
membuat fungsi klasifikasi, dan evaluasi hasil.
BAB IV HASIL DAN PEMBAHASAN
Pada tahap ini membahas tentang pembahasan langkah perhitungan dari
data, jenis data, metode pengumpulan data, model yang diusulkan, dan evaluasi
dari hasil perhitungan.
BAB V KESIMPULAN DAN SARAN
Bab ini menjelaskan tentang kesimpulan yang diperoleh dari hasil analisis
metode neural network dan kesimpulan dari hasil perhitungan.
8
BAB II
LANDASAN TEORI
2.1 Penelitian Terdahulu
Penelitian terkait dalam penelitian ini adalah tentang algoritma neural
network dan metode pengujian confusion matriks.
2.1.1 Kajian Jurnal Pertama
“Penentuan penyakit peradangan hati dengan menggunakan algoritma
neural network” ditulis oleh Rudianto pada tahun 2016. Dalam penelitian tersebut
masalah yang terjadi adalah bagaimana melakukan klasifikasi diagnosa penyakit
peradangan hati dengan data mining menggunakan metode klasifikasi dengan
algoritma neural network. Mencari network terbaik adalah dengan cara merubah
jumlah neuron pada lapisan tersembunyi secara trial dan error sehingga di
dapatkan konfigurasi terbaik. Metode pengujian menggunakan confusion matriks
sehingga mendapat kesimpulan dengan akurasi 84,62%, presisi 86,36%, dan
recall 92,68%.
2.1.2 Kajian Jurnal Kedua
Jurnal Hilda Amalia yang ditulis pada tahun 2018 berjudul “Perbandingan
metode data mining neural network dan support vector machine untuk klasifkasi
penyakit ginjal kronis”. Masalah yang terjadi adalah bagaimana pengolahan
dataset penyakit ginjal kronis dengan menggunakan algoritma neural network dan
dibandingkan dengan algoritma lain. Penelitian tersebut melakukan pengolahan
data untuk memperoleh metode mana yang memiliki nilai akurasi yang lebih
9
tinggi. Menggunakan metode klasifikasi algoritma neural network dan support
vector machine. Metode pengujian dengan confusion matriks dengan akurasi
algoritma neural network sebesar 93, 36%, presisi 97,95%, dan recall 93,18%.
Disimpulkan bahwa kinerja algoritma neural network lebih baik dari pada
algoritma support vector machine.
2.1.3 Kajian Jurnal Ketiga
Penelitian yang dilakukan oleh Bakhtiar Rifai pada tahun 2013 yang
berjudul “Algoritma neural network untuk prediksi penyakit jantung”. Dalam
penelitian tersebut dilakukan pengujian model dengan menggunakan algoritma
neural network dengan menggunakan data pasien yang melakukan pengecekan
penyakit jantung. Model yang dihasilkan diuji untuk mendapat nilai accuracy,
precission, recall dari algoritma, sehinggan didapatkan hasil pengujian tersebut
dengan accuracy sebesar 91,45%, precission sebesar 92,79%, dan recall sebesar
94,27%.
2.1.4 Kajian Jurnal Keempat
Pada penelitian sebelumnya yang dilakukan oleh Wati Erawati pada tahun
2015 yang berjudul “Prediksi penyakit hati dengan menggunakan model algoritma
neural network”. Permasalahan yang dapat dirumuskan adalah seberapa akurat
model algoritma neural network memecahkan masalah dalam prediksi penyakit
hati. Hasil akurasi dapat dilihat dengan model algoritma neural network
10
menghasilkan akurasi sebesar 70,99%. Sehingga dapat disimpulkan bahwa
algoritma neural network memberika pelatihan yang cukup baik.
2.2 Kajian Teori
Kajian teori dalam penelitian ini adalah tentang kanker payudara, data
mining, algoritma neural network, backprogation, rapidminer, split validation,
dan metode pengujian confusion matrik.
2.2.1 Pengertian Kanker Payudara
Menurut Naviri (2016) kanker payudara adalah sekelompok sel kanker
yang dapat tumbuh berkembang, menyerang jaringan dan menyebar yang dimulai
pada sel-sel payudara. Kanker payudara bisa menyerang siapa saja dengan
berbagai latar belakang. Penyakit ini juga menyerang pria, namun pada umumnya
kebanyakan wanita yang terserang kanker payudara.
Menurut Ellis Schnitt et al (2003) Kanker payudara adalah pertumbuhan
sel yang abnormal pada jaringan payudara seseorang. Payudara wanita terdiri dari
lobulus (kalenjar susu), duktus (saluran susu), lemak dan jaringan ikat, pembuluh
darah dan limfe. Sebagian besar kanker payudara bermula pada sel-sel yang
melapisi duktus, beberapa di lobulus, serta sebagian kecil bermula di jaringan lain.
2.2.2 Terbentuknya Kanker Payudara
Menurut naviri (2016) Kanker dimulai dari tumbuhnya sel-sel kanker. Sel-
sel kanker dapat menyumbat semua jaringan dan organ tubuh, termasuk payudara.
Bagian-bagian tubuh, termasuk payudara memiliki sel-sel normal, sel-sel normal
11
itu tumbuh dan membelah untuk membentuk sel-sel baru saat dibutuhkan. Ketika
sel-sel normal telah menjadi tua atau rusak, sel-sel tersebut digantikan sel-sel baru
yang menempati tempat mereka sebelumnya, namun proses itu kadang tidak
berjalan seperti seharusnya. Sel-sel baru terbentuk ketika tubuh tidak
membutuhkannya, sementara sel-sel yang tua dan rusak tidak mati seperti seperti
seharusnya. Mereka membentuk sebuah jaringan yang sering disebut tumor.
Tumor adalah kumpulan jaringan tidak normal, yang disebabkan oleh sel-sel yang
membelah lebih banyak dari seharusnya, atau yang tidak mati.
2.2.3 Pengertian Data Mining
Data mining merupakan gabungan sejumlah disiplin ilmu computer yang
didefinisikan sebagai proses penemuan pola pola baru dari kumpulan-kumpulan
data sangat besar, meliputi metode-metode yang merupakan irisan dari artificial
intelligence, machine learning, statistics, dan database systems (ACM, 2006).
Data Mining merupakan analisis dari peninjauan kumpulan data untuk
menemukan hubungan ynag tidak diduga dan meringkas data dengan cara yang
berbeda dengan sebelumnya, yang dapat dipahami dan bermanfaat bagi pemilik
data.(Larose, 2005).
Data Mining merupakan bidang dari beberapa bidang keilmuan yang
menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik, basis data,
dan visualisasi untuk penanganan permasalahan pengambilan informasi dari basis
data yang besar. (Larose, 2005).
12
Asal muasal data mining dari kata mining yang artinya tambang jika
dikembangkan menggali data yang telah lampau. Data mining merupakan proses
terpadu dari analisis data yang terdiri dari serangkaian kegiatan yang berjalan
berdasarkan definisi tujuan yang akan dianalisis, dengan analisis datanya sampai
interpretasi dan evaluasi hasil (Giudici & Figini, 2009).
Pengumpulan data mining bukan sekedar terkumpul data saja tetapi
mencakup analisis dan prediksi dari informasi yang ingin ditampilkan. Data yang
dikumpulkan disimpan dalam database kemudian diproses sehingga dapat
dijadikan untuk pengambilan keputusan dalam melihat informasi yang akan
digunakan. Data mining dan Knowledge Discovery in Databases (KDD) sering
kali digunakan secara bergantian dalam menjelaskan proses penggalian informasi
dalam basis data yang sangat besar akan tetapi berkaitan satu sama yang lain,
skema proses KDD (Han & Kamber, 2006).
Tahapan Data mining
Menurut Han & Kamber (2006) Dari tahapan proses KDD adalah data
mining, tahapanya adalah sebagai berikut:
1. Data Selection
a) Menciptakan himpunan data target , pemilihan himpunan data, atau
memfokuskan pada subset variabel atau sampel data, dimana
penemuan (discovery) akan dilakukan.
b) Pemilihan (seleksi) data dari sekumpulan data operasional perlu
dilakukan sebelum tahap penggalian informasi dalam KDD
13
dimulai. Data hasil seleksi yang akan digunakan untuk proses data
mining, disimpan dalam suatu berkas, terpisah dari basis data
operasional.
2. Pre-processing/ Cleaning
a) Pemprosesan pendahuluan dan pembersihan data merupakan
operasi dasar seperti penghapusan noise dilakukan.
b) Sebelum proses data mining dapat dilaksanakan, perlu dilakukan
proses cleaning pada data yang menjadi fokus KDD.
c) Proses cleaning mencakup antara lain membuang duplikasi data,
memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada
data, seperti kesalahan cetak (tipografi).
d) Dilakukan proses enrichment, yaitu proses “memperkaya” data
yang sudah ada dengan data atau informasi lain yang relevan dan
diperlukan untuk KDD, seperti data atau informasi eksternal.
3. Transformation
a) Pencarian fitur-fitur yang berguna untuk mempresentasikan data
bergantung kepada goal yang ingin dicapai.
b) Merupakan proses transformasi pada data yang telah dipilih,
sehingga data tersebut sesuai untuk proses data mining. Proses ini
merupakan proses kreatif dan sangat tergantung pada jenis atau
pola informasi yang akan dicari dalam basis data.
14
4. Data mining
a) Pemilihan tugas data mining; pemilihan goal dari proses KDD
misalnya klasifikasi, regresi, clustering, dan lain-lain.
b) Pemilihan algoritma data mining untuk pencarian (searching).
c) Proses Data mining yaitu proses mencari pola atau informasi
menarik dalam data terpilih dengan menggunakan teknik atau
metode tertentu. Teknik, metode, atau algoritma dalam data mining
sangat bervariasi. Pemilihan metode atau algoritma yang tepat
sangat bergantung pada tujuan dan proses KDD secara
keseluruhan.
5. Interpretation/ Evaluation
a) Penerjemahan pola-pola yang dihasilkan dari data mining.
b) Pola informasi yang dihasilkan dari proses data mining perlu
ditampilkan dalam bentuk yang mudah mimengerti oleh pihak yang
berkepentingan.
c) Tahap ini merupakan bagian dari proses KDD yang mencakup
pemeriksaan apakah pola atau informasi yang ditemukan
bertentangan dengan fakta atau hipotesa yang ada sebelumnya.
Kegunaan Data Mining
Menurut Fayyad et al yang dikutip oleh suyanto (2017), kegunaan data
mining dibagi menjadi dua: deskriptif dan prediktif. Deskriptif berarti data mining
digunakan untuk mencari pola-pola yang dapat dipahami manusia, yang
15
menjelaskan karakteristik data. Prediktif berarti data mining digunakan untuk
membentuk sebuah model pengetahuan yang akan digunakan untuk melakukan
prediksi. Berdasarkan fungsionalitasnya, tugas-tugas data mining bisa
dikelompokkan ke dalam enam kelompok berikut ini (suyanto, 2017):
1. Klasifikasi (classification): men-generalisasi struktur yang diketahui untuk
diaplikasikan pada data-data baru. Misalkan, klasifikasi penyakit ke dalam
sejumlah jenis.
2. Klasterisasi (classtering): mengelompokkan data yang tidak diketahui
label kelasnya ke dalam sejumlah kelompok tertentu sesuai ukuran
kemiripannya.
3. Regresi (regression): menemukan suatu fungsi yang memodelkan data
dengan galat (kesalahan prediksi) seminimal mungkin.
4. Deteksi anomali (anomaly detection): mengidentifikasikan data yang tidak
umum, bisa berupa outlier (pencilan),perubahan atau deviasi yang
mungkin sangat penting dan perlu investigasi lebih lanjut.
5. Pembelajaran aturan asosiasi (association rule mining) atau pemodelan
kebergantungan (dependency modeling): mencari relasi antar variable.
6. Perangkuman ( summarization): menyediakan representasi data yang lebih
sederhana, meliputi visualisasi dan pembuatan laporan.
2.2.4 Pengertian Neural Network
Menurut suyanto (2017), neural network adalah suatu jaringan yang
memodelkan sistem saraf otak manusia (disebut neuron) dalam melaksanakan
16
tugas pngenalan pola, khususnya klasifikasi. Pemodelan ini didasari oleh
kemamampuan otak manusia dalam mengorganisir neuron sehingga mampu
mengenali pola secara efektif. Pemodelan pada neural network jauh lebih
sederhana dibandingkan otak manusia yang sebenarnya. Banyak sistem otak
manusia yang harus diimplikasikan agar dapat dimodelkan ke dalam dunia
komputer.
Menurut Rifkie Primartha (2018) Neural network merupakan sebuah
model atau pola dalam pemrosesan informasi. Model ini terinspirasi dari sistem
biologi saraf makhluk hidup seperti pemrosesan informasi pada otak. Struktur
pemprosesan informasi ini terbentuk dari sejumlah neuron yang saling terhubung
satu sama lain dan memecahkan masalah secara bersamaan. Layaknya manusia,
neural network juga dapat belajar melalui contoh.
Gambar 2.1 : Model Biologi Neuron (Suyanto, 2017)
Neural network pertama kali diperkenalkan oleh seorang neurolog Warren
S. McCulloch dan matematikawan Walter Pitts pada tahun 1943 yang kemudian
17
dikenal sebagai McCulloch-Pitts Neuron. Neuron ini berupa simulasi operasi
logika dengan dua atau lebih input yang menghasilkan satu keluaran.Hasil dari
model ini adalah fungsi logika sederhana dalam bentuk fungsi logika Boolean
dengan operasi AND, NOT, OR, XOR, NAND, dan NOR (Rifkie Primartha, 2018).
Seperti yang telah dijelaskan di atas, Neural network bekerja dan memiliki
konstruksi layaknya otak manusia(Tabel dibawah).
Tabel 2.1 Perbandingan Saraf Biologi dengan NN
Saraf Biologi NN
Soma
Dendrit
Akson
Sinapsis
Neuron
Input
Output
Bobot
Dari tabel perbandingan saraf biologi otak dengan neural network
menunjukkan masing-masing komponen memiliki fungsi yang hampir sama satu
dengan lainnya. Sebagai contoh, bagian sinapsis pada saraf biologi. Bagian ini
berfungsi menghantarkan sinyal listrik dan memberikan pembobotan pada sinyal
tersebut. Fungsi sinapsis sama dengan pembobotan pada neural network,
menghantarkan nilai dari input neuron ke neuron berikutnya setelah dilakukan
pembobotan terlebih dahulu.
18
Backpropagation
Algoritma backpropagation merupakan bagian dari algoritma
pembelajaran terawasi yang biasanya digunakan oleh perceptron dengan banyak
lapisan untuk mengubah bobot-bobot yang terhubung dengan neuron-neuron yang
ada pada lapisan tersembunyi. Algoritma ini menggunakan error keluaran untuk
mengubah nilai bobot-bobotnya dalam arah mundur (backward). Untuk
mendapatkan error ini tahap perambatan maju (forward propagation) harus
dikerjakan terlebih dahulu. Saat perambatan maju, neuron-neuron diaktifkan
dengan menggunakan fungsi aktivasi yang dapat dideferensiasikan seperti sigmoid
(Muis, Saludin. 2017):
𝑦 = f x =
(2.1)
f ′ x = σ𝑓 x [1 − f x ] (2.2)
Atau seperti tangent sigmoid :
𝑦 = f (x) =
(2.3)
f′ (x) = [1 + f(x)] [1 – f(x)] (2.4)
Pelatihan Backpropagation dilakukan melalui langkah-langkah berikut ini :
Langkah ke-0 : Inisialisasi bobot;
Langkah ke-1 : Selama kondisi berhenti bernilai salah, kerjakan langkah 2-9;
Langkah ke-2 : Untuk setiap data training, lakukan langkah 3-8.
Umpan Maju (Feedforward)
Langkah ke-3 : Setiap unit input (𝑋𝑖 , 𝑖 = 1, … , 𝑛) menerima sinyal input 𝑥𝑖 dan
menyebarkan sinyal tersebut ke seluruh unit tersembunyi.
19
Langkah ke-4 : Pada setiap unit tersembunyi (𝑍𝑗 , j = 1, … , 𝑝), menjumlahkan
sinyal-sinyal input yang sudah berbobot (termasuk biasnya)
𝑧_𝑖𝑛𝑗 = 𝑣0𝑗 + ∑ 𝑥 𝑣 (2.5)
Lalu menghitung sinyal output dari unit tersembunyi dengan
menggunakan fungsi aktivasi yang telah ditentukan :
𝑧𝑗 = (𝑧_𝑖𝑛 ) (2.6)
Sinyal output ini selanjutnya dikirim ke seluruh unit pada unit
atas (unit output).
Langkah ke-5 : Tiap-tiap unit output (𝑌𝑘 , 𝑘 = 1, … , 𝑚), menjumlahkan bobot
sinyal input :
𝑦_𝑖𝑛𝑘 = 𝑤0𝑘 + ∑ 𝑧 𝑤 (2.7)
Lalu menghitung sinyal output dari unit output bersangkutan
dengan menggunakan fungsi aktivasi yang telah ditentukan
𝑦𝑘 = (𝑦_𝑖𝑛 ) (2.8)
Sinyal output ini selanjutnya dikirim ke seluruh unit pada output.
Umpan Mundur/ Propagasi Error (Backpropagation of Error)
Langkah ke-6 : Setiap unit output (𝑌𝑘 , 𝑘 = 1, … , 𝑚) menerima suatu pola target
yang sesuai dengan pola input pelatihan, untuk menghitung
kesalahan (error) antara target dengan output yang dihasilkan
jaringan
= ( − 𝑦 )′(𝑦_𝑖𝑛 ) (2.9)
Faktor 𝑘 digunakan untuk menghitung koreksi error (Δ𝑤 )
yang nantinya akan dipakai untuk memperbaiki 𝑤 , dimana
20
Δ𝑤 = 𝑧 (2.10)
Selain itu juga dihitung koreksi bias Δ𝑤 yang nantinya akan
dipakai untuk memperbaiki 𝑤 , dimana
Δ𝑤 = (2.11)
Faktor 𝑘 kemudian dikirimkan ke lapisan yang berada pada
langkah ke-7.
Langkah ke-7 : Setiap unit tersembunyi (𝑍𝑗 , 𝑗 = 1, … , 𝑝) menerima input delta
(dari langkah ke-6) yang sudah berbobot
_𝑖𝑛 = ∑ 𝑤 (2.12)
Kemudian hasilnya dikalikan dengan turunan dari fungsi aktivasi
yang digunakan jaringan untuk menghitung informasi kesalahan
error , dimana
= _𝑖𝑛 𝑓′(𝑧_𝑖𝑛 ) (2.13)
Kemudian hitunglah koreksi bobot (untuk memperbaiki 𝑣 )
Δ𝑣 = 𝑥 (2.14)
Setelah itu hitung koreksi bias (digunakan untuk memperbaiki
𝑣 )
Δ𝑣 = (2.15)
Update Bobot dan Bias (Adjustment)
Langkah ke-8 : Setiap unit output (𝑌𝑘 , 𝑘 = 1, … , 𝑚) memperbaiki bobot dan bias
dari setiap unit tersembunyi (𝑗 = 0, … , 𝑝)
𝑤 𝑏𝑎𝑟𝑢 = 𝑤 𝑙𝑎𝑚𝑎 + Δ𝑤 (2.16)
21
Demikian pula untuk setiap unit tersembunyi ( , 𝑗 = 1, … , 𝑝) akan
memperbaharui bobot dan bias dari setiap unit input (𝑖 = 0, … , 𝑛)
𝑣 𝑏𝑎𝑟𝑢 = 𝑣 𝑙𝑎𝑚𝑎 + Δ𝑣 (2.17)
Langkah ke-9 : Tes kondisi berhenti apabila error ditemukan jika kondisi STOP
telah terpenuhi, maka pelatihan jaringan dapat dihentikan. Untuk
memeriksa kondisi STOP, biasanya digunakan kriteria MSE
(Mean Square Error) berikut ini :
𝑀𝑆𝐸
= 0.5
× {( 𝑦 + 𝑦
+ …
+ 𝑦 } (2.18)
Pengujian Backpropagation
Pengujian backpropagation dilakukan melalui feedforward langkah-
langkahnya sebagai berikut :
Langkah 0 : Inisialisasikan bobot (dari hasil pelatihan)
Langkah 1 : Untuk setiap vektor input, kerjakan langkah 2-4
Langkah 2 : Untuk i=1,…,n: set aktivasi unit input xi
Langkah 3 : Untuk j=1,…,p:
𝑧 𝑣 ∑ 𝑥 𝑣 (2.19)
𝑧 𝑓 𝑧 𝑖𝑛 (2.20)
Langkah 4 : Untuk k=1,…,m:
𝑦 𝑖𝑛 𝑤 ∑ 𝑧 𝑤 (2.21)
22
𝑦 𝑓 𝑦 𝑖𝑛 (2.22)
2.2.5 Confusion Matriks
Confusion matrix melakukan pengujian untuk memperkirakan obyek yang
benar dan salah (gorunescu, 2011). Urutan pengujian ditabulasikan dalam
confusion matrix dimana kelas yang diprediksi ditampilkan di bagian atas matriks
dan kelas yang diamati di bagian kiri. Setiap sel berisi angka yang menunjukkan
berapa banyak kasus yang sebenarnya dari kelas yang diamati untuk diprediksi.
Table 2.2: model confusion matrix
Nilai Prediksi
Nilai Aktual
TP FN
FP TN
Keterangan :
TP = tupel postif yang diklasifikasikan positif.
TN = tupel negatif yang diklasifikasikan negatif.
FP = tupel positif yang diklasifikasikan negatif.
FN = tupel negatif yang diklasifikasikan positif.
Untuk menghitung tingkat akurasi pada matriks digunakan:
𝑘𝑢𝑟𝑎 𝑖
(2.23)
23
Sensitivitas dan spesifisitas tidak memberikan informasi untuk nilai diagnosa
yang benar. Maka perlu adanya PPV (nilai prediksi positif) dimana proporsi kasus
dengan hasil tes “positif” adalah:
(2.24)
dan membutuhkan NPV (nilai prediksi negatif) dengan proporsi kasus dengan
hasil tes “negatif” yang dituliskan pada persamaan 3.
(2.25)
Tingkat kesalahan diperoleh dari persamaan 4.
𝑖𝑛 𝑘𝑎 𝑘 𝑎𝑙𝑎 𝑎𝑛
(2.26)
Keterangan :
Positif = TP + FN
Negatif = FP + TN
2.2.6 Rapidminer
RapidMiner merupakan perangakat lunak yang bersifat terbuka (open
source). RapidMiner adalah sebuah solusi untuk melakukan analisis terhadap data
mining, text mining dan analisis prediksi. RapidMiner menggunakan berbagai
teknik deskriptif dan prediksi dalam memberikan wawasan kepada pengguna
sehingga dapat membuat keputusan yang paling baik. RapidMiner memiliki
kurang lebih 500 operator data mining, termasuk operator untuk input, output,
data preprocessing dan visualisasi. RapidMiner merupakan software yang berdiri
24
sendiri untuk analisis data dan sebagai mesin data mining yang dapat
diintegrasikan pada produknya sendiri. RapidMiner ditulis dengan munggunakan
bahasa java sehingga dapat bekerja di semua sistem operasi.
RapidMiner sebelumnya bernama YALE (Yet Another Learning
Environment), dimana versi awalnya mulai dikembangkan pada tahun 2001 oleh
RalfKlinkenberg, Ingo Mierswa, dan Simon Fischer di Artificial Intelligence Unit
dari University of Dortmund. RapidMiner didistribusikan di bawah lisensi AGPL
(GNU Affero General Public License) versi 3. Hingga saat ini telah ribuan
aplikasi yang dikembangkan mengunakan RapidMiner di lebih dari 40 negara.
RapidMiner sebagai software open source untuk data mining tidak perlu
diragukan lagi karena software ini sudah terkemuka di dunia. RapidMiner
menempati peringkat pertama sebagai Software data mining pada polling oleh
KDnuggets, sebuah portal data-mining pada 2010-2011(Aprilia C.Dennis dkk,
2013).
RapidMiner menyediakan GUI (Graphic User Interface) untuk
merancang sebuah pipeline analitis. GUI ini akan menghasilkan file
XML(Extensible Markup Language) yang mendefenisikan proses analitis
keinginan pengguna untuk diterapkan ke data. File ini kemudian dibaca oleh
RapidMiner untuk menjalankan analis secara otomatis (Aprilia C.Dennis dkk,
2013).
RapidMiner memiliki beberapa sifat sebagai berikut (Aprilia C.Dennis
dkk, 2013).:
25
1. Ditulis dengan bahasa pemegroman java sehingga dapat dijalankan di
berbagai sistem operasi.
2. Proses penemuan pengetahuan dimodelkan sebagai operator trees.
3. Representasi XML internal untuk memastikan format standar pertukaran
data.
4. Bahasa scripting memungkinkan untuk eksperiman skala besar dan
otomatisasi eksperimen.
5. Konsep multi-layer untuk menjamin tampilan data yang efisien dan
menjamin penangan data.
6. Memiliki GUI, command line mode dan Java API yang dapat dipanggil
dari program lain.
Beberapa fitur dari RapidMiner, antara lain (Aprilia C.Dennis dkk, 2013).:
1. Banyaknya algoritma data mining, seperti decision tree dan self-
organization map.
2. Bentuk grafis yang canggih, seperti tumbang tindih diagram histogram,
tree chart dan 3D scatter plots.
3. Banyaknya variasi plugin, seperti text plugin untuk melakukan analisis
teks.
4. Menyediakan prosedur data mining dan machine learning termasuk: ETL
(extraction, transformation, loading) data preprocessing, visualisasi,
modeling dan evalualisasi.
26
5. Proses data mining tersusun atas operator-operator yang nestable,
dideskripsikan dengan XML, dan dibuat dengan GUI.
6. Mengintegrasikan proyek data mining Weka dan statistic R.
2.2.7 Split Validation
Split Validation adalah teknik validasi yang membagi data menjadi dua
bagian secara acak, sebagian sebagai data training dan sebagian lainnya sebagai
data testing. Dengan menggunakan Split Validation akan dilakukan percobaan
training berdasarkan split ratio yang telah ditentukan sebelumnya, untuk
kemudian sisa dari split ratio data training akan dianggap sebagai data testing.
Data training adalah data yang akan dipakai dalam melakukan pembelajaran
sedangkan data testing adalah data yang belum pernah dipakai sebagai
pembelajaran dan akan berfungsi sebagai data pengujian kebenaran atau
keakurasian hasil pembelajaran (Aprilia C.Dennis dkk, 2013)
27
2.2.8 Kerangka Pemikiran
Kerangka pemikiran merupakan garis besar dari langkah – langkah
penelitian yang sedang dilakukan, kerangka pemikiran dijadikan acuan untuk
melakukan tahap – tahap yang sedang dilkakukan dalam penelitian.
Masalah
Bagaimana melakukanfi klasifikasi data breast cancer coimbra dengan
menggunakan algoritma neural network
Tujuan
Mengetahui tingkat akurasi, precission dan recall algoritma neural network
dalam memprediksi diagnosa kanker payudara berdasarkan data breast cancer
Coimbra
Penelitian
Tool Data Metode
Rapidminer Breast Cancer Coimbra Algoritma neural network
Hasil Yang ingin dicapai
Tingkat akurasi, presis dan recall yang diharapkan dapat memprediksi diagnosa
kanker payudara
Manfaat
Dapat digunakan sebagai informasi dan tambahan pengetahuan tentang prediksi
diagnosa kanker payudara
Gambar 2.2. Kerangka Pemikiran
Pada gambar 2.3. Menunjukkan permasalahan pada penelitian ini adalah
untuk melakukan klasifikasi pada diagnosa penyakit kanker payudara. Algoritma
yang digunakan yaitu neural network dengan metode confusion matriks.
Pengujian yang akan dilakukan menggunakan software rapidminer untuk
mempreoleh nilai akurasi, presisi dan recall.
28
BAB III
METODE PENELITIAN
3.1. Instrumental Data
Pada penelitian ini akan menggunakan instrumental peralatan yang
meliputi peralatan perangkat lunak dan peralatan perangkat keras. Adapun
masing-masing kebutuhan dari setiap peralatan adalah sebagai berikut:
3.1.1. Perangkat Lunak (Software)
a. Sistem Operasi Windows 7
Untuk mendukung penelitian, minimal dapat menggunakan sistem
operasi windows 7 dengan versi 64 bit, dikarenakan pada versi ini
sistem operasi dapat menjakankan softwere RapidMiner 8.0.
b. RapidMiner
Dalam mengimplementasikan metode yang digunakan, maka akan
digunakan softwere RapidMiner 8.0 untuk membuat model klasifikasi.
3.1.2. Perangkat Keras (Hardware)
Selain membutuhkan perangkat lunak, ada pula perangkat keras yang
dibutuhkan untuk implementasi. Adapun spesifikasi perangkat keras yang
dibutuhkan yaitu:
a. Personal komputer dengan spesifikasi minimal
CPU: Core™ i3
RAM dengan ukuran 2 GB
Harddisk dengan ukuran 500 GB
Layar monitor 14”
29
3.2. Jenis Data
Data yang digunakan dalam penelitian ini merupakan data sekunder. Data
sekunder ini merupakan data untuk mendiagnosa penyakit kanker payudara yang
diperoleh dari University of Coimbra, UCI Machine Learning Repository yaitu
Breast cancer Coimbra data set yang berjumlah 116 data. Data set diagnosa
penyakit kanker payudara yang diambil memiliki 9 atribut dan 1 class. Atribut-
atribut tersebut adalah:
1. Age: merupakan data usia dalam bentuk numeric.
2. BMI: Body Massa Index adalah indek masa tubuh manusia dengan satuan
(kg/m²). Atribut ini merupakan data numeric.
3. Glucose: Atribut ini menunjukan jumlah salah satu jenis gula darah dalam
tubuh manusia dengan satuan (mg/dL). Atribut ini merupakan data
numeric.
4. Insulin: atribut ini menunjukkan jumlah hormon insulin yaitu hormon yg
mengatur metabolisme karbohidrat dalam tubuh manusia dengan satuan
(µU/mL). Atribut ini merupakan data numeric.
5. HOMA: Homeostasis Model Assesment atribut ini merupakan penilain
model homeostasis yang dipengaruhi oleh kadar glucose dan insulin dalam
tubuh manusia. Atribut ini merupakan data numeric.
6. Leptin: atribut ini menunjukan kadar hormon leptin pada tubuh manusia
yang mempengaruhi regulasi berat tubuh dan fungsi metabolisme, dengan
satuan (ng/mL). Atribut ini merupakan data numeric.
30
7. Adiponectin: Atribut ini menunjukkan kadar hormon adiponectin yang
dihasilkan dari jaringan lemak yang mempunyai peranan penting dalam
regulasi dari metabolisme glukose dan resistensi insulin, dengan satuan
(µg/mL). Atribut ini merupakan data numeric.
8. Resistin: Atribut ini adalah data yang berisi jumlah protein kaya akan asam
amino dengan satuan (ng/mL). Atribut ini merupakan data numeric.
9. MCP.1: Monocyte Chemoattractant Protein 1 dengan satuan (pg/dL).
Atribut ini merupakan data numeric.
Dari 9 atribut yang ada akan digunakan untuk menentukan classification
dari diagnosa kanker payudara. Classification ini menunjukkan apakah “healty
control” (sehat) atau “pasient” (terdiagnosa kanker payudara).
3.3. Metode Pengumpulan Data
Data yang digunakan dalam penelitian ini merupakan data kualitatif dalam
bentuk dokumentasi. Dalam pengumpulan data-data yang dibutuhkan dalam
penelitian ini menggunakan metode studi literature (Library Research). Metode
studi literature ini dilakukan dengan cara mencari informasi mengenai
permasalahn yang diteliti berdasarkan buku-buku, jurnal, paper atau sumber lain
yang berkaitan.
3.4. Metode Yang Diusulkan
Model yang diusulkan untuk klasifikasi menggunakan algoritma neural
network adalah menggunakan model split validation. Split validation membagi
31
data menjadi dua subset data yaitu data trainning dan data testing. Data trainnning
merupakan data yang digunakan untuk pelatihan, sedangkan data testing akan
digunakan untuk pengujian. Adapun untuk melihat secara lebih jelas dari model
split validation dapat dilihat pada gambar 3.1.
Gambar 3.1. Diagram Split Validation
Dengan menggunakan model pada gambar 3.1. akan digunakan untuk
melakukan pengujian sebanyak enam kali yang masing-masing proporsi
pembagian datanya dapat dilihat pada tabel 3.1.
Tabel 3.1. Pembagian Data
Training Testing
95% 5%
90% 10%
85% 15%
80% 20%
75% 25%
70% 30%
Dari enam kali pengujian yang dilakukan berdasarkan proprosi dari tabel
3.1. setip hasil yang diperoleh akan ditentukan jumlahnya untuk diambil nilai rata-
rata.
32
3.5. Evaluasi dan Validasi
Tahapan evaluasi yang dilakukan dalam penelitian ini adalah untuk
memberikan penilaian dari hasil penggunaan algoritma neural network untuk
mengklasifikasi data diagnosa kanker payudara. Bagian yang akan dievaluasi
adalah presentase data, jumlah data training, jumlah data testing, dan nilai akurasi
yang dihasilkan. Adapun secara keseluruhan dapat dilihat pada tabel 3.2.
Tabel 3.2. Evaluasi Pengujian
Presentasi Data Data Training Data Testing Akurasi
95% : 5% 110 6 ?
90% : 10% 104 12 ?
85% : 15% 98 18 ?
80% : 20% 92 24 ?
75% : 25% 86 30 ?
70% : 30% 80 36 ?
Dari tabel 3.2. akan digunakan untuk validasi nilai akurasi, presisi dan
recall dari algoritma neural network. Dari nilai akurasi yang dihasilkan akan
ditentukan rata-rata akurasi pada masing-masing algoritma. Kemudian akan
dibandingkan model mana yang memiliki akurasi yang lebih tinggi untuk
mengklasifikasikan data diagnosa kanker payudara.
33
BAB IV
HASIL DAN PEMBAHASAN
4.1. Langkah Perhitungan
Pada tahap ini metode yang digunakan untuk menghitung berapa tingkat
akurasi dalam proses klasifikasi adalah dengan menggunakan algoritma neural
network. Algoritma neural network digunakan untuk proses training yang
kemudian diaktivasi ke dalam data testing. Berikut adalah langkah perhitungan
dengan metode neural network:
Gambar 4.1 Model Algoritma Neural Network
Pada gambar 4.1 algoritma neural network membaca dataset yang ada.
Selanjutnya membuat arsitektur neuron yang terbentuk mulai dari node input,
mulai
Data set
Proses Neural Network
Input parameter learning rate
Inisialisasi arsitektur, hitung bobot dan bias
Masukkan inisialisasi, bobot dan bias
kedalam atribut yang ada
Hasil diaktivasi ke dalam
output target
selesai
Prediksi Healty
Prediksi Pasient
34
hidden layer, bias dan node output. Algoritma neural network menentukan target
dan learning rate. Pada setiap atribut class yang ada yang digunakan untuk
menhitung setiap bobot dan error output.
4.1.1. Model Yang Diusulkan
Metode yang digunakan untuk penelitian ini adalah dengan menggunakan
algoritma neural network. Metode dengan perhitungan algoritma neural network
akan digunakan untuk mencari performance (akurasi), precission, recall dan
confusion matrix.
Gambar 4.2 Model Pengujian
Dataset Processing data
Modeling
Neural network
Data Training
Split Validation
Apply Model
Performance
Data Testing
Hasil akurasi, precision,recall dan
confusion matrix
35
4.1.2. Langkah Pengujian Rapidminer
Langkah pengujian dengan menggunakan tool rapidminer adalah sebagai
berikut:
1. Membuka Aplikasi Rapidminer
Gambar 4.3. Tampilan Awal Rapidminer
Pada tahap ini aplikasi melakukan loading, setelah loading selesai
maka muncul tampilan menu baru.
2. Tampilan Menu Utama Sebelum Proses
Gambar 4.4. Menu Utama Sebelum Proses
36
Gambar 4.4. menampilkan proses apa yang akan kita pilih. Pada tahap
ini pilih menu blank sebagai pengujian untuk dataset dan algoritmanya.
3. Tampilan Utama New proses
Gambar 4.5. Tampilan Utama New Proses
Gambar 4.5. merupakan tampilan utama proses baru yang akan
digunakan untuk pengujian. Search operator yang akan digunakan. Klik read
excel pada operator, karena data yang akan digunakan merupakan data
bertype Microsoft excel worksheet. Maka akan muncul tampilan seperti
gambar 4.6.
4. Tampilan Main Proses Read Excel
Gambar 4.6. Tampilan Main Proses Read Excel
37
Kemudian pilih import configurasi wizard untuk mengambil data yang
akan digunakan untuk pengujian. Yaitu breast cancer Coimbra dataset.
5. Data Import Wizard
Gambar 4.7. Tampilan Data Import Wizard
Pilih dataset yang akan digunakan untuk pengujian.
Gambar 4.8. Finish Data Import Wizard
Klik next jika data yang dipilih sudah benar, kemudian gambar 4.8.
merupakan tampilan finish data import wizard. Sebelum klik tombol finish
38
terlebih dahulu untuk merubah hasil keputusan atau output target sebagai label
dan jenis datanya sebagai binominal dikarenakan hanya ada dua output target
yaitu “healty” dan “pasient”.
6. Tampilan Main Proses Split Validation
Gambar 4.9. Tampilan Split Validasi
Klik 2 kali pada split validation agar muncul tampilan menu apply model.
Gambar 4.10. Menu Aplly Model
39
Gambar 4.10. menampilkan dua main proses yaitu training dan
testing. Dalam main proses training kita masukkan algoritma apa yang akan
digunakan untuk melatih dataset yang sudah dipilih. Disini peneliti
menggunakan algoritma neural network. Dalam main proses testing pilih
apply model untuk membuat model pelatihan untuk dataset dan performance
untuk menampilkan hasil akurasi, presisi dan recall.
7. Tampilan Hasil pengujian
Setelah semua operator sudah terhubung kemudian klik tombol run.
Gambar 4.11. Tombol Run
Maka akan muncul tampilan hasil pengujian seperti gambar 4.12.
Gambar 4.12. Tampilan Hasil Pengujian
40
Menampilkan akurasi, presisi dan recall dari dataset yang telah diuji.
Gambar 4.12. ini merupakan rasio dari jumlah data training sebesar 0.95 atau
95% dan data testing sebesar 0.05 atau 5%. Ubah rasio pada split validation
untuk melihat hasil pengujian dengan rasio data tasting dan data training yang
berbeda.
Gambar 4.13. Rasio Split Validation
4.2. Hasil Pengujian
Uji coba dilakukan untuk mengetahui tingkat akurasi, precisi dan recall
dari data set diagnosa penyakit kanker payudara dengan algoritma neural network
menggunakan tool rapidminer. Berikut ini adalah arsitektur neuron yang
terbentuk.
41
Gambar 4.14. Arsitektur Neural Network
Pada gambar 4.3 ada 9 node input sama seperti jumlah atribut dalam data
set, 7 hidden layer, 2 output target adalah “healty” dan “pasient”, 1 node bias dan
1 node threshold. Pada setiap node terdapat garis yang menghubungkan, garis
tersebut merupakan bobot. Berikut adalah bobot dari setiap garis yang
menghubungkan node satu dengan node yang lainnya.
42
Tabel 4.1. Nilai Bobot Input Dengan Hidden Layer
Node 1 Node 2 Node 3 Node 4 Node 5 Node 6 Node 7
Age -1.546 6.69 -4.926 -0.281 9.466 -12.017 -0.769
BMI -0.561 -0.801 -5.254 0.467 5.148 -2.617 0.145
Glucose 3.093 5.675 4.506 3.473 5.702 3.947 3.566
Insulin 3.102 3.429 5.917 2.187 2.706 -1.561 1.649
HOMA 0.718 -2.063 1.082 0.786 1.722 -1.566 0.498
Leptin -3.059 0.749 -2.957 -2.596 0.887 -0.184 -1.786
Adiponectin -0.153 -1.214 -4.539 -0.813 6.674 -0.402 -1.001
Resistin 3.854 7.36 6.289 2.607 -0.401 0.081 1.788
MCP-1 3.27 -6.705 3.529 2.624 -1.436 0.577 2.14
Bias 2.949 9.797 4.551 1.697 -0.054 3.123 1.351
Tabel 4.2. Nilai Bobot Hidden Layer Dengan Output Target
Node1 Node2 Node3 Node4 Node5 Node6 Node7 Threshold
Class
"Healty" -4.154 -6.563 -6.078 -3.031 -6.69 -5.05 -2.18 8.993
Class
"Pasient" 4.153 6.563 6.075 2.99 6.69 5.049 2.233 -8.993
Berdasarkan hasil pengujian yang telah diperoleh, akan dilakukan analisa
terhadap hasil pengujian tersebut. Dengan mengetahui jumlah data yang
diklasifikasikan benar maka dapat diketahui akurasi, precisi dan recall dengan
menggunakan confusion matriks.
43
Table 4.3. Confusion Matriks Hasil Pengujian
Hasil pengujian dari data training dan data testing dengan meggunakan
rapidminer, untuk mengetahui tingkat akurasinya adalah sebagai berikut:
Data training : 110 data
Data testing : 6 data
Data yang diprediksi benar : 5 data
Data yang diprediksi salah : 1 data
Untuk menghitung tingkat akurasi pada matriks:
Akurasi =
x 100%
= 83,33%
Precision =
x 100%
= 100%
44
Recall =
x 100%
= 66,67%
Error =
x 100%
= 16,67%
Dari perhitungan tersebut dapat disimpulkan bahwa klasifikasi dengan
menggunakan algoritma neural network menghasilkan akurasi sebesar 83,33%,
precisi sebesar 100%, recall sebesar 66,67% dan tingkat kesalahan sebesar
16,67%.
Hasil dari pengujian model yang dilakukan adalah untuk menentukan nilai
akurasi, precisi dan recall dengan confision matrix. Dalam menentukan nilai
akurasi, precisi dan recall metode pengujiannya menggunakan split validation.
Tabel 4.4. Hasil Akurasi
Presentasi Data Data
Training
Data
Testing Akurasi
95% : 5% 110 6 83,33%
90% : 10% 104 12 81,82%
85% : 15% 98 18 72,22%
80% : 20% 92 24 73,91%
75% : 25% 86 30 62,07%
70% : 30% 80 36 62,86%
45
Tabel 4.5. Hasil Presisi
Presentasi
Data
Data
Training Data Testing Precisi
95% : 5% 110 6 100%
90% : 10% 104 12 100%
85% : 15% 98 18 77,78%
80% : 20% 92 24 81,82%
75% : 25% 86 30 63,16%
70% : 30% 80 36 62,5%
Tabel 4.6. Hasil Recall
Presentasi Data Data
Training
Data
Testing Recall
95% : 5% 110 6 66,67%
90% : 10% 104 12 66,67%
85% : 15% 98 18 70%
80% : 20% 92 24 69,23%
75% : 25% 86 30 75%
70% : 30% 80 36 78,95%
Hasil pengujian tersebut didapatkan akurasi yang paling tinggi adalah
83,33% dengan precisi 100% dan recall 66,67% menggunakan data training 95%
sebanyak 110 data dan data testing 5% sebanyak 6 data. Akurasi sebesar 83,33%
termasuk kedalam kategori good classification.
46
4.3. Analisa Hasil Pengujian
Setelah melakukan pengujian pada dataset penyakit kanker, berikut adalah
analisa hasil pengujiannya:
1. Hasil pengujian yang dilakukan didapatkan akurasi yang paling tinggi adalah
83,33% dengan precisi 100% dan recall 66,67% menggunakan data training
95% sebanyak 110 data dan data testing 5% sebanyak 6 data.
2. Rata-rata selisih dari setiap rasio perbandingan data training dan data testing
adalah 4,13%
3. Dari hasil pengujian yang dilakukan menunjukkan peningkatan akurasi dari
banyaknya data training yang diujikan.semakin banyak data training yang
diujikan, semakin tinggi tingkat akurasinya.
47
BAB V
KESIMPULAN DAN SARAN
5.1. Kesimpulan
Dalam penelitian ini dilakukan pengujian model dengan menggunakan
algoritma neural network dengan menggunakan data pasien yang melakukan
pengecekan kanker payudara. Model yang dihasilkan diuji untuk mendapatkan
nilai akurasi, precision dan recall dari algoritma neural network, didapat hasil
akurasi adalah 83,33% dengan nilai precisi 100% dan nilai recall 66,67%.
Dengan demikian dari hasil pengujian dapat disimpulkan bahwa algoritma
neural network memberikan pemecahan masalah dalam diagnose penyakit kanker
payudara termasuk kedalam good classification.
5.2. Saran
Hasil pengujian menggunakan algoritma neural network diatas
menunjukan hasil yang baik, namun ada beberapa hal yang perlu dilakukan untuk
penelitian diagnose penyakit kanker yang selanjutnya. Adapun saran yang
diusulkan:
1. Adanya penelitian lebih lanjut dengan menggunakan dataset yang lebih
banyak dan lebih baik.
2. Dapat digunakan untuk studi kasus lain tidak hanya dalam bidang
kesehatan tetapi juga pada bidang yang lain.
48
DAFTAR PUSTAKA
ACM. 2006. ACM SIGKDD, Data Mining Curriculum.
Amalia, Hilda. 2018. Perbandingan Metode Data Mining SVM dan NN Untuk
Klasifikasi Penyakit Ginjal Kronis. Jurnal PILAR Nusa Mandiri. Vol. 14
No. 1. AMIK BSI Jakarta.
Aprilia, C Dennis dkk. 2013. Belajar Data Mining Dengan Rapid Miner. Jakarta.
Gramedia Pustaka Utama.
CancerHelps. 2010. Stop Kanker. Jakarta. AgroMedia Pustaka.
Ellis,. Schnitt, et al. 2003. WHO Classification of Tumours of the Breast. Lyon.
IARC Press.
Giudici & Figini. 2009. Applied Data Mining for Bussiness and Industry.
Chicester. Jhon Wiley & Sons, Ltd.
Gorunescu, Florin. 2011. Data Mining : Concepts, Models, and Techniques.
Verlag Berlin Heidelberg. Springer.
Han, j., Kamber, M., 2006. Data Mining: Concepts and Techniques Second
Edition. San Fransisco. Morgan Kaufmann publisher.
Larose, Daniel T. 2005. Discovering Knowledge in Data: An Introduction to Data
Mining. Jhon Willey & Sons. Inc.
Muis, Saludin. 2017. Jaringan Syaraf Tiruan: Sistem Kecerdasan Tiruan Dengan
Kemampuan Belajar dan Adaptasi. Yogyakarta. Teknosain.
Naviri. 2016. Kesehatan dan Kecantikan Payudara. Jakarta. Elex Media
Komputindo.
Primartha, Rifkie. 2018. Belajar Machine Learning Teori dan Praktek. Bandung.
Informatika.
Ramanda, Kresna. 2015. Algoritma Neural Network Untuk Memprediksi
Kelahiran Premature. Seminar Nasional Inovasi and Tren. STMIK Nusa
Mandiri Jakarta.
49
Rifai, Bakhtiar. 2013. Algoritma Neural Network untuk Prediksi Penyakit
Jantung. Techno Nusa Mandiri. Vol. IX No. 1. AMIK Bina Sarana
Informatika Jakarta.
Rostia, CH. 2012. Solusi Cerdas Mencegah dan Mengobati Kanker. Jakarta.
AgroMedia Pustaka.
Rudianto. 2016. Penentuan Penyakit Peradangan Hati Dengan Menggunakan
Neural Network Backpropagation. Indonesian Journal on Computer and
Information Technology. Vol 1 No 1. AMIK Bina Sarana Informatika
Jakarta.
Suyanto. 2017. Data Mining Untuk Klasifikasi dan Klasterisasi Data. Bandung.
Informatika.
50
LAMPIRAN
Breast Cancer Coimbra Dataset
51
52
53
DAFTAR RIWAYAT HIDUP
DATA PRIBADI
1. Nama Lengkap : Ilham Nur Wiaji
2. Tempat, Tanggal Lahir : Pemalang, 27 Februari 1995
3. Alamat : Desa Bulu RT 05/ RW 01
Kec. Petarukan, Kab. Pemalang
4. Jenis Kelamin : Laki-laki
5. Agama : Islam
6. Kebangsaan : Indonesia
7. Telepon / Hp : 0858 6785 6574
8. Email : [email protected]
RIWAYAT PENDIDIKAN
1. SDN 02 Bulu, Pemalang tahun 2001/2007.
2. SMP Negeri 5 Petarukan, Pemalang tahun 2007/2010.
3. SMK Negeri 1 Petarukan, Pemalang tahun 2010/2013.
4. Sekolah Tinggi Teknologi Pelita Bangsa Progam Studi Teknik Informatika
Angkatan 2014.