SKRIPSI ANALISA ALGORITMA NEURAL NETWORK UNTUK …

SKRIPSI

ANALISA ALGORITMA NEURAL NETWORK UNTUK KLASIFIKASI

KANKER PAYUDARA MENGGUNAKAN BREAST CANCER COIMBRA

DATASET

Diajukan untuk memenuhi salah satu syarat memperoleh gelar

Sarjana Teknik Informatika

Disusun Oleh :

ILHAM NUR WIAJI

311421205

SEKOLAH TINGGI TEKNOLOGI

PELITA BANGSA

BEKASI

2018

iv

ABSTRAK

Semakin meningkatnya kasus penyakit kanker yang ada di dunia,

membuktikan bahwa penyakit kanker merupakan jenis penyakit yang tergolong

ganas. Bertambahnya angka kematian setiap tahunnya akibat kanker, terutama

kanker payudara. Peningkatan kasus kanker payudara ini memerlukan suatu

langkah untuk upaya penanggulangan dan pencegahan dini dengan cara

melakukan diagnosa dini terhadap penyakit kanker payudara. Dalam penelitian ini

akan dilakukan diagnosa dini penyakit kanker payudara menggunakan proses data

mining, yaitu berupa klasifikasi kanker payudara. Algoritma yang digunakan

adalah neural network.

Algoritma neural network mempunyai kelebihan pada kemampuan belajar

yang dimilikinya, suatu jaringan yang memodelkan sistem saraf otak manusia

dalam melaksanakan tugas pengenalan pola khususnya klasifikasi. Hasil

pengujian yang didapat dengan klasifikasi algoritma neural network terhadap data

penyakit kanker payudara berupa akurasi sebesar 83,33%, presisi 100% dan recall

66,67%.

Kata Kunci : Kanker Payudara, Klasifikasi, Neural Network

v

ABSTRACT

Increasing cases of cancer in the world, prove that cancer is a type of

disease that is classified as malignant. Increases in mortality each year due to

cancer, especially breast cancer. This increase in breast cancer cases requires a

step towards early prevention and prevention efforts by making an early diagnosis

of breast cancer. In this study an early diagnosis of breast cancer will be carried

out using the data mining process, which is a classification of breast cancer. The

algorithm used is a neural network.

Neural network algorithms have advantages in their learning abilities, a

network that models the nervous system of the human brain in carrying out

pattern recognition tasks, especially classification. The test results obtained with

the classification of neural network algorithms on breast cancer data in the form

of accuracy of 83.33%, 100% precision and recall of 66.67%.

Keyword : Breast Cancer, Classification, Neural Network

vi

KATA PENGANTAR

Dengan memanjatkan puji dan syukur kehadirat Allah SWT, sehingga

penulis dapat menyelesaikan Skripsi ini dengan judul “ANALISA ALGORITMA

NEURAL NETWORK UNTUK KLASIFIKASI KANKER PAYUDARA

MENGGUNAKAN BREAST CANCER COIMBRA DATASET”. Yang

merupakan syarat dalam menyelesaikan Program Studi Sl pada Program Studi

Teknik Informatika, Sekolah Tinggi Teknologi Pelita Bangsa. Selama penulisan

skripsi ini penulis mendapat banyak bantuan dan bimbingan dari berbagai pihak,

untuk itu pada kesempatan ini penulis mengucapkan terima kasih yang sebesar-

besarnya. pada :

1. Orang tua dan istri saya telah banyak memberikan dukungan maupun do'a

kepada saya sehingga semua dapat berjalan dengan lancar.

2. Dr. Ir. Supriyanto, M.P., selaku Ketua Sekolah Tinggi Teknologi Pelita

Bangsa.

3. Aswan Supriyadi Sunge, S.E, M.Kom., selaku Ketua Program Studi

Teknik Informatika Sekolah Tinggi Teknologi Pelita Bangsa.

4. Bapak Yoga Religia, S.Kom, M.Kom selaku Dosen Pembimbing I

5. Bapak Nanang Tedi, MT. selaku Dosen Pembimbing II.

6. Seluruh Dosen Teknik Informatika.

7. Teman-teman STT Pelita Bangsa angkatan 2014.

8. Semua pihak yang telah membantu penulis dalam menyelesaikan Skripsi.

Penulis sadar bahwa tentunya dalam penulisan skripsi ini masih banyak

terdapat kekurangan untuk itu saran dan kritik dari pembaca yang sifatnya

membangun sangat diharapkan, demi pengembangan kemampuan penulis ke

depan.

vii

DAFTAR ISI

Halaman

HALAMAN JUDUL

LEMBAR PERSETUJUAN ................................................................................ i

LEMBAR PENGESAHAN ................................................................................ ii

LEMBAR PERNYATAN KEASLIAN SKRIPSI ........................................... iii

ABSTRAK ......................................................................................................... iv

ABSTRACT .......................................................................................................... v

KATA PENGANTAR ........................................................................................ vi

DAFTAR ISI ...................................................................................................... vii

DAFTAR TABEL ................................................................................................ x

DAFTAR GAMBAR .......................................................................................... xi

BAB I PENDAHULUAN

1.1 Latar Belakang ..................................................................................... 1

1.2 Identifikasi Masalah ............................................................................. 4

1.3 Rumusan Masalah ................................................................................ 5

1.4 Batasan Masalah ................................................................................... 5

1.5 Tujuan Penelitian ................................................................................. 5

1.6 Manfaat Penelitian ............................................................................... 6

1.7 Sistematika Penulisan .......................................................................... 6

BAB II LANDASAN TEORI

2.1 Penelitian Terdahulu ............................................................................ 8

viii

2.1.1 Tinjauan Jurnal Pertama ............................................................. 8

2.1.2 Tinjauan Jurnal Kedua ............................................................... 8

2.1.3 Tinjauan Jurnal Ketiga ............................................................... 9

2.1.4 Tinjauan Jurnal Keempat ........................................................... 9

2.2 Kajian Teori ........................................................................................ 10

2.2.1 Pengertian Kanker Payudara .................................................... 10

2.2.2 Terbentuknya Kanker Payudara ............................................... 10

2.2.3 Pengertian Data Mining .......................................................... 11

2.2.4 Pengertian Neural Network ...................................................... 15

2.2.5 Confusion Matriks .................................................................... 22

2.2.6 Rapidminer ............................................................................... 23

2.2.7 Split Validation ........................................................................ 26

2.2.8 Kerangka Pemikiran ................................................................. 27

BAB III METODOLOGI PENELITIAN

3.1 Instrumental Data ............................................................................... 28

3.1.1 Perangkat Lunak (Software) ...................................................... 28

3.1.2 Perangkat Keras (Hardware) .................................................... 28

3.2 Jenis Data ........................................................................................... 29

3.3 Metode Pengumpulan Data ................................................................ 30

3.4 Metode Yang Diusulkan ..................................................................... 30

3.5 Evaluasi dan Validasi ......................................................................... 32

BAB IV HASIL DAN PEMBAHASAN

4.1 Langkah Perhitungan .......................................................................... 33

ix

4.1.1 Metode Yang Diusulkan ........................................................... 34

4.1.2 Langkah Pengujian Rapidminer ............................................... 35

4.2 Hasil Pengujian .................................................................................. 40

4.3 Analisa Hasil Pengujian ..................................................................... 46

BAB V KESIMPULAN DAN SARAN

5.1 Kesimpulan ........................................................................................ 47

5.2 Saran .................................................................................................... 47

DAFTAR PUSTAKA ......................................................................................... 49

LAMPIRAN

Breast Cancer Coimbra Dataset ....................................................................... 51

x

DAFTAR TABEL

Halaman

Tabel 2.1 Perbandingan Saraf Biologi dengan NN .............................................. 10

Tabel 2.2 Model Confusion Matriks .................................................................... 12

Tabel 3.1 Pembagian Data ................................................................................... 13

Tabel 3.2 Evaluasi Pengujian ............................................................................... 14

Tabel 4.1 Nilai Bobot Input Dengan Hidden Layer ............................................. 20

Tabel 4.2 Nilai Bobot Hidden Layer Dengan Output Target ............................... 24

Tabel 4.3 Confusion Matrik Hasil Pengujian ........................................................ 25

Tabel 4.4 Hasil Akurasi ........................................................................................ 25

Tabel 4.5 Hasil Presisi .......................................................................................... 26

Tabel 4.6 Hasil Recall ........................................................................................... 26

xi

DAFTAR GAMBAR

Halaman

Gambar 2.1 Model Biologi Neuron ....................................................................... 8

Gambar 2.2 Kerangka Pemikiran ......................................................................... 15

Gambar 3.1 Diagram Split Validation ................................................................. 16

Gambar 4.1 Model Algoritma Neural Network ................................................... 17

Gambar 4.2 Model Pengujian .............................................................................. 19

Gambar 4.3 Tampilan Awal Rapidminer ............................................................. 23

Gambar 4.4 Menu Utama Sebelum Proses .......................................................... 24

Gambar 4.5 Tampilan Utama New Proses ........................................................... 27

Gambar 4.6 Tampilan Main Proses Read Excel .................................................. 30

Gambar 4.7 Tampilan Data Import Wizard ......................................................... 31

Gambar 4.8 Finish Data Import Wizard ............................................................... 34

Gambar 4.9 Tampilan Split Validasi ..................................................................... 36

Gambar 4.10 Menu Aplly Model ......................................................................... 38

Gambar 4.11 Tombol Run..................................................................................... 39

Gambar 4.12 Tampilan Hasil Pengujian .............................................................. 40

Gambar 4.13 Rasio Split Validasi ........................................................................ 41

Gambar 4.14 Arsitektur Neural Network ............................................................. 42

1

BAB I

PENDAHULUAN

1.1 Latar Belakang

Penyakit Kanker merupakan suatu penyakit yang paling ditakuti oleh

masyakat karena proses penyembuhannya yang sulit, efek yang ditimbulkan dan

perlunya biaya yang cukup besar untuk pengobatan dan juga perawatan

(CancerHelps, 2010). Kanker dapat menimpa setiap orang di dunia ini. Tubuh

setiap manusia memiliki sel kanker yang ada sejak lahir, namun tidak selalu

bahwa setiap orang positif mengidap penyakit kanker. Ada beberapa faktor yang

menyebabkan meningkatnya resiko kanker pada diri seseorang seperti terpaparnya

bahan kimia dari asap rokok atau dari industri (dalam kurun yang waktu lama),

penyinaran yang berlebihan (sinar radio aktif, sinar ultraviolet, sinar X dan

radiasi), adanya jenis virus yang berhubungan erat dengan perubahan sel normal

menjadi sel kanker, hormon dan makanan. Kenyataanya dari sejumlah penelitian

dapat diketahui bahwa pemberian hormon tertentu secara berlebihan tidak baik

untuk tubuh dan dapat menyebabkan meningkatnya beberapa jenis resiko penyakit

kanker seperti Kanker Panyudara dan beberapa kanker lainnya (Rostia Ch, 2012).

Kanker payudara adalah kanker invasif yang paling umum terjadi pada

wanita di seluruh dunia. Sebelum membahas tentang kanker payudara atau Breast

Cancer, perlu diketahui pengertian payudara. Payudara adalah organ tubuh yang

letaknya di permukaan bagian dada, sehingga apabila terjadi kelainan seperti

tumor dapat mudah diketahui oleh penderita itu sendiri maupun dokter saat

melakukan pemeriksaan, namun kenyataannya penderita kanker payudara pada

2

stadium awal tidak merasakan sakit apapun tapi muncul benjolan kecil yang tidak

dihiraukan oleh penderita. Menurut statistik data di Laboraturium Patologi

Anatomi yang ada di seluruh Indonesia, penyakit Kanker Payudara menduduki

peringkat kedua terganas setelah Kanker Serviks (kanker mulut rahim) yang

diidap oleh para wanita Indonesia (Naviri, 2016).

Kanker payudara mencakup 16 persen dari semua jenis kanker yang

menyerang wanita, dan 22,9 persen dari semua jenis kanker invasif yang

menyerang wanita. WHO memasukkan kanker payudara ke dalam kategori

international classification of disease. Kanker payudara juga dapat menyerang

kaum pria meski lebih sering terjadi pada wanita. Sebanyak 30,35 persen kanker

payudara menyerang wanita berusia 40-49 tahun. Badan Kesehatan Dunia (WHO)

menyatakan bahwa 8-9 persen wanita akan mengalami kanker payudara. Hal itu

menjadikan kanker payudara sebagai jenis kanker yang paling banyak ditemui

pada wanita. Setiap tahun, lebih dari 250.000 kasus baru kanker payudara

terdiagnosa di Eropa, dan sekitar 175.000 di Amerika Serikat. Masih menurut

WHO pada tahun 2000 ada sekitar 1,2 juta wanita terdiagnosa kanker payudara,

dan lebih dari 700.000 meninggal karenanya (Naviri, 2016).

Belum ada data statistik akurat mengenai kanker payudara di Indonesia,

namun berdasarkan data yang terkumpul dari rumah sakit, ditemukan kenyataan

bahwa kanker payudara menduduki posisi pertama diantara kanker lain yang

menyerang wanita. Data WHO menyebutkan, bahwa penduduk di negara-negara

industri memiliki risiko kanker yang besar. Indonesia sudah mulai masuk menjadi

3

negara industri. Kanker payudara, saat ini diperkirakan rasionya 1 banding 1.000

penduduk positif kanker payudara (Naviri, 2016).

Menakutkannnya kanker payudara bukan hanya kenyataan bahwa setiap

wanita bisa dibilang memiliki risiko untuk mengalaminya, namun juga kenyataan

bahwa penyakit ini tampaknya terus meningkat dari tahun ke tahun. Jika tidak ada

perbaikan signifikan dari faktor gaya hidup dan kemajuan teknik pengobatan, para

ahli memperkirakan pada tahun 2024 nanti, satu dari tujuh wanita akan terkena

kanker payudara. Angka kematian yang terus meningkat dari kasus kanker

payudara membutuhkan perhatian khusus untuk upaya pencegahan dini dan

penanggulanan dengan diagnosa gejala awal kanker payudara (Naviri, 2016).

Diagnosa dini penyakit kanker payudara atau breast cancer dapat

dilakukan dengan metode data mining. Proses data mining bertujuan untuk

menguraikan temuan baru di dalam dataset dan menjelaskan suatu proses yang

menggunakan teknik statistik, matematis, artificial intellegence, dan machine

learning untuk melakukan ekstrak dan identifikasi informasi yang bermanfaat dan

pengetahuan yang terkait dari database tersebut (Suyanto, 2017). Proses data

mining dapat dilakukan menggunakan beberapa metode yaitu asosiasi, clustering,

klasifikasi dan prediksi. Penelitian ini penulis berfokus pada proses data mining

menggunakan metode klasifikasi dengan memanfaatkan algoritma neural network.

Algoritma neural network adalah algoritma yang memiliki kemampuan

adaptive learning, yaitu kemampuan untuk melakukan kegiatan yang didasarkan

atas data yang diberikan pada saat pembelajaran atau dari pengalaman

sebelumnya. Kelebihan neural network terletak pada kemampuan belajar yang

4

dimilikinya, dengan kemampuan tersebut neural network mampu digunakan untuk

menyelesaikan masalah yang rumit atau masalah yang terdapat kaidah atau funsi

yang tidak diketahui (Rifkie Primartha, 2018).

Beberapa penelitian terkait dengan algoritma neural network telah banyak

dilakukan, diantaranya oleh Bakhtiar Rifai (2013) yang berjudul algoritma neural

network untuk prediksi penyakit jantung. Dalam penelitian tersebut dilakukan

pengujian model dengan menggunakan algoritma neural network dengan

menggunakan data pasien yang melakukan pengecekan penyakit jantung. Model

yang dihasilkan diuji untuk mendapat nilai accuracy, precission, recall dari

algoritma, sehinggan didapatkan hasil pengujian tersebut dengan accuracy sebesar

91,45%, precission sebesar 92,79%, dan recall sebesar 94,27%, termasuk ke

dalam excellent classification (Gorunescu, 2011).

Bedasarkan uraian diatas, penulis akan menganalisis breast cancer

Coimbra data set yang diperoleh dari UCI Machine Learning Repository untuk

memprediksi diagnosa kanker payudara menggunakan algoritma neural network.

1.2 Identifikasi Masalah

Identifikasi masalah berdasarkan uraian diatas adalah:

1. Meningkatnya jumlah penderita kanker payudara setiap tahunnya

2. Terlambatnya diagnosa kanker payudara

3. Meningkatnya jumlah kematian akibat kanker payudara

4. Bagaimana pola data mining dapat memprediksi diagnosa kanker

payudara.

5

5. Berapa tingkat keakuratan prediksi diagnosa kanker payudara dengan data

mining.

1.3 Rumusan Masalah

Berdasarkan latar belakang, maka dapat ditarik permasalahan yang akan

dibahas dalam penelitian ini adalah bagaimana melakukan klasifikasi data breast

cancer Coimbra dengan menggunakan algoritma neural network.

1.4 Batasan Masalah

Batasan masalah bedasarkan uraian di atas adalah :

1. Data diagnosa kanker payudara yang digunakan adalah data dari

University of Coimbra, UCI Machine Learning Repository yaitu Breast

cancer Coimbra data set yang berjumlah 116 data.

2. Penerapan algoritma neural network menghasilkan kemungkinan “healty”

(sehat) dan “pasient” (pasien).

3. Hasil pengukuran yang diperoleh adalah akurasi, precission dan recall.

1.5 Tujuan Penelitian

Tujuan penelitian yang diharapkan adalah untuk mengetahui tingkat

akurasi, precission dan recall algoritma neural network dalam memprediksi

diagnosa kanker payudara berdasarkan data breast cancer Coimbra.

6

1.6 Manfaat Penelitian

Penelitian ini semoga bermanfaat :

1. Bagi penulis

a. Menambah wawasan untuk pengetahuan penulis tentang algoritma

neural network untuk prediksi diagnosa kanker payudara.

b. Menerapkan ilmu yang telah didapat selama kuliah.

2. Bagi pembaca

Dapat digunakan sebagai informasi dan tambahan pengetahuan

tentang prediksi diagnosa kanker payudara.

3. Bagi akademik

Dapat dijadikan tolak ukur sejauh mana pemahaman dan

penguasaan materi kuliah yang diberikan selama perkuliahan di Sekolah

Tinggi Teknologi Pelita Bangsa.

1.7 Sistematika Penulisan

Sistematika dalam penulisan skripsi ini, disusun dengan urutan sebagai

berikut :

BAB I PENDAHULUAN

Bab satu berisi penjelasan mengenai latar belakang masalah, identifikasi

masalah, rumusan masalah, batasan masalah, tujuan dan manfaat, serta sistematika

penulisan yang di maksudkan agar dapat memberikan gambaran tentang urutan

pemahaman dalam menyajikan laporan ini.

7

BAB II LANDASAN TEORI

Bab dua membahas mengenai landasan teori yang digunakan untuk

menganalisis masalah dan teori yang dipakai dalam mengolah data penelitian

yaitu teori mengenai klasifikasi neural network dan data mining dan lain-lain.

BAB III METODE PENELITIAN

Tahapan penelitian terdiri dari pengumpulan data dari perusahaan ,

membuat fungsi klasifikasi, dan evaluasi hasil.

BAB IV HASIL DAN PEMBAHASAN

Pada tahap ini membahas tentang pembahasan langkah perhitungan dari

data, jenis data, metode pengumpulan data, model yang diusulkan, dan evaluasi

dari hasil perhitungan.

BAB V KESIMPULAN DAN SARAN

Bab ini menjelaskan tentang kesimpulan yang diperoleh dari hasil analisis

metode neural network dan kesimpulan dari hasil perhitungan.

8

BAB II

LANDASAN TEORI

2.1 Penelitian Terdahulu

Penelitian terkait dalam penelitian ini adalah tentang algoritma neural

network dan metode pengujian confusion matriks.

2.1.1 Kajian Jurnal Pertama

“Penentuan penyakit peradangan hati dengan menggunakan algoritma

neural network” ditulis oleh Rudianto pada tahun 2016. Dalam penelitian tersebut

masalah yang terjadi adalah bagaimana melakukan klasifikasi diagnosa penyakit

peradangan hati dengan data mining menggunakan metode klasifikasi dengan

algoritma neural network. Mencari network terbaik adalah dengan cara merubah

jumlah neuron pada lapisan tersembunyi secara trial dan error sehingga di

dapatkan konfigurasi terbaik. Metode pengujian menggunakan confusion matriks

sehingga mendapat kesimpulan dengan akurasi 84,62%, presisi 86,36%, dan

recall 92,68%.

2.1.2 Kajian Jurnal Kedua

Jurnal Hilda Amalia yang ditulis pada tahun 2018 berjudul “Perbandingan

metode data mining neural network dan support vector machine untuk klasifkasi

penyakit ginjal kronis”. Masalah yang terjadi adalah bagaimana pengolahan

dataset penyakit ginjal kronis dengan menggunakan algoritma neural network dan

dibandingkan dengan algoritma lain. Penelitian tersebut melakukan pengolahan

data untuk memperoleh metode mana yang memiliki nilai akurasi yang lebih

9

tinggi. Menggunakan metode klasifikasi algoritma neural network dan support

vector machine. Metode pengujian dengan confusion matriks dengan akurasi

algoritma neural network sebesar 93, 36%, presisi 97,95%, dan recall 93,18%.

Disimpulkan bahwa kinerja algoritma neural network lebih baik dari pada

algoritma support vector machine.

2.1.3 Kajian Jurnal Ketiga

Penelitian yang dilakukan oleh Bakhtiar Rifai pada tahun 2013 yang

berjudul “Algoritma neural network untuk prediksi penyakit jantung”. Dalam

penelitian tersebut dilakukan pengujian model dengan menggunakan algoritma

neural network dengan menggunakan data pasien yang melakukan pengecekan

penyakit jantung. Model yang dihasilkan diuji untuk mendapat nilai accuracy,

precission, recall dari algoritma, sehinggan didapatkan hasil pengujian tersebut

dengan accuracy sebesar 91,45%, precission sebesar 92,79%, dan recall sebesar

94,27%.

2.1.4 Kajian Jurnal Keempat

Pada penelitian sebelumnya yang dilakukan oleh Wati Erawati pada tahun

2015 yang berjudul “Prediksi penyakit hati dengan menggunakan model algoritma

neural network”. Permasalahan yang dapat dirumuskan adalah seberapa akurat

model algoritma neural network memecahkan masalah dalam prediksi penyakit

hati. Hasil akurasi dapat dilihat dengan model algoritma neural network

10

menghasilkan akurasi sebesar 70,99%. Sehingga dapat disimpulkan bahwa

algoritma neural network memberika pelatihan yang cukup baik.

2.2 Kajian Teori

Kajian teori dalam penelitian ini adalah tentang kanker payudara, data

mining, algoritma neural network, backprogation, rapidminer, split validation,

dan metode pengujian confusion matrik.

2.2.1 Pengertian Kanker Payudara

Menurut Naviri (2016) kanker payudara adalah sekelompok sel kanker

yang dapat tumbuh berkembang, menyerang jaringan dan menyebar yang dimulai

pada sel-sel payudara. Kanker payudara bisa menyerang siapa saja dengan

berbagai latar belakang. Penyakit ini juga menyerang pria, namun pada umumnya

kebanyakan wanita yang terserang kanker payudara.

Menurut Ellis Schnitt et al (2003) Kanker payudara adalah pertumbuhan

sel yang abnormal pada jaringan payudara seseorang. Payudara wanita terdiri dari

lobulus (kalenjar susu), duktus (saluran susu), lemak dan jaringan ikat, pembuluh

darah dan limfe. Sebagian besar kanker payudara bermula pada sel-sel yang

melapisi duktus, beberapa di lobulus, serta sebagian kecil bermula di jaringan lain.

2.2.2 Terbentuknya Kanker Payudara

Menurut naviri (2016) Kanker dimulai dari tumbuhnya sel-sel kanker. Sel-

sel kanker dapat menyumbat semua jaringan dan organ tubuh, termasuk payudara.

Bagian-bagian tubuh, termasuk payudara memiliki sel-sel normal, sel-sel normal

11

itu tumbuh dan membelah untuk membentuk sel-sel baru saat dibutuhkan. Ketika

sel-sel normal telah menjadi tua atau rusak, sel-sel tersebut digantikan sel-sel baru

yang menempati tempat mereka sebelumnya, namun proses itu kadang tidak

berjalan seperti seharusnya. Sel-sel baru terbentuk ketika tubuh tidak

membutuhkannya, sementara sel-sel yang tua dan rusak tidak mati seperti seperti

seharusnya. Mereka membentuk sebuah jaringan yang sering disebut tumor.

Tumor adalah kumpulan jaringan tidak normal, yang disebabkan oleh sel-sel yang

membelah lebih banyak dari seharusnya, atau yang tidak mati.

2.2.3 Pengertian Data Mining

Data mining merupakan gabungan sejumlah disiplin ilmu computer yang

didefinisikan sebagai proses penemuan pola pola baru dari kumpulan-kumpulan

data sangat besar, meliputi metode-metode yang merupakan irisan dari artificial

intelligence, machine learning, statistics, dan database systems (ACM, 2006).

Data Mining merupakan analisis dari peninjauan kumpulan data untuk

menemukan hubungan ynag tidak diduga dan meringkas data dengan cara yang

berbeda dengan sebelumnya, yang dapat dipahami dan bermanfaat bagi pemilik

data.(Larose, 2005).

Data Mining merupakan bidang dari beberapa bidang keilmuan yang

menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik, basis data,

dan visualisasi untuk penanganan permasalahan pengambilan informasi dari basis

data yang besar. (Larose, 2005).

12

Asal muasal data mining dari kata mining yang artinya tambang jika

dikembangkan menggali data yang telah lampau. Data mining merupakan proses

terpadu dari analisis data yang terdiri dari serangkaian kegiatan yang berjalan

berdasarkan definisi tujuan yang akan dianalisis, dengan analisis datanya sampai

interpretasi dan evaluasi hasil (Giudici & Figini, 2009).

Pengumpulan data mining bukan sekedar terkumpul data saja tetapi

mencakup analisis dan prediksi dari informasi yang ingin ditampilkan. Data yang

dikumpulkan disimpan dalam database kemudian diproses sehingga dapat

dijadikan untuk pengambilan keputusan dalam melihat informasi yang akan

digunakan. Data mining dan Knowledge Discovery in Databases (KDD) sering

kali digunakan secara bergantian dalam menjelaskan proses penggalian informasi

dalam basis data yang sangat besar akan tetapi berkaitan satu sama yang lain,

skema proses KDD (Han & Kamber, 2006).

Tahapan Data mining

Menurut Han & Kamber (2006) Dari tahapan proses KDD adalah data

mining, tahapanya adalah sebagai berikut:

1. Data Selection

a) Menciptakan himpunan data target , pemilihan himpunan data, atau

memfokuskan pada subset variabel atau sampel data, dimana

penemuan (discovery) akan dilakukan.

b) Pemilihan (seleksi) data dari sekumpulan data operasional perlu

dilakukan sebelum tahap penggalian informasi dalam KDD

13

dimulai. Data hasil seleksi yang akan digunakan untuk proses data

mining, disimpan dalam suatu berkas, terpisah dari basis data

operasional.

2. Pre-processing/ Cleaning

a) Pemprosesan pendahuluan dan pembersihan data merupakan

operasi dasar seperti penghapusan noise dilakukan.

b) Sebelum proses data mining dapat dilaksanakan, perlu dilakukan

proses cleaning pada data yang menjadi fokus KDD.

c) Proses cleaning mencakup antara lain membuang duplikasi data,

memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada

data, seperti kesalahan cetak (tipografi).

d) Dilakukan proses enrichment, yaitu proses “memperkaya” data

yang sudah ada dengan data atau informasi lain yang relevan dan

diperlukan untuk KDD, seperti data atau informasi eksternal.

3. Transformation

a) Pencarian fitur-fitur yang berguna untuk mempresentasikan data

bergantung kepada goal yang ingin dicapai.

b) Merupakan proses transformasi pada data yang telah dipilih,

sehingga data tersebut sesuai untuk proses data mining. Proses ini

merupakan proses kreatif dan sangat tergantung pada jenis atau

pola informasi yang akan dicari dalam basis data.

14

4. Data mining

a) Pemilihan tugas data mining; pemilihan goal dari proses KDD

misalnya klasifikasi, regresi, clustering, dan lain-lain.

b) Pemilihan algoritma data mining untuk pencarian (searching).

c) Proses Data mining yaitu proses mencari pola atau informasi

menarik dalam data terpilih dengan menggunakan teknik atau

metode tertentu. Teknik, metode, atau algoritma dalam data mining

sangat bervariasi. Pemilihan metode atau algoritma yang tepat

sangat bergantung pada tujuan dan proses KDD secara

keseluruhan.

5. Interpretation/ Evaluation

a) Penerjemahan pola-pola yang dihasilkan dari data mining.

b) Pola informasi yang dihasilkan dari proses data mining perlu

ditampilkan dalam bentuk yang mudah mimengerti oleh pihak yang

berkepentingan.

c) Tahap ini merupakan bagian dari proses KDD yang mencakup

pemeriksaan apakah pola atau informasi yang ditemukan

bertentangan dengan fakta atau hipotesa yang ada sebelumnya.

Kegunaan Data Mining

Menurut Fayyad et al yang dikutip oleh suyanto (2017), kegunaan data

mining dibagi menjadi dua: deskriptif dan prediktif. Deskriptif berarti data mining

digunakan untuk mencari pola-pola yang dapat dipahami manusia, yang

15

menjelaskan karakteristik data. Prediktif berarti data mining digunakan untuk

membentuk sebuah model pengetahuan yang akan digunakan untuk melakukan

prediksi. Berdasarkan fungsionalitasnya, tugas-tugas data mining bisa

dikelompokkan ke dalam enam kelompok berikut ini (suyanto, 2017):

1. Klasifikasi (classification): men-generalisasi struktur yang diketahui untuk

diaplikasikan pada data-data baru. Misalkan, klasifikasi penyakit ke dalam

sejumlah jenis.

2. Klasterisasi (classtering): mengelompokkan data yang tidak diketahui

label kelasnya ke dalam sejumlah kelompok tertentu sesuai ukuran

kemiripannya.

3. Regresi (regression): menemukan suatu fungsi yang memodelkan data

dengan galat (kesalahan prediksi) seminimal mungkin.

4. Deteksi anomali (anomaly detection): mengidentifikasikan data yang tidak

umum, bisa berupa outlier (pencilan),perubahan atau deviasi yang

mungkin sangat penting dan perlu investigasi lebih lanjut.

5. Pembelajaran aturan asosiasi (association rule mining) atau pemodelan

kebergantungan (dependency modeling): mencari relasi antar variable.

6. Perangkuman ( summarization): menyediakan representasi data yang lebih

sederhana, meliputi visualisasi dan pembuatan laporan.

2.2.4 Pengertian Neural Network

Menurut suyanto (2017), neural network adalah suatu jaringan yang

memodelkan sistem saraf otak manusia (disebut neuron) dalam melaksanakan

16

tugas pngenalan pola, khususnya klasifikasi. Pemodelan ini didasari oleh

kemamampuan otak manusia dalam mengorganisir neuron sehingga mampu

mengenali pola secara efektif. Pemodelan pada neural network jauh lebih

sederhana dibandingkan otak manusia yang sebenarnya. Banyak sistem otak

manusia yang harus diimplikasikan agar dapat dimodelkan ke dalam dunia

komputer.

Menurut Rifkie Primartha (2018) Neural network merupakan sebuah

model atau pola dalam pemrosesan informasi. Model ini terinspirasi dari sistem

biologi saraf makhluk hidup seperti pemrosesan informasi pada otak. Struktur

pemprosesan informasi ini terbentuk dari sejumlah neuron yang saling terhubung

satu sama lain dan memecahkan masalah secara bersamaan. Layaknya manusia,

neural network juga dapat belajar melalui contoh.

Gambar 2.1 : Model Biologi Neuron (Suyanto, 2017)

Neural network pertama kali diperkenalkan oleh seorang neurolog Warren

S. McCulloch dan matematikawan Walter Pitts pada tahun 1943 yang kemudian

17

dikenal sebagai McCulloch-Pitts Neuron. Neuron ini berupa simulasi operasi

logika dengan dua atau lebih input yang menghasilkan satu keluaran.Hasil dari

model ini adalah fungsi logika sederhana dalam bentuk fungsi logika Boolean

dengan operasi AND, NOT, OR, XOR, NAND, dan NOR (Rifkie Primartha, 2018).

Seperti yang telah dijelaskan di atas, Neural network bekerja dan memiliki

konstruksi layaknya otak manusia(Tabel dibawah).

Tabel 2.1 Perbandingan Saraf Biologi dengan NN

Saraf Biologi NN

Soma

Dendrit

Akson

Sinapsis

Neuron

Input

Output

Bobot

Dari tabel perbandingan saraf biologi otak dengan neural network

menunjukkan masing-masing komponen memiliki fungsi yang hampir sama satu

dengan lainnya. Sebagai contoh, bagian sinapsis pada saraf biologi. Bagian ini

berfungsi menghantarkan sinyal listrik dan memberikan pembobotan pada sinyal

tersebut. Fungsi sinapsis sama dengan pembobotan pada neural network,

menghantarkan nilai dari input neuron ke neuron berikutnya setelah dilakukan

pembobotan terlebih dahulu.

18

Backpropagation

Algoritma backpropagation merupakan bagian dari algoritma

pembelajaran terawasi yang biasanya digunakan oleh perceptron dengan banyak

lapisan untuk mengubah bobot-bobot yang terhubung dengan neuron-neuron yang

ada pada lapisan tersembunyi. Algoritma ini menggunakan error keluaran untuk

mengubah nilai bobot-bobotnya dalam arah mundur (backward). Untuk

mendapatkan error ini tahap perambatan maju (forward propagation) harus

dikerjakan terlebih dahulu. Saat perambatan maju, neuron-neuron diaktifkan

dengan menggunakan fungsi aktivasi yang dapat dideferensiasikan seperti sigmoid

(Muis, Saludin. 2017):

𝑦 = f x =

(2.1)

f ′ x = σ𝑓 x [1 − f x ] (2.2)

Atau seperti tangent sigmoid :

𝑦 = f (x) =

(2.3)

f′ (x) = [1 + f(x)] [1 – f(x)] (2.4)

Pelatihan Backpropagation dilakukan melalui langkah-langkah berikut ini :

Langkah ke-0 : Inisialisasi bobot;

Langkah ke-1 : Selama kondisi berhenti bernilai salah, kerjakan langkah 2-9;

Langkah ke-2 : Untuk setiap data training, lakukan langkah 3-8.

Umpan Maju (Feedforward)

Langkah ke-3 : Setiap unit input (𝑋𝑖 , 𝑖 = 1, … , 𝑛) menerima sinyal input 𝑥𝑖 dan

menyebarkan sinyal tersebut ke seluruh unit tersembunyi.

19

Langkah ke-4 : Pada setiap unit tersembunyi (𝑍𝑗 , j = 1, … , 𝑝), menjumlahkan

sinyal-sinyal input yang sudah berbobot (termasuk biasnya)

𝑧_𝑖𝑛𝑗 = 𝑣0𝑗 + ∑ 𝑥 𝑣 (2.5)

Lalu menghitung sinyal output dari unit tersembunyi dengan

menggunakan fungsi aktivasi yang telah ditentukan :

𝑧𝑗 = (𝑧_𝑖𝑛 ) (2.6)

Sinyal output ini selanjutnya dikirim ke seluruh unit pada unit

atas (unit output).

Langkah ke-5 : Tiap-tiap unit output (𝑌𝑘 , 𝑘 = 1, … , 𝑚), menjumlahkan bobot

sinyal input :

𝑦_𝑖𝑛𝑘 = 𝑤0𝑘 + ∑ 𝑧 𝑤 (2.7)

Lalu menghitung sinyal output dari unit output bersangkutan

dengan menggunakan fungsi aktivasi yang telah ditentukan

𝑦𝑘 = (𝑦_𝑖𝑛 ) (2.8)

Sinyal output ini selanjutnya dikirim ke seluruh unit pada output.

Umpan Mundur/ Propagasi Error (Backpropagation of Error)

Langkah ke-6 : Setiap unit output (𝑌𝑘 , 𝑘 = 1, … , 𝑚) menerima suatu pola target

yang sesuai dengan pola input pelatihan, untuk menghitung

kesalahan (error) antara target dengan output yang dihasilkan

jaringan

= ( − 𝑦 )′(𝑦_𝑖𝑛 ) (2.9)

Faktor 𝑘 digunakan untuk menghitung koreksi error (Δ𝑤 )

yang nantinya akan dipakai untuk memperbaiki 𝑤 , dimana

20

Δ𝑤 = 𝑧 (2.10)

Selain itu juga dihitung koreksi bias Δ𝑤 yang nantinya akan

dipakai untuk memperbaiki 𝑤 , dimana

Δ𝑤 = (2.11)

Faktor 𝑘 kemudian dikirimkan ke lapisan yang berada pada

langkah ke-7.

Langkah ke-7 : Setiap unit tersembunyi (𝑍𝑗 , 𝑗 = 1, … , 𝑝) menerima input delta

(dari langkah ke-6) yang sudah berbobot

_𝑖𝑛 = ∑ 𝑤 (2.12)

Kemudian hasilnya dikalikan dengan turunan dari fungsi aktivasi

yang digunakan jaringan untuk menghitung informasi kesalahan

error , dimana

= _𝑖𝑛 𝑓′(𝑧_𝑖𝑛 ) (2.13)

Kemudian hitunglah koreksi bobot (untuk memperbaiki 𝑣 )

Δ𝑣 = 𝑥 (2.14)

Setelah itu hitung koreksi bias (digunakan untuk memperbaiki

𝑣 )

Δ𝑣 = (2.15)

Update Bobot dan Bias (Adjustment)

Langkah ke-8 : Setiap unit output (𝑌𝑘 , 𝑘 = 1, … , 𝑚) memperbaiki bobot dan bias

dari setiap unit tersembunyi (𝑗 = 0, … , 𝑝)

𝑤 𝑏𝑎𝑟𝑢 = 𝑤 𝑙𝑎𝑚𝑎 + Δ𝑤 (2.16)

21

Demikian pula untuk setiap unit tersembunyi ( , 𝑗 = 1, … , 𝑝) akan

memperbaharui bobot dan bias dari setiap unit input (𝑖 = 0, … , 𝑛)

𝑣 𝑏𝑎𝑟𝑢 = 𝑣 𝑙𝑎𝑚𝑎 + Δ𝑣 (2.17)

Langkah ke-9 : Tes kondisi berhenti apabila error ditemukan jika kondisi STOP

telah terpenuhi, maka pelatihan jaringan dapat dihentikan. Untuk

memeriksa kondisi STOP, biasanya digunakan kriteria MSE

(Mean Square Error) berikut ini :

𝑀𝑆𝐸

= 0.5

× {( 𝑦 + 𝑦

+ …

+ 𝑦 } (2.18)

Pengujian Backpropagation

Pengujian backpropagation dilakukan melalui feedforward langkah-

langkahnya sebagai berikut :

Langkah 0 : Inisialisasikan bobot (dari hasil pelatihan)

Langkah 1 : Untuk setiap vektor input, kerjakan langkah 2-4

Langkah 2 : Untuk i=1,…,n: set aktivasi unit input xi

Langkah 3 : Untuk j=1,…,p:

𝑧 𝑣 ∑ 𝑥 𝑣 (2.19)

𝑧 𝑓 𝑧 𝑖𝑛 (2.20)

Langkah 4 : Untuk k=1,…,m:

𝑦 𝑖𝑛 𝑤 ∑ 𝑧 𝑤 (2.21)

22

𝑦 𝑓 𝑦 𝑖𝑛 (2.22)

2.2.5 Confusion Matriks

Confusion matrix melakukan pengujian untuk memperkirakan obyek yang

benar dan salah (gorunescu, 2011). Urutan pengujian ditabulasikan dalam

confusion matrix dimana kelas yang diprediksi ditampilkan di bagian atas matriks

dan kelas yang diamati di bagian kiri. Setiap sel berisi angka yang menunjukkan

berapa banyak kasus yang sebenarnya dari kelas yang diamati untuk diprediksi.

Table 2.2: model confusion matrix

Nilai Prediksi

Nilai Aktual

TP FN

FP TN

Keterangan :

TP = tupel postif yang diklasifikasikan positif.

TN = tupel negatif yang diklasifikasikan negatif.

FP = tupel positif yang diklasifikasikan negatif.

FN = tupel negatif yang diklasifikasikan positif.

Untuk menghitung tingkat akurasi pada matriks digunakan:

𝑘𝑢𝑟𝑎 𝑖

(2.23)

23

Sensitivitas dan spesifisitas tidak memberikan informasi untuk nilai diagnosa

yang benar. Maka perlu adanya PPV (nilai prediksi positif) dimana proporsi kasus

dengan hasil tes “positif” adalah:

(2.24)

dan membutuhkan NPV (nilai prediksi negatif) dengan proporsi kasus dengan

hasil tes “negatif” yang dituliskan pada persamaan 3.

(2.25)

Tingkat kesalahan diperoleh dari persamaan 4.

𝑖𝑛 𝑘𝑎 𝑘 𝑎𝑙𝑎 𝑎𝑛

(2.26)

Keterangan :

Positif = TP + FN

Negatif = FP + TN

2.2.6 Rapidminer

RapidMiner merupakan perangakat lunak yang bersifat terbuka (open

source). RapidMiner adalah sebuah solusi untuk melakukan analisis terhadap data

mining, text mining dan analisis prediksi. RapidMiner menggunakan berbagai

teknik deskriptif dan prediksi dalam memberikan wawasan kepada pengguna

sehingga dapat membuat keputusan yang paling baik. RapidMiner memiliki

kurang lebih 500 operator data mining, termasuk operator untuk input, output,

data preprocessing dan visualisasi. RapidMiner merupakan software yang berdiri

24

sendiri untuk analisis data dan sebagai mesin data mining yang dapat

diintegrasikan pada produknya sendiri. RapidMiner ditulis dengan munggunakan

bahasa java sehingga dapat bekerja di semua sistem operasi.

RapidMiner sebelumnya bernama YALE (Yet Another Learning

Environment), dimana versi awalnya mulai dikembangkan pada tahun 2001 oleh

RalfKlinkenberg, Ingo Mierswa, dan Simon Fischer di Artificial Intelligence Unit

dari University of Dortmund. RapidMiner didistribusikan di bawah lisensi AGPL

(GNU Affero General Public License) versi 3. Hingga saat ini telah ribuan

aplikasi yang dikembangkan mengunakan RapidMiner di lebih dari 40 negara.

RapidMiner sebagai software open source untuk data mining tidak perlu

diragukan lagi karena software ini sudah terkemuka di dunia. RapidMiner

menempati peringkat pertama sebagai Software data mining pada polling oleh

KDnuggets, sebuah portal data-mining pada 2010-2011(Aprilia C.Dennis dkk,

2013).

RapidMiner menyediakan GUI (Graphic User Interface) untuk

merancang sebuah pipeline analitis. GUI ini akan menghasilkan file

XML(Extensible Markup Language) yang mendefenisikan proses analitis

keinginan pengguna untuk diterapkan ke data. File ini kemudian dibaca oleh

RapidMiner untuk menjalankan analis secara otomatis (Aprilia C.Dennis dkk,

2013).

RapidMiner memiliki beberapa sifat sebagai berikut (Aprilia C.Dennis

dkk, 2013).:

25

1. Ditulis dengan bahasa pemegroman java sehingga dapat dijalankan di

berbagai sistem operasi.

2. Proses penemuan pengetahuan dimodelkan sebagai operator trees.

3. Representasi XML internal untuk memastikan format standar pertukaran

data.

4. Bahasa scripting memungkinkan untuk eksperiman skala besar dan

otomatisasi eksperimen.

5. Konsep multi-layer untuk menjamin tampilan data yang efisien dan

menjamin penangan data.

6. Memiliki GUI, command line mode dan Java API yang dapat dipanggil

dari program lain.

Beberapa fitur dari RapidMiner, antara lain (Aprilia C.Dennis dkk, 2013).:

1. Banyaknya algoritma data mining, seperti decision tree dan self-

organization map.

2. Bentuk grafis yang canggih, seperti tumbang tindih diagram histogram,

tree chart dan 3D scatter plots.

3. Banyaknya variasi plugin, seperti text plugin untuk melakukan analisis

teks.

4. Menyediakan prosedur data mining dan machine learning termasuk: ETL

(extraction, transformation, loading) data preprocessing, visualisasi,

modeling dan evalualisasi.

26

5. Proses data mining tersusun atas operator-operator yang nestable,

dideskripsikan dengan XML, dan dibuat dengan GUI.

6. Mengintegrasikan proyek data mining Weka dan statistic R.

2.2.7 Split Validation

Split Validation adalah teknik validasi yang membagi data menjadi dua

bagian secara acak, sebagian sebagai data training dan sebagian lainnya sebagai

data testing. Dengan menggunakan Split Validation akan dilakukan percobaan

training berdasarkan split ratio yang telah ditentukan sebelumnya, untuk

kemudian sisa dari split ratio data training akan dianggap sebagai data testing.

Data training adalah data yang akan dipakai dalam melakukan pembelajaran

sedangkan data testing adalah data yang belum pernah dipakai sebagai

pembelajaran dan akan berfungsi sebagai data pengujian kebenaran atau

keakurasian hasil pembelajaran (Aprilia C.Dennis dkk, 2013)

27

2.2.8 Kerangka Pemikiran

Kerangka pemikiran merupakan garis besar dari langkah – langkah

penelitian yang sedang dilakukan, kerangka pemikiran dijadikan acuan untuk

melakukan tahap – tahap yang sedang dilkakukan dalam penelitian.

Masalah

Bagaimana melakukanfi klasifikasi data breast cancer coimbra dengan

menggunakan algoritma neural network

Tujuan

Mengetahui tingkat akurasi, precission dan recall algoritma neural network

dalam memprediksi diagnosa kanker payudara berdasarkan data breast cancer

Coimbra

Penelitian

Tool Data Metode

Rapidminer Breast Cancer Coimbra Algoritma neural network

Hasil Yang ingin dicapai

Tingkat akurasi, presis dan recall yang diharapkan dapat memprediksi diagnosa

kanker payudara

Manfaat

Dapat digunakan sebagai informasi dan tambahan pengetahuan tentang prediksi

diagnosa kanker payudara

Gambar 2.2. Kerangka Pemikiran

Pada gambar 2.3. Menunjukkan permasalahan pada penelitian ini adalah

untuk melakukan klasifikasi pada diagnosa penyakit kanker payudara. Algoritma

yang digunakan yaitu neural network dengan metode confusion matriks.

Pengujian yang akan dilakukan menggunakan software rapidminer untuk

mempreoleh nilai akurasi, presisi dan recall.

28

BAB III

METODE PENELITIAN

3.1. Instrumental Data

Pada penelitian ini akan menggunakan instrumental peralatan yang

meliputi peralatan perangkat lunak dan peralatan perangkat keras. Adapun

masing-masing kebutuhan dari setiap peralatan adalah sebagai berikut:

3.1.1. Perangkat Lunak (Software)

a. Sistem Operasi Windows 7

Untuk mendukung penelitian, minimal dapat menggunakan sistem

operasi windows 7 dengan versi 64 bit, dikarenakan pada versi ini

sistem operasi dapat menjakankan softwere RapidMiner 8.0.

b. RapidMiner

Dalam mengimplementasikan metode yang digunakan, maka akan

digunakan softwere RapidMiner 8.0 untuk membuat model klasifikasi.

3.1.2. Perangkat Keras (Hardware)

Selain membutuhkan perangkat lunak, ada pula perangkat keras yang

dibutuhkan untuk implementasi. Adapun spesifikasi perangkat keras yang

dibutuhkan yaitu:

a. Personal komputer dengan spesifikasi minimal

CPU: Core™ i3

RAM dengan ukuran 2 GB

Harddisk dengan ukuran 500 GB

Layar monitor 14”

29

3.2. Jenis Data

Data yang digunakan dalam penelitian ini merupakan data sekunder. Data

sekunder ini merupakan data untuk mendiagnosa penyakit kanker payudara yang

diperoleh dari University of Coimbra, UCI Machine Learning Repository yaitu

Breast cancer Coimbra data set yang berjumlah 116 data. Data set diagnosa

penyakit kanker payudara yang diambil memiliki 9 atribut dan 1 class. Atribut-

atribut tersebut adalah:

1. Age: merupakan data usia dalam bentuk numeric.

2. BMI: Body Massa Index adalah indek masa tubuh manusia dengan satuan

(kg/m²). Atribut ini merupakan data numeric.

3. Glucose: Atribut ini menunjukan jumlah salah satu jenis gula darah dalam

tubuh manusia dengan satuan (mg/dL). Atribut ini merupakan data

numeric.

4. Insulin: atribut ini menunjukkan jumlah hormon insulin yaitu hormon yg

mengatur metabolisme karbohidrat dalam tubuh manusia dengan satuan

(µU/mL). Atribut ini merupakan data numeric.

5. HOMA: Homeostasis Model Assesment atribut ini merupakan penilain

model homeostasis yang dipengaruhi oleh kadar glucose dan insulin dalam

tubuh manusia. Atribut ini merupakan data numeric.

6. Leptin: atribut ini menunjukan kadar hormon leptin pada tubuh manusia

yang mempengaruhi regulasi berat tubuh dan fungsi metabolisme, dengan

satuan (ng/mL). Atribut ini merupakan data numeric.

30

7. Adiponectin: Atribut ini menunjukkan kadar hormon adiponectin yang

dihasilkan dari jaringan lemak yang mempunyai peranan penting dalam

regulasi dari metabolisme glukose dan resistensi insulin, dengan satuan

(µg/mL). Atribut ini merupakan data numeric.

8. Resistin: Atribut ini adalah data yang berisi jumlah protein kaya akan asam

amino dengan satuan (ng/mL). Atribut ini merupakan data numeric.

9. MCP.1: Monocyte Chemoattractant Protein 1 dengan satuan (pg/dL).

Atribut ini merupakan data numeric.

Dari 9 atribut yang ada akan digunakan untuk menentukan classification

dari diagnosa kanker payudara. Classification ini menunjukkan apakah “healty

control” (sehat) atau “pasient” (terdiagnosa kanker payudara).

3.3. Metode Pengumpulan Data

Data yang digunakan dalam penelitian ini merupakan data kualitatif dalam

bentuk dokumentasi. Dalam pengumpulan data-data yang dibutuhkan dalam

penelitian ini menggunakan metode studi literature (Library Research). Metode

studi literature ini dilakukan dengan cara mencari informasi mengenai

permasalahn yang diteliti berdasarkan buku-buku, jurnal, paper atau sumber lain

yang berkaitan.

3.4. Metode Yang Diusulkan

Model yang diusulkan untuk klasifikasi menggunakan algoritma neural

network adalah menggunakan model split validation. Split validation membagi

31

data menjadi dua subset data yaitu data trainning dan data testing. Data trainnning

merupakan data yang digunakan untuk pelatihan, sedangkan data testing akan

digunakan untuk pengujian. Adapun untuk melihat secara lebih jelas dari model

split validation dapat dilihat pada gambar 3.1.

Gambar 3.1. Diagram Split Validation

Dengan menggunakan model pada gambar 3.1. akan digunakan untuk

melakukan pengujian sebanyak enam kali yang masing-masing proporsi

pembagian datanya dapat dilihat pada tabel 3.1.

Tabel 3.1. Pembagian Data

Training Testing

95% 5%

90% 10%

85% 15%

80% 20%

75% 25%

70% 30%

Dari enam kali pengujian yang dilakukan berdasarkan proprosi dari tabel

3.1. setip hasil yang diperoleh akan ditentukan jumlahnya untuk diambil nilai rata-

rata.

32

3.5. Evaluasi dan Validasi

Tahapan evaluasi yang dilakukan dalam penelitian ini adalah untuk

memberikan penilaian dari hasil penggunaan algoritma neural network untuk

mengklasifikasi data diagnosa kanker payudara. Bagian yang akan dievaluasi

adalah presentase data, jumlah data training, jumlah data testing, dan nilai akurasi

yang dihasilkan. Adapun secara keseluruhan dapat dilihat pada tabel 3.2.

Tabel 3.2. Evaluasi Pengujian

Presentasi Data Data Training Data Testing Akurasi

95% : 5% 110 6 ?

90% : 10% 104 12 ?

85% : 15% 98 18 ?

80% : 20% 92 24 ?

75% : 25% 86 30 ?

70% : 30% 80 36 ?

Dari tabel 3.2. akan digunakan untuk validasi nilai akurasi, presisi dan

recall dari algoritma neural network. Dari nilai akurasi yang dihasilkan akan

ditentukan rata-rata akurasi pada masing-masing algoritma. Kemudian akan

dibandingkan model mana yang memiliki akurasi yang lebih tinggi untuk

mengklasifikasikan data diagnosa kanker payudara.

33

BAB IV

HASIL DAN PEMBAHASAN

4.1. Langkah Perhitungan

Pada tahap ini metode yang digunakan untuk menghitung berapa tingkat

akurasi dalam proses klasifikasi adalah dengan menggunakan algoritma neural

network. Algoritma neural network digunakan untuk proses training yang

kemudian diaktivasi ke dalam data testing. Berikut adalah langkah perhitungan

dengan metode neural network:

Gambar 4.1 Model Algoritma Neural Network

Pada gambar 4.1 algoritma neural network membaca dataset yang ada.

Selanjutnya membuat arsitektur neuron yang terbentuk mulai dari node input,

mulai

Data set

Proses Neural Network

Input parameter learning rate

Inisialisasi arsitektur, hitung bobot dan bias

Masukkan inisialisasi, bobot dan bias

kedalam atribut yang ada

Hasil diaktivasi ke dalam

output target

selesai

Prediksi Healty

Prediksi Pasient

34

hidden layer, bias dan node output. Algoritma neural network menentukan target

dan learning rate. Pada setiap atribut class yang ada yang digunakan untuk

menhitung setiap bobot dan error output.

4.1.1. Model Yang Diusulkan

Metode yang digunakan untuk penelitian ini adalah dengan menggunakan

algoritma neural network. Metode dengan perhitungan algoritma neural network

akan digunakan untuk mencari performance (akurasi), precission, recall dan

confusion matrix.

Gambar 4.2 Model Pengujian

Dataset Processing data

Modeling

Neural network

Data Training

Split Validation

Apply Model

Performance

Data Testing

Hasil akurasi, precision,recall dan

confusion matrix

35

4.1.2. Langkah Pengujian Rapidminer

Langkah pengujian dengan menggunakan tool rapidminer adalah sebagai

berikut:

1. Membuka Aplikasi Rapidminer

Gambar 4.3. Tampilan Awal Rapidminer

Pada tahap ini aplikasi melakukan loading, setelah loading selesai

maka muncul tampilan menu baru.

2. Tampilan Menu Utama Sebelum Proses

Gambar 4.4. Menu Utama Sebelum Proses

36

Gambar 4.4. menampilkan proses apa yang akan kita pilih. Pada tahap

ini pilih menu blank sebagai pengujian untuk dataset dan algoritmanya.

3. Tampilan Utama New proses

Gambar 4.5. Tampilan Utama New Proses

Gambar 4.5. merupakan tampilan utama proses baru yang akan

digunakan untuk pengujian. Search operator yang akan digunakan. Klik read

excel pada operator, karena data yang akan digunakan merupakan data

bertype Microsoft excel worksheet. Maka akan muncul tampilan seperti

gambar 4.6.

4. Tampilan Main Proses Read Excel

Gambar 4.6. Tampilan Main Proses Read Excel

37

Kemudian pilih import configurasi wizard untuk mengambil data yang

akan digunakan untuk pengujian. Yaitu breast cancer Coimbra dataset.

5. Data Import Wizard

Gambar 4.7. Tampilan Data Import Wizard

Pilih dataset yang akan digunakan untuk pengujian.

Gambar 4.8. Finish Data Import Wizard

Klik next jika data yang dipilih sudah benar, kemudian gambar 4.8.

merupakan tampilan finish data import wizard. Sebelum klik tombol finish

38

terlebih dahulu untuk merubah hasil keputusan atau output target sebagai label

dan jenis datanya sebagai binominal dikarenakan hanya ada dua output target

yaitu “healty” dan “pasient”.

6. Tampilan Main Proses Split Validation

Gambar 4.9. Tampilan Split Validasi

Klik 2 kali pada split validation agar muncul tampilan menu apply model.

Gambar 4.10. Menu Aplly Model

39

Gambar 4.10. menampilkan dua main proses yaitu training dan

testing. Dalam main proses training kita masukkan algoritma apa yang akan

digunakan untuk melatih dataset yang sudah dipilih. Disini peneliti

menggunakan algoritma neural network. Dalam main proses testing pilih

apply model untuk membuat model pelatihan untuk dataset dan performance

untuk menampilkan hasil akurasi, presisi dan recall.

7. Tampilan Hasil pengujian

Setelah semua operator sudah terhubung kemudian klik tombol run.

Gambar 4.11. Tombol Run

Maka akan muncul tampilan hasil pengujian seperti gambar 4.12.

Gambar 4.12. Tampilan Hasil Pengujian

40

Menampilkan akurasi, presisi dan recall dari dataset yang telah diuji.

Gambar 4.12. ini merupakan rasio dari jumlah data training sebesar 0.95 atau

95% dan data testing sebesar 0.05 atau 5%. Ubah rasio pada split validation

untuk melihat hasil pengujian dengan rasio data tasting dan data training yang

berbeda.

Gambar 4.13. Rasio Split Validation

4.2. Hasil Pengujian

Uji coba dilakukan untuk mengetahui tingkat akurasi, precisi dan recall

dari data set diagnosa penyakit kanker payudara dengan algoritma neural network

menggunakan tool rapidminer. Berikut ini adalah arsitektur neuron yang

terbentuk.

41

Gambar 4.14. Arsitektur Neural Network

Pada gambar 4.3 ada 9 node input sama seperti jumlah atribut dalam data

set, 7 hidden layer, 2 output target adalah “healty” dan “pasient”, 1 node bias dan

1 node threshold. Pada setiap node terdapat garis yang menghubungkan, garis

tersebut merupakan bobot. Berikut adalah bobot dari setiap garis yang

menghubungkan node satu dengan node yang lainnya.

42

Tabel 4.1. Nilai Bobot Input Dengan Hidden Layer

Node 1 Node 2 Node 3 Node 4 Node 5 Node 6 Node 7

Age -1.546 6.69 -4.926 -0.281 9.466 -12.017 -0.769

BMI -0.561 -0.801 -5.254 0.467 5.148 -2.617 0.145

Glucose 3.093 5.675 4.506 3.473 5.702 3.947 3.566

Insulin 3.102 3.429 5.917 2.187 2.706 -1.561 1.649

HOMA 0.718 -2.063 1.082 0.786 1.722 -1.566 0.498

Leptin -3.059 0.749 -2.957 -2.596 0.887 -0.184 -1.786

Adiponectin -0.153 -1.214 -4.539 -0.813 6.674 -0.402 -1.001

Resistin 3.854 7.36 6.289 2.607 -0.401 0.081 1.788

MCP-1 3.27 -6.705 3.529 2.624 -1.436 0.577 2.14

Bias 2.949 9.797 4.551 1.697 -0.054 3.123 1.351

Tabel 4.2. Nilai Bobot Hidden Layer Dengan Output Target

Node1 Node2 Node3 Node4 Node5 Node6 Node7 Threshold

Class

"Healty" -4.154 -6.563 -6.078 -3.031 -6.69 -5.05 -2.18 8.993

Class

"Pasient" 4.153 6.563 6.075 2.99 6.69 5.049 2.233 -8.993

Berdasarkan hasil pengujian yang telah diperoleh, akan dilakukan analisa

terhadap hasil pengujian tersebut. Dengan mengetahui jumlah data yang

diklasifikasikan benar maka dapat diketahui akurasi, precisi dan recall dengan

menggunakan confusion matriks.

43

Table 4.3. Confusion Matriks Hasil Pengujian

Hasil pengujian dari data training dan data testing dengan meggunakan

rapidminer, untuk mengetahui tingkat akurasinya adalah sebagai berikut:

Data training : 110 data

Data testing : 6 data

Data yang diprediksi benar : 5 data

Data yang diprediksi salah : 1 data

Untuk menghitung tingkat akurasi pada matriks:

Akurasi =

x 100%

= 83,33%

Precision =

x 100%

= 100%

44

Recall =

x 100%

= 66,67%

Error =

x 100%

= 16,67%

Dari perhitungan tersebut dapat disimpulkan bahwa klasifikasi dengan

menggunakan algoritma neural network menghasilkan akurasi sebesar 83,33%,

precisi sebesar 100%, recall sebesar 66,67% dan tingkat kesalahan sebesar

16,67%.

Hasil dari pengujian model yang dilakukan adalah untuk menentukan nilai

akurasi, precisi dan recall dengan confision matrix. Dalam menentukan nilai

akurasi, precisi dan recall metode pengujiannya menggunakan split validation.

Tabel 4.4. Hasil Akurasi

Presentasi Data Data

Training

Data

Testing Akurasi

95% : 5% 110 6 83,33%

90% : 10% 104 12 81,82%

85% : 15% 98 18 72,22%

80% : 20% 92 24 73,91%

75% : 25% 86 30 62,07%

70% : 30% 80 36 62,86%

45

Tabel 4.5. Hasil Presisi

Presentasi

Data

Data

Training Data Testing Precisi

95% : 5% 110 6 100%

90% : 10% 104 12 100%

85% : 15% 98 18 77,78%

80% : 20% 92 24 81,82%

75% : 25% 86 30 63,16%

70% : 30% 80 36 62,5%

Tabel 4.6. Hasil Recall

Presentasi Data Data

Training

Data

Testing Recall

95% : 5% 110 6 66,67%

90% : 10% 104 12 66,67%

85% : 15% 98 18 70%

80% : 20% 92 24 69,23%

75% : 25% 86 30 75%

70% : 30% 80 36 78,95%

Hasil pengujian tersebut didapatkan akurasi yang paling tinggi adalah

83,33% dengan precisi 100% dan recall 66,67% menggunakan data training 95%

sebanyak 110 data dan data testing 5% sebanyak 6 data. Akurasi sebesar 83,33%

termasuk kedalam kategori good classification.

46

4.3. Analisa Hasil Pengujian

Setelah melakukan pengujian pada dataset penyakit kanker, berikut adalah

analisa hasil pengujiannya:

1. Hasil pengujian yang dilakukan didapatkan akurasi yang paling tinggi adalah

83,33% dengan precisi 100% dan recall 66,67% menggunakan data training

95% sebanyak 110 data dan data testing 5% sebanyak 6 data.

2. Rata-rata selisih dari setiap rasio perbandingan data training dan data testing

adalah 4,13%

3. Dari hasil pengujian yang dilakukan menunjukkan peningkatan akurasi dari

banyaknya data training yang diujikan.semakin banyak data training yang

diujikan, semakin tinggi tingkat akurasinya.

47

BAB V

KESIMPULAN DAN SARAN

5.1. Kesimpulan

Dalam penelitian ini dilakukan pengujian model dengan menggunakan

algoritma neural network dengan menggunakan data pasien yang melakukan

pengecekan kanker payudara. Model yang dihasilkan diuji untuk mendapatkan

nilai akurasi, precision dan recall dari algoritma neural network, didapat hasil

akurasi adalah 83,33% dengan nilai precisi 100% dan nilai recall 66,67%.

Dengan demikian dari hasil pengujian dapat disimpulkan bahwa algoritma

neural network memberikan pemecahan masalah dalam diagnose penyakit kanker

payudara termasuk kedalam good classification.

5.2. Saran

Hasil pengujian menggunakan algoritma neural network diatas

menunjukan hasil yang baik, namun ada beberapa hal yang perlu dilakukan untuk

penelitian diagnose penyakit kanker yang selanjutnya. Adapun saran yang

diusulkan:

1. Adanya penelitian lebih lanjut dengan menggunakan dataset yang lebih

banyak dan lebih baik.

2. Dapat digunakan untuk studi kasus lain tidak hanya dalam bidang

kesehatan tetapi juga pada bidang yang lain.

48

DAFTAR PUSTAKA

ACM. 2006. ACM SIGKDD, Data Mining Curriculum.

Amalia, Hilda. 2018. Perbandingan Metode Data Mining SVM dan NN Untuk

Klasifikasi Penyakit Ginjal Kronis. Jurnal PILAR Nusa Mandiri. Vol. 14

No. 1. AMIK BSI Jakarta.

Aprilia, C Dennis dkk. 2013. Belajar Data Mining Dengan Rapid Miner. Jakarta.

Gramedia Pustaka Utama.

CancerHelps. 2010. Stop Kanker. Jakarta. AgroMedia Pustaka.

Ellis,. Schnitt, et al. 2003. WHO Classification of Tumours of the Breast. Lyon.

IARC Press.

Giudici & Figini. 2009. Applied Data Mining for Bussiness and Industry.

Chicester. Jhon Wiley & Sons, Ltd.

Gorunescu, Florin. 2011. Data Mining : Concepts, Models, and Techniques.

Verlag Berlin Heidelberg. Springer.

Han, j., Kamber, M., 2006. Data Mining: Concepts and Techniques Second

Edition. San Fransisco. Morgan Kaufmann publisher.

Larose, Daniel T. 2005. Discovering Knowledge in Data: An Introduction to Data

Mining. Jhon Willey & Sons. Inc.

Muis, Saludin. 2017. Jaringan Syaraf Tiruan: Sistem Kecerdasan Tiruan Dengan

Kemampuan Belajar dan Adaptasi. Yogyakarta. Teknosain.

Naviri. 2016. Kesehatan dan Kecantikan Payudara. Jakarta. Elex Media

Komputindo.

Primartha, Rifkie. 2018. Belajar Machine Learning Teori dan Praktek. Bandung.

Informatika.

Ramanda, Kresna. 2015. Algoritma Neural Network Untuk Memprediksi

Kelahiran Premature. Seminar Nasional Inovasi and Tren. STMIK Nusa

Mandiri Jakarta.

49

Rifai, Bakhtiar. 2013. Algoritma Neural Network untuk Prediksi Penyakit

Jantung. Techno Nusa Mandiri. Vol. IX No. 1. AMIK Bina Sarana

Informatika Jakarta.

Rostia, CH. 2012. Solusi Cerdas Mencegah dan Mengobati Kanker. Jakarta.

AgroMedia Pustaka.

Rudianto. 2016. Penentuan Penyakit Peradangan Hati Dengan Menggunakan

Neural Network Backpropagation. Indonesian Journal on Computer and

Information Technology. Vol 1 No 1. AMIK Bina Sarana Informatika

Jakarta.

Suyanto. 2017. Data Mining Untuk Klasifikasi dan Klasterisasi Data. Bandung.

Informatika.

50

LAMPIRAN

Breast Cancer Coimbra Dataset

DAFTAR RIWAYAT HIDUP

DATA PRIBADI

1. Nama Lengkap : Ilham Nur Wiaji

2. Tempat, Tanggal Lahir : Pemalang, 27 Februari 1995

3. Alamat : Desa Bulu RT 05/ RW 01

Kec. Petarukan, Kab. Pemalang

4. Jenis Kelamin : Laki-laki

5. Agama : Islam

6. Kebangsaan : Indonesia

7. Telepon / Hp : 0858 6785 6574

8. Email : [email protected]

RIWAYAT PENDIDIKAN

1. SDN 02 Bulu, Pemalang tahun 2001/2007.

2. SMP Negeri 5 Petarukan, Pemalang tahun 2007/2010.

3. SMK Negeri 1 Petarukan, Pemalang tahun 2010/2013.

4. Sekolah Tinggi Teknologi Pelita Bangsa Progam Studi Teknik Informatika

Angkatan 2014.

SKRIPSI ANALISA ALGORITMA NEURAL NETWORK UNTUK …

Documents

Transcript of SKRIPSI ANALISA ALGORITMA NEURAL NETWORK UNTUK …