PENERAPAN ALGORITMA CLASSIFICATION AND …repository.umrah.ac.id/219/1/JURNAL ZUMROTUL...
Transcript of PENERAPAN ALGORITMA CLASSIFICATION AND …repository.umrah.ac.id/219/1/JURNAL ZUMROTUL...
1
PENERAPAN ALGORITMA CLASSIFICATION AND REGRESSION
TREE (CART) UNTUK PEMILIHAN JURUSAN SMA
(STUDI KASUS : SMA NEGERI 3 BINTAN KABUPATEN BINTAN)
Zumrotul Mutiah1, Martaleli Bettiza
2, Muhamad Radzi Rathomi
3
[email protected], [email protected], [email protected] 1,2,3
Program Studi Teknik Informatika, Fakultas Teknik,
Universitas Maritim Raja Ali Haji
ABSTRAK
Pemilihan jurusan pada sekolah menengah atas (SMA) memiliki tujuan antara
lain, mengelompokan siswa sesuai kecakapan, kemampuan dan minat, untuk
membantu siswa melanjutkan studi lanjutan dan memilih pekerjaan. Adapun
penetuan jurusan di SMA dipengaruhi berapa faktor yaitu kriteria yang digunakan
adalah Nilai Rata-rata IPA (Nilai Fisika, Kimia dan Biologi) dengan bobot ≤75,
Nilai Rata-rata IPS (Geografi, Ekonomi dan Sosiologi) dengan bobot yang sama
yaitu ≤ 75, dan minat. Pembagian jurusan di SMA Negeri 3 Bintan masih dengan
perhitungan manual untuk itu, perlu adanya sistem yang membantu untuk
menentukan jurusan di SMA sesuai dengan kriteria nilai yg telah ditentukan
pihak sekolah, kemampuan dan minat siswa secara terkomputerisasi sehingga
pihak sekolah tidak perlu lagi mengakumulasi dan mempertimbangkan jurusan
yang cocok bagi siswa secara manual. Penelitian ini memberikan solusi
terkomputerisasi dengan menggunakan Algoritma Classification And Regression
Tree (CART), Sistem yang dibuat dapat memberikan hasil prediksi kesesuaian
jurusan dari siswa yang masuk jurusan IPA maupun IPS, kemudian sistem ini
dapat juga untuk mengelompokkan siswa yang masuk dalam jurusan IPA maupun
IPS. Dan sistem ini juga dapat memberikan hasil dari data training akan
ditentukan hasilnya di data testing, dari hasil tersebut dapat mengetahui jumlah
hasil prediksi Jumlah Kesesuaian jurusan 87% .
Kata kunci : Klasifikasi, CART, Penjurusan Sekolah Menengah Atas.
2
ABSTRACT
Selection of majors in high school (SMA) has the objectives, among others, to
group students according to their skills, abilities and interests, to help students
continue their advanced study and choose a job. The determination of the majors
in SMA is influenced by the number of factors, the criteria used are the Average
Scores of IPA (Physics, Chemistry and Biology) with weight> 75, Average Score
IPS (Geography, Economics and Sociology) with the same weight that is <75 ,
and interests. The division of the department in SMA Negeri 3 Bintan still with
manual calculation for it, need a system that helps to determine the majors in high
school according to the criteria of values that have been determined the school,
the ability and interest of students in computerized so that the school no longer
need to accumulate and consider the majors which is suitable for students
manually. This research provides computerized solution using Classification And
Regression Tree (CART) algorithm. The system is made to give prediction result
of suitability of the majors of the students who entered the science or IPS majors,
then this system can also to classify the students who entered in the science or IPS
majors. And this system also can give result of training data will be determined
result in data testing, from result can know amount of prediction result of 87%
suitability of Department.
Keyword : Classification, CART, Majors Senior High School.
PENDAHULUAN
Penjurusan Pada SMA sebagai upaya untuk memperkenalkan siswa mewujudkan
potensi sesuai kemampuan dan minat yang dimiliki siswa, maka setiap sekolah
melakukan pembagian jurusan. SMA merupakan suatu instansi pendidikan yang
didalamnya terdapat pengambilan jurusan dari siswa kelas X yang akan naik ke
kelas XI, penjurusan adalah proses pemilihan program jurusan menurut kriteria
dari sekolah [4]. Menurut peraturan pemerintah Republik Indonesia No. 17 tahun
2010 tentang penyelenggaraan pendidikan, pendidikan formal, bagian ketiga
pendidikan menengah, paragraf kedua bentuk satuan pendidikan Pasal 79 butir 1
penjurusan pada SMA, MA atau bentuk lain yang sederajat berbentuk program
studi yang memfasilitasi kebutuhan pembelajaran serta kompetensi yang
diperlukan peserta didik untuk melanjutkan pendidikan pada jenjang pendidikan
tinggi, sebagaimana yang dimaksud adalah program studi ilmu pengetahuan alam
(IPA), program studi ilmu pengetahuan sosial (IPS) dan program studi lainnya.
Sistem yang dilakukan untuk penjurusan menggunakan Nilai Rapot siswa yang
diantaranya Nilai Rata-rata IPA (Nilai Fisika, Kimia dan Biologi) dengan bobot
>75, Nilai Rata-rata IPS (Geografi, Ekonomi dan Sosiologi) dengan bobot yang
sama yaitu < 75, dan minat. dari nilai tersebut akan dipetimbangkan siswa yang
masuk jurusan IPA yang mempunya inilai pendukung untuk masuk ke jurusan
3
IPA dengan kemampuan dan minat siswa, begitu juga sebaliknya. Untuk
mengatasi permasalahan proses penjurusan di SMA Negeri 3 Bintan maka peneliti
memberikan solusi dengan membangun sistem yang mendukung dalam proses
penjurusan. Tujuan penelitian adalah menerapkan algoritma CART didalam
aplikasi untuk menentukan jurusan di SMA sesuai kemampuan dan minat siswa
secara terkomputerisasi sehingga pihak sekolah tidak perlu lagi mengakumulasi
dan mempertimbangkan jurusan yang cocok bagi siswa secara manual. Sistem
yang dibuat bisa menjadi alat bantu untuk memberikan informasi kepada user
sebagai bahan pertimbangan dalam mengambil keputusan. Penerapan Algoritma
Classification And Regression Tree (CART) dapat memberikan informasi dalam
mengakumulasi data dan memepertimbangkan hasil pengujian yang telah
dilakukan oleh pihak sekolah terhadap siswa, sehingga siswa mendapatkan
jurusan yang sesuai dan diminati siswa berdasarkan nilai mata pelajaran, minat
dan kemampuan siswa.
BAHAN DAN METODE
Penelitian ini dilakukan di SMA Negeri 3 Bintan. Lokasi terletak di Jl.Tok Sadek
No.3. Kelurahan Tembeling Tanjung Kecamatan Teluk Bintan Kabupaten Bintan.
Obyek yang akan diteliti adalah Penerapan Algoritma Classification And
Regression Tree (CART) untuk Pemilihan Jurusan SMA. Data yang dibutuhkan
dalam penelitian ini adalah data siswa dari semester 1 dan 2 pada Tahun 2011-
2014 di SMA N 3 Bintan, yaitu Nama Siswa, Jenis Kelamin, Nilai Rata-rata IPA
(Nilai Fisika, Kimia dan Biologi), Nilai Rata-rata IPS (Geografi, Ekonomi dan
Sosiologi) dan minat siswa.
Untuk fungsionalitas data mining menggunakan klasifikasi, beberapa
penelitian telah dilakukan [8], menggunakan pembentukan pohon klasifikasi biner
untuk studi kasus penyakit diabetes, menerapkan bagging untuk memperbaiki
hasil prediksi nasabah perusahaan asuransi dan penggunaan algoritma klasifikasi
[7], begitu juga yang dilakukan oleh [5] pada data status daerah kabupaten di
Indonesia. Kemudian ada juga yang melakukan perbandingan antara dua
algoritma klasifikasi yaitu CART dan CHAID oleh [1] untuk menentukan hasil
kredit, serta algoritma CART dan MARS oleh [3] untuk klasifikasi kasus
perbankan. Penelitian perbandingan seperti ini yang akan menghasilkan logika
dari mana algoritma mana yang nantinya akan menghasilkan kesimpulan terbaik
terhadap kasus masing-masing penelitian. Tujuan dari klasifikasi adalah untuk
menemukan model dari training set yang membedakan atribut ke dalam kategori
atau kelas yang sesuai, model tersebut kemudian digunakan untuk
mengklasifikasikan atribut yang kelasnya belum diketahui sebelumnya.
CART (Classification And Regression Tree) adalah salah satu algoritma
dari satu teknik eksplorasi data yaitu teknik pohon keputusan. Algoritma CART
pertama kali diajukan oleh Leo Breiman, Jerome Friedman, Richard Olshen, dan
Charles Stone [2] Pada tahun 1980-an. CART merupakan metodelogi statistic
4
nonparametric yang dikembangkan untuk topik analisa klasifikasi, baik untuk
peubah respon kategorik maupun kontinu. CART menghasilkan suatu pohon
klasifikasi jika peubah responnya kategorik, dan menghasilkan pohon regresi jika
peubah responnya kontinu. Tujuan utama CART adalah untuk mendapatkan suatu
kelompok data yang akurat sebagai ciri dari suatu pengklasifikasian. Ciri khas dari
algoritma CART ini adalah node keputusan yang selalu bercabang dua atau
bercabang biner. Pada klasifikasi Algoritma Classification And Regression Tree
(CART) sebuah record akan diklasifikasikan ke dalam salah satu dari sekian
klasifikasi yang tersedia pada variabel tujuan berdasarkan nilai-nilai variabel
prediktornya [6].
Langkah-langkah Algoritma CART:
1. Susunlah calon cabang (candidate split) yang dilakukan terhadap seluruh
variabel prediktornya secara lengkap. Daftar yang berisi calon cabang disebut
calon cabang mutakhir.
2. Berikan penilaian keseluruhan calon cabang mutakhir dengan menghitung nilai
besaran kesesuaian Ø (s/t).
3. Tentukan calon cabang yang memiliki kesesuaian Ø (s/t). Setelah noktah
keputusan tidak ada lagi, pelaksanaan algoritma CART dihentikan.
(s\t ) = 2PL PR Q (s/t) (1)
Q (s/t) ∑ ) )
(2)
tL= cabang kiri dari noktah keputusan t
tR= cabang kanan dari noktah keputusan t
PL=
(3)
P =
(4)
PR=
(5)
(6)
5
PERANCANGAN DAN IMPLEMENTASI
Untuk menentukan kinerja penelitian dibutuhkan tahap perancangan sistem. Hal
ini sangat diutamakan untuk menjelaskan alur kerja sistem dalam prediksi jurusan
pada SMA Negeri 3 Bintan Kelurahan Tembeling. Agar hasil akhir dari penelitian
ini dapat hasilnya. Berikut adalah Flowchart sistem yang akan dibangun
menggunakan Algoritma Classification And Regresion Tree (CART). Seperti
dirujuk pada gambar 1.
Gambar 1. Flowchart Sistem Algoritma Classification And Regression Tree (CART)
Penjelasan :
a. Admin melakukan Login terlebih dahulu.
b. admin bisa memasukkan data training, data calon cabang dan data testing
c. Selanjutnya sistem akan melakukan proses analisa.
d. Setelah itu cek apakah semua atribut sudah dibentuk pada pohon. Jika
belum, ulangi dari langkah ke 3
e. Generate pohon keputusan.
f. Dengan menggunakan skema pohon keputusan, dilakukan proses prediksi
dari data testing.
g. Menghitung persentase kesesuaian dan ketidaksesuaian.
h. Selesai.
6
Adapun Flowchart secara umum dari proses Algoritma Classification And
Regression Tree (CART). Flowchart ini akan membahas proses analisa tentang
pengolahan data pada sistem. Berikut gambar yang dirujuk pada gambar 2.
Gambar 2. Flowchart Algoritma Classification And Regression Tree (CART)
Penjelasan :
a. Terlebih dahulu kita Masukkan data training.
b. Dari data tersebut kita tentukan/ buat calon cabang yang akan di bentuk
(Candidate Split).
c. Setelah itu lakukan perhitungan Prior Length (PL) dan Prior Right (PR).
d. Dari hasil menghitung PL dan PR bisa dilanjutkan untuk menghitung nilai
(s\t ) (goodness).
e. Setelah semua nilai goodness dihitung dari setiap cabang, kita mencari
nilai goodness yang paling besar.
f. Cek semua apakah atribut sudah dibentuk pada pohon. Jika belum, maka
ulangi langkah no .4.
g. Generate Pohon Keputusan
h. Selesai.
7
HASIL DAN PEMBAHASAN
Adapun jumlah catatan pada data latihan sebanyak 299 data siswa, data tersebut
yang berkategori : Jenis Kelamin, Rata-rata nilai IPA, Rata-rata nilai IPS, Minat
dan Jurusan. Data selengkapnya dapat dilihat pada table 1 berikut :
Tabel 1. Data Siswa
NO NAMA LENGKAP JENIS
KELAMIN
NILAI
RATA-
RATA IPS
NILAI
RATA-
RATA IPA
MINAT JURUSAN
1 Achmad Supandi Laki-laki 70 78 IPS IPS
2 Afriliani Saputri Perempuan 79 81 IPS IPS
3 Agustina Perempuan 92 83 IPA IPA
4 Angga Anugraha Laki-laki 77 79 IPA IPS
5 Aprilia putra Perempuan 80 81 IPA IPA
6 Bayu dwi putra Laki-laki 80 82 IPA IPA
7 Evi Eka Sapitri Perempuan 80 87 IPS IPS
8 Eka vivi Novianti Perempuan 80 83 IPA IPA
9 Firda Yanti Perempuan 81 91 IPS IPA
10 Heri Laki-laki 70 80 IPS IPS
11 Lia Perempuan 78 76 IPA IPS
12 Melani Perempuan 79 80 IPA IPS
13 M.Basri Laki-laki 77 78 IPS IPS
14 M.Tarmizi Laki-laki 80 80 IPS IPS
15 Halia Suraya Perempuan 70 70 IPS IPS
…. ……. ……… … ………. …. …..
….. …….. ……… …….. ……… …….. ……
…. …… ….. ....... …… ….. …..
100 Pratiwi Perempuan 80 90 IPS IPS
250 Dena Perempuan 90 85 IPA IPA
299 Mico Laki-laki 80 85 IPS IPA
Dan untuk calon cabang akan diberi nama calon cabang kiri dan cabang kanan,
selengkapnya, keseluruhan calon cabang disajikan dalam Tabel 2.
8
Tabel 2. Data Calon Cabang Mutakhir (Iterasi ke-1)
Nomor
Calon
Cabang
Calon Cabang Kiri Calon Cabang Kanan
1 Jenis kelamin = Laki-laki Jenis kelamin = Perempuan
2 Rata – rata IPA ≤ 70 Rata – rata IPA > 70
3 Rata – rata IPA ≤ 80 Rata – rata IPA > 80
4 Rata – rata IPA ≤ 90 Rata – rata IPA > 90
5 Rata – rata IPS ≤ 70 Rata – rata IPS > 70
6 Rata – rata IPS ≤ 80 Rata – rata IPS > 80
7 Rata – rata IPS ≤ 90 Rata - rata IPS> 90
8 Minat = IPA Minat = IPS
Pada data training, untuk menentukan puncak pohon keputusan, diambil empat
atribut utama yaitu Jenis kelamin, Rata-rata nilai IPA, Rata-rata nilai IPS dan
Minat. Kemudian data-data tersebut disusun menjadi calon cabang. Kemudian
hitung candidate split purity left PL dan purity right PR menggunakan persamaan
Q (s/t) ∑ ) )
(2)
tL= cabang kiri dari noktah keputusan t
tR= cabang kanan dari noktah keputusan t
PL=
(3)
Hasil perhitungan untuk data pada table 2 ditunjukkan pada table 3 berikut:
Tabel 3. Tabel Perhitungan PL dan PR
NO PL PR
1 6/15 = 0.4 9/15 = 0.6
2 1/15 = 0,0667 14/15 = 0,9333
3 8/15 = 0,5333 7/15 = 0,4667
4 14/15 = 0,9333 1/15 = 0,0667
5 3/15 = 0.2 2/15 = 0.8
6 13/15 = 0,8667 2/15 = 0,1333
7 14/15 = 0,9333 1/15 = 0,0667
8 7/15 = 0,4667 8/15 = 0,5333
9
Selanjutnya dengan persamaan (4) dan (6) dihitung P(j|tL) dan P(j|tR). Hasil
perhitungan ditunjukkan pada table 4 berikut:
Tabel 4. Tabel Perhitungan P(j|tL) dan P(j|tR)
NO Jurusan P(j|tL) P(j|tR)
1
IPA 1/6 = 0,1667 6/9 = 0,6667
IPS 5/6 = 0,8333 3/9 = 0,3333
2
IPA 1/1 = 1 6/14 = 0,4286
IPS 0/1 = 0 8/14 = 0,5714
3
IPA 0/8 = 0 5/7 = 0,7143
IPS 8/8 = 1 2/7 = 0,2857
4
IPA 4/14 = 0,2857 1/1 = 1
IPS 10/14 = 0,7143 0/1 = 0
5
IPA 0/3 = 0 5/12 = 0,4167
IPS 2/3 = 0,6667 8/12 = 0,6667
6
IPA 4/13 = 0,3077 1/2 = 0,5
IPS 9/13 = 0,6923 1/2 = 0,5
7
IPA 4/14 = 0,2857 1/1 = 1
IPS 10/14 = 0,7143 0/1 = 0
8
IPA 4/7 = 0,5714 1/8 = 0,125
IPS 3/7 = 0,4286 7/8 = 0,875
Dari daftar diatas, kemudian barulah dihitungan nilai kesesuaian untuk calon
cabang ), dengan hasil perhitungan cabang pertama seperti pada table 5 berikut :
Tabel 5. Tabel Kesesuaian untuk Calon Cabang
NO Q(s|t) 2PLPR ɸ(s|t)
1
1 0,48 0,48
2
1,1429 0,1244 0,1422
3
1,4286 0,4978 0,7111
4
1,4286 0,1244 0,1778
5
0,4167 0,32 0,1333
6
0,3846 0,2311 0,0889
7
1,4286 0,1244 0,1778
8
0,8929 0,4978 0,4444
10
Hasil perhitungan kesesuaian (goodness) ) untuk calon cabang, menunjukkan bahwa calon cabang yang tertinggi nilai besarannya adalah nomor
calon cabang 3 sebesar 0,7111, yaitu cabang kiri Rata-rata nilai IPA ≤ 80 dan
calon cabang kanan Rata-rata nilai IPA >80, maka berarti calon cabang inilah
yang dipilih sebagai root node pada tahap ini. Dari Tabel tampak bahwa calon
cabang ke 5 adalah calon cabang dengan nilai besaran kesesuaian terbesar
daripada calon cabang yang lain. Berikut pohon keputusan bagi masalah
klasifikasi yang ditunjukkan pada gambar 3.
Gambar 3. Pohon keputusan bagi menentukan jurusan SMA (Iterasi ke-1)
Penjelasan Gambar:
a. Pada noktah dasar, kita masih berhadapan dengan seluruh catatan, yaitu
catatan 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
b. Calon cabang nomor 3 kini telah benar-benar menjadi cabang. Adapun
cabang kirinya, yaitu cabang yang memenuhi Rata-rata IPA ≤ 80 dipenuhi
oleh catatan 1,4,10,11,12,13,14,15) dan karena nilai variable predictor bagi
catatan-catatan ini semua memiliki jurusan IPS, maka dihasilkanlah
noktah terminasi jurusan IPS.
c. Calon cabang 3 telah menjadi cabang. Adapun cabang kanannya, yaitu
cabang yang memenuhi jurusan IPA yang hanya dipenuhi oleh catatan
2,3,5,6,7,8,9 dan karena nilai variable predictor bagi catatan ini memiliki
jurusan IPS, maka menjadi noktah keputusan A.
Kemudian cabang yang lainnya akan terus dihitung dengan cara yang sama
menggunakan iterasi selanjutnya, setelah terlebih dahulu menghilangkan no 3
yang terpilih tadi. Hasil ini akan mengetahui jumlah kesesuaian hasil prediksi
jurusan yang memilih jurusan IPA dan IPS.
11
KESIMPULAN
Berdasarakan hasil dari tahap analisis, perancangan, implementasi dan
setelah dilakukan pengujian, Uji coba dilakukan dengan membandingkan 3
macam calon cabang Yaitu: 4 calon Cabang memberikan hasil kesesuaian jurusan
dan prediksi 55% dan ketidaksesuaian jurusan dan prediksi 44%, 8 Calon Cabang
memberikan hasil kesesuaian jurusan dan prediksi 87% dan ketidaksesuaian
jurusan dan prediksi 12% dan 10 Calon Cabang memberikan hasil 0% kesesuaian
jurusan dan prediksi 87% dan ketidaksesuaian jurusan dan prediksi 0%.
Berdasarkan hasil percobaan terhadap calon cabang yang berbeda maka,
didapatkan hasil kesesuaian jurusan prediksi yang paling tinggi sebesar 87%,
yaitu menggunakan 8 calon cabang. Hal ini dapat dilihat bahwa calon cabang
sangat mempengaruhi terhadap hasil klasifikasi. Kemudian hasil dari setiap calon
cabang tersebut nilai evaluasi. Berdasarkan perbandingan antara hasil prediksi
dan jurusan sebenarnya. dilihat akurasi data hasil yang diberikan oleh aplikasi ini
berbeda-beda tingkat akurasinya, maka kesimpulan yang dapat di ambil adalah:
1. Sistem yang dibangun dengan Algoritma CART bisa diaplikasikan
terhadap kasus klasifikasi Pemilihan Jurusan SMA.
2. Sistem penerapan Algoritma Classification And Regression Tree (CART)
dapat memberikan hasil prediksi Jumlah Kesesuaian Prediksi 87% .
3. Sistem yang dibangun sukses dalam melakukan uji data input dengan
menghasilkan Jumlah hasil Prediksi pemilihan Jurusan SMA.
4. Sistem yang dibuat bisa menjadi alat bantu untuk memberikan informasi
kepada user sebagai bahan pertimbangan dalam mengambil keputusan.
5. Penentuan calon cabang pada Algoritma CART ini mempengaruhi proses
dan hasil klasifikasi.
6. Dan jumlah sample pada Algoritma CART ini mempengaruhi hasil
klasifikasi.
DAFTAR PUSTAKA
[1] Kadir, M. A., 2007. Perbandingan Performansi Algoritma Decision Tree
CART dan CHAID, Seminar Nasional Aplikasi Teknologi Informasi
(SNATI).
[2] Larose, D. T., 2005. Discovering Knowledge in Data. John Willey & Sons,
Inc. New Jersey.
[3] Otok, B. W., 2005. Klasifikasi Perbankan dengan Pendekatan CART dan
MARS, Jurnal Widya Manajemen dan Akutansi.
12
[4] Pratiwi, F. E., Zain, I., 2011. Klasifikasi Pengangguran Terbuka Menggunakan
CART (Classification And Regression Tree). Jurnal Sains Dan Seni
Pomits.Surabaya.
[5] Sinambela, Y. E. S,. 2008. Penerapan Metode Pohon Klasifikasi dengan
Algoritma CART pada Data Status Daerah Kabupaten di Indonesi, Institut
Pertanian Bogor.
[6] Susanto, S., Suryadi, D., 2010. Pengantar Data Mining. Andi Yogyakarta,
yogyakarta.
[7] Wibowo, A., dan Purwanti, A., 2011. Penerapan Bagging untuk Memperbaiki
Hasil Prediksi Nasabah Perusahaan Asuransi X, Konferensi Nasional ICT-M
[8] Widagdo, K. A., 2010. Pembentukan Pohon Klasifikasi Biner dengan
Algoritma CART (Studi Kasus Penyakit Diabetes Suku Pima Indian),
Universitas Diponorogo.
13