Post on 01-Dec-2021
ANALISA PERBANDINGAN NILAI K TERBAIK UNTUK
CLUSTERING K-MEANS MENGGUNAKAN PENDEKATAN
ELBOW DAN SILHOUETTE PADA CITRA AKSARA JAWA
SKRIPSI
Diajukan Untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Komputer
Program Studi Informatika
Oleh:
Gabriel Ryan Prima
175314084
PROGRAM STUDI INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2021
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
COMPARATIVE ANALYSIS OF THE BEST K-VALUE FOR
CLUSTERING K-MEANS USING ELBOW AND SILHOUETTE
APPROACH ON JAVANESE SCRIPT IMAGE
THESIS
Present as Partial Fulfillment of The Requirements
to Obtain Sarjana Komputer Degree
in Informatics Study Program
Created by:
Gabriel Ryan Prima
175314084
INFORMATICS STUDY PROGRAM
FACULTY OF SCIENCE OF TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2021
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
iv
Halaman Persembahan
“Segala perjuangan saya hingga titik ini saya persembahkan pada dua orang
paling berharga dalam hidup saya. Hidup menjadi begitu mudah dan lancar ketika
kita memiliki orang tua yang lebih memahami kita daripada diri kita sendiri.
Terima kasih telah menjadi orang tua yang sempurna.”
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
vii
Abstrak
Pada penelitian ini akan dilakukan pencarian nilai K terbaik dari 2 metode
pendekatan clustering K-Means yaitu Elbow dan Silhouette. Berdasarkan penelitian
sebelumnya oleh Purnamasari (2020) ditemukan pendekatan Elbow menghasilkan
hasil yang lebih ideal. Maka dari itulah penulis berpikir untuk melakukan pencarian
nilai K terbaik pada clustering aksara Jawa.
Terdapat banyak tahapan yang dilakukan pada penelitian ini. Yang pertama
adalah pengumpulan data yang berupa buku hamong tani halaman 2 dan 59.
Kemudian preprocessing untuk mendapatkan data yang bersih. Setelah itu akan
disegmentasi untuk mendapatkan tiap aksaranya. Lalu akan diambil ciri untuk tiap
aksaranya dengan menggunakan Intensity of Character. Data ciri kemudian
dikelompokan menggunakan K-Means clustering yang mana akan menghasilkan
jumlah cluster, idx, dan sumd. Kemudian idx akan digunakan untuk evaluasi
silhouette dan sumd akan digunakan untuk evaluasi elbow. Hasil kedua metode
tersebut akan dibandingkan untuk mencari K terbaiknya.
Dari pengujian yang dilakukan disimpulkan jika K nya lebih besar maka
akan menghasilkan hasil pengelompokan yang bagus sehingga metode elbow
dianggap sebagai metode yang ideal untuk menentukan nilai K.
Kata kunci: Aksara Jawa, Preprocessing, Segmentasi, Ekstraksi Ciri, K-Means,
Silhouette, Elbow.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
viii
Absract
In this research, the best K value will be searched from 2 methods of K-
Means clustering approach, namely Elbow and Silhouette. Based on previous
research by Purnamasari (2020) it was found that the Elbow approach produced
more ideal results. That's why the writer thought to search for the best K value in
Javanese script clustering.
There are many stages carried out in this research. The first is collecting
data in the form of the Hamong Tani book page 2 and 59. Then preprocessing to
get clean data. After that it will be segmented to get each character. Then the
characteristics for each character will be taken using the Intensity of Character. The
feature data are then grouped using K-Means clustering which will produce the
number of clusters, idx, and sumd. Then idx will be used for silhouette evaluation
and sumd will be used for elbow evaluation. The results of the two methods will be
compared to find the best K.
From the tests carried out, it is concluded that if the K is greater then it will
produce good grouping results so that the elbow method is considered an ideal
method to determine the K value.
Keywords: Javanese script, Preprocessing, Segmentation, Feature Extraction, K-
Means, Silhouette, Elbow.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ix
Kata Pengantar
Puji dan syukur penulis panjatkan kepada Tuhan Yang Maha Esa atas rahmat dan
karunia-Nya, sehingga penulis dapat menyelesaikan tugas akhir dengan judul
“Analisa Perbandingan Nilai K Terbaik Untuk Clustering K-Means Menggunakan
Pendekatan Elbow Dan Silhouette Pada Citra Aksara Jawa” dengan baik dan tepat
waktu. Tugas akhir ini merupakan salah satu persyaratan yang wajib untuk
ditempuh sebagai syarat akademik untuk memperoleh gelar sarjana komputer
program studi Informatika Universitas Sanata Dharma Yogyakarta.
Selama proses penelitian, penulis mendapat banyak dukungan dari berbagai pihak
sehingga sudah sepantasnya penulis menyampaikan terima kasih yang kepada:
1. Ibu Dr. Anastasia Rita Widiarti, M.Kom selaku dosen pembimbing tugas
akhir yang telah bersedia memberikan arahan, masukan, waktu serta
motivasi kepada penulis selama menyelesaikan skripsi.
2. Bapak Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D. selaku dekan Fakultas
Sains dan Teknologi.
3. Seluruh dosen Informatika Universitas Sanata Dharma yang telah mendidik
dan memberikan ilmu pengetahuan kepada penulis yang digunakan sebagai
bekal untuk menyelesaikan tugas akhir ini.
4. Keluarga tercinta, Ayah Drs. Ary Widayanto, Mama Rini Sudiastuti, dan
saudara-saudari yang selalu memberikan dukungan dan doa sehingga
membuat penulis semakin semangat dalam mengerjakan serta
menyelesaikan tugas akhir ini.
5. Saudara Edrick Hernando, Atanasius Ivannoel Rio Aji, Yudistira Prama
Putra, Hieronimus Fredy Morgan, Albertus Ivan Adhyatma Maheswara,
Joseph Hutagalung, Agung Kristanto yang selalu bisa diajak diskusi
masalah tugas akhir.
6. Teman – teman dari grup “Pejuang Ekspetasi”, “Mesin Goblog”, dan
“Brokeback” yang senantiasa memberikan saran dan hiburan dalam
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xi
DAFTAR ISI
HALAMAN PERSETUJUAN PEMBIMBING ..................................................... ii
HALAMAN PENGESAHAN ................................................................................ iii
PERNYATAAN KEASLIAN KARYA ................................................................. v
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH .. vi
DAFTAR ISI .......................................................................................................... xi
DAFTAR GAMBAR ........................................................................................... xiv
DAFTAR TABEL ................................................................................................. xv
BAB I PENDAHULUAN ....................................................................................... 1
1.1 Latar Belakang ......................................................................................... 1
1.2 Rumusan Masalah .................................................................................... 2
1.3 Tujuan Penelitian ...................................................................................... 2
1.4 Manfaat Penelitian .................................................................................... 2
1.5 Batasan Penelitian .................................................................................... 3
1.6 Sistematika Penulisan ............................................................................... 3
BAB II LANDASAN TEORI ................................................................................. 5
2.1 Aksara Jawa .............................................................................................. 5
2.2 Pengertian Citra ........................................................................................ 9
2.3 Pemrosesan Citra ...................................................................................... 9
2.4 Preprocessing .......................................................................................... 10
2.4.1. Binerisasi ............................................................................................ 10
2.4.2. Thinning .............................................................................................. 10
2.4.3. Filtering ............................................................................................... 10
2.5 Segmentasi .............................................................................................. 11
2.5.1. Profil Proyeksi .................................................................................... 11
2.5.2. Resize .................................................................................................. 11
2.6 Ekstraksi Ciri .......................................................................................... 12
2.6.1. Intensity of Character.......................................................................... 12
2.7 K-means Clustering ................................................................................ 13
2.8 Metode Elbow ........................................................................................ 18
2.9 Metode Silhouette ................................................................................... 21
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xii
2.10 Nilai Ground Truth ................................................................................. 25
BAB III METODE PENELITIAN........................................................................ 27
3.1 Deskripsi Data ........................................................................................ 27
3.2 Pengolahan Data ..................................................................................... 29
3.3 Contoh Perhitungan 10 Data Dummy .................................................... 30
3.4 Perancangan Sistem ................................................................................ 36
3.5 Cara Pengujian ....................................................................................... 50
3.6 Kebutuhan Sistem ................................................................................... 51
3.6.1 Perangkat Keras (Hardware) ............................................................... 51
3.6.2 Perangkat Lunak (Software) ............................................................... 52
3.7 Desain GUI ............................................................................................. 52
BAB IV HASIL DAN ANALISIS ........................................................................ 54
4.1 Data ........................................................................................................ 54
4.2 Implementasi Preprocessing ................................................................... 54
4.3 Implementasi Segmentasi ....................................................................... 59
4.4 Implementasi Ekstraksi Ciri ................................................................... 62
4.5 Implementasi K-Means Clustering ......................................................... 66
4.6 Implementasi Silhouette ......................................................................... 66
4.7 Implementasi Elbow Method ................................................................. 67
4.8 Hasil Penelitian ....................................................................................... 68
4.8.1 Hasil Percobaan Silhouette Pertama ................................................... 69
4.8.2 Hasil Percobaan Silhouette Kedua ...................................................... 70
4.8.3 Hasil Percobaan Silhouette Ketiga ..................................................... 71
4.8.4 Hasil Percobaan Silhouette Keempat .................................................. 72
4.8.5 Hasil Percobaan Silhouette Kelima .................................................... 73
4.8.6 Hasil Percobaan Silhouette Keenam ................................................... 74
4.8.7 Hasil Percobaan Silhouette Ketujuh ................................................... 75
4.8.8 Hasil Percobaan Silhouette Kedelapan ............................................... 76
4.8.9 Hasil Percobaan Silhouette Kesembilan ............................................. 77
4.8.10 Hasil Percobaan Elbow Pertama ......................................................... 80
4.8.11 Hasil Percobaan Elbow Kedua ........................................................... 81
4.8.12 Hasil Percobaan Elbow Ketiga ........................................................... 82
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiii
4.8.13 Hasil Percobaan Pengelompokan K 65 ............................................... 83
4.8.14 Hasil Percobaan Pengelompokan 14 Aksara Pokok ........................... 87
BAB V KESIMPULAN DAN SARAN ................................................................ 90
5.1 Kesimpulan ............................................................................................. 90
5.2 Saran ....................................................................................................... 91
DAFTAR PUSTAKA ........................................................................................... 92
LAMPIRAN .......................................................................................................... 94
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiv
DAFTAR GAMBAR
Gambar 2.1 20 Aksara Pokok ................................................................................. 5
Gambar 2.2 Aksara Sandhangan ............................................................................. 6
Gambar 2.3 Aksara Penyigeg Wanda ..................................................................... 6
Gambar 2.4 Sandhangan Wyanjana ........................................................................ 7
Gambar 2.5 Sandhangan Pangkon .......................................................................... 7
Gambar 2.6 Aksara Pasangan ................................................................................. 8
Gambar 2.7 Aksara Wilangan ................................................................................. 8
Gambar 3.1 Halaman 2 buku Hamong Tani ......................................................... 27
Gambar 3.2 Halaman 59 buku Hamong Tani ....................................................... 28
Gambar 3.3 Contoh Citra Hasil Crop .................................................................... 29
Gambar 3.4 Data Dummy Berjumlah 10 .............................................................. 30
Gambar 3.5 Diagram Perancangan Sistem............................................................ 37
Gambar 3.6 Flowchart Penelitian .......................................................................... 38
Gambar 3.7 Diagram Preprocessing ..................................................................... 39
Gambar 3.8 Diagram Segmentasi ......................................................................... 43
Gambar 3.9 Diagram Ekstraksi Ciri ...................................................................... 45
Gambar 3.10 Diagram K-Means ........................................................................... 47
Gambar 3.11 Diagram Evaluasi Hasil Clustering ................................................. 49
Gambar 3.12 Desain GUI ...................................................................................... 52
Gambar 4.1 Hasil Projeksi Horisontal Halaman 2 ................................................ 59
Gambar 4.2 Hasil Projeksi Horisontal Halaman 59 .............................................. 60
Gambar 4.3 Contoh Hasil Segmentasi Baris 1 ...................................................... 61
Gambar 4.4 Hasil IoC Data Aksara 1 Setelah dipindah ke Excel ......................... 63
Gambar 4.5 Pembagian Hasil IoC ke 9 Warna ..................................................... 64
Gambar 4.6 Seleksi Piksel Bernilai 0 .................................................................... 64
Gambar 4.7 Hasil Percobaan Silhouette Pertama ................................................. 69
Gambar 4.8 Hasil Percobaan Silhouette Kedua .................................................... 70
Gambar 4.9 Hasil Percobaan Silhouette Ketiga .................................................... 71
Gambar 4.10 Hasil Percobaan Silhouette Keempat .............................................. 72
Gambar 4.11 Hasil Percobaan Silhouette Kelima ................................................. 73
Gambar 4.12 Hasil Percobaan Silhouette Keenam ............................................... 74
Gambar 4.13 Hasil Percobaan Silhouette Ketujuh ................................................ 75
Gambar 4.14 Hasil Percobaan Silhouette Kedelapan ........................................... 76
Gambar 4.15 Hasil Percobaan Silhouette Kesembilan ......................................... 77
Gambar 4.16 Hasil Percobaan Elbow Pertama ..................................................... 80
Gambar 4.17 Hasil Percobaan Elbow Kedua ........................................................ 81
Gambar 4.18 Hasil Percobaan Elbow Ketiga ........................................................ 82
Gambar 4.19 Hasil Percobaan Pengelompokan Cluster 1 .................................... 84
Gambar 4.20 Hasil Pengelompokan Cluster 1 14 Aksara Pokok.......................... 88
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xv
DAFTAR TABEL
Tabel 2.1 Tabel Representasi Data Citra berukuran 9x9 ...................................... 12
Tabel 2.2 Hasil IoC 3x3 ........................................................................................ 13
Tabel 2.3 Data Clustering ..................................................................................... 14
Tabel 2.4 Centroid Random .................................................................................. 15
Tabel 2.5 Hasil Iterasi 1 ........................................................................................ 16
Tabel 2.6 Hasil Centroid Iterasi 1 ......................................................................... 17
Tabel 2.7 Hasil Iterasi 2 ........................................................................................ 17
Tabel 2.8 Hasil Centroid Iterasi 2 ......................................................................... 17
Tabel 2.9 Hasil Iterasi 3 ........................................................................................ 18
Tabel 2.10 Hasil Centroid Iterasi 3 ....................................................................... 18
Tabel 2.11 Contoh Data Silhouette ....................................................................... 22
Tabel 2.12 Rentang nilai Silhouette Coefficient ................................................... 25
Tabel 3.1 Hasil Segmentasi Aksara pertama halaman 2 ....................................... 29
Tabel 3.2 Ciri IoC 3x3 10 Data Dummy ............................................................... 30
Tabel 3.3 Centroid Awal ....................................................................................... 31
Tabel 3.4 Hasil Iterasi 1 ........................................................................................ 31
Tabel 3.5 Centroid Baru ........................................................................................ 32
Tabel 3.6 Hasil Iterasi 2 ........................................................................................ 32
Tabel 3.7 Data Silhouette Hasil K-Means Clustering ........................................... 33
Tabel 3.8 Penghitungan Jarak Antar Data ............................................................ 33
Tabel 3.9 Penghitungan ai dan bi Data 1-5 ........................................................... 34
Tabel 3.10 Penghitungan ai dan bi Data 6-10 ....................................................... 34
Tabel 3.11 Hasil SI Tiap Data ............................................................................... 34
Tabel 3.12 Hasil Akurasi SIlhouette ..................................................................... 35
Tabel 3.13 Data Jarak K-Means Iterasi 2 .............................................................. 35
Tabel 3.14 Penjumlahan Jarak 3 Cluster ............................................................... 36
Tabel 3.15 Hasil Distortion Elbow........................................................................ 36
Tabel 3.16 Perangkat Keras .................................................................................. 51
Tabel 4.1 Perbandingan Citra Awal dan Hasil Binerisasi ..................................... 55
Tabel 4.2 Perbandingan Hasil Binerisasi dan Hasil Invers ................................... 56
Tabel 4.3 Perbandingan Hasil Filtering ................................................................ 57
Tabel 4.4 Perbandingan Hasil Resize ................................................................... 61
Tabel 4.5 Perbandingan Citra Awal dengan Hasil Penipisan ............................... 62
Tabel 4.6 Tabel Contoh Hasil Rosenfeld .............................................................. 63
Tabel 4.7 Hasil Penghitungan Ciri IoC 3 Aksara 1 ............................................... 65
Tabel 4.8 Contoh Matriks Ciri IoC 3x3 ................................................................ 65
Tabel 4.9 Hasil Silhouette Jarak Default............................................................... 78
Tabel 4.10 Hasil Silhouette Jarak Cosine ............................................................. 78
Tabel 4.11 Hasil Silhouette Jarak Cityblock ......................................................... 79
Tabel 4.12 Hasil SI Terbaik Pertama Range K 120 .............................................. 79
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xvi
Tabel 4.13 Hasil Elbow ......................................................................................... 83
Tabel 4.14 Hasil Analisa Manual Hasil Pengelompokan K 65 ............................. 84
Tabel 4.15 Hasil Analisa Manual Hasil Pengelompokan 14 Aksara Pokok ......... 88
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
1
BAB I PENDAHULUAN
1.1 Latar Belakang
Pada zaman ini, banyak sekali metode yang digunakan untuk melakukan
proses clustering, Salah satunya yang paling populer adalah K-means clustering
karena merupakan “unsupervised machine learning algorithms” yang paling
sederhana.
Hal pertama dalam clustering K-means adalah dimulai dengan kelompok
pertama centroid yang dipilih secara acak, yang digunakan sebagai titik awal untuk
setiap cluster, dan kemudian melakukan perhitungan berulang untuk
mengoptimalkan posisi centroid. Dalam menentukan nilai K yang digunakan dalam
clustering k-means juga terdapat banyak sekali pendekatan yang dapat dilakukan
guna mencari nilai K yang paling ideal. Salah dua metode pendekatan tersebut
adalah metode Elbow dan metode Silhouette.
Banyak sekali manfaat yang dapat diperoleh jika kita melakukan proses
clustering. Salah satunya adalah kita dapat mengelompokkan citra aksara Jawa
yang terdapat pada dokumen-dokumen kuno yang dapat berguna untuk membantu
proses labeling pada aksara Jawa. Salah satu dokumen yang memuat aksara Jawa
itu adalah buku Hamong Tani.
Berdasarkan penelitian yang dilakukan oleh Purnamasari (2020) diperoleh
hasil dimana metode Elbow menghasilkan nilai K yang lebih ideal dibanding
metode Silhouette.
Sementara itu ada juga penelitian yang dilakukan oleh Akrisnar (2020) dimana
hasil metode Silhouette menghasilkan nilai K sebesar 72 berdasarkan
kemunculannya pada 3 ciri IoC dan size dengan ukuran 3x3, 5x5, dan 8x8.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2
1.2 Rumusan Masalah
Berdasarkan latar belakang yang dibuat di atas, maka rumusan masalah pada
penelitian ini adalah:
a. Berapa nilai K yang disarankan oleh kedua metode pendekatan elbow dan
silhouette?
b. Dari dua metode pendekatan elbow dan silhouette, mana yang paling ideal
untuk menentukan nilai K?
c. Bagaimana keberhasilan proses clustering dilihat dari akurasi ground truth
hasil clustering k-means?
1.3 Tujuan Penelitian
Berdasarkan rumusan masalah yang dibuat di atas, maka tujuan dari penelitian
ini adalah:
a. Mengetahui nilai K yang disarankan oleh metode pendekatan elbow dan
silhouette.
b. Mengetahui metode pendekatan mana yang paling ideal antara elbow atau
silhouette.
c. Mengetahui keberhasilan proses clustering yang dilihat dari akurasi
ground truth hasil clustering k-means.
1.4 Manfaat Penelitian
Berdasarkan rumusan masalah yang dibuat di atas, maka manfaat dari
penelitian ini adalah:
a. Manfaat dari penelitian ini bagi peneliti adalah untuk mengimplementasikan
ilmu Informatika terutama yang berkaitan dengan pemrosesan citra pada
suatu aksara.
b. Manfaat dari penelitian ini bagi universitas adalah dapat memberikan
kontribusi penambahan ilmu pengetahuan, khususnya bagi prodi
Informatika serta menjadi bahan bacaan di perpustakaan Universitas dan
dapat memberikan referensi bagi mahasiswa lain.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3
1.5 Batasan Penelitian
Batasan – batasan masalah pada penyusunan penelitian ini adalah sebagai
berikut:
1. Data yang digunakan adalah hasil dari scan halaman dari buku Hamong
Tani (Holle, 1876).
2. Ekstraksi ciri yang digunakan adalah IoC dengan ukuran 3x3, 4x4, dan
5x5.
3. Masukan data hanya berupa citra yang berformat .png.
4. Memfokuskan pencarian K optimal pada range sampai 120 saja.
5. Nilai SI hasil metode silhouette yang digunakan adalah ketika diatas 0,5.
6. Nilai distortion percent hasil metode elbow yang digunakan adalah ketika
diatas 0,9.
1.6 Sistematika Penulisan
BAB I PENDAHULUAN
Bab ini berisi tentang latar belakang, rumusan masalah, tujuan penelitian,
manfaat penelitian, batasan masalah, dan sistematika penulisan.
BAB II LANDASAN TEORI
Bab ini berisi tentang teori-teori dasar yang berkaitan dengan penelitian
yang akan dilakukan, yang meliputi dari objek yang digunakan, metode
preprocessing yang digunakan, segmentasi yang digunakan, ekstraksi ciri
yang digunakan, dan clustering yang digunakan.
BAB III METODE PENELITIAN
Bab ini berisi tentang langkah-langkah yang dilakukan dalam penelitian
yang bertujuan untuk menjawab dan menyelesaikan rumusan masalah
yang dimiliki.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4
BAB IV HASIL PENELITIAN DAN ANALISIS
Bab ini berisi tentang penjelasan mengenai sistem yang akan dibangun,
penerapan algoritma serta rancangan yang telah dibuat, cara penggunaan
sistem, serta hasil analisa dari pengujian-pengujian yang dilakukan.
BAB V KESIMPULAN DAN SARAN
Bab ini berisi kesimpulan dari hasil penelitian serta saran yang diusulkan
untuk dapat mengembangkan penelitian ini.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5
BAB II LANDASAN TEORI
2.1 Aksara Jawa
Aksara Jawa terdiri dari 20 aksara pokok (legena) yang bersifat
kesukukataan. Sifat penulisan aksara Jawa ditulis dari kiri ke kanan dan
ditulis secara bersambung tanpa spasi antar kata. Menurut Hadiprijono(2013)
aksara Jawa terdiri dari 20 aksara, yaitu dari aksara ha sampai nga adalah
seperti pada Gambar 2.1.
Gambar 2.1 merupakan aksara dasar atau pokok yang berjumlah
sebanyak 20 aksara. Aksara pokok atau sering disebut legena memiliki arti
aksara wuda (telanjang) sebab belum diikuti dengan sandhangan. Selain
aksara pokok (legena), aksara vokal (swara), aksara rekaan (rekan),
pengubah bunyi (sandhangan), penutup konsonan (pasangan), penutup
suku kata (sigeg), angka (wilangan), dan tanda baca. Aksara sandhangan
adalah aksara yang dipakai untuk mengubah bunyi dari aksara yang
diikutinya. Secara khusus, aksara sandhangan tersebut dibagi ke dalam 4
jenis, yaitu 5 sandhangan swara, 3 sandhangan penyigeg wanda, 3
sandhangan wyanjana, dan sandhangan pangkon. Untuk sandhangan
swara terdiri dari 5 aksara, seperti pada Gambar 2.2.
Gambar 3. 1 20 Aksara Jawa Pokok Gambar 2.1 20 Aksara Pokok
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
6
Gambar 2.2 Aksara Sandhangan
Gambar 2.2 merupakan kumpulan dari sandhangan swara, yaitu
terdiri dari wulu, suku, taling, taling-tarung, dan pepet. Masing-masing
sandhangan mempunyai karakteristik tersendiri dalam mengubah bunyi
suatu aksara yang diikutinya, yaitu wulu akan membuat suku kata menjadi
bunyi vokal /i/, suku akan membuat suku kata menjadi bunyi vokal /u/, taling
akan membuat suku kata menjadi bunyi vokal /é/, taling-tarung akan
membuat suku kata menjadi bunyi vokal /o/, dan pepet akan membuat suku
kata menjadi bunyi vokal /ê/. Sebagai contoh, untuk membentuk kata “siji”
berarti harus menambahkan wulu pada aksara sa dan ja untuk mengubah
bunyinya menjadi si dan ji. Selanjutnya, sandhangan panyigeg wanda
terdiri 3 aksara seperti Gambar 2.3.
Gambar 2.3 adalah sandhangan panyigeg wanda yang terdiri dari
layar, wignyan, dan cecak. Sigeg artinya pembuat konsonan atau penutup
suku kata sedangkan wanda artinya suku kata. Fungsi sandhangan layar
akan memberi bunyi /r/, wignyan akan memberi bunyi /h/, dan cecak akan
membuat bunyi /ng/ pada suku kata yang diikutinya. Sebagai contoh, untuk
Gambar 2.3 Aksara Penyigeg Wanda
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
7
membentuk kata “gajah” maka dapat ditulis dengan aksara ga dan ja
kemudian diberi sandhangan wignyan yang akan memberi konsonan atau
akhiran h. Jenis sandhangan berikutnya adalah sandhangan wyanjana yang
terdiri dari 3 aksara seperti Gambar 2.4.
Gambar 2.4 adalah contoh dari sandhangan wyanjana yang terdiri dari
cakra, keret, dan pengkal. Sandhangan wyanjana merupakan penanda dari gugus
konsonan, yakni cakra akan memberikan sisipan kata /ra/, keret akan memberikan
sisipan kata /re/ dan pengkal akan memberikan sisipan kata /ya/ pada masing-
masing aksara yang diikutinya. Sebagai contoh pada Gambar 2.4 untuk
membentuk kata “putra” maka dapat ditulis dengan aksara pa yang diberi suku lalu
aksara ta tang diberi cakra. Jenis sandhangan terakhir adalah, sandhangan pangkon.
Gambar 2.5 adalah sandhangan pangkon. Fungsi pangkon adalah sebagai
penutup suku kata atau membentuk konsonan pada suku kata yang berada di
depannya. Sebagai contoh, ketika ingin membentuk kata “tangan” maka dapat ditulis
dengan aksara ta, nga, dan na yang diberi pangkon sehingga menjadi konsonan n.
Selain aksara pokok, dalam penulisan aksara Jawa juga terdapat aksara pasangan.
Jumlah dan bunyi aksara pasangan sama seperti aksara legena, yaitu berjumlah 20
dan terdiri dari ha sampai nga. Berikut ini adalah contoh dari aksara pasangan.
Gambar 2. 4 Sandhangan Wyanjana
Gambar 2.5 Sandhangan Pangkon
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
8
Gambar 2.6 adalah contoh dari aksara pasangan. Hanya terdapat 3 aksara
saja yang ditulis sejajar dengan legena, yaitu pasangan ha, pasangan sa, dan
pasangan pa, selain itu penulisan pasangan ditulis di bawah legena. Fungsi dari
aksara pasangan adalah pembentuk konsonan atau penutup suku kata sehingga
suku kata yang diberi pasangan dapat digabungkan dengan aksara selanjutnya.
Aksara berikutnya adalah aksara wilangan, yakni aksara yang
mempresentasikan angka. Berikut adalah aksara wilangan yang dapat dilihat
melalui Gambar 2.7.
Gambar 2.6 Aksara Pasangan
Gambar 2.7 Aksara Wilangan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
9
Gambar 2.7 merupakan kumpulan aksara wilangan. Dengan
adanya aksara wilangan maka bentuk-bentuk angka yang ditulis dapat
dipenuhi.
2.2 Pengertian Citra
Citra adalah kombinasi antara titik, garis, bidang, dan warna untuk
menciptakan suatu objek-biasanya objek fisik atau manusia. Citra didefinisikan
sebagai suatu fungsi kontinu dalam dua dimensi dari intensitas cahaya (Gonzalez
& Woods, 2002). Setiap titik citra dapat dinyatakan dalam rumus matematis :
0 < 𝑓(𝑥, 𝑦) < ∞ …………………………………..(2.1)
Variabel f(x,y) adalah intensitas cahaya pada citra yang terletak dilokasi (x,y).
Citra digital dapat diartikan sebagai suatu matriks yang terdiri atas baris dan
kolom, di mana setiap elemennya merupakan nilai intensitas kecerahan. Titik dari
setiap matriks dinamakan dengan piksel. Citra digital merupakan kumpulan dari
piksel dengan jumlah piksel tertentu.
2.3 Pemrosesan Citra
Pemrosesan citra merupakan metode-metode yang digunakan untuk
mengolah citra digital agar citra tersebut memiliki kualitas yang lebih baik,
sehingga dapat ditafsirkan oleh manusia atau mesin. Konsep dasar yang ada dalam
setiap metode pemrosesan citra ini adalah memodifikasi setiap piksel atau titik pada
bidang citra sesuai dengan keperluan yang dibutuhkan (Widiarti & Himamunanto,
2012).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
10
2.4 Preprocessing
Tahapan preprocessing berguna untuk menyiapkan data seperti mengubah
ukuran citra, membuang noise, atau memisahkan latar belakang citra dengan
objeknya, sebelum citra tersebut masuk ke tahap selanjutnya. Pada tahapan ini, akan
banyak mengimplementasikan metode-metode pemrosesan citra dalam mengolah
citra aksara.
2.4.1. Binerisasi
Binerisasi adalah tahapan dimana citra dimensi dua akan diubah menjadi
citra hitam putih dengan dimensi satu dengan cara mengubah nilai elemen dalam
matriks citra menjadi 0 dan 1 dimana nilai 0 sebagai warna hitam dan 1 sebagai
warna putih. Tujuan utama dari proses ini adalah secara otomatis menentukan nilai
ambang treshold yang akan membagi citra dalam dua kelompok yaitu, kelompok
obyek dan kelompok latar belakang (Widiarti & Himamunanto, 2012).
2.4.2. Thinning
Thining merupakan suatu operasi dalam preprocessing, yang berfungsi
untuk mereduksi suatu obyek menjadi kerangka dari objek tersebut (Widiarti &
Himamunanto, 2012). Tujuan utama penipisan adalah menyederhanakan suatu
objek agar menjadi lebih sederhana dan tidak memakan memori terlalu besar.
2.4.3. Filtering
Filtering atau reduksi derau atau noise reduction merupakan tahapan
penting dalam pemrosesan citra karena mampu menghilangkan piksel-piksel yang
tidak dibutuhkan untuk mengurangi kesalahan dalam proses pengenalan obyek
(Widiarti & Himamunanto, 2012).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
11
Bentuk derau bisa berupa suatu piksel yang letaknya terasing dari piksel
yang lain. Biasanya berbentuk titik hitam kecil dalam suatu gambar citra. Jika kita
tidak melakukan reduksi derau maka proses identifikasi akan terganggu oleh derau
tersebut.
2.5 Segmentasi
Segmentasi merupakan proses pemecahan citra untuk memperoleh objek-
objek yang terkandung dalam citra tersebut. Segmentasi terbagi menjadi dua tahap.
Tahap pertama adalah pemisahan objek dengan objek lain yang berada ada baris
yang sama, lalu tahap kedua yaitu mendapatkan huruf tersebut secara individu
dengan mendapatkan kolom-kolom karakter citra aksara dari baris yang telah
dipotong pada tahap pertama.
2.5.1. Profil Proyeksi
Profil proyeksi merupakan bagian dari segmentasi citra yang berfungsi
memisahkan latar belakang dengan objek dengan memotong secara vertikal dan
horisontal. Proyeksi vertikal digunakan untuk mengambil kolom dari citra,
sedangkan proyeksi horisontal berfungsi untuk mengambil baris dari citra.
2.5.2. Resize
Resize citra merupakan bagian dari segmentasi citra yang berfungsi
mengubah resolusi atau citra mengubah ukuran piksel vertikal dan horisontal.
Adakalanya ukuran file berubah setelah resize menjadi lebih kecil atau menjadi
lebih besar sesuai dengan resolusinya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
12
2.6 Ekstraksi Ciri
Ekstraksi ciri merupakan suatu proses pengambilan ciri atau informasi yang
berada pada suatu obyek. Hal ini dilakukan untuk mempermudah dalam proses
pencarian informasi tentang obyek tersebut. Proses ektraksi ciri pada citra digital
dilakukan dengan menemukan karakteristik dari suatu citra yang biasanya
ditemukan dalam bentuk citra tersebut.
2.6.1. Intensity of Character
Intensity of Character merupakan salah satu metode yang digunakan dalam
proses ektraksi ciri. Intensity of character berbentuk matriks ukuran NxN, yang
mana setiap unit 1x1 nya berisikan n piksel hasil penjumlahan piksel yang bernilai
0 (hitam). Pada proses ini data citra akan dibagi menjadi beberapa segmen yang
lebih kecil. Proses ini bertujuan untuk mempermudah dalam pencirian data. Sebagai
contoh sederhana, berikut merupakan proses gambaran untuk mendapatkan ciri IoC
berukuran 3x3:
a. Terdapat Citra berukuran sebesar 9x9, maka untuk setiap unit IoC 1x1
nya akan mencakup matrix sebesar 3x3.
Tabel 2.1 Tabel Representasi Data Citra berukuran 9x9
1 1 0 0 1 1 0 1 0
1 0 1 1 0 0 1 1 1
1 1 1 1 1 1 1 0 0
1 0 1 1 0 1 0 1 1
0 0 0 0 1 1 0 0 0
1 1 1 0 1 1 0 1 1
1 1 1 0 1 0 1 1 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
13
0 0 1 1 0 1 1 0 1
0 1 1 0 1 1 1 1 1
b. Untuk setiap unit 1x1, akan menyimpan nilai yang merupakan banyaknya
anggota piksel berwarna hitam untuk setiap area 3x3nya. Berikut adalah
bentuk IoC 3x3 tersebut ketika telah dilakukannya penjumlahan untuk
setiap unit nya.
Tabel 2.2 Hasil IoC 3x3
2 3 4
4 3 5
3 4 1
2.7 K-means Clustering
K-means clustering adalah metode untuk mengelompokan objek ke dalam
K kelompok dengan K adalah jumlah kelompok yang diinginkan. Dalam
penghitungan K-means dimulai dengan kelompok pertama centroid. Centroid
adalah titik pusat data, dimana centroid ini dapat ditentukan secara random sesuai
dengan kebutuhan atau bergantung dari data yang digunakan.
Pada K-means terdapat beberapa langkah yang harus dilakukan
yaitu:
1. Tentukan jumlah cluster
2. Alokasikan data ke dalam cluster
3. Hitung centroid/rata-rata dari data yang ada di masing-
masing cluster
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
14
4. Hitung perhiyungan jarak lalu alokasikan masing-masing data
ke centroid
5. Kembali ke Step 3, apabila masih ada data yang berpindah
cluster atau apabila perubahan nilai centroid.
Secara rinci tahap-tahap diatas dapat dijabarkan pada contoh berikut
ini.
Misal ada 4 data di Tabel 2.3 yang ingin dipisahkan menjadi 2 buah
cluster dari data.
Tabel 2.3 Data Clustering
N Ciri 1 Ciri 2 Ciri 3 Ciri 4
1 1 1 2 1
2 2 1 2 2
3 4 3 3 2
4 5 4 1 5
1. Dipilih jumlah cluster sebanyak 2.
2. Alokasikan data kedalam cluster.
N Ciri 1 Ciri 2 Ciri 3 Ciri 4 Cluster
1 1 1 2 1 1
2 2 1 2 2 1
3 4 3 3 2 2
4 5 4 1 5 2
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
15
3. Pencarian centroid secara random.
Tabel 2.4 Centroid Random
C1 1 1 2 1
C2 2 1 2 2
Disini kita menggunakan data 1 dan 2 sebagai centroid awal pada 2
cluster.
4. Melakukan perhitungan jarak dengan centroid
Perhitungan jarak dilakukan dengan menggunakan rumus jarak
Euclidean yaitu dengan rumus :
𝑑(𝑥, 𝑦) = √∑ (𝑥𝑖 − 𝑦𝑖)2𝑛𝑖 = 1 ………….( 2.2)
Dimana,
𝑑 = jarak antara x dan y
𝑥 = data pusat klaster
𝑦 = data pada atribut
Iterasi 1
d(x1,c1) = √(1 − 1)2 + (1 − 1)2 + (2 − 2)2 + (1 − 1)2 = 0
d(x2,c1) = √(2 − 1)2 + (1 − 1)2 + (2 − 2)2 + (2 − 1)2 = 1,414214
d(x3,c1) = √(4 − 1)2 + (3 − 1)2 + (3 − 2)2 + (2 − 1)2 = 3,872983
d(x4,c1) = √(5 − 1)2 + (4 − 1)2 + (1 − 2)2 + (5 − 1)2 = 6,480741
d(x1,c2) = √(1 − 2)2 + (1 − 1)2 + (2 − 2)2 + (1 − 2)2 = 1,414214
d(x2,c2) = √(2 − 2)2 + (1 − 1)2 + (2 − 2)2 + (2 − 2)2 = 0
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
16
d(x3,c2) = √(4 − 2)2 + (3 − 1)2 + (3 − 2)2 + (3 − 2)2 = 3
d(x4,c2) = √(5 − 2)2 + (4 − 1)2 + (1 − 2)2 + (5 − 2)2 = 5,291503
maka didapatkan hasil tabel berikut :
Tabel 2.5 Hasil Iterasi 1
Data Hasil Euclidean C1 Hasil Euclidean C2 C1 C2
1 0 1,414214 v
2 1,414214 0 v
3 3,872983 3 v
4 6,480741 5,291503 v
Dari tabel diatas kita mencari minimum dari jarak data ke
setiap centroid cluster dan dimasukan sementara pada cluster yang
ada. Dimana data 1 masuk ke C1 dan data 2 sampai 4 masuk ke C2.
5. Pencarian centroid baru
Pencarian nilai centroid baru didasarkan pada rumus berikut :
𝐶𝑖 = ∑ 𝑥𝑖∈ 𝑠𝑖
𝑛𝑖=1
𝑛…………………..( 2.3)
Dimana,
𝐶𝑖 = Centroid baru ke i
𝑠𝑖 = obyek ke i
𝑥𝑖 = nilai pada obyek ke i
𝑛 = jumlah data pada tiap kelompok atau cluster
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
17
Maka, hasil centroid baru pada iterasi 1 adalah sebagai
berikut :
Tabel 2.6 Hasil Centroid Iterasi 1
C1 1 1 2 1
C2 3,666666667 2,666666667 2 3
Selanjutnya adalah menghitung nilai jarak dan centroid baru
sampai dengan data dalam cluster tidak ada yang berpindah lagi.
Dianggap centroid telah stabil jika tidak ada perubahan dalam nilai-
nilai mereka karena pengelompokan telah berhasil.
Iterasi 2 :
Tabel 2.7 Hasil Iterasi 2
Data Hasil Euclidean C1 Hasil Euclidean C2 C1 C2
1 0 3,72678 v
2 1,414214 2,560382 v
3 3,872983 1,490712 v
4 6,480741 2,924988 v
Tabel 2.8 Hasil Centroid Iterasi 2
C1 1,5 1 2 1,5
C2 4,5 3,5 2 3,5
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
18
Iterasi 3 :
Tabel 2.9 Hasil Iterasi 3
Data Hasil Euclidean C1 Hasil Euclidean C2 C1 C2
1 0,707107 4,974937 v
2 0,707107 3,840573 v
3 3,391165 1,936492 v
4 5,87367 1,936492 v
Tabel 2.10 Hasil Centroid Iterasi 3
C1 1,5 1 2 1,5
C2 4,5 3,5 2 3,5
Hasil pada Tabel 2.10 tidak ditemukan data yang berpindah
sehingga iterasi selesai. Hasil yang didapatkan cluster 1 adalah data
1 dan 2 sementara itu cluster 2 adalah data 3 dan 4.
2.8 Metode Elbow
Metode Elbow adalah salah satu metode yang digunakan untuk menentukan
jumlah cluster terbaik melalui perbandingan hasil persentase antara jumlah cluster
yang akan membentuk siku pada suatu titik. Jika perbandingan nilai cluster pertama
dengan nilai cluster kedua menghasilkan sudut dalam grafik atau nilainya
mengalami penurunan paling besar maka jumlah nilai cluster tersebut yang tepat.
Untuk mendapatkan perbandingannya adalah dengan menghitung Sum of
Square Error (SSE) dari masing-masing nilai cluster. Karena semakin besar jumlah
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
19
nilai cluster K, maka nilai SSE akan semakin kecil (Dewi & Pramita, 2019).
Berikut rumus persamaan SSE :
𝑆𝑆𝐸 = ∑ ∑ |𝑥𝑖 − 𝑐𝑘|2𝐾𝐾=1 ……………..….……..(2.4)
Keterangan:
K = cluster ke-c
𝑥𝑖= jarak data obyek ke-i
𝑐𝑘 = pusat cluster ke-i
Contoh hitung Elbow :
Data
1 2 3 4 5 6 7 8 9 10
98 97,8 97 98,2 99,4 97,6 99,2 98,4 98,7 97,9
a. Hitung rata2 semua data
98 + 97,8 + 97 + 98,2 + 99,4 + 97,6 + 99,2 + 98,4 + 98,7 + 97,9
10= 98,22
b. Menghitung deviasi semua data dengan rumus 2.4
Setelah didapatkan rata-rata semua data maka langkah
selanjutnya adalah menghitung deviasi dimana nilai pada data akan
dikurang dengan rata rata.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
20
c. Menghitung SSE
SSE didapatkan dengan menjumlah seluruh hasil deviasi^2.
0,0484 + 0,1764 + 1,4884 + 0,0004 + 1,3924 + 0,3844
+ 0,9604 + 0,0324 + 0,2304 + 0,1024
= 4,816
Untuk perhitungan dataset ini didapatkan nilai SSE sebesar 4,816. Hasil
ini biasanya akan dibandingkan dengan SSE dari dataset lain dan kemudian
akan dipilih yang paling minimum karena jika semakin kecil errornya maka
data akan dianggap baik.
Penghitungan Deviasi Deviasi^2
98 – 98,22 -0,22 0,0484
97,8 – 98,22 -0,42 0,1764
97 – 98,22 -1,22 1,4884
98,2 – 98,22 -0,02 0,0004
99,4 – 98,22 1,18 1,3924
97,6 – 98,22 -0,62 0,3844
99,2 – 98,22 0,98 0,9604
98,4 – 98,22 0,18 0,0324
98,7 – 98,22 0,48 0,2304
97,9 – 98,22 0,32 0,1024
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
21
2.9 Metode Silhouette
Metode Silhouette Coefficient merupakan gabungan dari metode cohesion
dan separation. Metode ini sering digunakan untuk melihat kualitas dan kekuatan
cluster yaitu seberapa baik suatu objek ditempatkan dalam suatu cluster. Selain itu
dapat juga digunakan untuk mengukur seberapa dekat relasi antara objek dalam
sebuah cluster. Metode separation yang berfungsi untuk mengukur seberapa jauh
sebuah cluster terpisah dengan cluster lain.
Tahapan perhitungan Silhouette Coefficient adalah sebagai berikut:
A. Hitung rata-rata jarak dari suatu objek misalkan i dengan semua
objek lain yang masih berada dalam satu cluster
𝑎(𝑖) =1
|𝐴|−1∑ 𝑗 ∈𝑎,𝑗=1 𝑑(𝑖, 𝑗)……..………….( 2.5)
dengan j adalah objek lain yang berada dalam satu cluster A
dan d(i,j) adalah jarak antara objek i dengan j.
B. Hitung rata-rata jarak dari objek i tersebut dengan semua objek
yang berada di cluster lain, dan diambil nilai paling minimumnya.
𝑑(𝑖, 𝐶) =1
|𝐴|∑ 𝑗 ∈ 𝐶 𝑑(𝑖, 𝑗)………………..(2.6)
d(i,C) adalah jarak rata-rata objek i dengan semua objek pada
cluster lain C dimana A ≠ C.
𝑑(𝑖, 𝐶) = 𝑚𝑖𝑛 𝐶 ≠ 𝐴𝑑(𝑖, 𝑗)………..……….(2.7)
C. Nilai Silhouette Coefficient nya adalah :
𝑠(𝑖) =𝑏(𝑖)−𝑎(𝑖)
𝑚𝑎𝑥 (𝑎(𝑖),𝑏(𝑖))…………………( (2.8)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
22
Nilai yang didapat dari metode silhouette coefficient terletak pada
kisaran nilai -1 hingga 1. Jika nilai silhouette coefficient mendekati
nilai 1, maka semakin baik pengelompokan objeknya dalam satu
cluster. Sebaliknya jika silhouette coefficient mendekati nilai -1,
maka semakin buruk pengelompokan objeknya didalam satu cluster.
Contoh hitung Silhouette :
Tabel 2.11 Contoh Data Silhouette
Data Ciri 1 Ciri 2 Ciri 3 Ciri 4 Cluster
1 2 1 2 1 1
2 2 1 2 2 1
3 3 2 3 2 2
4 4 3 2 1 2
Menghitung nilai 𝑎𝑖 masing-masing data menggunakan rumus 2.5
a. Data 1 cluster 1:
d(data 1, data 2) =
√(2 − 2)2 + (1 − 1)2 + (2 − 2)2 + (1 − 2)2 = 1
nilai 𝑎𝑖 = 1/(2-1) = 1
b. Data 2 cluster 1:
d(data 2, data 1) =
√(2 − 2)2 + (1 − 1)2 + (2 − 2)2 + (2 − 1)2 = 1
nilai 𝑎𝑖 = 1/(2-1) = 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
23
c. Data 3 cluster 2:
d(data 3, data 4) =
√(3 − 4)2 + (2 − 3)2 + (3 − 2)2 + (2 − 1)2 = 2
nilai 𝑎𝑖 = 2/(2-1) = 2
d. Data 4 cluster 2:
d(data 4, data 3) =
√(4 − 3)2 + (3 − 2)2 + (2 − 3)2 + (1 − 2)2 =
2,645751
nilai 𝑎𝑖 = 2,645751/(2-1) = 2,645751
Menghitung nilai 𝑏𝑖masing-masing data dengan menggunakan
rumus 2.7
a. Data 1 cluster 1:
d(data 1, data 3) =
√(2 − 3)2 + (1 − 2)2 + (2 − 3)2 + (1 − 2)2 = 2
d(data 1, data 4) =
√(2 − 4)2 + (1 − 3)2 + (2 − 2)2 + (1 − 1)2 =
2,828427
nilai 𝑏𝑖 = (2,828427 – 2)/2 = 1,828427
b. Data 2 cluster 1:
d(data 2, data 3) =
√(2 − 3)2 + (1 − 2)2 + (2 − 3)2 + (2 − 2)2 =
1,732051
d(data 2, data 4) =
√(2 − 4)2 + (1 − 3)2 + (2 − 2)2 + (2 − 1)2 = 3
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
24
nilai 𝑏𝑖 = (3 – 1,732051)/2 = 2,133975
c. Data 3 cluster 2:
d(data 3, data 1) =
√(3 − 2)2 + (2 − 1)2 + (3 − 2)2 + (2 − 1)2 = 2
d(data 3, data 2) =
√(3 − 2)2 + (2 − 1)2 + (3 − 2)2 + (2 − 2)2 =
1,732051
nilai 𝑏𝑖 = (1,732051-2)/2 = 0,866026
d. Data 4 cluster 2:
d(data 4, data 1) =
√(4 − 2)2 + (3 − 1)2 + (2 − 2)2 + (1 − 1)2 =
2,828427
d(data 4, data 2) =
√(4 − 2)2 + (3 − 1)2 + (2 − 2)2 + (1 − 2)2 =
3
nilai 𝑏𝑖 = (3 – 2,828427)/2 = 1,585786
Menghitung nilai Si(Silhouette data) menggunakan rumus 2.8
a. Si data 1 = (1,828427-1)/1,828427 = 0,453082
b. Si data 2 = (2,133975-1)/ 2,133975 = 0,531391
c. Si data 3 = (0,866026-2)/ 0,866026 = -1,3094
d. Si data 4 = (1,585786-2,645751)/ 1,585786= -0,66842
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
25
Menghitung nilai SI tiap Cluster
a. Si cluster 1 = (0,453082+0,531391) = 0,984473
b. Si cluster 2 = (-1,3094 + (-0,66842) = -1,97782
Menghitung nilai SI global
Si global = (0,984473 + (-1,97782)) = -0,99334
Dari 4 data didapatkan nilai SI global (SI Keseluruahan data) yaitu -
0,99334. Hal ini menunjukan bahwa hasil pengelompokan akan memiliki struktur
yang buruk.
Untuk menentukan kualitas dari cluster yang telah dibentuk, maka semua
nilai silhouette dari semua data yang ada dalam cluster akan dijumlahkan lalu
dirata-rata. Berikut adalah kriteria penilaian suatu cluster menurut Kaufmann &
Roesseeuw(1990).
Tabel 2.12 Rentang nilai Silhouette Coefficient
Nilai Silhouette Coefficient Kualitas
0,71 – 1,00 Struktur yang kuat telah terbentuk
0,51 – 0,70 Struktur yang layak telah terbentuk
0,26 – 0,50 Struktur lemah
≤ 0,25 Struktur buruk
2.10 Nilai Ground Truth
Nilai ground truth merupakan salah satu cara validasi. Nilai ground
truth digunakan sebagai tolak ukur lain untuk mengukur akurasi dari suatu
proses yang dilakukan oleh mesin. Pada kasus clustering yang dengan nilai
ground truth adalah mengecek nilai kebenaran dari cluster yang telah
terbentuk dari proses clustering.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
26
Cara untuk menghitung nilai ground truth pada kasus clustering
aksara berpatokan pada rumus berikut ini:
𝐺𝑟𝑜𝑢𝑛𝑑 𝑇𝑟𝑢𝑡ℎ = 𝑗𝑢𝑚𝑙𝑎ℎ 𝑎𝑘𝑠𝑎𝑟𝑎 𝑏𝑒𝑛𝑎𝑟
𝑗𝑢𝑚𝑙𝑎ℎ 𝑎𝑘𝑠𝑎𝑟𝑎………..……….(2.9)
Rumus 2.9 bertujuan untuk menghitung nilai kebenaran dari proses
clustering dengan cara menghitung jumlah aksara yang benar sesuai dengan
kelompoknya lalu dibagi dengan jumlah keseluruhan data aksara.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
27
BAB III METODE PENELITIAN
3.1 Deskripsi Data
Set data mentah dalam penelitian ini diperoleh dari scan halaman dari buku
Hamong Tani (Holle, 1876). Data yang dipakai adalah aksara Jawa yang terdapat
pada halaman buku Hamong Tani. Banyak halaman yang digunakan adalah
sebanyak 2 halaman yaitu halaman 2 dan 59 hal ini berdasarkan dari pertimbangan
waktu yang diperlukan untuk mengolah data, banyak total data, dan pengerjaan
penelitian. Data yang nanti akan diolah akan dipotong sendiri-sendiri sehingga
aksara pokok akan terpisah dengan pasangan, angka, dan juga tanda baca.
Gambar 3.1 Halaman 2 buku Hamong Tani (Holle, 1876)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
28
Gambar 3.2 Halaman 59 buku Hamong Tani (Holle, 1876)
Pada Gambar 3.2 terdapat gambar bagian sisi kiri yang akan menyulitkan
proses segmentasi sehingga yang dilakukan adalah memotong gambar tersebut
sehingga hanya menyisahkan aksaranya saja.
Namun, set data yang diperoleh tersebut tidak dapat langsung diproses. Hal
ini dikarenakan harus dilakukan proses cropping terlebih dahulu dan juga masih
adanya noise yang terdapat pada tiap aksara sehingga harus dibersihkan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
29
Gambar 3.3 Contoh Citra Hasil Crop
Gambar 3.3 merupakan contoh data citra setelah cropping manual yang
masih mengandung banyak noise berupa bintik hitam yang terdapat ditengah-
tengah. Noise tersebut seharusnya tidak ada maka perlu dihilangkan untuk
memperoleh data yang bersih untuk mempermudah proses selanjutnya.
Tabel 3.1 Hasil Segmentasi Aksara pertama halaman 2
Pada Tabel 3.1 menunjukan hasil pemotongan yang memisahkan data
aksara pokok akan dengan pasangan, angka, dan juga tanda baca.
3.2 Pengolahan Data
Sebelum data akan dikelompokan dan diambil cirinya maka perlu adanya
pengolahan data. Pengolahan data dimulai dengan memasukan data citra hasil scan
halaman buku Hamong Tani ke matlab. Lalu data akan dibersihkan melalui proses
preprocessing dimana data citra yang hasil scan akan melalui berbagai tahap
preprocessing. Adapun tahap preprocessing tersebut adalah binerisasi, invers,
filtering, invers kembali. Hasil preprocessing adalah data citra yang sudah bersih
dan siap untuk disegmentasi. Dalam proses segmentasi citra akan dipotong per
karakter dengan profil projeksi ditambah dengan bwlabel dan kemudian di resize
ukurannya menjadi 33x33, 88x88, dan 60x60 lalu di thinning. Setelah itu data akan
di ekstraksi cirinya dengan ukuran IoC 3x3, 4x4, dan 5x5. Setelah diperoleh ciri
dari tiap data maka akan masuk ke proses clustering.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
30
3.3 Contoh Perhitungan 10 Data Dummy
Diambil 10 data dari total 597. Dari 10 data tersebut 3 data adalah pepet, 5
data adalah sa, dan 2 data adalah ma.
Gambar 3.4 Data Dummy Berjumlah 10
Dari 10 data tersebut diambil cirinya
Tabel 3.2 Ciri IoC 3x3 10 Data Dummy
Aksara Ciri 1 Ciri 2 Ciri 3 Ciri 4 Ciri 5 Ciri 6 Ciri 7 Ciri 8 Ciri 9
Pepet 1 8 15 21 16 0 13 14 18 24
Pepet 2 7 15 22 23 0 18 7 11 25
Pepet 3 6 16 22 20 0 13 8 25 20
Ta 1 16 22 17 20 11 11 27 24 19
Ta 2 22 22 16 23 13 16 27 23 14
Ta 3 22 22 17 22 11 16 29 24 14
Ta 4 14 22 19 22 11 15 24 25 15
Ta 5 16 22 17 22 13 15 27 22 14
Ma 1 12 14 14 13 16 12 24 26 16
Ma 2 15 15 14 13 10 11 21 25 21
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
31
1. Proses K-Means
a. Dipilih 3 awal centroid yaitu pepet 1, ta 2, dan ma 1.
Tabel 3.3 Centroid Awal
Centroid Ciri 1 Ciri 2 Ciri 3 Ciri 4 Ciri 5 Ciri 6 Ciri 7 Ciri 8 Ciri 9
Pepet 1 8 15 21 16 0 13 14 18 24
Ta 2 22 22 16 23 13 16 27 23 14
Ma 1 12 14 14 13 16 12 24 26 16
b. Hasil Iterasi 1, Penghitungan jarak menggunakan rumus euclidean.
Data pepet masuk ke cluster 1, data ta masuk ke cluster 2, dan data
ma masuk ke cluster 3.
Tabel 3.4 Hasil Iterasi 1
X1 X2 X3 C1 C2 C3
0 28.12472222 23.66431913 v
13.22875656 33.88214869 32.81767816 v
11.09053651 30.2654919 26.13426869 v
22.36067977 10.04987562 13.6381817 v
28.12472222 0 17.74823935 v
28.0713377 3.31662479 18.11077028 v
21.9089023 9.643650761 14.49137675 v
24.95996795 6.32455532 14.73091986 v
23.66431913 17.74823935 0 v
17.8325545 18.02775638 9.055385138 v
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
32
c. Lalu menghitung centroid baru yang akan digunakan di Iterasi 2
Tabel 3.5 Centroid Baru
Centroid
Baru
Ciri 1 Ciri 2 Ciri 3 Ciri 4 Ciri 5 Ciri 6 Ciri 7 Ciri 8 Ciri 9
c1 7 15.34 21.67 19.67 0 14.67 9.67 18 23
c2 18 22 17.2 21.8 11.8 14.6 26.8 23.6 15.2
c3 13.5 14.5 14 13 13 11.5 22.5 25.5 18.5
d. Menghitung jarak lagi dengan centroid baru. Hasil iterasi 2 sama
dengan hasil iterasi 1 dimana tidak ada perpidahan data sehingga
dianggap selesai dan terbentuk 3 cluster.
Tabel 3.6 Hasil Iterasi 2
X1 X2 X3 C1 C2 C3
6.12825877 24.72893043 20.45727255 v
9.08600878 31.49793644 30.17449254 v
8.076027626 26.95403495 23.5690475 v
25.18376902 5.95986577 12.1449578 v
29.8310055 4.911211663 17.3060683 v
30.16988933 5.011985634 17.53567792 v
23.35713072 5.469917732 13.91042774 v
25.40778533 3.117691454 14.7478812 v
26.6749987 15.04393566 4.527692569 v
21.499354 15.20263135 4.527692569 v
Dari hasil diatas dapat disimpulkan bahwa data 1, 2, dan 3 akan masuk ke cluster
1, lalu data 4, 5, 6, 7, dan 8 akan masuk ke cluster 2, serta data 9 dan 10 akan masuk
ke cluster 3 sehingga terbentuk 3 cluster.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
33
2. Proses Silhouette
a. Setelah didapatkan pengelompokan menjadi 3 kelompok akan dihitung SI
tiap datanya.
Tabel 3.7 Data Silhouette Hasil K-Means Clustering
8 15 21 16 0 13 14 18 24 Cluster 1
7 15 22 23 0 18 7 11 25 Cluster 1
6 16 22 20 0 13 8 25 20 Cluster 1
16 22 17 20 11 11 27 24 19 Cluster 2
22 22 16 23 13 16 27 23 14 Cluster 2
22 22 17 22 11 16 29 24 14 Cluster 2
14 22 19 22 11 15 24 25 15 Cluster 2
16 22 17 22 13 15 27 22 14 Cluster 2
12 14 14 13 16 12 24 26 16 Cluster 3
15 15 14 13 10 11 21 25 21 Cluster 3
b. Menghitung jarak tiap data ke data yang lain dengan rumus euclidean.
Tabel 3.8 Penghitungan Jarak Antar Data
Data 1 Data 2 Data 3 Data 4 Data 5 Data 6 Data 7 Data 8 Data 9 Data 10
Data 1 0.00 13.23 11.09 22.36 28.12 28.07 21.91 24.96 23.66 17.83
Data 2 13.23 0.00 16.06 30.64 33.88 34.63 28.69 31.24 32.82 28.02
Data 3 11.09 16.06 0.00 25.48 30.27 30.48 22.78 27.28 26.13 21.66
Data 4 22.36 30.64 25.48 0.00 10.05 9.70 7.35 7.28 13.64 12.25
Data 5 28.12 33.88 30.27 10.05 0.00 3.32 9.64 6.32 17.75 18.03
Data 6 28.07 34.63 30.48 9.70 3.32 0.00 9.80 7.00 18.11 18.11
Data 7 21.91 28.69 22.78 7.35 9.64 9.80 0.00 5.57 14.49 14.76
Data 8 24.96 31.24 27.28 7.28 6.32 7.00 5.57 0.00 14.73 16.09
Data 9 23.66 32.82 26.13 13.64 17.75 18.11 14.49 14.73 0.00 9.06
Data 10 17.83 28.02 21.66 12.25 18.03 18.11 14.76 16.09 9.06 0.00
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
34
c. Menghitung ai tiap data dengan menghitung rata-rata nilai dikelompoknya
saja dan juga menghitung bi dimana akan menghitung rata-rata nilai dari
kelompok lainnya. Untuk bi akan dipilih yang paling kecil dari hasil yang
didapatkan.
Tabel 3.9 Penghitungan ai dan bi Data 1-5
ai 1 12.16 ai 2 9.76 ai 3 9.05 26.16 30.76
25.09 31.82 27.26 ai 4 6.87 ai 5 5.87
bi 1 20.75 bi 2 30.42 bi 3 23.90 bi 4 12.94 bi 5 17.89
Tabel 3.10 Penghitungan ai dan bi Data 6-10
31.06 24.46 27.83 27.54 22.50
ai 6 5.96 ai 7 6.47 ai 8 5.23 bi 9 15.74 bi 10 15.85
bi 6 18.11 bi 7 14.63 bi 8 15.41 ai 9 4.53 ai 10 4.53
d. Menghitung SI tiap data dengan cara 1 dikurang dengan ai dibagi bi
Tabel 3.11 Hasil SI Tiap Data
S(i) 1 0.4139487886
S(i) 2 0.6790128494
S(i) 3 0.621224377
S(i) 4 0.4688355832
S(i) 5 0.6720180009
S(i) 6 0.670804245
S(i) 7 0.5575933506
S(i) 8 0.6603673416
S(i) 9 0.7124160301
S(i) 10 0.7143205267
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
35
e. Menghitung akurasi silhouette dari hasil k-means 3 cluster ini dengan cara
menghitung rata-rata SI dari semua data.
Tabel 3.12 Hasil Akurasi Silhouette
Akurasi Silhouette
0.6170541093
Didapatkan hasil SI K = 3 ini sebesar 0,62 dimana dalam arti silhouette berarti
sudah membentuk struktur pengelompokan yang layak. Hasil ini akan dibuat
sebagai perbandingan dengan nilai SI cluster lainnya.
3. Proses Elbow
a. Dari hasil penghitungan jarak k-means pada iterasi ke 2 diambil nilai yang
menunjukan posisi cluster (paling kecil).
Tabel 3.13 Data Jarak K-Means Iterasi 2
6.12825877
9.08600878
8.076027626
5.95986577
4.911211663
5.011985634
5.469917732
3.117691454
4.527692569
4.527692569
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
36
b. Kemudian menjumlah seluruh jarak pada data yang terbagi menjadi 3
cluster.
Tabel 3.14 Penjumlahan Jarak 3 Cluster
Cluster 1 23.29029518
Cluster 2 24.47067225
Cluster 3 9.055385138
c. Lalu dicari distortionnya dengan menjumlah dari seluruh nilai jarak cluster.
Tabel 3.15 Hasil Distortion Elbow
Distortion 56.81635257
Didapatkan distortion untuk K=3 sebesar 56.81635257. Data distortion inilah yang
akan diolah untuk mencari nilai K terbaik dengan membandingkan nilai distortion
dari K lainnya.
3.4 Perancangan Sistem
Sistem ini akan lakukan pengelompokan citra aksara Jawa menggunakan
metode K-Means. Pengelompokan citra akan dilakukan berdasarkan kesamaan ciri
atau bentuk. Proses pertama adalah sistem akan membaca ciri citra aksara jawa
yang akan diproses dari input user. Setelah itu sistem akan melakukan clustering
dengan k-means lalu hasil clusteringnya akan dievaluasi dengan menggunakan 2
metode yaitu metode elbow dan juga metode silhouette. Hasil evaluasi tersebut akan
menjadi saran nilai K yang dinilai ideal antara 2 metode tersebut. Hasil clustering
kedua metode juga akan ditampilkan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
37
Gambar 3.5 Diagram Perancangan Sistem
Terdapat banyak tahapan yang dilakukan pada penelitian ini. Yang pertama
kali dilakukan adalah pengumpulan data yang berupa buku hamong tani halaman 2
dan 59. Kemudian data itu akan dilakukan preprocessing guna mendapatkan data
yang bersih dan bagus. Setelah itu akan disegmentasi untuk mendapatkan tiap tiap
aksaranya. Lalu akan diambil ciri untuk tiap aksaranya dengan menggunakan
Intensity of Character. Data ciri kemudian akan dikelompokan menggunakan k-
means clustering yang mana akan menghasilkan jumlah cluster, idx, dan sumd.
Kemudian idx akan digunakan untuk evaluasi silhouette dan sumd akan digunakan
untuk evaluasi elbow. Hasil kedua metode tersebut akan dibandingkan untuk
mencari K terbaiknya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
38
Gambar 3.6 Flowchart Penelitian
Flowchart pada Gambar 3.6 akan dijelaskan tiap tahapnya secara lengkap
dengan langkah-langkah sebagai berikut :
a. Preprocessing
Berdasarkan Flowchart pada Gambar 3.6, data yang berupa scan halaman
dari buku Hamong Tani akan diproses dengan berbagai metode preprocessing
seperti binerisasi, invers, filtering, dan invers kembali. Lalu data hasil
preprocessing tersebut akan siap diolah di tahap segmentasi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
39
Gambar 3.7 Diagram Preprocessing
i. Input
Input yang akan diolah pada tahap ini adalah data aksara Jawa dari
halaman buku Hamong Tani.
ii. Output
Output dari tahap ini adalah data hasil preprocessing yang
merupakan data bersih dan siap dipakai untuk tahap selanjutnya.
iii. Algoritma
Pada tahap preprocessing, citra aksara jawa akan melalui berbagai
tahapan pemprosesan citra. Tahapan tersebut adalah :
1. Binerisasi Citra
Pada tahap ini mengubah citra tadi menjadi hanya memiliki
warna yang bernilai 0 (hitam) dan 1 (putih) saja. Pada tahapan
ini menggunakan function im2bw() yang merupakan function
dari MATLAB. Algoritma Binerisasinya yaitu :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
40
1. Baca data citra yang akan diolah menggunakan function
imread dan akan disimpan pada sebuah variabel bernama
aksara.
2. Data yang tersimpan dalam variabel aksara akan diubah
menjadi citra hitam-putih dengan function im2bw. Lalu
hasil binerisasi akan disimpan pada variabel hasilbw.
2. Invers Citra
Pada tahap ini citra hasil binerisasi akan ditukar nilai
warnanya dimana nilai 0 (hitam) akan menjadi 1 (putih) dan nilai
1 (putih) akan menjadi 0 (hitam). Pada tahapan ini digunakan
function imcomplement() yang merupakan function dari
MATLAB.
1. Baca data citra yang akan diolah menggunakan function
imread dan akan disimpan pada sebuah variabel bernama
aksara.
2. Data yang tersimpan dalam variabel aksara akan diubah
menjadi citra hitam-putih dengan function im2bw. Lalu
hasil binerisasi akan disimpan pada variabel hasilbw.
3. Data citra yang tersimpan dalam variabel hasilbw akan
dilakukan proses invers dengan function imcomplement.
Lalu hasil binerisasi akan disimpan pada variabel
hasilinvers.
3. Filtering Citra
Pada tahap ini citra hasil invers akan difilter untuk
menghilangkan noise seperti noda bintik hitam yang terdapat
pada citra. Dalam kasus ini yang dihilangkan adalah bintik putih
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
41
karena citra telah melalui tahap invers sehingga nilai warnanya
tertukar. Pada tahapan ini digunakan function bwareaopen()
yang merupakan function dari MATLAB.
1. Baca data citra yang akan diolah menggunakan function
imread dan akan disimpan pada sebuah variabel bernama
aksara.
2. Data yang tersimpan dalam variabel aksara akan diubah
menjadi citra hitam-putih dengan function im2bw. Lalu
hasil binerisasi akan disimpan pada variabel hasilbw.
3. Data citra biner yang tersimpan dalam variabel hasilbw
akan dilakukan proses invers dengan function
imcomplement. Lalu hasil binerisasi akan disimpan pada
variabel hasilinvers.
4. Data citra hasil invers yang tersimpan dalam variabel
hasilinvers akan dilakukan proses filtering dengan
function bwareaopen. Lalu hasil filtering akan disimpan
pada variabel hasilfilter.
4. Invers Citra Kembali
Pada tahap ini citra hasil fitering akan ditukar kembali nilai
warnanya dimana nilai 1 (putih) akan menjadi 0 (hitam) dan nilai
0 (hitam) akan menjadi 1 (putih). Pada tahapan ini digunakan
function imcomplement() yang merupakan function dari
MATLAB.
1. Baca data citra yang akan diolah menggunakan function
imread dan akan disimpan pada sebuah variabel bernama
aksara.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
42
2. Data yang tersimpan dalam variabel aksara akan diubah
menjadi citra hitam-putih dengan function im2bw. Lalu
hasil binerisasi akan disimpan pada variabel hasilbw.
3. Data citra biner yang tersimpan dalam variabel hasilbw
akan dilakukan proses invers dengan function
imcomplement. Lalu hasil binerisasi akan disimpan pada
variabel hasilinvers.
4. Data citra hasil invers yang tersimpan dalam variabel
hasilinvers akan dilakukan proses filtering dengan
function bwareaopen. Lalu hasil filtering akan disimpan
pada variabel hasilfilter.
5. Data citra hasil filtering yang tersimpan dalam variabel
hasilfilter akan dilakukan proses invers kembali dengan
function imcomplement. Lalu hasil invers kembali akan
disimpan pada variabel hasilinverslagi.
b. Segmentasi
Berdasarkan Flowchart pada Gambar 3.6, data yang telah melalui proses
preprocessing akan diambil tiap aksaranya dengan mengunakan profil projeksi.
Setelah didapat semua aksaranya kemudian akan di resize lalu ditipiskan. Data tiap
aksara yang sudah tipis ini akan diambil cirinya pada tahap selanjutnya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
43
Gambar 3.8 Diagram Segmentasi
i. Input
Input yang akan diolah pada tahap ini adalah data citra aksara jawa
yang merupakan hasil dari tahap preprocessing.
ii. Output
Output dari tahap ini adalah data hasil segmentasi yang merupakan
potongan aksara yang memiliki ukuran yang sama.
iii. Algoritma
Pada tahap segmentasi, citra aksara jawa akan melalui berbagai
tahapan pemprosesan citra. Tahapan tersebut adalah :
1. Profil Projeksi
Pada tahap ini citra yang telah selesai dipreprocessing akan
dipotong untuk mendapatkan bentuk karakter aksara secara utuh
per karakter. Pada tahapan ini digunakan function VerProj dan
bwlabel. Function bwlabel ini akan mengambil karakter yang
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
44
dilihat dari isi label yang terhubung dengan 8 titik hitam yang
ditemukan dibaris tersebut.
1. Baca data citra hasil preprocessing menggunakan
function imread dan akan disimpan pada sebuah variabel
bernama data.
2. Data citra tersimpan dalam variabel aksara akan
dilakukan pengambilan baris dengan function VerProj(). Lalu
hasilnya akan dimasukan ke excel untuk dibuat grafik.
3. Lalu dilakukan pengambilan karakter untuk tiap baris
menggunakan function bwlabel(). Hasilnya akan disimpan
kedalam folder menggunakan function imwrite().
2. Resize Citra
Pada tahap ini hasil semua segmentasi akan diubah
ukurannya. Tahap ini dilakukan agar seluruh data memiliki
ukuran yang sama sehingga mempermudah proses ekstraksi ciri.
Pada tahapan ini digunakan function imresize() yang merupakan
function dari MATLAB.
3. Penipisan Citra
Pada tahap ini citra yang telah diinvers kembali akan
ditipiskan. Hal ini bertujuan untuk mengambil bagian kerangka
saja dari tiap aksara dengan cara membuang bagian pixel yang
merupakan bagian tepi (edge) (Widiarti, 2011). Pada tahapan ini
digunakan function Rosenfeld().
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
45
1. Baca data citra hasil resize menggunakan function
imread dan akan disimpan pada sebuah variable bernama
aksara.
2. Data citra tersimpan dalam variabel aksara akan
dilakukan proses penipisan dengan function rosenfeld.
Lalu hasil penipisan akan disimpan pada variabel
hasiltipis.
c. Ekstraksi Ciri
Berdasarkan Flowchart pada Gambar 3.6, ditahapan ekstraksi ciri seluruh
data yang sudah ditipiskan hasil proses segmentasi akan diambil cirinya yang akan
digunakan dalam proses pengelompokan data. Pada proses ini, metode yang
digunakan adalah Intensity of Character (IoC).
Gambar 3.9 Diagram Ekstraksi Ciri
i. Input
Input yang akan diolah pada tahap ini adalah data citra aksara jawa
yang merupakan hasil dari tahap segmentasi sebanyak 597.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
46
ii. Output
Output dari tahap ini adalah data hasil ekstraksi ciri yang merupakan
array berisi matriks untuk tiap aksara.
iii. Algoritma
Pada tahap ekstraksi ciri, citra aksara jawa akan melalui
pengambilan ciri citra. Cara yang digunakan adalah :
Intensity of Character
Pada tahap ini data aksara yang telah melalui tahap
preprocessing dan segmentasi akan dilakukan proses ekstraksi ciri
dengan IoC. Perhitungan IoC dilakukan dengan mengubah matrik
hasil segmentasi menjadi matriks baru dengan ukuran NxN dengan
cara menambah jumlah piksel hitam sebanyak ukuran gambar dibagi
dengan ukuran matriks IoC. Banyak data citra yang dipakai adalah
597. Ukuran IoC yang digunakan adalah 3x3 yang menghasilkan 9
kolom dan 597 baris, 4x4 yang menghasilkan 16 kolom dan 597
baris, dan 5x5 yang menghasilkan 25 kolom dan 597 baris.
1. Buka berkas masukan, misal = aksara
2. Set tinggi = size(aksara,1)
3. Set lebar = size(aksara,2)
4. Bagi aksara menjadi 9/16/25 bagian
5. Cari jumlahan piksel yang bernilai 0 di setiap bagian
karakter
6. Simpan ciri tersebut menjadi ciri dari karakter yang
bersangkutan ke dalam file ciriAksara.mat
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
47
d. Clustering K-Means
Berdasarkan Flowchart pada Gambar 3.6, hasil ekstraksi ciri tadi akan
dikelompokan menggunakan Metode clustering K-Means dengan menggunakan
tools dari MATLAB sehingga ciri IoC dari citra yang digunakan hanya tinggal
dimasukkan kedalam tools dan mengatur jumlah K yang diperlukan dimana dalam
penelitian ini K nya diatur sebanyak 597 (seluruh data). Pada bagian ini terdapat 3
variabel penting yaitu datacluster, idx, dan sumd. Datacluster berisi citra yang sudah
dikelompokan sesuai clusternya. Idx berisi index yang menentukan citra tersebut
masuk ke kelompok mana. Sumd adalah jumlah jarak antar titik ke centroid dalam
cluster.
Gambar 3.10 Diagram K-Means
i. Input
Input yang akan diolah pada tahap ini adalah data cell matriks tiap
citra yang merupakan hasil dari tahap ekstraksi ciri.
ii. Output
Output dari tahap ini adalah data tabel cluster, idx, dan sumd yang
merupakan hasil proses clustering menggunakan K-means.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
48
iii. Algoritma
Pada tahap clustering, data sel matriks akan melalui tahapan
clustering. Tahapan tersebut adalah :
K-Means
Pada tahap ini data hasil ekstraksi ciri aksara akan dilakukan
proses clustering menggunakan K-Means. Nilai K akan dimulai
dari 2 hingga 597. Kemudian akan hasil dari tiap kali melakukan
clustering yang dilakukan akan disimpan kedalam sel untuk
proses selanjutnya. Pada tahapan ini digunakan function
kmeans() yang merupakan function dari MATLAB.
Input : jumlah K, data ciri hasil ekstraksi ciri
CC=data ciri
[idx,C,sumd]=kmeans(CC,K);
Datacluster = cell(K,1);
For i=1:K
Datacluster{i}=CC(idx=1,:);
end
Output : cell hasil clustering, idx, sumd
e. Evaluasi Hasil Clustering
Setelah didapatkan sel yang berisi kumpulan hasil clustering K-Means maka
akan dilakukan evaluasi menggunakan metode elbow dan silhouette. Untuk idx
hasil clustering akan dipakai dalam evaluasi silhouette dan untuk sumd akan dipakai
dalam evaluasi elbow.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
49
Gambar 3.11 Diagram Evaluasi Hasil Clustering
i. Input
Input yang akan diolah pada tahap ini adalah hasil tabel clustering
tiap nilai K yang merupakan hasil dari tahap clustering.
ii. Output
Output dari tahap ini adalah nilai K terbaik yang merupakan hasil
proses analisis yang membandingkan 2 metode.
iii. Algoritma
Pada tahap evaluasi, data clustering tiap K akan melalui berbagai
tahapan evaluasi. Tahapan tersebut adalah :
1. Evaluasi Elbow Method
Pada tahap ini data hasil clustering berupa sumd
menggunakan K-Means akan dihitung nilai SSE untuk tiap
cluster. Dari seluruh nilai SSE yang didapat dari tiap cluster
akan dicari yang terbaik nilainya. Cluster yang memiliki nilai
SSE 0,90 pertama akan menjadi nilai K untuk dibandingkan
dengan metode Silhouette Coefficient. Output dari evaluasi ini
adalah hasil perhitungan SSE semua data dan juga grafik elbow.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
50
2. Evaluasi Silhouette Coefficient
Pada tahap ini data hasil clustering berupa idx menggunakan
K-Means akan dihitung nilai Silhouette Index untuk tiap cluster.
Dari seluruh nilai Silhouette Index yang didapat dari tiap cluster
akan dicari yang terbaik nilainya. Akan digunakan 3 rumus jarak
yaitu default(squared euclidean), cosine, dan cityblock. Cluster
yang memiliki nilai Silhouette Index 0,5 pertama pada hasil
hitung dengan jarak default(squared euclidean), lalu untuk jarak
cosine dan cityblock akan diambil nilai Silhouette Index tertinggi
dan akan menjadi nilai K untuk dibandingkan dengan metode
Elbow. Output dari evaluasi ini adalah hasil perhitungan
Silhouette Index semua data dan juga grafik silhouette.
3. Bandingkan Hasil Evaluasi
Pada tahap ini nilai K dari Elbow Method dan nilai K dari
Silhouette Coefficient akan dibandingkan. Metode yang
memiliki nilai K yang terbaiklah yang akan dianggap sebagai
metode yang lebih ideal untuk clustering menggunakan K-
Means.
3.5 Cara Pengujian
Pada tahap ini akan dilakukan proses pengujian. Pengujian yang
dilakukan adalah dengan cara :
1. Mengubah nilai K mulai dari 2, 3, 4, seterusnya hingga nilai
K 597.
2. Kemudian untuk ciri Intensity of Character yang digunakan
ukuran 3x3, 4x4, dan 5x5. Ukuran resize yang dipakai adalah
30x30, 88x88, dan 60x60.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
51
3. Untuk Evaluasi Silhouette digunakan 3 jarak yang berbeda
yaitu jarak default (squared euclidean), cosine, dan
cityblock.
4. Memfokuskan pengelompokan sampai K hanya sampai 120
berdasarkan pengamatan jumlah aksara Jawa (pokok,
pasangan, sandhangan, angka, dll) dan juga pertimbangan
yang telah didiskusikan.
5. Menghitung akurasi hasil clustering K-Means K 65 untuk
597 data dan K 14 untuk 247 data 20 aksara pokok
menggunakan ground truth.
3.6 Kebutuhan Sistem
Pada penelitian ini menggunakan berbagai macam software dan
hardware. Adapun hardware dan software yang digunakan pada penelitian
ini adalah sebagai berikut:
3.6.1 Perangkat Keras (Hardware)
Adapun spesifikasi dari Personal Computer yang digunakan dalam
pembuatan sistem ini adalah :
Tabel 3.16 Perangkat Keras
Model Acer Swift 3
Platform Notebook-PC
Processor Intel Core i5-8250u
Harddisk 1 TB
Graphics Processing Unit Nvidia GeForce MX150
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
52
Operation System Microsoft Windows 10
Memory 8GB DDR4
3.6.2 Perangkat Lunak (Software)
Perangkat lunak yang digunakan dalam penelitian ini adalah
MATLAB R2014a guna perancangan dan menjalankan sistem yang dibuat.
3.7 Desain GUI
Gambar 3.12 Desain GUI
Ketika user melakukan browse file IoC maka akan memilih file yang
berisikan kumpulan ciri citra aksara Jawa yang akan diproses. Kemudian user
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
53
memasukan nilai K yang akan digunakan untuk clustering K-Means. Lalu user
memilih jarak yang akan digunakan pada penghitungan silhouette.
Output yang muncul ketika user menekan tombol Mulai adalah hasil
Distortion dari metode Elbow dan juga hasil SI dari metode Silhoutte untuk nilai K
yang dimasukkan oleh user.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
54
BAB IV HASIL DAN ANALISIS
4.1 Data
Data yang digunakan adalah Data Citra aksara Jawa yang berjumlah 597
citra aksara. Data yang digunakan diperoleh dari buku Hamong Tani halaman 2 dan
59. Untuk mendapatkan datanya hal yang dilakukan adalah proses preprocessing
yang meliputi binerisasi, invers, dan filtering. Hasil dari halaman Hamong Tani
yang telah dipreprocessing akan diambil tiap aksaranya menggunakan proses
segmentasi profile projeksi dan bwlabel. Lalu dilakukan proses resize yang
ukurannya tergantung dengan kebutuhan IoC dan setelah itu dikenakan proses
penipisan citra menggunakan rosenfeld. Tahap selanjutnya adalah Ekstraksi ciri
menggunakan Intensity of Character atau bisa disingkat IoC. Ukuran yang
digunakan adalah 3x3, 4x4, dan 5x5.
4.2 Implementasi Preprocessing
a. Implementasi Binerisasi
Data yang telah dibaca menggunakan fungsi MATLAB kemudian akan
dilakukan proses binerisasi yang mana akan merubah citra warna menjadi citra
hitam putih dengan menggunakan fungsi im2bw.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
55
Tabel 4.1 Perbandingan Citra Awal dan Hasil Binerisasi
Citra Awal Citra Hasil Binerisasi
Dari Tabel 4.1 hasil binerisasi dapat dilihat citra sebelah kiri terlihat tidak
terlalu jelas, buram, dan warna yang kurang baik. Hasil proses binerisasi ini
menunjukan hasil yang tampak lebih jelas dicitra sebelah kanan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
56
b. Implementasi Invers
Data yang telah melalui proses binerisasi akan ditukar warnanya dimana
hitam menjadi putih dan putih menjadi hitam dengan menggunakan fungsi
imcomplement, tujuannya untuk proses selanjutnya sehingga data menjadi bersih.
Tabel 4.2 Perbandingan Hasil Binerisasi dan Hasil Invers
Citra Hasil Biner Citra Hasil Invers
Dari Tabel 4.2 dapat dilihat aksaranya menjadi berwarna putih dan latar
belakangnya menjadi berwarna hitam. Lalu noda-noda yang berbentuk titik kecil
juga berubah menjadi putih. Titik putih inilah yang akan dihilangkan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
57
c. Implementasi Filtering
Data yang awalnya telah diinvers akan dihilangkan noisenya dimana akan
menghilangkan titik putih dengan menggunakan menggunakan fungsi bwareaopen.
Tabel 4.3 Perbandingan Hasil Filtering
Sebelum Filtering Setelah Filtering
Dari Tabel 4.3 hasil perbandingannya sudah terlihat dimana gambar disisi
kanan noda titik putih sudah menghilang dan data menjadi bersih dibanding
gambar disisi kiri yang terlihat terdapat banyak noda titik putih.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
58
d. Implementasi Invers Kembali
Data yang telah dibersihkan akan diinvers lagi dimana hitam menjadi putih
dan putih menjadi hitam dengan menggunakan fungsi imcomplement.
Tabel 4.4 Perbandingan Hasil Invers Kembali
Hasil Filtering Setelah diinvers Kembali
Dari Tabel 4.4 hasil perbandingannya terlihat dimana aksara yang awalnya
putih menjadi hitam dan juga latar belakang hitam diubah menjadi putih.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
59
4.3 Implementasi Segmentasi
a. Projeksi Horisontal
Data yang telah melalui proses preprocessing tadi akan diambil tiap
karakternya menggunakan proses segmentasi. Proses dilakukan dengan
menggunakan projeksi Horisontal. Hasil dari projeksi Horisontal tadi kemudian
akan dimasukkan ke dalam excel untuk dibentuk grafik garis dimana dari grafik
tersebut dapat dilihat mana yang berupa baris mana yang area kosong (jarak antar
baris). Kemudian hasil excel ini akan menjadi acuan pengambilan baris dengan
melanjutkan ke MATLAB untuk mendapatkan data perbaris yang nanti akan
berjumlah masing-masing 20 untuk tiap halaman.
Gambar 4.1 Hasil Projeksi Horisontal Halaman 2
Melihat dari grafik pada Gambar 4.1 dapat diambil kesimpulan bahwa pada
halaman 2 terdapat 20 baris data karena titik puncaknya berjumlah 20.
0
50
100
150
200
250
300
1
44
87
13
0
17
3
21
6
25
9
30
2
34
5
38
8
43
1
47
4
51
7
56
0
60
3
64
6
68
9
73
2
77
5
81
8
86
1
90
4
94
7
99
0
10
33
10
76
11
19
11
62
12
05
12
48
Nila
i Leb
ar H
alam
an 2
Panjang Data Halaman 2
Projeksi Horisontal Halaman 2
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
60
Gambar 4.2 Hasil Projeksi Horisontal Halaman 59
Sama seperti sebelumnya dilihat dari grafik pada Gambar 4.2 dapat diambil
kesimpulan bahwa pada halaman 59 terdapat 20 baris data karena titik puncaknya
berjumlah 20.
0
20
40
60
80
100
1201
44
87
13
0
17
3
21
6
25
9
30
2
34
5
38
8
43
1
47
4
51
7
56
0
60
3
64
6
68
9
73
2
77
5
81
8
86
1
90
4
94
7
99
0
10
33
10
76
11
19
11
62
12
05
12
48
Nila
i Leb
ar H
alam
an 5
9
Panjang Data Halaman 59
Projeksi Horisontal Halaman 59
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
61
b. Projeksi Vertikal
Setelah didapatkankan data per baris akan diambil tiap aksaranya
menggunakan fungsi bwlabel. Fungsi ini akan mengambil tiap karakter yang
terdapat pada inputan baris hasil dari projeksi horisontal.
Gambar 4.3 Contoh Hasil Segmentasi Baris 1
c. Implementasi Resize
Hasil segmentasi yang telah didapatkan tiap askara akan dilakukan resize
ukuran citra menggunakan fungsi imresize.
Tabel 4.4 Perbandingan Hasil Resize
Hasil Segmentasi
ukuran 35x13
Hasil resize
ukuran 33x33
Hasil resize ukuran
88x88
Hasil resize
ukuran 60x60
Dapat dilihat perubahan ukuran secara drastis pada tiap kolom di Tabel 4.4
dimana keempat gambar aksara memiliki ukuran yang berbeda.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
62
d. Implementasi Thinning
Data yang telah resize kemudian dilakukan proses pengambilan kerangka
aksara dengan menggunakan metode rosenfeld sehingga menghasilkan citra dengan
bentuk kerangka citra saja.
Tabel 4.5 Perbandingan Citra Awal dengan Hasil Penipisan
Citra Awal Hasil Rosenfeld
Dari Tabel 4.5 dapat dilihat digambar kiri masih merupakan 1 aksara yang
utuh dan disisi kanan hanya menyisakan kerangka citra saja. Hasil dari proses
penipisan dengan metode rosenfeld mendapatkan hasil penipisan yang baik yaitu
tepat kerangka dan dan tidak terdapat gambar latar sehingga bisa digunakan untuk
proses selanjutnya.
4.4 Implementasi Ekstraksi Ciri
Ciri yang digunakan dalam penelitian ini adalah Intensity of Character.
Ukuran yang digunakan dalam penelitian ini adalah 3x3, 4x4, dan 5x5. Ciri tersebut
diperoleh dengan cara menghitung nilai piksel hitam dalam matriks citra hasil
preprocessing sehingga setiap halaman adalah hasil penjumlahan dari pixel hitam.
Hasil dari ekstraksi ciri IoC adalah data berbentuk sel yang berisi masing-
masing ukuran IoC aksara yang telah diproses. Proses selanjutnya adalah mengubah
hasil ekstraksi ciri yang awalnya berbentuk sel menjadi berbentuk array untuk
mempermudah proses clustering. Hasil pengubahan sel menjadi array ini
menghasilkan matriks berukuran 597x9 untuk ciri 3x3, 597x16 untuk ciri 4x4 dan
597x25 untuk ciri 5x5 dimana 597 merupakan banyak data pada penelitian.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
63
Tabel 4. 6 Tabel Contoh Hasil Rosenfeld
Data Aksara 1
Ukuran 33x33
Data Aksara 1 ketika ditampilkan pikselnya dan dipindahkan kedalam excel
akan menjadi seperti ini, dimana piksel bernilai 1 akan berwarna putih dan piksel
bernilai 0 akan berwarna hitam.
Gambar 4. 4 Hasil IoC Data Aksara 1 Setelah dipindah ke Excel
Setelah itu akan dibagi menjadi 9 bagian, sebagai contoh adalah gambar
berikut dimana data IoC 3x3 tadi dibagi menjadi 9 warna yang mana tiap warna
akan memiliki 11 baris dan 11 kolom.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
64
Gambar 4. 5 Pembagian Hasil IoC ke 9 Warna
Kemudian akan di hitung berapa jumlah piksel bernilai 0 pada tiap bagian
warna tersebut. Piksel bernilai 0 inilah yang sebenarnya membentuk kerangka dari
data citra.
Gambar 4. 6 Seleksi Piksel Bernilai 0
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
65
Didapatkan total penghitungan piksel bernilai 0 untuk semua bagian warna
sebagai berikut :
Tabel 4. 7 Hasil Penghitungan Ciri IoC 3 Aksara 1
Warna Total Piksel Bernilai 0
Merah = Ciri 1 22
Biru Pucat = Ciri 2 22
Kuning = Ciri 3 17
Hijau = Ciri 4 15
Biru Muda = Ciri 5 11
Ungu = Ciri 6 11
Biru Tua = Ciri 7 31
Cokelat = Ciri 8 22
Hijau Pucat = Ciri 9 14
Maka untuk Aksara 1 akan memiliki 9 ciri dimana ciri 1 berisi 22, ciri 2
berisi 22, ciri 3 berisi 17, ciri 4 berisi 15, ciri 5 berisi 11, ciri 6 berisi 11, ciri 7 berisi
31, ciri 8 berisi 22, dan juga ciri 9 berisi 14.
Tabel 4.8 Contoh Matriks Ciri IoC 3x3
Data
Matriks Ciri IoC 3x3
Ciri 1 Ciri 2 Ciri 3 Ciri 4 Ciri 5 Ciri 6 Ciri 7 Ciri 8 Ciri 9
Aksara 1 22 22 17 15 11 11 31 22 14
Aksara 2 9 3 15 11 10 12 26 14 4
Aksara 3 25 23 12 9 16 11 22 14 13
Disini data Aksara 1, 2, dan 3 memiliki 9 kolom ciri dimana karena awalnya
IoC berbentuk 3 baris x 3 kolom akan diubah menjadi 1 baris 9 kolom untuk
mempermudah proses clustering.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
66
4.5 Implementasi K-Means Clustering
Hasil ekstraksi ciri kemudian dikelompokkan dengan menggunakan K
mulai dari 2 sampai 597. Proses clustering menggunakan function kmeans dari
MATLAB. Proses clustering yang ini sangat tergantung pada nilai centroid yang
ditentukan secara random. [idx,sumd]=kmeans(CC,k) berarti akan mengambil
output berupa index untuk tiap data, C adalah lokasi centroid, dan sumd adalah
jumlah jarak antar titik ke centroid dalam cluster. Kemudian kmeans merupakan
function dari MATLAB dengan inputnya adalah CC dimana merupakan data IoC
dan K adalah banyak cluster yang dibutuhkan.
function [datacluster,idx,sumd] = cluster(K,dataioc)
CC=dataioc;
k=K;
[idx,sumd]=kmeans(CC,k);
datacluster = cell(k,1);
for i = 1:k
datacluster{i} = CC(idx==i,:);
end
end
4.6 Implementasi Silhouette
Hasil dari pengelompokan menggunakan K-Means clustering kemudian
akan dilakukan proses penghitungan nilai silhouette yaitu untuk menguji
kekompakan cluster hasil dari K-Means tadi. Perhitungan nilai silhouette dilakukan
dengan menggunakan fungsi Silhouette pada MATLAB. Hasil dari silhouette ini
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
67
adalah nilai silhouette untuk semua cluster. [s,h] = silhouette(data,idx) berarti akan
mengambil 2 output yaitu s untuk nilai silhouettenya dan h adalah plot grafik
berdasarkan nilai silhouette yang didapatkan. Lalu silhouette sendiri adalah
function dari matlab dengan input berupa data yang berisi data IoC dan juga idx
yang merupakan idx hasil proses clustering k-means.
function [akurasi,detail] = hitungsilhouette(data,idx)
[s,h] = silhouette(data,idx);
xlabel('Value');
ylabel('Cluster');
SIcluster=mean(s);
akurasi=SIcluster;
detail=s;
end
4.7 Implementasi Elbow Method
Hasil dari pengelompokan menggunakan K-Means clustering kemudian
akan dilakukan proses penghitungan nilai distortion/error dengan menggunakan
penjumlahan SUMD tiap K hasil dari proses K-Means clustering, lalu akan
menghitung variance dimana akan digunakan untuk menghitung distortion percent.
Setelah itu menghitung distortion percent dengan menghitung cumsum dari
variance dibagi dengan distortion awal dikurang distortion akhir. Dari hasil
penghitungan distortion percent kemudian akan mencari nilai distortion pertama
yang diatas 0.90. Hasil dari metode elbow ini adalah nilai distortion dan distortion
percent untuk semua K.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
68
function [K,distortion,variance,distortion_percent]=elbow (sumdioc)
cluster=length(sumdioc);
distortion=zeros(cluster,1);
for k_temp=2:597
sumd=sumdioc{k_temp};
destortion_temp=sum(sumd);
distortion((k_temp)-1,1)=destortion_temp;
end
variance=distortion(1:end-1)-distortion(2:end);
distortion_percent=cumsum(variance)/(distortion(1)-distortion(end));
plot(distortion_percent,'b*--');
distortion90=find(distortion_percent>0.90);
K=distortion90 (1,1)+1;
end
4.8 Hasil Penelitian
a. Implementasi hasil penelitian ini menggunakan tiga ciri Intensity of
Character (IoC) yaitu dengan ukuran 3x3, 4x4, dan 5x5 untuk semua data
yang berjumlah 597. Percobaan silhouette pertama sampai ketiga akan
menggunakan data IoC 3x3, lalu percobaan silhouette keempat sampai
keenam akan menggunakan data IoC 4x4, dan percobaan silhouette ketujuh
sampai kesembilan akan menggunakan data IoC 5x5. Sementara percobaan
elbow pertama akan menggunakan data IoC 3x3, lalu percobaan elbow
kedua akan menggunakan data IoC 4x4, dan percobaaan elbow ketiga akan
menggunakan data IoC 5x5.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
69
b. Dari ekstraksi ciri tersebut kemudian akan dikelompokkan dengan metode
K-Means clustering dari 2 sampai dengan 597. Kemudian hasil clustering
akan dianalisis menggunakan metode silhouette dan metode elbow dan
memfokuskan pengelompokan sampai K hanya sampai 120 atas
pengamatan jumlah aksara Jawa (pokok, pasangan, sandhangan, angka, dll)
dan juga pertimbangan yang telah didiskusikan.
4.8.1 Hasil Percobaan Silhouette Pertama
Gambar 4.7 Hasil Percobaan Silhouette Pertama
Menggunakan jarak default(squared euclidean) nilai 0.5 baru sering
muncul(konsisten) ketika K diatas 202 karena mulai dari 202 nilai rata-rata
silhouette sudah selalu diatas 0.5. Ketika diambil 120 K saja lalu disort nilai SI
terbesar berada di K 19 dengan nilai 0.5476. Kemudian diikuti dengan K 15 dengan
nilai 0.5245 dan K 51 dengan nilai 0.5231. Namun nilai 0.5 pertama dan terkecil
ada di K 65 dengan nilai 0.5060.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
70
4.8.2 Hasil Percobaan Silhouette Kedua
Gambar 4.8 Hasil Percobaan Silhouette Kedua
Menggunakan jarak cosine nilai 0.5 baru sering muncul(konsisten) ketika K
diatas 237 karena mulai dari 237 nilai rata-rata silhouette selalu diatas 0.5. Kalau
diambil 120 K saja lalu disort nilai tertinggi ada di K 17 dengan nilai 0.5652.
Kemudian diikuti dengan K 14 dengan nilai 0.5466 dan K 13 dengan nilai 0.5433.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
71
4.8.3 Hasil Percobaan Silhouette Ketiga
Gambar 4.9 Hasil Percobaan Silhouette Ketiga
Menggunakan jarak cityblock nilai 0.5 baru sering muncul(konsisten) ketika
K diatas 333 karena mulai dari 333 nilai rata-rata silhouette selalu diatas 0.5. Kalau
diambil 120 K saja lalu disort nilai tertingginya berada di K 13 dengan nilai 0.3779.
Kemudian diikuti dengan K 16 dengan nilai 0.3676 dan K 12 dengan nilai 0.3585.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
72
4.8.4 Hasil Percobaan Silhouette Keempat
Gambar 4.10 Hasil Percobaan Silhouette Keempat
Menggunakan jarak default(squared euclidean) nilai 0.5 baru sering
muncul(konsisten) ketika K diatas 222 karena mulai dari 222 nilai rata-rata
silhouette selalu diatas 0.5. Ketika diambil 120 K saja lalu disort nilai SI terbesar
berada di K 49 dengan nilai 0.5228. Kemudian diikuti dengan K 65 dengan nilai
0.5204 dan K 66 dengan nilai 0.5048. Namun nilai 0.5 pertama dan terkecil ada di
K 63 dengan nilai 0.5016.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
73
4.8.5 Hasil Percobaan Silhouette Kelima
Gambar 4.11 Hasil Percobaan Silhouette Kelima
Menggunakan jarak cosine nilai 0.5 baru sering muncul(konsisten) ketika K
diatas 223 karena mulai dari 223 nilai rata-rata silhouette selalu diatas 0.5. Kalau
diambil 120 K saja lalu disort nilai tertinggi ada di K 90 dengan nilai 0.5153.
Kemudian diikuti dengan K 6 dengan nilai 0.5013 dan K 23 dengan nilai 0.4993.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
74
4.8.6 Hasil Percobaan Silhouette Keenam
Gambar 4.12 Hasil Percobaan Silhouette Keenam
Menggunakan jarak cityblock nilai 0.5 baru sering muncul(konsisten) ketika
K diatas 344 karena mulai dari 344 nilai rata-rata silhouette selalu diatas 0.5. Kalau
diambil 120 K saja lalu disort nilai tertingginya berada di K 19 dengan nilai 0.3648.
Kemudian diikuti dengan K 34 dengan nilai 0.3495 dan K 30 dengan nilai 0.3492.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
75
4.8.7 Hasil Percobaan Silhouette Ketujuh
Gambar 4.13 Hasil Percobaan Silhouette Ketujuh
Menggunakan jarak default(squared euclidean) nilai 0.5 baru sering
muncul(konsisten) ketika K diatas 253 karena mulai dari 253 nilai rata-rata
silhouette selalu diatas 0.5. Ketika diambil 120 K saja lalu disort nilai SI terbesar
berada di K 61 dengan nilai 0.5127. Kemudian diikuti dengan K 47 dengan nilai
0.3516 dan K 59 dengan nilai 0.5088. Namun nilai 0.5 pertama dan terkecil ada di
K 54 dengan nilai 0.5024.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
76
4.8.8 Hasil Percobaan Silhouette Kedelapan
Gambar 4.14 Hasil Percobaan Silhouette Kedelapan
Menggunakan jarak cosine nilai 0.5 baru sering muncul(konsisten) ketika K
diatas 331 karena mulai dari 331 nilai rata-rata silhouette selalu diatas 0.5. Kalau
diambil 120 K saja lalu disort nilai tertinggi ada di K 40 dengan nilai 0.3716.
Kemudian diikuti dengan K 38 dengan nilai 0.3635 dan K 24 dengan nilai 0.3604.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
77
4.8.9 Hasil Percobaan Silhouette Kesembilan
Gambar 4.15 Hasil Percobaan Silhouette Kesembilan
Menggunakan jarak cityblock nilai 0.5 baru sering muncul(konsisten) ketika
K diatas 341 karena mulai dari 341 nilai rata-rata silhouette selalu diatas 0.5. Kalau
diambil 120 K saja lalu disort nilai tertingginya berada di K 18 dengan nilai 0.3629.
Kemudian diikuti dengan K 14 dengan nilai 0.3546 dan K 13 dengan nilai 0.3517.
Setelah dilakukan penghitungan nilai Silhouette K mulai dari 1 sampai 597,
melihat dari hasil percobaan tadi, data rentang untuk data yang digunakan bisa
dibilang memiliki struktur persebaran yang lemah. Hal ini bisa dilihat dari hasil
silhouette dimana ketika diambil nilai K dari 2 sampai 120 hasilnya masih banyak
yang berada dibawah nilai 0.5. Padahal untuk dikatakan persebaran yang standar
baik seharusnya memiliki nilai silhouette diatas 0.5. Nilai Silhouette yang didapat
ini juga dipengaruhi oleh jarak yang digunakan untuk menghitung silhuettenya.
Dimana jarak default(Squared Euclidean) dapat menghasilkan nilai yang lebih
tinggi dibanding ketika menggunakan jarak Cosine dan Cityblock yang hasilnya
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
78
Silhouette nilainya justru menurun. Hal tersebut dapat dilihat pada hasil dibawah
ini :
Tabel 4.9 Hasil Silhouette Jarak Default
Jarak Default(Squared Euclidean)
Ukuran IoC Nilai Silhouette
Terbaik Pertama (K)
Nilai Silhouette
Terbaik Kedua (K)
Nilai Silhouette
Terbaik Ketiga (K)
3x3 0.5476 (19) 0.5245 (15) 0.5231 (51)
4x4 0.5228 (49) 0.5204 (65) 0.5048 (66)
5x5 0.5127 (61) 0.5116 (49) 0.5088 (59)
Tabel 4.10 Hasil Silhouette Jarak Cosine
Jarak Cosine
Ukuran IoC Nilai Silhouette
Terbaik Pertama (K)
Nilai Silhouette
Terbaik Kedua (K)
Nilai Silhouette
Terbaik Ketiga (K)
3x3 0.5652 (17) 0.5466 (14) 0.5433 (13)
4x4 0.5153 (90) 0.5013 (6) 0.4993 (23)
5x5 0.3716 (40) 0.3635 (38) 0.3604 (24)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
79
Tabel 4.11 Hasil Silhouette Jarak Cityblock
Jarak Cityblock
Ukuran IoC Nilai Silhouette
Terbaik Pertama (K)
Nilai Silhouette
Terbaik Kedua (K)
Nilai Silhouette
Terbaik Ketiga (K)
3x3 0.3779 (13) 0.3676 (16) 0.5652 (12)
4x4 0.3648 (19) 0.3495 (34) 0.3492 (30)
5x5 0.3629 (18) 0.3546 (14) 0.3517 (13)
Tabel 4. 12 Hasil SI Terbaik Pertama Range K 120
Nilai SI Terbaik Pertama Dalam Range K 120
Rumus Jarak IoC 3x3 IoC 4x4 IoC 5x5
Default 0.5376 (K=19) 0.5228 (K=49) 0.5127 (K=61)
Cosine 0.5652 (K=17) 0.5153 (K=90) 0.3716 (K=40)
Cityblock 0.3779 (K=13) 0.3648 (K=19) 0.3629 (K=18)
Pada percobaan pertama sampai ketiga menggunakan ciri IoC 3x3
menghasilkan hasil nilai silhouette 1 untuk semua 597 data dengan 3 jarak berbeda
semuanya berada di K 591. Yang berarti dari 597 data akan membentuk cluster
dengan struktur kuat pada K = 591.
Pada percobaan keempat sampai keenam menggunakan ciri IoC 4x4
menghasilkan hasil nilai silhouette 1 untuk semua 597 data dengan 3 jarak berbeda
semuanya berada di K 593. Yang berarti dari 594 data akan akan membentuk cluster
dengan struktur kuat pada K = 594.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
80
Pada percobaan ketujuh sampai kesembilan menggunakan ciri IoC 5x5
menghasilkan hasil nilai silhouette 1 untuk semua 597 data dengan 3 jarak berbeda
semuanya berada di K 593. Yang berarti dari 597 data akan akan membentuk cluster
dengan struktur kuat pada K = 593.
4.8.10 Hasil Percobaan Elbow Pertama
Gambar 4.16 Hasil Percobaan Elbow Pertama
Hasil dari percobaan pertama menggunakan IoC 3 didapatkan grafik seperti
pada Gambar 4.16, lalu dari hasil perhitungan distortion percentnya nilai 0.90
pertama berada di K = 62 dengan nilai distortion percent sebesar 0.9027.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
81
4.8.11 Hasil Percobaan Elbow Kedua
Gambar 4.17 Hasil Percobaan Elbow Kedua
Hasil dari percobaan pertama menggunakan IoC 4 didapatkan grafik seperti
pada Gambar 4.17 lalu dari hasil perhitungan distortion percentnya nilai 0.90
pertama berada di K = 84 dengan nilai distortion percent sebesar 0.9001.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
82
4.8.12 Hasil Percobaan Elbow Ketiga
Gambar 4.18 Hasil Percobaan Elbow Ketiga
Hasil dari percobaan pertama menggunakan IoC 5 didapatkan grafik seperti
pada Gambar 4.18, lalu dari hasil perhitungan distortion percentnya nilai 0.90
pertama berada di K = 106 dengan nilai distortion percent sebesar 0.9004.
Setelah dilakukan percobaan elbow, nilai K optimalnya untuk setiap IoC
menghasilkan nilai K yang berbeda. Hal ini bisa dilihat dari distortion IoC 3
distortion 0 mulai berada di K 562, IoC 4 distortion 0 mulai berada di K 583, dan
IoC 5 distortion 0 mulai berada di K 590. Untuk nilai distortion percent IoC 3
bernilai 1 ketika berada di K 578, IoC 4 bernilai 1 ketika berada di K 582, IoC 5
bernilai 1 ketika berada di K 585. Nilai distortion yang didapat ini juga dipengaruhi
hasil sumd dari K-Means clustering hasilnya sangat tergantung pada centroid yang
bernilai random.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
83
Tabel 4.13 Hasil Elbow
Metode Elbow
Ukuran IoC Nilai Distortion Percent K Optimal
3x3 0.9027 62
4x4 0.9001 84
5x5 0.9004 106
4.8.13 Hasil Percobaan Pengelompokan K 65
Setelah dilakukan analisis dengan metode silhouette dan metode elbow,
dilanjutkan percobaan untuk mencoba mengelompokan aksara Jawa secara manual
untuk menguji apakah hasilnya relevan atau tidak. Percobaan ini menggunakan
hasil IoC 3x3 dan jumlah cluster yang dipilih secara acak yaitu 65 berdasarkan
pengamatan dari hasil penelitian yang dilakukan untuk data IoC 3.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
84
Gambar 4.19 Hasil Percobaan Pengelompokan Cluster 1
Hasil pengelompokan K 65 yang sudah dimasukan kedalam folder yang
sesuai kelompoknya didapatkan hasil sebagai berikut, dengan catatan ‘P’ berarti
pasangan :
Tabel 4. 14 Hasil Analisa Manual Hasil Pengelompokan K 65
Label 1 Label 2 Label 3 Label 4 Total Data Ground
Truth
Cluster 1 22 Wulu
22 1
Cluster 2 5 Wingyan
5 1
Cluster 3 23 Na 3 Ja
26 0,88
Cluster 4 8 '2'
8 1
Cluster 5 11 Wulu
11 1
Cluster 6 5 Pangkon +
Suku
1 Ha + Suku 1 La _
Suku
7 0,71
Cluster 7 5 Wulu
5 1
Cluster 8 2 Na + P Na 1 Nga + P Na 1 Ka +
P Na
4 0,5
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
85
Label 1 Label 2 Label 3 Label 4 Total Data Ground
Truth
Cluster 9 7 Ha + Suku 4 Ra 1 Ta +
Suku
12 0,58
Cluster 10 9 Pada
Lingsa
9 1
Cluster 11 5 Ka 4 Ta
9 0,56
Cluster 12 6 Ta 4 Ka 1 Ma
11 0,55
Cluster 13 45 Taling 1 Pangkon +
Suku
46 0,98
Cluster 14 7 Cecak
7 1
Cluster 15 2 Pangkon
2 1
Cluster 16 2 Layar
2 1
Cluster 17 1 Nya 1 Kar
2 0,5
Cluster 18 14 Ta
14 1
Cluster 19 9 Na 1 Ha
10 0,9
Cluster 20 6 Pa 3 Wa 1 Dha
10 0,6
Cluster 21 2 Pa + Suku
+ Cakra Ra
1 Nga +
Cakra Ra
1 Ta +
Cakra
Ra
1 Pepet
+ layar
5 0,4
Cluster 22 5 '2'
5 1
Cluster 23 5 '2'
5 1
Cluster 24 6 Ha 2 Ma 1 Sa
9 0,67
Cluster 25 2 Ma + tha 1 '3' 1 Sa +
P da
1 Sa +
P wa
5 0,4
Cluster 26 9 Ta 2 La 1 Ga
12 0,75
Cluster 27 12 Pa + Suku 1 Ma + Suku 1 Da +
Suku
14 0,86
Cluster 28 18 Pepet 3 Pepet +
Cecak
21 0,86
Cluster 29 7 Ha 2 Ma
9 0,78
Cluster 30 8 Cecak
8 1
Cluster 31 2 Ta
2 1
Cluster 32 10 Ga 2 Ma + Cakra
Ra
1 Na +
Cakra
Ra
13 0,77
Cluster 33 15 Na 5 Da 4 Ma 1 Pa 25 0,6
Cluster 34 2 P Ha
2 1
Cluster 35 9 Na 2 Da 1 Ma
12 0,75
Cluster 36 12 Pepet 2 Pepet +
Wulu
14 0,86
Cluster 37 9 P Ka 8 P Ta
17 0,53
Cluster 38 3 P Ba 1 '2'
4 0,75
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
86
Label 1 Label 2 Label 3 Label 4 Total Data Ground
Truth
Cluster 39 5 '0'
5 1
Cluster 40 1 'A'
1 1
Cluster 41 4 P La 1 Pada
Lungsa
5 0,8
Cluster 42 3 Cecak
3 1
Cluster 43 10 Sa 1 Wa
11 0,91
Cluster 44 13 La
13 1
Cluster 45 16 Pepet
16 1
Cluster 46 4 Ka 1 Ha
5 0,8
Cluster 47 2 Pa 2 Sa
4 1
Cluster 48 3 Wingyan
3 1
Cluster 49 8 P Sa
8 1
Cluster 50 6 Pepet
6 1
Cluster 51 13 Ka 3 Sa
16 0,81
Cluster 52 1 Cecak
1 1
Cluster 53 5 Pa
5 1
Cluster 54 8 Wa 2 Pa
10 0,8
Cluster 55 9 Cecak
9 1
Cluster 56 8 Ma 1 Ha
9 0,89
Cluster 57 4 P Wa 2 P Dha 1 P Ma
7 0,57
Cluster 58 1 'A'
1 1
Cluster 59 6 Cecak
6 1
Cluster 60 12 P Ha
12 1
Cluster 61 10 Pepet
10 1
Cluster 62 4 Cecak
4 1
Cluster 63 8 Ya
8 1
Cluster 64 11 Sa
11 1
Cluster 65 2 '1' 1 '4' 1
Cecak
4 0,5
Total Akurasi
597 0,86
Dari penghitungan manual hasil pengelompokan K 65 yang sudah
dimasukan kedalam folder yang sesuai kelompoknya didapatkan hasil yang baik
karena mendapatkan akurasi ground truth sebesar 86% berdasarkan nilai rata-rata
dari perhitungan seluruh kelompoknya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
87
Dari pengujian ini didapatkan hasil pengelompokan yang baik. Hal ini
dikarenakan pada IoC 3x3 berdasarkan analisa metode silhouette karena K = 65
memiliki SI yang berada 0,5060 maka persebaran datanya menjadi baik karena hasil
berdasarkan tabel nilai SI untuk nilai 0,50 - 0,70 membentuk struktur yang layak.
Begitu juga dengan metode elbow 65 memiliki distortion 0,9027 yang dianggap
masih belum sempurna pengelompokannya. Sehingga dari pengujian yang
dilakukan hasil pengelompokan baik ini sudah bisa diprediksi dan dianggap relevan
dengan akurasi sebesar 86%.
4.8.14 Hasil Percobaan Pengelompokan 14 Aksara Pokok
Setelah dilakukan percobaan pengelompokan K 65, sekarang dilakukan
percobaan untuk mengelompokan 20 Aksara Pokok saja dengan IoC 3. Yang
dilakukan pertama kali adalah menghitung banyak data secara manual dari 597
dimana hanya difokuskan 20 Aksara Pokok. Disini diperoleh data Aksara Pokok
berjumlah 247 data citra. Lalu dilakukan pencarian label secara manual juga dan
hasilnya didapat hanya ada 14 jumlah label. 14 label tersebut adalah : Ha, Na, Ka,
Da, Ta, Sa, Wa, La, Ma, Ga, Pa, Dha, Ja, dan Ya. Setelah itu akan digunakan
metode K-Means untuk mendapatkan clusternya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
88
Gambar 4. 20 Hasil Pengelompokan Cluster 1 14 Aksara Pokok
Hasil pengelompokan 14 Aksara Pokok yang sudah dimasukan kedalam
folder yang sesuai kelompoknya didapatkan hasil sebagai berikut :
Tabel 4. 15 Hasil Analisa Manual Hasil Pengelompokan 14 Aksara Pokok
Label 1 Label 2 Label 3 Label 4 Jumlah Data Ground Truth
Cluster 1 9 Na 1 Ma 3 Da 13 0,69
Cluster 2 12 Ha 4 Ka 3 Ma 19 0,63
Cluster 3 10 Ga 10 1
Cluster 4 8 Ya 6 Ta 4 Ka 1 Ma 19 0,42
Cluster 5 3 Ja 3 1
Cluster 6 15 Ka 7 Ta 1 Ha 23 0,65
Cluster 7 9 Na 1 Ha 1 Da 11 0,81
Cluster 8 13 La 3 Ka 7 Ma 2 Ha 25 0,52
Cluster 9 11 Sa 2 Pa 2 Dha 15 0,73
Cluster 10 13 Sa 13 1
Cluster 11 15 Ta 1 Ka 16 0,93
Cluster 12 38 Na 1 Pa 3 Da 42 0,90
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
89
Label 1 Label 2 Label 3 Label 4 Jumlah Data Ground Truth
Cluster 13 13 Pa 10 Wa 1 Dha 24 0,54
Cluster 14 8 Ta 1 La 1 Ha 2 Ma 13 0,61
Total Akurasi
247 0,75
Dari Tabel 4.12 ditemukan bahwa dari 14 label hanya didapat 10 kelompok
label saja. Karena ada kelompok yang pembagiannya masih belum tepat. Seperti
dapat dilihat bahwa ada 3 kelompok yang didominasi Na, 2 kelompok yang
didominasi Sa dan Ta. Lalu label yang jumlahnya sedikit jadi ikut tercampur dengan
label yang tadi. Label yang jumlahnya sedikit tersebut adalah Ma, Dha, dan Wa.
Percobaan pengelompokan 14 Aksara Pokok ini mendapatkan hasil akurasi
yang baik karena mendapatkan akurasi ground truth sebesar 75% berdasarkan nilai
rata-rata dari perhitungan seluruh kelompoknnya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
90
BAB V KESIMPULAN DAN SARAN
5.1 Kesimpulan
5.1.1 Metode Silhouette
Dari hasil percobaan pengelompokan 597 citra aksara Jawa dengan
metode Silhouette untuk IoC 3 hasil K optimalnya adalah ketika K 19,
IoC 4 hasil K optimalnya adalah ketika K 49, dan IoC 5 hasil K
optimalnya adalah ketika K 61. Didapatkan kesimpulan bahwa untuk
mendapatkan nilai silhouette itu ada banyak faktor yang mempengaruhi
seperti tahap preprocessing, tahap resize data, ukuran IoC yang
digunakan, dan juga nilai centroid K-Means yang random. Ada juga
pengaruh jarak yang digunakan dalam silhouette yang membuat hasil
penghitungannya menjadi berbeda. Hasil K dari metode silhouette
cenderung kecil dan akan membuat hasil akurasi pengelompokannya
menjadi jelek.
5.1.2 Metode Elbow
Dari hasil percobaan pengelompokan 597 citra aksara Jawa dengan
metode Elbow karena pada penelitian ini digunakan nilai distortion
percent diatas 0.90 maka untuk IoC 3 hasil K optimalnya adalah ketika
K 62, IoC 4 hasil K optimalnya adalah ketika K 84, dan IoC 5 hasil K
optimalnya adalah ketika K 106. Didapatkan kesimpulan bahwa untuk
mendapatkan nilai distortion itu ada banyak faktor yang mempengaruhi
seperti tahap preprocessing, tahap resize data, ukuran IoC yang
digunakan, dan juga nilai centroid K-Means yang random. Ada juga
pengaruh sumd hasil k-means dan penentuan nilai distortion percent
minimal yang digunakan dalam metode elbow yang membuat hasil
penghitungan dan penentuan K optimalnya menjadi berbeda. Dari hasil
K yang lebih besar inilah maka metode elbow dianggap lebih baik
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
91
karena semakin besar K dalam clustering maka hasil akurasi
pengelompokannya akan menjadi lebih baik.
5.1.3 Hasil Relevansi
Hasil pengujian dengan 597 citra aksara Jawa ukuran IoC 3 dan
jumlah cluster 65 mendapatkan hasil pengelompokan yang baik dengan
akurasi sebesar 86%, ini sudah bisa diprediksi sehingga dianggap
relevan. Hal ini karena pada cluster 65 memiliki SI 0,5060 untuk
metode silhouette dan juga distortion 0,9027 untuk metode elbow. Dari
pengujian tadi dapat disimpulkan jika K nya lebih besar maka akan
menghasilkan hasil pengelompokan yang bagus sehingga metode
elbow dianggap sebagai metode yang ideal untuk menentukan nilai K.
Hasil pengujian 14 Aksara Pokok dengan 247 citra ukuran IoC
3 didapatkan akurasi pengelompokan yang baik yaitu sebesar 75%
dimana terdapat 10 label kelompok yang benar.
5.2 Saran
a. Perlu dilakukan percobaan dengan ukuran ciri IoC yang lainnya untuk
memperoleh hasil yang lebih baik.
b. Perlu dilakukan proses preprocessing sampai mendapatkan hasil yang
baik agar hasil segmentasi dan juga hasil pengelompokan menjadi
lebih baik.
c. Ketika memilih hasil SI untuk metode silhouette bisa mengambil nilai
nilai diatas 0.5 agar hasil pengelompokan menjadi lebih baik lagi.
d. Ketika memilih nilai distortion percent untuk metode elbow bisa
menggunakan nilai diatas 0.9 agar hasil pengelompokan lebih baik
lagi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
92
DAFTAR PUSTAKA
Aksara Jawa. (2020). https://id.wikipedia.org/wiki/Aksara_Jawa
Ankrisnar, V. A. (2020). Pengelompokan Citra Aksara Bali Menggunakan Metode
K-Means Clustering. Universitas Sanata Dharma.
Bao, F. (n.d.). best_kmeans(X). MATLAB Central File Exchange.
https://www.mathworks.com/matlabcentral/fileexchange/49489-
best_kmeans-x
Dewi D.A., & Pramita D.A (2019). Analisis Perbandingan Metode Elbow dan
Silhouette pada Algoritma Clustering K-Medoids dalam Pengelompokan
Produksi Kerajinan Bali. Jurnal Manajemen Teknologi dan Informatika, 102-
109.
Gonzalez, R.C., & Woods, R.E. (2002). Digital Image Processing. 2nd Edition,
Prentice Hall, Upper Saddle River.
Hadiprijono (2013). Trampil Maca lan Nulis Aksara Jawa. Kanisius Yogyakarta.
Holle, K. (1876). Hamong Tani.
Jamaludin, A., & Purnamasari, I. (2020). Pengelompokan Desa Menggunakan K-
Means Untuk Penyelenggaraan Penanggulangan Bencana Banjir. JOINS
(Journal of Information System), 5(2), 156–167.
Kodinariya, T & Makwana, P (2013) Review on Determining of Cluster in K-means
Clustering. International Journal of Advance Research in Computer Science
and Management Studies.
Leonard K, & Peter J. Rousseeuw (1990). Finding Groups in Data: An Introduction
to Cluster Analysis. John Wiley & Sons, Inc., Hoboken, 68-125.
Sebastien D. L. (n.d.). kmeans_opt. MATLAB Central File Exchange.
https://www.mathworks.com/matlabcentral/fileexchange/65823-kmeans_opt
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Widiarti, A. R., & Himamunanto, A. R. (2012). Teori Dan Aplikasi Pengolahan
Citra Digital Transliterasi Otomatis Citra Dokumen Teks Aksara Jawa.
Lintang Pustaka Utama.
Widiarti, A. R. (2011). Comparing Hilditch, Rosenfeld, Zhang-Suen, and
Nagendraprasad-Wang-Gupta Thinning. International Journal of Computer
and Information Engineering, 5(6), 563–567.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
LAMPIRAN
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI