CLUSTERING K-MEANS MENGGUNAKAN PENDEKATAN

ANALISA PERBANDINGAN NILAI K TERBAIK UNTUK

ELBOW DAN SILHOUETTE PADA CITRA AKSARA JAWA

SKRIPSI

Diajukan Untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Komputer

Program Studi Informatika

Gabriel Ryan Prima

175314084

PROGRAM STUDI INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

COMPARATIVE ANALYSIS OF THE BEST K-VALUE FOR

CLUSTERING K-MEANS USING ELBOW AND SILHOUETTE

APPROACH ON JAVANESE SCRIPT IMAGE

THESIS

Present as Partial Fulfillment of The Requirements

to Obtain Sarjana Komputer Degree

in Informatics Study Program

Created by:

Gabriel Ryan Prima

175314084

INFORMATICS STUDY PROGRAM

FACULTY OF SCIENCE OF TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

Halaman Persembahan

“Segala perjuangan saya hingga titik ini saya persembahkan pada dua orang

paling berharga dalam hidup saya. Hidup menjadi begitu mudah dan lancar ketika

kita memiliki orang tua yang lebih memahami kita daripada diri kita sendiri.

Terima kasih telah menjadi orang tua yang sempurna.”

Abstrak

Pada penelitian ini akan dilakukan pencarian nilai K terbaik dari 2 metode

pendekatan clustering K-Means yaitu Elbow dan Silhouette. Berdasarkan penelitian

sebelumnya oleh Purnamasari (2020) ditemukan pendekatan Elbow menghasilkan

hasil yang lebih ideal. Maka dari itulah penulis berpikir untuk melakukan pencarian

nilai K terbaik pada clustering aksara Jawa.

Terdapat banyak tahapan yang dilakukan pada penelitian ini. Yang pertama

adalah pengumpulan data yang berupa buku hamong tani halaman 2 dan 59.

Kemudian preprocessing untuk mendapatkan data yang bersih. Setelah itu akan

disegmentasi untuk mendapatkan tiap aksaranya. Lalu akan diambil ciri untuk tiap

aksaranya dengan menggunakan Intensity of Character. Data ciri kemudian

dikelompokan menggunakan K-Means clustering yang mana akan menghasilkan

jumlah cluster, idx, dan sumd. Kemudian idx akan digunakan untuk evaluasi

silhouette dan sumd akan digunakan untuk evaluasi elbow. Hasil kedua metode

tersebut akan dibandingkan untuk mencari K terbaiknya.

Dari pengujian yang dilakukan disimpulkan jika K nya lebih besar maka

akan menghasilkan hasil pengelompokan yang bagus sehingga metode elbow

dianggap sebagai metode yang ideal untuk menentukan nilai K.

Kata kunci: Aksara Jawa, Preprocessing, Segmentasi, Ekstraksi Ciri, K-Means,

Silhouette, Elbow.

Absract

In this research, the best K value will be searched from 2 methods of K-

Means clustering approach, namely Elbow and Silhouette. Based on previous

research by Purnamasari (2020) it was found that the Elbow approach produced

more ideal results. That's why the writer thought to search for the best K value in

Javanese script clustering.

There are many stages carried out in this research. The first is collecting

data in the form of the Hamong Tani book page 2 and 59. Then preprocessing to

get clean data. After that it will be segmented to get each character. Then the

characteristics for each character will be taken using the Intensity of Character. The

feature data are then grouped using K-Means clustering which will produce the

number of clusters, idx, and sumd. Then idx will be used for silhouette evaluation

and sumd will be used for elbow evaluation. The results of the two methods will be

compared to find the best K.

From the tests carried out, it is concluded that if the K is greater then it will

produce good grouping results so that the elbow method is considered an ideal

method to determine the K value.

Keywords: Javanese script, Preprocessing, Segmentation, Feature Extraction, K-

Means, Silhouette, Elbow.

Kata Pengantar

Puji dan syukur penulis panjatkan kepada Tuhan Yang Maha Esa atas rahmat dan

karunia-Nya, sehingga penulis dapat menyelesaikan tugas akhir dengan judul

“Analisa Perbandingan Nilai K Terbaik Untuk Clustering K-Means Menggunakan

Pendekatan Elbow Dan Silhouette Pada Citra Aksara Jawa” dengan baik dan tepat

waktu. Tugas akhir ini merupakan salah satu persyaratan yang wajib untuk

ditempuh sebagai syarat akademik untuk memperoleh gelar sarjana komputer

program studi Informatika Universitas Sanata Dharma Yogyakarta.

Selama proses penelitian, penulis mendapat banyak dukungan dari berbagai pihak

sehingga sudah sepantasnya penulis menyampaikan terima kasih yang kepada:

1. Ibu Dr. Anastasia Rita Widiarti, M.Kom selaku dosen pembimbing tugas

akhir yang telah bersedia memberikan arahan, masukan, waktu serta

motivasi kepada penulis selama menyelesaikan skripsi.

2. Bapak Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D. selaku dekan Fakultas

Sains dan Teknologi.

3. Seluruh dosen Informatika Universitas Sanata Dharma yang telah mendidik

dan memberikan ilmu pengetahuan kepada penulis yang digunakan sebagai

bekal untuk menyelesaikan tugas akhir ini.

4. Keluarga tercinta, Ayah Drs. Ary Widayanto, Mama Rini Sudiastuti, dan

saudara-saudari yang selalu memberikan dukungan dan doa sehingga

membuat penulis semakin semangat dalam mengerjakan serta

menyelesaikan tugas akhir ini.

5. Saudara Edrick Hernando, Atanasius Ivannoel Rio Aji, Yudistira Prama

Putra, Hieronimus Fredy Morgan, Albertus Ivan Adhyatma Maheswara,

Joseph Hutagalung, Agung Kristanto yang selalu bisa diajak diskusi

masalah tugas akhir.

6. Teman – teman dari grup “Pejuang Ekspetasi”, “Mesin Goblog”, dan

“Brokeback” yang senantiasa memberikan saran dan hiburan dalam

DAFTAR ISI

HALAMAN PERSETUJUAN PEMBIMBING ..................................................... ii

HALAMAN PENGESAHAN ................................................................................ iii

PERNYATAAN KEASLIAN KARYA ................................................................. v

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH .. vi

DAFTAR ISI .......................................................................................................... xi

DAFTAR GAMBAR ........................................................................................... xiv

DAFTAR TABEL ................................................................................................. xv

BAB I PENDAHULUAN ....................................................................................... 1

1.1 Latar Belakang ......................................................................................... 1

1.2 Rumusan Masalah .................................................................................... 2

1.3 Tujuan Penelitian ...................................................................................... 2

1.4 Manfaat Penelitian .................................................................................... 2

1.5 Batasan Penelitian .................................................................................... 3

1.6 Sistematika Penulisan ............................................................................... 3

BAB II LANDASAN TEORI ................................................................................. 5

2.1 Aksara Jawa .............................................................................................. 5

2.2 Pengertian Citra ........................................................................................ 9

2.3 Pemrosesan Citra ...................................................................................... 9

2.4 Preprocessing .......................................................................................... 10

2.4.1. Binerisasi ............................................................................................ 10

2.4.2. Thinning .............................................................................................. 10

2.4.3. Filtering ............................................................................................... 10

2.5 Segmentasi .............................................................................................. 11

2.5.1. Profil Proyeksi .................................................................................... 11

2.5.2. Resize .................................................................................................. 11

2.6 Ekstraksi Ciri .......................................................................................... 12

2.6.1. Intensity of Character.......................................................................... 12

2.7 K-means Clustering ................................................................................ 13

2.8 Metode Elbow ........................................................................................ 18

2.9 Metode Silhouette ................................................................................... 21

2.10 Nilai Ground Truth ................................................................................. 25

BAB III METODE PENELITIAN........................................................................ 27

3.1 Deskripsi Data ........................................................................................ 27

3.2 Pengolahan Data ..................................................................................... 29

3.3 Contoh Perhitungan 10 Data Dummy .................................................... 30

3.4 Perancangan Sistem ................................................................................ 36

3.5 Cara Pengujian ....................................................................................... 50

3.6 Kebutuhan Sistem ................................................................................... 51

3.6.1 Perangkat Keras (Hardware) ............................................................... 51

3.6.2 Perangkat Lunak (Software) ............................................................... 52

3.7 Desain GUI ............................................................................................. 52

BAB IV HASIL DAN ANALISIS ........................................................................ 54

4.1 Data ........................................................................................................ 54

4.2 Implementasi Preprocessing ................................................................... 54

4.3 Implementasi Segmentasi ....................................................................... 59

4.4 Implementasi Ekstraksi Ciri ................................................................... 62

4.5 Implementasi K-Means Clustering ......................................................... 66

4.6 Implementasi Silhouette ......................................................................... 66

4.7 Implementasi Elbow Method ................................................................. 67

4.8 Hasil Penelitian ....................................................................................... 68

4.8.1 Hasil Percobaan Silhouette Pertama ................................................... 69

4.8.2 Hasil Percobaan Silhouette Kedua ...................................................... 70

4.8.3 Hasil Percobaan Silhouette Ketiga ..................................................... 71

4.8.4 Hasil Percobaan Silhouette Keempat .................................................. 72

4.8.5 Hasil Percobaan Silhouette Kelima .................................................... 73

4.8.6 Hasil Percobaan Silhouette Keenam ................................................... 74

4.8.7 Hasil Percobaan Silhouette Ketujuh ................................................... 75

4.8.8 Hasil Percobaan Silhouette Kedelapan ............................................... 76

4.8.9 Hasil Percobaan Silhouette Kesembilan ............................................. 77

4.8.10 Hasil Percobaan Elbow Pertama ......................................................... 80

4.8.11 Hasil Percobaan Elbow Kedua ........................................................... 81

4.8.12 Hasil Percobaan Elbow Ketiga ........................................................... 82

4.8.13 Hasil Percobaan Pengelompokan K 65 ............................................... 83

4.8.14 Hasil Percobaan Pengelompokan 14 Aksara Pokok ........................... 87

BAB V KESIMPULAN DAN SARAN ................................................................ 90

5.1 Kesimpulan ............................................................................................. 90

5.2 Saran ....................................................................................................... 91

DAFTAR PUSTAKA ........................................................................................... 92

LAMPIRAN .......................................................................................................... 94

DAFTAR GAMBAR

Gambar 2.1 20 Aksara Pokok ................................................................................. 5

Gambar 2.2 Aksara Sandhangan ............................................................................. 6

Gambar 2.3 Aksara Penyigeg Wanda ..................................................................... 6

Gambar 2.4 Sandhangan Wyanjana ........................................................................ 7

Gambar 2.5 Sandhangan Pangkon .......................................................................... 7

Gambar 2.6 Aksara Pasangan ................................................................................. 8

Gambar 2.7 Aksara Wilangan ................................................................................. 8

Gambar 3.1 Halaman 2 buku Hamong Tani ......................................................... 27

Gambar 3.2 Halaman 59 buku Hamong Tani ....................................................... 28

Gambar 3.3 Contoh Citra Hasil Crop .................................................................... 29

Gambar 3.4 Data Dummy Berjumlah 10 .............................................................. 30

Gambar 3.5 Diagram Perancangan Sistem............................................................ 37

Gambar 3.6 Flowchart Penelitian .......................................................................... 38

Gambar 3.7 Diagram Preprocessing ..................................................................... 39

Gambar 3.8 Diagram Segmentasi ......................................................................... 43

Gambar 3.9 Diagram Ekstraksi Ciri ...................................................................... 45

Gambar 3.10 Diagram K-Means ........................................................................... 47

Gambar 3.11 Diagram Evaluasi Hasil Clustering ................................................. 49

Gambar 3.12 Desain GUI ...................................................................................... 52

Gambar 4.1 Hasil Projeksi Horisontal Halaman 2 ................................................ 59

Gambar 4.2 Hasil Projeksi Horisontal Halaman 59 .............................................. 60

Gambar 4.3 Contoh Hasil Segmentasi Baris 1 ...................................................... 61

Gambar 4.4 Hasil IoC Data Aksara 1 Setelah dipindah ke Excel ......................... 63

Gambar 4.5 Pembagian Hasil IoC ke 9 Warna ..................................................... 64

Gambar 4.6 Seleksi Piksel Bernilai 0 .................................................................... 64

Gambar 4.7 Hasil Percobaan Silhouette Pertama ................................................. 69

Gambar 4.8 Hasil Percobaan Silhouette Kedua .................................................... 70

Gambar 4.9 Hasil Percobaan Silhouette Ketiga .................................................... 71

Gambar 4.10 Hasil Percobaan Silhouette Keempat .............................................. 72

Gambar 4.11 Hasil Percobaan Silhouette Kelima ................................................. 73

Gambar 4.12 Hasil Percobaan Silhouette Keenam ............................................... 74

Gambar 4.13 Hasil Percobaan Silhouette Ketujuh ................................................ 75

Gambar 4.14 Hasil Percobaan Silhouette Kedelapan ........................................... 76

Gambar 4.15 Hasil Percobaan Silhouette Kesembilan ......................................... 77

Gambar 4.16 Hasil Percobaan Elbow Pertama ..................................................... 80

Gambar 4.17 Hasil Percobaan Elbow Kedua ........................................................ 81

Gambar 4.18 Hasil Percobaan Elbow Ketiga ........................................................ 82

Gambar 4.19 Hasil Percobaan Pengelompokan Cluster 1 .................................... 84

Gambar 4.20 Hasil Pengelompokan Cluster 1 14 Aksara Pokok.......................... 88

DAFTAR TABEL

Tabel 2.1 Tabel Representasi Data Citra berukuran 9x9 ...................................... 12

Tabel 2.2 Hasil IoC 3x3 ........................................................................................ 13

Tabel 2.3 Data Clustering ..................................................................................... 14

Tabel 2.4 Centroid Random .................................................................................. 15

Tabel 2.5 Hasil Iterasi 1 ........................................................................................ 16

Tabel 2.6 Hasil Centroid Iterasi 1 ......................................................................... 17

Tabel 2.8 Hasil Centroid Iterasi 2 ......................................................................... 17

Tabel 2.10 Hasil Centroid Iterasi 3 ....................................................................... 18

Tabel 2.11 Contoh Data Silhouette ....................................................................... 22

Tabel 2.12 Rentang nilai Silhouette Coefficient ................................................... 25

Tabel 3.1 Hasil Segmentasi Aksara pertama halaman 2 ....................................... 29

Tabel 3.2 Ciri IoC 3x3 10 Data Dummy ............................................................... 30

Tabel 3.3 Centroid Awal ....................................................................................... 31

Tabel 3.5 Centroid Baru ........................................................................................ 32

Tabel 3.7 Data Silhouette Hasil K-Means Clustering ........................................... 33

Tabel 3.8 Penghitungan Jarak Antar Data ............................................................ 33

Tabel 3.9 Penghitungan ai dan bi Data 1-5 ........................................................... 34

Tabel 3.10 Penghitungan ai dan bi Data 6-10 ....................................................... 34

Tabel 3.11 Hasil SI Tiap Data ............................................................................... 34

Tabel 3.12 Hasil Akurasi SIlhouette ..................................................................... 35

Tabel 3.13 Data Jarak K-Means Iterasi 2 .............................................................. 35

Tabel 3.14 Penjumlahan Jarak 3 Cluster ............................................................... 36

Tabel 3.15 Hasil Distortion Elbow........................................................................ 36

Tabel 3.16 Perangkat Keras .................................................................................. 51

Tabel 4.1 Perbandingan Citra Awal dan Hasil Binerisasi ..................................... 55

Tabel 4.2 Perbandingan Hasil Binerisasi dan Hasil Invers ................................... 56

Tabel 4.3 Perbandingan Hasil Filtering ................................................................ 57

Tabel 4.4 Perbandingan Hasil Resize ................................................................... 61

Tabel 4.5 Perbandingan Citra Awal dengan Hasil Penipisan ............................... 62

Tabel 4.6 Tabel Contoh Hasil Rosenfeld .............................................................. 63

Tabel 4.7 Hasil Penghitungan Ciri IoC 3 Aksara 1 ............................................... 65

Tabel 4.8 Contoh Matriks Ciri IoC 3x3 ................................................................ 65

Tabel 4.9 Hasil Silhouette Jarak Default............................................................... 78

Tabel 4.10 Hasil Silhouette Jarak Cosine ............................................................. 78

Tabel 4.11 Hasil Silhouette Jarak Cityblock ......................................................... 79

Tabel 4.12 Hasil SI Terbaik Pertama Range K 120 .............................................. 79

Tabel 4.13 Hasil Elbow ......................................................................................... 83

Tabel 4.14 Hasil Analisa Manual Hasil Pengelompokan K 65 ............................. 84

Tabel 4.15 Hasil Analisa Manual Hasil Pengelompokan 14 Aksara Pokok ......... 88

BAB I PENDAHULUAN

1.1 Latar Belakang

Pada zaman ini, banyak sekali metode yang digunakan untuk melakukan

proses clustering, Salah satunya yang paling populer adalah K-means clustering

karena merupakan “unsupervised machine learning algorithms” yang paling

sederhana.

Hal pertama dalam clustering K-means adalah dimulai dengan kelompok

pertama centroid yang dipilih secara acak, yang digunakan sebagai titik awal untuk

setiap cluster, dan kemudian melakukan perhitungan berulang untuk

mengoptimalkan posisi centroid. Dalam menentukan nilai K yang digunakan dalam

clustering k-means juga terdapat banyak sekali pendekatan yang dapat dilakukan

guna mencari nilai K yang paling ideal. Salah dua metode pendekatan tersebut

adalah metode Elbow dan metode Silhouette.

Banyak sekali manfaat yang dapat diperoleh jika kita melakukan proses

clustering. Salah satunya adalah kita dapat mengelompokkan citra aksara Jawa

yang terdapat pada dokumen-dokumen kuno yang dapat berguna untuk membantu

proses labeling pada aksara Jawa. Salah satu dokumen yang memuat aksara Jawa

itu adalah buku Hamong Tani.

Berdasarkan penelitian yang dilakukan oleh Purnamasari (2020) diperoleh

hasil dimana metode Elbow menghasilkan nilai K yang lebih ideal dibanding

metode Silhouette.

Sementara itu ada juga penelitian yang dilakukan oleh Akrisnar (2020) dimana

hasil metode Silhouette menghasilkan nilai K sebesar 72 berdasarkan

kemunculannya pada 3 ciri IoC dan size dengan ukuran 3x3, 5x5, dan 8x8.

1.2 Rumusan Masalah

Berdasarkan latar belakang yang dibuat di atas, maka rumusan masalah pada

penelitian ini adalah:

a. Berapa nilai K yang disarankan oleh kedua metode pendekatan elbow dan

silhouette?

b. Dari dua metode pendekatan elbow dan silhouette, mana yang paling ideal

untuk menentukan nilai K?

c. Bagaimana keberhasilan proses clustering dilihat dari akurasi ground truth

hasil clustering k-means?

1.3 Tujuan Penelitian

Berdasarkan rumusan masalah yang dibuat di atas, maka tujuan dari penelitian

ini adalah:

a. Mengetahui nilai K yang disarankan oleh metode pendekatan elbow dan

silhouette.

b. Mengetahui metode pendekatan mana yang paling ideal antara elbow atau

silhouette.

c. Mengetahui keberhasilan proses clustering yang dilihat dari akurasi

ground truth hasil clustering k-means.

1.4 Manfaat Penelitian

Berdasarkan rumusan masalah yang dibuat di atas, maka manfaat dari

penelitian ini adalah:

a. Manfaat dari penelitian ini bagi peneliti adalah untuk mengimplementasikan

ilmu Informatika terutama yang berkaitan dengan pemrosesan citra pada

suatu aksara.

b. Manfaat dari penelitian ini bagi universitas adalah dapat memberikan

kontribusi penambahan ilmu pengetahuan, khususnya bagi prodi

Informatika serta menjadi bahan bacaan di perpustakaan Universitas dan

dapat memberikan referensi bagi mahasiswa lain.

1.5 Batasan Penelitian

Batasan – batasan masalah pada penyusunan penelitian ini adalah sebagai

berikut:

1. Data yang digunakan adalah hasil dari scan halaman dari buku Hamong

Tani (Holle, 1876).

2. Ekstraksi ciri yang digunakan adalah IoC dengan ukuran 3x3, 4x4, dan

3. Masukan data hanya berupa citra yang berformat .png.

4. Memfokuskan pencarian K optimal pada range sampai 120 saja.

5. Nilai SI hasil metode silhouette yang digunakan adalah ketika diatas 0,5.

6. Nilai distortion percent hasil metode elbow yang digunakan adalah ketika

diatas 0,9.

1.6 Sistematika Penulisan

BAB I PENDAHULUAN

Bab ini berisi tentang latar belakang, rumusan masalah, tujuan penelitian,

manfaat penelitian, batasan masalah, dan sistematika penulisan.

BAB II LANDASAN TEORI

Bab ini berisi tentang teori-teori dasar yang berkaitan dengan penelitian

yang akan dilakukan, yang meliputi dari objek yang digunakan, metode

preprocessing yang digunakan, segmentasi yang digunakan, ekstraksi ciri

yang digunakan, dan clustering yang digunakan.

BAB III METODE PENELITIAN

Bab ini berisi tentang langkah-langkah yang dilakukan dalam penelitian

yang bertujuan untuk menjawab dan menyelesaikan rumusan masalah

yang dimiliki.

BAB IV HASIL PENELITIAN DAN ANALISIS

Bab ini berisi tentang penjelasan mengenai sistem yang akan dibangun,

penerapan algoritma serta rancangan yang telah dibuat, cara penggunaan

sistem, serta hasil analisa dari pengujian-pengujian yang dilakukan.

BAB V KESIMPULAN DAN SARAN

Bab ini berisi kesimpulan dari hasil penelitian serta saran yang diusulkan

untuk dapat mengembangkan penelitian ini.

BAB II LANDASAN TEORI

2.1 Aksara Jawa

Aksara Jawa terdiri dari 20 aksara pokok (legena) yang bersifat

kesukukataan. Sifat penulisan aksara Jawa ditulis dari kiri ke kanan dan

ditulis secara bersambung tanpa spasi antar kata. Menurut Hadiprijono(2013)

aksara Jawa terdiri dari 20 aksara, yaitu dari aksara ha sampai nga adalah

seperti pada Gambar 2.1.

Gambar 2.1 merupakan aksara dasar atau pokok yang berjumlah

sebanyak 20 aksara. Aksara pokok atau sering disebut legena memiliki arti

aksara wuda (telanjang) sebab belum diikuti dengan sandhangan. Selain

aksara pokok (legena), aksara vokal (swara), aksara rekaan (rekan),

pengubah bunyi (sandhangan), penutup konsonan (pasangan), penutup

suku kata (sigeg), angka (wilangan), dan tanda baca. Aksara sandhangan

adalah aksara yang dipakai untuk mengubah bunyi dari aksara yang

diikutinya. Secara khusus, aksara sandhangan tersebut dibagi ke dalam 4

jenis, yaitu 5 sandhangan swara, 3 sandhangan penyigeg wanda, 3

sandhangan wyanjana, dan sandhangan pangkon. Untuk sandhangan

swara terdiri dari 5 aksara, seperti pada Gambar 2.2.

Gambar 3. 1 20 Aksara Jawa Pokok Gambar 2.1 20 Aksara Pokok

Gambar 2.2 Aksara Sandhangan

Gambar 2.2 merupakan kumpulan dari sandhangan swara, yaitu

terdiri dari wulu, suku, taling, taling-tarung, dan pepet. Masing-masing

sandhangan mempunyai karakteristik tersendiri dalam mengubah bunyi

suatu aksara yang diikutinya, yaitu wulu akan membuat suku kata menjadi

bunyi vokal /i/, suku akan membuat suku kata menjadi bunyi vokal /u/, taling

akan membuat suku kata menjadi bunyi vokal /é/, taling-tarung akan

membuat suku kata menjadi bunyi vokal /o/, dan pepet akan membuat suku

kata menjadi bunyi vokal /ê/. Sebagai contoh, untuk membentuk kata “siji”

berarti harus menambahkan wulu pada aksara sa dan ja untuk mengubah

bunyinya menjadi si dan ji. Selanjutnya, sandhangan panyigeg wanda

terdiri 3 aksara seperti Gambar 2.3.

Gambar 2.3 adalah sandhangan panyigeg wanda yang terdiri dari

layar, wignyan, dan cecak. Sigeg artinya pembuat konsonan atau penutup

suku kata sedangkan wanda artinya suku kata. Fungsi sandhangan layar

akan memberi bunyi /r/, wignyan akan memberi bunyi /h/, dan cecak akan

membuat bunyi /ng/ pada suku kata yang diikutinya. Sebagai contoh, untuk

Gambar 2.3 Aksara Penyigeg Wanda

membentuk kata “gajah” maka dapat ditulis dengan aksara ga dan ja

kemudian diberi sandhangan wignyan yang akan memberi konsonan atau

akhiran h. Jenis sandhangan berikutnya adalah sandhangan wyanjana yang

terdiri dari 3 aksara seperti Gambar 2.4.

Gambar 2.4 adalah contoh dari sandhangan wyanjana yang terdiri dari

cakra, keret, dan pengkal. Sandhangan wyanjana merupakan penanda dari gugus

konsonan, yakni cakra akan memberikan sisipan kata /ra/, keret akan memberikan

sisipan kata /re/ dan pengkal akan memberikan sisipan kata /ya/ pada masing-

masing aksara yang diikutinya. Sebagai contoh pada Gambar 2.4 untuk

membentuk kata “putra” maka dapat ditulis dengan aksara pa yang diberi suku lalu

aksara ta tang diberi cakra. Jenis sandhangan terakhir adalah, sandhangan pangkon.

Gambar 2.5 adalah sandhangan pangkon. Fungsi pangkon adalah sebagai

penutup suku kata atau membentuk konsonan pada suku kata yang berada di

depannya. Sebagai contoh, ketika ingin membentuk kata “tangan” maka dapat ditulis

dengan aksara ta, nga, dan na yang diberi pangkon sehingga menjadi konsonan n.

Selain aksara pokok, dalam penulisan aksara Jawa juga terdapat aksara pasangan.

Jumlah dan bunyi aksara pasangan sama seperti aksara legena, yaitu berjumlah 20

dan terdiri dari ha sampai nga. Berikut ini adalah contoh dari aksara pasangan.

Gambar 2. 4 Sandhangan Wyanjana

Gambar 2.5 Sandhangan Pangkon

Gambar 2.6 adalah contoh dari aksara pasangan. Hanya terdapat 3 aksara

saja yang ditulis sejajar dengan legena, yaitu pasangan ha, pasangan sa, dan

pasangan pa, selain itu penulisan pasangan ditulis di bawah legena. Fungsi dari

aksara pasangan adalah pembentuk konsonan atau penutup suku kata sehingga

suku kata yang diberi pasangan dapat digabungkan dengan aksara selanjutnya.

Aksara berikutnya adalah aksara wilangan, yakni aksara yang

mempresentasikan angka. Berikut adalah aksara wilangan yang dapat dilihat

melalui Gambar 2.7.

Gambar 2.6 Aksara Pasangan

Gambar 2.7 Aksara Wilangan

Gambar 2.7 merupakan kumpulan aksara wilangan. Dengan

adanya aksara wilangan maka bentuk-bentuk angka yang ditulis dapat

dipenuhi.

2.2 Pengertian Citra

Citra adalah kombinasi antara titik, garis, bidang, dan warna untuk

menciptakan suatu objek-biasanya objek fisik atau manusia. Citra didefinisikan

sebagai suatu fungsi kontinu dalam dua dimensi dari intensitas cahaya (Gonzalez

& Woods, 2002). Setiap titik citra dapat dinyatakan dalam rumus matematis :

0 < 𝑓(𝑥, 𝑦) < ∞ …………………………………..(2.1)

Variabel f(x,y) adalah intensitas cahaya pada citra yang terletak dilokasi (x,y).

Citra digital dapat diartikan sebagai suatu matriks yang terdiri atas baris dan

kolom, di mana setiap elemennya merupakan nilai intensitas kecerahan. Titik dari

setiap matriks dinamakan dengan piksel. Citra digital merupakan kumpulan dari

piksel dengan jumlah piksel tertentu.

2.3 Pemrosesan Citra

Pemrosesan citra merupakan metode-metode yang digunakan untuk

mengolah citra digital agar citra tersebut memiliki kualitas yang lebih baik,

sehingga dapat ditafsirkan oleh manusia atau mesin. Konsep dasar yang ada dalam

setiap metode pemrosesan citra ini adalah memodifikasi setiap piksel atau titik pada

bidang citra sesuai dengan keperluan yang dibutuhkan (Widiarti & Himamunanto,

2012).

2.4 Preprocessing

Tahapan preprocessing berguna untuk menyiapkan data seperti mengubah

ukuran citra, membuang noise, atau memisahkan latar belakang citra dengan

objeknya, sebelum citra tersebut masuk ke tahap selanjutnya. Pada tahapan ini, akan

banyak mengimplementasikan metode-metode pemrosesan citra dalam mengolah

citra aksara.

2.4.1. Binerisasi

Binerisasi adalah tahapan dimana citra dimensi dua akan diubah menjadi

citra hitam putih dengan dimensi satu dengan cara mengubah nilai elemen dalam

matriks citra menjadi 0 dan 1 dimana nilai 0 sebagai warna hitam dan 1 sebagai

warna putih. Tujuan utama dari proses ini adalah secara otomatis menentukan nilai

ambang treshold yang akan membagi citra dalam dua kelompok yaitu, kelompok

obyek dan kelompok latar belakang (Widiarti & Himamunanto, 2012).

2.4.2. Thinning

Thining merupakan suatu operasi dalam preprocessing, yang berfungsi

untuk mereduksi suatu obyek menjadi kerangka dari objek tersebut (Widiarti &

Himamunanto, 2012). Tujuan utama penipisan adalah menyederhanakan suatu

objek agar menjadi lebih sederhana dan tidak memakan memori terlalu besar.

2.4.3. Filtering

Filtering atau reduksi derau atau noise reduction merupakan tahapan

penting dalam pemrosesan citra karena mampu menghilangkan piksel-piksel yang

tidak dibutuhkan untuk mengurangi kesalahan dalam proses pengenalan obyek

(Widiarti & Himamunanto, 2012).

Bentuk derau bisa berupa suatu piksel yang letaknya terasing dari piksel

yang lain. Biasanya berbentuk titik hitam kecil dalam suatu gambar citra. Jika kita

tidak melakukan reduksi derau maka proses identifikasi akan terganggu oleh derau

tersebut.

2.5 Segmentasi

Segmentasi merupakan proses pemecahan citra untuk memperoleh objek-

objek yang terkandung dalam citra tersebut. Segmentasi terbagi menjadi dua tahap.

Tahap pertama adalah pemisahan objek dengan objek lain yang berada ada baris

yang sama, lalu tahap kedua yaitu mendapatkan huruf tersebut secara individu

dengan mendapatkan kolom-kolom karakter citra aksara dari baris yang telah

dipotong pada tahap pertama.

2.5.1. Profil Proyeksi

Profil proyeksi merupakan bagian dari segmentasi citra yang berfungsi

memisahkan latar belakang dengan objek dengan memotong secara vertikal dan

horisontal. Proyeksi vertikal digunakan untuk mengambil kolom dari citra,

sedangkan proyeksi horisontal berfungsi untuk mengambil baris dari citra.

2.5.2. Resize

Resize citra merupakan bagian dari segmentasi citra yang berfungsi

mengubah resolusi atau citra mengubah ukuran piksel vertikal dan horisontal.

Adakalanya ukuran file berubah setelah resize menjadi lebih kecil atau menjadi

lebih besar sesuai dengan resolusinya.

2.6 Ekstraksi Ciri

Ekstraksi ciri merupakan suatu proses pengambilan ciri atau informasi yang

berada pada suatu obyek. Hal ini dilakukan untuk mempermudah dalam proses

pencarian informasi tentang obyek tersebut. Proses ektraksi ciri pada citra digital

dilakukan dengan menemukan karakteristik dari suatu citra yang biasanya

ditemukan dalam bentuk citra tersebut.

2.6.1. Intensity of Character

Intensity of Character merupakan salah satu metode yang digunakan dalam

proses ektraksi ciri. Intensity of character berbentuk matriks ukuran NxN, yang

mana setiap unit 1x1 nya berisikan n piksel hasil penjumlahan piksel yang bernilai

0 (hitam). Pada proses ini data citra akan dibagi menjadi beberapa segmen yang

lebih kecil. Proses ini bertujuan untuk mempermudah dalam pencirian data. Sebagai

contoh sederhana, berikut merupakan proses gambaran untuk mendapatkan ciri IoC

berukuran 3x3:

a. Terdapat Citra berukuran sebesar 9x9, maka untuk setiap unit IoC 1x1

nya akan mencakup matrix sebesar 3x3.

Tabel 2.1 Tabel Representasi Data Citra berukuran 9x9

1 1 0 0 1 1 0 1 0

1 0 1 1 0 0 1 1 1

1 1 1 1 1 1 1 0 0

1 0 1 1 0 1 0 1 1

0 0 0 0 1 1 0 0 0

1 1 1 0 1 1 0 1 1

1 1 1 0 1 0 1 1 1

0 0 1 1 0 1 1 0 1

0 1 1 0 1 1 1 1 1

b. Untuk setiap unit 1x1, akan menyimpan nilai yang merupakan banyaknya

anggota piksel berwarna hitam untuk setiap area 3x3nya. Berikut adalah

bentuk IoC 3x3 tersebut ketika telah dilakukannya penjumlahan untuk

setiap unit nya.

Tabel 2.2 Hasil IoC 3x3

2.7 K-means Clustering

K-means clustering adalah metode untuk mengelompokan objek ke dalam

K kelompok dengan K adalah jumlah kelompok yang diinginkan. Dalam

penghitungan K-means dimulai dengan kelompok pertama centroid. Centroid

adalah titik pusat data, dimana centroid ini dapat ditentukan secara random sesuai

dengan kebutuhan atau bergantung dari data yang digunakan.

Pada K-means terdapat beberapa langkah yang harus dilakukan

yaitu:

1. Tentukan jumlah cluster

2. Alokasikan data ke dalam cluster

3. Hitung centroid/rata-rata dari data yang ada di masing-

masing cluster

4. Hitung perhiyungan jarak lalu alokasikan masing-masing data

ke centroid

5. Kembali ke Step 3, apabila masih ada data yang berpindah

cluster atau apabila perubahan nilai centroid.

Secara rinci tahap-tahap diatas dapat dijabarkan pada contoh berikut

Misal ada 4 data di Tabel 2.3 yang ingin dipisahkan menjadi 2 buah

cluster dari data.

Tabel 2.3 Data Clustering

N Ciri 1 Ciri 2 Ciri 3 Ciri 4

1 1 1 2 1

2 2 1 2 2

3 4 3 3 2

4 5 4 1 5

1. Dipilih jumlah cluster sebanyak 2.

2. Alokasikan data kedalam cluster.

N Ciri 1 Ciri 2 Ciri 3 Ciri 4 Cluster

1 1 1 2 1 1

2 2 1 2 2 1

3 4 3 3 2 2

4 5 4 1 5 2

3. Pencarian centroid secara random.

Tabel 2.4 Centroid Random

C1 1 1 2 1

C2 2 1 2 2

Disini kita menggunakan data 1 dan 2 sebagai centroid awal pada 2

cluster.

4. Melakukan perhitungan jarak dengan centroid

Perhitungan jarak dilakukan dengan menggunakan rumus jarak

Euclidean yaitu dengan rumus :

𝑑(𝑥, 𝑦) = √∑ (𝑥𝑖 − 𝑦𝑖)2𝑛𝑖 = 1 ………….( 2.2)

Dimana,

𝑑 = jarak antara x dan y

𝑥 = data pusat klaster

𝑦 = data pada atribut

Iterasi 1

d(x1,c1) = √(1 − 1)2 + (1 − 1)2 + (2 − 2)2 + (1 − 1)2 = 0

d(x2,c1) = √(2 − 1)2 + (1 − 1)2 + (2 − 2)2 + (2 − 1)2 = 1,414214

d(x3,c1) = √(4 − 1)2 + (3 − 1)2 + (3 − 2)2 + (2 − 1)2 = 3,872983

d(x4,c1) = √(5 − 1)2 + (4 − 1)2 + (1 − 2)2 + (5 − 1)2 = 6,480741

d(x1,c2) = √(1 − 2)2 + (1 − 1)2 + (2 − 2)2 + (1 − 2)2 = 1,414214

d(x2,c2) = √(2 − 2)2 + (1 − 1)2 + (2 − 2)2 + (2 − 2)2 = 0

d(x3,c2) = √(4 − 2)2 + (3 − 1)2 + (3 − 2)2 + (3 − 2)2 = 3

d(x4,c2) = √(5 − 2)2 + (4 − 1)2 + (1 − 2)2 + (5 − 2)2 = 5,291503

maka didapatkan hasil tabel berikut :

Tabel 2.5 Hasil Iterasi 1

Data Hasil Euclidean C1 Hasil Euclidean C2 C1 C2

1 0 1,414214 v

2 1,414214 0 v

3 3,872983 3 v

4 6,480741 5,291503 v

Dari tabel diatas kita mencari minimum dari jarak data ke

setiap centroid cluster dan dimasukan sementara pada cluster yang

ada. Dimana data 1 masuk ke C1 dan data 2 sampai 4 masuk ke C2.

5. Pencarian centroid baru

Pencarian nilai centroid baru didasarkan pada rumus berikut :

𝐶𝑖 = ∑ 𝑥𝑖∈ 𝑠𝑖

𝑛𝑖=1

𝑛…………………..( 2.3)

Dimana,

𝐶𝑖 = Centroid baru ke i

𝑠𝑖 = obyek ke i

𝑥𝑖 = nilai pada obyek ke i

𝑛 = jumlah data pada tiap kelompok atau cluster

Maka, hasil centroid baru pada iterasi 1 adalah sebagai

berikut :

Tabel 2.6 Hasil Centroid Iterasi 1

C1 1 1 2 1

C2 3,666666667 2,666666667 2 3

Selanjutnya adalah menghitung nilai jarak dan centroid baru

sampai dengan data dalam cluster tidak ada yang berpindah lagi.

Dianggap centroid telah stabil jika tidak ada perubahan dalam nilai-

nilai mereka karena pengelompokan telah berhasil.

Iterasi 2 :

1 0 3,72678 v

2 1,414214 2,560382 v

3 3,872983 1,490712 v

4 6,480741 2,924988 v

C1 1,5 1 2 1,5

C2 4,5 3,5 2 3,5

Iterasi 3 :

1 0,707107 4,974937 v

2 0,707107 3,840573 v

3 3,391165 1,936492 v

4 5,87367 1,936492 v

C1 1,5 1 2 1,5

C2 4,5 3,5 2 3,5

Hasil pada Tabel 2.10 tidak ditemukan data yang berpindah

sehingga iterasi selesai. Hasil yang didapatkan cluster 1 adalah data

1 dan 2 sementara itu cluster 2 adalah data 3 dan 4.

2.8 Metode Elbow

Metode Elbow adalah salah satu metode yang digunakan untuk menentukan

jumlah cluster terbaik melalui perbandingan hasil persentase antara jumlah cluster

yang akan membentuk siku pada suatu titik. Jika perbandingan nilai cluster pertama

dengan nilai cluster kedua menghasilkan sudut dalam grafik atau nilainya

mengalami penurunan paling besar maka jumlah nilai cluster tersebut yang tepat.

Untuk mendapatkan perbandingannya adalah dengan menghitung Sum of

Square Error (SSE) dari masing-masing nilai cluster. Karena semakin besar jumlah

nilai cluster K, maka nilai SSE akan semakin kecil (Dewi & Pramita, 2019).

Berikut rumus persamaan SSE :

𝑆𝑆𝐸 = ∑ ∑ |𝑥𝑖 − 𝑐𝑘|2𝐾𝐾=1 ……………..….……..(2.4)

Keterangan:

K = cluster ke-c

𝑥𝑖= jarak data obyek ke-i

𝑐𝑘 = pusat cluster ke-i

Contoh hitung Elbow :

1 2 3 4 5 6 7 8 9 10

98 97,8 97 98,2 99,4 97,6 99,2 98,4 98,7 97,9

a. Hitung rata2 semua data

98 + 97,8 + 97 + 98,2 + 99,4 + 97,6 + 99,2 + 98,4 + 98,7 + 97,9

10= 98,22

b. Menghitung deviasi semua data dengan rumus 2.4

Setelah didapatkan rata-rata semua data maka langkah

selanjutnya adalah menghitung deviasi dimana nilai pada data akan

dikurang dengan rata rata.

c. Menghitung SSE

SSE didapatkan dengan menjumlah seluruh hasil deviasi^2.

0,0484 + 0,1764 + 1,4884 + 0,0004 + 1,3924 + 0,3844

+ 0,9604 + 0,0324 + 0,2304 + 0,1024

= 4,816

Untuk perhitungan dataset ini didapatkan nilai SSE sebesar 4,816. Hasil

ini biasanya akan dibandingkan dengan SSE dari dataset lain dan kemudian

akan dipilih yang paling minimum karena jika semakin kecil errornya maka

data akan dianggap baik.

Penghitungan Deviasi Deviasi^2

98 – 98,22 -0,22 0,0484

97,8 – 98,22 -0,42 0,1764

97 – 98,22 -1,22 1,4884

98,2 – 98,22 -0,02 0,0004

99,4 – 98,22 1,18 1,3924

97,6 – 98,22 -0,62 0,3844

99,2 – 98,22 0,98 0,9604

98,4 – 98,22 0,18 0,0324

98,7 – 98,22 0,48 0,2304

97,9 – 98,22 0,32 0,1024

2.9 Metode Silhouette

Metode Silhouette Coefficient merupakan gabungan dari metode cohesion

dan separation. Metode ini sering digunakan untuk melihat kualitas dan kekuatan

cluster yaitu seberapa baik suatu objek ditempatkan dalam suatu cluster. Selain itu

dapat juga digunakan untuk mengukur seberapa dekat relasi antara objek dalam

sebuah cluster. Metode separation yang berfungsi untuk mengukur seberapa jauh

sebuah cluster terpisah dengan cluster lain.

Tahapan perhitungan Silhouette Coefficient adalah sebagai berikut:

A. Hitung rata-rata jarak dari suatu objek misalkan i dengan semua

objek lain yang masih berada dalam satu cluster

𝑎(𝑖) =1

|𝐴|−1∑ 𝑗 ∈𝑎,𝑗=1 𝑑(𝑖, 𝑗)……..………….( 2.5)

dengan j adalah objek lain yang berada dalam satu cluster A

dan d(i,j) adalah jarak antara objek i dengan j.

B. Hitung rata-rata jarak dari objek i tersebut dengan semua objek

yang berada di cluster lain, dan diambil nilai paling minimumnya.

𝑑(𝑖, 𝐶) =1

|𝐴|∑ 𝑗 ∈ 𝐶 𝑑(𝑖, 𝑗)………………..(2.6)

d(i,C) adalah jarak rata-rata objek i dengan semua objek pada

cluster lain C dimana A ≠ C.

𝑑(𝑖, 𝐶) = 𝑚𝑖𝑛 𝐶 ≠ 𝐴𝑑(𝑖, 𝑗)………..……….(2.7)

C. Nilai Silhouette Coefficient nya adalah :

𝑠(𝑖) =𝑏(𝑖)−𝑎(𝑖)

𝑚𝑎𝑥 (𝑎(𝑖),𝑏(𝑖))…………………( (2.8)

Nilai yang didapat dari metode silhouette coefficient terletak pada

kisaran nilai -1 hingga 1. Jika nilai silhouette coefficient mendekati

nilai 1, maka semakin baik pengelompokan objeknya dalam satu

cluster. Sebaliknya jika silhouette coefficient mendekati nilai -1,

maka semakin buruk pengelompokan objeknya didalam satu cluster.

Contoh hitung Silhouette :

Tabel 2.11 Contoh Data Silhouette

Data Ciri 1 Ciri 2 Ciri 3 Ciri 4 Cluster

1 2 1 2 1 1

2 2 1 2 2 1

3 3 2 3 2 2

4 4 3 2 1 2

Menghitung nilai 𝑎𝑖 masing-masing data menggunakan rumus 2.5

a. Data 1 cluster 1:

d(data 1, data 2) =

√(2 − 2)2 + (1 − 1)2 + (2 − 2)2 + (1 − 2)2 = 1

nilai 𝑎𝑖 = 1/(2-1) = 1

b. Data 2 cluster 1:

d(data 2, data 1) =

√(2 − 2)2 + (1 − 1)2 + (2 − 2)2 + (2 − 1)2 = 1

nilai 𝑎𝑖 = 1/(2-1) = 1

c. Data 3 cluster 2:

d(data 3, data 4) =

√(3 − 4)2 + (2 − 3)2 + (3 − 2)2 + (2 − 1)2 = 2

nilai 𝑎𝑖 = 2/(2-1) = 2

d. Data 4 cluster 2:

d(data 4, data 3) =

√(4 − 3)2 + (3 − 2)2 + (2 − 3)2 + (1 − 2)2 =

2,645751

nilai 𝑎𝑖 = 2,645751/(2-1) = 2,645751

Menghitung nilai 𝑏𝑖masing-masing data dengan menggunakan

rumus 2.7

a. Data 1 cluster 1:

d(data 1, data 3) =

√(2 − 3)2 + (1 − 2)2 + (2 − 3)2 + (1 − 2)2 = 2

d(data 1, data 4) =

√(2 − 4)2 + (1 − 3)2 + (2 − 2)2 + (1 − 1)2 =

2,828427

nilai 𝑏𝑖 = (2,828427 – 2)/2 = 1,828427

b. Data 2 cluster 1:

d(data 2, data 3) =

√(2 − 3)2 + (1 − 2)2 + (2 − 3)2 + (2 − 2)2 =

1,732051

d(data 2, data 4) =

√(2 − 4)2 + (1 − 3)2 + (2 − 2)2 + (2 − 1)2 = 3

nilai 𝑏𝑖 = (3 – 1,732051)/2 = 2,133975

c. Data 3 cluster 2:

d(data 3, data 1) =

√(3 − 2)2 + (2 − 1)2 + (3 − 2)2 + (2 − 1)2 = 2

d(data 3, data 2) =

√(3 − 2)2 + (2 − 1)2 + (3 − 2)2 + (2 − 2)2 =

1,732051

nilai 𝑏𝑖 = (1,732051-2)/2 = 0,866026

d. Data 4 cluster 2:

d(data 4, data 1) =

√(4 − 2)2 + (3 − 1)2 + (2 − 2)2 + (1 − 1)2 =

2,828427

d(data 4, data 2) =

√(4 − 2)2 + (3 − 1)2 + (2 − 2)2 + (1 − 2)2 =

nilai 𝑏𝑖 = (3 – 2,828427)/2 = 1,585786

Menghitung nilai Si(Silhouette data) menggunakan rumus 2.8

a. Si data 1 = (1,828427-1)/1,828427 = 0,453082

b. Si data 2 = (2,133975-1)/ 2,133975 = 0,531391

c. Si data 3 = (0,866026-2)/ 0,866026 = -1,3094

d. Si data 4 = (1,585786-2,645751)/ 1,585786= -0,66842

Menghitung nilai SI tiap Cluster

a. Si cluster 1 = (0,453082+0,531391) = 0,984473

b. Si cluster 2 = (-1,3094 + (-0,66842) = -1,97782

Menghitung nilai SI global

Si global = (0,984473 + (-1,97782)) = -0,99334

Dari 4 data didapatkan nilai SI global (SI Keseluruahan data) yaitu -

0,99334. Hal ini menunjukan bahwa hasil pengelompokan akan memiliki struktur

yang buruk.

Untuk menentukan kualitas dari cluster yang telah dibentuk, maka semua

nilai silhouette dari semua data yang ada dalam cluster akan dijumlahkan lalu

dirata-rata. Berikut adalah kriteria penilaian suatu cluster menurut Kaufmann &

Roesseeuw(1990).

Tabel 2.12 Rentang nilai Silhouette Coefficient

Nilai Silhouette Coefficient Kualitas

0,71 – 1,00 Struktur yang kuat telah terbentuk

0,51 – 0,70 Struktur yang layak telah terbentuk

0,26 – 0,50 Struktur lemah

≤ 0,25 Struktur buruk

2.10 Nilai Ground Truth

Nilai ground truth merupakan salah satu cara validasi. Nilai ground

truth digunakan sebagai tolak ukur lain untuk mengukur akurasi dari suatu

proses yang dilakukan oleh mesin. Pada kasus clustering yang dengan nilai

ground truth adalah mengecek nilai kebenaran dari cluster yang telah

terbentuk dari proses clustering.

Cara untuk menghitung nilai ground truth pada kasus clustering

aksara berpatokan pada rumus berikut ini:

𝐺𝑟𝑜𝑢𝑛𝑑 𝑇𝑟𝑢𝑡ℎ = 𝑗𝑢𝑚𝑙𝑎ℎ 𝑎𝑘𝑠𝑎𝑟𝑎 𝑏𝑒𝑛𝑎𝑟

𝑗𝑢𝑚𝑙𝑎ℎ 𝑎𝑘𝑠𝑎𝑟𝑎………..……….(2.9)

Rumus 2.9 bertujuan untuk menghitung nilai kebenaran dari proses

clustering dengan cara menghitung jumlah aksara yang benar sesuai dengan

kelompoknya lalu dibagi dengan jumlah keseluruhan data aksara.

BAB III METODE PENELITIAN

3.1 Deskripsi Data

Set data mentah dalam penelitian ini diperoleh dari scan halaman dari buku

Hamong Tani (Holle, 1876). Data yang dipakai adalah aksara Jawa yang terdapat

pada halaman buku Hamong Tani. Banyak halaman yang digunakan adalah

sebanyak 2 halaman yaitu halaman 2 dan 59 hal ini berdasarkan dari pertimbangan

waktu yang diperlukan untuk mengolah data, banyak total data, dan pengerjaan

penelitian. Data yang nanti akan diolah akan dipotong sendiri-sendiri sehingga

aksara pokok akan terpisah dengan pasangan, angka, dan juga tanda baca.

Gambar 3.1 Halaman 2 buku Hamong Tani (Holle, 1876)

Gambar 3.2 Halaman 59 buku Hamong Tani (Holle, 1876)

Pada Gambar 3.2 terdapat gambar bagian sisi kiri yang akan menyulitkan

proses segmentasi sehingga yang dilakukan adalah memotong gambar tersebut

sehingga hanya menyisahkan aksaranya saja.

Namun, set data yang diperoleh tersebut tidak dapat langsung diproses. Hal

ini dikarenakan harus dilakukan proses cropping terlebih dahulu dan juga masih

adanya noise yang terdapat pada tiap aksara sehingga harus dibersihkan.

Gambar 3.3 Contoh Citra Hasil Crop

Gambar 3.3 merupakan contoh data citra setelah cropping manual yang

masih mengandung banyak noise berupa bintik hitam yang terdapat ditengah-

tengah. Noise tersebut seharusnya tidak ada maka perlu dihilangkan untuk

memperoleh data yang bersih untuk mempermudah proses selanjutnya.

Tabel 3.1 Hasil Segmentasi Aksara pertama halaman 2

Pada Tabel 3.1 menunjukan hasil pemotongan yang memisahkan data

aksara pokok akan dengan pasangan, angka, dan juga tanda baca.

3.2 Pengolahan Data

Sebelum data akan dikelompokan dan diambil cirinya maka perlu adanya

pengolahan data. Pengolahan data dimulai dengan memasukan data citra hasil scan

halaman buku Hamong Tani ke matlab. Lalu data akan dibersihkan melalui proses

preprocessing dimana data citra yang hasil scan akan melalui berbagai tahap

preprocessing. Adapun tahap preprocessing tersebut adalah binerisasi, invers,

filtering, invers kembali. Hasil preprocessing adalah data citra yang sudah bersih

dan siap untuk disegmentasi. Dalam proses segmentasi citra akan dipotong per

karakter dengan profil projeksi ditambah dengan bwlabel dan kemudian di resize

ukurannya menjadi 33x33, 88x88, dan 60x60 lalu di thinning. Setelah itu data akan

di ekstraksi cirinya dengan ukuran IoC 3x3, 4x4, dan 5x5. Setelah diperoleh ciri

dari tiap data maka akan masuk ke proses clustering.

3.3 Contoh Perhitungan 10 Data Dummy

Diambil 10 data dari total 597. Dari 10 data tersebut 3 data adalah pepet, 5

data adalah sa, dan 2 data adalah ma.

Gambar 3.4 Data Dummy Berjumlah 10

Dari 10 data tersebut diambil cirinya

Tabel 3.2 Ciri IoC 3x3 10 Data Dummy

Aksara Ciri 1 Ciri 2 Ciri 3 Ciri 4 Ciri 5 Ciri 6 Ciri 7 Ciri 8 Ciri 9

Pepet 1 8 15 21 16 0 13 14 18 24

Pepet 2 7 15 22 23 0 18 7 11 25

Pepet 3 6 16 22 20 0 13 8 25 20

Ta 1 16 22 17 20 11 11 27 24 19

Ta 2 22 22 16 23 13 16 27 23 14

Ta 3 22 22 17 22 11 16 29 24 14

Ta 4 14 22 19 22 11 15 24 25 15

Ta 5 16 22 17 22 13 15 27 22 14

Ma 1 12 14 14 13 16 12 24 26 16

Ma 2 15 15 14 13 10 11 21 25 21

1. Proses K-Means

a. Dipilih 3 awal centroid yaitu pepet 1, ta 2, dan ma 1.

Tabel 3.3 Centroid Awal

Centroid Ciri 1 Ciri 2 Ciri 3 Ciri 4 Ciri 5 Ciri 6 Ciri 7 Ciri 8 Ciri 9

Pepet 1 8 15 21 16 0 13 14 18 24

Ta 2 22 22 16 23 13 16 27 23 14

Ma 1 12 14 14 13 16 12 24 26 16

b. Hasil Iterasi 1, Penghitungan jarak menggunakan rumus euclidean.

Data pepet masuk ke cluster 1, data ta masuk ke cluster 2, dan data

ma masuk ke cluster 3.

X1 X2 X3 C1 C2 C3

0 28.12472222 23.66431913 v

13.22875656 33.88214869 32.81767816 v

11.09053651 30.2654919 26.13426869 v

22.36067977 10.04987562 13.6381817 v

28.12472222 0 17.74823935 v

28.0713377 3.31662479 18.11077028 v

21.9089023 9.643650761 14.49137675 v

24.95996795 6.32455532 14.73091986 v

23.66431913 17.74823935 0 v

17.8325545 18.02775638 9.055385138 v

c. Lalu menghitung centroid baru yang akan digunakan di Iterasi 2

Tabel 3.5 Centroid Baru

Centroid

Ciri 1 Ciri 2 Ciri 3 Ciri 4 Ciri 5 Ciri 6 Ciri 7 Ciri 8 Ciri 9

c1 7 15.34 21.67 19.67 0 14.67 9.67 18 23

c2 18 22 17.2 21.8 11.8 14.6 26.8 23.6 15.2

c3 13.5 14.5 14 13 13 11.5 22.5 25.5 18.5

d. Menghitung jarak lagi dengan centroid baru. Hasil iterasi 2 sama

dengan hasil iterasi 1 dimana tidak ada perpidahan data sehingga

dianggap selesai dan terbentuk 3 cluster.

X1 X2 X3 C1 C2 C3

6.12825877 24.72893043 20.45727255 v

9.08600878 31.49793644 30.17449254 v

8.076027626 26.95403495 23.5690475 v

25.18376902 5.95986577 12.1449578 v

29.8310055 4.911211663 17.3060683 v

30.16988933 5.011985634 17.53567792 v

23.35713072 5.469917732 13.91042774 v

25.40778533 3.117691454 14.7478812 v

26.6749987 15.04393566 4.527692569 v

21.499354 15.20263135 4.527692569 v

Dari hasil diatas dapat disimpulkan bahwa data 1, 2, dan 3 akan masuk ke cluster

1, lalu data 4, 5, 6, 7, dan 8 akan masuk ke cluster 2, serta data 9 dan 10 akan masuk

ke cluster 3 sehingga terbentuk 3 cluster.

2. Proses Silhouette

a. Setelah didapatkan pengelompokan menjadi 3 kelompok akan dihitung SI

tiap datanya.

Tabel 3.7 Data Silhouette Hasil K-Means Clustering

8 15 21 16 0 13 14 18 24 Cluster 1

7 15 22 23 0 18 7 11 25 Cluster 1

6 16 22 20 0 13 8 25 20 Cluster 1

16 22 17 20 11 11 27 24 19 Cluster 2

22 22 16 23 13 16 27 23 14 Cluster 2

22 22 17 22 11 16 29 24 14 Cluster 2

14 22 19 22 11 15 24 25 15 Cluster 2

16 22 17 22 13 15 27 22 14 Cluster 2

12 14 14 13 16 12 24 26 16 Cluster 3

15 15 14 13 10 11 21 25 21 Cluster 3

b. Menghitung jarak tiap data ke data yang lain dengan rumus euclidean.

Tabel 3.8 Penghitungan Jarak Antar Data

Data 1 Data 2 Data 3 Data 4 Data 5 Data 6 Data 7 Data 8 Data 9 Data 10

Data 1 0.00 13.23 11.09 22.36 28.12 28.07 21.91 24.96 23.66 17.83

Data 2 13.23 0.00 16.06 30.64 33.88 34.63 28.69 31.24 32.82 28.02

Data 3 11.09 16.06 0.00 25.48 30.27 30.48 22.78 27.28 26.13 21.66

Data 4 22.36 30.64 25.48 0.00 10.05 9.70 7.35 7.28 13.64 12.25

Data 5 28.12 33.88 30.27 10.05 0.00 3.32 9.64 6.32 17.75 18.03

Data 6 28.07 34.63 30.48 9.70 3.32 0.00 9.80 7.00 18.11 18.11

Data 7 21.91 28.69 22.78 7.35 9.64 9.80 0.00 5.57 14.49 14.76

Data 8 24.96 31.24 27.28 7.28 6.32 7.00 5.57 0.00 14.73 16.09

Data 9 23.66 32.82 26.13 13.64 17.75 18.11 14.49 14.73 0.00 9.06

Data 10 17.83 28.02 21.66 12.25 18.03 18.11 14.76 16.09 9.06 0.00

c. Menghitung ai tiap data dengan menghitung rata-rata nilai dikelompoknya

saja dan juga menghitung bi dimana akan menghitung rata-rata nilai dari

kelompok lainnya. Untuk bi akan dipilih yang paling kecil dari hasil yang

didapatkan.

Tabel 3.9 Penghitungan ai dan bi Data 1-5

ai 1 12.16 ai 2 9.76 ai 3 9.05 26.16 30.76

25.09 31.82 27.26 ai 4 6.87 ai 5 5.87

bi 1 20.75 bi 2 30.42 bi 3 23.90 bi 4 12.94 bi 5 17.89

Tabel 3.10 Penghitungan ai dan bi Data 6-10

31.06 24.46 27.83 27.54 22.50

ai 6 5.96 ai 7 6.47 ai 8 5.23 bi 9 15.74 bi 10 15.85

bi 6 18.11 bi 7 14.63 bi 8 15.41 ai 9 4.53 ai 10 4.53

d. Menghitung SI tiap data dengan cara 1 dikurang dengan ai dibagi bi

Tabel 3.11 Hasil SI Tiap Data

S(i) 1 0.4139487886

S(i) 2 0.6790128494

S(i) 3 0.621224377

S(i) 4 0.4688355832

S(i) 5 0.6720180009

S(i) 6 0.670804245

S(i) 7 0.5575933506

S(i) 8 0.6603673416

S(i) 9 0.7124160301

S(i) 10 0.7143205267

e. Menghitung akurasi silhouette dari hasil k-means 3 cluster ini dengan cara

menghitung rata-rata SI dari semua data.

Tabel 3.12 Hasil Akurasi Silhouette

Akurasi Silhouette

0.6170541093

Didapatkan hasil SI K = 3 ini sebesar 0,62 dimana dalam arti silhouette berarti

sudah membentuk struktur pengelompokan yang layak. Hasil ini akan dibuat

sebagai perbandingan dengan nilai SI cluster lainnya.

3. Proses Elbow

a. Dari hasil penghitungan jarak k-means pada iterasi ke 2 diambil nilai yang

menunjukan posisi cluster (paling kecil).

Tabel 3.13 Data Jarak K-Means Iterasi 2

6.12825877

9.08600878

8.076027626

5.95986577

4.911211663

5.011985634

5.469917732

3.117691454

4.527692569

b. Kemudian menjumlah seluruh jarak pada data yang terbagi menjadi 3

cluster.

Tabel 3.14 Penjumlahan Jarak 3 Cluster

Cluster 1 23.29029518

Cluster 2 24.47067225

Cluster 3 9.055385138

c. Lalu dicari distortionnya dengan menjumlah dari seluruh nilai jarak cluster.

Tabel 3.15 Hasil Distortion Elbow

Distortion 56.81635257

Didapatkan distortion untuk K=3 sebesar 56.81635257. Data distortion inilah yang

akan diolah untuk mencari nilai K terbaik dengan membandingkan nilai distortion

dari K lainnya.

3.4 Perancangan Sistem

Sistem ini akan lakukan pengelompokan citra aksara Jawa menggunakan

metode K-Means. Pengelompokan citra akan dilakukan berdasarkan kesamaan ciri

atau bentuk. Proses pertama adalah sistem akan membaca ciri citra aksara jawa

yang akan diproses dari input user. Setelah itu sistem akan melakukan clustering

dengan k-means lalu hasil clusteringnya akan dievaluasi dengan menggunakan 2

metode yaitu metode elbow dan juga metode silhouette. Hasil evaluasi tersebut akan

menjadi saran nilai K yang dinilai ideal antara 2 metode tersebut. Hasil clustering

kedua metode juga akan ditampilkan.

Gambar 3.5 Diagram Perancangan Sistem

Terdapat banyak tahapan yang dilakukan pada penelitian ini. Yang pertama

kali dilakukan adalah pengumpulan data yang berupa buku hamong tani halaman 2

dan 59. Kemudian data itu akan dilakukan preprocessing guna mendapatkan data

yang bersih dan bagus. Setelah itu akan disegmentasi untuk mendapatkan tiap tiap

aksaranya. Lalu akan diambil ciri untuk tiap aksaranya dengan menggunakan

Intensity of Character. Data ciri kemudian akan dikelompokan menggunakan k-

means clustering yang mana akan menghasilkan jumlah cluster, idx, dan sumd.

Kemudian idx akan digunakan untuk evaluasi silhouette dan sumd akan digunakan

untuk evaluasi elbow. Hasil kedua metode tersebut akan dibandingkan untuk

mencari K terbaiknya.

Gambar 3.6 Flowchart Penelitian

Flowchart pada Gambar 3.6 akan dijelaskan tiap tahapnya secara lengkap

dengan langkah-langkah sebagai berikut :

a. Preprocessing

Berdasarkan Flowchart pada Gambar 3.6, data yang berupa scan halaman

dari buku Hamong Tani akan diproses dengan berbagai metode preprocessing

seperti binerisasi, invers, filtering, dan invers kembali. Lalu data hasil

preprocessing tersebut akan siap diolah di tahap segmentasi.

Gambar 3.7 Diagram Preprocessing

i. Input

Input yang akan diolah pada tahap ini adalah data aksara Jawa dari

halaman buku Hamong Tani.

ii. Output

Output dari tahap ini adalah data hasil preprocessing yang

merupakan data bersih dan siap dipakai untuk tahap selanjutnya.

iii. Algoritma

Pada tahap preprocessing, citra aksara jawa akan melalui berbagai

tahapan pemprosesan citra. Tahapan tersebut adalah :

1. Binerisasi Citra

Pada tahap ini mengubah citra tadi menjadi hanya memiliki

warna yang bernilai 0 (hitam) dan 1 (putih) saja. Pada tahapan

ini menggunakan function im2bw() yang merupakan function

dari MATLAB. Algoritma Binerisasinya yaitu :

1. Baca data citra yang akan diolah menggunakan function

imread dan akan disimpan pada sebuah variabel bernama

aksara.

2. Data yang tersimpan dalam variabel aksara akan diubah

menjadi citra hitam-putih dengan function im2bw. Lalu

hasil binerisasi akan disimpan pada variabel hasilbw.

2. Invers Citra

Pada tahap ini citra hasil binerisasi akan ditukar nilai

warnanya dimana nilai 0 (hitam) akan menjadi 1 (putih) dan nilai

1 (putih) akan menjadi 0 (hitam). Pada tahapan ini digunakan

function imcomplement() yang merupakan function dari

MATLAB.

aksara.

3. Data citra yang tersimpan dalam variabel hasilbw akan

dilakukan proses invers dengan function imcomplement.

Lalu hasil binerisasi akan disimpan pada variabel

hasilinvers.

3. Filtering Citra

Pada tahap ini citra hasil invers akan difilter untuk

menghilangkan noise seperti noda bintik hitam yang terdapat

pada citra. Dalam kasus ini yang dihilangkan adalah bintik putih

karena citra telah melalui tahap invers sehingga nilai warnanya

tertukar. Pada tahapan ini digunakan function bwareaopen()

yang merupakan function dari MATLAB.

aksara.

3. Data citra biner yang tersimpan dalam variabel hasilbw

akan dilakukan proses invers dengan function

imcomplement. Lalu hasil binerisasi akan disimpan pada

variabel hasilinvers.

4. Data citra hasil invers yang tersimpan dalam variabel

hasilinvers akan dilakukan proses filtering dengan

function bwareaopen. Lalu hasil filtering akan disimpan

pada variabel hasilfilter.

4. Invers Citra Kembali

Pada tahap ini citra hasil fitering akan ditukar kembali nilai

warnanya dimana nilai 1 (putih) akan menjadi 0 (hitam) dan nilai

0 (hitam) akan menjadi 1 (putih). Pada tahapan ini digunakan

function imcomplement() yang merupakan function dari

MATLAB.

aksara.

3. Data citra biner yang tersimpan dalam variabel hasilbw

akan dilakukan proses invers dengan function

imcomplement. Lalu hasil binerisasi akan disimpan pada

variabel hasilinvers.

4. Data citra hasil invers yang tersimpan dalam variabel

hasilinvers akan dilakukan proses filtering dengan

function bwareaopen. Lalu hasil filtering akan disimpan

pada variabel hasilfilter.

5. Data citra hasil filtering yang tersimpan dalam variabel

hasilfilter akan dilakukan proses invers kembali dengan

function imcomplement. Lalu hasil invers kembali akan

disimpan pada variabel hasilinverslagi.

b. Segmentasi

Berdasarkan Flowchart pada Gambar 3.6, data yang telah melalui proses

preprocessing akan diambil tiap aksaranya dengan mengunakan profil projeksi.

Setelah didapat semua aksaranya kemudian akan di resize lalu ditipiskan. Data tiap

aksara yang sudah tipis ini akan diambil cirinya pada tahap selanjutnya.

Gambar 3.8 Diagram Segmentasi

i. Input

Input yang akan diolah pada tahap ini adalah data citra aksara jawa

yang merupakan hasil dari tahap preprocessing.

ii. Output

Output dari tahap ini adalah data hasil segmentasi yang merupakan

potongan aksara yang memiliki ukuran yang sama.

iii. Algoritma

Pada tahap segmentasi, citra aksara jawa akan melalui berbagai

tahapan pemprosesan citra. Tahapan tersebut adalah :

1. Profil Projeksi

Pada tahap ini citra yang telah selesai dipreprocessing akan

dipotong untuk mendapatkan bentuk karakter aksara secara utuh

per karakter. Pada tahapan ini digunakan function VerProj dan

bwlabel. Function bwlabel ini akan mengambil karakter yang

dilihat dari isi label yang terhubung dengan 8 titik hitam yang

ditemukan dibaris tersebut.

1. Baca data citra hasil preprocessing menggunakan

function imread dan akan disimpan pada sebuah variabel

bernama data.

2. Data citra tersimpan dalam variabel aksara akan

dilakukan pengambilan baris dengan function VerProj(). Lalu

hasilnya akan dimasukan ke excel untuk dibuat grafik.

3. Lalu dilakukan pengambilan karakter untuk tiap baris

menggunakan function bwlabel(). Hasilnya akan disimpan

kedalam folder menggunakan function imwrite().

2. Resize Citra

Pada tahap ini hasil semua segmentasi akan diubah

ukurannya. Tahap ini dilakukan agar seluruh data memiliki

ukuran yang sama sehingga mempermudah proses ekstraksi ciri.

Pada tahapan ini digunakan function imresize() yang merupakan

function dari MATLAB.

3. Penipisan Citra

Pada tahap ini citra yang telah diinvers kembali akan

ditipiskan. Hal ini bertujuan untuk mengambil bagian kerangka

saja dari tiap aksara dengan cara membuang bagian pixel yang

merupakan bagian tepi (edge) (Widiarti, 2011). Pada tahapan ini

digunakan function Rosenfeld().

1. Baca data citra hasil resize menggunakan function

imread dan akan disimpan pada sebuah variable bernama

aksara.

2. Data citra tersimpan dalam variabel aksara akan

dilakukan proses penipisan dengan function rosenfeld.

Lalu hasil penipisan akan disimpan pada variabel

hasiltipis.

c. Ekstraksi Ciri

Berdasarkan Flowchart pada Gambar 3.6, ditahapan ekstraksi ciri seluruh

data yang sudah ditipiskan hasil proses segmentasi akan diambil cirinya yang akan

digunakan dalam proses pengelompokan data. Pada proses ini, metode yang

digunakan adalah Intensity of Character (IoC).

Gambar 3.9 Diagram Ekstraksi Ciri

i. Input

Input yang akan diolah pada tahap ini adalah data citra aksara jawa

yang merupakan hasil dari tahap segmentasi sebanyak 597.

ii. Output

Output dari tahap ini adalah data hasil ekstraksi ciri yang merupakan

array berisi matriks untuk tiap aksara.

iii. Algoritma

Pada tahap ekstraksi ciri, citra aksara jawa akan melalui

pengambilan ciri citra. Cara yang digunakan adalah :

Intensity of Character

Pada tahap ini data aksara yang telah melalui tahap

preprocessing dan segmentasi akan dilakukan proses ekstraksi ciri

dengan IoC. Perhitungan IoC dilakukan dengan mengubah matrik

hasil segmentasi menjadi matriks baru dengan ukuran NxN dengan

cara menambah jumlah piksel hitam sebanyak ukuran gambar dibagi

dengan ukuran matriks IoC. Banyak data citra yang dipakai adalah

597. Ukuran IoC yang digunakan adalah 3x3 yang menghasilkan 9

kolom dan 597 baris, 4x4 yang menghasilkan 16 kolom dan 597

baris, dan 5x5 yang menghasilkan 25 kolom dan 597 baris.

1. Buka berkas masukan, misal = aksara

2. Set tinggi = size(aksara,1)

3. Set lebar = size(aksara,2)

4. Bagi aksara menjadi 9/16/25 bagian

5. Cari jumlahan piksel yang bernilai 0 di setiap bagian

karakter

6. Simpan ciri tersebut menjadi ciri dari karakter yang

bersangkutan ke dalam file ciriAksara.mat

d. Clustering K-Means

Berdasarkan Flowchart pada Gambar 3.6, hasil ekstraksi ciri tadi akan

dikelompokan menggunakan Metode clustering K-Means dengan menggunakan

tools dari MATLAB sehingga ciri IoC dari citra yang digunakan hanya tinggal

dimasukkan kedalam tools dan mengatur jumlah K yang diperlukan dimana dalam

penelitian ini K nya diatur sebanyak 597 (seluruh data). Pada bagian ini terdapat 3

variabel penting yaitu datacluster, idx, dan sumd. Datacluster berisi citra yang sudah

dikelompokan sesuai clusternya. Idx berisi index yang menentukan citra tersebut

masuk ke kelompok mana. Sumd adalah jumlah jarak antar titik ke centroid dalam

cluster.

Gambar 3.10 Diagram K-Means

i. Input

Input yang akan diolah pada tahap ini adalah data cell matriks tiap

citra yang merupakan hasil dari tahap ekstraksi ciri.

ii. Output

Output dari tahap ini adalah data tabel cluster, idx, dan sumd yang

merupakan hasil proses clustering menggunakan K-means.

iii. Algoritma

Pada tahap clustering, data sel matriks akan melalui tahapan

clustering. Tahapan tersebut adalah :

K-Means

Pada tahap ini data hasil ekstraksi ciri aksara akan dilakukan

proses clustering menggunakan K-Means. Nilai K akan dimulai

dari 2 hingga 597. Kemudian akan hasil dari tiap kali melakukan

clustering yang dilakukan akan disimpan kedalam sel untuk

proses selanjutnya. Pada tahapan ini digunakan function

kmeans() yang merupakan function dari MATLAB.

Input : jumlah K, data ciri hasil ekstraksi ciri

CC=data ciri

[idx,C,sumd]=kmeans(CC,K);

Datacluster = cell(K,1);

For i=1:K

Datacluster{i}=CC(idx=1,:);

Output : cell hasil clustering, idx, sumd

e. Evaluasi Hasil Clustering

Setelah didapatkan sel yang berisi kumpulan hasil clustering K-Means maka

akan dilakukan evaluasi menggunakan metode elbow dan silhouette. Untuk idx

hasil clustering akan dipakai dalam evaluasi silhouette dan untuk sumd akan dipakai

dalam evaluasi elbow.

Gambar 3.11 Diagram Evaluasi Hasil Clustering

i. Input

Input yang akan diolah pada tahap ini adalah hasil tabel clustering

tiap nilai K yang merupakan hasil dari tahap clustering.

ii. Output

Output dari tahap ini adalah nilai K terbaik yang merupakan hasil

proses analisis yang membandingkan 2 metode.

iii. Algoritma

Pada tahap evaluasi, data clustering tiap K akan melalui berbagai

tahapan evaluasi. Tahapan tersebut adalah :

1. Evaluasi Elbow Method

Pada tahap ini data hasil clustering berupa sumd

menggunakan K-Means akan dihitung nilai SSE untuk tiap

cluster. Dari seluruh nilai SSE yang didapat dari tiap cluster

akan dicari yang terbaik nilainya. Cluster yang memiliki nilai

SSE 0,90 pertama akan menjadi nilai K untuk dibandingkan

dengan metode Silhouette Coefficient. Output dari evaluasi ini

adalah hasil perhitungan SSE semua data dan juga grafik elbow.

2. Evaluasi Silhouette Coefficient

Pada tahap ini data hasil clustering berupa idx menggunakan

K-Means akan dihitung nilai Silhouette Index untuk tiap cluster.

Dari seluruh nilai Silhouette Index yang didapat dari tiap cluster

akan dicari yang terbaik nilainya. Akan digunakan 3 rumus jarak

yaitu default(squared euclidean), cosine, dan cityblock. Cluster

yang memiliki nilai Silhouette Index 0,5 pertama pada hasil

hitung dengan jarak default(squared euclidean), lalu untuk jarak

cosine dan cityblock akan diambil nilai Silhouette Index tertinggi

dan akan menjadi nilai K untuk dibandingkan dengan metode

Elbow. Output dari evaluasi ini adalah hasil perhitungan

Silhouette Index semua data dan juga grafik silhouette.

3. Bandingkan Hasil Evaluasi

Pada tahap ini nilai K dari Elbow Method dan nilai K dari

Silhouette Coefficient akan dibandingkan. Metode yang

memiliki nilai K yang terbaiklah yang akan dianggap sebagai

metode yang lebih ideal untuk clustering menggunakan K-

Means.

3.5 Cara Pengujian

Pada tahap ini akan dilakukan proses pengujian. Pengujian yang

dilakukan adalah dengan cara :

1. Mengubah nilai K mulai dari 2, 3, 4, seterusnya hingga nilai

K 597.

2. Kemudian untuk ciri Intensity of Character yang digunakan

ukuran 3x3, 4x4, dan 5x5. Ukuran resize yang dipakai adalah

30x30, 88x88, dan 60x60.

3. Untuk Evaluasi Silhouette digunakan 3 jarak yang berbeda

yaitu jarak default (squared euclidean), cosine, dan

cityblock.

4. Memfokuskan pengelompokan sampai K hanya sampai 120

berdasarkan pengamatan jumlah aksara Jawa (pokok,

pasangan, sandhangan, angka, dll) dan juga pertimbangan

yang telah didiskusikan.

5. Menghitung akurasi hasil clustering K-Means K 65 untuk

597 data dan K 14 untuk 247 data 20 aksara pokok

menggunakan ground truth.

3.6 Kebutuhan Sistem

Pada penelitian ini menggunakan berbagai macam software dan

hardware. Adapun hardware dan software yang digunakan pada penelitian

ini adalah sebagai berikut:

3.6.1 Perangkat Keras (Hardware)

Adapun spesifikasi dari Personal Computer yang digunakan dalam

pembuatan sistem ini adalah :

Tabel 3.16 Perangkat Keras

Model Acer Swift 3

Platform Notebook-PC

Processor Intel Core i5-8250u

Harddisk 1 TB

Graphics Processing Unit Nvidia GeForce MX150

Operation System Microsoft Windows 10

Memory 8GB DDR4

3.6.2 Perangkat Lunak (Software)

Perangkat lunak yang digunakan dalam penelitian ini adalah

MATLAB R2014a guna perancangan dan menjalankan sistem yang dibuat.

3.7 Desain GUI

Gambar 3.12 Desain GUI

Ketika user melakukan browse file IoC maka akan memilih file yang

berisikan kumpulan ciri citra aksara Jawa yang akan diproses. Kemudian user

memasukan nilai K yang akan digunakan untuk clustering K-Means. Lalu user

memilih jarak yang akan digunakan pada penghitungan silhouette.

Output yang muncul ketika user menekan tombol Mulai adalah hasil

Distortion dari metode Elbow dan juga hasil SI dari metode Silhoutte untuk nilai K

yang dimasukkan oleh user.

BAB IV HASIL DAN ANALISIS

4.1 Data

Data yang digunakan adalah Data Citra aksara Jawa yang berjumlah 597

citra aksara. Data yang digunakan diperoleh dari buku Hamong Tani halaman 2 dan

59. Untuk mendapatkan datanya hal yang dilakukan adalah proses preprocessing

yang meliputi binerisasi, invers, dan filtering. Hasil dari halaman Hamong Tani

yang telah dipreprocessing akan diambil tiap aksaranya menggunakan proses

segmentasi profile projeksi dan bwlabel. Lalu dilakukan proses resize yang

ukurannya tergantung dengan kebutuhan IoC dan setelah itu dikenakan proses

penipisan citra menggunakan rosenfeld. Tahap selanjutnya adalah Ekstraksi ciri

menggunakan Intensity of Character atau bisa disingkat IoC. Ukuran yang

digunakan adalah 3x3, 4x4, dan 5x5.

4.2 Implementasi Preprocessing

a. Implementasi Binerisasi

Data yang telah dibaca menggunakan fungsi MATLAB kemudian akan

dilakukan proses binerisasi yang mana akan merubah citra warna menjadi citra

hitam putih dengan menggunakan fungsi im2bw.

Tabel 4.1 Perbandingan Citra Awal dan Hasil Binerisasi

Citra Awal Citra Hasil Binerisasi

Dari Tabel 4.1 hasil binerisasi dapat dilihat citra sebelah kiri terlihat tidak

terlalu jelas, buram, dan warna yang kurang baik. Hasil proses binerisasi ini

menunjukan hasil yang tampak lebih jelas dicitra sebelah kanan.

b. Implementasi Invers

Data yang telah melalui proses binerisasi akan ditukar warnanya dimana

hitam menjadi putih dan putih menjadi hitam dengan menggunakan fungsi

imcomplement, tujuannya untuk proses selanjutnya sehingga data menjadi bersih.

Tabel 4.2 Perbandingan Hasil Binerisasi dan Hasil Invers

Citra Hasil Biner Citra Hasil Invers

Dari Tabel 4.2 dapat dilihat aksaranya menjadi berwarna putih dan latar

belakangnya menjadi berwarna hitam. Lalu noda-noda yang berbentuk titik kecil

juga berubah menjadi putih. Titik putih inilah yang akan dihilangkan.

c. Implementasi Filtering

Data yang awalnya telah diinvers akan dihilangkan noisenya dimana akan

menghilangkan titik putih dengan menggunakan menggunakan fungsi bwareaopen.

Tabel 4.3 Perbandingan Hasil Filtering

Sebelum Filtering Setelah Filtering

Dari Tabel 4.3 hasil perbandingannya sudah terlihat dimana gambar disisi

kanan noda titik putih sudah menghilang dan data menjadi bersih dibanding

gambar disisi kiri yang terlihat terdapat banyak noda titik putih.

d. Implementasi Invers Kembali

Data yang telah dibersihkan akan diinvers lagi dimana hitam menjadi putih

dan putih menjadi hitam dengan menggunakan fungsi imcomplement.

Tabel 4.4 Perbandingan Hasil Invers Kembali

Hasil Filtering Setelah diinvers Kembali

Dari Tabel 4.4 hasil perbandingannya terlihat dimana aksara yang awalnya

putih menjadi hitam dan juga latar belakang hitam diubah menjadi putih.

4.3 Implementasi Segmentasi

a. Projeksi Horisontal

Data yang telah melalui proses preprocessing tadi akan diambil tiap

karakternya menggunakan proses segmentasi. Proses dilakukan dengan

menggunakan projeksi Horisontal. Hasil dari projeksi Horisontal tadi kemudian

akan dimasukkan ke dalam excel untuk dibentuk grafik garis dimana dari grafik

tersebut dapat dilihat mana yang berupa baris mana yang area kosong (jarak antar

baris). Kemudian hasil excel ini akan menjadi acuan pengambilan baris dengan

melanjutkan ke MATLAB untuk mendapatkan data perbaris yang nanti akan

berjumlah masing-masing 20 untuk tiap halaman.

Gambar 4.1 Hasil Projeksi Horisontal Halaman 2

Melihat dari grafik pada Gambar 4.1 dapat diambil kesimpulan bahwa pada

halaman 2 terdapat 20 baris data karena titik puncaknya berjumlah 20.

Panjang Data Halaman 2

Projeksi Horisontal Halaman 2

Gambar 4.2 Hasil Projeksi Horisontal Halaman 59

Sama seperti sebelumnya dilihat dari grafik pada Gambar 4.2 dapat diambil

kesimpulan bahwa pada halaman 59 terdapat 20 baris data karena titik puncaknya

berjumlah 20.

Panjang Data Halaman 59

Projeksi Horisontal Halaman 59

b. Projeksi Vertikal

Setelah didapatkankan data per baris akan diambil tiap aksaranya

menggunakan fungsi bwlabel. Fungsi ini akan mengambil tiap karakter yang

terdapat pada inputan baris hasil dari projeksi horisontal.

Gambar 4.3 Contoh Hasil Segmentasi Baris 1

c. Implementasi Resize

Hasil segmentasi yang telah didapatkan tiap askara akan dilakukan resize

ukuran citra menggunakan fungsi imresize.

Tabel 4.4 Perbandingan Hasil Resize

Hasil Segmentasi

ukuran 35x13

Hasil resize

ukuran 33x33

Hasil resize ukuran

Hasil resize

ukuran 60x60

Dapat dilihat perubahan ukuran secara drastis pada tiap kolom di Tabel 4.4

dimana keempat gambar aksara memiliki ukuran yang berbeda.

d. Implementasi Thinning

Data yang telah resize kemudian dilakukan proses pengambilan kerangka

aksara dengan menggunakan metode rosenfeld sehingga menghasilkan citra dengan

bentuk kerangka citra saja.

Tabel 4.5 Perbandingan Citra Awal dengan Hasil Penipisan

Citra Awal Hasil Rosenfeld

Dari Tabel 4.5 dapat dilihat digambar kiri masih merupakan 1 aksara yang

utuh dan disisi kanan hanya menyisakan kerangka citra saja. Hasil dari proses

penipisan dengan metode rosenfeld mendapatkan hasil penipisan yang baik yaitu

tepat kerangka dan dan tidak terdapat gambar latar sehingga bisa digunakan untuk

proses selanjutnya.

4.4 Implementasi Ekstraksi Ciri

Ciri yang digunakan dalam penelitian ini adalah Intensity of Character.

Ukuran yang digunakan dalam penelitian ini adalah 3x3, 4x4, dan 5x5. Ciri tersebut

diperoleh dengan cara menghitung nilai piksel hitam dalam matriks citra hasil

preprocessing sehingga setiap halaman adalah hasil penjumlahan dari pixel hitam.

Hasil dari ekstraksi ciri IoC adalah data berbentuk sel yang berisi masing-

masing ukuran IoC aksara yang telah diproses. Proses selanjutnya adalah mengubah

hasil ekstraksi ciri yang awalnya berbentuk sel menjadi berbentuk array untuk

mempermudah proses clustering. Hasil pengubahan sel menjadi array ini

menghasilkan matriks berukuran 597x9 untuk ciri 3x3, 597x16 untuk ciri 4x4 dan

597x25 untuk ciri 5x5 dimana 597 merupakan banyak data pada penelitian.

Tabel 4. 6 Tabel Contoh Hasil Rosenfeld

Data Aksara 1

Ukuran 33x33

Data Aksara 1 ketika ditampilkan pikselnya dan dipindahkan kedalam excel

akan menjadi seperti ini, dimana piksel bernilai 1 akan berwarna putih dan piksel

bernilai 0 akan berwarna hitam.

Gambar 4. 4 Hasil IoC Data Aksara 1 Setelah dipindah ke Excel

Setelah itu akan dibagi menjadi 9 bagian, sebagai contoh adalah gambar

berikut dimana data IoC 3x3 tadi dibagi menjadi 9 warna yang mana tiap warna

akan memiliki 11 baris dan 11 kolom.

Gambar 4. 5 Pembagian Hasil IoC ke 9 Warna

Kemudian akan di hitung berapa jumlah piksel bernilai 0 pada tiap bagian

warna tersebut. Piksel bernilai 0 inilah yang sebenarnya membentuk kerangka dari

data citra.

Gambar 4. 6 Seleksi Piksel Bernilai 0

Didapatkan total penghitungan piksel bernilai 0 untuk semua bagian warna

sebagai berikut :

Tabel 4. 7 Hasil Penghitungan Ciri IoC 3 Aksara 1

Warna Total Piksel Bernilai 0

Merah = Ciri 1 22

Biru Pucat = Ciri 2 22

Kuning = Ciri 3 17

Hijau = Ciri 4 15

Biru Muda = Ciri 5 11

Ungu = Ciri 6 11

Biru Tua = Ciri 7 31

Cokelat = Ciri 8 22

Hijau Pucat = Ciri 9 14

Maka untuk Aksara 1 akan memiliki 9 ciri dimana ciri 1 berisi 22, ciri 2

berisi 22, ciri 3 berisi 17, ciri 4 berisi 15, ciri 5 berisi 11, ciri 6 berisi 11, ciri 7 berisi

31, ciri 8 berisi 22, dan juga ciri 9 berisi 14.

Tabel 4.8 Contoh Matriks Ciri IoC 3x3

Matriks Ciri IoC 3x3

Ciri 1 Ciri 2 Ciri 3 Ciri 4 Ciri 5 Ciri 6 Ciri 7 Ciri 8 Ciri 9

Aksara 1 22 22 17 15 11 11 31 22 14

Aksara 2 9 3 15 11 10 12 26 14 4

Aksara 3 25 23 12 9 16 11 22 14 13

Disini data Aksara 1, 2, dan 3 memiliki 9 kolom ciri dimana karena awalnya

IoC berbentuk 3 baris x 3 kolom akan diubah menjadi 1 baris 9 kolom untuk

mempermudah proses clustering.

4.5 Implementasi K-Means Clustering

Hasil ekstraksi ciri kemudian dikelompokkan dengan menggunakan K

mulai dari 2 sampai 597. Proses clustering menggunakan function kmeans dari

MATLAB. Proses clustering yang ini sangat tergantung pada nilai centroid yang

ditentukan secara random. [idx,sumd]=kmeans(CC,k) berarti akan mengambil

output berupa index untuk tiap data, C adalah lokasi centroid, dan sumd adalah

jumlah jarak antar titik ke centroid dalam cluster. Kemudian kmeans merupakan

function dari MATLAB dengan inputnya adalah CC dimana merupakan data IoC

dan K adalah banyak cluster yang dibutuhkan.

function [datacluster,idx,sumd] = cluster(K,dataioc)

CC=dataioc;

[idx,sumd]=kmeans(CC,k);

datacluster = cell(k,1);

for i = 1:k

datacluster{i} = CC(idx==i,:);

4.6 Implementasi Silhouette

Hasil dari pengelompokan menggunakan K-Means clustering kemudian

akan dilakukan proses penghitungan nilai silhouette yaitu untuk menguji

kekompakan cluster hasil dari K-Means tadi. Perhitungan nilai silhouette dilakukan

dengan menggunakan fungsi Silhouette pada MATLAB. Hasil dari silhouette ini

adalah nilai silhouette untuk semua cluster. [s,h] = silhouette(data,idx) berarti akan

mengambil 2 output yaitu s untuk nilai silhouettenya dan h adalah plot grafik

berdasarkan nilai silhouette yang didapatkan. Lalu silhouette sendiri adalah

function dari matlab dengan input berupa data yang berisi data IoC dan juga idx

yang merupakan idx hasil proses clustering k-means.

function [akurasi,detail] = hitungsilhouette(data,idx)

[s,h] = silhouette(data,idx);

xlabel('Value');

ylabel('Cluster');

SIcluster=mean(s);

akurasi=SIcluster;

detail=s;

4.7 Implementasi Elbow Method

Hasil dari pengelompokan menggunakan K-Means clustering kemudian

akan dilakukan proses penghitungan nilai distortion/error dengan menggunakan

penjumlahan SUMD tiap K hasil dari proses K-Means clustering, lalu akan

menghitung variance dimana akan digunakan untuk menghitung distortion percent.

Setelah itu menghitung distortion percent dengan menghitung cumsum dari

variance dibagi dengan distortion awal dikurang distortion akhir. Dari hasil

penghitungan distortion percent kemudian akan mencari nilai distortion pertama

yang diatas 0.90. Hasil dari metode elbow ini adalah nilai distortion dan distortion

percent untuk semua K.

function [K,distortion,variance,distortion_percent]=elbow (sumdioc)

cluster=length(sumdioc);

distortion=zeros(cluster,1);

for k_temp=2:597

sumd=sumdioc{k_temp};

destortion_temp=sum(sumd);

distortion((k_temp)-1,1)=destortion_temp;

variance=distortion(1:end-1)-distortion(2:end);

distortion_percent=cumsum(variance)/(distortion(1)-distortion(end));

plot(distortion_percent,'b*--');

distortion90=find(distortion_percent>0.90);

K=distortion90 (1,1)+1;

4.8 Hasil Penelitian

a. Implementasi hasil penelitian ini menggunakan tiga ciri Intensity of

Character (IoC) yaitu dengan ukuran 3x3, 4x4, dan 5x5 untuk semua data

yang berjumlah 597. Percobaan silhouette pertama sampai ketiga akan

menggunakan data IoC 3x3, lalu percobaan silhouette keempat sampai

keenam akan menggunakan data IoC 4x4, dan percobaan silhouette ketujuh

sampai kesembilan akan menggunakan data IoC 5x5. Sementara percobaan

elbow pertama akan menggunakan data IoC 3x3, lalu percobaan elbow

kedua akan menggunakan data IoC 4x4, dan percobaaan elbow ketiga akan

menggunakan data IoC 5x5.

b. Dari ekstraksi ciri tersebut kemudian akan dikelompokkan dengan metode

K-Means clustering dari 2 sampai dengan 597. Kemudian hasil clustering

akan dianalisis menggunakan metode silhouette dan metode elbow dan

memfokuskan pengelompokan sampai K hanya sampai 120 atas

pengamatan jumlah aksara Jawa (pokok, pasangan, sandhangan, angka, dll)

dan juga pertimbangan yang telah didiskusikan.

4.8.1 Hasil Percobaan Silhouette Pertama

Gambar 4.7 Hasil Percobaan Silhouette Pertama

Menggunakan jarak default(squared euclidean) nilai 0.5 baru sering

muncul(konsisten) ketika K diatas 202 karena mulai dari 202 nilai rata-rata

silhouette sudah selalu diatas 0.5. Ketika diambil 120 K saja lalu disort nilai SI

terbesar berada di K 19 dengan nilai 0.5476. Kemudian diikuti dengan K 15 dengan

nilai 0.5245 dan K 51 dengan nilai 0.5231. Namun nilai 0.5 pertama dan terkecil

ada di K 65 dengan nilai 0.5060.

4.8.2 Hasil Percobaan Silhouette Kedua

Gambar 4.8 Hasil Percobaan Silhouette Kedua

Menggunakan jarak cosine nilai 0.5 baru sering muncul(konsisten) ketika K

diatas 237 karena mulai dari 237 nilai rata-rata silhouette selalu diatas 0.5. Kalau

diambil 120 K saja lalu disort nilai tertinggi ada di K 17 dengan nilai 0.5652.

Kemudian diikuti dengan K 14 dengan nilai 0.5466 dan K 13 dengan nilai 0.5433.

4.8.3 Hasil Percobaan Silhouette Ketiga

Gambar 4.9 Hasil Percobaan Silhouette Ketiga

Menggunakan jarak cityblock nilai 0.5 baru sering muncul(konsisten) ketika

K diatas 333 karena mulai dari 333 nilai rata-rata silhouette selalu diatas 0.5. Kalau

diambil 120 K saja lalu disort nilai tertingginya berada di K 13 dengan nilai 0.3779.

4.8.4 Hasil Percobaan Silhouette Keempat

Gambar 4.10 Hasil Percobaan Silhouette Keempat

silhouette selalu diatas 0.5. Ketika diambil 120 K saja lalu disort nilai SI terbesar

berada di K 49 dengan nilai 0.5228. Kemudian diikuti dengan K 65 dengan nilai

0.5204 dan K 66 dengan nilai 0.5048. Namun nilai 0.5 pertama dan terkecil ada di

K 63 dengan nilai 0.5016.

4.8.5 Hasil Percobaan Silhouette Kelima

Gambar 4.11 Hasil Percobaan Silhouette Kelima

4.8.6 Hasil Percobaan Silhouette Keenam

Gambar 4.12 Hasil Percobaan Silhouette Keenam

4.8.7 Hasil Percobaan Silhouette Ketujuh

Gambar 4.13 Hasil Percobaan Silhouette Ketujuh

silhouette selalu diatas 0.5. Ketika diambil 120 K saja lalu disort nilai SI terbesar

berada di K 61 dengan nilai 0.5127. Kemudian diikuti dengan K 47 dengan nilai

0.3516 dan K 59 dengan nilai 0.5088. Namun nilai 0.5 pertama dan terkecil ada di

K 54 dengan nilai 0.5024.

4.8.8 Hasil Percobaan Silhouette Kedelapan

Gambar 4.14 Hasil Percobaan Silhouette Kedelapan

4.8.9 Hasil Percobaan Silhouette Kesembilan

Gambar 4.15 Hasil Percobaan Silhouette Kesembilan

Setelah dilakukan penghitungan nilai Silhouette K mulai dari 1 sampai 597,

melihat dari hasil percobaan tadi, data rentang untuk data yang digunakan bisa

dibilang memiliki struktur persebaran yang lemah. Hal ini bisa dilihat dari hasil

silhouette dimana ketika diambil nilai K dari 2 sampai 120 hasilnya masih banyak

yang berada dibawah nilai 0.5. Padahal untuk dikatakan persebaran yang standar

baik seharusnya memiliki nilai silhouette diatas 0.5. Nilai Silhouette yang didapat

ini juga dipengaruhi oleh jarak yang digunakan untuk menghitung silhuettenya.

Dimana jarak default(Squared Euclidean) dapat menghasilkan nilai yang lebih

tinggi dibanding ketika menggunakan jarak Cosine dan Cityblock yang hasilnya

Silhouette nilainya justru menurun. Hal tersebut dapat dilihat pada hasil dibawah

Tabel 4.9 Hasil Silhouette Jarak Default

Jarak Default(Squared Euclidean)

Ukuran IoC Nilai Silhouette

Terbaik Pertama (K)

Nilai Silhouette

Terbaik Kedua (K)

Nilai Silhouette

Terbaik Ketiga (K)

3x3 0.5476 (19) 0.5245 (15) 0.5231 (51)

4x4 0.5228 (49) 0.5204 (65) 0.5048 (66)

5x5 0.5127 (61) 0.5116 (49) 0.5088 (59)

Tabel 4.10 Hasil Silhouette Jarak Cosine

Jarak Cosine

Terbaik Pertama (K)

Nilai Silhouette

Terbaik Kedua (K)

Nilai Silhouette

Terbaik Ketiga (K)

3x3 0.5652 (17) 0.5466 (14) 0.5433 (13)

4x4 0.5153 (90) 0.5013 (6) 0.4993 (23)

5x5 0.3716 (40) 0.3635 (38) 0.3604 (24)

Tabel 4.11 Hasil Silhouette Jarak Cityblock

Jarak Cityblock

Terbaik Pertama (K)

Nilai Silhouette

Terbaik Kedua (K)

Nilai Silhouette

Terbaik Ketiga (K)

3x3 0.3779 (13) 0.3676 (16) 0.5652 (12)

4x4 0.3648 (19) 0.3495 (34) 0.3492 (30)

5x5 0.3629 (18) 0.3546 (14) 0.3517 (13)

Tabel 4. 12 Hasil SI Terbaik Pertama Range K 120

Nilai SI Terbaik Pertama Dalam Range K 120

Rumus Jarak IoC 3x3 IoC 4x4 IoC 5x5

Default 0.5376 (K=19) 0.5228 (K=49) 0.5127 (K=61)

Cosine 0.5652 (K=17) 0.5153 (K=90) 0.3716 (K=40)

Cityblock 0.3779 (K=13) 0.3648 (K=19) 0.3629 (K=18)

Pada percobaan pertama sampai ketiga menggunakan ciri IoC 3x3

menghasilkan hasil nilai silhouette 1 untuk semua 597 data dengan 3 jarak berbeda

semuanya berada di K 591. Yang berarti dari 597 data akan membentuk cluster

dengan struktur kuat pada K = 591.

Pada percobaan keempat sampai keenam menggunakan ciri IoC 4x4

semuanya berada di K 593. Yang berarti dari 594 data akan akan membentuk cluster

Pada percobaan ketujuh sampai kesembilan menggunakan ciri IoC 5x5

semuanya berada di K 593. Yang berarti dari 597 data akan akan membentuk cluster

4.8.10 Hasil Percobaan Elbow Pertama

Gambar 4.16 Hasil Percobaan Elbow Pertama

Hasil dari percobaan pertama menggunakan IoC 3 didapatkan grafik seperti

pada Gambar 4.16, lalu dari hasil perhitungan distortion percentnya nilai 0.90

pertama berada di K = 62 dengan nilai distortion percent sebesar 0.9027.

4.8.11 Hasil Percobaan Elbow Kedua

Gambar 4.17 Hasil Percobaan Elbow Kedua

pada Gambar 4.17 lalu dari hasil perhitungan distortion percentnya nilai 0.90

4.8.12 Hasil Percobaan Elbow Ketiga

Gambar 4.18 Hasil Percobaan Elbow Ketiga

pada Gambar 4.18, lalu dari hasil perhitungan distortion percentnya nilai 0.90

Setelah dilakukan percobaan elbow, nilai K optimalnya untuk setiap IoC

menghasilkan nilai K yang berbeda. Hal ini bisa dilihat dari distortion IoC 3

distortion 0 mulai berada di K 562, IoC 4 distortion 0 mulai berada di K 583, dan

IoC 5 distortion 0 mulai berada di K 590. Untuk nilai distortion percent IoC 3

bernilai 1 ketika berada di K 578, IoC 4 bernilai 1 ketika berada di K 582, IoC 5

bernilai 1 ketika berada di K 585. Nilai distortion yang didapat ini juga dipengaruhi

hasil sumd dari K-Means clustering hasilnya sangat tergantung pada centroid yang

bernilai random.

Tabel 4.13 Hasil Elbow

Metode Elbow

Ukuran IoC Nilai Distortion Percent K Optimal

3x3 0.9027 62

4x4 0.9001 84

5x5 0.9004 106

4.8.13 Hasil Percobaan Pengelompokan K 65

Setelah dilakukan analisis dengan metode silhouette dan metode elbow,

dilanjutkan percobaan untuk mencoba mengelompokan aksara Jawa secara manual

untuk menguji apakah hasilnya relevan atau tidak. Percobaan ini menggunakan

hasil IoC 3x3 dan jumlah cluster yang dipilih secara acak yaitu 65 berdasarkan

pengamatan dari hasil penelitian yang dilakukan untuk data IoC 3.

Gambar 4.19 Hasil Percobaan Pengelompokan Cluster 1

Hasil pengelompokan K 65 yang sudah dimasukan kedalam folder yang

sesuai kelompoknya didapatkan hasil sebagai berikut, dengan catatan ‘P’ berarti

pasangan :

Tabel 4. 14 Hasil Analisa Manual Hasil Pengelompokan K 65

Label 1 Label 2 Label 3 Label 4 Total Data Ground

Cluster 1 22 Wulu

Cluster 2 5 Wingyan

Cluster 3 23 Na 3 Ja

26 0,88

Cluster 4 8 '2'

Cluster 5 11 Wulu

Cluster 6 5 Pangkon +

1 Ha + Suku 1 La _

7 0,71

Cluster 7 5 Wulu

Cluster 8 2 Na + P Na 1 Nga + P Na 1 Ka +

Cluster 9 7 Ha + Suku 4 Ra 1 Ta +

12 0,58

Cluster 10 9 Pada

Lingsa

Cluster 11 5 Ka 4 Ta

9 0,56

Cluster 12 6 Ta 4 Ka 1 Ma

11 0,55

Cluster 13 45 Taling 1 Pangkon +

46 0,98

Cluster 14 7 Cecak

Cluster 15 2 Pangkon

Cluster 16 2 Layar

Cluster 17 1 Nya 1 Kar

Cluster 18 14 Ta

Cluster 19 9 Na 1 Ha

10 0,9

Cluster 20 6 Pa 3 Wa 1 Dha

10 0,6

Cluster 21 2 Pa + Suku

+ Cakra Ra

1 Nga +

Cakra Ra

1 Ta +

1 Pepet

+ layar

Cluster 22 5 '2'

Cluster 23 5 '2'

Cluster 24 6 Ha 2 Ma 1 Sa

9 0,67

Cluster 25 2 Ma + tha 1 '3' 1 Sa +

1 Sa +

Cluster 26 9 Ta 2 La 1 Ga

12 0,75

Cluster 27 12 Pa + Suku 1 Ma + Suku 1 Da +

14 0,86

Cluster 28 18 Pepet 3 Pepet +

21 0,86

Cluster 29 7 Ha 2 Ma

9 0,78

Cluster 30 8 Cecak

Cluster 31 2 Ta

Cluster 32 10 Ga 2 Ma + Cakra

1 Na +

13 0,77

Cluster 33 15 Na 5 Da 4 Ma 1 Pa 25 0,6

Cluster 34 2 P Ha

Cluster 35 9 Na 2 Da 1 Ma

12 0,75

Cluster 36 12 Pepet 2 Pepet +

14 0,86

Cluster 37 9 P Ka 8 P Ta

17 0,53

Cluster 38 3 P Ba 1 '2'

4 0,75

Cluster 39 5 '0'

Cluster 40 1 'A'

Cluster 41 4 P La 1 Pada

Lungsa

Cluster 42 3 Cecak

Cluster 43 10 Sa 1 Wa

11 0,91

Cluster 44 13 La

Cluster 45 16 Pepet

Cluster 46 4 Ka 1 Ha

Cluster 47 2 Pa 2 Sa

Cluster 48 3 Wingyan

Cluster 49 8 P Sa

Cluster 50 6 Pepet

Cluster 51 13 Ka 3 Sa

16 0,81

Cluster 52 1 Cecak

Cluster 53 5 Pa

Cluster 54 8 Wa 2 Pa

10 0,8

Cluster 55 9 Cecak

Cluster 56 8 Ma 1 Ha

9 0,89

Cluster 57 4 P Wa 2 P Dha 1 P Ma

7 0,57

Cluster 58 1 'A'

Cluster 59 6 Cecak

Cluster 60 12 P Ha

Cluster 61 10 Pepet

Cluster 62 4 Cecak

Cluster 63 8 Ya

Cluster 64 11 Sa

Cluster 65 2 '1' 1 '4' 1

Total Akurasi

597 0,86

Dari penghitungan manual hasil pengelompokan K 65 yang sudah

dimasukan kedalam folder yang sesuai kelompoknya didapatkan hasil yang baik

karena mendapatkan akurasi ground truth sebesar 86% berdasarkan nilai rata-rata

dari perhitungan seluruh kelompoknya.

Dari pengujian ini didapatkan hasil pengelompokan yang baik. Hal ini

dikarenakan pada IoC 3x3 berdasarkan analisa metode silhouette karena K = 65

memiliki SI yang berada 0,5060 maka persebaran datanya menjadi baik karena hasil

berdasarkan tabel nilai SI untuk nilai 0,50 - 0,70 membentuk struktur yang layak.

Begitu juga dengan metode elbow 65 memiliki distortion 0,9027 yang dianggap

masih belum sempurna pengelompokannya. Sehingga dari pengujian yang

dilakukan hasil pengelompokan baik ini sudah bisa diprediksi dan dianggap relevan

dengan akurasi sebesar 86%.

4.8.14 Hasil Percobaan Pengelompokan 14 Aksara Pokok

Setelah dilakukan percobaan pengelompokan K 65, sekarang dilakukan

percobaan untuk mengelompokan 20 Aksara Pokok saja dengan IoC 3. Yang

dilakukan pertama kali adalah menghitung banyak data secara manual dari 597

dimana hanya difokuskan 20 Aksara Pokok. Disini diperoleh data Aksara Pokok

berjumlah 247 data citra. Lalu dilakukan pencarian label secara manual juga dan

hasilnya didapat hanya ada 14 jumlah label. 14 label tersebut adalah : Ha, Na, Ka,

Da, Ta, Sa, Wa, La, Ma, Ga, Pa, Dha, Ja, dan Ya. Setelah itu akan digunakan

metode K-Means untuk mendapatkan clusternya.

Gambar 4. 20 Hasil Pengelompokan Cluster 1 14 Aksara Pokok

Hasil pengelompokan 14 Aksara Pokok yang sudah dimasukan kedalam

folder yang sesuai kelompoknya didapatkan hasil sebagai berikut :

Tabel 4. 15 Hasil Analisa Manual Hasil Pengelompokan 14 Aksara Pokok

Label 1 Label 2 Label 3 Label 4 Jumlah Data Ground Truth

Cluster 1 9 Na 1 Ma 3 Da 13 0,69

Cluster 2 12 Ha 4 Ka 3 Ma 19 0,63

Cluster 3 10 Ga 10 1

Cluster 4 8 Ya 6 Ta 4 Ka 1 Ma 19 0,42

Cluster 5 3 Ja 3 1

Cluster 6 15 Ka 7 Ta 1 Ha 23 0,65

Cluster 7 9 Na 1 Ha 1 Da 11 0,81

Cluster 8 13 La 3 Ka 7 Ma 2 Ha 25 0,52

Cluster 9 11 Sa 2 Pa 2 Dha 15 0,73

Cluster 10 13 Sa 13 1

Cluster 11 15 Ta 1 Ka 16 0,93

Cluster 12 38 Na 1 Pa 3 Da 42 0,90

Label 1 Label 2 Label 3 Label 4 Jumlah Data Ground Truth

Cluster 13 13 Pa 10 Wa 1 Dha 24 0,54

Cluster 14 8 Ta 1 La 1 Ha 2 Ma 13 0,61

Total Akurasi

247 0,75

Dari Tabel 4.12 ditemukan bahwa dari 14 label hanya didapat 10 kelompok

label saja. Karena ada kelompok yang pembagiannya masih belum tepat. Seperti

dapat dilihat bahwa ada 3 kelompok yang didominasi Na, 2 kelompok yang

didominasi Sa dan Ta. Lalu label yang jumlahnya sedikit jadi ikut tercampur dengan

label yang tadi. Label yang jumlahnya sedikit tersebut adalah Ma, Dha, dan Wa.

Percobaan pengelompokan 14 Aksara Pokok ini mendapatkan hasil akurasi

yang baik karena mendapatkan akurasi ground truth sebesar 75% berdasarkan nilai

rata-rata dari perhitungan seluruh kelompoknnya.

BAB V KESIMPULAN DAN SARAN

5.1 Kesimpulan

5.1.1 Metode Silhouette

Dari hasil percobaan pengelompokan 597 citra aksara Jawa dengan

metode Silhouette untuk IoC 3 hasil K optimalnya adalah ketika K 19,

IoC 4 hasil K optimalnya adalah ketika K 49, dan IoC 5 hasil K

optimalnya adalah ketika K 61. Didapatkan kesimpulan bahwa untuk

mendapatkan nilai silhouette itu ada banyak faktor yang mempengaruhi

seperti tahap preprocessing, tahap resize data, ukuran IoC yang

digunakan, dan juga nilai centroid K-Means yang random. Ada juga

pengaruh jarak yang digunakan dalam silhouette yang membuat hasil

penghitungannya menjadi berbeda. Hasil K dari metode silhouette

cenderung kecil dan akan membuat hasil akurasi pengelompokannya

menjadi jelek.

5.1.2 Metode Elbow

Dari hasil percobaan pengelompokan 597 citra aksara Jawa dengan

metode Elbow karena pada penelitian ini digunakan nilai distortion

percent diatas 0.90 maka untuk IoC 3 hasil K optimalnya adalah ketika

K 62, IoC 4 hasil K optimalnya adalah ketika K 84, dan IoC 5 hasil K

optimalnya adalah ketika K 106. Didapatkan kesimpulan bahwa untuk

mendapatkan nilai distortion itu ada banyak faktor yang mempengaruhi

seperti tahap preprocessing, tahap resize data, ukuran IoC yang

digunakan, dan juga nilai centroid K-Means yang random. Ada juga

pengaruh sumd hasil k-means dan penentuan nilai distortion percent

minimal yang digunakan dalam metode elbow yang membuat hasil

penghitungan dan penentuan K optimalnya menjadi berbeda. Dari hasil

K yang lebih besar inilah maka metode elbow dianggap lebih baik

karena semakin besar K dalam clustering maka hasil akurasi

pengelompokannya akan menjadi lebih baik.

5.1.3 Hasil Relevansi

Hasil pengujian dengan 597 citra aksara Jawa ukuran IoC 3 dan

jumlah cluster 65 mendapatkan hasil pengelompokan yang baik dengan

akurasi sebesar 86%, ini sudah bisa diprediksi sehingga dianggap

relevan. Hal ini karena pada cluster 65 memiliki SI 0,5060 untuk

metode silhouette dan juga distortion 0,9027 untuk metode elbow. Dari

pengujian tadi dapat disimpulkan jika K nya lebih besar maka akan

menghasilkan hasil pengelompokan yang bagus sehingga metode

elbow dianggap sebagai metode yang ideal untuk menentukan nilai K.

Hasil pengujian 14 Aksara Pokok dengan 247 citra ukuran IoC

3 didapatkan akurasi pengelompokan yang baik yaitu sebesar 75%

dimana terdapat 10 label kelompok yang benar.

5.2 Saran

a. Perlu dilakukan percobaan dengan ukuran ciri IoC yang lainnya untuk

memperoleh hasil yang lebih baik.

b. Perlu dilakukan proses preprocessing sampai mendapatkan hasil yang

baik agar hasil segmentasi dan juga hasil pengelompokan menjadi

lebih baik.

c. Ketika memilih hasil SI untuk metode silhouette bisa mengambil nilai

nilai diatas 0.5 agar hasil pengelompokan menjadi lebih baik lagi.

d. Ketika memilih nilai distortion percent untuk metode elbow bisa

menggunakan nilai diatas 0.9 agar hasil pengelompokan lebih baik

DAFTAR PUSTAKA

Aksara Jawa. (2020). https://id.wikipedia.org/wiki/Aksara_Jawa

Ankrisnar, V. A. (2020). Pengelompokan Citra Aksara Bali Menggunakan Metode

K-Means Clustering. Universitas Sanata Dharma.

Bao, F. (n.d.). best_kmeans(X). MATLAB Central File Exchange.

https://www.mathworks.com/matlabcentral/fileexchange/49489-

best_kmeans-x

Dewi D.A., & Pramita D.A (2019). Analisis Perbandingan Metode Elbow dan

Silhouette pada Algoritma Clustering K-Medoids dalam Pengelompokan

Produksi Kerajinan Bali. Jurnal Manajemen Teknologi dan Informatika, 102-

Gonzalez, R.C., & Woods, R.E. (2002). Digital Image Processing. 2nd Edition,

Prentice Hall, Upper Saddle River.

Hadiprijono (2013). Trampil Maca lan Nulis Aksara Jawa. Kanisius Yogyakarta.

Holle, K. (1876). Hamong Tani.

Jamaludin, A., & Purnamasari, I. (2020). Pengelompokan Desa Menggunakan K-

Means Untuk Penyelenggaraan Penanggulangan Bencana Banjir. JOINS

(Journal of Information System), 5(2), 156–167.

Kodinariya, T & Makwana, P (2013) Review on Determining of Cluster in K-means

Clustering. International Journal of Advance Research in Computer Science

and Management Studies.

Leonard K, & Peter J. Rousseeuw (1990). Finding Groups in Data: An Introduction

to Cluster Analysis. John Wiley & Sons, Inc., Hoboken, 68-125.

Sebastien D. L. (n.d.). kmeans_opt. MATLAB Central File Exchange.

https://www.mathworks.com/matlabcentral/fileexchange/65823-kmeans_opt

Widiarti, A. R., & Himamunanto, A. R. (2012). Teori Dan Aplikasi Pengolahan

Citra Digital Transliterasi Otomatis Citra Dokumen Teks Aksara Jawa.

Lintang Pustaka Utama.

Widiarti, A. R. (2011). Comparing Hilditch, Rosenfeld, Zhang-Suen, and

Nagendraprasad-Wang-Gupta Thinning. International Journal of Computer

and Information Engineering, 5(6), 563–567.

LAMPIRAN

CLUSTERING K-MEANS MENGGUNAKAN PENDEKATAN

Documents

Transcript of CLUSTERING K-MEANS MENGGUNAKAN PENDEKATAN

IMPLEMENTASI METODE K-MEANS CLUSTERING DALAM …

ALGORITMA K-MEANS CLUSTERING DALAM PENGOLAHAN …

Penerapan Algoritma K-Means Clustering Untuk Pemetaan ...

Aplikasi K-means Clustering pada Data Rumah Tanggarepository.uksw.edu/bitstream/123456789/4690/2/T1_662009010_Full... · Title: Aplikasi K-means Clustering pada Data Rumah Tangga

IMPLEMENTASI K-MEANS CLUSTERING UNTUK IDENTIFIKASI …

ANALISA ALGORITMA K-MEANS CLUSTERING PEMETAAN …

Tema 4. Agrupación o Clustering. 4.1. K-means y otros ...

Chapter 8 Clustering : K-means - Wipawan's Blog · ชนิดของตัวแปรที่ใช้ในเทคนิค K-Means Clustering 4 Clustering : K-mean โดย

Analisis Algoritma K-means Clustering Menggunakan Openmp-libre

IMPLEMENTASI METODE K-MEANS CLUSTERING …etheses.uin-malang.ac.id/17160/1/15650101.pdf · 2020. 4. 30. · implementasi metode k-means clustering berdasarkan aspek kognitif dan afektif

IMPLEMENTASI METODE K-MEANS CLUSTERING UNTUK SISTEM ...

05. k means clustering ( k-means 클러스터링)

Penerapan Metode K-means Clustering Dalam Penilaian ...

IMPLEMENTASI METODE K-MEANS CLUSTERING ...“Implementasi Metode K-Means Clustering dalam Mengelompokkan Emosi Senang, Marah, dan Netral Berdasarkan Vokal Manusia” dengan baik dan

DETEKSI INTRUSI JARINGAN DENGAN K-MEANS CLUSTERING …

Clustering K-Means

IMPLEMENTASI K-MEANS CLUSTERING DAN VECTOR ...IMPLEMENTASI K-MEANS CLUSTERING DAN VECTOR SPACE MODEL UNTUK MENCARI KALIMAT UTAMA TEKS ARTIKEL BERBAHASA INDONESIA TUGAS AKHIR Diajukan

10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08

머신러닝 시그 세미나_(k-means clustering)

Penerapan Algoritma K-Means Clustering Untuk ...