Post on 24-Jul-2019
6
BAB II
LANDASAN TEORI
2.1 Telaah Pustaka
Sebagai referensi serta pembanding penelitian ini, peneliti
mengumpulkan beberapa penelitian sejenis yang berhubungan dengan
POS Tagger dan Parsing. Berikut adalah penelitian sebelumnya :
- Susi Setyowati (2015). Penelitian ini berjudul POS-Tagger twitter
bahasa Indonesia Menggunakan Stanford NLP. Penelitian ini
tentang bagaimana membuat data training dari tweet bahasa
Indonesia dan bagaimana melakukan POS-Tagger twitter
berbahasa Indonesia menggunakan Stanford NLP. Hasil dari
penelitian ini adalah POS Tagger Stanford NLP dapat digunakan
untuk melatih dan mengenali tweet berbahasa Indonesia tetapi
tidak dapat memberikan jenis tag berbeda pada suatu kata yang
sama tetapi memiliki arti yang berbeda.
- Fachry Khusaini dan Fachrul Kurniawan ( 2013). Penelitian ini
berjudul Implementasi Left-corner parsing Untuk Pembelajaran
Grammar Bahasa Inggris Pada Game 3d Adventure “Go To
London”. Hasil dari penelitian ini adalah left-corner parsing
mampu mengenali pola grammar pada permainan “Go to London”
dengan baik. Hanya saja pemilihan kata yang sesuai dengan
definisinya berdasarkan struktur kalimat belum bisa, hanya sebatas
pengenalan grammar. Sehingga secara pelafalan masih kurang
tepat.
- Vita Meriati (2015). Penelitian ini berjudul Analisis Perbandingan
Algoritma LCP (Left-corner Parsing) Dan Algoritma CYK
(Cocke-Younger-Kasami) Untuk Memeriksa Pola Kalimat Baku
Bahasa Indonesia. Penelitian ini tentang analisa perbandingan
tingkat akurasi antara algoritma LCP (Left-corner Parsing) dengan
algoritma CYK (Cocke-Younger-Kasami) menggunakan aplikasi
simulator sebagai pemeriksa pola kalimat bahasa baku. Hasil dari
7
penelilitian ini adalah tingkat akurasi algoritma CYK lebih besar
dibandingkan dengan LCP. Penelitian ini masih terbatas pada POS
Tag yang digunakan.
2.2 Twitter
Twitter adalah salah satu jejaring sosial dan microbloging untuk
mengirim dan membaca pesan secara singkat yang dikenal sebagai
kicauan (tweets)[1]. Tergolong dalam salah satu media hibrida, yaitu
media yang mengkombinasikan kekayaan fungsional media massa dan
komunikasi inter-personal, menjadi salah satu alasan mengapa twitter
diminati oleh berbagai pihak. Mulai dari ajang promosi, pemberitaan serta
bisnis karena hanya memerlukan sedikit waktu saja informasi yang
disampaikan dapat langsung menyebar.
Situs microbloging twitter asal mulanya berawal dari sebuah acara
diskusi perusahaan podcast, Odeo. Jack Dorsey, mahasiswa Universitas
New York, menyatakan gagasannya tentang penggunaan layanan pesan
singkat yang digabungkan dengan situs jejaring sosial. “twttr” adalah
nama awal dari layanan ini, “twttr” terinspirasi dari nama situ sharing
foto Flickr[2]. Awalnya twitter hanya digunakan sebatas dalam internal
perusahaan Odeo saja, kemudian versi lengkapnya dikenalkan ke public
pada tanggal 15 Juli 2006 dengan nama “twitter”.
Sejak diperkenalkannya twitter kepada publik pada tahun 2006.
Twitter yang dikenal dengan logo burung berwarna biru “Larry the bird”.
Logo twitter sendiri sudah beberapa kali dimodifikasi hingga pada tahun
2012 twitter meluncurkan logo baru yang dinamakan “Twitter Bird”
hingga saat ini.
Gambar 2.1 Perubahan logo Twitter
8
2.3 Bahasa Indonesia Formal
Tanpa disadari penggunaan bahasa bisa berubah mengikuti
kebutuhan penuturnya. Contohnya bahasa yang digunakan saat berpidato
akan berbeda dengan bahasa yang digunakan saat berbicara dengan teman
atau keluarga. Hal ini disebut sebagai ragam bahasa. Dalam penggunaan
bahasa Indonesia ada berbagai macam ragam bahasa, diantaranya adalah
ragam formal – semi formal – non formal; ujaran – tulisan; jurnalistik;
iklan; popular dan ilmiah.
Bahasa Indonesia formal atau yang dikenal sebagai bahasa baku
adalah bahasa yang diucapkan atau ditulis sesuai kaidah – kaidah standard.
Yang termasuk dalam kaidah standar adalah Ejaan yang di sempurakan,
kamus umum dan tata bahasa baku [3].
2.4 Kelas Kata Dalam Bahasa Indonesia
Kelas kata dalam bahasa Indonesia memiliki banyak perbedaan
dalam hal pembagian kelas katanya. Diantaranya adalah pembagian kelas
kata oleh Harimuti Kridalaksana dan M.Ramlan. Kridaklasana
menggolongkan tiga belas kata dalam bahasa indonesia. Sedangkan
Ramlan menggolongkan dua belas dalam bahasa Indonesia.
Pada penelitian ini peneliti menggunakan pembagian kelas kata
yang terbagi secara tradisional. Kelas kata ini digunakan dalam bahasa –
bahasa yang besar di dunia, termasuk bahasa Indonesia. Kelas kata
tersebut adalah:
1. Kata benda (Noun)
Kata benda ialah kata yang menyatakan sesuatu. Diantaranya nama
tempat,nama orang,nama binatang, ide, atau gagasan.
2. Kata kerja (Verb)
Kata kerja ialah kata yang menyatakan atau menggambarkan sebuah
kejadian, perbuatan, peristiwa atau keadaan.
3. Kata sifat (Adjective)
Kata sifat ialah kata yang menerangkan kata ganti atau kata benda.
4. Kata ganti orang (Personal Pronoun)
9
Kata ganti ialah kata yang digunakan sebagai pengganti nama sendiri
ataupun nama orang.
5. Kata keterangan (Adverb)
Kata keterangan ialah kata yang sebagai pembatas atau pemberi
keterangan mengenai kata kerja.
6. Kata bilangan (Numeral)
Kata bilangan ialah kata yang menerangkan kuantitas atau bilangan.
Kata bilangan berpotensi mendamping kata bilangan lain.
7. Kata penghubung (Conjunction word)
Kata penghubung ialah kata yang berfungsi meluaskan satuan kata
dalam konstruksi hipoktaksis dan sebagai penghubung dua atau lebih
satuan kata dalam konstrukssinya.
8. Kata sandang (determiner)
Kata sandang ialah kata yang berada di depan kata benda sebagai
penjelas dan mengacu kepada kata benda trsebut.
9. Kata seru atau Interjeksi (Interjection)
Kata seru ialah kata yang berfungsi sebagai pengungkap perasaan.
Secara sintaksis kata ini tidak berhubungan dengan kata lain dalam
ujaran.
10. Kata depan atau Preposisi (Preposisition)
Kata depan ialah kata yang berada didepan kata lainnya hingga
terbentuk sebuah frase.
2.5 Strukur Kalimat Bahasa Indonesia
1. Frasa
Frasa adalah kumpulan 2 (dua) atau lebih kata yang
memiliki arti kerja tetapi bersifat non predikatif. Frasa hanya dapat
bersifat subjek, predikat, objek, pelengkap maupun keterangan
dalam sebuah kalimat.
Berdasarkan fungsi unsur pembentuknya frasa terbagi menjadi 2
(dua) jenis, yaitu frasa endosentris dan frasa eksosentris. Frasa
endosentris adalah frasa dimana salah satu atau kedua kata-nya
10
termasuk dalam unsur inti (pusat). Sedangkan frasa eksosentris
adalah frasa yang tidak memiliki unsur inti (pusat).
1) Frasa endosentris
Frasa ini terbagi kedalam 4 (empat) bagian :
1. Frasa koordinatif (setara)
Contoh : - suami istri itu kedapatan mencuri di pasar
2. Frasa atributif (bertingkat)
Dalam frasa ini terdapat 2 (dua) unsur. Pertama
unsur diterangkan, kedua unsur menerangkan.
Contoh : - mobil mahal itu terjual kemarin
3. Frasa atributif berimbuhan
Sama halnya dengan frasa atributif, tetapi frasa ini
memiliki unsur atributnya yang diberi imbuhan.
Contoh : - rumah perisirahatan anggota dewan
digeledah polisi
4. Frasa apositif
Frasa ini bersifat saling menggantikan.
Contoh : - menurut Muhadjir, menteri pendidikan
dan kebudayaan mendukung pemberian pakasi
untuk guru.
2) Frasa eksosentris
Berikut adalah jenis frasa berdasarkan berdasarkan
kategori kata yang menjadi unsur pusatnya:
1. Frasa Nomina(Noun Phrase)
Frasa ini memiliki distribusi yang sama dengan nomina
dimana frasa ini berhubungan dengan noun atau kata
benda. Contoh frasa nominal adalah mahasiswa baru.
2. Frasa Verbal(Verb Phrase)
Frasa ini berhubungan dengan verb atau kata kerja.
Frasa ini juga berfungsi menggantukan kedudukan kata
kerja dalam sebuah kalimat. Contoh frasa verbal adalah
belum makan.
11
3. Frasa Adverbial(Adverb Phrase)
Frasa ini berhubungan dengan adverb atau kata sifat.
Contoh frasa adverbial adalah lebih cantik.
4. Frasa Adjektival(Adjective Phrase)
Frasa ini berhubungan dengan adjektiv atau kata sifat
sebagai inti dan menambahkan kata lain yang berfungsi
menerangkan. Contoh frasa adjektival adalah murah
sekali.
5. Frasa Preposisional(Prepositional Phrase)
Frasa ini berhubungan dengan preposisi atau kata
depan. Contoh frasa preposisional adalah : di malang.
2. Klausa
Klausa dapat diartikan sebagai sebuah rangkaian kontruksi dari dua
kata atau yang mengandung unsur predikasi dan memiliki potensi
untuk membentuk suatu kalimat[4]. Sebuah kalimat memiliki dua
unsur, unsur intonasi dan unsur klausa. Hanya saja tidak semua
kalimat, ada beberapa kalimat yang tanpa unsur klausa dan hanya
memiliki unsur intonasi[5]. Contoh kalimat yang hanya memiliki
unsur intonasi :
• “Selamat pagi!”
• “Assalamu’alaikum warahmatullahi wabarakaatuh.”
3. Fungsi Sintaksis
Fungsi sintaksis berhubungan langsung dengan relasi
gramatikal suatu klausa. Misalnya subjek(S) berhubungan
langsung dengan predikat(P), objek(O), pelengkap(Pel) dan
keterangan(K) sehingga membentuk sebuah konstruksi. Dik(1985)
mengatakan bahwa unsur utama dalam sebuah klausa adalah
predikat(P), karena kondisi P yang menyebabkan hadirnya unsur-
unsur yang lain seperti O, Pel dan K.
12
1. Predikat
Predikat dalam sebuah kalimat berperan sebagau
keadaan, proses, perbuatan, posisi, lokasi, identitas dan
kualitas..
2. Subjek
Subjek dalam sebuah kalimat berperan sebagai
pengalamanan, pelaku, ukuran, peruntung dan pokok.
3. Objek
Objek berperan sebagai sasaran, hasil dan peruntung.
Biasanya objek berupa nomina, frasa nomina atau
pronomina.
4. Pelengkap
Pelengkap berpotensi sebagai sasaran, hasil, jangkauan,
identitas dan ukuran. Umumnya berupa frasa nomina,
frasa adjektiva atau frasa verbal.
5. Keterangan
Fungsi keterangan dalam sebuah kalimat sebagai
pemberi keterangan tambahan terhadap unsur inti.
4. Kalimat
Kalimat adalah dua kata atau lebih dalam satuan bahasa.
Unsur utama pembentuk kalimat adalah subjek dan predikat.
Objek, pelengkap dan keterangan adalah unsur penambahan yang
diakhiri dengan tanda baca seperti tanda titik(.), tanda tanya(?) atau
tanda seru(!).
2.6 Natural Language Processing
NLP (Natural Language Processing) termasuk dalam salah satu
cabang dari ilmu kecerdasan buatan atau Artificial Intelligence(AI) yang
berfokus pada pengolahan bahasa natural[6]. NLP bertujuan membangun
rancangan model komputasi dari sebuah bahasa agar terjadi interaksi
antara manusia dan komputer melalui perantara bahasa alami. Sehingga
13
bahasa alami yang sudah diproses oleh komputer dapat memahami dengan
baik maksud dari user.
Beberapa terapan aplikasi dari NLP adalah sebagai berikut :
• Chatbot : Aplikasi yang membuat user bisa seolah-olah
melakukan komunikasi dengan komputer
• Stemming atau Lemmatization : Pemotongan kata dalam
bahasa tertentu menjadi bentuk dasar pengenalan fungsi
setiap kata dalam kalimat
• Summarization : Ringkasan dari bacaan
• Translation Tools : Menterjemahkan bahasa
Ada beberapa tingkat pengolahan pada NLP :
1. Fonetik dan fonologi : Bidang ini berhubungan dengan
suara yang dihasilkan user, kemudian diproses menjadi kata
yang dapat dikenali komputer.
2. Morfologi : Bidang ini merupakan pemisahan antar kata satu
dengan kata lain atau elemen lain.
3. Sintaksis : bidang ini merupakan penguraian kalimat dan juga
hubungan antar kata yang terdapat dalam.
4. Semantik : bidang ini mempelajari arti suatu kata dari kalimat
secara context – independent tanpa memperhatikan konteks
dari kalimat tersebut.
5. Pragramatik : bidang ini merupakan pengetahuan tingkatan
dari semantik dimana memperhatikan konteks yang ada pada
kalimat dan bergantung pada situasi dan tujuan pada sistem
yang akan dibuat.
6. Discource knowledge : bidang ini merupakan pengenalan pada
arti dalam sebuah kalimat.
7. Word knowledge : Bidang ini merupakan pengenalan pada arti
sebuah kata secara umum secara umum maupun secara khusus.
14
2.7 Tagging
Tagging adalah proses pemberian label kelas kata pada tiap
kata dalam kalimat. Pelabelan kata dapat dilakukan dengan 2 cara
yaitu top-down dan bottom-up.
Contoh sederhana dari kalimat “ kucing itu mencuri ikan” untuk
proses tagging adalah :
Kucing/NN itu/PR mencuri/VB ikan/NN
Dalam proses tagging terdapat 2 (dua) cara pelabelan kelas kata.
Pelabelan berbasis aturan (rule based)dan proboblitias (proboblity
based)[7].
2.8 Parsing
Parsing adalah proses penguraian sebuah inputan dengan
memecah – mecah rangkaian masukan hingga menghasilkan suatu
pohon uraian (parse tree)[8][9]. Parsing atau analisa sintaksis
memeriksa kebenaran struktur sebuah kalimat berdasarkan
grammar dan lexicon. Grammar atau tata bahasa adalah struktur
atau aturan – aturan yang terdapat dalam pembentukan sebuah
kalimat. Sedangankan lexicon adalah kosa kata yang terdapat
dalam komputer.
Salah satu contoh sederhana untuk grammar bahasa
indonesia adalah :
Kalimat -> FN FV
FN -> NN + PR
FV -> VB + NN
NN -> Kucing, Ikan
PR -> Itu
VB -> Melihat, Memakan, Mencuri
Grammar ini menghasilkan sekumpulan kalimat sederhana,
seperti:
- Kucing itu melihat ikan
- Kucing itu memakan ikan
15
Kalimat
Kucing
Itu
Mencuri
Ikan
NN PR VB NN
FN FV
- Kucing itu mencuri ikan
Proses pembentukan kalimat dari sebuah grammar disebut
deviration. Contoh deviration kalimat “kucing itu mencuri ikan”
berdasarkan grammar diatas sebagai berikut :
Gambar 2.2 Deviraton atau parse tree kalimat “kucing itu
mencuri ikan”
Kalimat diatas dapat di definisikan dengan sintaksis berikut
ini.
<kalimat> ::= <FN> <FV>
<FN> := NN PR
<FV> := VB NN
NN := kucing
PR := itu
VB := mencuri
NN := ikan
Arti dari tujuh baris di atas adalah sebagai berikut :
1. Kalimat terusun atas frasa nomina diikuti dengan frasa
verba
2. Frasa nomina tersusun atas nomina dan pronomina
3. Frasa verba tersusun atas verba dan nomina
4. Nomina berupa kata kucing
5. Pronomina berupa kata itu
6. Verba berupa kata mencuri
7. Nomina berupa kata ikan
16
<kalimat> merupakan bentuk utama, sedangkan <FN> dan
<FV> disebut simbol non – terminal. Sedangkan kata kucing, itu,
mencuri dan ikan disebut dengan simbol terminal.
2.8.1 Top-down dan bottom-up Parsing
Top-down parsing adalah metode penurunan
parse tree yang dibuat berdasarkan penurunan
leftmost (inputan yang dibaca dari kiri ke kanan).
Bottom-up parsing atau yang sering disebut
shift-reduse parser adalah kebalikan dari top-down
parsing. Dimana proses penguraiannya dimulai dari
costituent terkecil ke sampai menjadi constituent
terbesar atau dari leaf ke root[8][9].
2.8.2 Left-corner parsing
Left-corner parsing adalah metode gabungan
top-down parsing dan bottom-up parsing. Adanya
penggabungan kedua metode ini dikarenakan
terdapat kekurangan pada kedua metode
sebelumnya. Misalnya pada metode top-down
parsing, metode ini tidak dapat menganggani
grammar dengan left recursion. Sedangkan bottom-
up parsing, tidak dapat menanggani empty
production[7][8].
Penguraian kalimat pada left-corner parsing
dimulai dengan prediksi top-down untuk mengenali
jenis kata, kemudian melakukan pasing dari sisa
constituent secara bottom-up[9][10].
Sebagai contoh, dengan menggunakan
grammar dan kalimat diatas, dapat dilakukan proses
left-corner sebagai berikut :
17
Gambar 2.3 Cara kerja left-corner parsing
2.8.3 Adaptasi Left-Corner Parsing
Pada pengerjaan tugas akhir ini, peneliti
mengadapatasi metode left-corner sebagai berikut :
1. Menggunakan POS Tagger sebagai proses top-
down
Pada dasarnya proses top-down
berfungsi sebagai pengenalan struktur
kalimat dari constituent terbesar hingga
constituent terkecil. Dimana hasil akhirnya
adalah mengetahui level terendah atau kelas
kata dalam sebuah kalimat[7].
Pesan singkat atau tweet yang dikirim tidak
mengutakan struktur kalimat. Oleh karena
itu pada proses top-down untuk tugas akhir
ini di gunakan POS Tagger sebagai proses
untuk mengetahui level terendah atau kelas
kata dalam sebuat twee[9][10]t.
2. Menggunakan shift reduce sebagai proses
bottom-up untuk melakukan proses parsing.
18
Shift reduce parser adalah salah satu
metode parsing yang bekerja secara bottom-
up[8]. Setelah mengenali kelas kata pada
proses sebelumnya, untuk kemudiaan
dilakukan pemeriksaan kembali struktur
kalimat pada proses bottom-up
menggunakan shift-reduce parser[9][10].
2.9 Stanford NLP Group
Stanford NLP Group adalah sebuah komunitas bidang ilmu
komputer khususnya pemrograman bahasa alami di Stanford
University.Yang menjadi pembeda fitur dari Stanford NLP Group
dengan yang lainnya adalah kombinasi efektif dari pemodelan
linguistik dan analisa data yang sangat baik dalam pembelajaran
proboblistik dan mesin yang inovatif untuk proses NLP. Berbagai
macam penelitian mengenai pemrosesan bahasa alami atau Natural
Language Processing (NLP) yang dilakukan Stanford NLP Group,
diantaranya adalah syntactic parsing dan tagging.