BAB 2 LANDASAN TEORI 2.1 Teori-teori Umum...
Transcript of BAB 2 LANDASAN TEORI 2.1 Teori-teori Umum...
5
BAB 2
LANDASAN TEO RI
2.1 Teori-teori Umum
2.1.1 Aplication
Aplikasi adalah penggunaan atau penerapan suatu konsep yang menjadi
pokok pembahasan. Aplikasi dapat diartikan juga sebagai program komputer
yang dibuat untuk menolong manusia dalam melaksanakan t ugas tertentu.
Aplikasi software yang dirancang unt uk penggunaan praktisi khusus,
klasifikasi luas ini dapat dibagi menjadi dua yaitu:
1. Aplikasi software spesialis, program dengan dokumentasi tergabung yang
dirancang unt uk menjalankan tugas tertentu.
2. Aplikasi paket, suatu program dengan dokumentasi tergabung yang
dirancang unt uk jenis masalah tertentu.
2.1.2 Handphone
Handphone adalah perangkat telekomunikasi elektronik yang mempunyai
kemampuan dasar yang sama dengan telepon konvensional saluran tetap,
namun dapat dibawa ke mana-mana (portabel, mobile) dan tidak perlu
disam bungkan dengan jaringan telepon menggunakan kabel (nirkabel;
wireless). Saat ini ada dua jaringan telepon nirkabel yaitu sistem GSM
(Global System for Mobile Telecommunications) dan sistem CDMA (Code
Division Multiple Access).
2.1.3 Short Message Service
Short Message Service adalah transmisi layanan pesan singkat ke dan dari
ponsel, mesin faks, dan / atau alamat IP. Pesan harus tidak lebih
dari 160 karakter alfanumerik dan tidak mengandung gambar atau grafis.
Short Message Service adalah sistem pesan yang relatif sederhana yang
disediakan oleh jaringan telepon seluler. SMS didukung oleh GSM(Global
6
System for Mobile Telecommunications), dan CDMA (Code Division Multiple
Access) berbasis jaringan telepon selular yang sedang digunakan.
2.1.4 Aljabar Linier
Aljabar linear adalah bidang st udi matematika yang mempelajari sistem
persamaan linear dan solusinya, vektor, serta transformasi linear. Matriks dan
operasinya juga merupakan hal yang berkaitan erat dengan bidang aljabar
linear.
Sebuah sistem persamaan linier dapat dikatakan homogen apabila
mempunyai bentuk :
a11x1 + a12x2 + ... + a1nxn = 0
a21x1 + a22x2 + ... + a2nxn = 0
am1x1 + am2x2 + ... + amnxn = 0
Setiap sistem persamaan linier yang homogen bersifat tetap apabila
semua sistem mepunyai x1 = 0 , x2 = 0 , ... , xn = 0 sebagai penyelesaian.
Penyelesaian ini disebut solusi trivial. Apabila mempunyai penyelesaian yang
lain maka disebut solusi nontrivial.
1. Penyelesaian Persamaan Linear dengan Matriks A. Bentuk Eselon-baris
Matriks dapat dikatakan Eselon-baris apabila memenuhi persyaratan
berikut :
1) Di setiap baris, angka pertama selain 0 harus 1 (leading 1).
2) Jika ada baris yang semua elemennya nol, maka harus
dikelompokkan di baris akhir dari matriks.
3) Jika ada baris yang leading 1 maka leading 1 di bawahnya, angka
1-nya harus berada lebih kanan dari leading 1 di atasnya.
4) Jika kolom yang memiliki leading 1 angka selain 1 adalah nol
maka matriks tersebut disebut Eselon-baris tereduksi.
7
B. O perasi Eliminasi Gauss
Eliminasi Gauss adalah suatu cara mengoperasikan nilai-nilai di dalam
matriks sehingga menjadi matriks yang lebih sederhana (ditemukan
oleh Carl Friedrich Gauss). Caranya adalah dengan melakukan operasi
baris sehingga matriks tersebut menjadi matriks yang Eselon-baris. Ini
dapat digunakan sebagai salah sat u metode penyelesaian persamaan
linear dengan menggunakan matriks. Caranya dengan mengubah
persamaan linear tersebut ke dalam matriks teraugmentasi dan
mengoperasikannya. Setelah menjadi matriks Eselon-baris,
lakukan substitusi balik untuk mendapatkan nilai dari variabel-variabel
tersebut.
8
C. O perasi Eliminasi Gauss-Jordan
Eliminasi Gauss-Jordan adalah pengembangan dari eliminasi Gauss
yang hasilnya lebih sederhana. Caranya adalah dengan meneruskan
operasi baris dari eliminasi Gauss sehingga menghasilkan matriks
yang Eselon-baris tereduksi. Ini juga dapat digunakan sebagai salah
satu metode penyelesaian persamaan linear dengan menggunakan
matriks. Caranya dengan mengubah persamaan linear tersebut ke
dalam matriks teraugmentasi dan mengoperasikannya. Setelah menjadi
matriks Eselon-baris tereduksi, maka langsung dapat ditentukan nilai
dari variabel-variabelnya tanpa substitusi balik.
9
D. O perasi Dalam Matriks
Dua buah matriks dikatakan sama apabila matriks-matriks tersebut
mempunyai ordo yang sama dan setiap elemen yang seletak sama.
Jika A dan B adalah matriks yang mempunyai ordo sama, maka
penjumlahan dari A + B adalah matriks hasil dari penjumlahan elemen
A dan B yang seletak. Begitu pula dengan hasil selisihnya. Matriks
yang mempunyai ordo berbeda tidak dapat dijumlahkan atau
dikurangkan.
Jumlah dari k buah matriks A adalah suatu matriks yang berordo sama
dengan A dan besar tiap elemennya adalah k kali elemen A yang
seletak. Didefinisikan: Jika k sebarang skalar maka kA = Ak adalah
matriks yang diperoleh dari A dengan cara mengalikan setiap
elemennya dengan k. Negatif dari A atau -A adalah matriks yang
diperoleh dari A dengan cara mengalikan semua elemennya dengan -1.
Untuk setiap A berlaku A + (-A) = 0. Hukum yang berlaku dalam
penjumlahan dan pengurangan matriks :
a. A + B = B + A
b. A + ( B + C ) = ( A + B ) + C
c. k ( A + B ) = kA + kB = ( A + B ) k , k = skalar
Hasil kali matriks A yang ber-ordo m x p dengan matriks B yang
berordo p x n dapat dituliskan sebagi matriks C = [ cij ] berordo m x n
dimana cij = ai1 b1j + ai2 b2j + ... + aip bpj
2. Matriks Balikan (Invers)
JIka A dan B matriks bujur sangkar sedemikian rupa sehingga A B = B − 1
A, maka B disebut balikan atau invers dari A dan dapat dituliskan B = A −
1 ( B sama dengan invers A ). Matriks B juga mempunyai invers yaitu A
maka dapat dit uliskan A = B − 1. Jika tidak ditemukan matriks B, maka A
10
dikatakan matriks tunggal (singular). Jika matriks B dan C adalah invers
dari A maka B = C.
Matriks A = dapat di-invers apabila ad - bc ≠ 0
Dengan Rum us =
Apabila A dan B adalah matriks seordo dan memiliki balikan maka AB
dapat di-invers dan (AB) − 1 = B − 1A – 1
3. Transpose Matriks
Yang dimaksud dengan Transpose dari suatu matriks adalah mengubah
komponen-komponen dalam matriks, dari yang baris menjadi kolom dan
yang kolom di ubah menjadi baris.
4. Matriks Diagonal, Segitiga, dan Matriks Simetris A. Matriks Diagonal
Sebuah matriks bujursangkar yang unsur-unsurnya berada di garis
diagonal utama dari matriks bukan nol dan unsur lainnya adalah nol
disebut dengan matriks diagonal.
secara umum matriks n x n bisa dit ulis sebagai
11
B. Matriks Segitiga
Matriks segitiga adalah matriks persegi yang di bawah atau di atas
garis diagonal utama nol. Matriks segitiga bawah adalah matriks
persegi yang di bawah garis diagonal utama nol. Matriks segitiga atas
adalah matriks persegi yang di atas garis diagonal utama nol.
Matriks segitiga
Matriks segitiga bawah
C. Matriks Simetris
Matriks kotak A disebut simetris jika A = AT
Contoh matriks simetris
D. Determinan
Determinan adalah suatu fungsi tertentu yang menghubungkan suat u
bilangan real dengan suatu matriks bujursangkar.
Sebagai contoh, kita ambil matriks A2x2
12
A = tentukan determinan A
untuk mencari determinan matrik A maka,
detA = ad – bc
2.2 Teori-teori Khusus 2.2.1 Artificial Inteligent
Artificial Intelligence (Kusumadewi 2003,pp1-3) merupakan salah sat u
bagian ilmu komputer yang membuat mesin dapat melakukan pekerjaan
seperti dan sebaik yang dilakukan oleh manusia. Pada awal diciptakannya,
komputer hanya difungsikan sebagai alat hitung saja. Seiring dengan
perkembangan zaman, maka peran komputer semakin mendominasi
kehidupan umat manusia. Komputer tidak lagi hanya digunakan sebagai alat
hitung, lebih dari it u komputer diharapkan untuk dapat diberdayakan untuk
mengerjakan segala sesuatu yang bisa dikerjakan oleh manusia.
Manusia bisa menjadi pandai dalam menyelesaikan segala permasalahan
di dunia ini karena manusia mempunyai pengetahuan dan pengalaman.
Pengetahuan diperoleh dari belajar, semakin banyak bekal pengetahuan yang
dimiliki oleh seseorang tentu saja diharapkan akan lebih mampu dalam
menyelesaikan permasalahan. Namun bekal pengetahuan saja tidak cukup,
manusia juga diberi akal untuk melakukan penalaran, mengambil kesimpulan
berdasarkan pengetahuan dan pengalaman yang mereka miliki. Tanpa
memiliki kemampuan untuk menalar dengan baik, manusia dengan segudang
pengalaman dan pengetahuan tidak akan dapat menyelesaikan masalah dengan
baik. Demikian pula, dengan kemampuan menalar yang sangat baik, namun
tanpa bekal pengetahuan dan pengalaman yang memadai, manusia juga tidak
akan bisa menyelesaikan masalah dengan baik.
Agar komputer bisa bertindak seperti dan sebaik manusia, maka komputer
juga harus diberi bekal pengetahuan, dan mempunyai kemampuan untuk
menalar. Untuk itu pada Artificial Intelligence, akan mencoba untuk
13
memberikan beberapa metoda untuk membekali komputer dengan kedua
komponen tersebut agar komputer bisa menjadi mesin yang pintar.
Lebih detailnya, pengertian kecerdasan buatan dapat dipandang dari berbagai
sudut pandang, antara lain:
1. Sudut pandang kecerdasan
Kecerdasan buatan akan membuat mesin menjadi “cerdas” (mampu berbuat
seperti apa yang dilakukan oleh manusia)
2. Sudut pandang penelitian
Kecerdasan buatan adalah suatu studi bagaimana membuat komputer dapat
melakukan sesuatu sebaik yang dikerjakan oleh manusia.
Domain yang sering dibahas oleh para peneliti meliputi:
a. Mundane task
‐ Persepsi (vision & speech).
‐ Bahasa Alami (understanding, generation & translation).
‐ Pemikiran yang bersifat commonsense.
‐ Robot control.
b. Formal task
‐ Permainan/games.
‐ Matematika (geometri, logika, kalkulus integral & pembuktian).
c. Expert task
‐ Analisis finansial.
‐ Analisis medikal.
‐ Analisis ilmu pengetahuan.
‐ Rekayasa (desain, pencarian kegagalan, perencanaan, manufaktur).
14
3. Sudut pandang bisnis.
Kecerdasan buatan adalah kumpulan peralatan yang sangat kuat dan
metodologis dalam menyelesaikan masalah-masalah bisnis.
4. Sudut pandang pemrograman.
Kecerdasan buatan meliputi studi tentang pemrograman simbolik,
penyelesaian masalah dan pencarian. Untuk melakukan aplikasi kecerdasan
buatan ada dua bagian utama yang sangat dibutuhkan, yaitu:
a. Knowledge Base, berisi fakta-fakta, teori, pemikiran dan hubungan
antara sat u dengan lainnya.
b. Inference Engine, yaitu kemampuan menarik kesimpulan berdasarkan
pengalaman.
Gambar 2.1 penerapan konsep kecerdasan buatan di komputer.
2.2.2 Kecerdasan Buatan dan Kecerdasan Alami Jika dibandingkan dengan kecerdasan alami (kecerdasan yang dimiliki
oleh manusia), kecerdasan buatan memiliki beberapa keuntungan secara
komersial (Kusumadewi 2003,pp3-4) antara lain :
a. Kecerdasan buatan lebih bersifat permanen. Kecerdasan alami akan cepat
mengalami perubahan. Hal ini dimungkinkan karena sifat manusia yang
pelupa. Kecerdasan buatan tidak akan berubah sepanjang sistem komputer
dan program tidak mengubahnya.
15
b. Kecerdasan buatan lebih mudah diduplikasi dan disebarkan. mentransfer
pengetahuan manusia dari satu orang ke orang lain membutuhkan proses
yang sangat lama dan juga suatu keahlian itu tidak akan pernah dapat
dipublikasi dengan lengkap. Oleh karena itu, jika pengetahuan terletak
pada suatu sistem komputer, pengetahuan tersebut dapat disalin dari
komputer tersebut dan dapat dipindahkan dengan mudah ke komputer
yang lain.
c. Kecerdasan buatan lebih m urah dibanding dengan kecerdasan alami.
Menyediakan layanan komputer akan lebih mudah dan lebih murah
dibandingkan dengan harus mendatangkan seseorang unt uk mengerjakan
sejumlah pekerjaan dalam jangka wakt u yang sangat lama.
d. Kecerdasan buatan bersifat konsisten. Hal ini disebabkan karena
kecerdasan buatan adalah bagian dari teknologi komputer. Sedangkan
kecerdasan alami akan senantiasa berubah-ubah.
e. Kecerdasan buatan dapat didokumentasi. Keputusan yang dibuat oleh
komputer dapat didokumentasi dengan mudah dengan cara melacak setiap
aktivitas dari sistem tersebut. Kecerdasan alami sangat sulit untuk
direproduksi.
f. Kecerdasan buatan dapat mengerjakan pekerjaan lebih baik dibanding
dengan kecerdasan alami.
Sedangkan keuntungan dari kecerdasan alami adalah :
a. Kreatif. Kemampuan unt uk menambah ataupun memenuhi pengetahuan
itu sangat melekat pada jiwa manusia. Pada kecerdasan buatan, untuk
menambah pengetahuan harus dilakukan melalui sistem yang dibangun.
16
b. Kecerdasan alami memungkinkan orang untuk menggunakan pengalaman
secara langsung. Sedangkan pada kecerdasan buatan harus bekerja dengan
input-input sim bolik.
c. Pemikiran manusia dapat digunakan secara luas, sedangkan kecerdasan
buatan sangat terbatas.
2.2.3 Komputasi Kecerdasan Buatan dan Komputasi Konvensional
Seperti telah dikatakan sebelumnya, bahwa pada awal diciptakannya,
komputer hanya diperuntukkan sebagai alat hitung (komputasi konvensional).
Untuk it u ada beberapa perbedaan antara komputasi yang dilakukan pada
kecerdasan buatan dengan komputasi konvensional tersebut.
Tabel 2.1 Perbandingan kecerdasan buatan dan pemrograman konvensional
Dimensi Kecerdasan Buatan Pemrograman
Konvensional
Pemrosesan Mengandung konsep-
konsep simbolik
Algoritmik
Sifat Input Bisa tidak lengkap Harus lengkap
Pencarian Kebanyakan bersifat
heuristik
Biasanya didasarkan
pada algoritma
Keterangan Disediakan Biasanya tidak
disediakan
Fokus Pengetahuan Data dan informasi
Struktur Kontrol dipisahkan dari
pengetahuan
Kontrol terintegrasi
dengan informasi atau
data
Sifat output Kuantitatif Kualitatif
Pemeliharaan dan
update
Relatif mudah Sulit
Kemampuan Ya tidak
17
menalar
2.2.4 Lingkup kecerdasan buatan pada aplikasi komersial
Makin pesatnya perkembangan teknologi menyebabkan adanya
perkembangan dan perluasan lingkup yang membutuhkan kehadiran
kecerdasan buatan. Karakteristik ‘cerdas’ sudah mulai dibutuhkan di berbagai
disiplin ilmu dan teknologi. Kecerdasan buatan tidak hanya dominan dibidang
ilmu komputer atau informatika, namun juga sudah merambah di berbagai
disiplin ilmu yang lain. Irisan antara psikologi dan kecerdasan buatan
melahirkan sebuah area yang dikenal dengan nama cognition and
psycolinguistics. Irisan antara teknik elektro dengan kecerdasan buatan
melahirkan berbagai ilmu seperti pengolahan citra, teori kendali, pengenalan
pola dan robotika.
Dewasa ini, kecerdasan buatan juga memberikan kontribusi yang cukup
besar dibidang manajemen. Adanya sistem pendukung keputusan, dan sistem
informasi manajemen juga tidak terlepas dari kecerdasan buatan. Adanya
irisan penggunaan kecerdasan buatan di berbagai disiplin ilm u tersebut
menyebabkan cukup rumitnya untuk mengklasifikasikan kecerdasan buatan
menurut disiplin ilmu yang menggunakannya. Unt uk memudahkan hal
tersebut, maka pengklasifikasian lingkup kecerdasan buatan didasarkan pada
output yang diberikan yaitu pada aplikasi komersial meskipun sebenarnya
kecerdasan buatan itu sendiri bukan merupakan medan komersial.
Lingkup utama dalam kecerdasan buatan adalah :
1. Sistem Pakar (Expert System ). Disini komputer digunakan sebagai sarana
untuk menyimpan pengetahuan para pakar. Dengan demikian komputer
akan memiliki keahlian untuk menyelesaikan permasalahan dengan
meniru keahlian yang dimiliki oleh pakar.
18
2. Pengolahan Bahasa Alami (Natural Language Processing). Dengan
pengolahan bahasa alami ini diharapkan user dapat berkomunikasi
dengan komputer dengan menggunakan bahasa sehari-hari.
3. Pengenalan Ucapan (Speech Recognition). Melalui pengenalan ucapan
diharpkan manusia dapat berkomunikasi dengan komputer dengan
menggunakan sarana suara.
4. Robotika dan Sistem Sensor (Robotics and Sensory System ).
5. Computer Vision. Mencoba untuk dapat menginterpretasikan gambar atau
objek-objek tampak melalui komputer.
6. Intelligent Computer-aided Instruction. Komputer dapat digunakan
sebagai tutor yang dapat melatih dan mengajar.
7. Game Playing.
Beberapa karakteristik yang ada pada sistem yang menggunakan Artificial
Intelligence adalah pemrogramannya yang cenderung bersifat sim bolik
ketimbang algoritmik, bisa mengakomodasi input yang tidak lengkap, bisa
melakukan inferensi dan adanya pemisahan antara kontrol dengan
pengetahuan.
Namun, seiring dengan perkembangan teknologi, muncul beberapa
teknologi yang juga bertujuan unt uk membuat agar komputer menjadi cerdas
sehingga dapat menirukan kerja manusia sehari-hari.
Teknologi ini juga mampu mengakomodasi adanya ketidakpastian dan
ketidaktepatan data input. Dengan didasari pada teori himpunan, maka pada
tahun 1965 muncul Logika Fuzzy. Kem udian pada tahun 1975 John Holland
mengatakan bahwa setiap masalah berbentuk adaptasi (alami maupun buatan)
19
secara umum dapat diform ulasikan dalam terminologi genetika. Algoritma
genetika ini merupakan sim ulasi proses evolusi Darwin dan operasi genetika
atas kromosom.
2.2.5 Soft Computing
Soft computing (Kusumadewi 2003,pp7-9) adalah koleksi dari beberapa
metodologi yang bertujuan unt uk mengeksploitasi adanya toleransi terhadap
ketidaktepatan, ketidakpastian dan kebenaran parsial untuk dapat diselesaikan
dengan mudah, robustness dan biaya penyelesaiannya m urah.
Soft computing merupakan inovasi baru dalam membangun sistem cerdas.
Sistem cerdas merupakan sistem yang memiliki keahlian seperti manusia pada
domain tertentu, mampu beradaptasi dan belajar agar dapat bekerja lebih baik
jika terjadi perubahan lingkungan.
Unsur-unsur pokok dalam Soft Computing, adalah:
1. Fuzzy System (mengakomodasi ketidaktepatan).
2. Neural Network (menggunakan pembelajaran).
3. Probabilistic Reasoning (mengakomodasi ketidakpastian).
4. Evolutionary Computing (optimasi).
Keempat unsur tersebut bukan merupakan pesaing antara satu dengan
lainnya, namun diantaranya bisa saling melengkapi. Bahkan, pada kenyataan
biasanya unsur-unsur pokok tersebut akan digunakan secara sinergis
ketimbang dikerjakan secara sendiri-sendiri sehingga soft computing ini
merupakan hubungan antara logika fuzzy, neuro-computing, probabilistic
reasoning dan algoritma genetik.
20
Tabel 2.2 Soft Computing.
Pembela
jaran
Ekstraksi
Pengetah
uan
O perasi real-time
Representasi
Pengetahuan
O ptim
asi
Fuzzy/Pro
babilistic
reasoning
Tidak Ya Ya Simbolik/num
erik
Tidak
Neural
Network
Ya Tidak Ya Numerik Tidak
Evolusion
er System
Ya Tidak Tidak Numerik Ya
AI
convensio
nal system
Tidak Ya Tidak Simbolik/num
erik
Tidak
Karakteristik Soft Computing:
a. Soft Computing memerlukan keahlian manusia, apabila direpresentasikan
dalam bentuk at uran (IF-THEN).
b. Model komputasinya diilhami oleh proses biologis.
c. Soft Computing merupakan teknik optimasu baru.
d. Soft Computing menggunakan komputasi numeris.
e. Soft Computing memiliki toleransi kegagalan (meskipun kualitasnya
berangsur-angsur memburuk).
2.2.6 Pendekatan Masalah
Sistem yang menggunakan kecerdasan buatan akan mencoba unt uk
memberikan output berupa solusi dari suat u masalah berdasarkan kumpulan
pengetahuan yang ada. Pada sistem harus dilengkapi dengan sekumpulan
pengetahuan yang ada pada basis pengetahuan. Sistem harus memiliki
21
inference engine agar mampu mengambil kesimpulan berdasarkan fakta
atau pengetahuan. Output yang diberikan berupa solusi masalah sebagai hasi
dari inferensi. Secara um um, untuk membangun suatu sistem yang mampu
menyelesaikan masalah, perlu dipertimbangkan empat hal, yait u :
1. Mendefinisikan masalah dengan tepat, mencakup spesifikasi yang tepat
mengenai keadaan awal dan solusi yang diharapkan.
2. Menganalisis masalah dan mencari beberapa teknik penyelesaian masalah
yang sesuai.
3. Merepresentasikan pengetahuan yang perlu untuk menyelesaikan masalah
tersebut.
4. Memilih teknik penyelesaian masalah yang terbaik.
2.2.7 Metode Pencarian dan Pelacakan Hal terpenting dalam menentukan keberhasilan sistem berdasar
kecerdasan adalah kesuksesan dalam pencarian dan pencocokan. Pada
dasarnya ada dua teknik pencarian dan pelacakan yang digunakan, yaitu
pencarian buta (blind search) dan pencarian terbimbing (heuristic search).
1. Pencarian Buta (Blind Search)
A. Pencariam melebar pertama (Breadth-First Search)
Pada metode Breadth-First Search, semua node pada level n akan
dikunjungi terlebih dahulu sebelum mengunjungi node-node pada
level n+1. Pencarian dimulai dari node akar terus ke level ke-1 dari
kiri ke kanan, kemudian berpindah ke level berikutnya demikian pula
dari kiri ke kanan hingga ditemukan solusinya.
22
Gambar 2.2 Breadth-First Search
Keuntungan
1. Tidak akan ditemui jalan buntu.
2. Jika ada sat u solusi, maka Breadth-First Search akan
menemukannya dan jika ada lebih dari sat u solusi, maka solusi
minimum akan ditemukan.
Kelemahan
1. Membut uhkan memori yang cukup banyak, karena menyimpan
semua node dalam sat u pohon.
2. Membut uhkan waktu yang cukup lama, karena akan menguji n-
level untuk mendapatkan solusi pada level ke-(n+1).
2.2.8 Data mining
Data mining (Jiang 1997,p3) adalah aplikasi dari algoritma unt uk
mengekstraksi data yang valid, bermanfaat atau informasi yang sebelumnya
tidak diketahui dan akhirnya dipahami dari sebuah database yang besar.
Informasi yang diekstrak dapat digunakan unt uk membent uk model prediksi
atau klasifikasi, mengidentifikasi hubungan antara catatan database, atau
memberikan ringkasan informasi database.
23
2.2.9 Kerja Data Mining
Terdapat dua bent uk hasil di dalam data mining yaitu prediksi dan
deskripsi. Prediksi digunakan unt uk mengetahui field dalam database untuk
memprediksi nilai yang tidak diketahui oleh field yang lainnya. Deskripsi
menentukan pola pemahanan manusia yang menjelaskan data. Berikut proses
kerja data mining yang digunakan unt uk mendapatkan hasil:
1. Classification mengelompokan data item kedalam 1 dari beberapa class
yang digunakan.
2. Regression adalah mempelajari fungsi berupa pengabungan data item
menjadi nilai real pada variable prediksi.
3. Clustering mengidentifikasi sebuah himpunan yang bernilai pada kategori
untuk mengam barkan data.
4. Summarization metode penyelesaian untuk menemukan deskripsi yang
tersusun untuk subset data.
2.2.10 Singular Value Decomposition
Singular Value Decomposition (Jiang 1997,p3) digunakan unt uk
perkiraan nilai term-document dengan hanya menggunakan nilai-nilai k-
terbesar t unggal dan vektor tunggal yang sesuai. Ruang vektor k-dimensi
konseptual dibangun dari vektor tunggal, sehingga setiap term atau
document dapat direpresentasikan sebagai titik dalam ruang.
Bent uk persamaan Singular Value Decomposition
A = USVT (2.1)
Keterangan:
U adalah matriks yang kolom-kolomnya berupa vektor eigen dari matriks
AAT. Ini disebut The left eigenvectors.
S adalah matriks diagonal dengan element berupa nilai-nilai singular dari A,
dan nilai elemen-elemen non-diagonal ialah 0.
V adalah bentuk matriks yang kolom-kolomnya berupa vektor eigen dari
matriks ATA. Ini disebut The right eigenvectors. VT adalah transpose dari V.
24
2.2.11 Latent Semantic Indexing
Latent Semantic Indexing (Jiang 1997,p11-12) adalah metode pencarian
informasi yang efisien untuk dokumen tekstual dengan menentukan Singular
Value Decomposition terbesar melalui matriks dari terms-by-document dan
Latent Semantic Indexing dapat membangun sebuah ruang model perkiraan
vektor yang mewakili hubungan asosiatif penting antara persyaratan dan
dokumen yang tidak jelas dalam dokumen individu.
Proses LSI dilakukan dengan persamaan berikut
AT = (USVT)T = VSUT (2.2)
ATUS-1 = VSUTUS-1 (2.3)
V = ATUS-1 (2.4)
d = dTUS-1 (2.5)
q = qTUS-1 (2.6)
d = dTUkSk-1 (2.7)
q = qTUkSk-1 (2.8)
sim(q, d) = sim(qTUkSk-1, dTUkSk
-1) (2.9)
Keterangan:
A adalah hasil dari proses Singular Value Decomposition.
AT adalah bent uk A yang transpose.
d adalah dokumen dari bentuk matriks kategori.
q adalah query/kata untuk mencari informasi yang dalam.
k adalah reduksi dimensi.
sim adalah pencarian nilai kemiripan.
25
2.2.12 Keuntungan dan Kerugian menggunakan Latent Semantic Indexing
Keuntungan dengan memakai Latent Semantic Indexing menurut Rosario
(2000,pp6-9):
1. Dimensi sebenarnya
Angapan dalam Latent Semantic Indexing adalah bentuk dimensi
baru dengan representasi yang baik dari dokumen dan query. Metafora
yang mendasari “latent” ialah dimensi-dimensi baru berupa representasi
yang benar. Representasi yang benar diproses secara generasi unt uk
mengungkap dimensi tertentu dari satu bentuk kata dalam beberapa
dokumen dan bentuk kata yang lain dari dokumen yang lain juga. Latent
Semantic Indexing menganalisis struktur semantic terhadap kolom kosong
dan dimensi aslinya.
2. Sinonim
Sinonim menjelaskan untuk pernyataan terhadap penjelasan konsep
yang sama untuk bisa dijelaskan kegunaan dari term-term yang berbeda.
Penggunaan strategi pengambilan tradisional memiliki masalah unt uk
menemukan dokumen dari topic yang sama dengan mengunakan kamus
kata berbeda. Dalam Latent Semantic Indexing, konsep dalam pertanyaan
sama-sama baik unt uk setiap dokumen yang diwakili oleh kombinasi kata
yang sama besarnya untuk dikom binasikan dengan variabel index.
3. Polysemy
Polysemy menjelaskan kata yang memiliki arti yang sama dimana
memiliki bahasa yang umum. Nomor yang besar terhadap kata
polysemous dalam query bisa mengurangi ketelitian terhadap pencarian
yang singnifikan. Dengan mengurangi representasi dalam Latent
Semantic Indexing, sat u harapan untuk membuang berupa “noise” dari
26
data, dimana bisa menjelaskan kelangkaan dan keterbatasan pengunaan
yang penting terhadap beberapa term-term.
4. Ketergantungan term
Model tradisional ruang vektor menjelaskan kebebasan term dan
penentuan term sebagai vektor-vektor berbasis orthogonal dari ruang
vektor. Karena ada hubungan kuat antara bahasa dalam term, asumsi ini
tidak dapat digunakan. Selama menjelaskan kebebasan term dengan
pendekatan first-order yang benar, it u harusnya bisa digunakan unt uk
peningkatan kinerja dengan menggunakan asosiasi istilah dalam proses
pengambilan. Penam bahan frasa um um sebagai pencarian item-item
adalah aplikasi yang sederhana dalam pendekatan ini. Dalam hal yang
lain, faktor Latent Semantic Indexing adalah penjelasan dari orthogonal,
dan term-term diletakan dalam ruang kecil yang mencerminkan korelasi
dalam penggunaan disetiap dokumen. Hal ini menyusahkan unt uk
mengambil keunt ungan dari asosiasi term tanpa meningkatkan tingkat
komputasi secara dramatis. Solusi Latent Semantic Indexing adalah
kesulitan unt uk memproses banyak koleksi, hanya dibutuhkan unt uk
memproses sat u dari koleksi yang masuk dan waktu pengambilan tidak
terpengaruh.
Kerugian menggunakan Latent Semantic Indexing:
1. Kapasitas Seseorang dapat langsung berargumentasi bahwa pemrosesan
Singular Value Decomposition merupakan proses yang kompleks. Banyak
dokumen lebih dari 150 term-term yang unik. Jika ruang representasi
vektor akan digunakan lebih unt uk pada ruang storage daripada
representasi bagian Singular Value Decomposition jika kita menurunkan
menjadi 150 dimensi. Kenyataan, kebalikannya ialah sebenarnya benar.
27
Seperti contoh, dokumen dari matriks term untuk koleksi Cranfield yang
digunakan dalam Hull’s experiments yang memiliki 90,441 non-zero
entries (setelah pemrosesan dan berhenti penghilangan kata). Pemrosesan
hanya 100 yang bisa dari 1399 vektor Latent Semantic Indexing yang
dibut uhkan 139,900 nilai unt uk satu dokumen.
Vektor term dibutuhkan dalam simpanan kira-kira 400,000
tambahan nilai. Selain itu, nilai Latent Semantic Indexing adalah bilangan
real selama frekuensi asli term berupa integers, penam bahan ke biaya
penyimpanan. Mengunakan vektor Latent Semantic Indexing, kita tidak
perlu mengambil keunt ungan dari fakta bahwa setiap kejadian term dalam
angka yang limit di dokumen, yang mana unt uk tersebar kesetiap term
oleh dokumen matriks. Dengan kemajuan terakhir dalam penyimpanan
media elektronik, kebutuhan penyimpanan dari Latent Semantic Indexing
bukan lagi masalah yang sulit, tetapi hilangnya kesebaran lainnya, dan
lebih keterlibatan serius.
2. Efisiensi Satu dari banyaknya speed-ups yang penting dalam ruang pencarian
vektor datang dari pengunaan kebalikan index. Sebagai konsekuensinya,
hanya dokumen yang memiliki beberapa term-term yang umum dengan
query yang harus diperiksa selama pencarian. Dengan Latent Semantic
Indexing, query harus dibandingkan ke setiap dokumen di dalam koleksi.
Dimana, terkadang, beberapa factor yang bisa mengurangi atau
menghapus dari halangan ini. Jika query punya lebih term-term maka
representasinya dalam ruang vektor Latent Semantic Indexing, maka nilai
produk dalam kesamaan skor akan mengambil lebih banyak wakt u unt uk
menghitung dalam ruang term.
Misalnya, jika pengem balian relevansi dilakukan menggunakan teks
yang lengkap dari dokumen yang relevan, nilai dari term dalam query
28
cenderung t umbuh menjadi berkali-kali didalam nilai dari vektor Latent
Semantic Indexing, mengarah ke peningkatan yang sesuai pada wakt u
pencarian. Selain it u, dengan menggunakan strukt ur data seperti pohon k-
d dalam hubungannya dengan Latent Semantic Indexing akan sangat
cepat dalam pencarian unt uk nearest neighbors, disediakan hanya
memesan sebagian dari dokumen yang diperlukan. Sebagian besar biaya
tambahan datang dalam tahap pra-pemrosesan ketika Singular Value
Decomposition dan pohon k-d dihitung, dan wakt u pencarian yang
sebenarnya tidak signifikan terdegradasi.
Teknik ekspansi permintaan lainnya menderita bahkan lebih berat
dari kesulitan-kesulitan yang dijelaskan di atas, dan Latent Semantic
Indexing melakukan relatif baik untuk dokumen lama karena sejumlah
kecil vektor konteks yang digunakan unt uk menggambarkan setiap
dokumen. Namun, implementasi dalam Latent Semantic Indexing
memerlukan investasi tambahan berupa penyimpanan dan wakt u
komputasi.
3. LSI dan pengolahan data normal
Objek yang lain untuk Singular Value Decomposition yaitu
semalam dengan sem ua kuadrat terkecil lainnya, Ini didesain untuk
pengolahan data, tetapi pengolahan tersebut berupa ketidaktepatan dalam
penghitungan data, dan penghitungan data terdiri dari term-document
matriks. Akhirnya, unt uk memutuskan keadaan keuntungan bentuk yang
lebih besar daripada kerugian, kita perlu melihat dalam pengambilan
kemampuan. Selama mempunyai perolehan beberapa hasil yang
menjanjikan, mereka tidak perlu menujukkan keyakinan relefan dengan
Latent Semantic Indexing merupakan unggulan untuk model ruang vektor
dasar.
29
2.2.13 Analisis Regresi
Analisis regresi adalah salah satu metode untuk menent ukan hubungan
sebab-akibat antara satu variabel dengan variabel-variabel yang lain.
Variabel "penyebab" disebut dengan bermacam-macam istilah: variabel
penjelas, variabel eksplanatorik, variabel independen, atau secara bebas,
variabel X (karena seringkali digam barkan dalam grafik sebagai absis, atau
sumbu X). Variabel terkena akibat dikenal sebagai variabel yang
dipengaruhi, variabel dependen, variabel terikat, atau variabel Y. Kedua
variabel ini dapat merupakan variabel acak (random), namun variabel yang
dipengaruhi harus selalu variabel acak.
Analisis regresi adalah salah satu analisis yang paling populer dan luas
pemakaiannya. Hampir sem ua bidang ilmu yang memerlukan analisis sebab-
akibat boleh dipastikan mengenal analisis ini.
2.2.14 Perbedaan Error dengan Residual
Residual adalah selisih antara nilai duga (predicted value) dengan nilai
pengamatan sebenarnya apabila data yang digunakan adalah data sampel.
Error adalah selisih antara nilai duga (predicted value) dengan nilai
pengamatan yang sebenarnya apabila data yang digunakan adalah data
populasi.
Predicted value adalah nilai duga yang dihasilkan dari model regresi
yang diperoleh. Persamaan dari keduanya merupakan selisih antara nilai
duga (predicted value) dengan pengamatan sebenarnya. Sementara
perbedaan keduanya ialah residual dari data sampel, error dari data populasi.
2.2.15 Asumsi Kenormalan pada Error Model Regresi Linier
Model regresi mengasumsikan bahwa error menyebar mengikuti sebaran
(distribusi) normal, dengan rata-rata nol dan simpangan baku tertentu.
30
Pertanyaannya, bagaimanakah cara menguji asumsi kenormalan dari error
model regresi. Setidaknya ada dua cara yang dapat dilakukan, yaitu dengan
menggunakan statistik uji dan dengan grafis. Sekarang dapat diskusikan
mengenai pengecekan asumsi kenormalan error model regesi dengan metode
grafis. Dalam praktek, error dari model regresi tidak dapat (atau sangat sulit)
diketahui. Sebagai gantinya, maka dapat menguji asumsi kenormalan error
model regresi dengan menggunakan nilai residual.
Terdapat beberapa alat yang bisa digunakan untuk memeriksa apakah
residual menyebar normal atau tidak, misalnya dengan histogram, QQ-plot,
dll. Disini hanya akan dibahas pemeriksaan kenormalan residual dengan
histogram dan QQ-plot. Sedangkan data yang digunakan adalah data
simulasi yang dibangkitkan (generated) dengan menggunakan soft ware R.
Dalam kasus ini dibangkitkan data yang menyebar Normal dengan rata-
rata nol dan simpangan baku 1. Pem baca boleh membangkitkan sembarang
data yang menyebar normal, asalkan memiliki rata-rata nol.
1. Menggunakan Histogram
Apabila residual mengikuti sebaran normal, maka bentuk histogram
akan simetris/mendekati simetris (seimbang), dimana sebagian besar data
akan terpusat ditengah-tengah histogram. Hal ini ditunjukkan dengan
nilai-nilai frekuensi yang besar berada di tengah-tengah histogram.
Perhatikan bahwa histogram terpusat di sekitar titik 0, yang menunjukkan
bahwa residual memiliki rata-rata nol.
2. Menggunakan QQ-Plot (Quantile-Quantile Plot)
QQ plot akan membent uk plot antara nilai-nilai quantil teoritis
(sumbu x) melawan nilai-nilai quantil yang didapat dari sampel (sum bu
31
y). Apabila plot dari keduanya berbent uk linier (dapat didekati oleh garis
lurus), maka hal ini merupakan indikasi bahwa residual menyebar normal.
Pada gambar di bawah ini, plot dari keduanya berbentuk linier sehingga
dapat didekati oleh garis lurus warna biru. Dengan demikian dapat
dikatakan bahwa residual menyebar normal.
Seringkali ditemui bahwa ujung-ujung plot pada QQ-plot agak
menyimpang dari garis lurus. Pem baca janganlah merasa bahwa hal
tersebut adalah hal serius. Bila pola-pola titik yang terletak selain di
ujung-ujung plot masih berbentuk linier, meskipun ujung-ujung plot agak
menyimpang dari garis lurus, kita dapat mengatakan bahwa sebaran data
(residual) adalah menyebar normal.
2.2.16 Analisis Regresi dengan Variabel Dummy
Regresi Linier tidak hanya terbatas digunakan untuk memodelkan
hubungan dimana variabel bebas (X) bertipe data interval atau rasio saja.
Regresi linier juga memungkinkan bila digunakan untuk melakukan analisis
data bila variabel bebasnya (X) bertipe data nominal. Teknik semacam ini
dikenal dengan nama regresi variabel dummy.