Search Engines Process •User interaction –mendukung penciptaan dan perbaikan query, menampilkan...

Search Engines

Information Retrieval in Practice

All slides ©Addison Wesley, 2008

Search Engine Architecture

• Arsitektur dari mesin pencari ditentukan oleh2 persyaratan

– efektivitas (kualitas hasil)

– efisiensi (waktu respon dan throughput)

Indexing Process

Indexing Process

• Text acquisition

– mengidentifikasi dan menyimpan dokumen untukmengindeks

• Text transformation

– mengubah dokumen ke dalam istilah indeks atau fitur

• Index creation

– mengambil istilah indeks dan menciptakan strukturdata (indeks) untuk mendukung pencarian cepat

Query Process

Query Process

• User interaction– mendukung penciptaan dan perbaikan query,

menampilkan hasil

• Ranking– menggunakan query dan indeks untuk

menghasilkan daftar peringkat dokumen

• Evaluation– memonitor dan mengukur efektivitas dan efisiensi

(terutama offline)

Details: Text Acquisition

• Crawler

– Mengidentifikasi dan memperoleh dokumen

– Web crawler mengikuti link untuk menemukandokumen

– Efisien harus menemukan sejumlah besarhalaman web (coverage) dan menjaga mereka up-to-date (kesegaran)

Text Acquisition

• Conversion

– Mengkonversi berbagai dokumen ke dalam teksyang konsisten ditambah Format metadata

• misalnya HTML, XML, Word, PDF, dll → XML

– Mengkonversi pengkodean teks untuk bahasayang berbeda

• Menggunakan standar Unicode seperti UTF-8

Text Acquisition

• Menyimpan data Dokumen

– Stores teks, metadata, dan konten terkait lainnyauntuk dokumen

• Metadata adalah informasi tentang dokumen sepertitipe dan tanggal pembuatan

• Konten lain termasuk link, anchor text

– Bisa menggunakan sistem database relasional

Text Transformation• Parser

– Pengolahan urutan token teks dalam dokumenuntuk mengenali elemen struktur

– Tokenizer mengakui "kata" dalam teks• harus mempertimbangkan isu-isu seperti kapitalisasi,

tanda hubung, apostrof, karakter non-alpha, pemisah

– Bahasa markup seperti HTML, XML seringdigunakan untuk menentukan struktur• Tag digunakan untuk menentukan elemen dokumen

– Misalnya, <h2> Ikhtisar </ h2>

• Dokumen parser menggunakan sintaks bahasa markup (atau format lainnya) untuk mengidentifikasi struktur

Text Transformation

• Stopping

– Hapus kata-kata umum

• misalnya, "dan", "atau", "yang", "di“

• Stemming

– Kata kelompok berasal dari batang umum

• e.g., “computer”, “computers”, “computing”, “compute”

Text Transformation

• Link Analysis

– Memanfaatkan link dan anchor teks dalamhalaman web

– Anchor teks secara signifikan dapat meningkatkanrepresentasi halaman ditunjukkan oleh link

Text Transformation

• Information Extraction– Identifikasi kelas istilah indeks yang penting untuk

beberapa aplikasi

– misalnya, recognizers bernama entitasmengidentifikasi kelas seperti orang, lokasi, perusahaan, tanggal, dll

• Classifier– Mengidentifikasi metadata kelas terkait untuk

dokumen• yaitu, memberikan label ke dokumen

• mis., topik, tingkat membaca, sentimen

Index Creation

• Document Statistics

– Mengumpulkan jumlah dan posisi kata-kata dan fitur lainnya

– Digunakan dalam algoritma peringkat

• Weighting

– Menghitung bobot untuk istilah indeks

– Digunakan dalam algoritma peringkat

Index Creation

• Inversion

– Inti dari proses pengindeksan

– Mengubah informasi dokumen panjang untukistilah-dokumen untuk mengindeks

• Sulit untuk jumlah yang sangat besar dokumen

Index Creation

• Index Distribution

– Salurkan indeks di beberapa komputer dan / ataubeberapa situs

– Penting untuk pemrosesan query cepat dengansejumlah besar dokumen

User Interaction

• Query input

– Menyediakan antarmuka dan parser untuk bahasaquery

– Kebanyakan query web sangat sederhana, aplikasilain dapat menggunakan form

– Bahasa query yang digunakan untukmenggambarkan pertanyaan lebih kompleks

User Interaction

• Query transformation

– Spell checking dan saran permintaan memberikanalternatif untuk query

– Ekspansi permintaan dan umpan balik relevansimemodifikasi query asli

User Interaction

• Results output

– Membangun tampilan dokumen peringkat untukquery

– Highlight kata-kata penting

– Mengambil iklan yang sesuai dalam berbagaiaplikasi

Ranking

• Scoring

– Menghitung skor untuk dokumen menggunakanalgoritma peringkat

– Komponen inti dari search engine

Ranking

• Performance optimization

– Merancang algoritma peringkat untuk proses yang efisien

• Distribution

– Pengolahan Query dalam lingkungan terdistribusi

Evaluation

• Logging– Logging permintaan pengguna dan interaksi sangat

penting untuk meningkatkan efektivitas dan efisiensi pencarian

– Query logs dan data klik per tayang yang digunakanuntuk saran query, memeriksa ejaan, query caching, peringkat, pencarian iklan, dan komponen lainnya

• Ranking analysis– Mengukur efektivitas dan tuning peringkat

• Performance analysis– Mengukur dan efisiensi sistem tuning

Search Engines Process •User interaction –mendukung penciptaan dan perbaikan query, menampilkan...

Documents

Transcript of Search Engines Process •User interaction –mendukung penciptaan dan perbaikan query, menampilkan...