A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen...

Post on 20-Dec-2015

220 views 2 download

Transcript of A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Introduction to Search Engines Thanks to Chen...

A. Frank-T.Sharon1

Internet Resources Discovery (IRD)

Introduction to

Search Engines

Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

A. Frank-T.Sharon2

Contents

Searchמבוא למנועי חיפוש )•Engines)

מבוא לסוגי מנועי חיפוש • מבוא לאיחזור מידע •

(Information Retrieval)

A. Frank-T.Sharon3

When to start Searching!?

A. Frank-T.Sharon4

Why Search Engines?

מנוע חיפוש הוא משאב קריטי המאפשר חיפוש מידע •ברשת. עם כמות המידע באינטרנט קשה לתארו ללא

מנועי חיפוש.מכיוון שהמידע באינטרנט הוא דיגיטאלי יש יותר יכולת •

לחפש בו מאשר מה שאפשרי בחיפוש בספריה רגילה.בספריה, כשרוצים לחפש ספר, מקישים במסוף צרוף •

מילים ומוצאים את הספר ע"פ מחבר או שם הספר. מנועי חיפוש באינטרנט שונים בכך שהם מאפשרים

לחפש גם בתוכן דפי האינטרנט ובכותרות של דפים, דבר אשר הופך אותם לכלי בעל עוצמה חזקה יותר.

כמו כן הם לרוב מחפשים בכל האינטרנט - זה כמו •חיפוש ספר בכל הספריות שקיימות בעולם.

A. Frank-T.Sharon5

Search Literacy

להיות מיומן בשימוש במנועי חיפוש זהו •המפתח למציאת מידע באינטרנט.

לעיתים משתמשים "ננעלים" על מנוע חיפוש •הנוח להם ומשתמשים רק בו, לא פלא שאנו עדיין שומעים את המשפט הידוע "אי אפשר

למצוא כלום ברשת"! החוכמה היא לשלב בצורה מושכלת בין מנועי •

החיפוש.( ניתן למצוא את כל המידע שתרצו )או לא •

באינטרנט - החוכמה היא לדעת לחפש.

A. Frank-T.Sharon6

Basic Web Search Engines

( -Information Searchאחזור מידע )•.סיפוק שירותי חיפוש דרך מנשק חיפוש

( -Information Gatheringאיסוף מידע )• אינדוקס משאבי רשת – בעיקר דפי

Web.מנועי חיפוש בסיסיים משתמשים לרוב •

למיניהם: ברובוטים/זוחליםrobots, crawlers, spiders, wanderers, ants

A. Frank-T.Sharon7

Anatomy of a Web Search Engine

מנועי חיפוש בסיסיים מורכבים מארבעה •מרכיבים עיקריים:

האתר אליו נכנסים ובו מקישים את 1.השאילתא.

מסד הנתונים של מידע-על בו נערך 2.החיפוש הראשוני.

כלי התוכנה שבה משתמשים כדי לבצע את 3.החיפוש.

רשימת התוצאות המוחזרת אל המשתמש.4.המונח “מנוע חיפוש” משמש לרוב לציון •

כל ארבעת המרכיבים האלו ביחד.

A. Frank-T.Sharon8

Basic Web Search Engine

database

RetrievalGathering

WWW

Administrator Users

Search Engine

Search Engine

A. Frank-T.Sharon9

Crawlers Collecting Metadata

אינטרנט

Metadata

Metadata

חיפוש מנועי

Metadataעל מידע

Metadataעל מידע

Metadataעל מידע

Metadata -על מידע

A. Frank-T.Sharon10

אינטרנט

SE Basic Data Structure: Inverted File

חיפוש מנוע

מפתח 1מילת

מפתח 2מילת

מפתח 3מילת

A. Frank-T.Sharon11

Search is done on Local SE Repository

Search Engine

מפתח 1מילת

מפתח 2מילת

מפתח 3מילת

URL1URL2

...

URL3

URL1URL4

מפתח מילות חפש

רשימת החזרכתובות

משתמשים

A. Frank-T.Sharon12

There are many search engines

A. Frank-T.Sharon13

Common Types of Search Engines

• Basic Search Engines/Index – assembled by software -- automated "spiders" or softbots.

• Directory/Guide– Hierarchical list of subject categories -- assembled by

people (“humanly-compiled”).

• Meta-Search Engines– Uses several basic search engines in parallel.

• Special(ty) Search Engines/Tools– Dedicated to a focused domain/community/media.

• Popularity Search Engines– Use popularity link/usage analysis.

Portals - Almost all, lately?!

There are also combinations of the above!

A. Frank-T.Sharon14

Examples of Search Engines

• Basic Search Engines– Webcrawler, AltaVista,

• Directory/Guide– Yahoo, Looksmart

• Meta-Search Engines– Hotbot, Metacrawler

• Special(ty) Search Engines/Tools– Usenet, Whowhere

• Popularity Search Engines– Google, DirectHit

Portals – Yahoo, MSN

A. Frank-T.Sharon15

Basic/Popular Search Engines

• Fast: www.alltheweb.com

• Google: www.google.com

• AltaVista: www.altavista.com

• Northern Light: www.nlsearch.com

• Webcrawler: www.webcrawler.com

A. Frank-T.Sharon16

Directories

• Yahoo dir.yahoo.com

• DirectHit: www.directhit.com

• Looksmart www.looksmart.com

A. Frank-T.Sharon17

Meta-Search Engines

• Metacrawler: www.metacrawler.com

• HotBot: hotbot.lycos.com

• AskJeeves:  www.askjeeves.com

• DogPile: www.dogpile.com

A. Frank-T.Sharon18

Special(ty) Search Engines/Tools

• People - http://www.whowhere.com

• Newsgroups - http://groups.google.com/

• International Index for Search Engines - http://www.searchenginecolossus.com

• Educational Study Guide - http://www.studyweb.com

• Geneology - http://www.familysearch.org

A. Frank-T.Sharon19

Contributions to a SE database

עכבישים/רובוטים - בעצם תוכנות•אינדוקס.

( על ידי URLs)שליחת/הכנסת מענים •אתרים.-משתמשים/בעלי

הכנסה ע"י צוותי העובדים במנועי •החיפוש.

A. Frank-T.Sharon20

Maintenance of Search Engines

זמינות/יעילות מנועי חיפוש תלויים באחזקה שלהם.•

מנועים אלו רצים על מחשבים חזקים ולעיתים רבות •מורכבים ממספר מחשבים הפועלים בו-זמנית, כך

שניתן "לכבות" אחד מהמנועים ע"מ לבצע אחזקה והמשתמש לא ירגיש דבר.

הוא לא מנוע יחיד. כאשר yahoo לדוגמא: • http://www.yahoo.comהמשתמש מגיע לאתר

הוא מגיע לאחד ממחשבים רבים וכאשר הוא מבצע ) הוא אוטומטית עובר למחשב אחר. refreshרענון (

A. Frank-T.Sharon21

Query Types

• Natural Language

• Logical/Boolean– (a OR b) AND c

• Statistical– list of keywords

– perform statistical formulation to guess how much a document fits the query.

A. Frank-T.Sharon22

Query Keywords Analysis

• Morphological analysis (dog, dogs)

• Stemming (identifying stem/root)

• Stop words removal (of, the) http://searchenginewatch.com/facts/article.php/2156061

Used both for Boolean and Statistical queries!

A. Frank-T.Sharon23

The Process of Searching - Retrieval

User need

User request(verbalized)

Query toSE

Results

A. Frank-T.Sharon24

The Process of Searching – Retrieval Problems

User need

User request(verbalized)

Query toSE

Results

Translationproblems

PolysemySynonymy

Problems

A. Frank-T.Sharon25

Retrieval Example – Why don’t the users get what they want?

User need

User request(verbalized)

Query toSE

Results

Translationproblems

PolysemySynonymy

ExampleI need to get rid of

mice in the basementWhat’s the best way to trap mice alive?

Mouse trap

Computer suppliessoftware, etc

Problems

A. Frank-T.Sharon26

AltaVista Output: mouse trap

A. Frank-T.Sharon27

AltaVista Output: mice trap

A. Frank-T.Sharon28

Another Problem: Quality

A. Frank-T.Sharon29

Information Retrieval Measures

בהינתן שאילתא, איך מעריכים את איכות • מדדים 2(? יש Retrieval Quality)האחזור בסיסיים:

( – מדד למספר המסמכים Recallהחזר )1.הרלוונטיים שהוחזרו מתוך כלל המסמכים

הרלוונטיים הקיימים.( – מדד למספר המסמכים Precisionדיוק )2.

שהם רלוונטיים. שהוחזרו

A. Frank-T.Sharon30

Information Retrieval Measures

Recall = RR/Relevant

החזר = כל המסמכים הרלוונטיים

שהוחזרו / כל המסמכים הרלוונטיים הקיימים.

Precision = RR/Returned

דיוק = כל המסמכים הרלוונטיים שהוחזרו

/ כל המסמכים שהוחזרו.

Retrieved(Ret)

Resources

RR

RelevantReturned

A. Frank-T.Sharon31

Example: Recall and Precision in Random Case

דפים.10,000גודל המאגר - • דפים.200מספר הדפים הרלוונטיים - •.100מספר הדפים שהוחזרו - • 50מספר הדפים הרלוונטיים שהוחזרו - •

דפים.

0.25 = 50/200החזר -

0.5 = 50/100 דיוק -

A. Frank-T.Sharon32

Recall and Precision when Retrieving all Documents

דפים.10,000גודל המאגר - •

דפים.200מספר הדפים הרלוונטיים - •

.10,000מספר הדפים שהוחזרו - •

200מספר הדפים הרלוונטיים שהוחזר - •

1 = 200/200 -החזר

0.02 = 200/10,000- דיוק

A. Frank-T.Sharon33

Precision and Recall Tradeoff

דיוק

החזר0

1

1

Randomcase

Retrieve alldocuments

Repository 10,000 10,000

Relevant 200 200

Returned 100 10,000

RR 50 200

Recall 0.25 1

Precision 0.5 0.02

A. Frank-T.Sharon34

SE Comparison Parameters

• Database size and coverage• Specialty searches (directory, shopping, news,

images, papers, etc.)• User interface• Searching options (+,-,NEAR, and/or, etc.)• Ranking quality• Personalization options:

– Save search– Portal content– Email services– Toolbars

• Others (paid placements, etc.)