網路搜尋引擎的發展 與其重要性

34
網網網網網網網網網 網網網網網網網網網 網網網網網 網網網網網 資資B87705004 資資資

description

網路搜尋引擎的發展 與其重要性. 資管一 B87705004 駱怡榮. 研究動機. Internet 旋風 WWW 的新興 莊老師指示 上天的旨意要我抽到. 名詞解釋. 搜尋引擎( search engine) 網路指南( directories) 混血兒( hybrids). 又稱「蜘蛛」( spider )、「 爬行類」( crawler ) 養小蟲( worm ), 可以自動偵查網站 優點:提供較佳的及時性 缺點:資訊提供缺乏人性 Ex: HotBot. - PowerPoint PPT Presentation

Transcript of 網路搜尋引擎的發展 與其重要性

Page 1: 網路搜尋引擎的發展                             與其重要性

網路搜尋引擎的發展網路搜尋引擎的發展 與其重要性與其重要性

資管一B87705004

駱怡榮

Page 2: 網路搜尋引擎的發展                             與其重要性

研究動機研究動機Internet旋風

WWW的新興

莊老師指示

上天的旨意要我抽到

Page 3: 網路搜尋引擎的發展                             與其重要性

名詞解釋名詞解釋搜尋引擎(search engine)

網路指南(directories)

混血兒(hybrids)

Page 4: 網路搜尋引擎的發展                             與其重要性

搜尋引擎(搜尋引擎(search enginesearch engine))

又稱「蜘蛛」( spider )、「爬行類」( crawler )

養小蟲( worm ),可以自動偵查網站優點:提供較佳的及時性缺點:資訊提供缺乏人性Ex: HotBot

Page 5: 網路搜尋引擎的發展                             與其重要性

網路指南(網路指南(directoriesdirectories))

索引內容由人工負責各大站台必須申請優點:站台簡介較詳細、分類較清楚缺點:及時性不足Ex: Yahoo!

Page 6: 網路搜尋引擎的發展                             與其重要性

混血兒(混血兒(hybridshybrids))

養小蟲( worm )、又加人工校正頻率較網路指南( directories)高優點:=“搜尋引擎的”+“網路指南的”

缺點:=“搜尋引擎的”+“網路指南的”

特點:查詢項目找不到時,並不會顯示──使用者快按上一頁吧!

Page 7: 網路搜尋引擎的發展                             與其重要性

搜尋引擎的發展搜尋引擎的發展第一期:「檔案」、「文件」搜尋

第二期:「網站」或「網頁」的找尋

第三期:綜合各大搜尋引擎

Page 8: 網路搜尋引擎的發展                             與其重要性

第一期第一期 (1)──(1)──ArchieArchie

搜尋引擎的老祖宗── Archie 1990年由蒙特婁的麥奎爾大學的學生 Alan

Emtage所發明目的:解決當時 FTP檔案清單取得之不易方法:聯合原稿架設的資料搜尋家方便性:可以不必透過 Internet,而且可以直接在螢幕上列出搜尋結果

今日的 Archie,詳見“ http://www.bunyip.com/products/archie“

更多資訊

Page 9: 網路搜尋引擎的發展                             與其重要性

第一期第一期 (2)──(2)──VeronicaVeronica

搜尋引擎的老祖母── VeronicaUniversity of Nevada System Computing

Service所發展設計原理類似 Archie搜尋 Gopher檔案 (純文字檔案 )

Page 10: 網路搜尋引擎的發展                             與其重要性

第一期第一期 (2)──(2)──JugheadJughead

較 Veronica晚問世為了完成連環漫畫三巨頭而生一樣是 Gopher搜尋裝置較 Veronica好記、功能也差不多,不過也讓大家感覺在設計上比 Veronica粗糙一點點。

Page 11: 網路搜尋引擎的發展                             與其重要性

第二期第二期 (1)──(1)──WWW WandererWWW Wanderer

搜尋引擎之母第一個非人工整理的搜尋引擎,會追蹤站台的增加或改變

最早向 URL挑戰的搜尋引擎 (雖然失敗了 )

機器代替人工的作法備受爭議

Page 12: 網路搜尋引擎的發展                             與其重要性

第二期第二期 (2)──(2)──ALIWEBALIWEB

Archie 的 http形式欲在索引清單中查到站台,必須由該網站的管理員提出申請

部分申請人的介紹不夠周全─→造成工作人員負擔─→經常退件─→資料不足

Page 13: 網路搜尋引擎的發展                             與其重要性

第二期第二期 (3)──(3)──SpiderSpider 的應用的應用網站的成長造成分類上的麻煩電腦工程師設計出一隻蜘蛛 (spider),透過原始起動的主機站台來探勘

過度的找尋造成網路負載量過大 ( 因為同一系列的網站但被不同蜘蛛抓回來 )

Ex : JumpStation 、 WWW worm 、 RBSE

更多資訊 ...

RBSE = Repository-Based Software Engineering

Page 14: 網路搜尋引擎的發展                             與其重要性

ExciteExcite

原名“ Archivetext”利用統計學的分析,以區別、整合關鍵字間的關係

剛推出時是提供給網站管理員使用,更名為 Excite 後才開始架構在伺服器上

Page 15: 網路搜尋引擎的發展                             與其重要性

Tradewave Tradewave

初名“ ElNet Galaxy”為解決笨蜘蛛造成的問題而生最早將各類網站做細部分類,以縮小使用者的搜尋範圍

還另外提供了 Gopher 和 Telnet的搜尋真正的搜尋引擎──各項資訊完全依賴人工

Page 16: 網路搜尋引擎的發展                             與其重要性

Yahoo!Yahoo!

1994年 4 月由 David Filo 和楊致遠所創起初是簡易的搜尋引擎,後來為了整理資料而轉型成網路指南 ( 約 1個月整理一次 )

成功攻佔 URL( 關鍵在於詳細的網站敘述 )

資料整理主要是靠人工,但也有養小蟲(worm),這點使 Yahoo!的定位模糊

Page 17: 網路搜尋引擎的發展                             與其重要性

WebCrawlerWebCrawler

第一個提供網頁全文的搜尋引擎大量需求造成頻寬等資源不足,後來由

AOL 買下其系統來解決問題1997年被 Excite 收購搜尋結果的完整性最讓人津津樂道諸如 Infoseek 、 Lycos、還有 OpenText早先都是其贊助者,如此也造成它們日後的蓬勃發展

Page 18: 網路搜尋引擎的發展                             與其重要性

LycosLycos

1994年 1 月由現在 Lycos 公司內首席科學家──Michael Mauldin所生

1994年 10 月與 Netscape合作進攻 URL資料庫、文件增加速度驚人Lycos的最大本錢:1. 關鍵字字首以及相似字的查詢2.最大的資料儲存站

Page 19: 網路搜尋引擎的發展                             與其重要性

InfoseekInfoseek

早期隸屬於其他公司的搜尋引擎最大特點在於 user-friendly以及額外的

服務 ( 諸如 URL追蹤、 News、還有分類指南等等 )

1995年 12 月與 Netscape 策略聯盟後才正式具有逐鹿中原的資格

Page 20: 網路搜尋引擎的發展                             與其重要性

AltaVistaAltaVista

它的傳輸、搜尋速度令前輩們望塵莫及史上第一個:1.使關鍵字的輸入可以用白話文2. 運用 Boolean operators3. 超大範圍的搜尋4. 允許使用者增減其索引中的 URL5. 具有翻譯能力

Page 21: 網路搜尋引擎的發展                             與其重要性

AltaVistaAltaVista

提供站台以連結特殊的 URL設計許多小技巧 (tip)── 此特點其他搜尋引擎廣為採納

1997年發明了 LiveTopics(一個物件導向的系統 )

關於 LiveTopics,請至http://altavista.software.digital.com/search/showcase/two/index.htm

更多資訊 ...

Page 22: 網路搜尋引擎的發展                             與其重要性

HotBotHotBot

Inktomi 公司設計,早先架構於 HotWired養了超強力蜘蛛──每天可以搜尋 1000 萬個網頁

設計了「小餅乾 (cookie)」的延伸技術來儲存個人搜尋的優先資訊

HotBot曾在 PC Computing Search Engine Challenge(搜尋引擎主角間的競賽 )中所獲評比最高

Page 23: 網路搜尋引擎的發展                             與其重要性

第三期第三期各大搜尋引擎皆有其優缺點、而且差異日

趨縮小,所以「潛在性」的因素往往是影響工作效率的主因。

第三期的搜尋引擎即是為了整合各大搜尋引擎、同時提供最佳效率所生。

此期之搜尋引擎統稱為“META engine”此期搜尋引擎特點:方便但不完備

Page 24: 網路搜尋引擎的發展                             與其重要性

第三期第三期 (1)──(1)──MetaCrawlerMetaCrawler

META engine的第一人Eric Selburg ( 華盛頓大學碩士 )所發明方法:同時跑遍各大搜尋引擎優點:將各大搜尋引擎的搜尋結果加以整合,而且輸出時提供給使用者更簡易的索引

Page 25: 網路搜尋引擎的發展                             與其重要性

第三期第三期 (2)──(2)──Savvy EngineSavvy Engine

Colorado 州立大學所創

它可以一次找完 20個搜尋引擎的資料,包括特殊開頭的指南 ( 例如 Four11 , e-mail 地址 ) 、 FTPSearch95(網路上的檔案 )、以及 DejaNews(UseNet的資料庫 )。

Page 26: 網路搜尋引擎的發展                             與其重要性

第三期第三期 (3)──(3)── 搜尋引擎軟體搜尋引擎軟體Netscape不敵 IE,因此致力於

Intranet業主為方便員工搜尋,商請各大搜尋引擎公司設計

為各大搜尋引擎公司提供另一項收入來源

缺點:資料的保密性更為曝短

Page 27: 網路搜尋引擎的發展                             與其重要性

未來展望與潛在危機未來展望與潛在危機

各大搜尋引擎對於使用者感覺不出太大的差異,造成搜尋引擎的「工具性」不彰

業主轉向提供搜尋引擎的「媒體性」搜尋引擎的「工具性」發展式微國內網路發展將受限於「盜拷」

Page 28: 網路搜尋引擎的發展                             與其重要性

更多資訊 ...

資料來源資料來源

1. http://web.mit.edu 2. http://www.mit.edu 3. http://www.mit.edu:8001/sipb/documents/ 4. Michael Maudlin, "Lycos: Design choices in an

Internet search service" 1997 5.http://www.netins.net/showcase/phdss/search/

engine/players.htm 6. http://www.searchenginewatch.com/ 7. http://gais.cs.ccu.edu.tw/cgais.html

Page 29: 網路搜尋引擎的發展                             與其重要性

附錄附錄 ?/?/1990 Archie Alan Emtage ?/?/1993 Veronica以及 Judhead ?/?/1993 Wanderer 10/?/1993 ALIWEB 中期 /1993 JumpStation 、 WWW worm以及 RBSE 12/?/1993 Excite 1/?/1994 Tradewave 4/?/1994 Yahoo! 5/?/1994 Lycos 後期 /1994 Infoseek 12/?/1995 AltaVista 5/20/1996 HotBot

Page 30: 網路搜尋引擎的發展                             與其重要性

備註備註 (1)(1)

原欲取名為“ Archive”,但為了符合Unix 系統不得不更名

當初的 FTP:因為重要檔案侷限在少數FTP 伺服器,而且大多數的資料儲存站名稱與 Internet 同名,所以造成混亂。不少人發 E-mail、或是進入討論室(discussing forum),用以宣布檔案取得之合法性。

Page 31: 網路搜尋引擎的發展                             與其重要性

備註備註 (2)(2)

Veronica=Very Easy Rodent-Oriented Netwide Index to Computerized Archives

Jughead=Jonzy's Universal Gopher Hierarchy Excavation and Display

Page 32: 網路搜尋引擎的發展                             與其重要性

備註備註 (3)(3)

JumpStation搜集的是關於 title 和 header的資訊。它會把搜尋結果取回系統站台。使用者查詢時,這套系統會直接尋找資料庫、再找符合關鍵字的地方

WWW Worm則是列出 title的清單以及 URL上它逛過的網頁、還會定期地表現在搜尋的清單裡

這些搜尋的結果容易造成網頁內容和清單中完全不相符。 RSBE發明了第一流的系統,使關鍵字更關鍵

Page 33: 網路搜尋引擎的發展                             與其重要性

備註備註 (4)(4)

由於 MetaCrawler成長過快,不得不移往另一個站台,也因而轉型為 go2net search engine

受到各大搜尋引擎公司的抗議

為了轉型的彌補措施

Page 34: 網路搜尋引擎的發展                             與其重要性

備註備註 (5)(5)

Savvy Engine 遇上不同搜尋引擎相異的查詢格式時,解決的法子就是「算了」。

不論是MetaCrawler或是 Savvy Engine,都只能提供方便,品質仍無法與各大搜尋引擎相比