Silent Running Side A

37
Silent running KAZUHirO FUJIE

description

Talk about Google and Yahoo! , Microsoft. also Search Engine. This Materials For Study meeting series of our department is latter part. (First Part is the " Revolutions".)

Transcript of Silent Running Side A

Page 1: Silent Running Side A

Silent running

KAZUHirO FUJIE

Page 2: Silent Running Side A

Silent Running

Crying In The Rain

Kazuhiro FujieITOCHU TECHNO-SCIENCE Corporation

2006/06/21

Page 3: Silent Running Side A

Silent Running

• 「Web2.0と呼称される周辺について」–後編。

• エジソンさんからの質問。検索エンジンについて。

• 「はじめのおわり」最近の様子。

• Yahoo!, eBay, Amazon, Google …–トーナメントを勝ち抜いた猛者達。

• 決勝戦はMicrosoftと。

Page 4: Silent Running Side A

Crying In The Rain

• Search Engine• Interesting Site• Google v.s. Yahoo!• Search Economy• Microsoft• Latest News

Page 5: Silent Running Side A

Edison’s Question

• Googleでのサービスに対抗出来る様な、サービスはどのようなものでしょうか?

• 例えば、特化したジャンルでの検索エンジンを創ってサービスするのは如何?

• もっと正確な検索が出来るのでは?

• 回答の際、前提知識に理解の食い違いがあった様に思えます。なので、まず検索エンジンについて説明します。

Page 6: Silent Running Side A

Search Engine

• インターネットで公開されている情報をキーワードなどを使って検索できるWebサイトのこと。

• ユーザーからの検索要求に対してリアルタイムにWebを巡回してキーワードを含んだWebページを探しているわけではない。

Page 7: Silent Running Side A

Composition Elements of Search Engine

• Crawl, Crawler (or Spider)– Searchbot

• Index–and Indexer

• Runtime System–or Query Processor

Page 8: Silent Running Side A

Mr. Crowley

• Crawler, Spider, Bot …–出不精で自分のサーバーに胡坐をかき膨大なリクエストをインターネットのページに送りつけている。

–持ち帰ったウェブページを、胡坐をかいたままインデックス作成プログラム(インデクサー)に送りつける。

–見つけたウェブページをリクエストの待ち行列に加え続ける。それの繰り返し。

Page 9: Silent Running Side A

The Crawler Transporter

Page 10: Silent Running Side A

The Crawler Transporter

Page 11: Silent Running Side A

Saturn V

Page 12: Silent Running Side A

Morphology of Spider

Page 13: Silent Running Side A

Internal Anatomy of Spider

Page 14: Silent Running Side A

Lycosidae

Page 15: Silent Running Side A

Spider-man

Page 16: Silent Running Side A

Mr. Crawler

• Crawler, Spider, Bot …–ウェブページ全体の情報をインデックス化する。

–Crawlerは、Indexと呼ばれる巨大なデータベースに収集したデータを送り込む。

–URLと関連する単語をリスト化する。

Page 17: Silent Running Side A

Index

• Index, Huge Database–ウェブサイトに関する巨大なデータベース。

–統計的なパターンやアルゴリズムを駆使してクエリーに適切な結果を提供するのが目的。

–分析過程はタグで構成され、それはメタデータである。

–インデックス化するとランタイムインデックスに出力する。

Page 18: Silent Running Side A

Runtime System

• Query Server, SERP–ユーザのインターフェースからユーザの検索クエリを取得する。

–検索クエリをランタイムインデックスに運ぶ。

–検索結果(SERP)をユーザのインターフェースに送り返す。

Page 19: Silent Running Side A

Search Engine Result Page

• SERPとは、検索エンジンによる検索結果が表示されたWebページのことである。検索ツールバーなどに表示された検索用フォームにキーワードを入力し、検索ボタンをクリックするなどして検索を実行すると、結果として返ってきたSERPが表示される。

• SERPでは検索条件に合致するWebページへのリンクが関連度の高い順に列挙される。その関連度の算出には、検索キーワードの含まれる数や密度、リンクされている数の多さなどが主となるが、根底的には各エンジン独自のアルゴリズムがはたらいている。検索結果の他にも、SERPの多くには、検索条件に関連するとされた広告や、新たに検索を行なうための入力フォームなどが備えられている。

Page 20: Silent Running Side A

Query Box in Google

Page 21: Silent Running Side A

SERP in Google

Page 22: Silent Running Side A

SERP in Ask.com

Page 23: Silent Running Side A

Mechanism of Search Engine

• Back End.–Crawler, Index

• Intermediate.–Runtime Index. –Memory Dump–Search Results Database

• Front End.–Query Server, User Interface

Page 24: Silent Running Side A

Island

Internet World is Virtual

Page 25: Silent Running Side A

Island

Page 26: Silent Running Side A

Infinite Space

Page 27: Silent Running Side A

Existence

• link–誰からもリンクされていなければ孤島。

–検索されなければ、存在していないのと同じ。

• infinite space–際限なく増え続ける空間は、まるで宇宙。

–膨大な空間の中から検索され見てもらえなければ意味がない。

Page 28: Silent Running Side A

Along Comes A Spider

Page 29: Silent Running Side A

AltaVista

• Alpha Processor–Web全体のIndexを作成するためには、並列に動作するCrawlerを作成し一挙に作成する必要がある。

–Alpha Processor 64 bit memoryのお陰で1000個のCrawlerを解き放つという離れ業で今まで見たこともない何十億という単語の1000万ものドキュメントからなる完全なWeb Indexが出来た。

Page 30: Silent Running Side A

Googlebot

• Deepbot– 月に1回程度Webサイトに訪れるGooglebot– PageRank更新

• Freshbot– ニュースサイトや日記など更新頻度の高いWebページにほぼ毎日訪れるGooglebot

– PageRank更新はなし。

• New Freshbot– ページ収集とPageRank更新

Page 31: Silent Running Side A

My Answer

Tentative My Thoughts

Page 32: Silent Running Side A

Quality of Search Engine

• Crawler– Advanced Crawler– Many many spider

• Huge Index– Innovation Algorithm and Statistical pattern– Huge Databases.

• Query– Tag, Accurate Metadata.– Google has over 100 factors.

Page 33: Silent Running Side A

Essential point

• (2003年12月時点で)33億を超えるWebページをほぼ0.5秒以下の時間で検索できる。

• (2003年12月時点で) Googleは33億のWebページを対象に,インデックスおよびPageRank値をほぼ毎日更新している。

Page 34: Silent Running Side A

Essential point

• (予測では)Googleは現在推定20万台のサーバを保有している。– 2006年3月現在での予想。

– 写真は2006年後半に採用が予定されているDELL製のGoogle Search Appliance 「GB-1001」

Page 35: Silent Running Side A

Digression

• (2005.09.21付け資料より)170台+5台/月らしいので現在は200台強と推測。

• 「はてな」は2006年6月15日、日本自然エネルギーと契約し、年間30万kWhの電力を風力で発電するよう委託すると発表した。

Page 36: Silent Running Side A

Answer to Edison’s Question

• 現在からGoogleと検索エンジンで争うのは、無駄かもしれません。頑張ってクダサイ。

• 特化したジャンルでの情報提供は、サーチの外側に存在し特定ジャンルに専科したSNSなどを創るのが得策かもしれません。

• 正確な検索に関しては、それを可能にする仕組みがインターネットに必要です。セマンティックWebに期待しましょう。

Page 37: Silent Running Side A

Silent Running

Continue to The Next Pages