Silent Running Side A

Silent running

KAZUHirO FUJIE

Silent Running

Crying In The Rain

Kazuhiro FujieITOCHU TECHNO-SCIENCE Corporation

2006/06/21

Silent Running

• 「Web2.0と呼称される周辺について」–後編。

• エジソンさんからの質問。検索エンジンについて。

• 「はじめのおわり」最近の様子。

• Yahoo!, eBay, Amazon, Google …–トーナメントを勝ち抜いた猛者達。

• 決勝戦はMicrosoftと。

Crying In The Rain

• Search Engine• Interesting Site• Google v.s. Yahoo!• Search Economy• Microsoft• Latest News

Edison’s Question

• Googleでのサービスに対抗出来る様な、サービスはどのようなものでしょうか？

• 例えば、特化したジャンルでの検索エンジンを創ってサービスするのは如何？

• もっと正確な検索が出来るのでは？

• 回答の際、前提知識に理解の食い違いがあった様に思えます。なので、まず検索エンジンについて説明します。

Search Engine

• インターネットで公開されている情報をキーワードなどを使って検索できるWebサイトのこと。

• ユーザーからの検索要求に対してリアルタイムにWebを巡回してキーワードを含んだWebページを探しているわけではない。

Composition Elements of Search Engine

• Crawl, Crawler (or Spider)– Searchbot

• Index–and Indexer

• Runtime System–or Query Processor

Mr. Crowley

• Crawler, Spider, Bot …–出不精で自分のサーバーに胡坐をかき膨大なリクエストをインターネットのページに送りつけている。

–持ち帰ったウェブページを、胡坐をかいたままインデックス作成プログラム（インデクサー）に送りつける。

–見つけたウェブページをリクエストの待ち行列に加え続ける。それの繰り返し。

The Crawler Transporter

Saturn V

Morphology of Spider

Internal Anatomy of Spider

Lycosidae

Spider-man

Mr. Crawler

• Crawler, Spider, Bot …–ウェブページ全体の情報をインデックス化する。

–Crawlerは、Indexと呼ばれる巨大なデータベースに収集したデータを送り込む。

–URLと関連する単語をリスト化する。

Index

• Index, Huge Database–ウェブサイトに関する巨大なデータベース。

–統計的なパターンやアルゴリズムを駆使してクエリーに適切な結果を提供するのが目的。

–分析過程はタグで構成され、それはメタデータである。

–インデックス化するとランタイムインデックスに出力する。

Runtime System

• Query Server, SERP–ユーザのインターフェースからユーザの検索クエリを取得する。

–検索クエリをランタイムインデックスに運ぶ。

–検索結果(SERP)をユーザのインターフェースに送り返す。

Search Engine Result Page

• SERPとは、検索エンジンによる検索結果が表示されたWebページのことである。検索ツールバーなどに表示された検索用フォームにキーワードを入力し、検索ボタンをクリックするなどして検索を実行すると、結果として返ってきたSERPが表示される。

• SERPでは検索条件に合致するWebページへのリンクが関連度の高い順に列挙される。その関連度の算出には、検索キーワードの含まれる数や密度、リンクされている数の多さなどが主となるが、根底的には各エンジン独自のアルゴリズムがはたらいている。検索結果の他にも、SERPの多くには、検索条件に関連するとされた広告や、新たに検索を行なうための入力フォームなどが備えられている。

Query Box in Google

SERP in Google

SERP　in Ask.com

Mechanism of Search Engine

• Back End.–Crawler, Index

• Intermediate.–Runtime Index. –Memory Dump–Search Results Database

• Front End.–Query Server, User Interface

Island

Internet World is Virtual

Island

Infinite Space

Existence

• link–誰からもリンクされていなければ孤島。

–検索されなければ、存在していないのと同じ。

• infinite space–際限なく増え続ける空間は、まるで宇宙。

–膨大な空間の中から検索され見てもらえなければ意味がない。

Along Comes A Spider

AltaVista

• Alpha Processor–Web全体のIndexを作成するためには、並列に動作するCrawlerを作成し一挙に作成する必要がある。

–Alpha Processor 64 bit memoryのお陰で1000個のCrawlerを解き放つという離れ業で今まで見たこともない何十億という単語の1000万ものドキュメントからなる完全なWeb Indexが出来た。

Googlebot

• Deepbot– 月に1回程度Webサイトに訪れるGooglebot– PageRank更新

• Freshbot– ニュースサイトや日記など更新頻度の高いWebページにほぼ毎日訪れるGooglebot

– PageRank更新はなし。

• New Freshbot– ページ収集とPageRank更新

My Answer

Tentative My Thoughts

Quality of Search Engine

• Crawler– Advanced Crawler– Many many spider

• Huge Index– Innovation Algorithm and Statistical pattern– Huge Databases.

• Query– Tag, Accurate Metadata.– Google has over 100 factors.

Essential point

• （2003年12月時点で）33億を超えるWebページをほぼ0.5秒以下の時間で検索できる。

• （2003年12月時点で） Googleは33億のWebページを対象に，インデックスおよびPageRank値をほぼ毎日更新している。

Essential point

• （予測では）Googleは現在推定20万台のサーバを保有している。– 2006年3月現在での予想。

– 写真は2006年後半に採用が予定されているDELL製のGoogle Search Appliance 「GB-1001」

Digression

• （2005.09.21付け資料より）170台+5台/月らしいので現在は200台強と推測。

• 「はてな」は2006年6月15日、日本自然エネルギーと契約し、年間30万kWhの電力を風力で発電するよう委託すると発表した。

Answer to Edison’s Question

• 現在からGoogleと検索エンジンで争うのは、無駄かもしれません。頑張ってｸﾀﾞｻｲ。

• 特化したジャンルでの情報提供は、サーチの外側に存在し特定ジャンルに専科したSNSなどを創るのが得策かもしれません。

• 正確な検索に関しては、それを可能にする仕組みがインターネットに必要です。セマンティックWebに期待しましょう。

Silent Running

Continue to The Next Pages

Silent Running Side A

Technology

Transcript of Silent Running Side A