互联网主题词搜索报告 本期主题:...

98
HTTP://www.Daogogo.com E-mail: [email protected] 本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司 Last updated: 9/26/2005 Page: 1 2005 年,搜索引擎, Google,Baidu,…… 们,上市,收购, 互联网第二轮泡沫的开始,还是传说中的春天的开始? 互联网主题词搜索报告 本期主题: 搜索引擎 Http//www.Daogogo.com 如需要提供其他主题词的搜索报告, 请联系:netcyb#163.com (实际发送邮件请将#号换成@) 申明:1 本搜索报告文字,图片都来源于公开的互联网资料,版权归原作者所有。 2 本报告提供所有文章的链接,各类文章仅代表作者或者网站个人的观点,我们不对有关本报 告所提供的材料和信息的可用性、准确性或可靠性作出任何种保证。所有信息均仅供参考。

Transcript of 互联网主题词搜索报告 本期主题:...

Page 1: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 1

2005 年,搜索引擎, Google,Baidu,…… 们,上市,收购, 互联网第二轮泡沫的开始,还是传说中的春天的开始?

互联网主题词搜索报告

本期主题: 搜索引擎

Http://www.Daogogo.com

如需要提供其他主题词的搜索报告, 请联系:netcyb#163.com (实际发送邮件请将#号换成@)

申明:1 本搜索报告文字,图片都来源于公开的互联网资料,版权归原作者所有。

2 本报告提供所有文章的链接,各类文章仅代表作者或者网站个人的观点,我们不对有关本报告所提供的材料和信息的可用性、准确性或可靠性作出任何种保证。所有信息均仅供参考。

Page 2: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 2

目 录 1 封面...................................................................................................................................................1 2. 目录..................................................................................................................................................2 3. 简介 搜索引擎是什么...................................................................................................................................3 各大搜索引擎简介...............................................................................................................................4 搜索引擎发展史...................................................................................................................................6 4 市场

《2005年中国搜索引擎市场调查报告》解读.....................................................................................8 2005年第二季度美国搜索引擎请求量..............................................................................................13 中国搜索引擎市场规模现状和预测...................................................................................................14 2010年欧洲搜索引擎广告收入达30亿欧元 .....................................................................................15 美国搜索引擎市场规模现状与预测...................................................................................................16 付费搜索引擎营销市场前景的悲观分析...........................................................................................17

5 技术与动态 搜索引擎原理...................................................................................................................................19 搜索引擎技术及趋势........................................................................................................................21 全球十大主要搜索引擎工作原理 英文搜索引擎简介........................................................................25 第三代搜索引擎技术与P2P..............................................................................................................27 搜索引擎优化之链接广泛度(Link Popularity)全攻略.......................................................................29 Google 技术..................................................................................................................................37 WEB超链分析算法纵览....................................................................................................................39 中文搜索引擎技术揭密:中文分词...................................................................................................57 搜索引擎关键技术综述.....................................................................................................................62 什么是SEO?...................................................................................................................................66 警惕“SEO垃圾”对搜索引擎和搜索引擎营销的威胁........................................................................67 百度与站长-使百度有效收录-作弊网站..........................................................................................69

6 知识产权 专利技术:Google Patents Yahoo Patents MSN Patents ...............................................70-77 百度在中国专利:............................................................................................................................78 新浪专利(iask.com):......................................................................................................................80 中国其他关于搜索引擎主题专利:....................................................................................................81 世界知识产权组织以及美国关于搜索引擎公开专利申请(部分).......................................................82

7 相关公司..........................................................................................................................................83 8 其他汇总

7月全球10大搜索公司排名出炉 Google继续领先..........................................................................85 Cgogo公司.....................................................................................................................................87 一家网络搜索公司称其搜索网页比Google多..................................................................................89 本地搜索..........................................................................................................................................90 Truveo推搜索技术 击中雅虎Google技术软肋...............................................................................92 4月4日评点Google.........................................................................................................................93

Page 3: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 3

URL: http://www.webrank.cn/what_is_search_engine.htm

搜索引擎是什么?

搜索引擎其实也是一个网站,只不过该网站专门为你提供信息"检索"服务,它使用特有的程序把因特网

上的所有信息归类以帮助人们在浩如烟海的信息海洋中搜寻到自己所需要的信息。 搜索引擎按其工作的方式分为两类:一类是分类目录型的检索,把因特网中的资源收集起来,由其提供

的资源的类型不同而分成不同的目录,再一层层地进行分类,人们要找自己想要的信息可按他们的分类

一层层进入,就能 后到达目的地,找到自己想要的信息;另一类是基于关键词的检索,这种方式用户

可以用逻辑组合方式输入各种关键( Keyword ),搜索引擎计算机根据这些关键词寻找用户所需资源的地

址,然后根据一定的规则反馈给用户包含此关键字词信息的所有网址和指向这些网址的链接。随着因特

网信息按几何式增长,这些搜索引擎利用其内部的一个叫 SPIDE(蜘蛛)的程序,自动搜索网站每一页

的开始,并把每一页上代表超级链接的所有词汇放入一个数据库,供用户来查询。 早期的搜索引擎是把因特网中的资源服务器的地址收集起来,由其提供的资源的类型不同而分成不同的

目录,再一层层地进行分类。人们要找自己想要的信息可按他们的分类一层层进入,就能 后到达目的

地,找到自己想要的信息。这其实是 原始的方式,只适用于因特网信息并不多的时候。随着因特网信

息按几何式增长,出现了真正意义上的搜索引擎,这些搜索引擎知道网站上每一页的开始,随后搜索因

特网上的所有超级链接,把代表超级链接的所有词汇放入一个数据库。这就是现在搜索引擎的原型。 随着 Yahoo!的出现,搜索引擎的发展也进入了黄金时代,相比以前其性能更加优越。现在的搜索引擎

已经不只是单纯的搜索网页的信息了,它们已经变得更加综合化,完美化了。以搜索引擎权威 Yahoo!为例,从 1995 年 3 月由美籍华裔杨致远等人创办 Yahoo!开始,到现在,他们从一个单一的搜索引擎发

展到现在有电子商务、新闻信息服务、个人免费电子信箱服务等多种网络服务,充分说明了搜索引擎的

发展从单一到综合的过程。 举一个简单例子,您如果需要购买鲜花,可又不知道在什么地方,这是您就可以打开雅虎

www.yahoo.com.cn,在它的主页里有一个文字输入框,您可以输入"鲜花店",然后点击搜索按钮,这是

雅虎就可以为您搜索出网上所有的鲜花店的网站,您只要点击搜索结果的网站即可进入它的网站浏览。

当然,您也可以输入"上海鲜花店"来检索上海的鲜花店。 然而由于搜索引擎的工作方式和因特网的快速发展,使其搜索的结果让人越来越不满意。例如,搜索“电

脑”这个词汇,就可能有数百万页的结果。这是由于搜索引擎通过对网站的相关性来优化搜索结果,这

种相关性又是由关键字在网站的位置、网站的名称、 标签等公式来决定的。这就是使搜索引擎搜索结

果多而杂的原因。而搜索引擎中的数据库因为因特网的发展变化也必然包含了死链接。 怎样才能使搜索引擎精确地为人们提供相关的信息应该是它以后发展的方向,而不是只求综合服务。

Page 4: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 4

URL:http://new.tang365.com/data/2005/0821/article_18204.htm 各大搜索引擎简介 作者 goody 来源 发布时间 2005-08-21 浏览次数 字体 大 中 小 目前中文引擎,如搜狐、新浪,263 等三十多家网站均采用百度公司中文搜索引擎。相反网易、

雅虎、netscape、Deja 等全球一百三十多家公司采用全球名声 响的 Google,目前各大引擎竞相模仿

Google 的功能和特色,如网页快照,偏好设置等,似乎 Google 成为领头羊。而且 Google 引擎的技术

发展很快,经常有更新的技术诞生;而 Go,GoTo 等许多公司则采用全球另一著名引擎--overturn,其特

点是搜索很准,速度尚可,但它的商业化太重。过去 Lycos 公司收购了 altavista,hotbot,成为全球 重

要的搜索公司,然而 Lycos 的精准、hotbot 的全的风格却并没有保留,现在已经明显逊色于 google 等著

名专业引擎了,尤其是速度太慢。dmoz 只搜索站点,但所有站点皆是精选而成,的确不错!可确保每

一个均极佳,而且还可自定义站点。这是我选择的原因之一,不过对中文支持不理想。All the Web 与

Google 类似,均支持中英文等多语言,速度快,搜索面广,然而必须先选择语言,否则可能出现乱码,

而不如 Google 自动识别多种语言!而且界面较 Google 逊色。目前来看,这几大引擎已成为 主要的引

擎,另外象 search163, search,excite, northernlight,AltaVista,HotBot,Infoseek,等是过去名声赫赫的,

但近来发展却不十分如意,尤其是 Excite,过去其中文引擎很有特色,被广泛采用,但现在虽仍支持中

文,但数据库已太小,无法收到新的内容了,而英文方面又不如 Google 快捷,数据库大。以前 Hotbot曾全球排名第一(搜索页面数),但自从被 Lycos 收并后,反而不行了,而且不支持中文。另有一些新

秀,如 wisenut 和 teoma 是刚刚兴起的,极具代表性引擎,它们目前还不能对 Google 构成危胁,而且二

者均是英文的,前者速度类似 Google,非常快,数据库也较大,而后者界面几乎完成模仿 Google,但

速度稍差数据库偏小。因而综合引擎主要选择上述几家引擎,如果能恰当应用的话,几乎能找到一切所

需的东西!其中 Google 继承了原 Altavista 的多语言风格,而且由于网易的购卖,它对简、繁体中文支

持都十分良好!但其它英文引擎却不可! 一 综合引擎简介 Google:是一个搜索引擎,由两个斯坦福大学博士生 Larry Page 与 Sergey Brin 于 1998 年 9 月发明,Google Inc. 于 1999 年创立。2000 年 7 月份,Google 替代 Inktomi 成为 Yahoo 公司的搜索引擎,同年 9 月份,

Google 成为中国网易公司的搜索引擎。98 年至今,GOOGLE 已经获得 30 多项业界大奖。GOOGLE 支

持多达 132 种语言,包括简体中文和繁体中文;GOOGLE 网站只提供搜索引擎功能,没有花里胡哨的

累赘; GOOGLE 速度极快,据说有 8000 多台服务器,200 多条 T3 级宽带。Google 功能很多,如自动

纠错等小功能,也很好。 百度 :百度公司(Baidu.com,Inc)于 1999 年底成立于美国硅谷,它的创建者是在美国硅谷有多年成

功经验的李彦宏先生及徐勇先生。2000 年 1 月,百度公司在中国成立了她的全资子公司--百度网络技术

(北京)有限公司。百度的起名,源于"众里寻她千百度"和突破"事儿做到九十九度就是做到头"的西方

说法,百度就是想要力争做到一百度,做到顶上开花的境界。目前全国已有 36 家大型网站采用了百度

引擎,包括新浪、搜狐、263,Tom,炎黄在线,Chinaren,赛迪网,清华大学,21CN,硅谷动力,PC-online,腾讯等, 可见其影响力。我也注意到,目前百度搜索中文有时较 Google 还有一定的优势。更新速度要

快些。

Page 5: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 5

teoma:2002 年 4 月 1 日刚刚改版,我用了一下,果然大不一样了,界面清新,明了,速度也较快,我

刚紧将它的位置提了好几位!它被认为在将来唯一能与 Google 相竞争的引擎!它有自身一些特色,如

搜索联想功能,是智能化引擎之一,在我的评比中,似乎超过了 Wistnut,只是目前其页面太小,仅 2亿个,为 Google 十分之一还不到,业界对其评述不一如:Google 遇到新对手 Teoma 自有新招数。 Overturn:即原 Goto, Go2net, Go2 公司,现改名,据称全球 75%因特网用户均使用过它,被号称为全球

第一大搜索引擎。该公司有 flash 格式学习文件,值得参考。inktomi 搜索公司是其同伴公司。 二 生物医学专业引擎 专业引擎主要是生物医学方面,以 Pubmed 为著名,目前它不仅能搜索 Medline,还有基因很行,STS,genome,protein, structure 等,加上全球许多免费杂志与它建立起链接关系,另外还有 book,引文,它的

功能几乎无所不包,而且越来越大,是绝在忽视的引擎。是 重要的专业引擎,现在我收录了 Pubmed中大多数子引擎,进一步方便您的使用。而其它引擎则功能较次,但各有特点。PubMed 中文帮助、PubMed英文帮助. Highwire:一个拥有大量免费全文的站点,但现在许多文章也需收费,不过仍是不可多得的地方。 Bio.com 引擎分为站点搜索和高级搜索两种,后者较为专业,如分子生物学、药物学相关内容。 emedicine:是全文电子书专业站点,但内容还是太少了些。 其它如 Medscape,BMN,Medhunt,medsurf,medInternet 等往往先须注册才可查资料,而且全文资料多是收

费的,很难得到,而文摘,仅 Pubmed 便足够用了,而且方便,或者仅仅是提供站点的地方。

Page 6: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 6

搜索引擎发展史 在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络

用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生

了。 现代意义上的搜索引擎的祖先,是 1990 年由蒙特利尔大学学生 Alan Emtage 发明的 Archie。虽然

当时 World Wide Web 还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个

分散的 FTP 主机中,查询起来非常不便,因此 Alan Emtage 想到了开发一个可以以文件名查找文件的系

统,于是便有了 Archie。 Archie 工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关

信息进行索引,供使用者以一定的表达式查询。由于 Archie 深受用户欢迎,受其启发,美国内华达 System Computing Services 大学于 1993 年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具除了索

引文件外,已能检索网页。 当时,“机器人”一词在编程者中十分流行。电脑“机器人”(Computer Robot)是指某个能以人类

无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序象蜘蛛一

样在网络间爬来爬去,因此,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。 世界上第一个用于监测互联网发展规模的“机器人”程序是 Matthew Gray 开发的 World wide Web Wanderer。刚开始它只用来统计互联网上的服务器数量,后来则发展为能够检索网站域名。 与 Wanderer 相对应,Martin Koster 于 1993 年 10 月创建了 ALIWEB,它是 Archie 的 HTTP 版本。

ALIWEB 不使用“机器人”程序,而是靠网站主动提交信息来建立自己的链接索引,类似于现在我们

熟知的 Yahoo。 随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在 Matthew Gray 的

Wanderer 基础上,一些编程者将传统的“蜘蛛”程序工作原理作了些改进。其设想是,既然所有网页

都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。到 1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中以 JumpStation、The World Wide Web Worm(Goto的前身,也就是今天 Overture),和 Repository-Based Software Engineering (RBSE) spider 负盛名。 然而 JumpStation 和 WWW Worm 只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结

果,因此毫无信息关联度可言。而 RBSE 是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。 早现代意义上的搜索引擎出现于 1994 年 7 月。当时 Michael Mauldin 将 John Leavitt 的蜘蛛程序

接入到其索引程序中,创建了大家现在熟知的 Lycos。同年 4 月,斯坦福(Stanford)大学的两名博士生,

David Filo 和美籍华人杨致远(Gerry Yang)共同创办了超级目录索引 Yahoo,并成功地使搜索引擎的概

念深入人心。从此搜索引擎进入了高速发展时期。目前,互联网上有名有姓的搜索引擎已达数百家,其

检索的信息量也与从前不可同日而语。比如 近风头正劲的 Google,其数据库中存放的网页已达 30 亿

之巨!

Page 7: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 7

随着互联网规模的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况,因此现

在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。象国外的

Inktomi(已被 Yahoo 收购),它本身并不是直接面向用户的搜索引擎,但向包括 Overture(原 GoTo,已

被 Yahoo 收购)、LookSmart、MSN、HotBot 等在内的其他搜索引擎提供全文网页搜索服务。国内的百

度也属于这一类(注 1),搜狐和新浪用的就是它的技术(注 2)。因此从这个意义上说,它们是搜索引

擎的搜索引擎。

Page 8: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 8

《2005 年中国搜索引擎市场调查报告》解读

2005 年 8 月 29 日下午,中国互联网络信息中心(CNNIC)对外发布了北京、上海、广州三地的《2005 年

中国搜索引擎市场调查报告》。

报告显示,中国搜索市场目前是两强多极竞争格局,百度和 Google 市场份额大大高于其他公司,二者

合计在北京和上海占有超过 80%的市场份额,在广州合计占有率也接近达到 75%在搜索内容上,百度

用户搜索音乐(mp3)等娱乐内容的使用率相对较高,Google 用户相对来说更经常搜索网页、企业产品、

商情、交通旅游等内容。 学生在中国搜索引擎市场扮演着一个重要角色。在北京、广州和上海,学生

用户占全部用户数的比例分别达到 40%、37%和 30%。百度最大的用户群是学生,学生用户占了百度

各地用户数的 40~50%。Seospam.net 认为表面看是百度占优势,但是从企业用户来看,如果投放广

告,Google 还是首选.

一、根据单位划分市场份额

搜索引擎的使用者根据单位区分只要有学校,企业,政府机关及其他人员。

他们在使用搜索引擎的情况分别在 44.3%,33.1%,8.9%,其他人员占 13.6%.

具体搜索引擎在以上几类人群中所占的市场份额如下:

搜索引擎在企业的市场份额 Google 百度 其他

比例 44.7% 39.5% 15.8%

搜索引擎在学校的市场份额 Google 百度 其他

比例 25.7% 65.5% 8.8%

搜索引擎在机关的市场份额 Google 百度 其他

比例 45.7% 44.3% 9.9%

Page 9: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 9

(数据来自:《2005 年中国搜索引擎市场调查报告》北京部分)

二、根据年龄分段市场份额

搜索引擎的使用者的年龄段在本次调查中分为 25 岁下和 25 岁以上两个层次,他们在使用搜索引擎

人群中所占比例分别为 51.7%和 48.3%.

体搜索引擎在不同年龄人群中所占的市场份额如下

25 岁以下年龄段的市场份额 百度 Google 其他

比例 62.7% 23.7% 13.6%

25 岁以上年龄段的市场份额 百度 Google 其他

比例 39.5% 42.7% 17.8%

(数据来自:《2005 年中国搜索引擎市场调查报告》北京部分)

三、高端用户搜索引擎使用

Page 10: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 10

搜索引擎高端用户的定义是:年龄在 25 岁以上、大学本科学历以上、个人月收入 3000 元以上,满

足这三个条件的非学生用户。调查显示,搜索引擎使高端用户占非学生用户的 31.8%,占全部搜索引擎

用户的 19.2%。”

各搜索引擎在高端用户所占比例如下:

高端用户使用的搜索引擎 百度 Google 其它

比例 27.9% 58.7% 13.4%

高端用户使用的搜索引擎(数据来自:《2005 年中国搜索引擎市场调查报告》)

四、 根据学历情况分段市场份额

搜索引擎使用者根据学历分为大专以下和大专以上两个层次。们在使用搜索引擎人群中所占比例分

别为 53.5%和 46.4%。

各搜索引擎在不同学历人员中所占市场份额如下:

搜索引擎在大专及以下学历段用户中市场份额 百度 Google 其它

比例 60% 20.8% 19.3%

搜索引擎在大专及以下学历段用户中市场份额 百度 Google 其它

比例 60% 20.8% 19.3%

若除掉学生,不同层次学历使用搜索引擎情况如下:

大专以下 大专 大本 大本以上

Google 17.7% 27.6% 49.4% 72.2%

百度 52.1% 52.6% 39.1% 20.4%

其它 30.2% 9.8% 21.5% 7.4%

(数据来自:《2005 年中国搜索引擎市场调查报告》)

五、根据收入情况分段市场份额

由于学生大多是消费者,无固定收入来源,本组数据反映的是不同收入非学生用户的搜索引擎使用

状况。不同月收入的非学生用户中的市场份额.

Page 11: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 11

不同收入

非学生用

1000 元以

1000 元以

1500 元以

2000 元以

2500 元以

3000 元

以上

4000 元以

5000 元以

Google 20.8% 40.6% 43.0% 45.4% 47.3% 50.0% 51.2% 58.1%

百度 56.3% 42.4% 40.9% 39.1% 39.0% 34.8% 31.4% 25.7%

其他 22.9% 17.0% 16.1% 15.5% 13.7% 15.2% 17.4% 16.2%

各搜索引擎在学生用户中所占市场份额比较。

学生中的市场份额 初中 高中 大专 大学本科 硕士 博士

百度 58.5% 71.5% 73.3% 58.9% 40.0% 25.0%

Google 24.5% 17.9% 8.9% 27.7% 50.0% 75.0%

其他 17.0% 10.6% 12.8% 13.4% 10.0% 0.0%

(数据来自:《2005 年中国搜索引擎市场调查报告》)

从 Alexa 数据比较 Google 和百度的不同

1.总体访问量的比较:

1.

2.用户在百度里干什么?

• baidu.com - 51% 首页搜索---------》您的可能潜在客户

• mp3.baidu.com - 18% Mp3 音乐搜索

• post.baidu.com - 12% 百度贴吧

• image.baidu.com - 10% 图片搜索

• news.baidu.com - 2% 百度新闻

Page 12: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 12

• cache.baidu.com - 1% 百度网页快照

• sf.baidu.com - 1% 百度竞价系统

• unstat.baidu.com - 1% 百度联盟统计代码

• union.baidu.com - 1% 百度联盟

• Other websites - 3% 其他

3.用户在 Google 里干什么?

• google.com - 80% 首页搜索--------- 您的可能潜在客户

• images.google.com - 7% 图片搜索

• mail.google.com - 5% Gmail 信箱

• gmail.google.com - 2% Gmail 信箱

• news.google.com - 1% Google 新闻

• groups-beta.google.com - 1% Google 用户组

• maps.google.com - 1% Google 地图

• froogle.google.com - 1% Froogle 购物搜索

• Other websites - 2% 其他

Page 13: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 13

http://www.iresearch.com.cn/html/search_engine/detail_viewsid_20645.html

2005 年第二季度美国搜索引擎请求量

2005/08/29

iResearch 艾瑞市场咨询根据来自 E-Commerce 的数据显示, 2005 年第二季度的美国

搜索引擎市场上的搜索请求数量中,Google 以 56.5 亿次搜索请求排名第一,Yahoo 以 46.5

亿次搜索请求排名第二。

Page 14: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 14

http://www.iresearch.com.cn/search_engine/detail_chart.asp?id=17979

中国搜索引擎市场规模现状和预测

2005/02/23

iResearch 统计数据显示, 2003 年中国搜索引擎市场规模为 6.9 亿元人民币,年增长

率为 147%。2004 年中国搜索引擎市场规模将达到 12.5 亿元人民币,年增长率为 81%。预计

截至 2007 年中国搜索引擎市场规模将达到 56.2 亿元人民币。

Page 15: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 15

http://www.pconline.com.cn/news/nw/0503/578640.html 2010 年欧洲搜索引擎广告收入达 30 亿欧元 出处:eNet 硅谷动力 [ 2005-03-21 10:59:39 ] 作者:佚名 责任编辑:taomeikun 05 年欧洲搜索引擎广告市场规模将达到 14 亿欧元,比 2004 年增长 65%。到 2010 年,欧洲搜索引

擎广告市场的规模将从 2004 年的 8.56 亿欧元增长到 30 亿欧元。到目前为止,主流大型公司已经通过

搜索引擎宣传自己的产品。现在中小企业用户也开始将搜索引擎作为其推广和销售产品的渠道。 英国是欧洲 大的网络广告市场,其搜索引擎广告领域收入将从 2005 年底的 7.63 亿欧元增长到

2010 年的 10 亿欧元。 金融、汽车、零售、旅游等产业将快速增加其在搜索广告市场的开支。2005 年欧洲金融产业搜索

引擎广告市场在整个搜索广告市场的比例为 19%,但是到 2010 年这一比例将提升到 31%,为此这将是

增长 快的一个领域。 2004 年德国是欧洲第二大搜索引擎广告市场,但是该市场的增幅将放缓,其收入在 2010 年达到 3.99亿欧元,今后 5 年其复合年增长率仅为 11%。 到 2005 年底,爱尔兰网络广告市场收入将有 40%来自搜索引擎广告市场。而瑞典将有 26%的网络

广告开支花在搜索广告领域。 其它的西欧国家 2005 年在搜索广告市场只占据了 4%,而今后 5 年也不会有太多的增长。

Page 16: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 16

http://www.iresearch.com.cn/search_engine/detail_views.asp?id=16381

美国搜索引擎市场规模现状与预测

2005/04/29

根据艾瑞市场咨询(iResearch)推出的《2004 年中国搜索引擎研究报告》数据显示,

2004 年美国搜索引擎市场规模为 9.5 亿美元,预计未来 2 年美国搜索引擎市场规模呈稳步增

长态势,2006 年市场规模将达到 19 亿美元。

Page 17: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 17

http://www.study888.com/wlyx/2005-07-26/103333.html 付费搜索引擎营销市场前景的悲观分析 【内容提要】通过对 搜索引擎广告相关问题的分析,产生了一些对于付费搜索引擎市场的悲观观点,

这些观点可能带有一定程度的的主观性和片面性,不过,了解一些不同的观点,也许更有利于全面了解

付费搜索引擎营销市场的真实状况,如果能对这些观点中所提出的问题给予适当的重视并进行深入研究

的话,对于付费搜索引擎营销市场的发展也许还会产生一定的促进效果。   付费搜索引擎营销市场,从 2002 开始持续快速增长,2004 年用一个字来形容就是“火”,对于 2005年搜索引擎营销市场发展的的预测大多数观点是“继续火”,这似乎不需要多少解释,利用简单的“趋

势外推法”即可得出这样的结论(本人对 2005 年中国网络营销服务市场预测也基本赞同这样的观点),

不过也并非所有人都这么认为,对于付费搜索引擎市场持冷静态度甚至悲观论者同样存在,并且是根据

网络广告市场的数据分析所进行的合理推测。本文所要介绍的就是有关搜索引擎营销市场的悲观分析,

至于 终结果是乐观的观点占上风,还是被悲观的观点不幸预言,不是本文所要考虑的结果。了解一些

不同的观点,也许更有利于全面了解付费搜索引擎营销市场的真实状况。   观点之一:营销人员在曾经过于投资在搜索引擎广告,他们会重新考虑各种网络广告的预算分配。      网络广告市场从 2002 年开始复苏,并再次进入高涨期,没错,这是事实,不过,如果仔细分析一

下网络广告市场中各种广告形式所占的份额,你也许会发现一个令人差异的结果:除了付费搜索引擎广

告之外,其他的网络广告市场竟然是负增长!   调查数据:美国网络广告市场增长状况(2002vs2003)(单位:百万美元)                 2002    2003   年增长率   全部网络广告费用      6010    7267    20.9%   付费搜索引擎广告      927    2543    174.3%   不包括付费搜索的广告费用  5080    4724   -7.1%   资料来源:IAB/PwC, April 2004; eMarketer, May 2004   上述数据表明,从 2003 年到 2003 年,网络广告市场增长了 20.9%,其中付费搜索引擎广告的增长

率高达 174.3%,如果除去付费搜索引擎广告,其他网络广告形式费用累计增长率为-7.1%。这些数据说

明什么问题?很显然,大量的营销费用流向了付费搜索引擎,营销人员过于关注搜索引擎广告了,他们

可能减少了对其他网络广告形式的关注,但这种状况必定是暂时的,当企业重新考虑营销预算分配时,

会分散在多种网络广告形式上,所以——付费搜索广告市场的增长率不可能像前 2 年前那么高了,这个

市场的过热不太可能持续下去。   观点之二:用户对于付费搜索引擎广告的信任程度不高,将影响付费搜索引擎广告的持续增长。   用户获取信息的渠道有多种,并且总是倾向于选择自己信任的信息渠道,调查表明,消费者对广告

信息 信任的方式包括:其他消费者的推荐(87%)、品牌网站(73%)、针对消费者本人的电子邮件(66%)

等,而对于搜索引擎广告信任的比例只有 34%,远低于对品牌网站信息的信任,也就比 BANNER 广告

(12%)略高一点。可见,对于消费者来说,付费搜索引擎广告并非 好的信息传播方式,消费者不信

任,企业为什么还总是在这上面花费大量的资金呢?

Page 18: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 18

  不仅如此,付费搜索引擎广告之所以获得较好的效果(相对于 BANNER 而言,这里暂且将点击率

作为效果的评价指标吧),首先取决于其高定位程度,不过其中也含有一定对用户信息误导的因素,因

为付费搜索引擎广告出现在搜索结果中(一般还是靠前的位置),服务商并没有明确说明(或者标识不

够醒目)哪些是付费广告,哪些是自然搜索结果,用户往往在不知情的情况下点击了广告,这种广告“效

果”并非用户真实意愿的反映。对于付费 排名影响搜索结果公正的情况,美国《消费者报告》进行了

详细研究并对搜索引擎用户提出八点建议,用户会更加深入地认识到付费搜索引擎广告信息的问题,用

户的信任程度会进一步下降,这必将影响付费搜索引擎广告的持续增长。   观点之三:付费搜索引擎营销的 ROI 悖论——投入增加,营销效果下降   随着越来越多的网站投放搜索引擎广告,在同一领域对热门关键词的竞争也越来越激烈,为了出现

在搜索结果中并且广告位置靠前,就不得不支付更高的广告费。调查公司 Jupiter Media Merix 的一项调

查表明,在 2003 年 6 月已经有 57%的营销人员认为自己希望购买的关键词广告因为价格太高而不得不

放弃,51%的被调查者估计为一些关键词广告支付的费用太高了,还有 40%的营销人员认为选择合适的

关键词并不是那么容易。这种状况的后果就是,为争夺好的广告排名位置,不仅费用越来越高,广告客

户获得被用户发现的机会越来越少,同时由于用户对于付费搜索引擎广告的信任程度降低,也就是每次

点击的有效性在下降 同时,由于一些广告预算雄厚的大公司开始采用关键词广告,许多大型企业购买

数以千计的关键词(Jupiter 调查表明采用关键词广告的大企业中有 24%购买 1000 个以上的关键词,

典型的例子是 eBay 在 Google 等搜索引擎的搜索结果中铺天盖地的广告),这种状况还可能会持下去。

其结果是,在许多领域,搜索引擎关键词广告也将为大企业所控制,关键词广告的将价格不断上升,使

得大量中小企业没有能力使用付费搜索引擎营销,正如其他基于门户网站的网络广告那样,广告主通常

只能是实力雄厚的大型企业。【注:一些搜索引擎显然已经发现了这种问题,并采取了相应的政策让更

多企业拥有投放关键词广告的机会,例如 Google 在 2005 年 1 月初制定了新的“联属政策变化”,规定

“对于采用相同网址的联属机构和母公司,针对每个搜索查询将只展示一个广告。”】   上述是有关付费搜索引擎营销市场发展将受到影响三种论点,另外,还有其他很多可能的不利因素,

比如,不要忘记这样的事实:并不是所有的用户都要依靠搜索引擎来查询信息,他们完全可以利用“品

牌+.com”的方式到服务商网站上直接获取信息;也可能通过其他方式获得有关网站的信息;而且,即

使使用搜索引擎检索,也不一定都要点击搜索结果中的广告,也许只是记下一个 URL……总之,付费

搜索引擎广告并不是企业开展网络营销的惟一选择,用户也不见得非要点击搜索引擎广告不可,尤其是

当用户明白了搜索结果中的很多信息是因为付费才排名靠前的时候,对于这些付费网站的信息就更加不

会信任了,那么企业也不在付费搜索引擎广告上浪费大量资金了,所以,付费搜索引擎市场的前景不容

乐观啊。   上述对付费搜索引擎服务市场的一些悲观观点的分析看起来有一定的道理,当然也并非无懈可击,

有些推测还带有一定程度的的主观性和片面性,也许是杞人忧天,也许是对于搜索引擎服务的飞速发展

有些难以适应,无论出于哪种原因,对于搜索引擎服务商而言,这些观点中所提出的问题,如果能给予

适当的重视并进行深入研究的话,对于付费搜索引擎营销市场的发展也许还会产生一定的促进效果。 作者:冯英健 | 2005 年 01 月 17 日 |

Page 19: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 19

搜索引擎原理

搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。 真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词

(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面

内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将

按照与搜索关键词的相关度高低,依次排列。 现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该

网页的链接的 URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页 A 中并没有某

个词比如“恶魔撒旦”,但如果有别的网页 B 用链接“恶魔撒旦”指向这个网页 A,那么用户搜索“恶

魔撒旦”时也能找到网页 A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接

指向这个网页 A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页 A 在用户搜

索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。 搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排

序。 从互联网上抓取网页 利用能够从互联网上自动收集网页的 Spider 系统程序,自动访问互联网,并沿着任何网页中的所有 URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。 建立索引数据库 由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在 URL、编码类型、

页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关

度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要

性),然后用这些相关信息建立网页索引数据库。 在索引数据库中搜索排序 当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因

为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,

排名越靠前。 后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

搜索引擎的 Spider 一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或

几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更

新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的

具体内容和变化情况就会反映到用户查询的结果中。 互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各

Page 20: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 20

不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千 G 甚至几

万 G。但即使 大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到

30%,不同搜索引擎之间的网页数据重叠率一般在 70%以下。我们使用不同搜索引擎的重要原因,就是

因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我

们无法用搜索引擎搜索到的。 你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的内容。你也应该有这个概念:

如果搜索引擎的网页索引数据库里应该有而你没有搜出来,那是你的能力问题,学习搜索技巧可以大幅

度提高你的搜索能力。

Page 21: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 21

http://www.seo.org.cn/article_view.asp?id=6 搜索引擎技术及趋势

随着因特网的迅猛发展、WEB 信息的增加,用户要在信息海洋里查找信息,就象大海捞针一样, 搜索

引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。目前,搜索引擎技术正成为计算机

工业界和学术界争相研究、开发的对象。

搜索引擎(Search Engine)是随着 WEB 信息的迅速增加,从 1995 年开始逐渐发展起来的技术。据

发表在《科学》杂志 1999 年 7 月的文章《WEB 信息的可访问性》估计,全球目前的网页超过 8 亿,有

效数据超过 9T,并且仍以每 4 个月翻一番的速度增长。用户要在如此浩瀚的信息海洋里寻找信息,必

然会“大海捞针”无功而返。

搜索引擎正是为了解决这个“迷航”问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发

现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜

索引擎提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为“网络门户”。

搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。本文旨在对搜索引擎的关键技术

进行简单的介绍,以起到抛砖引玉的作用。

一、分类

按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:

1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息

摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。

该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信

息量少、信息更新不及时。这类搜索引擎的代表是: Yahoo、LookSmart 、Open

Directory、Go Guide 等。

2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集

和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询

结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、

毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的

代表是:Altavista 、Northern

Light、Excite、Infoseek、Inktomi、FAST/FastSearch、 Lycos、Google;国内代表为:“天网”、

悠游、OpenFind 等。

3.元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,

将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的

全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引

擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是 WebCrawler、InfoMarket 等。

二、性能指标

我们可以将 WEB 信息的搜索看作一个信息检索问题,即在由 WEB 网页组成的文档库中检索出与用户

查询相关的文档。所以我们可以用衡量传统信息检索系统的性能参数-召回率(Recall)和精度

(Pricision)衡量一个搜索引擎的性能。

Page 22: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 22

召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统(搜索引擎)

的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统(搜索引擎)的

查准率。对于一个检索系统来讲,召回率和精度不可能两全其美:召回率高时,精度低,精度高时,召

回率低。所以常常用 11 种召回率下 11 种精度的平均值(即 11 点平均精度)来衡量一个检索系统的精

度。对于搜索引擎系统来讲,因为没有一个搜索引擎系统能够搜集到所有的 WEB 网页,所以召回率很难

计算。目前的搜索引擎系统都非常关心精度。

影响一个搜索引擎系统的性能有很多因素, 主要的是信息检索模型,包括文档和查询的表示方法、

评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制。

三、主要技术

一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。

1.搜索器 搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日

夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,

所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。目前有两种搜集信息的策略:

● 从一个起始 URL 集合开始,顺着这些 URL 中的超链(Hyperlink),以宽度优先、深度优先或启

发式方式循环地在互联网中发现信息。这些起始 URL 可以是任意的 URL,但常常是一些非常流行、包含

很多链接的站点(如 Yahoo!)。

● 将 Web 空间按照域名、IP 地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索。 搜

索器搜集的信息类型多种多样,包括 HTML、XML、Newsgroup 文章、FTP 文件、字处理文档、多媒体信

息。

搜索器的实现常常用分布式、并行计算技术,以提高信息发现和更新的速度。商业搜索引擎的信息

发现可以达到每天几百万网页。

2.索引器

索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索

引表。 索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、URL、更

新时间、编码、长度、链接流行度(Link

Popularity)等等;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索

引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较

容易提取,因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切分。

在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分度,同时用来计算

查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引项的提取方法有统计法、

概率法和语言学法。

索引表一般使用某种形式的倒排表(Inversion List),即由索引项查找相应的文档。索引表也可

能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或接近关系(proximity)。

索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现即时索引

(Instant Indexing),否则不能够跟上信息量急剧增加的速度。索引算法对索引器的性能(如大规模

峰值查询时的响应速度)有很大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量。

3.检索器 检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关

度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。

检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。 4.用户接

口 用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便

用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使

Page 23: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 23

用人机交互的理论和方法,以充分适应人类的思维习惯。

用户输入接口可以分为简单接口和复杂接口两种。 简单接口只提供用户输入查询串的文本框;

复杂接口可以让用户对查询进行限制,如逻辑运算(与、或、非;、-)、相近关系(相邻、NEAR)、域名

范围(如.edu、.com)、出现位置(如标题、内容)、信息时间、长度等等。目前一些公司和机构正在考

虑制定查询选项的标准。

四、未来动向

搜索引擎已成为一个新的研究、开发领域。因为它要用到信息检索、人工智能、计算机网络、分布

式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术,所以具有综合性和挑

战性。又由于搜索引擎有大量的用户,有很好的经济价值,所以引起了世界各国计算机科学界和信息产

业界的高度关注,目前的研究、开发十分活跃,并出现了很多值得注意的动向。

1.十分注意提高信息查询结果的精度,提高检索的有效性 用户在搜索引擎上进行信息查询时,

并不十分关注返回结果的多少,而是看结果是否和自己的需求吻合。对于一个查询,传统的搜索引擎动

辄返回几十万、几百万篇文档,用户不得不在结果中筛选。解决查询结果过多的现象目前出现了几种方

法:一是通过各种方法获得用户没有在查询语句中表达出来的真正用途,包括使用智能代理跟踪用户检

索行为,分析用户模型;使用相关度反馈机制,使用户告诉搜索引擎哪些文档和自己的需求相关(及其

相关的程度),哪些不相关,通过多次交互逐步求精。二是用正文分类(Text Categorization)技术将

结果分类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。三是进行站点类聚或内

容类聚,减少信息的总量。 2.基于智能代理的信息过滤和个性化服务

信息智能代理是另外一种利用互联网信息的机制。它使用自动获得的领域模型(如 Web 知识、信息

处理、与用户兴趣相关的信息资源、领域组织结构)、用户模型(如用户背景、兴趣、行为、风格)知

识进行信息搜集、索引、过滤(包括兴趣过滤和不良信息过滤),并自动地将用户感兴趣的、对用户有

用的信息提交给用户。智能代理具有不断学习、适应信息和用户兴趣动态变化的能力,从而提供个性化

的服务。智能代理可以在用户端进行,也可以在服务器端运行。

3.采用分布式体系结构提高系统规模和性能 搜索引擎的实现可以采用集中式体系结构和分布式

体系结构,两种方法各有千秋。但当系统规模到达一定程度(如网页数达到亿级)时,必然要采用某种

分布式方法,以提高系统性能。搜索引擎的各个组成部分,除了用户接口之外,都可以进行分布:搜索

器可以在多台机器上相互合作、相互分工进行信息发现,以提高信息发现和更新速度;索引器可以将索

引分布在不同的机器上,以减小索引对机器的要求;检索器可以在不同的机器上进行文档的并行检索,

以提高检索的速度和性能。

4.重视交叉语言检索的研究和开发 交叉语言信息检索是指用户用母语提交查询,搜索引擎在多

种语言的数据库中进行信息检索,返回能够回答用户问题的所有语言的文档。如果再加上机器翻译,返

回结果可以用母语显示。该技术目前还处于初步研究阶段,主要的困难在于语言之间在表达方式和语义

对应上的不确定性。但对于经济全球化、互联网跨越国界的今天,无疑具有很重要的意义。

五、学术研究

目前搜索引擎领域的商业开发非常活跃,各大搜索引擎公司都在投巨资研制搜索引擎系统,同时也

不断地涌现出新的具有鲜明特色的搜索引擎产品,搜索引擎已经成为信息领域的产业之一。在这种情况

下,对搜索引擎技术相关领域的学术研究得到了大学和科研机构的重视。如 Stanford 大学在其数字图

书馆项目中开发了 Google 搜索引擎,在 Web 信息的高效搜索、文档的相关度评价、大规模索引等方面

作了深入的研究,取得了很好的成果。 NEC 美国研究所的 Steve Lawrence 和 C. Lee Giles 1998 年

Page 24: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 24

和 1999 年连续两年在《自然》和《科学》杂志上撰文对搜索引擎技术的研究进行评述。著名的信息检

索会议 TREC 也从 1998 年开始增加了 Web Track 课题,以考察 Web 文档与其它类型文档在检索性质上的

不同之处,并将测试在大规模的 Web 库(如 100G 字节)上进行信息检索的算法性能。 由美国

Infornotics 公司主办的搜索引擎国际会议从 1996 年开始,每年举行一次,对搜索引擎技术进行总结、

讨论和展望,参加者有著名的搜索引擎公司、大学和研究机构的学者,对搜索引擎技术起到了很好的推

动作用。另外象 IEEE 主办的国际万维网会议、人机交互会议已有越来越多关于搜索引擎技术研究的文

章发表。

国内先后有北京大学、清华大学、国家智能研究中心等高校和研究单位对搜索引擎技术开展研究,

并开发出了几个较好的系统。如由北京大学计算机系网络研究室开发的“天网”中英文搜索引擎(

http://pccms.pku.edu.cn:8000/gbindex.htm),在系统规模及系统性能方面达到了国外中型搜索引擎

系统的技术水平,为国内用户提供了很好的互联网搜索服务,受到了用户的好评

Page 25: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 25

http://www.zhengcompany.com/cn-search-engine-world/index.htm

全球十大主要搜索引擎工作原理 英文搜索引擎简介 全世界有成千上万个被称为“搜索引擎”的网站。实际上,这些网站中真正是搜索引擎的不过 10 个。

其中 著名的是 Google, Yahoo, Alltheweb, AltaVista 和 Inktomi 等。其他网站的搜索结果都来自于这些搜

索引擎,或者他们之间的搜索结果交叉使用(点击查看英文主要搜索引擎关系图)。为了让您更好地进

行网站推广,我们以下将对其作逐一介绍。 Google 全球 大的 (机器)搜索引擎。主要搜索结果将列入 AOL, Netscape, iwon 和 Go. Google 在对

网站进行排名时不仅衡量关键词与页面的匹配度,也考虑外部链接。某个网站拥有越多的外部链接,说

明它越受欢迎。于是,Google 将其作主要因素来考虑,并发明了 PageRank 来专门衡量该外部链接。>> 更多 Yahoo 世界 早的分类目录,也是 大的门户网站。它的搜索结果 初来自于 Google,后采用 Inktomi(已被雅虎收购)提供的结果。Yahoo 现在开发了自己的搜索技术,称为 Yahoo Search Technology (YST)。搜索结果个数与 Google 相当,>> 更多 MSN 录属于微软 公司。MSN 提供的 Hotmail 和 MSN Message 极受欢迎。但 MSN 没有自己的搜索引

擎,一直采用其他搜索引擎的结果。比如,MSN 主要搜索结果来自于 Inktomi,竞价广告原由 LookSmart提供,但于 2004 年初改由 Overture 提供。有证据表明,MSN 正在开发一种叫做"MSN Bot"的自己的搜

索引擎 >> 更多 AOL 即美国在线,是美国也是世界上 早的门户网站之一,几年前已与时代公司合并,成为美国在线

-时代华纳公司。AOL 目前的主营业务是 ISP。其搜索结果 全部来自于 Google 提供。也就是说,有良

好的 Google 排名也有良好的 AOL 排名。 Lycos 西班牙公司,全称为 Terry Lycos,是全世界 早的搜索引擎之一。但目前,Lycos 已放弃自己

开发的搜索技术,而主要搜索结果来自于 Alltheweb。另外,其竞价排名结果来自于 Google 的右侧广告。 Ask Jeeves 规模不大,但很有特色的搜索搜索。Ask 是 DirectHit 的母公司,于 2001 年收购 Teoma 搜

索引擎,并全部采用其搜索结果。奇怪的是,Ask 的竞价排名结果却仍然来自于 Google 的右侧广告。 Overture 早的付费搜索引擎(竞价排名搜索引擎)。搜索结果被 Yahoo, MSN 等采用。Overture 收

购了 Google 的对手 Inktomi 后被 Yahoo 收购,是 Google AdWords 目前 大的竞争对手。 如何在 Overture做竞价排名广告

Page 26: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 26

Netscape 即网景公司,Netscape 初被广大用户认知是因为它的 Netscape 浏览器。但网景公司研发的

浏览器现在几乎完全被微软的 Internet Explorer 浏览器逐出市场。只有少数的网民(不使用微软操作系

统的)使用 Netscape 浏览器。Netscape 的搜索结果 全部来自于 Google. 另外,全世界 大的开放式目

录 DMOZ 录属于网景公司。 AltaVista 全世界 古老的搜索引擎之一,中国网民很难访问。该搜索引擎已于 2003 年被 Yahoo 收购。

同时被 Yahoo 收购的还有 AllTheWeb。 微迪认为,AltaVista 不久可能销声匿迹,因为 Yahoo 并没有采

用 AltaVista、Alltheweb 或者 Inktomi 的搜索结果,而是重新开发全新的搜索技术。 Inktomi 不向终端用户开放,只对搜索引擎提供搜索结果。于 2003 年被 Overture 收购(Overture 后又

被 Yahoo 收购)。在 2004 年 Yahoo 开发自己全新的搜索引擎技术之前,Inktomi 还是全球第二大搜索引

擎,其搜索结果被 Hotbot, MSN 等著名的网站采用。

Page 27: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 27

http://www.seo.org.cn/article_view.asp?id=4 第三代搜索引擎技术与 P2P 第二代 搜索引擎虽然比第一代在搜索速度、针对多种语言信息的扩展等方面有所改进,在以自然语言

为查询语言方面也做了一些探索。然而,随着 Internet 的强势发展,网上庞大的数字化信息和人们获

取所需信息能力之间的矛盾日益突出。IDC 在 2001 年下半年公布的一份报告表明,前期被大肆宣传为

“使用简便易用,搜索结果丰富”的搜索引擎技术正在被信息更集中的局域网取代,因为大多数搜索系

统的表现与用户的期望值相差太大,诸如数据量高速增长的视频、音频等多媒体信息的检索,现在仍然

是无法突破的难题。

一般的公共搜索引擎只能查到 HTML 格式,主要的原因是搜索引擎的自动排序软件 Spiders 蜘蛛程

序,只能接受这种格式的网页。这意味着,在企业内部的局域网上,任何没有使用 HTML 格式的信息将

无法被外部的搜索引擎查到。这就是为什么像 PPT、Word、PDF、电子邮件等文件,以及 ERP、CRM 等应

用软件的数据库的信息会长期的“沉没”在信息的海底中。

如何解决这些难题已成为第三代搜索引擎探索的方向。一个好的搜索引擎不再仅凭借数据库大小、

更新频率、检索速度、对多语言的支持这几个基本特性来衡量,随着数据库容量的不断膨胀,如何从庞

大的资料库中精确地找到正确的资料,被公认为是下一代搜索技术的竞争要点。比如在某搜索引擎中查

询“旅游”这个词,返回的信息超过一百万条,假定一个人 3 秒钟查看一个网页,就算只查看其中 10%

的网页,一刻不停地看下去也需要十多个小时。

好在搜索引擎技术发展迅速,诸如智能化、个性化特色的新型引擎与过去的搜索引擎相比有了很大

的区别。智能搜索可以通过对搜索内容相关性的自动学习,来提高搜索结果的准确度。不过,现在还没

有一种可行的方式真正实现智能化,很难将所需信息一定显示在前两三页的搜索结果之中。

另一个颇受瞩目的搜索技术就是将 P2P 技术应用到网页的检索中。通过共享所有硬盘上的文件、目

录乃至整个硬盘,用户搜索时无需通过 Web 服务器,不受信息文档格式的限制,即可达到传统目录式搜

索引擎无可比拟的深度(传统引擎只能达到 20%~30%的网络资源)。美国一家新兴搜索引擎设计公司

i5 Digital 在 两 年 前 已 正 式 推 出 了 依 据 对 等 搜 索 理 念 的 商 业 性 搜 索 引 擎

Pandango(www.pandango.com),但至今仍未进入主流搜索引擎阵容的事实,则说明 P2P 搜索目前也只能

称为是未来的技术。

“P2P 搜索这个理念我 早是 1997 年底在 Infoseek 听到的,当时的 Infoseek 里已经有人提出并

开始考虑这种搜索技术了”,李彦宏表示,“各个网站上都有一个自己的小的搜索引擎,大家相互之间

可以进行沟通,如果这个引擎查不到,可以通过其他的引擎查,就是这样的一个概念。但是到目前为止,

它离实际的应用还差得非常远,主要是违反了关键性指标中有关速度的问题。由于有很多这种小的相互

独立又相互链接的引擎,其速度与集中式管理的搜索引擎相比肯定会差很多”。

商业应用与学术研究之间总会存在一定的距离,但这并不是表示商业界不重视对技术的追求,尤其

是像 Google 这些已经处于该领域金字塔塔尖的公司。Google 拥有一个开放性数据库,内含一百多个未

来需要实施的项目,这些项目由五十位计算机科学博士负责推进。2002 年 6 月,Google 专门成立了“实

验室”,以展示他们在互联网搜索领域里 新研究的技术,并发布在互联网(labs.Google.com)上供公

众试用,广泛收集用户的反馈意见。实验室里已经展示的项目,包括键盘检索、语音检索等等。

Page 28: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 28

或许有些人会认为,这些所谓的实验项目似乎看不出搜索引擎技术将在观念上进行大的转变,实际

上,搜索引擎技术在 8 年多的时间里一直是以一个渐变的过程在发展。“一个搜索引擎并不是说某一方

面好就能受大众喜欢,必须方方面面做到了才行”,李彦宏这么认为,“现在搜索还不能完全满足人们

的需求,因为需求太多样化,很难一一满足”。这也是主流搜索引擎目前更重视在细节上下功夫的原因。

无论如何,包括 Google 的佩杰在内的搜索技术领域的领先者都认为, 终的搜索引擎将是智能化

的,能够理解世界上的所有事物。佩杰还是 Web 服务技术领域积极的参与者,他正在尝试将 Web 服务技

术应用到搜索当中,以解决跨平台、多格式的信息检索。而我们现在所见到的,主流搜索技术把注意力

集中在提升自身搜索引擎质量、扩展应用范围,比如支持图片检索、PDA 等移动手持设备的检索,这些

都将成为下一代技术实现过程中必不可少的步骤。

Page 29: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 29

http://www.seo.org.cn/article_view.asp?id=10

搜索引擎优化之链接广泛度(Link Popularity)全攻略 Internet 的变化日新月异,其庞大的容量对搜索引擎的索引更新和服务无疑是一种考验。搜索引擎也

一直在努力寻求创新的途径,例如以关联站点的广泛度为基础进行排名,以此抵消对搜索引擎的 spam

伎俩和对页面因素恶意操纵的不良竞争结果,达到为用户提供 为精准和相关的搜索结果的目的。如今,

通过将链接广泛度这个因素整合到其排名算法中,搜索引擎(例如 Google)已然能够为冲浪者们提供卓

越的搜索经验。

但这并不意味着我们就可以对页面因素和网站内容掉以轻心。正确的理解应该是:对于两个页面优化程

度相同,内容具有相同吸引力的站点,在搜索引擎排名中胜出一筹的应当是那个链接广泛度(LP)较高的

站点。简言之,象以往那样只要优化了页面就能获得非常好的排名的方法已经行不通了。你若想使自己

的网站获得 TOP 位置,不但需要对页面进行深入优化,同时还需要增强你网站的目标链接广泛度。

链接广泛度 VS 链接广泛度分析

一个站点的链接广泛度是指该网站上外来链接的总数量。搜索引擎必须对这些外部链接进行跟踪索引。

就在不久前,人们还相信一个站点的链接广泛度只决定于该站点外部链接的“数量”。即外部链接数越

多排名越靠前。

--这只是故事的前半部分,搜索引擎软件和它们的开发者可不是聋哑人,他们已然意识到有很多网站管

理员籍由虚假链接等不正当手段来达到提升其排名的目的。所以搜索引擎摈弃了这种只看数量不看质量

的做法,转而将链接广泛度分析作为评判网站排名的参数之一。

所谓链接广泛度分析(以下简称“链接分析”)是指对链接数量和质量的评估及分析。链接分析与链接广

泛度的不同点在于:链接广泛度指一个网站上外部导入链接的数量,而链接分析则涵盖了外部导入链接

的数量和质量这两个方面。我们可以看出,在对待一个网站的外部链接的态度上,链接分析把链接的数

量提到了首位。

在决定哪个页面对特定关键短语更具关联度方面,链接分析是一种极为有用,既简单而又不失安全的方

法。这种方法精准地决定了你所在行业的其他人对你的网站的认可态度。

链接数量 VS 链接质量

初的链接计算是基于链接数量的,即一个网页外部链接数量越多,在搜索引擎上的得分也就越高。原

理如下:

假设 A,B 两个网页。A 有 2 个外部链接,B 有 10 个外部链接。因为 B 的外部链接数远远多于 A,表明

有更多站点指向 B,则搜索引擎将认为页面 B 比页面 A 更具“重要性”或“权威性”,即 B 比 A 具有更

高的投票权值(Voting Power)。有趣的是:由于网页具有将其投票权值平均分配给它的所有导出链接的

特性,对 A和 B 来说,在相同导出链接数量的前提下,搜索引擎认定 B 的导出链接比 A 更具重要性。换

Page 30: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 30

言之,PR 值高而且导出链接数又少的网站成为理想的链接目标。

后来链接质量分析这一环节被引入了链接分析系统,并且把链接的质量和关联度都提到了首位。因为搜

索引擎认为:一个低劣的网站几乎没可能获得高质量的外部链接。对于链接的质量,不同搜索引擎有其

不同衡量方法,但要点是相通的-–只有那些与你的目标关键词关联的高质量站点的外部链接才是 理

想的链接目标。即使获得上百个质量低劣的或内容毫不相干的站点的链接也抵不上一个高质量且内容高

度相关或互补的站点的链接。

内链/导入链接/导出链接

内链(Internal Links)

所谓内链,即内部链接。指的是同一站点内网页之间的相互链接。可别小瞧内链,它在整个网站,尤其

是对一些深层页面的浏览和检索扮演着至关重要的角色。内链在 GOOGLE 中的作用亦不可小觑,如同一

个网站会将其 PageRank 值传递给链至它的站点一样,内部链接也会将其 PR 值传递给所链页面。所以当

你通过创建外部链接而获得了更高的 PR 值时,如果你的网站导航结构设计合理,那么你的其它内部页

面亦能够得到一定的 PR 值。

此外,大多数搜索引擎比较关注链接文本中出现的关键词。假设有一个摄像摄影公司,其首页的三个内

链文字分别为:“婚礼摄像”、“企业专题庆典摄像”、“生日/寿庆摄像”。这些链接文字不但清楚地表明

了所链接的内容,即它们究竟是什么网页,同时又充分利用目标关键词进行了优化。然而有很多网站忽

略了对链接文字的优化,象返回主页链接只写着“主页”两个字的例子实在是屡见不鲜。

后链(backlink)/导入链接(inbound links)/导出链接(outbound links)

导入链接和后链(也叫逆向链接)的含义相同,指链至你网站的站点,也就是我们一般所说的“外部链

接”。而当你链至另外一个站点,那么这个站点就是你的“导出链接”。所以导出链接就是你向别的网

站提供的本站链接。

理论上讲搜索引擎的链接分析机制只关心你的“导入链接”,即究竟有多少站点链到了你的网站上。至

于你向别的网站提供了多少本站链接,这并不是它们关心的问题。所以导出链接不会对排名造成影响。

--实际上我们却发现,对你辛苦得到的“导入链接”,即使它们具有同等重要性(PR 值相同),Google

也并不是一视同仁,只有那些导出链接较少的“导入链接”才能使它产生好感。而在 Inktomi 中,一个

有导出链接的站点其排名要比没有导出链接的站点稍好一点。为什么呢?--在“决定链接得分的其它因

素”一节中,我们再展开讨论。

如何检查 Link Popularity

不同的搜索引擎对于链接广泛度(Link Popularity)的计算方法和分析方法都是不同的。这也就是为什

么你可能从 AltaVista 上得到很高的 LP 值,而在 Google 上却未必如此。

接下来,我们就以 http://www.yourdomain.com 为例,介绍如何通过一些知名搜索引擎检查你的链接

广泛度(注:指令中无须 http://www 前缀):

Page 31: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 31

Altavista & Infoseek

LINK: yourdomain.com

所有链至该主域的站点都将被列出来。

由于一个站点的不同页面之间是互相链接的,所以上述指令 后得到的结果中也包括了那些链接到你的

索引(主)页的内部页面(我们称之为内链)。如果只想看到不包含内链的结果,可输入如下指令:

LINK:yourdomain.com -URL:yourdomain.com

如欲查看一特定页面的链接广泛度,可在 Altavista 中输入如下指令:

LINK:yourdomain.com/filename.htm

Google

LINK:yourdomain.com

结果为链至该主域的所有站点,包括内链。Google 未提供消除内链的指令。

Inktomi 及其隶属搜索引擎如 HotBot, AOL, iWon 和 MSN

LINKDOMAIN:yourdomain.com

结果为链至该主域的所有站点,包括内链。

LINKDOMAIN:yourdomain.com -DOMAIN:Yourdomain.com

结果为链至该主域的所有外部站点。

Fast/Alltheweb

LINK.ALL:yourdomain.com 或 LINK:yourdomain.com

结果为链至该主域的所有网页,包括内链。

如何策划你的外部链接

在网站的搜索引擎优化中,链接广泛度可谓 难也是 耗时间一个环节.我们建议大家从下面这几个方

面着手,合理而行之有效地策划你的外部链接:

1) 确保网站提供了实用和高质量的内容:

万变不离其宗,无论排名算法再怎么变,网站内容始终是克敌制胜的 大法宝。人们总是乐意去跟那些

内容丰富而独特的站点交换链接。所以,如果你的网站内容还不那么充足,那就尽量多加入内容,努力

让它变成一个真正的“内容提供者”吧。可撰写一些与你的网站关键词密切相关,而又使访问者感兴趣

的文章和指南。如果没时间做而且又舍得花大价钱,那就雇一个专业的撰稿人吧,切忌在这些文章中大

肆宣扬你的网站,而是应当遵循真正地为访问者提供实用信息的原则。记住,你的 大资产还是你的网

站内容。一旦网站提供了大量实用信息,亦会大大增加获得高质量链接的机会。

2) 向高质量站点提交网站:

搜索引擎如 Google,流行网站门户如 MSN,目录检索如 Yahoo 和 DMOZ(一旦 DMOZ 收录了你的网站,那

你就等着被 Netscape Search,AOL Search,Google,Lycos,HotBot,DirectHit 等一些大型搜索引擎

和门户网站收录吧。) 热门网站如 EBay 和 Amazon,新闻网站如 CNN,博客(Blog)网站以及与你的网站

Page 32: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 32

主题相关的网站。提交之前,针对主要关键词对网站的标题和描述元标记进行合理优化是必不可少的。

此外,那些与你站点具有相关性并允许提交的专业搜索引擎和网络分类目录都是你的理想链接对象。用

“submit a link”和你 重要的关键词(譬如“Foam Machines”)进行搜索,你会得到一个与你关键词

关联的链接页面的站点列表。

尽可能向更多的主题网络目录、行业目录及普通商务目录、黄页、白页提交你的网站。

要想从直接竞争者那里获得链接不太现实。我们可以另僻蹊径,转而同那些与自己网站具有互补性和相

关性,同时又无直接竞争性的站点交换链接。对一家鞋业公司来说,就可以向皮革业方面的有关协会提

出链接交换的请求,从而有机会赢得一个来自相关刊物或新闻站点的链接。

3) 友情链接/互惠链接:

提升一个站点链接广泛度的 古老 上乘的方法就是请求与其它站点交换链接(也称互惠链接)。你可以

通过电子邮件或其它方式直接与网站主人联系,请求友情换链。可向对方提供一些免费资源,如一个实

用程序或一份可下载报告等。具体实施细则和注意事项将在后面详细讨论。

4 其它方法:

a) 拥有一个高质量的 Newsletter 或相关文献区也是提升链接得分的一个好办法。别忘了把你的

Newsletter 上的链接提交给 Newsletter 专用的网上目录。倘若链到你的网站能够为他们自己的网站的

访问者提供实用信息,他们又何乐而不为呢?

b) 围绕目标关键词在一些顶级站点的电子杂志或资源区里发表文章,也是获得高质量链接的有效途径

之一。在文章中作者简介一栏下,别忘了放上你的链接和能吸引人眼球的网站描述。一方面你的文章可

为这些网站提供了有价值的内容,同时也为光临这些网站的访问者打开了通向你自己网站的大门。这样

不单可以获得互惠链接,亦有可能获得目标客户。

c) 实施或参与“奖励计划”(Awards Program)。赢家可得到一个高质量链接作为奖励。该计划在提升

链接得分上效果奇佳。

d) 设立一个讨论区。请求那些对同一个关键短语相关联的站点链至该讨论区。

e) 可以给某个网站写一封推荐信,然后请求该网站的主人将其网站链至你的站点作为互惠交换。应慎

用推荐。

f) 争取生意链中的对象,包括合作伙伴,分销商,代理商,供应商等的站点链接。可为客户提供小小

折扣来获得他们的链接。

g) 提供 HTML 源代码信息。这样链接交换对象只需简单复制这些代码并嵌入自己网页便可轻松交换链

接。

h) 链接的底线—应该多少才够?--只要比你的竞争者多一个高质量的外部链接就 OK。

链接策略之雷区-恶意链接技术

恶意链接(Link Spamming:也称“作弊链接技术”)指为提高网站在搜索引擎中的排名而采用欺弊方法

来提升链接得分的行为。

为了给用户提供 为相关和精准的搜索结果,避免质量低劣和不相关的网页在搜索结果中出现,搜索引

Page 33: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 33

擎总是不断吸纳新的机制来完善其排名算法。只要引入一种新机制,就会有新的作弊技术“应运而生”。

象链接农场(link farms),大宗链接交换程序(bulk link exchange programs),交叉链接(Cross Link)

等就是在链接机制下催生的“怪胎”。

“链接工厂”(亦称“大量链接机制”)指由大量网页交叉链接而构成的一个网络系统。这些网页可能来

自同一个域或多个不同的域,甚至可能来自不同的服务器。一个站点加入这样一个“链接工厂”后,一

方面它可得到来自该系统中所有网页的链接,同时作为交换它需要“奉献”自己的链接,籍此方法来提

升链接得分,从而达到干预链接得分的目的。

还有一些人故意向留言簿和访客簿大量发贴(包含了自己网站链接)来赚取链接。这种做法也是搜索引擎

所深恶痛绝的。

这些方法虽可保证链接数量,但却无法保证链接质量。因而排名算法中引入对链接质量的分析无疑是点

了它们的死穴。不独如此,如今搜索引擎发现它们已然不费吹灰之力。只要发现,不管你是有意还是无

意,“链接工厂”中的所有站点都难逃干系。

友情链接/互惠链接

友情链接的对象:

怎样才能找到那些和你网站内容相似并且公认质量较好的网站呢?究竟什么样的页面对搜索引擎来说

是有分量的?--再没有比搜索引擎更能知道这个答案的了。用你网站上 重要的关键词(就是你 想

被访问者找到的那个搜索词)在那些主要的搜索引擎上进行搜索。在搜索结果的前两到三页列出的就是

搜索引擎认为与你键入关键词 相关,同时又是 流行的一些网站。而且,由于这些页面拥有很高的排

名,所以一般访问量也很大。如此一来,如果你能让这些页面链向你的站点,不但能使你的广泛度得到

提升,还有可能得到一些来自这些网页的访问者。反之,大量无关的或者低质量网站的链接非但无益于

你的网站,反会降低你的链接得分。

互惠链接页的好处:

想要得到,总是需要付出的。如果你想要“导入链接”,就必须付出你的“导出链接”作为交换。所以

好在你的网站上放一个互惠链接页。你可以把它叫做“相关链接页”,“资源页”等等。

如果你向别的网站请求互惠链接时,你可以先把对方加上去,然后在这封邮件中告诉对方你已经将他加

入你的互惠链接页,并附上详细信息,包括 URL、网站标题及描述,这样一来,你的互惠请求不但不会

被怠慢。反而会得到更加认真的对待。

记住:你的互惠对象应该是那些 PR 值高而且导出链接数又少的网站。只有这样的链接才能真正提升你

在搜索引擎中的地位。如果只是注重链接的数量,无异于舍本逐末,你的互惠页也将是形同虚设。

注意事项

1) 保证链接网站的质量和相关性

每个链接对象都应视做一个合作伙伴。切忌舍本逐末,只求数量不求质量。勿向 FFA 站点提交,远离那

些被搜索引擎视做“坏邻居”和质量低劣的站点。理想链接对象应该是那些与你的网站有一定相关性或

互补性的高质量的网站。这样的链接不但相当于获得了一个网站的推荐,从而增加了访问者的可信度,

而且一定程度上也表明了业内的认知和认可。

Page 34: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 34

2) 尽量使链接简单化和易操作

应使链接步骤尽可能简单明了。可以在邮件中提供链接代码,对方只要简单的拷贝和粘贴就 OK 了。同

时还应该提供你网站的 URL,网站标题及描述。记住:你所提供的网站描述应利用链接关键字的优势,

围绕 重要的关键词经过了精心的优化。

3) 切忌邮件泛滥

人们更愿意看到一封有人情味的私人邮件,切忌向大量站点发送内容雷同的普通邮件来请求互惠链接。

你至少应花上几分钟来浏览对方网站,并在邮件中说明为何你们之间的链接交换可使双方都得益。以诚

恳和实证来说服和打动对方。譬如,我可以向一个做搜索引擎提交服务的网站请求交换链接,告知对方

我是做搜索引擎优化服务的。站点的互补性将使得对方很难拒绝你。

4) 增加被认知程度

如果有专门的互惠链接页,可以先把对方网站加入你的互惠链接页,然后告诉对方你已经将他加入你的

互惠链接页,并附上详细信息,包括 URL、网站标题及描述。这样的话网站一般至少会认真考虑你的请

求。但不要把你的互惠链接页“雪藏”起来。不难想象,如果一个真实的访问者都很难找到该网站上的

外部链接,那么对搜索引擎亦可想而知。谁愿意跟这样的网站打交道?

决定链接分析的其它因素

链接分析系统中涉及到的其它因素还包括:链接的文本内容,链接站点的威信度,导出链接的数量及各

链接站点之间主题的相似性。

链接的上下文

一个链接的上下文不单指链接的文本内容,同时包括了链接周围的文本内容。链接分析系统通过检查链

接上下文内容来确定网站与其链接对象之间的关联度。我们看下面几个具有相关性的例子。

例 1:假设有一个“礼品店”网站,如果它有一个链接文字为“LUNA 鲜花礼品店”的导入链接,那么搜

索引擎就会认为:LUNA 鲜花礼品店与关键词“礼品店”相关联。

例 2:假设在新闻门户网站上有一个与“鲜花礼品店”相关的网页,其中有一段内容为:

国际速递鲜花礼品店/网上鲜花礼品速递:

LUNA 鲜花礼品店

ABC 便民连锁礼品店

由于“礼品店”与 LUNA 和 ABC 礼品店的链接非常接近,所以这两个站点都会被搜索引擎视做与“礼品

店”相关联。

链接主题相似性

一个网站同被链接的外部站点之间应具备一个相似的主题,或者说是共通性。假设礼品店网站上有两个

外部链接:一个是搜索引擎优化技巧页,一个是 LUNA 鲜花礼品店。根据链接关键词“礼品店”搜索引

擎优化技巧页与礼品店内容毫不相干,所以这个链接对礼品店并无实际增益。LUNA 鲜花礼品店则因为

与礼品店网站具有相似主题而使链接得分得到有效提升。

Page 35: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 35

导出链接的数量

a) 网站自身的导出链接数量

网页具有将其投票权值平均分配给它的所有导出链接的特性,因而对一个网站自身而言,它奉献的导出

链接数量越多,则该网站其它内部页面的受益就越少。所以页面上的导出链接数量应受到合理控制。

b) 外部链接站点上的导出链接数量

对于一个网站上的导入链接来说,在 PR 值相同的情况下,其导出链接数量与你能够从中获益的份额是

呈反比关系的。也就是说,获得导出链接少的站点的链接更能使你受益。正因如此,那些从 FFA 或链接

工厂得来的外部链接(和上百甚至上千人分享同一个网页的 PR 值)对你并无实际价值,而且很多顶级搜

索引擎都把这些链接视作垃圾链接。理想的链接目标应该是那些 PR 值高而且导出链接数又少的网站。

在“如何提高网站的 Google 页面等级(PR 值)”一文中亦对此有详细分析和阐述。

链接是否会造成 PR 值的流失

我们常常可以发现这样的阐述:“一个网站在努力获取外部导入链接以提升 PR 值的同时,也在由于其

‘导出链接’而使 PR 值产生一定程度的流失。但由于大多数‘导出链接’都是在交换链接的行为中产

生的,所以这是一个合理的‘流失’。.”

链接究竟是否会造成 PR 值的流失?有人认为这是一种概念上的误解。他们认为:假设一个网站有一个

PR 值为 7 的页面(暂且称之为 PR7 页),即使在这个页面上放置了大量导出链接,其 PR 值仍为 7,并不

存在“流失”的问题。但是,假设该网站上又有一个 PR 值是 4 的页面(暂且称之为 PR4 页),而且想通

过 PR7 页来提升 PR4 页,在这种情况下,如果在 PR7 页上只有一个链到 PR4 页的链接,那么 PR7 页的全

部“投票”权(voting power:也就是我们前面所说的“重要性”或“权威性”) 都计入 PR4 页了。但

倘若 PR7 页上有两个链接而不是一个,--一个外部链接和一个 PR4 页的内部链接--那么 PR7 页对 PR4

页的“投票权”就不是 100%而是 50%了(投票权被平均分配给该页上的所有链接,所以各得一半)。结论

就是:“遭受”流失的并不是网页的 PR 值,而是网页所在页面的所有链接的“投票权值”受到影响。

一个页面上的链接数越多,该页所能给予这些链接的平均“投票权值”也就越小。

而 Chris Ridings 在其“论页面等级是否存在流失问题”的文章中指出:虽然 PR 值是基于网页而不是

网站的,但既然一个单一的网页上几乎“必然”地包括内部或外部的链接,而且网站本来就是一个由网

页组成的系统,因而并不能排除网页的 PR 值在网站中循环并影响其它内部页面的可能性。结论就是:

PR 值的“流失”问题确实存在,但属于合理流失,并不会给网站造成直接影响。所以为确保其它内部

网页的权益,宜把导出链接数量控制在 10 到 15 个之内为 佳。Google 认为一个页面的 大导出链接

数量不应超过 100 个。

另外还需注意一点:不要在首页设置过多的导出链接。我们发现有一些网站本来 PR 值很高(6 或 7),在

搜索引擎尤其是 Google 中的排名很好,亦有很高的访问量。但后来把大量导出链接都放在首页上了,

结果 PR 值变成灰色,很明显是被 Google 定性为 affiliated program 无收录价值的网站。

链接分析机制的弊病

Page 36: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 36

链接分析机制的弊病之一在于:在一个纯粹的链接分析机制中,对一个新站点而言,即使这个新站点提

供的网站内容比它的所有竞争者都要深入和高质量,它也很难在搜索结果中获得理想的排名。所谓新不

如旧。这是由于新站点 初只能通过付费收录或被如 Yahoo!,LookSmart,NBCi,Inktomi 或 ODP 等主

要网络分类目录收录来建立其外部链接,链接数量上自然会受到限制。这一点不但表明在对网页质量的

衡量上,链接分析并不是一种十分可靠的方法,而且说明了为什么对于那些新发布的网站来说,这种评

审方法有失公允。

链接分析机制的另外一个弊病在于:由于搜索引擎的 SPIDERS 在读取深层网页上有难度,所以大多数搜

索引擎只检索网站头两层网页上的信息,对于深层页面上的链接一般检索不到。

对链接分析的一点补充

我们常常遇见这样的情形:有时候你可以通过好几个不同的 URL 到达一个主页(页面),也就是说同一个

页面可能有不止一个 URL。比如下面这四个 URL 地址其实指向的是同一个鞋店的主页:

http://shoesshop.com/

http://www.shoesshop.com

http://shoesshop.com/index.htm

http://www.shoesshop.com/index.htm

问题在于:搜索引擎的链接分析系统是否视它们为同一个 URL?答案是:链接分析体系是以 URL 为单位

的,即每一个确定的 URL 有其自己确定的链接得分。所以虽然上面这四个 URL 到达的都是同一个页面(主

页),但在链接分析体系的眼睛里,它们却是四个完全不搭界的页面。

假设现在有四个站点同意跟这个网站进行友情链接。如果这四个站点分别跟上面的四个 URL 友情链接,

尽管这四个 URL 指向同一个页面,但链接分析体系是只认 URL 的,所以每个 URL 只能按一个链接计。即

均为 1。这时候其竞争者只要有两个链接就满赢了。冤吧?反之,若这四个站点都链至同一个 URL,例

如 http://www.shoesshop.com,那么 URL: http://www.shoesshop.com 的链接结果就不再是 1,而

是它的四倍了。

这也是在策划链接行为时应注意的问题。应尽可能把所有链接放到一个确定的目标 URL 下,这样做一方

面不会造成外部链接资源的流失和浪费,同时由于该目标 URL 页上集中了所有外部链接,亦会使你的目

标链接页更具权威性和信服力。

不过,由于人们到底和你哪个页面相链并不是你的意愿所能决定的,所以 好在链接请求中声明一下

URL,例如希望人们与你的 http://www.shoesshop.com 相链接。

此外,虽然链接分析几乎已为所有的主要搜索引擎所采用,但它只是决定排名的其中一个因素。页面因

素在排名算法中仍然占据一定地位。因而,为了能够获得一个较高的排名,你需要一手抓页面因素,一

手抓链接得分。即在对你页面因素进行正确和深入的优化的同时,还应努力营建你的链接得分。

Page 37: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 37

http://www.google.com/intl/zh-CN/corporate/tech.html

Google 技术 Google 秉持着开发“完美的搜索引擎”的信念,在业界独树一帜。所谓完美的搜索引擎,就如公司创

始人之一 Larry Page 所定义的那样,可以“确解用户之意,切返用户之需”。为了实现这一目标,Google 坚持不懈地追求创新,而不受现有模型的限制。因此,Google 开发了自己的服务基础结构和具有突破

性的 PageRank™ 技术,使得搜索方式发生了根本性变化。 Google 的开发人员从一开始就意识到:要以 快的速度提供 精确的搜索结果,则需要一种全新的服

务器设置。大多数的搜索引擎依靠少量大型服务器,这样,在访问高峰期速度就会减慢,而 Google 却利用相互链接的 PC 来快速查找每个搜索的答案。 这一创新技术成功地缩短了响应时间,提高了可扩

展性,并降低了成本。这也是其他公司一直在效仿的技术。与此同时,Google 从未停止过对其后端技

术的改进,以使其技术效率更高。 Google 搜索技术所依托的软件可以同时进行一系列的运算,且只需片刻即可完成所有运算。而传统的

搜索引擎在很大程度上取决于文字在网页上出现的频率。Google 使用 PageRank™ 技术检查整个网络链

接结构,并确定哪些网页重要性 高。然后进行超文本匹配分析,以确定哪些网页与正在执行的特定搜

索相关。在综合考虑整体重要性以及与特定查询的相关性之后,Google 可以将 相关 可靠的搜索结

果放在首位。 PageRank 技术:通过对由超过 50,000 万个变量和 20 亿个词汇组成的方程进行计算,PageRank 能够

对网页的重要性做出客观的评价。PageRank 并不计算直接链接的数量,而是将从网页 A 指向网页 B 的链接解释为由网页 A 对网页 B 所投的一票。这样,PageRank 会根据网页 B 所收到的投票数量来

评估该页的重要性。 此外,PageRank 还会评估每个投票网页的重要性,因为某些网页的投票被认为具有较高的价值,这样,

它所链接的网页就能获得较高的价值。重要网页获得的 PageRank(网页排名)较高,从而显示在搜索

结果的顶部。Google 技术使用网上反馈的综合信息来确定某个网页的重要性。搜索结果没有人工干预

或操纵,这也是为什么 Google 会成为一个广受用户信赖、不受付费排名影响且公正客观的信息来源。 超文本匹配分析:Google 的搜索引擎同时也分析网页内容。然而,Google 的技术并不采用单纯扫描基

于网页的文本(网站发布商可以通过元标记控制这类文本)的方式,而是分析网页的全部内容以及字体、

分区及每个文字精确位置等因素。Google 同时还会分析相邻网页的内容,以确保返回与用户查询 相

关的结果。 Google 的创新并不限于台式机。 为了确保通过便携式设备访问网络的用户能够快速获得精确的搜索结

果,Google 还率先推出了业界第一款无线搜索技术,以便将 HTML 即时转换为针对 WAP、i-mode、J-SKY 和 EZWeb 优化的格式。 -------------------------------------------------------------------------------- Google 查询的全过程 --------------------------------------------------------------------------------

Page 38: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 38

Google 查询的全过程通常不超过半秒时间,但在这短短的时间内需要完成多个步骤,然后才能将搜索

结果交付给搜索信息的用户。

3. 瞬间返回用

户需要的搜索

结果。

1. 网络服务器将查询发送到索引服务器。索引服务

器所包含的内容与书本末尾的索引目录相似,即说明

哪些网页包含与查询匹配的文字。

2.查询传输到文档服务器,

由后者实际检索所存储的文

档。然后,生成描述每个搜

索结果的摘录。

Page 39: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 39

http://knowlesys.com/research/paper/Web_PageRank.htm WEB 超链分析算法纵览

WEB 超链分析算法纵览

来源:搜索引擎排名研究

朱炜 王超 李俊 潘金贵

Abstract: The World Wide Web serves as a huge, widely distributed, global information service center, and expanding in a rapid speed. It is import to find the information the user need precisely and rapidly. In recent years, researchers discovery that rich and import information is contained among hyperlinks, and develop a lot of algorithm using hyperlink to improve the quantity and relevance of the results which search engine returned. This paper presents a review and a comparison of such algorithms existing now. Problems of these algorithms and directions to further research will be discussed.

Keyword: PageRank,Authority,Hub,HITS,SALSA,Anchor

1.引言

万维网 WWW(World Wide Web)是一个巨大的,分布全球的信息服务中心,正在以飞快的速度

扩展。1998 年 WWW 上拥有约 3.5 亿个文档[14],每天增加约 1 百万的文档[6],不到 9 个月的时间

文档总数就会翻一番[14]。WEB 上的文档和传统的文档比较,有很多新的特点,它们是分布的,异构的,

无结构或者半结构的,这就对传统信息检索技术提出了新的挑战。

传统的 WEB 搜索引擎大多数是基于关键字匹配的,返回的结果是包含查询项的文档,也有基于目录

分类的搜索引擎。这些搜索引擎的结果并不令人满意。有些站点有意提高关键字出现的频率来提高自身

在搜索引擎中的重要性,破坏搜索引擎结果的客观性和准确性。另外,有些重要的网页并不包含查询项。

搜索引擎的分类目录也不可能把所有的分类考虑全面,并且目录大多靠人工维护,主观性强,费用高,

更新速度慢[2]。

Page 40: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 40

最近几年,许多研究者发现,WWW 上超链结构是个非常丰富和重要的资源,如果能够充分利用的

话,可以极大的提高检索结果的质量。基于这种超链分析的思想,Sergey Brin 和 Lawrence Page

在 1998 年提出了 PageRank 算法[1] ,同年 J. Kleinberg 提出了 HITS 算法[5],其它一些学者也相

继提出了另外的链接分析算法,如 SALSA,PHITS,Bayesian 等算法。这些算法有的已经在实际的

系统中实现和使用,并且取得了良好的效果。

文章的第 2 部分按照时间顺序详细剖析了各种链接分析算法,对不同的算法进行了比较。第 3 部分

对这些算法做了评价和总结,指出了存在的问题和改进方向。

2.WEB 超链分析算法

2.1 Google 和 PageRank 算法

搜索引擎 Google 最初是斯坦福大学的博士研究生 Sergey Brin 和 Lawrence Page 实现的一个原

型系统[2],现在已经发展成为 WWW 上最好的搜索引擎之一。Google 的体系结构类似于传统的搜索

引擎,它与传统的搜索引擎最大的不同处在于对网页进行了基于权威值的排序处理,使最重要的网页出

现在结果的最前面。Google 通过 PageRank 元算法计算出网页的 PageRank 值,从而决定网页在结

果集中的出现位置,PageRank 值越高的网页,在结果中出现的位置越前。

2.1.1 PageRank 算法

PageRank 算法基于下面 2 个前提:

前提 1:一个网页被多次引用,则它可能是很重要的;一个网页虽然没有被多次引用,但是被重要的

网页引用,则它也可能是很重要的;一个网页的重要性被平均的传递到它所引用的网页。这种重要的网

页称为权威(Authoritive)网页。

Page 41: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 41

前提 2:假定用户一开始随机的访问网页集合中的一个网页,以后跟随网页的向外链接向前浏览网页,

不回退浏览,浏览下一个网页的概率就是被浏览网页的 PageRank 值。

简单 PageRank 算法描述如下:u 是一个网页, 是 u 指向的网页集合, 是指向 u 的网页

集合, 是 u 指向外的链接数,显然 =| | ,c 是一个用于规范化的因子(Google 通

常取 0.85),(这种表示法也适用于以后介绍的算法)则 u 的 Rank 值计算如下:

这就是算法的形式化描述,也可以用矩阵来描述此算法,设 A 为一个方阵,行和列对应网页集的网

页。如果网页 i 有指向网页 j 的一个链接,则 ,否则 =0。设 V 是对应网页集的一个向

量,有 V=cAV,V 为 A 的特征根为 c 的特征向量。实际上,只需要求出最大特征根的特征向量,就是

网页集对应的最终 PageRank 值,这可以用迭代方法计算。

如果有 2 个相互指向的网页 a,b,他们不指向其它任何网页,另外有某个网页 c,指向 a,b 中的某

一个,比如 a,那么在迭代计算中,a,b 的 rank 值不分布出去而不断的累计。如下图:

为了解决这个问题,Sergey Brin 和 Lawrence Page 改进了算法,引入了衰退因子 E(u),E(U)

是对应网页集的某一向量,对应 rank 的初始值,算法改进如下:

其中, =1,对应的矩阵形式为 V’=c(AV’+E)。

另外还有一些特殊的链接,指向的网页没有向外的链接。PageRank 计算时,把这种链接首先除去,

等计算完以后再加入,这对原来计算出的网页的 rank 值影响是很小的。

Pagerank 算法除了对搜索结果进行排序外,还可以应用到其它方面,如估算网络流量,向后链接的

预测器,为用户导航等[2]。

2.1.2 算法的一些问题

Page 42: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 42

Google 是结合文本的方法来实现 PageRank 算法的[2],所以只返回包含查询项的网页,然后根据

网页的 rank 值对搜索到的结果进行排序,把 rank 值最高的网页放置到最前面,但是如果最重要的网

页不在结果网页集中,PageRank 算法就无能为力了,比如在 Google 中查询 search engines,像

Google,Yahoo,Altivisa 等都是很重要的,但是 Google 返回的结果中这些网页并没有出现。 同样

的查询例子也可以说明另外一个问题,Google,Yahoo 是 WWW 上最受欢迎的网页,如果出现在查

询项 car 的结果集中,一定会有很多网页指向它们,就会得到较高的 rank 值, 事实上他们与 car 不

太相关。

在 PageRank 算法的基础上,其它的研究者提出了改进的 PageRank 算法。华盛顿大学计算机科学

与工程系的 Matthew Richardson 和 Pedro Dominggos 提出了结合链接和内容信息的 PageRank

算法,去除了 PageRank 算法需要的前提 2,增加考虑了用户从一个网页直接跳转到非直接相邻的但

是内容相关的另外一个网页的情况[3]。斯坦福大学计算机科学系 Taher Haveliwala 提出了主题敏感

(Topic-sensitive)PageRank 算法[4]。斯坦福大学计算机科学系 Arvind Arasu 等经过试验表明,

PageRank 算法计算效率还可以得到很大的提高[22]。

2.2 HITS 算法及其变种

PageRank 算法中对于向外链接的权值贡献是平均的,也就是不考虑不同链接的重要性。而 WEB

的链接具有以下特征:

1.有些链接具有注释性,也有些链接是起导航或广告作用。有注释性的链接才用于权威判断。

2.基于商业或竞争因素考虑,很少有 WEB 网页指向其竞争领域的权威网页。

3.权威网页很少具有显式的描述,比如 Google 主页不会明确给出 WEB 搜索引擎之类的描述信息。

可见平均的分布权值不符合链接的实际情况[17]。J. Kleinberg[5]提出的 HITS 算法中引入了另外一

种网页,称为 Hub 网页,Hub 网页是提供指向权威网页链接集合的 WEB 网页,它本身可能并不重要,

Page 43: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 43

或者说没有几个网页指向它,但是 Hub 网页确提供了指向就某个主题而言最为重要的站点的链接集合,

比一个课程主页上的推荐参考文献列表。一般来说,好的 Hub 网页指向许多好的权威网页;好的权威

网页是有许多好的 Hub 网页指向的 WEB 网页。这种 Hub 与 Authoritive 网页之间的相互加强关系,

可用于权威网页的发现和 WEB 结构和资源的自动发现,这就是 Hub/Authority 方法的基本思想。

2.2.1 HITS 算法

HITS(Hyperlink-Induced Topic Search)算法是利用 Hub/Authority 方法的搜索方法,算法

如下:将查询 q 提交给传统的基于关键字匹配的搜索引擎.搜索引擎返回很多网页,从中取前 n 个网

页作为根集(root set),用 S 表示。S 满足如下 3 个条件:

1.S 中网页数量相对较小

2.S 中网页大多数是与查询 q 相关的网页

3.S 中网页包含较多的权威网页。

通过向 S 中加入被 S 引用的网页和引用 S 的网页将 S 扩展成一个更大的集合 T.

以 T 中的 Hub 网页为顶点集 Vl,以权威网页为顶点集 V2,Vl 中的网页到 V2 中的网页的超链接为

边集 E,形成一个二分有向图 SG=(V1,V2,E)。对 V1 中的任一个顶点 v,用 h(v)表示网页 v 的

Hub 值,对 V2 中的顶点 u,用 a(u)表示网页的 Authority 值。开始时 h(v)=a(u)=1,对 u 执行 I

操作修改它的 a(u),对 v 执行 O 操作修改它的 h(v),然后规范化 a(u),h(v),如此不断的重复

计算下面的操作 I,O,直到 a(u),h(v)收敛。(证明此算法收敛可见 )

I 操作: (1) O 操作: (2)

每次迭代后需要对 a(u),h(v)进行规范化处理:

Page 44: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 44

式(1)反映了若一个网页由很多好的 Hub 指向,则其权威值会相应增加(即权威值增加为所有指向它

的网页的现有 Hub 值之和)。式(2)反映了若一个网页指向许多好的权威页,则 Hub 值也会相应增加(即

Hub 值增加为该网页链接的所有网页的权威值之和)。

和 PageRank 算法一样,可以用矩阵形式来描述算法,这里省略不写。

HITS 算法输出一组具有较大 Hub 值的网页和具有较大权威值的网页。

2.2.2 HITS 的问题

HITS 算法有以下几个问题:

1.实际应用中,由 S 生成 T 的时间开销是很昂贵的,需要下载和分析 S 中每个网页包含的所有链

接,并且排除重复的链接。一般 T 比 S 大很多,由 T 生成有向图也很耗时。需要分别计算网页的 A/H

值,计算量比 PageRank 算法大。

2.有些时候,一主机 A 上的很多文档可能指向另外一台主机 B 上的某个文档,这就增加了 A 上文

档的 Hub 值和 B 上文档的 Authority,相反的情况也如此。HITS 是假定某一文档的权威值是由不同

的单个组织或者个人决定的,上述情况影响了 A 和 B 上文档的 Hub 和 Authority 值[7]。

3.网页中一些无关的链接影响 A,H 值的计算。在制作网页的时候,有些开发工具会自动的在网页

上加入一些链接,这些链接大多是与查询主题无关的。同一个站点内的链接目的是为用户提供导航帮助,

也与查询主题不甚无关,还有一些商业广告,赞助商和用于友情交换的链接,也会降低 HITS 算法的精

度[8]。

4.HITS 算法只计算主特征向量,也就是只能发现 T 集合中的主社区(Community),忽略了其

它重要的社区[12]。事实上,其它社区可能也非常重要。

5.HITS 算法最大的弱点是处理不好主题漂移问题(topic drift)[7,8],也就是紧密链接 TKC

(Tightly-Knit Community Effect)现象[8]。如果在集合 T 中有少数与查询主题无关的网页,但是

Page 45: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 45

他们是紧密链接的,HITS 算法的结果可能就是这些网页,因为 HITS 只能发现主社区,从而偏离了原

来的查询主题。下面讨论的 SALSA 算法中解决了 TKC 问题。

6.用 HITS 进行窄主题查询时,可能产生主题泛化问题[5,9],即扩展以后引入了比原来主题更重要

的新的主题,新的主题可能与原始查询无关。泛化的原因是因为网页中包含不同主题的向外链接,而且

新主题的链接具有更加的重要性。

2.2.3 HITS 的变种

HITS 算法遇到的问题,大多是因为 HITS 是纯粹的基于链接分析的算法,没有考虑文本内容,继 J.

Kleinberg 提出 HITS 算法以后,很多研究者对 HITS 进行了改进,提出了许多 HITS 的变种算法,主

要有:

2.2.3.1 Monika R. Henzinger 和 Krishna Bharat 对 HITS 的改进

对于上述提到的 HITS 遇到的第 2 个问题,Monika R. Henzinger 和 Krishna Bharat 在[7]中进行

了改进。假定主机 A 上有 k 个网页指向主机 B 上的某个文档 d,则 A 上的 k 个文档对 B 的 Authority

贡献值总共为 1,每个文档贡献 1/k,而不是 HITS 中的每个文档贡献 1,总共贡献 k。类似的,对于

Hub 值,假定主机 A 上某个文档 t 指向主机 B 上的 m 个文档,则 B 上 m 个文档对 t 的 Hub 值总共贡

献 1,每个文档贡献 1/m。I,O 操作改为如下

I 操作: O 操作:

调整后的算法有效的解决了问题 2,称之为 imp 算法。

在这基础上,Monika R. Henzinger 和 Krishna Bharat 还引入了传统信息检索的内容分析技术来

解决 4 和 5,实际上也同时解决了问题 3。具体方法如下,提取根集 S 中的每个文档的前 1000 个词

语,串连起来作为查询主题 Q,文档 Dj 和主题 Q 的相似度按如下公式计算:

Page 46: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 46

, , =项 i 在查询 Q 中的出现次数,

=项 i 在文档 Dj 中的出现次数,IDFi 是 WWW 上包含项 i 的文档数目的估计值。

在 S 扩展到 T 后,计算每个文档的主题相似度,根据不同的阈值(threshold)进行刷选,可以选择

所有文档相似度的中值,根集文档相似度的中值,最大文档相似度的分数,如 1/10,作为阈值。根据

不同阈值进行处理,删除不满足条件的文档,再运行 imp 算法计算文档的 A/H 值,这些算法分别称为

med,startmed,maxby10。

在此改进的算法中,计算文档的相似度时间开销会很大。

2.2.3.2 ARC 算法

IBM Almaden 研究中心的 Clever 工程组提出了 ARC(Automatic Resource Compilation)算

法,对原始的 HITS 做了改进,赋予网页集对应的连结矩阵初值时结合了链接的锚(anchor)文本,

适应了不同的链接具有不同的权值的情况。

ARC 算法与 HITS 的不同主要有以下 3 点:

1.由根集 S 扩展为 T 时,HITS 只扩展与根集中网页链接路径长度为 1 的网页,也就

是只扩展直接与 S 相邻的网页,而 ARC 中把扩展的链接长度增加到 2,扩展后的网页

集称为增集(Augment Set)。

2.HITS 算法中,每个链接对应的矩阵值设为 1,实际上每个链接的重要性是不同的,

ARC 算法考虑了链接周围的文本来确定链接的重要性。考虑链接 p->q,p 中有若干

链接标记,文本 1<a href=”q”>锚文本</a>文本 2,设查询项 t 在文本 1,锚文本,

文本 2,出现的次数为 n(t),则 w(p,q)=1+n(t)。文本 1 和文本 2 的长度

经过试验设为 50 字节[10]。构造矩阵 W,如果有网页 i->j ,Wi,j=w(i,j),否则

Wi,j=0,H 值设为 1,Z 为 W 的转置矩阵,迭代执行下面 3 个的操作:

Page 47: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 47

(1)A=WH (2)H=ZA (3)规范化 A,H

3.ARC 算法的目标是找到前 15 个最重要的网页,只需要 A/H 的前 15 个值相对大

小保持稳定即可,不需要 A/H 整个收敛,这样 2 中迭代次数很小就能满足,[10]中指出

迭代 5 次就可以,所以 ARC 算法有很高的计算效率,开销主要是在扩展根集上。

2.2.3.3 Hub 平均( Hub-Averaging-Kleinberg)算法

Allan Borodin 等在[11]指出了一种现象,设有 M+1 个 Hub 网页,M+1 个权威网页,前 M 个 Hub

指向第一个权威网页,第 M+1 个 Hub 网页指向了所有 M+1 个权威网页。显然根据 HITS 算法,第

一个权威网页最重要,有最高的 Authority 值,这是我们希望的。但是,根据 HITS,第 M+1 个 Hub

网页有最高的 Hub 值,事实上,第 M+1 个 Hub 网页既指向了权威值很高的第一个权威网页,同时也

指向了其它权威值不高的网页,它的 Hub 值不应该比前 M 个网页的 Hub 值高。因此,Allan Borodin

修改了 HITS 的 O 操作:

O 操作: ,n 是(v,u)的个数

调整以后,仅指向权威值高的网页的 Hub 值比既指向权威值高又指向权威值低的网页的 Hub 值高,

此算法称为 Hub 平均(Hub-Averaging-Kleinberg)算法。

2.2.3.4 阈值(Threshhold—Kleinberg)算法

Allan Borodin 等在[11]中同时提出了 3 种阈值控制的算法,分别是 Hub 阈值算法,Authority 阈值

算法,以及结合 2 者的全阈值算法。

计算网页 p 的 Authority 时候,不考虑指向它的所有网页 Hub 值对它的贡献,只考虑 Hub 值超过

平均值的网页的贡献,这就是 Hub 阈值方法。

Page 48: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 48

Authority 阈值算法和 Hub 阈值方法类似,不考虑所有 p 指向的网页的 Authority 对 p 的 Hub 值

贡献,只计算前 K 个权威网页对它 Hub 值的贡献,这是基于算法的目标是查找最重要的 K 个权威网页

的前提。

同时使用 Authority 阈值算法和 Hub 阈值方法的算法,就是全阈值算法。

2.3 SALSA 算法

PageRank 算法是基于用户随机的向前浏览网页的直觉知识,HITS 算法考虑的是 Authoritive 网页

和 Hub 网页之间的加强关系。实际应用中,用户大多数情况下是向前浏览网页,但是很多时候也会回

退浏览网页。基于上述直觉知识,R. Lempel 和 S. Moran 提出了 SALSA(Stochastic Approach for

Link-Structure Analysis)算法[8],考虑了用户回退浏览网页的情况,保留了 PageRank 的随机漫

游和 HITS 中把网页分为 Authoritive 和 Hub 的思想,取消了 Authoritive 和 Hub 之间的相互加强关

系。

具体算法如下:

1.和 HITS 算法的第一步一样,得到根集并且扩展为网页集合 T,并除去孤立节点。

2.从集合 T 构造无向图 G’=(Vh,Va,E)

Vh = { sh | s∈C and out-degree(s) > 0 } ( G’的 Hub 边).

Va = { sa | s∈C and in-degree(s) > 0 } (G’的 Authority 边).

E= { (sh , ra) | s->r in T }

这就定义了 2 条链,Authority 链和 Hub 链。

3.定义 2 条马尔可夫链的变化矩阵,也是随机矩阵,分别是 Hub 矩阵 H,Authority

矩阵 A。

Page 49: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 49

4.求出矩阵 H,A 的主特征向量,就是对应的马尔可夫链的静态分布。

5.A 中值大的对应的网页就是所要找的重要网页。

SALSA 算法没有 HITS 中相互加强的迭代过程,计算量远小于 HITS。SALSA 算法只

考虑直接相邻的网页对自身 A/H 的影响,而 HITS 是计算整个网页集合 T 对自身 AH

的影响。

实际应用中,SALSA 在扩展根集时忽略了很多无关的链接,比如

1.同一站点内的链接,因为这些链接大多只起导航作用。

2.CGI 脚本链接。

3.广告和赞助商链接。

试验结果表明,对于单主题查询 java,SALSA 有比 HITS 更精确的结果,对于多主题查询 abortion,

HITS 的结果集中于主题的某个方面,而 SALSA 算法的结果覆盖了多个方面,也就是说,对于 TKC 现

象,SALSA 算法比 HITS 算法有更高的健壮性。

2.3.1 BFS(Backword Forward Step)算法

SALSA 算法计算网页的 Authority 值时,只考虑网页在直接相邻网页集中的受欢迎程度,忽略其它

网页对它的影响。HITS 算法考虑的是整个图的结构,特别的,经过 n 步以后,网页 i 的 Authority 的

权重是 , 为离开网页 i 的 的路径的数目,也就是说网页 j<>i,对 i

的权值贡献等于从 i 到 j 的 路径的数量。如果从 i 到 j 包含有一个回路,那么 j 对 i 的贡献将会呈

指数级增加,这并不是算法所希望的,因为回路可能不是与查询相关的。

因此,Allan Borodin 等[11]提出了 BFS(Backward Forward Step)算法,既是 SALSA 的扩展

情况,也是 HITS 的限制情况。基本思想是,SALSA 只考虑直接相邻网页的影响,BFS 扩展到考虑路

Page 50: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 50

径长度为 n 的相邻网页的影响。在 BFS 中, 被指定表示能通过 路径到达 i 的结点的集合,

这样 j 对 i 的贡献依赖就与 j 到 i 的距离。BFS 采用指数级降低权值的方式,结点 i 的权值计算公式如

下:

= |B(i)|+ |BF(i)| + |BFB(i)|+……+| |

算法从结点 i 开始,第一步向后访问,然后继续向前或者向后访问邻居,每一步遇到新的结点加入权

值计算,结点只有在第一次被访问时加入进去计算。

2.4 PHITS

D. Cohn and H. Chang 提出了计算 Hub 和 Authority 的统计算法 PHITS(Probabilistic

analogue of the HITS)[12]。他们提出了一个概率模型,在这个模型里面一个潜在的因子或者主题 z

影响了文档 d 到文档 c 的一个链接,他们进一步假定,给定因子 z,文档 c 的条件分布 P(c|z)存在,

并且给定文档 d,因子 z 的条件分布 P(z|d)也存在。

P(d) P(z|d) P(c|z) ,其中

根据这些条件分布,提出了一个可能性函数(likelihood function)L,

,M 是对应的连结矩阵

然后,PHITS 算法使用 Dempster 等提出的 EM 算法[20]分配未知的条件概率使得 L 最大化,也就

是最好的解释了网页之间的链接关系。算法要求因子 z 的数目事先给定。Allan Borodin 指出,PHITS

中使用的 EM 算法可能会收敛于局部的最大化,而不是真正的全局最大化[11]。D. Cohn 和 T. Hofmann

还提出了结合文档内容和超链接的概率模型[13]。

2.5 贝叶斯算法

Page 51: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 51

Allan Borodin 等提出了完全的贝叶斯统计方法来确定 Hub 和 Authoritive 网页[11]。假定有 M 个

Hub 网页和 N 个 Authority 网页,可以是相同的集合。每个 Hub 网页有一个未知的实数参数 ,表

示拥有超链的一般趋势,一个未知的非负参数 ,表示拥有指向 Authority 网页的链接的趋势。每个

Authoritive 网页 j,有一个未知的非负参数 ,表示 j 的 Authority 的级别。

统计模型如下,Hub 网页 i 到 Authority 网页 j 的链接的先验概率如下给定:

P(i,j)=Exp( + )/(1+Exp( + ))

Hub 网页 i 到 Authority 网页 j 没有链接时,P(i,j)=1/(1+Exp( + ))

从以上公式可以看出,如果 很大(表示 Hub 网页 i 有很高的趋势指向任何一个网页),或者 和

都很大(表示 i 是个高质量 Hub,j 是个高质量的 Authority 网页),那么 i->j 的链接的概率就比较

大。

为了符合贝叶斯统计模型的规范,要给 2M+N 个未知参数( , , )指定先验分布,这些分

布应该是一般化的,不提供信息的,不依赖于被观察数据的,对结果只能产生很小影响的。Allan

Borodin 等在 中指定 满足正太分布 N(μ, ),均值μ=0,标准方差δ=10,指定 和 满足

Exp(1)分布,即 x>=0,P( >=x)=P( >=x)=Exp(-x)。

接下来就是标准的贝叶斯方法处理和 HITS 中求矩阵特征根的运算。

2.5.1 简化的贝叶斯算法

Allan Borodin 同时提出了简化的上述贝叶斯算法,完全除去了参数 ,也就不再需要正太分布的参

数μ,δ了。计算公式变为:P(i,j)= /(1+ ),Hub 网页到 Authority 网页 j 没有链接

时,P(i,j)=1/(1+ )。

Allan Borodin 指出简化的贝叶斯产生的效果与 SALSA 算法的结果非常类似。

2.6 Reputation

Page 52: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 52

上面的所有算法,都是从查询项或者主题出发,经过算法处理,得到结果网页。多伦多大学计算机系

Alberto Mendelzon, Davood Rafiei 提出了一种反向的算法,输入为某个网页的 URL 地址,输出为

一组主题,网页在这些主题上有声望(repution)[16]。比如输入,www.gamelan.com,可能的输

出结果是“java”,具体的系统可以访问 htpp://www.cs.toronto.edu/db/topic。

给定一个网页 p,计算在主题 t 上的声望,首先定义 2 个参数,渗透率 和聚焦率 ,简单

起见,网页 p 包含主题项 t,就认为 p 在主题 t 上。

是指向 p 而且包含 t 的网页数目, 是指向 p 的网页数目, 是包含 t 的网页数目。结

合非条件概率,引入 , , 是 WEB 上网页的数目。P 在 t 上的

声望计算如下:

指定 是既指向 p 有包含 t 的概率,即 ,显然有

我们可以从搜索引擎(如 Altavista)的结果得到 , , ,WEB 上网页的总数估计值

某些组织会经常公布,在计算中是个常量不影响 RM 的排序,RM 最后如此计算:

给定网页 p 和主题 t,RM 可以如上计算,但是多数的情况的只给定网页 p,需要提取主题后计算。

算法的目标是找到一组 t,使得 RM(p,t)有较大的值。TOPIC 系统中是抽取指向 p 的网页中的锚文

本的单词作为主题(上面已经讨论过锚文本能很好描述目标网页,精度很高),避免了下载所有指向 p

的网页,而且 RM(p,t)的计算很简单,算法的效率较高。主题抽取时,还忽略了用于导航、重复的

链接的文本,同时也过滤了停止字(stop word),如“a”,“the”,“for”,“in”等。

Page 53: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 53

Reputation 算法也是基于随机漫游模型的(random walk),可以说是 PageRank 和 SALSA 算

法的结合体。

3.链接算法的分类及其评价

链接分析算法可以用来提高搜索引擎的查询效果,可以发现 WWW 上的重要的社区,可以分析某个

网站的拓扑结构,声望,分类等,可以用来实现文档的自动分类等。归根结底,能够帮助用户在 WWW

海量的信息里面准确找到需要的信息。这是一个正在迅速发展的研究领域。

上面我们从历史的角度总结了链接分析算法的发展历程,较为详细的介绍了算法的基本思想和具体实

现,对算法的存在的问题也做了讨论。这些算法有的处于研究阶段,有的已经在具体的系统实现了。这

些算法大体可以分为 3 类,基于随机漫游模型的,比如 PageRank,Repution 算法,基于 Hub 和

Authority 相互加强模型的,如 HITS 及其变种,基于概率模型的,如 SALSA,PHITS,基于贝叶斯

模型的,如贝叶斯算法及其简化版本。所有的算法在实际应用中都结合传统的内容分析技术进行了优化。

一些实际的系统实现了某些算法,并且获得了很好的效果,Google 实现了 PageRank 算法,IBM

Almaden Research Center 的 Clever Project 实现了 ARC 算法,多伦多大学计算机系实现了一个

原型系统 TOPIC,来计算指定网页有声望的主题。

AT&T 香农实验室的 Brian Amento 在指出,用权威性来评价网页的质量和人类专家评价的结果是

一致的,并且各种链接分析算法的结果在大多数的情况下差别很小[15]。但是,Allan Borodin 也指出

没有一种算法是完美的,在某些查询下,结果可能很好,在另外的查询下,结果可能很差[11]。所以应

该根据不同查询的情况,选择不同的合适的算法。

基于链接分析的算法,提供了一种衡量网页质量的客观方法,独立于语言,独立于内容,不需人工干

预就能自动发现 WEB 上重要的资源,挖掘出 WEB 上重要的社区,自动实现文档分类。但是也有一些

共同的问题影响着算法的精度。

Page 54: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 54

1.根集的质量。根集质量应该是很高的,否则,扩展后的网页集会增加很多无关的网

页,产生主题漂移,主题泛化等一系列的问题,计算量也增加很多。算法再好,也无法

在低质量网页集找出很多高质量的网页。

2.噪音链接。WEB 上不是每个链接都包含了有用的信息,比如广告,站点导航,赞

助商,用于友情交换的链接,对于链接分析不仅没有帮助,而且还影响结果。如何有效

的去除这些无关链接,也是算法的一个关键点。

3.锚文本的利用。锚文本有很高的精度,对链接和目标网页的描述比较精确。上述算

法在具体的实现中利用了锚文本来优化算法。如何准确充分的利用锚文本,对算法的精

度影响很大。

4.查询的分类。每种算法都有自身的适用情况,对于不同的查询,应该采用不同的算

法,以求获得最好的结果。因此,对于查询的分类也显得非常重要。

当然,这些问题带有很大的主观性,比如,质量不能精确的定义,链接是否包含重要的信息也没有有

效的方法能准确的判定,分析锚文本又涉及到语义问题,查询的分类也没有明确界限。如果算法要取得

更好的效果,在这几个方面需要继续做深入的研究,相信在不久的将来会有更多的有趣和有用的成果出

现。

4.参考文献

1.L.Page , S.Brin , R.Motwani,and T.Winograd , ”The pageRank Citation Ranking :

Bringing Order to the WEB ” , January 1998. and July 2001 at http://www.db.stanford.edu/~backub/PageRanksub.ps

Page 55: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 55

2.Sergey Brin and Larry Page.The anatomy of a large-scale hypertextual WEB search

engine.In Proceedings of the Seventh International World Wide WEB Conference, 1998

3.Matthew Richardson ,Pedro Domingos.The Intelligent Surfer: Probabilistic Combination

of Link and Content Information in PageRank, volume 14.MIT Press, Cambridge, MA, 2002.

4.Taher H. Haveliwala. Topic-Sensitive PageRank, in Proceedings of the Eleventh

International World Wide WEB Conference, 2002

5.J. Kleinberg. Authoritative sources in a hyperlinked environment. Proc. 9th ACM-SIAM

Symposium on Discrete Algorithms, 1998. Extended version in Journal of the ACM 46(1999). Also appears as IBM Research Report RJ 10076, May 1997

6.S. Chakrabarti, B. Dom, D. Gibson, J. Kleinberg, S.R. Kumar, P. Raghavan, S.

Rajagopalan, A. Tomkins, Hypersearching the WEB. Scientific American, June 1999

7.Monika R. Henzinger and Krishna Bharat. Improved algorithms for topic distillation in a

hyperlinked environment. Proceedings of the 21'st International ACM SIGIR Conference on Research and Development in IR, August 1998

8.R. Lempel,S. Moran,The Stochastic Approach for Link-Structure Analysis (SALSA) and

the TKC Effect,Porc. 9 th International World Wide WEB Conferrence,2000

9.S. Chakrabarti, B. Dom, D. Gibson, J. Kleinberg, S.R. Kumar, P. Raghavan, S.

Rajagopalan, and A. Tomkins. Mining the WEB's link structure. IEEE Computer, August 1999

10.Soumen Chakrabarti, Byron Dom, David Gibson, Jon M. Kleinberg, Prabhakar

Raghavan, and Sridhar Rajagopalan. Automatic resource compilation by analyzing hyperlink structure and associated text. Proc. 7th International WWW Conference, 1998

11.Allan Borodin,Gareth O. Roberts ,Jeffrey S. Rosenthal ,Panayiotis Tsaparas,Finding

Authorities and Hubs From Link Structures on the World Wide WEB,Proc. 10th

International WWW Conference, 2001 12. D. Cohn and H. Chang. Learning to probabilistically identify authoritative documents,Proc 17 th International Conference on Machine Learning,2000

Page 56: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 56

13.D. Cohn, T. Hofmann, The Missing Link-A Probabilistic Model of Document Content

and Hypertext Connectivity. Advances in Neural Information Processing Systems (NIPS)13, 2000

14.R.Baeza-Yates and B.Ribeiro-Neto,Moderm Information Retrieval,Addison Wesley,

New York,NY,USA,1999

15.Brian Amento, Loren Terveen, and Will Hill. Does "Authority" Mean Quality? Predicting

Expert Quality Ratings of WEB Documents. 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 2000.

16.Alberto Mendelzon, Davood Rafiei, What do the Neighbours Think? Computing WEB

Page Reputations IEEE Data Engineering Bulletin, 23(3): 9-16, September 2000

17.韩家炜,孟小峰,王静,李盛思,WEB 挖掘研究,计算机研究与发展,Vol 38,No4,2001 年

4 月

18.Google Inc. Google search engine. http://www.Google.com

19.Topic system,htpp://www.cs.toronto.edu/db/topic

20.A.Dempster,N.Laird,and D.Rubin, Maximun likelihood from incomplete data via the EM

algotithm,Journal of the Royal Statistical Society ,Series B,39:1-38,1977

21.IBM Almaden Research Center Clever Project

http://www.almaden.ibm.com/cs/k53/clever.html

22.Arvind Arasu, Jasmine Novak, Andrew Tomkins, John Tomlin ,PageRank Computation

and the Structure of the WEB: Experiments and Algorithms, 11th International World

Wide WEB Conference, 2002.

(南京大学计算机软件新技术国家重点实验室,南京大学多媒体技术研究所)

Page 57: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 57

http://www.csdn.net/news/newstopic/15/15333.shtml 中文搜索引擎技术揭密:中文分词 2004.04.19 来自:CSDN 作者:木小小 2004-4-19 出处:博客中国(Blogchina.com) 信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引

擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿

里巴巴的商机搜索、8848 的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。 搜索引擎技术的研究,国外比中国要早近十年,从 早的 Archie,到后来的 Excite,以及 altvista、overture、google 等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引

擎是在上世纪末本世纪初。在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研

究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。虽

然在国外搜索引擎技术早就开始研究,但在国内还是陆续涌现出优秀的搜索引擎,像百度

(http://www.baidu.com)、中搜(http://www.zhongsou.com)等。目前在中文搜索引擎领域,国内的搜索

引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文

和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词。 什么是中文分词 众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的

字连起来才能描述一个意思。例如,英文句子 I am a student,用中文则为:“我是一个学生”。计算机可

以很简单通过空格知道 student 是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一

个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词

的结果是:我 是 一个 学生。 中文分词和搜索引擎 中文分词到底对搜索引擎有多大影响?对于搜索引擎来说, 重要的并不是找到所有结果,因为在

上百亿的网页中找到所有结果没有太多的意义,没有人能看得完, 重要的是把 相关的结果排在 前

面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。笔者 近

替朋友找一些关于日本和服的资料,在搜索引擎上输入“和服”,得到的结果就发现了很多问题。下面

就以这个例子来说明分词对搜索结果的影响,在现有三个中文搜索引擎上做测试,测试方法是直接在

Google(http://www.google.com)、百度(http://www.baidu.com)、中搜(http://www.zhongsou.com)上以

“和服”为关键词进行搜索: 在 Google 上输入“和服”搜索所有中文简体网页,总共结果 507,000 条,前 20 条结果中有 14 条

与和服一点关系都没有。在第一页就有以下错误: “通信信息报:瑞星以技术和服务开拓网络安全市场” “使用纯 HTML 的通用数据管理和服务- 开发者- ZDNet ...” “陈慧琳《心口不一》化妆和服装自己包办”

Page 58: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 58

“::外交部:中国境外领事保护和服务指南(2003 年版) ...” “产品和服务” 等等。第一页只有三篇是真正在讲“和服”的结果。 在百度上输入“和服”搜索网页,总共结果为 287,000 条,前 20 条结果中有 6 条与和服一点关系

都没有。在第一页有以下错误: “福建省晋江市恒和服装有限公司系独资企业” “关于商品和服务实行明码标价的规定” “青岛东和服装设备” 在中搜上输入“和服”搜索网页,总共结果为 26,917 条,前 20 条结果都是与和服相关的网页。 这次搜索引擎结果中的错误,就是由于分词的不准确所造成的。通过笔者的了解,Google 的中文

分词技术采用的是美国一家名叫 Basis Technology(http://www.basistech.com)的公司提供的中文分词技

术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(http://www.hylanda.com)提

供的分词技术。由此可见,中文分词的准确度,对搜索引擎结果相关性和准确性有相当大的关系。 中文分词技术 中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,

哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分

词方法。 1、基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词

典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,

串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为 大( 长)

匹配和 小( 短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相

结合的一体化方法。常用的几种机械分词方法如下: 1)正向 大匹配法(由左到右的方向); 2)逆向 大匹配法(由右到左的方向);

Page 59: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 59

3) 少切分(使每一句中切出的词数 小)。 还可以将上述各种方法相互组合,例如,可以将正向 大匹配方法和逆向 大匹配方法结合起来构

成双向匹配法。由于汉语单字成词的特点,正向 小匹配和逆向 小匹配一般很少使用。一般说来,逆

向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向 大匹配的

错误率为 1/169,单纯使用逆向 大匹配的错误率为 1/245。但这种精度还远远不能满足实际的需要。实

际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提

高切分的准确率。 一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带

有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错

误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标

注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。 对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。 2、基于理解的分词方法 这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的

同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系

统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和

语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言

知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,

因此目前基于理解的分词系统还处在试验阶段。 3、基于统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能

构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现

的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字 X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可

认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又

叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并

不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度

差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分

词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、

效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。 到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独

依靠某一种算法来实现,都需要综合不同的算法。笔者了解,海量科技的分词算法就采用“复方分词法”,

所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识

别,需要多种算法来处理不同的问题。

Page 60: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 60

分词中的难题 有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复

杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。 1、歧义识别 歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”

都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交叉歧义。像这种交叉歧义十

分常见,前面举的“和服”的例子,其实就是因为交叉歧义引起的错误。“化妆和服装”可以分成“化

妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。 交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,

在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;

在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”

就不再是词。这些词计算机又如何去识别? 如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是

给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切

分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕

谁也不知道“拍卖”在这里算不算一个词。 2、新词识别 新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。

典型的是人名,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的

名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么

多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完

成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词? 新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,

而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前

新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。 中文分词的应用 目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理

方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,搜

索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动

校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,

因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。在中文研究方面,相比

外国人来说,中国人有十分明显的优势。

Page 61: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 61

分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说

也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引

擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。目前

研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM 研究院、微

软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没

有了。科研院校研究的技术,大部分不能很快产品化,而一个专业公司的力量毕竟有限,看来中文分词

技术要想更好的服务于更多的产品,还有很长一段路。

Page 62: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 62

www.ahcit.com/200312/15.doc

搜索引擎关键技术综述

李连1,2,朱爱红

1

(1.海军航空工程学院;2.北京理工大学)

摘 要:本文介绍了WWW搜索引擎的分类,详细阐述了WWW搜索引擎的体系结构和工作原理,并以Google为例讨论了 robot 的功能、执行过程。 后展望了 WWW 搜索引擎未来发展趋势。 关键词:WWW 搜索引擎,目录,元搜索,Robot,Google,智能搜索引擎 中图分类号:G354.40. 引言

随着 Internet 技术的应用与发展,网络已经成为信息的重要来源地,搜索引擎也成为必不可少的网络基础设施。搜索引擎技术涉及系统技术、网络技术、多媒体技术、语言处理技术、人工智能技术等,越来越受到广泛的关注,新的搜索引擎技术不断涌现,搜索引擎的表现形式也呈多样化。

1 WWW 搜索引擎的分类

根据所使用的技术,目前 Internet 上的搜索引擎大致可以分成三大主要类型:目录导航式搜索引擎、基于 Robot 的搜索引擎和 Meta 搜索引擎。

目录导航式搜索引擎由人工发现、抓取、辨别网上信息,依靠编目、标引人员的知识,按照图书分类、学科分类或其它分类依据,建立主题树分层目录,将采集、筛选后的信息分门别类的放入各大类或子类下面。

由于人工技术的干预,目录导航式搜索引擎搜索得到的结果往往更具参考价值,不过,它也存在信息涵盖量不大、更新能力有限的缺点。

基于 Robot 的搜索引擎利用一个称为 Robot(也叫做 Spider、Web Crawler 或 Web Wanderer)的程序自动访问 Web 站点,提取站点上的网页,并根据网页中的链接进一步提取其它网页,或转移到其它站点上。Robot 搜集的网页被加入到搜索引擎的数据库中,供用户查询使用。

事实上,现在很多搜索站点都同时提供有目录和基于 Robot 的搜索服务,以便尽可能地为用户提供全面的查询结果。

Meta 搜索引擎本身并没有存放网页信息的数据库,当用户查询一个关键词时,它把用户的查询请求转换成其它搜索引擎能够接受的命令格式,并行地访问数个搜索引擎来查询这个关键词,并把这些搜索引擎返回的结果经过处理后再返回给用户。

搜索引擎的其他分类方法还有:按照自动化程度分为人工与自动引擎;按照是否具有智能功能分为智能与非智能引擎;按照搜索内容分为文本搜索引擎、语音搜索引擎、图形搜索引擎、视频搜索引擎等。

2 基于 Robot 的 WWW 搜索引擎的一般结构

尽管每个搜索引擎设计的细节大不相同,但是一个搜索引擎一般会包含 3 个要素:Robot、索引程序和搜索软件。

一般地,WWW 搜索引擎执行步骤为: 1)Robot 从起始 URL 列表中取出 URL 并从网上读取其内容; 2)从每一个文档中提取某些信息并放入索引数据库中; 3)从文档中提取指向其它文档的 URL,并加入到 URL 列表中; 4)重复上述3个步骤,直到再没有新的 URL 发现或超出了某些限制(时间或磁盘空间); 5)给索引数据库加上查询接口,向网上用户发布。

2.1 Robot Robot 是一个特殊的 WWW 客户端程序,主要工作是访问并读取 Web 页面,然后跟随链接进入其他 Web

页面。Robot 定期(如每个月或每两个月)返回到同一个站点中寻找发生的变化。 Robot 从一个事先制定好的 URLs 列表出发,这个列表中的 URLs 通常是从以往访问记录中提取出

来的,特别是一些热门站点和"What's New"网页,从 Usenet 等地方检索得到的 URLs 也常被用作起始URLs,此外,很多搜索引擎还接受用户提交的 URLs,这些 URLs 也会被安排在列表中供 Robot 访问。Robot 访问了一个网页后,会对它进行分析,提取出新的 URLs,将之加入到访问列表中,如此递归地访问 Web。

Robot 作为一个程序,可以用 C、Perl、Java 等语言来编写,可以运行在 Unix、Solaris、Windows、

Page 63: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 63

NT、OS2 和 MAC 等平台上。Robot 设计是否合理将直接影响它访问 Web 的效率,影响搜索数据库的质量,另外,在设计 Robot 时还必须考虑它对网络和被访问站点的影响,因为 Robot 一般都运行在速度快、带宽高的主机上,如果它快速访问一个速度比较慢的目标站点,就有可能会导致该站点出现阻塞甚至当机。Robot 还应遵守一些协议,以便被访问站点的管理员能够确定哪些内容能被访问,哪些不能。 2.2 Robot 索引程序

索引程序将 Robot 找到的每个 Web 页面复制一份存在资源数据库中。如果 Web 页面发生改变,则使用 新信息对资源数据库进行更新。有时把新的页面或 Robot 找到的改变添加到资源数据库中会花费一段时间,因此一个 Web 页面可能已经被“爬行过”,但是还没有被“索引过”。这样的页面只有被添加到资源数据库中以后,才能使用搜索引擎搜索到。为了提高查询效率并降低搜索引擎对计算机硬件的需求,系统会将索引程序复制的网页内容进行处理,包括去除不必要的图片与标记数据,只保留网页的文字数据,然后针对剩下的文字数据制作成索引文件,以便更快地搜索所需的数据。

索引数据库建立的策略很大程度上影响了搜索引擎的效率与准确性。在设计一个索引数据库时,要针对实际需要确定索引数据库的数据结构和存储方式。由于搜索引擎系统通常处理的都是海量的信息,因此还要设计一定的压缩策略,对索引库进行有效的压缩,以提高检索的速度。

基于 Robot 的搜索引擎一般要定期访问大多数以前搜集的网页,刷新索引数据库,以反映出网页的更新情况,去除一些死链接,网页的部分内容和变化情况将会反映到用户查询的结果中,这是基于 Robot的搜索引擎的一个重要特征。

索引数据库建立时,一般会给网页中每个关键词赋予一个等级值,表示该网页与关键词之间的符合程度。当用户查询一个关键词时,搜索软件将搜索索引数据库,找出所有与关键词相符合的网页,有时候这些网页可能有成千上万,等级值的用途就是作为一种排序的依据,搜索软件将按照等级值从高到低的顺序把搜索结果送回到用户的浏览器中。

不同的搜索引擎在计算等级值时使用了不同的方法,但它们都以关键词在网页中出现的位置和频率为基本依据,例如,关键词出现在标题中的网页可能比只出现在其它地方的网页更符合要求,关键词出现在网页的前面可能比只出现在网页的后面更符合要求,同一个关键词出现多次的网页又可能比只出现一两次的网页更符合要求,把这些因素综合起来考虑便可得出一个计算等级值的公式。不过,绝大多数搜索引擎都没有只按照上述因素来确定计算公式,它们还加入了一些特殊考虑,例如,Excite 能检查是否有很多链接指向同一个网页,如果是的话,它就把这个网页的等级值稍微提高一些,理由是这样的网页一般都具有更大的访问量。 2.3 搜索软件

搜索软件是一个匹配程序,根据用户输入的查询条件,搜索资源数据库中的页面,将相关页面按与查询的相似性的降幂顺序返回。结果页面排序一般有两种方法:

1)按频次排定次序 通常来说,如果一个页面包含了越多的关键词,其搜索目标的相关性应该越好。 2)按页面被访问度排序 在这种方法中,搜索引擎会记录它所搜索到的页面被访问的频率。人们访问较多的页面通常应该包

含信息比较多,或者有其它吸引人的长处。这种解决方案比较适合一般搜索器使用。 所有的搜索引擎都由上面描述的基本部件组成,但是如何调整这些部件有着很大的差别,因此不同

的搜索引擎在进行同一搜索时,经常会产生不同的结果。

3 WWW 搜索引擎的 Robot 技术

目前只有 Google 的设计细节公布,由于搜索引擎的主要工作原理都是相同的,本节以 Google 的robot 技术为例详细介绍 WWW 搜索引擎的 Robot 技术。 3.1 Google 构架

为了管理海量的网页数据,Google 采用了分布式的系统结构,同时运行许多 robot 程序(一般为 3个),每个 robot 程序一次开放大约 300 个连接。在峰值速度时,系统使用 4 个 robot 程序可每秒爬过100 多个页面。由于 robot 的主要瓶颈是域名服务器(DNS)的查找,每个 robot 程序都为自己保留了DNS 缓冲区,因此在爬行网页之前无须每次都做 DNS 查找。 3.2 Robot 执行过程

首先 URL 服务器把 URLs 的列表发送给 robot 程序以便供其抽取。为了提高爬行速度,几个分布式robot 程序同时运行。robot 程序将抽取的 Web 页面或文档传送给压缩服务器,压缩服务器把 Web 页面压缩后存储在仓库中。索引器读取压缩过的 Web 页面,并对它们解压缩,然后进行分析。根据单词出现率、单词位置以及字体大小和字母大小写等单词性能,索引器产生了一个由 DocID 分类的前向索引文件。DcoID 是分配给每个 Web 页面的 ID 号。除此之外,索引器也分析出每个 Web 页面包含的所有链接,并存储所包含的重要信息,这些信息包括链接信源和信宿,以及一个锚文件中链接的锚文本。

URL 分解器从锚文件中读取 URL,并把相对的 URL 转换成绝对的 URL。它还抽取出锚文本并把它放入与锚指向的 DocID 有关的前向索引文件中。URL 分解器也产生一个链接数据库,该数据库包含每个链

Page 64: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 64

接所连接的文档对,然后对链接数据库中所有文档的页面计算排序级别(PageRanks)。 3.3 Robot 站点爬行

站点爬行是 Robot 技术中 关键的一部分。爬行是寻找站点上所有用户可以访问的网页的过程。Robot 从一个地址开始,寻找该页面上的链接,然后 Robot 重复它在第一页发现链接的过程。在爬行过程中必须主要解决几个问题:消除重复、辨别类型、限制范围、限制深度。

网页中通常存在着相互链接,指向主页的链接也是常见的。站点爬行时对页面重复处理可能使robot 陷入死循环中。所以一般建立一个已访问 URL 的列表,在处理新链接前先检查此表。

有时链接指向的不是 html 文档,可能指向图片或应用程序。这就要求 robot 具有不同类型不同处理的要求。

另外,还需限制 robot 的爬行范围,一般 robot 只处理指向同一服务器的链接。对于某些信息层次很深的站点应设定 robot 的爬行深度,以便 robot 能自动结束对此站点的爬行。 3.4 Robot 寻找网页的算法

链接在同一服务器

Robot 初 始 化

返回

调用 robot

进入下一个链接

在当前页搜索链

获取网页

得到网页

还有链接

链 接 是 否

以前访问过吗

达到 大深度

Robot 程序站点爬行流程图

Page 65: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 65

Robot 使用深度优先和广度优先两种基本的搜索策略。Robot 以 URL 列表存取的方式决定搜索策略: 1)先进先出,则形成广度优先搜索。当起始列表包含有大量的Web服务器地址时,广度优先搜

索将产生一个很好的初始结果,但很难深入到服务器中去。 2)先进后出,则形成深度优先搜索。这样能产生较好的网页分布,更容易发现网页的结构,即找

到 大数目的交叉引用。

4 WWW 搜索引擎发展趋势

目前世界上很多很好的搜索引擎,如 Google、Yahoo 等从资源覆盖度、检索精度、检索结果可视化、检索对象单一和可维护性等诸多方面来看,其检索效果还远不能令人满意。新一代智能搜索引擎作为一种高效搜索引擎技术在当今网络信息时代日益引起人们的关注。

智能搜索引擎设计追求的目标是:根据用户的请求,从可以获得的网络资源中检索出对用户 有价值的信息。

智能搜索引擎的Robot通过启发式学习采取 有效的搜索策略,选择 佳时机获取从Internet上自动收集、整理的信息。众所周知,信息动态更替无时无刻不在进行,即使在搜索过程中,文档会被添加、删除、改变。因此, 智能搜索引擎的 Robot 应能自动完成在线信息的索引。

智能搜索引擎应能在 Internet 或 Intranet 的任何地方工作,能尽可能地挖掘和获得信息。Robot既可收集特定站点的信息,又能遍历整个 Internet,对整个 Internet 进行索引。为了提高搜索速度,智能搜索引擎可以同时启动多个引擎并行工作,将各个引擎的搜索结果整合,作为一个整体存放到数据库中。

此外,智能搜索引擎具有跨平台工作和处理多种混合文档结构的能力。譬如既能处理 HTML,又能处理 SGML 和 XML 文档以及其他类型的文档,譬如 Word、WPS 等。

同时,智能搜索引擎还具有高的召回率和准确率。所谓召回率是指一次搜索结果集中符合用户要求的数目与和用户查询相关的总数之比。所谓准确率是指一次搜索结果集中符合用户要求的数目与该次搜索结果总数之比。 参考文献: 1. 储荷婷. Internet 网络信息检索:原理、工具、技巧[M]. 北京: 清华大学出版社,1999. 2. 徐建华. 国外六个著名搜索引擎的特征和评析[J]. 现代图书情报技术,2001,(1):48-51. 3. 曾民族. 网络信息检索现状和性能评价[J]. 情报学报,1997,16(2):90-99 4. http://www.google.com 5. http://www.yahoo.com 6. http://www.dogpile.com

Page 66: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 66

http://new.tang365.com/data/2005/0819/article_12118.htm 什么是 SEO? 作者 来源 发布时间 2005-08-19 浏览次数 字体 大 中 小 内容摘要 SEO 是英文 search engine optimization 的缩写,其中文意思是搜索引擎优化。而从事这方面

工作的就是 search engine optimizer,搜索引擎优化师。他们利用工具或者其他的各种手法使自己的合搜

索引擎的搜索规则从而获得较好的排名(也就是常说的网站优化)。无止境地追求较前排名是 SEO 们一

世的目标。 ■什么是 SEO SEO 是英文 search engine optimization 的缩写,其中文意思是搜索引擎优化。而从事这方面工作的

就是 search engine optimizer,搜索引擎优化师。他们利用工具或者其他的各种手法使自己的合搜索引擎

的搜索规则从而获得较好的排名(也就是常说的网站优化)。无止境地追求较前排名是 SEO 们一世的目

标。 在网络营销中,搜索引擎优化排名是一种非常重要的手段,SEO 主要就是通过对网站的结构,标

签,排版等各方面的优化,使 Google 等搜索引擎更容易搜索网站的内容,并且让网站的各个网页在

GOOGLE 等搜索引擎中获得较高的评分,从而获得较好的排名。 ■中国 SEO 现状 个事物的发展都会经过以下几个阶段,萌芽、初步发展、高速发展、成熟、衰落。中国 2003 年才

起步,正处于初步发展阶段。具体特征:1、从事这方面的人不多,也不专业。2、未形成规模。3、多

是作坊式经营,即主要是对本公司的网站进行一定的修改,就说成所谓为网站优化。4、有专业的公司,

但规模不大、技术也一般。 ■SEO 在国外 国外这方面发展得比较早,早在 97 年左右就有人从事相关方面的工作。如果按上述的几个阶段来

说,应该是处于高速发展的阶段了。他们有专业的人员、专业的公司(而且是规模很大)从事搜索引擎

研究、优化等工作。无论从哪方面来说都处于绝大的优势。 在国外,搜索引擎优化已经成为一个行业,在中国的 SEO 行业从 2003 年才正是起步。

■ 不知在什么时候,在互联网上人们开始习惯使用搜索引擎找所需的东西。可能是 yahoo 出现时,

或者更早些。SEO 也因此得了飞速的发展。今时今日,人们不但没有改变这种习惯,反而变本加厉。

从国内外的现状来看,竞争都很激烈。在竞争中产生优胜劣汰,这些生存者实力雄厚。国内处于起步的

的 SEO 们在不断的探索,希望能找到一条正确的道路。在进军国际市场前必然会进行一场优胜劣汰的

洗礼。前进的过程的坎坷的,但前景是光明的。

Page 67: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 67

http://www.marketingman.net/wm36/669.htm 警惕“SEO 垃圾”对搜索引擎和搜索引擎营销的威胁 (www.marketingman.net 冯英健 2005-01-25)   【摘要】:在搜索结果中发现一些网页通过堆砌大量关键词等“技术手段”获得好的排名,当用户

点击进去后看到的可能只是一个搜索引擎才能“看懂”的网页。这就是“SEO 垃圾”的表现形式之一。

正如垃圾邮件影响了正规 Email 营销的声誉,几乎让 Email 营销趋于覆灭的境地,垃圾 SEO 也影响了

正当搜索引擎优化的声誉,不仅搜索引擎服务商要反对 SEO,互联网用户同样也反对 SEO。 --------------------------------------------------------------------------------   搜索引擎的营销价值不仅为搜索引擎提供商带来了滚滚财源,也吸引了许多搜索引擎优化热衷者从

中寻找商业机会。正当的搜索引擎优化(SEO)是合理利用搜索引擎规则开展营销营销的一种方法,但

同时也存在各种不正当的手段,不仅利用搜索引擎排名算法的漏洞欺骗搜索引擎,同时也为互联网用户

获取信息形成了误导。 近经常看到网上一些作者的相关文章,描述利用 google 对一些常用词汇进行

搜索时,往往会在搜索结果中发现一些网页或者二级域名,通过堆砌大量关键词等“技术手段”获得好

的排名,当用户点击进去后看到的可能只是一个搜索引擎才能“看懂”的网页,如果该网页已经有了买

主,用户点击搜索结果则可能重新定向到另外一个网站。这就是“SEO 垃圾”(或称为“垃圾 SEO”)

的表现形式之一。当然,SEO 垃圾的形式五花八门,并不限于这一种,值得注意的是,这种 SEO 垃圾

显然是有人以牟利为目的而采用的作弊行为,如果得不到有效的控制,会有“产业化”的发展趋势。   笔者也经常遇到这样的情况,在 2005 年元旦期间,写作“2004 年 热门的互联网词汇之一:VoIP”一文时,曾经用“VoIP”在 google 进行过检索,当时已经发现有些结果中的“SEO 垃圾”信息,在写

本文时(2005 年 1 月 25 日),重新用“Voip”进行检索,发现有些“SEO 垃圾”信息重新定向到其他

网站(也许是已经卖出),同时另外又出现了一些新的垃圾信息。显然,这是 google 之类的搜索引擎所

面对的新问题,这种状况的泛滥,对于 goole 检索结果的可信度是一个挑战,对于以搜索引擎优化为手

段的网络营销者来说,同样是一种威胁。   正如基于用户许可的 Email 营销和未经用户许可发送垃圾邮件之间的关系一样,如果仅在形式上都

是“Email 营销”,但性质却是完全不同的,前者才能称为真正的 Email 营销,后者则是垃圾邮件,垃圾

邮件的泛滥影响了正规 Email 营销的声誉,让用户对于电子邮件营销失去信心,几乎让 Email 营销趋于

覆灭的境地(直到现在很多用户仍然不清楚正规 Email 营销和垃圾邮件的区别——也许根本无需去理解

它们的区别,总之都成为不受欢迎的商业邮件)。同样,垃圾 SEO 也影响了正当搜索引擎优化的声誉,

如果不加区分,不仅搜索引擎服务商要反对 SEO,互联网用户同样也反对 SEO。这实在是互联网的悲

哀,也是网络营销的悲哀——凡是有价值的网络营销工具,都会被少数人为了一己之利而毁掉。   相对于泛滥的垃圾邮件无法得到控制,SEO 垃圾的控制渠道相对简单一些,关键取决于搜索引擎

技术的不断提高。其实,自从人们发现搜索引擎具有网站推广的价值开始,以“搜索引擎优化”技巧(无

论当初是否有这个术语)来获得在搜索引擎中好的排名,甚至用不正当手段进行商业竞争的活动从来就

没有停止过,因搜索引擎而引起的法律纠纷也一直都存在。 早的一起因搜索引擎引起的商标权纠纷发

Page 68: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 68

生于 1997 年 7 月【关于“搜索引擎营销中的法律纠纷”综述】,早期的搜索引擎商标权纠纷通常源于搜

索引擎利用 META 标签中关键词检索的原理,现在的搜索引擎作弊手段要更加高明一些。从一定程度

上讲,各种针对搜索引擎的作弊手段也促进了搜索引擎技术的不断提高,正如黑客对于网络安全技术的

影响一样。    google 等搜索引擎已经意识到“垃圾 SEO”的问题,并开始推出一些针对性的措施,有文章报道

“Major Search Engines Back Nofollow Attribute To Fight Comment Spam” ,因为一些“SEO”发现通过

论坛、博客网站等发表评论中的链接有助于提高网站排名,于是大量在文章评论中发布含有网站链接的

信息,并不是要参与文章评论,而是为了达到“搜索引擎优化”的目的。google 们已经将这种行为视为

一种新型的搜索引擎垃圾信息【关于搜索引擎垃圾的介绍】,并采取了相应的措施,不过在中文搜索方

面,google 可能还没有采取相应的动作,于是一些 SEO 垃圾暂时仍然有其生存的空间。这种危害搜索

引擎和搜索引擎营销的现象值得引起警惕。

Page 69: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 69

http://www.baidu.com/search/spam.html

百度与站长-使百度有效收录

1. 作弊网站定义 对搜索引擎作弊,是指为了提高在搜索引擎中展现机会和排名的目的,欺骗搜索引擎的行为。 以下行为都可能被认为是作弊: · 在网页源代码中任何位置,故意加入与网页内容不相关的关键词; · 在网页源代码中任何位置,故意大量重复某些关键词。即使与网页内容相关的关键词,故意重

复也被视为作弊行为; · 在网页中加入搜索引擎可识别但用户看不见的隐藏文字。无论是使用同背景色文字、超小字号

文字、文字隐藏层、还是滥用图片 ALT 等方法,都属于作弊行为; · 故意制造大量链接指向某一网址的行为; · 对同一个网址,让搜索引擎与用户访问到不同内容的网页(包括利用重定向等行为); · 作弊行为的定义是针对网站而不是网页的。一个网站内即使只有一个网页作弊,该网站也被认

为是有作弊行为; · 有链接指向作弊网站的网站,负连带责任,也会被认为是作弊(但是,作弊网站上链接指向的

网站,不算作弊)。 2. 作弊网站害处 根据网页的作弊情况,会受到不同程度的惩罚: · 较轻微的惩罚,是系统在给网页排名时略为降低该网页的排名; · 较常见的惩罚,是作弊网站的某些关键词(或所有关键词)的排名降到其它任何网站之后; · 较严厉的惩罚,对于作弊行为和后果特别恶劣的网站,将从百度中消失; · 特别补充,含恶意代码或恶意插件等用户极端反感内容的网页,虽然不是作弊,但只要用户投

诉,一经确认也会被百度拒绝收录; 3. 作弊网站举报信箱

[email protected]

Page 70: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 70

http://www.search-engine-optimization.ecommercehosts.com/SEO-references/SEO-patents.htm#msnbottom

Google Patents (专利技术) (click to open or close) Systems and methods for improving search quality (Patent Application) # 20050149499 (2005) Systems and methods are disclosed for improving search quality. Search queries are expanded using a variety of linguistic techniques. For example, the words in a query can be supplemented with related words obtained from a database of compound words, inflectional forms, and/or orthographic variations. The expanded queries can be used to perform searches for responsive documents. A document index can be expanded using similar techniques. Systems and methods for direct navigation to specific portion of target document (Patent Application) #20050149576 (2005) Systems and methods for direct navigation to and/or highlighting a specific portion of a target document such as query-relevant portion of the document are disclosed. The method may include generating a search result link to a search result document and generating an instruction to a client document browser to navigate directly to an intra-document portion related to the query within the search result document. The search result may include a snippet extracted from the search result document such that the instruction causes navigation directly to at least a portion of the snippet. The instruction may be an artificial anchor undefined in the search result document, e.g., designated by a preassigned artificial anchor designator. The client browser may have an artificial anchor module installed to execute the instruction to navigate directly to and optionally highlight the intra-document portion within the target document in response to the document link being selected. Information retrieval based on historical data (Patent Application) # 20050071741 (2005) A system identifies a document and obtains one or more types of history data associated with the document. The system may generate a score for the document based, at least in part, on the one or more types of history data. Method for searching media (Patent Application) # 20040122811 (2004) The present invention is directed to a computer-implemented method and apparatus for searching in response to Internet-based search queries using a search engine and an electronic database. According to one example embodiment of the present invention, data sets representing published items are input, for example, scanned-in or sent electronically, and stored in a searchable database. Each data set includes text from at least one published item. Responsive to the search query, a search engine searches for and identifies relevant web pages and data sets representing published items and, in a more specific embodiment, ranked characterizations are returned for the relevant web pages and published items. An electronic path can be provided with the published item for accessing further information about the published item. In one embodiment, the electronic path is a hyperlink from a characterization of a relevant published item to a more complete electronic representation of

Page 71: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 71

the relevant published item. Publishers provide authorization to display copyrighted materials through a permission protocol. Methods and apparatus for employing usage statistics in document retrieval Patent Application 20020123988 (2002) Methods and apparatus consistent with the invention provide improved organization of documents responsive to a search query. In one embodiment, a search query is received and a list of responsive documents is identified. The responsive documents are organized based in whole or in part on usage statistics. Systems and methods for highlighting search results - USP 6,839,702 (2005) A system highlights search terms in documents distributed over a network. The system generates a search query that includes a search term and, in response to the search query, receives a list of one or more references to documents in the network. The system receives selection of one of the references and retrieves a document that corresponds to the selected reference. The system then highlights the search term in the retrieved document. Techniques for finding related hyperlinked documents using link-based analysis USP 6,754,873 (2004) Techniques for finding related hyperlinked documents using link-based analysis are provided. Backlink and forwardlink sets can be utilized to find web pages that are related to a selected web page. The scores for links from web pages that are from the same host and links from web pages with numerous links can be reduced to achieve a better list of related web pages. The list of related web pages can be utilized as a feature to a word-based search engine or an addition to a web browser. Ranking search results by reranking the results based on local inter-connectivity USP # 6,725,259 (2004) A search engine for searching a corpus improves the relevancy of the results by refining a standard relevancy score based on the interconnectivity of the initially returned set of documents. The search engine obtains an initial set of relevant documents by matching a user's search terms to an index of a corpus. A re-ranking component in the search engine then refines the initially returned document rankings so that documents that are frequently cited in the initial set of relevant documents are preferred over documents that are less frequently cited within the initial set. Information extraction from a database USP # 6,678,681 (2004) Techniques for extracting information from a database are provided. A database such as the Web is searched for occurrences of tuples of information. The occurrences of the tuples of information that were found in the database are analyzed to identify a pattern in which the tuples of information were stored. Additional tuples of information can then be extracted from the database utilizing the pattern. This process can be repeated with the additional tuples of information, if desired.

Page 72: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 72

Detecting duplicate and near-duplicate files USP 6,658,423 (2003) Improved duplicate and near-duplicate detection techniques may assign a number of fingerprints to a given document by (i) extracting parts from the document, (ii) assigning the extracted parts to one or more of a predetermined number of lists, and (iii) generating a fingerprint from each of the populated lists. Two documents may be considered to be near-duplicates if any one of their fingerprints match. Detecting query-specific duplicate documents USP 6,615,209 (2003) An improved duplicate detection technique that uses query-relevant information to limit the portion(s) of documents to be compared for similarity is described. Before comparing two documents for similarity, the content of these documents may be condensed based on the query. In one embodiment, query-relevant information or text (also referred to as "snippets") is extracted from the documents and only the extracted snippets, rather than the entire documents, are compared for purposes of determining similarity. Methods and apparatus for using a modified index to provide search results in response to an ambiguous search query USP 6,529,903 (2003) A search engine for searching a corpus improves the relevancy of the results by refining a standard relevancy score based on the interconnectivity of the initially returned set of documents. The search engine obtains an initial set of relevant documents by matching a user's search terms to an index of a corpus. A re-ranking component in the search engine then refines the initially returned document rankings so that documents that are frequently cited in the initial set of relevant documents are preferred over documents that are less frequently cited within the initial set. Note: The following patent is not strictly a Google Patent, but Google currently has exclusive license to use the PageRank Patent and so it is included here. Method for scoring documents in a linked database USP # 6,799,176 (2004) A method is presented for scoring documents stored in a network. The method includes identifying links from linking documents to linked documents in the network and determining an importance of the identified links. The method further includes weighting the identified links based on the determined importance and scoring the linked documents based on the weighted links.

Page 73: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 73

Yahoo Patents (专利技术) (click to open or close) Systems and methods for search query processing using trend analysis Patent Application # 20050102259 (2005) Systems and methods for processing search requests include analyzing received queries in order to provide a more sophisticated understanding of the information being sought. In one embodiment, queries are parsed into units, which may comprise one or more words or tokens of the query, and the units are related in concept networks. Trend analysis is performed by sorting the queries into subsets along a dimension of interest and comparing concept networks for different subsets. Trend information is usable to enhance a response of an automated search agent to a subsequently received query Systems and methods for search processing using superunits Patent Application # 20050080795 (2005) In a search processing system, a concept network is generated from a set of queries by parsing the queries into units and defining various relationships between the units based in part on patterns of units that appear together in queries. Units in the concept network that have some similar characteristic(s) are grouped into superunits. For each superunit, there is a corresponding signature that defines the similar characteristic of the group. A query is processed by identifying constituent units, determining the superunit membership of some or all of the constituent units, and using that information to formulate a response to the query. System and method of placing a search listing in at least one search result list Patent Application # 20050004835 (2005) A system and method is provided for qualifying search listings for placement in at least one search result list and ordering the search listings according to an algorithm. Specifically, a searching device is adapted to received items of information, such as search listings (e.g., www.yahoo.com, etc.), search terms (e.g., "cars," "beauty supplies," etc.) and monetary amounts (e.g., $1.00, etc.), from a plurality of promoting devices, receive a search inquiry (i.e., a search term) from a reception device, and provide (in response thereto) at least one search result list including search listings (i) associated with the search inquiry and (ii) qualified for placement in the search result list. In other words, if the search term linked to the search listing is the same as (or substantially similar to) the search inquiry, then the first prong is met. Furthermore, if a predetermined number of monetary amounts (i.e., as linked to a predetermined number of search listings associated with the search inquiry) are not higher than the monetary amount linked to the search listing, then the second prong is met and the search listing is qualified for placement. Thus, only a predetermined number of search listings (e.g., three, five, etc.) that are both (i) associated with the search inquiry and (ii) linked to the highest monetary amounts are qualified for placement in the search result list. Once the search listings are qualified for placement in the search result list, the searching device is adapted to arrange the qualified search listings according to an algorithm (e.g., randomly, according to relevance, according to monetary amounts, etc.).

Page 74: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 74

Universal search interface systems and methods Patent Application (2004) Systems and methods for enhancing information retrieval and communication functionality through the use of a universal interface that is configurable to interface with multiple applications resident on a user computer, and which provides a persistent two-way communication channel for communicating with search intelligence on a remote system. Sharable, actionable labels and codebooks of labels may be defined by a user. Each label may be defined in a natural language format and may include a mapping to a specific application or set of applications executable on a user system. Transfer of labels and codebooks between user systems allows for enhanced information exchange and retrieval among users as well as information exchange tracking and analysis by a server system. Systems and methods for generating concept units from search queries Patent Application # 20040199498 (2004) Systems and method for enhancing search functionality provided to a user. In certain aspects, a query processing engine automatically decomposes queries into constituent units that are related to concepts in which a user may be interested. The query processing engine decomposes queries into one or more constituent units per query using statistical methods. In certain aspects, no real world knowledge is used in determining units. In other aspects, aspects of world and content knowledge are introduced to enhance and optimize performance, for example, manually using a team of one or more information engineers. Canonicalization of terms in a keyword-based presentation system Patent Application # 20040199496 (2004) A presentation system accepts presentations or references to presentations from prospective presenters. Some or all of the presentations or references are stored in a database and referenced by keywords such that presentations to be presented in response to particular searches can be identified. A presentation manager handles accepting bids and settling terms between prospective presenters. The results of such processes might be stored in a presentation details database. A presentation server handles retrieving presentations from the presentation details database for presentation to users along with requests such as search results. Both the presentation manager and the presentation server can operate on a keywords-basis, wherein presentation terms specify keywords to be associated with particular presentations and the presentation server serves particular presentations based on keywords in a search query for which the presentations are to be returned. The association of keywords can be done using canonicalization so that, under certain conditions, different keywords are treated as the same keyword. Canonicalizations might include plural/singular forms, gender forms, stem word forms, suffix forms, prefix forms, typographical error forms, word order, pattern ignoring, acronyms, stop word elimination, etc. Conditions might include aspects of the search query state, such as the user's demographics, the page from which the search query was initiated, etc. Method and apparatus for search ranking using human input and automated ranking Patent Application # 20040024752 (2004) A search system provides search results to searchers in response to search queries and the search results are ranked. The ranking is determined by an automated ranking process in combination with human editorial input.

Page 75: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 75

A search system might comprise a query server for receiving a current query, a corpus of documents to which the current query is applied, ranking data storage for storing information from an editorial session involving a human editor and a reviewed query at least similar to the current query, and a rank adjuster for generating a ranking of documents returned from the corpus responsive to the current query taking into account at least the information from the editorial session. Search engine using sales and revenue to weight search results Patent # 6,631,372 (2003) A search engine selects one or more search hits from among a plurality of hits, wherein a hit is a reference to a page or a site, based on a user interest, comprising an input module for accepting a query from a user, the query representing an interest of the user; a tracking module for tracking the user's navigation through the plurality of pages, including at least a destination purchase page, the destination purchase page being a page from which the user makes a purchase; a sales module which records associations between purchases and queries where the associations are provided, at least in part by an output of the tracking module; and a search module, which takes as its inputs at least a query and sales associations of that query provided by the sales module, and which outputs one or more search hits based on at least the query and the sales associations of that query. In some systems, instead of using sales data to alter the weights of the search results, merchant bidding is used to alter the weights of the search results, or a combination of the two is used. Information retrieval from hierarchical compound documents Patent # 6,553,364 (2003) A search query is applied to documents in a document repository wherein the documents are organized into a hierarchy. A search engine searches the hierarchy to return documents which match a query term either directly or indirectly. A specific embodiment of the search engine organizes the query term into individual subterms and matches the subterms against documents, returning only those documents which indirectly match the entire search query term and directly match at least one of the query subterms.

Page 76: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 76

MSN Patents (专利技术) (click to open or close) Web address converter for dynamic web pages Patent Application 20050081140 (2005) Herein is described an implementation of a Web address converter, which helps dynamic Web sites get the attention of spiders of Internet search engines. Search system using user behavior data Patent Application 20050125382 (2005) Context-based user feedback is gathered regarding searches performed on a search mechanism. The search mechanism is monitored for user behavior data regarding an interaction of a user with the search mechanism. The response data provided by the search mechanism is also monitored. Context data (describing the search) and user feedback data (the user's feedback on the search--either explicit or implicit) are determined. This can be used, for example, to evaluate a search mechanism or to check a relevance model. System and method for checking a content site for efficacy Patent Application 20050114319 (2005) The present invention provides a system and method for automatically suggesting optimizations that can be made to content pages to increase the chances that the network site containing the content page will be indexed and returned high in the rank ordered list of results form a search engine. In one embodiment, the present invention also includes a keyword generation tool for use in generating effective keywords for which a content page can be optimized. Expanded search keywords Patent Application 20050102278 (2005) A method for providing additional terms to a searching process based on a string is provided. The method includes receiving a string that incorporates a plurality of characters separated by at least one space or hyphen. In one aspect, the plurality of characters is concatenated to form at least one additional term. In another aspect, a space is replaced with a hyphen. In yet another aspect, a hyphen is replaced with a space. The at least one additional term is provided to the search process. System and process for presenting search results in a tree format Patent Application 20050080770 (2005) A system and process for graphically displaying the results of a standard electronic search to a user on a display device via an interactive search results window in which the user views and refines search results items using a tree format. In general, the tree has a first level that indicates how the search results may be refined. The second level of the tree shows what subsets (what) are available for a particular refining method. The third level shows how the already refined (by the second level) results may be refined further. This is repeatedly applied with odd-numbered levels of the tree indicating how the results may be refined, and even-numbered levels indicating what subsets are available. In addition to the tree, the search results window also includes a

Page 77: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 77

listing of the search results items associated with a user-selected portion of the tree. Systems and methods for ranking documents based upon structurally interrelated information Patent Application 20050060297 (2005) Systems and methods for ranking Web pages based on hyperlink information in a manner that is resistant to nepotistic links are provided. In one embodiment, a Web search service is provided for returning quality query results. The vulnerability of existing ranking algorithms, such as PageRank, to Web pages that are artificially generated for the sole purpose of inflating the score of target page(s) is addressed. Intuitively, it is recognized that it is less likely to reach a particular page on a Web server having many pages via a random jump than it is to reach a particular page on a Web server having few pages, which implies that the influence of such a page upon another page by linking to, or endorsing, the other page is diminished. Thus, in various non-limiting embodiments, each Web server, not each Web page, is assigned a guaranteed minimum score. This minimum score assigned to a server can then be divided among all the pages on that Web server.

Page 78: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 78

百度在中国专利: 5 CN02117998.0 一种利用搜索引擎发布信息并按竞价排名的方法

4 CN02100552.4 一种使用快照的方式实现对网上信息进行记录和分析的方法

Page 79: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 79

3 CN02100551.6 一种基于词汇的计算机索引和检索方法

1 CN00124352.7 中文姓名的计算机识别及检索方法

Page 80: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 80

新浪专利(iask.com):

Page 81: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 81

中国其他关于搜索引擎主题专利: 记录

号 申请号 专利名称

1 CN01111184.4 动态搜索引擎 2 CN99805701.0 改进的搜索引擎

3 CN99810507.4 一种用于数据检索的搜索系统和方法及其在搜索引擎中

的应用 4 CN01122023.6 基于万维网共享搜索引擎查询的系统和方法 5 CN00804339.6 使用压缩树转发表的网络路由器搜索引擎 6 CN00810124.8 具有二维线性可缩放并行结构的搜索引擎 7 CN99816820.3 用于视频和图形的搜索引擎

8 CN00810945.1 影响计算机网络搜索引擎产生的搜索结果清单中位置的

系统和方法 9 CN02143758.0 搜索引擎帐户监控

10 CN02147281.5 一种在通过计算机网络搜索引擎产生的搜索结果清单中

提供位置和价格保护的系统... 11 CN02111893.0 基于信息抽取技术的搜索引擎 12 CN02100486.2 搜索引擎的智能化搜索方法 13 CN02126530.5 通用搜索引擎 14 CN02100376.9 标杆智能搜索引擎系统 15 CN02117998.0 一种利用搜索引擎发布信息并按竞价排名的方法 16 CN00109050.X 多国文字信息搜索方法和多国文字信息搜索引擎系统 17 CN03134796.7 采用分布式搜索引擎的对等因特网交易系统和方法 18 CN00818994.3 实时搜索引擎 19 CN200410026822.3 电话号码搜索方法和搜索引擎 20 CN00818509.3 MAC 地址高速搜索引擎 21 CN200410040191.0 一种专业化搜索引擎数据搜集方法 22 CN200410104045.X 中文字典搜索引擎及在中文字典中快速定位字的方法

23 CN200510008604.1 一种基于搜索引擎技术的提问式知识聚合方法以及知识

共享方法 24 CN200410036805.8 具有二维线性可缩放并行结构的搜索引擎 25 CN200510006149.1 无线搜索引擎及其方法

Page 82: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 82

世界知识产权组织以及美国关于搜索引擎公开专利申请 (节选部分)

Page 83: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 83

相关公司:

http://www.google.com/

http://www.yahoo.com/

http://www.msn.com/

http://www.yahoo.co.jp/

http://www.baidu.com/

http://www.ask.com/

http://channels.netscape.com/ns/search/default2.jsp

http://dogpile.com/

http://www.lycos.com

http://www.3721.net/

http://iask.com/

Page 84: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 84

http://www.sogou.com/

http://so.163.com/

http://www.yisou.com/

http://www.overture.com/

http://www.zhongsou.com/

http://e.pku.edu.cn/

http://i.tom.com/

http://www.aol.com/

http://www.mapabc.com/

http://service.mapbar.com/localsearch/main.jsp

Page 85: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 85

http://tech.sina.com.cn/i/2005-08-26/1128704474.shtml

7 月全球 10 大搜索公司排名出炉 Google 继续领先

http://www.sina.com.cn 2005 年 08 月 26 日 11:28 太平洋电脑网

作者:plainsman

据国外媒体报道,网络市场调查权威机构 Nielsen/NetRatings 在近日公布了 2005 年 7

月份全球排名前 10 位的搜索公司名单。

如果以搜索公司占据的市场份额来排名的话,Google 继续以 46.2%的市场占有率排名

第一,远远领先于其它竞争对手。雅虎和微软 MSN 分别以 22.5%和 12.6%的市场占有率排

名第二和第三。而美国在线(AOL)则以 5.4%的市场占有率排名第四,紧随其后的 My Way

Search 的市场占有率为 2.2%。

根据市场份额排名的 2005 年 6-7 月全球 10 大搜索引擎

公司 2005 年 6 月 2005 年 7 月

Google Search 47.0% 46.2%

Yahoo! Search 22.3% 22.5%

MSN Search 12.5% 12.6%

AOL Search 5.5% 5.4%

My Way Search 1.8% 2.2%

Ask Jeeves Search 1.8% 1.6%

Netscape Search 0.9% 1.6%

Dogpile.com Search 0.8% 0.9%

iWon Search 1.0% 0.9%

EarthLink Search 0.8% 0.8%

如果依据用户使用次数来排名的话,全球 10 大搜索引擎的名单则稍有不同。根据调查显

示,7 月份每用户使用搜索引擎的平均次数为 38 次,比 6 月份增长了 3.86%。其中 Google

和雅虎的每用户平均使用次数分别为 27 次和 20 次,排在第一和第二位。紧随其后的 Netscape

Search 和 Dogpile.com Search 的每用户平均使用次数分别是 20 次和 15 次,而 MSN Search 则

以 14 次的每用户平均使用次数排名第五。

根据用户平均使用次数排名的 2005 年 6-7 月全球 10 大搜索引擎

公司 2005 年 6 月 2005 年 7 月

Google Search 27.1 27.4 Yahoo! Search 19.1 20.1

Netscape Search 10.5 19.7

Page 86: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 86

Dogpile.com Search 13.5 15.0 MSN Search 13.4 13.9

EarthLink Search 12.6 13.4 My Search Search 9.5 13.2

iWon Search 17.8 13.1 Webcrawler.com Search 6.8 12.2

My Way Search 6.8 12.2 合计(平均每用户使用搜索引擎次数) 36.2 37.6

Page 87: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 87

http://www.donews.com/Content/200507/70497a237fef4f4e9552ab9276a05c43.shtm 第三代搜索引擎能够模仿人的一些思维和想法,是概念的模糊搜索,我们称作概念集群。" 国内

Cgogo 公司的首席执行官朱波对第三代搜索引擎给出了这样的定义 搜索引擎市场的发展现在可用蓬勃发展来形容。巨头 Google 不断推陈出新;雅虎、微软正奋起直追;

国内市场方面,百度已经搭上了上市的快车;传统的门户网站搜狐、新浪则回归搜索或主攻搜索,搜狗、

爱问独立门户相继出炉。 国内一家名为 Cogo 的公司希望从第三代搜索的角度切入这个行业。 CNET 科技资讯网 7 月 13 日北京消息:"第三代搜索引擎能够模仿人的一些思维和想法,是概念

的模糊搜索,我们称作概念集群。" 国内 Cgogo 公司的首席执行官朱波对第三代搜索引擎给出了这样

的定义。 业界公认的第一代搜索引擎是以雅虎代表的人工分类检索的搜索方式,随着信息的增长,以关键词和

特殊算法制胜的第二代大规模的网页搜索生,Google 就是其中的领袖。Cgogo 是专攻无线搜索的一家

公司,现在则把目光投向了第三代互联网搜索。 人脑思维模式 " 第二代搜索引擎给人们提供了海量的搜索结果,带来丰富信息量的同时,也浪费了人们的时间,

" 朱波认为" 在技术方面,孕育着第三代搜索引擎的革命。所谓的技术革命,是在其内核里面,是搜索

技术的根本发生变化,现在有些搜索引擎也标榜为第三代,但表现形态上的变化不代表整个搜索技术的

革命。 据朱波介绍,Cgogo 研发的搜索引擎的特色主要体现在" 概念集群" 和" 动态分类" ,它通过分析

网页之间的关联,建立一种类似人的思维的更智能化的概念分类方式,通过模仿人的思维模式,对要查

找的概念进行关键字联想和分类。比如输入" 毛泽东" 这个关键词,Cgogo 不仅能像 Google、百度那

样会把与这个关键词相近的内容找出来,而且还能通过联想的方式列出" 国家领导人" 、" 江青" 等相

关名词,扩大了搜索的外延和深度。 如果搜索"VC"一词,它在不同领域内的解释是不一样,Cgogo 互联网搜索引擎会将各种各样的搜

索结果进行筛选并重新排序,给出例如财经,科技、医学、其它领域等几个类型的选择,用户点击自己

所需的类别就可以高效的找到答案。 " 除了概念集群和动态分类,第三代搜索引擎还更多的体现在个性化方面,这在二代搜索里是很难

做到的," 朱波进一步解释到," 概念集群又分为大众化概念集群和个性化概念集群,通过搜索记录,

Cgogo 能够帮每个人建立自己个性化的搜索功能,而且信息是可以分享的,如果成为我们的 VIP 用户,

在一定的社群范围内可以与网友共享自己的搜索信息。" 技术与用户习惯 " 进入互联网搜索是我们的一次尝试,希望能给用户带来一个全新的体验。" 朱波在采访中多次强

Page 88: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 88

调," 用户的习惯需要一个过程去培养,好的技术不见得马上被大家所推崇,产品化有一个漫长的过程。

" " 第二代搜索引擎目前没有突破性的进展,停留在同质化竞争阶段,我们希望能跳出这个怪圈,为

新一代搜索引擎趟出一条路," 朱波同时指出,"Cgogo 作为新技术的探索者,不想和其他搜索厂商成

为对手,我们希望在信息量如此爆炸的时代,和业界共同探讨第三代搜索引擎技术的发展,希望 Cgogo 互联网搜索引擎的推出,能起到一个催化剂的作用。" 朱波表示,Cgogo 推出互联网搜索引擎,是一个尝试性的东西,提出自己一些新的理念,我们对

第三代搜索引擎前景非常看好,但新技术的推出到用户认可,会有一个过程。他也承认,短期内 Cgogo 应该不会对 Google、百度等现有的搜索引擎产生太大的威胁。 据朱波介绍,Cgogo 互联网搜索引擎测试版计划 7 月中旬(7 月 15 日)推出,用户登陆 Cgogo 网站(www.cgogo.com )即可试用,目前正处在 后的调试阶段;预计今年第四度初(9 、10 月份),正

式版将会发布。在短期内(8 、9 月底),还将与手机无线搜索整合," 我们 终的目的就是让手机搜

索与互联网搜索实现同步。". 此外,第四季度初(9 月)Cgogo 互联网搜索及手机搜索的英文版也将出炉。预计年底左右,Cgogo 互联网搜索将加入" 问答" 模式。朱波强调,与新浪" 爱问" 和" 百度知道" 不同的是,Cgogo 的问答

模式不会介入人工,完全是自动化、智能化的。 据悉,目前较流行的地图和视频搜索,Cgogo 尚未将纳入其中,对此,朱波表示,以 Cgogo 完全

可以做到,但我们现在不是要大而全,而是基于某一块,以点带面,做出自己的特色。Cgogo 成立之

初定位在技术型企业,主要面向无线增值和通信领域。朱波透露,短期内公司仍然以无线业务为主,互

联网搜索为补充,这个领域会谨慎地进入。 业内人士表示,第三代搜索引擎概念的提出时间比较早,但在商用市场化上一直存在问题,在技术

上如何能真正满足用户,体现差异化竞争是 Cgogo 的一个现实任务。有数据显示,2004 年中国搜索引

擎市场规模达到 12.5 亿元人民币,年增长率为 81%.预计到 2007 年,市场将达 56.2 亿元人民币。

Page 89: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 89

http://news.xinhuanet.com/it/2005-02/08/content_2560751.htm 一家网络搜索公司称其搜索网页比 Google 多 www.XINHUANET.com 2005 年 02 月 08 日 09:08:14 来源:赛迪网 【字体:大 中 小】 【打印本稿】 【读后感言】 【进入论坛】 【推荐 】 【关闭】 2 月 7 日消息,一家名为“Web's Biggest”(网络之 )的网络搜索公司 2 月 5 日表示,它使用“whois”数据库进行搜索,搜索到的网页比包括 Google 在内的任何一家搜索引擎公司搜索网页数量都要多。

Google 在搜索结果中显示的网页与这家公司不同。 Web's Biggest (www.websbiggest.com)公司称,这个“whois”数据库包含所有的网络域名。其它搜

索引擎的网页仅是该公司搜索结果的三分之一或者一半的。 该公司称,其搜索结果计划包括全部英文网站,但是,其它搜索引擎几乎忽略了一半,因为它们都

使用超链接或者手工提供的链接。Web's Biggest 发言人 Adam Radly 称,该公司网站的通信流量准确地

反映了一个网站受欢迎的程度。这种搜索方式也使该公司的搜索引擎适用于 大的“wiki”网站。 Web's Biggest 在声明中称,该公司的搜索结果采用了自己的网络搜索技术,对各个网站的性质说出

说明,便于用户搜索。Web's Biggest 还允许各个网站的网络管理员免费增加或者修改对他们网站的说明。 一些观察人士称,Web's Biggest 这类搜索引擎的工作实际上是制作一个互联网的目录。这种搜索结

果不会给 Google 等搜索引擎公司带来竞争压力竞争,因为 Google 使用的是外部链接和其它的方法。(天

虹)

Page 90: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 90

http://www.blueidea.com/tech/site/2005/2805.asp 近地图方面的本地搜索似乎很热,刚好收集了一些资料,总结了一下。

http://bendi.google.com Google 本地搜索,和 mapabc 合作的产物,不过排序结果似乎和地址相关网页的流行度有关,这也是

google 擅长的。

http://local.iask.com/ 新浪爱问本地搜索,技术同样来自 mapabc,能帮助你查找所在城市(或某个位置附近)的餐馆、超市、商

业公司等当地资料,包括联系方式、简介、地图等信息,并为你提供目的地的智能公交换乘或驾车路线

规划。

http://www.mapabc.com mapabc 自己的网站,就是这家公司研发了“Mapabc 地理信息系统软件”,有效地解决了在单一平台下

为互联网和移动终端提供地图应用的难题。

http://maps.sogou.com/ 搜狗地图,来自 Sohu 收购的 Go2map 公司,它能帮助您查找所在城市中某个位置附近的设施和场所,

并结合电子地图系统,为您提供乘车路线、距离计算等多种功能。

http://www.go2map.com

Page 91: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 91

被搜狐收购了,北京的资料应该是比较详细的,而且更新很及时,Go2map 的核心产品:网络地图信息

平台 Go2map-MIP,具有可扩展的系统架构、稳定的系统性能、跨网络平台应用等特性

http://baidu.mapbar.com/baidu_demo/ 百度地图,技术来自 mapbar

http://www.mapbar.com mapbar 自己的网站,提供地图名片服务,这项服务是可专门为用户度身定制的新一代电子个人名片,

顾名思义即在用户的电子个人名片上加注具有丰富内涵的地图,直观展示您所赋予的位置信息。

http://www.map2china.com/ 华夏图网,提供行车线路查询、公交线路查询、酒店查询和预订、旅游景点查询、加油站查询、停车场

查询等服务。

http://www.51ditu.com/ 我要地图网,技术来自灵图,出的 PPC 地图软件好像挺有名的。提供本地信息搜索,位置搜索,地图

搜索,驾驶导航,电子地图,地图黄页等查询服务,地图服务覆盖全国所有大中城市。“我要地图网”

的地图产品具有线上高速浏览、高速查询、海量数据、路线精确等显著特点,是大众出行,生活信息搜

索,企业地址查询的 佳工具,对用户来说,全部傻瓜式浏览,不用安装任何插件即可使用。

Page 92: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 92

http://biz.163.com/05/0915/11/1TMGRNRD00020QEF.html Truveo 推搜索技术 击中雅虎 Google 技术软肋 http://biz.163.com 2005-09-15 09:40:00 来源: 赛迪网 网友评论 0 条 9 月 15 日消息,本周三,美国加州一家名为 Truveo 的公司表示,将会发布β版的视频搜索引擎,据悉

该搜索引擎可以分析网页中含有的图像和视频信息,这一点无疑要比目前市面上单一的文字搜索要先进

许多。 据 zdnet.com 报道,Truveo 公司表示,此项技术名为 VisualCrawler,比目前市面上其他竞争对手的视频

搜索技术要更为全面,并且准确。 据公司透露,几个月以来,Turveo 一直在搜集视频网页搜索列表,不过目前并没有透露具体的内容资

源数目。 公司表示,VC 的用户可以把结果和雅虎和 Google 的结果进行比较。在试验中,通过对名人的搜索,

公司表示雅虎和 Google 视频搜索在准确性方面要大大逊色于 VC。 据 Truveo 公司透露,视频搜索服务的盈利主要有两条途径,第一就是通过在搜索结果旁边附带的广告,

另外就是向其他网站授权使用视频搜索技术。

Page 93: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 93

http://www.blogjava.net/briansun/archive/2005/04/04/2808.html#Post

4 月 4 日评点 Google

终于有时间让我们冷静下来好好谈谈 Google。好在现在是凌晨,我打开了窗户,这样很冷,但是可以

让我的脑子更清醒一点,看看这个我们的生活已经离之不得的工具——尽管几年前我们还没有——看看

它到底有什么可谈论的话题。 在我们谈论它之前首先我要感谢它,愚人节那天 Google 将我的邮箱升级到了 2G,感谢它给我的这个节

日礼物,尽管我半年内只用了 5M。 1。Google 以前做什么 在 Google 出现之前人们只有一种搜索引擎,那就是分类引擎,这个想法来源于 Yahoo,或者可以说来

源于图书馆。后来人们在想如果网页不是由“人类” 添加上去的,而是“机器”自己找到的那该有多

好,实现这个理想就意味要用大量的 Spider 搜寻整个互联网。“嘿,等等,机器怎么知道鸡肉的味道?

我是说它们很可能搞错了,这有可能是三文鱼的味道!”就像<<黑客帝国>>所担心的一样,Spider 怎么

才能知道我们需要什么能?于是有了动态的给每个网页评分的办法,这个办法就像小朋友们做游戏,别

人对你的评价要远远重要于他们对你的拜访,PageRank 就是这么来的,在结合了几种天才的想法和可

行的技术细节之后,人类智慧的结晶,人工智能的当代经典,Google 诞生了。 Google 用大量的服务器(数以万计)做着每日的网页查找,每个线程就是一个 Spider,每个 Spider 的工作就是从一个网页去另一个网页,检查他们是否已更新,是否废弃,是否存在新创建的页面,评价他

们之间的关系,生成快照,并将数据存入数据库。Spider 需要很好的协调以避免重复的劳动,同时他们

需要确定工作范围的优先级,否则就会“跟不上时代的变化”或者干脆淹死在某些每秒种更新数千次的

网页中。在确定了两张网页的关系之后,Google 分别更新他们的 PageRank 得分,这个得分显然已经不

是一个公式能够说清楚的了,它总是处在动态更新之中,但 PageRank 的大意就是,别人对你的连接数

量越高你就越有价值,Google 就越让你的位置靠前。 Google 的出现使互联网的应用向前大大迈出了一步,大量可用性很强的信息资源立即出现在它的需求

者面前。为此,权威的 PC Magazine 将 Google 和同一年出现的<<The Sims>>同时称为人工智能的经典

作品。但也正是 Google 的这种优秀表现使人们开始了先知式的担忧,著名评论家 Dvorak 认为 Google的存在改变了以往“小公司大喇叭”的商业格局(借用了 Chuck Martin 的说法),它再次使互联网变成

庸俗的经过资本市场洗礼的温顺绵羊,人们真正需要的东西可能会被排在后面或者根本找不到(比如我

的 Blog,),而商业化的东西往往占据重要的位置(比如 MSN 的 Blog!), 麻烦的是一旦人们依赖了

Google,它就会不自然的扼杀人们对通过其它途径找寻信息的兴趣和勇气。从个人感情角度来讲,我认

为这个论调是很有道理的,可这个问题的提出方式已经超出了本文讨论的范围,就像是一个生活态度问

题:即使麦当劳再提供 100 倍的温馨服务,它也无法击败我家楼下买锅贴的;也不能指望 USR 公司自

己维护 NS-5 机器人的安全,v 这些都只能靠别人。同样,假如 Google 真的谋杀了互联网的本质,那么

我相信拯救我们星球的会是一个更体现互联网本质的 Hero,而不是 Google 自己。 2。Google 后来做了什么

Page 94: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 94

正如我们所期望的,Google 迅速成长为互联网企业的新兴代表,不断优化的引擎使我们获得了快速获

取免费信息的途径,在一片叫好声中,Google 开始向其它网络产品扩展。比如 Google 新闻,就是对

Google 这个巨大资源库的一种非结构化应用。现在 Google 新闻不仅有了搜索能力,还有了自动选择能

力,这是在公开的抢报纸编辑的饭碗。再比如 Google 图像搜索,也为我们解决了不少难解决的问题,

还有 Google Group,这些服务使 Google 看起来更像 Yahoo,或者 MSN 这样的门户网站,而事实上 Google用来实现这些功能的成本比其竞争者要小的多,原因很简单,他们用的是人,Google 用的是 Spider!Google 就像互联网领域里的 Matrix,随处可见。 在提供了这些网络产品的同时,Google 还在客户端与竞争者们一决高下,首先是浏览器的工具条 Google Toolbar,起初我觉得很有用,后来觉得没什么用占地方还损失性能,但是现在看到 Firefox 和 Google结合的这么好,又开始使用了。然后 Google 推出了用于推广它自己的极好工具,这就是著名的 Google API,在付出少许费用之后,你就可以在自己的程序里使用 Google 了(通常是 Java),我曾经还一度想

做一个 Flash 版的 Google 呢。此外还有用于处理“科学难题”的网格计算:Google Compute,模仿捐献

家用计算能力以分析外星人电波的 SETI@home,后者由 Stanford 提供。 Froogle 也是一个伟大的设想,虽然它还没有中文版,但我已经领略到了它的能力。它提供一个商品的

搜索引擎,让你可以在需要时浏览商品的价目和图片。这使得 Froogle 有时看起来很想 ebay,况且 Froogle还有它的 WAP 版,也就是移动版。Google Local 又是一个有价值的作品,它使得 Google 可以作为旅游

指南或者地图使用。即使是 Google 的 web 搜索也有了很多衍生用法,比如瞧天气啦,找手机归属地啦,

当计算器用啦,当词典用啦,反向搜索啦什么的。 3。Google 现在做什么 在客户端的竞争中 Google 并没有占到什么优势,MSN 反而成了受益者,你想啊,搞软件设计谁能搞得

过“买块肉 SOFT”,Netscape、 Apple、IBM 都尝试过,也不怕 Google 多尝试一次。但是 Google 却在

这种内忧外患的情况下上了市,而且市场反映一片叫好!为了推陈出新,保持股价的攀升,Google 采

用了上市公司 喜欢华尔街 欣赏股民们 容易被欺骗的手法——虚伪扩张!一方面,Google 大量投

资研究操作系统、数据库和应用服务器这些网络商 赖以生存的技术;另一方面则投入大笔资金扩展业

务领域,这种手段的优点是可以转嫁主营业务的成本和风险,做出更漂亮的财务报表,缺点是片面注重

表面上的资源优化,往往错过改革技术和商业策略的 佳时机。 在 Google 陷入寻找新的扩展点而不能自拔时,一个新新人类的话题摆在了 Google 前进的道路上,这群

人就是 Blogger,他们要玩的就是 Blog。说时迟,那时快!只见乌云密布,雷鸣电闪,咔喳一声晴天霹

雳,Google 站在 Blogger.com 面前,笑里藏刀的说:“天下英雄,唯使君与操尔!”在收购了 Blogger 之后,Google 基本放弃了它建造 blog.google.com 的计划。 2004 年愚人节,对于网络邮箱供应商来说简直就是一个鬼节,这一天 Google 推出了它的 Gmail 服务

BETA 版,它采用了非常具有神秘色彩并借助六度分隔和 150 法则而更具有神秘色彩的邀请发放方式。

令人头疼的是它提供 1G 的空间和压缩邮件(压缩意味着物理空间 1G,而很多邮件供应商公布的空

间是压缩之前的占用空间)。2005 年的愚人节,Google 更“丧心病狂”(开玩笑)的将这个数字增加到

2G!跟进还是卖出?!这是其它邮箱供应商必须面对的一个抉择! GDS(Google Desktop Search)是 Google 的另一个重磅炸弹,这个是用来对付微软的。是的,你没听错!

当微软在它下一版 Windows(长角)的计划中露出新版文件搜索引擎的设想时,Google 已经把成型的

Page 95: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 95

产品送到了客户面前。但是在试用了几次之后我有点纳闷,为什么这个备受好评的 GDS 在我的机器上

跟 Lucene 一样难用(对不起一次骂了两位),它几乎搜不到什么有价值的文件——难道因为我用的是

英文版?抑或是我没有掌握使用技巧? 4。Google 遇到了什么困难 多少年来一个问题一直困扰着我,“一个以高科技著称于世的企业不会不在正面战场上胜过一个商业成

熟的企业呢?”几乎每个受到工业革命和文艺复兴影响的人都会相信这句话。可恰恰是这句话导致了很

多企业的失败。Google 并未在正面击败 Yahoo,相反,在与 Yahoo 的竞争中 Google 已经渐渐显出劣势

的一面,这是由于“机器不能理解鸡肉的味道”的缘故吗?我们不得而知,但是有一点可以肯定,促使

巴别塔停止建造的原因也在困扰着 Google,简单的说就是全球化和本地化。在中文搜索引擎市场上,

简体中文的第一是百度,其次是 Yahoo,繁体中文的第一是 Yahoo,其次是 Google,日文版市场排名第

一的还是 Yahoo,第二名是 MSN,俄文搜索引擎的老大也是俄罗斯的本地化引擎。面对这个局面,Google只能说 OMG!(Oh!My God!)。下面这段文字摘自<<Google 中文的三大软肋>>: ……据 iResearch(艾瑞市场咨询)研究报告分析,百度仅用 4 年时间,远远领先于 Google,百度拥有

目前世界上 大的中文信息库,比 Google 中文更准确,更全面,快照功能也占优势…… ……雅虎一直很重视本地化,收购 3721 则是 好的一例。在国内市场上,3721 的本地化购物搜索非常

好,再上本地化的商业搜索,更具竞争优势。从某种意义上来说,3721 网络实名的目录,就是一个典

型的中国本地化企业产品的目录。所以说,拥有 3721之后,雅虎如虎添翼,对Google构成了更大威胁…… ……在中文语言处理能力上,本地搜索公司的优势更让 Google 难堪。比如,《功夫》公映之前很久,在

百度上检索“功夫”就能直接指向周星驰的电影,可是 Google 搜索相同的“功夫”,则大失所望。因

为这些时令性的关键词都需要专业团队去随时添加,由于 Google 缺乏专门针对中国市场的开发力量,

尤其是对中国互联网信息检索存在的问题了解不透,所以,Google 对于国内市场需求的反应速度很慢,

本地化技术服务力量也跟不上,无法解决国内网民遇到的一些实际问题…… Google 的新闻搜索也引来很大的争议,我们都知道如果一家媒体要摘录别人的新闻作为自己的新闻,

那么他必须付费,可是如果这条新闻是搜索引擎搜出来的怎么办?如果这条新闻是和它的提供商几乎同

时登出又怎么办?Google 当然不会为他搜出来的每条新闻付费,而且,就像前面说的那样,Dvorak 这

样的同志又要大骂 Google 了,因为它扼杀了消费者冲浪的乐趣和获取别人没能及时获取的信息的喜悦

感,以及 Google 的意志代替了互联网的意志等等。 5。Google 以后会做什么 目前还不知道 Google 下一步想做什么,但是我们都知道了资本的魔力和技术的信仰在控制着它,这使

它成为人类有史以来 有想象力的公司之一。 我们猜想 Google 不久就会开放它的 Gmail 供人们随意申请,但申请时仍需要提供一个唯一的其它邮箱

的帐号,(就像非 Logitech 的老鼠标加钱换新罗技,随意一款老洗衣机加钱换新荣事达一样),现在 Gmail的策略是每个用户可以邀请 50 个新用户参加,此外每 20 人次的 Google Web Search 使用就会放出一个

新的邀请。 Picasa 也将是 Google 发展的重头戏之一。前者是一个图片文件客户端,看起来好像很简单,肯定没有

ACDSee 做的好,但是在图片共享方面 Google 可是从来没有放弃过啊。现在,Picasa 又和 Gmail 结合

到了一起,每个 Gmail 用户都可以用 Picasa 将图片上传到 Gmail,这项功能大大加强了 Picasa 图片共享

Page 96: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 96

的能力。 此外,人工智能和大型计算技术也是 Google 发展的重要方向。不久之前 Google 发布了它的企业搜索服

务器,虽然引来一路臭骂,但还是有一些专家认为这是个利好消息,说明 Google 正在别的盈利点上发

觉自己的价值。概念已经有了,天价只是技术之不成熟性使然。这一趋势不仅可以从 Google 的产品上

看出来,从 Google 的挖人策略也一样可见一斑。前不久,Google 正式宣布它挖到了 Java 世界一只下金

蛋的鹅——Joshua Bloch,这个人经常在我的梦中出现,要卖一本<<如来神掌>>给我! 对不起,记错

了,是一本<< Effective Java>>。说说 J.Bloch 的历史,可能很多人都会感到惊讶不已。他首先创造了曾

在危难时期令整个 Java 世界恢复自信的 Collection Framework,并获得了当年的 Jolt 大奖;后来为了让

更多的 Java 程序员从 Collection Framework 的设计模式中收益(当时设计模式还不是很流行),他又以

此为题写了<<Effective Java>>,并再次获得了 Jolt 大奖;为了在 Java 世界引入元模型的魔力,他继而

提出了 JSR175(A Metadata Facility for the JavaTM Programming Language),并成为其首席专家;在 Sun危难的时刻挺身而出接掌 Tiger(JDK 5.0)的大旗;在这之后,关于他的唯一新闻就是被 Google 挖

走了。此外,Google 还高薪挖走了无数把名字倒过来写我们都能认识的科学家, CSDN 这样报道: ……接着,Google 又把 BEA 的首席架构师 Adam Bosworth 拢入自己旗下。Bosworth 在软件行业作为技

术主管受到广泛的尊敬。在为新创企业 Crossgain(2001 年被 BEA 收购)工作之前,Bosworth 曾在微

软任职数年,并成功地从事于一些项目的开发,如微软的 Access 数据库。 他的跳槽来得太突然了,两个月以前,他还在供应商的“年度 eWorld 秀”中担任重要角色,并他的主

题演讲中介绍 Alchemy 项目----一个建立下一代移动浏览器的计划。 Google 的招兵买马计划一直在有条不紊的进行着,曾在 SUN 微系统工作的 David Stoutamire,现在在

Google 工作。就在上星期,Neal Gafter,SUN 公司的 javac 主管,也离开 SUN 转向 Google。 不仅是 Java 方面,Greg Stein,曾是 CollabNet 项目经理,管理 Subversion 项目并且发布了他们的

SourceCast 产品,现在在 Google 的博客软件组工作;Rob Pike,曾是贝尔实验室 初 Unix 团队成员之

一,参与过 Plan 9 和 Inferno 操作系统的开发,如今也投奔 Google。 Google 一直渴求人才,对于开发者来说,Google 也是一个充满吸引力的地方。他只雇佣 棒的、 聪

明的、近乎于天才的那些家伙,在笼络人才这方面,也只有微软可与之媲美。 近 Java 人才不断涌入

Google 究竟是巧合,或是 Google 准备尝试基于 Java 做一些事情,我们拭目以待…… 如果我没记错的话,Google 前不久还从微软挖走了一位足可以称为 WindowsNT 之父的人,Google 之野

心路人皆知。看看下面这则招聘启事也许你就会更了解这一点了: Passionate about these topics? You should work at Google. • algorithms • artificial intelligence • compiler optimization • computer architecture • computer graphics • data compression • data mining • file system design • genetic algorithms • information retrieval • machine learning

Page 97: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 97

• natural language processing • operating systems • profiling • robotics • text processing • user interface design • web information retrieval • and more! Send your resume and a brief cover letter to [email protected]. 6。Google 应该做什么 这一节我们将抛弃所有商业的想法,认认真真的坐下来考虑一下技术问题,当然,这会使得我们对Google的要求过高,我们会把很多未能被实现的我们曾经的梦想都交给未来的 Google,就像我们把 Sun 没有

做到的强加给 IBM,把 IBM 没有做到的强加给微软,把微软没有做到的强加给 Netscape,把 Netscapge没有做到的强加给 Yahoo 一样。 首先,Google 应该认真考虑考虑语义网的问题了,我个人仍然认为这是互联网发展的正道。虽然 RDF标准的发展雷声大雨点小,可是现在 RSS 已经如火如荼,这还只是语义网技术的一小部分,(就像 WAP没什么用,但短信却发展起来一样),XSL 和 XSLT 也是语义网的一小部分,它们将作为语义网与其展

现之间的接口。我为什么要提语义网这个东西呢?举个例子你就能明白,比如我的 Blog 每篇文章每一

页上都有菜单,都有 新评论、阅读排行榜和自定义列表,这些加速了访问者的效率,是富有亲和力的

展现形式,但是对于 Google 来说这些都是垃圾,因为它们错误的表达了网页的含义,如果我要搜一篇

阅读率极高的文章,可能搜出一堆没用的东西,而这些东西又不可能从页面上拿掉,所以 Google 必须

自己去认。 反向快照可能是解决这个问题的临时方案。它的主要思想是 Google 首先发现别人是如何“描述”该网

页的(通过链接的文字表达),再在该网页中找到与这个 “描述”相关的内容,把这部分内容作为该网

页的高优先级内容,再把该网页与相同目录下的其它文件比较,将相同的部分列为低优先级的内容。(这

是我个人想出来的方法,不知道可否奏效,估计可能会遇到性能问题) 其次,Google 将面临语义搜索的问题。这是 MSN 正在开发的技术,我相信 Google 也一定在做。这项

技术的目的是让使用者同计算机之间的交互变得更人性化,看起来好像是用户像计算机提出了一个问

题,计算机利用 Google 这颗大脑找到答案然后告知。哈哈,这个镜头是不是有点眼熟,它多次在好莱

坞的电影中出现,比如<<AI>>中的 Dr.Know(无所不知博士)和<<时间机器>>中的图书馆管理员,他

们都是语义 Google 的愿景和 Use Case。其中 有趣的是 Dr.Know,他首先让用户选择类别,然后提问,

问题按个数记费,答案往往只给出一个——当然是人工智能觉得 符合问题的一个。这提示了我们带类

别的语义识别可能将成为语义识别技术迈出的第一步。再看看 Google 英文版目前提供的收费服务

Google Answer~~~有点意思吧? 第三是模式学习。不客气的讲,Google 一直在以自己的想法在搜索。不是吗?Google 把 Spider 找到的

Page 98: 互联网主题词搜索报告 本期主题: 搜索引擎read.pudn.com/downloads65/ebook/235469/se_introducton.pdf · Truveo推搜索技术 击中雅虎Google技术软肋.....92 4月4日评点Google

HTTP://www.Daogogo.com E-mail: [email protected]

本期搜索报告主题:搜索引擎 简介 市场 技术与动态 知识产权 相关公司

Last updated: 9/26/2005 Page: 98

所有页面都认为是资源,所以对其涵盖的内容一视同仁,对其表达的形式漠不关心,而正确的方式应该

是将页面和搜索用户都看成用户,把页面人性化,从页面中吸取人类思维的模式,进行模式学习。这种

技术给 Google 带来的好处是巨大的,其实现技术也简单于语义理解。打个比方,对于 Sina 被盛大收购,

很多新闻网站都作为专题加以报道,而对于 Google 来说,要等很久才能把新浪和盛大这两个单词联系

起来,这中间的时间包括其它由人来更新的网站的更新时滞,其它网站对这些网站的连接的更新时滞,

这些更新被 Spider 发现的时滞,发现后 PageRank 更新到合理数值(中间可能经过多次迭代)的时滞等

等。这使得 Google 明显慢于人的反映速度,这也就直接的造成了上面所提到的<<功夫>>不能及时搜到

的原因。靠人工智能实现本地化,这是一条路。 第四是信息源的深层发掘。这使得 Google 能触及互联网的死角,就像洗衣粉尽量触及衣物的死角一样,

(“有汰渍,没污渍”),例子很简单,如果我在网页中加入一段 Javascript,就可以很容易把网页引到另

一个地址,而这个地址很有可能是 Google 没有涉及到的,浏览器却可以访问。 第五就是不得不提到的网格计算。因为 Google 的客户来自世界各地,一个日本人拜访 Google 和一个印

第安人拜访 Google 在 99.99%的概率上是不会访问相同内容的,因此将这两个人所要访问的内容放在一

起实在是一种性能上的损失。 近听说 Yahoo 已经将中文搜索服务器迁到国内,这正是为了性能考虑的

啊。当然,分布式服务器已经可以做到这一点了,那为什么还要网格呢?解释这个问题首先要从解释

BT 的原理开始,BT 之所以让人们下载的那么快就是因为 BT 让 Downloader 成为其它 Downloader 的服

务器,这种 P2P 的方式充分利用了 Downloader 的机器的计算能力和上行带宽。Google 也可以做到这一

点,例如我、我的邻居、李彦宏(百度总裁)和杨志远(Yahoo 创始人之一)四人同时搜索了同一个关

键字,假定服务器在中国,李彦宏首先获得了响应页面,我再访问时,Google 通知我找李商量一下,

李毫不犹豫的给了我页面,杨志远的请求收到处理,因为它不便于访问李彦宏或者我的机器,所以Google又给他开了一个响应页面, 后处理的是我的邻居,他的请求被推给了我,因为我们处在相同的子网内

所以交流更为方便。原本四次的检索变成两次,即使加上两次简单的响应,总时间也大大缩短,假若我

们四个人拜访 Google 的机会分别是 10:10:2:1,结果就更不言自明了。如果 Google 在网格方面多追加一

些研发资金,自然会比 Yahoo 做的好,这是由 Google 软件的架构决定的。