信息检索技术、方法 及 搜索引擎

109
信信信信信信 信信 信信信信

description

信息检索技术、方法 及 搜索引擎. 第一节:信息检索技术. 1. 2. 3. 4. 布尔逻辑检索技术. 截词检索技术. 邻近检索技术. 字段检索技术. 数字资源的检索技术. 1 布尔逻辑检索技术. 布尔逻辑检索是指通过标准的布尔逻辑关系算符来表达检索词与检索词间的逻辑关系的检索方法。 主要的布尔逻辑关系词有 : 逻辑与 (AND) 、逻辑或( OR )、逻辑非( NOT ). 逻辑与. 逻辑乘: “ and” 或“*”表示 组配方式: A*B 或者 A and B 表示两个概念的交叉和限定关系,只有同时含有这两个概念的记录才算命中信息 - PowerPoint PPT Presentation

Transcript of 信息检索技术、方法 及 搜索引擎

Page 1: 信息检索技术、方法 及  搜索引擎

信息检索技术、方法及 搜索引擎

Page 2: 信息检索技术、方法 及  搜索引擎

第一节:信息检索技术第一节:信息检索技术

Page 3: 信息检索技术、方法 及  搜索引擎

数字资源的检索技术

布尔逻辑检索技术1

截词检索技术2

邻近检索技术3

字段检索技术4

Page 4: 信息检索技术、方法 及  搜索引擎

布尔逻辑检索是指通过标准的布尔逻辑关系算符来表达检索词与检索词间的逻辑关系的检索方法。

主 要 的 布 尔 逻 辑 关 系 词 有 : 逻 辑 与(AND) 、 逻 辑 或 ( OR ) 、 逻 辑 非( NOT )

1 1 布尔逻辑检索技术布尔逻辑检索技术

Page 5: 信息检索技术、方法 及  搜索引擎

逻辑与逻辑与 逻辑乘: “ and” 或“ *” 表示

组配方式: A*B 或者 A and B 表示两个概念的交叉和限定关系,只有同时含有这两个概念的记录才算命中信息

作用:增加限制条件,即增加检索的专指性,以缩小提问范围,减少文献输出量,提高查准率。

Page 6: 信息检索技术、方法 及  搜索引擎

逻辑或逻辑或 又称逻辑和:“ or” 、“ +”

组配方式: A OR B 或者 A + B ,表示检索含有 A 词,或含有 B 词,或同时包含A 、 B 两词的文章。

作用:放宽提问范围,增加检索结果,起扩检作用,提高查全率。

Page 7: 信息检索技术、方法 及  搜索引擎

逻辑非逻辑非 又称逻辑差: “ not” “-” 组配方式: A - B ,表示检索出含有 A

词而不含有 B 词的文章。 作用:逻辑非用于排除不希望出现的检

索词,它和“ *” 的作用相似,能够缩小命中文献范围,增强检索的准确性。

Page 8: 信息检索技术、方法 及  搜索引擎

例如检索:“打印机驱动程序” 查询关键词:打印机、驱动程序 检索表达式:打印机 AND 驱动程序

例如检索:“微型计算机”方面的有关信息 查询关键词:微型计算机、微机 检索表达式:微型计算机 OR 微机

布尔逻辑检索举例布尔逻辑检索举例

Page 9: 信息检索技术、方法 及  搜索引擎

布尔运算符优先级比较 有括号时:括号内的先执行; 无括号时: NOT > AND > OR

例:检索“唐宋诗歌”的有关信息。 关键词:唐、宋、诗歌; 检索表达式:

(唐 OR 宋) AND 诗歌; 唐 AND 诗歌 OR 宋 AND 诗歌;

错误表达式: 唐 OR 宋 AND 诗歌; 唐 AND 宋 AND 诗歌; 唐 OR 宋 OR 诗歌; 唐 AND 宋 OR 诗歌;

布尔逻辑运算符优先级布尔逻辑运算符优先级

Page 10: 信息检索技术、方法 及  搜索引擎

请注意

在不同的数据库中,所使用的逻辑符号可能是不同的,有的用“ and 、 or 、 not” 有的用“ * 、 + 、 -” 。

一些检索工具会完全省略任何符号和关系,直接把布尔逻辑关系隐含在菜单中。

一些网络检索工具如搜索引擎甚至用“︺、,、 -” (即空格、逗号、减号)来表示。

Page 11: 信息检索技术、方法 及  搜索引擎

主要应用于西文数字资源的检索 定义:是指在检索式中用专门的符号

(截词符号)表示检索词的某一部分允许有一定的词形变化。

作用:主要是提高查全率 截词符一般用“?”或“ *” 表示

2 截词检索技术

Page 12: 信息检索技术、方法 及  搜索引擎

截词位置截词位置

按截词位置可分为前截词、后截词、前后截词和中间截词;

按截断字符数的不同,可分为有限截断和无限截断。

Page 13: 信息检索技术、方法 及  搜索引擎

右截词,又称后截词、前方一致。允许检索词尾有若干变化。例如 comput* 将检索出computer 、 computing 、 computerised 、 computerized 、 computerization 等结果。

中间截词,又称前后方一致。允许检索词中间有若干变化。例如 wom*n ,检索到 woman 、women 的结果。英美的不同拼法, defen*e 可同时检出 defence 和 defense 的结果。

Page 14: 信息检索技术、方法 及  搜索引擎

左截词,又称前截词、后方一致,允许检索词前有若干变化,例如 *physics 就可检索到physics 、 astrophysics 、 biophysics 、 chemophysics 、 geophysics 等词的结果。

前后截词:词干的前后各有一个截词符,允许检索词的前端和尾部各有若干变化形式。如 ?computer ?可检索computer 、 computers 、 computerize 、 computerized 、 computerization 、 minicomputer 、minicomputers 、 microcomputer 、 microcomputers 等结果。

Page 15: 信息检索技术、方法 及  搜索引擎

请 注 意请 注 意 在不同的数据库和联机检索系统中,所使用的

截词符号没有统一的标准,有的用“?”,有的用“ *” ,有的用“ #” ,用的用“$”等。

即便常用的“?”和“ *” 在不同的数据库中其用法也是不一定相同的。

在允许截词的检索工具中,一般是指右截词,部分支持中间截词,左截词比较少见。

我们将要使用的一些数据库,一般用“ *” 代表一个字符串,用“?”代表任意一个字符。

Page 16: 信息检索技术、方法 及  搜索引擎

邻近检索又称位置检索,主要是通过检索式中的专门符号来规定检索词在结果中的相对位置。

例如检索“生物防治”的文献,若用检索式“ biological*control” 检索,则会将“抑制生物”( control biological )的文献也查出来,这显然不是所需文献。

主要有相邻位置算符( W )、( nW )、( N ),( nN ),句子位置算符( S ),字段算符( F )。

3 3 邻近检索技术邻近检索技术

Page 17: 信息检索技术、方法 及  搜索引擎

(( WW ) 算符) 算符 ( W )是 with(word) 的缩写,表示此算符两侧

的检索词必须按此前后顺序相邻排列,词序不可变,且两词之间不许有其他的词或字母,但允许有一空格或标点符号。

如 biological (W) control 相当于检索biological control

CD (W) ROM 相当于检索 CD ROM 或 CD-

ROM 。

Page 18: 信息检索技术、方法 及  搜索引擎

(nW) (nW) 算符算符

(nW) 是 n words 的缩写,表示此算符两侧的检索词之间允许插入最多 n 个词,且词序不可变。

如 wear (1W) material 相当于检索 wear materials 、 wear of materials 等。

Page 19: 信息检索技术、方法 及  搜索引擎

(( NN )算符)算符

( N )是 near 的缩写,表示此算符两侧的检索词必须紧密相连,词序可变,词间不允许插入其他词或字母,但允许有一空格或标点符号。

information(N)retrieval 可检出 : information retrieval retrieval information

Page 20: 信息检索技术、方法 及  搜索引擎

(( nNnN )算符)算符

( nN )表示两词间可插入最多 n 个词,词序可变。

如检索式 environment (2N) protection 就可检索出包含“ environment protection” 、“ environment of the protection ” 、“ environment of water protection” 、“ protection of forest environment”

Page 21: 信息检索技术、方法 及  搜索引擎

(( SS )、)、( F)算符算符 ( S )是 sentence 的缩写,表示两个检索词须同时出现

在文献记录的同一子字段中,两词的词序不限,两词间插入词的数量不限。

( F ) 算 符 : 在 联 机 检 索 中 还 有 对 同 字 段 进 行 检 索 的( F )算符。( F )表示此算符两侧的检索词必须同时出现在信息记录的同一个字段内,两词的词序不限,两词间插入词的数量不限。用此算符时须指定所要查找的字 段 , 如 题 名 字 段 、 文 摘 字 段 、 叙 词 字 段 等 。 例 如digital (F) computer/TI 表示在题名字段( TI )中同时出现这两个检索词的才算命中信息。

Page 22: 信息检索技术、方法 及  搜索引擎

字段检索是限定检索词在记录中出现的字段范围,检索时,计算机只对限定字段进行查找。

3 字段检索技术

Page 23: 信息检索技术、方法 及  搜索引擎

TI (题名)、 AB (摘要)、 DE (主题词)、ID (标识词)、 SU( 主题词)、 KW( 关键词)

AU (著者)、 BN (国际标准书号)、 SN(国际标准刊号)、 CC (分类类目)、 CS(机构)、 DT (文献类型)或 PT (出版物类型)、 JN (刊名)或 JA (刊号)、 LA (语种)、 PY (出版年)、 SO (来源出版物)

注意:不同的数据库其字段代码可能不同。

数据库中的字段包括数据库中的字段包括

Page 24: 信息检索技术、方法 及  搜索引擎

举例 在 EBSCO 数据库检索中,某一用户需检

索有关“数字图书馆与信息检索、参考咨询”方面的文献信息,检索要求:题名或文摘中包含数字图书馆 digital library ,数字图书馆要求考虑单复数,主题为信息检索 information retrieval 或参考咨询reference ,请编制其检索策略(检索式)。

(ti:digital librar* or ab:digital librar*) and su:(reference or information n2 retrieval)

Page 25: 信息检索技术、方法 及  搜索引擎

第二节:信息检索方法第二节:信息检索方法

Page 26: 信息检索技术、方法 及  搜索引擎

信息需求分析选择信息资源选定检索词构造检索表达式确定检索途径对检索策略进行调整实施并输出检索结果

Page 27: 信息检索技术、方法 及  搜索引擎

1 1 信息需求分析信息需求分析

分析信息检索目的,制定检索目标。 分析所需信息涉及的学科,确定检索的学科范围。

分析所需信息的类型、年代,确定检索的信息类型和年代范围。

Page 28: 信息检索技术、方法 及  搜索引擎

2 2 选择信息资源(数据库的选选择信息资源(数据库的选择)择)

数据库的类型学科范围 时间范围

Page 29: 信息检索技术、方法 及  搜索引擎

3 3 选定检索词选定检索词

分析主题,找出课题所包含的显性概念和隐含概念。

找出核心概念,排除无关概念和重复概念。从待检数据库和检索工具的词表中选取规

范化的词或词组。选用上位词、近义词或下位词作为检索词。

Page 30: 信息检索技术、方法 及  搜索引擎

4 4 构造检索表达式构造检索表达式

分析检索提问式是数字资源检索中用来表达用户检索提问的逻辑表达式。

找出在编制检索提问式时,准确、合理地运用位置逻辑算符、截词符、字段符等技术是编制检索式的基本要求。

Page 31: 信息检索技术、方法 及  搜索引擎

5 5 确定检索途径确定检索途径第一类是表示主题概念的检索词 --- 主题

词,包括标题词、单元词、叙词、关键词。第二类是表示学科分类的检索词,如分类

号。第三类是表示作者的检索词,如作者姓名、

机构名称等。第四类是表示特殊意义的检索词,如专利

号、国际标准书号、分子式等

Page 32: 信息检索技术、方法 及  搜索引擎

举 例

一个研究生在做论文题:“数字图书馆中的元数据体系与互操作研究”,这是一个计算机科学、信息科学方面的课题,请你帮助他在维普数据库中找到最新的参考文献。

Page 33: 信息检索技术、方法 及  搜索引擎

第三节:搜索引擎

Search Engine

Page 34: 信息检索技术、方法 及  搜索引擎

搜索引擎的概念和作用搜索引擎的概念和作用 搜索引擎的工作原理搜索引擎的工作原理 搜索引擎的分类搜索引擎的分类 搜索引擎的一般检索技术搜索引擎的一般检索技术 搜索引擎利用技巧搜索引擎利用技巧 主要搜索引擎主要搜索引擎

目录

Page 35: 信息检索技术、方法 及  搜索引擎

搜索引擎是一个用来搜索世界各地 Internet网络资源的 WEB服务器。它像一本书的目录,Internet 各个站点的网址就像是页码,可以通过关键词或主题分类的方式来查找感兴趣的信息所在的 WEB页面。

搜索引擎提供的导航服务(搜索引擎就是网络的指南针)已经成为互联网上非常重要的网络服务,成为和电子邮件并列的最重要的互联网应用。

搜索引擎的概念和作用搜索引擎的概念和作用

Page 36: 信息检索技术、方法 及  搜索引擎

(( 11 )信息搜集)信息搜集 (( 22 )信息索引)信息索引 (( 33 )信息查询)信息查询 (( 44 )检索结果的相关性处理)检索结果的相关性处理

搜索引擎的工作原理搜索引擎的工作原理

Page 37: 信息检索技术、方法 及  搜索引擎

(1)(1) 信息搜集信息搜集

各个搜索引擎都派出绰号为蜘蛛 (Spider)或机器人( Robots )的“网页搜索软件”,在互联网中漫游,发现和搜集信息。

访问网络中公开区域的每一个站点并记录

其网址,将它们带回搜索引擎,要尽可能多、尽可能快地搜集各种类型的新信息。

因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死链接和无效链接。

Page 38: 信息检索技术、方法 及  搜索引擎

(2)(2) 信息索引信息索引 将“网页搜索软件”带回的信息进行分类整理,建立搜索引擎数据库,并定时更新数据库内容。

有的搜索引擎把“网页搜索软件”发往每一个站点,记录下每一页的所有文本内容,并收入到数据库中从而形成全文搜索引擎;而另一些搜索引擎只记录网页的地址、篇名、特点的段落和重要的词。

Page 39: 信息检索技术、方法 及  搜索引擎

(3)(3) 信息查询信息查询

根据用户的查询需求在索引库中快速检

出相关网页,并反馈检索结果。

一般包括分类目录及关键词两种信息查询方式。

Page 40: 信息检索技术、方法 及  搜索引擎

(4)(4) 检索结果排序检索结果排序

概率法是根据关键词在文中出现的频率来判定的,出现的次数越多,认定其与查询的相关程度越高;

位置法是根据关键词在文中出现的位置来判定,位置越靠前,文件的相关程度越高;

分类或聚类方法是指搜索引擎采用分类或聚类技术,自动把查询结果归入到不同的类别中。

Page 41: 信息检索技术、方法 及  搜索引擎

(( 11 )关键词搜索引擎)关键词搜索引擎 (( 22 )主题分类搜索引擎)主题分类搜索引擎 (( 33 )综合搜索引擎)综合搜索引擎

搜索引擎的分类搜索引擎的分类

Page 42: 信息检索技术、方法 及  搜索引擎

(1)(1) 关键词搜索引擎关键词搜索引擎

界面提供输入框,用户通过输入框提交查询请求(关键词),搜索引擎将检索结果反馈给用户。

适用于查找目的明确,并具备一定检索知识的用户。

Page 43: 信息检索技术、方法 及  搜索引擎
Page 44: 信息检索技术、方法 及  搜索引擎

(2)(2) 主题分类搜索引擎主题分类搜索引擎 依据某种分类方式(如学科分类),建立

主题树状层浏览体系;搜索程序搜索来的信息被标引后放入浏览体系的个大类或子类下面,呈现错落有致的上下位关系。

查准率高,但查全率低。

Page 45: 信息检索技术、方法 及  搜索引擎
Page 46: 信息检索技术、方法 及  搜索引擎

(3)(3)综合搜索引擎综合搜索引擎 此类搜索引擎既可以搜索网站也可搜索全

文,用户输入关键词后,可以选择是搜索网站还是网页,不同的选择返回不同的结果,国内的搜狐( Sohu )就是此类搜索引擎

查全率高,但查准率低。

Page 47: 信息检索技术、方法 及  搜索引擎
Page 48: 信息检索技术、方法 及  搜索引擎
Page 49: 信息检索技术、方法 及  搜索引擎
Page 50: 信息检索技术、方法 及  搜索引擎

主要搜索引擎主要搜索引擎

Page 51: 信息检索技术、方法 及  搜索引擎

百度 http://www.baidu.com

Page 52: 信息检索技术、方法 及  搜索引擎

http://www.baidu.com

李彦宏 徐勇

Page 53: 信息检索技术、方法 及  搜索引擎

百度, 2000 年 1 月创立于北京中关村,是全球最大的中文搜索引擎。 2000 年 1 月 1 日,公司创始人李彦宏、徐勇携 120 万美元风险投资,从美国硅谷回国,创建了百度公司。

2000 年 5 月,百度首次为门户网站——硅谷动力提供搜索技术服务,之后迅速占领中国搜索引擎市场,成为最主要的搜索技术提供商。

2001 年 8 月,发布 Baidu.com 搜索引擎Beta版,从后台服务转向独立提供搜索服务,并且在中国首创了竞价排名商业模式, 2001年 10 月 22 日正式发布 Baidu 搜索引擎。

2005 年 8 月 5 日,百度在美国纳斯达克上市。

概况概况

Page 54: 信息检索技术、方法 及  搜索引擎

“ 百度”二字取自辛弃疾的《青玉案》 “众里寻她千百度” 。

现在百度已成为世界上最大的中文搜索引擎 ,用户能够访问超过 10亿的中文网页 .

特点特点

Page 55: 信息检索技术、方法 及  搜索引擎
Page 56: 信息检索技术、方法 及  搜索引擎

网页搜索功能

1. 百度快照 2. 相关搜索 3. 拼音提示 4. 错别字提示 5. 英汉互译词典 6. 计算器和度量衡转换 7. 专业文档搜索 8. 股票、列车时刻表和飞机航班查询 9. 高级搜索语法 10. 高级搜索、地区搜索和个性设置 11. 天气查询

Page 57: 信息检索技术、方法 及  搜索引擎

百度快照

每个被收录的网页,在百度上都存有一个纯文本的备份,称为“百度快照”。百度速度较快,您可以通过“快照”快速浏览页面内容。

如果无法打开某个搜索结果,或者打开速度特别慢, “百度快照”能帮您解决问题。

Page 58: 信息检索技术、方法 及  搜索引擎

相关搜索 搜索结果不佳,有时候是因为选择的查询词不是很妥当。

您可以通过参考别人是怎么搜的,来获得一些启发。百度的“相关搜索”,就是和您的搜索很相似的一系列查询词。百度相关搜索排布在搜索结果页的下方,按搜索热门度排序。

Page 59: 信息检索技术、方法 及  搜索引擎
Page 60: 信息检索技术、方法 及  搜索引擎

专业文档搜索很多有价值的资料,在互联网上并非以普通的

网页形式出现,而是以Word 、 PowerPoint 、 PDF 等文档格式存在。

百度支持对 Office 文档(包括Word 、 Excel 、 PowerPoint )、 Adobe PDF 文档、 RTF 文档的全文搜索。

方法为在搜索的关键词后面加一个“ filetype :”文档类型限定。“ filetype :”后可以跟以下文件格式:DOC 、 XLS 、 PPT 、 PDF 、 RTF 、 ALL 。其中, ALL 包含所有文件类型。

Page 61: 信息检索技术、方法 及  搜索引擎
Page 62: 信息检索技术、方法 及  搜索引擎

高级搜索

把搜索范围限定在网页标题中——intitle

标题通常是对网页内容提纲挈领式的归纳。把查询内容范围限定在网页标题中,有时能获得良好的效果。

Page 63: 信息检索技术、方法 及  搜索引擎
Page 64: 信息检索技术、方法 及  搜索引擎

高级搜索

把搜索范围限定在特定站点中—— site

有时候,您如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。使用的方式,是在查询内容的后面,加上“ site:站点域名”。

Page 65: 信息检索技术、方法 及  搜索引擎
Page 66: 信息检索技术、方法 及  搜索引擎

高级搜索

把搜索范围限定在 url链接中—— inurl

网页 url 中的某些信息,常常有某种有价值的含义。于是,您如果对搜索结果的 url做某种限定,就可以获得良好的效果。实现的方式,是用“ inurl:” ,后跟需要在 url 中出现的关键词

Page 67: 信息检索技术、方法 及  搜索引擎
Page 68: 信息检索技术、方法 及  搜索引擎

高级搜索精确匹配——双引号和书名号

如果输入的查询词很长,百度给出的搜索结果中的查询词可能是拆分的。如果给查询词加上双引号,就可以精确检索。

被书名号扩起来的内容,也不会被拆分 ,比如,查电影“手机”,如果不加书名号,很多情况下出来的是通讯工具——手机,而加上书名号后,《手机》结果就都是关于电影方面的了。

Page 69: 信息检索技术、方法 及  搜索引擎
Page 70: 信息检索技术、方法 及  搜索引擎

高级搜索

要求搜索结果中不含特定查询词—— 减号 -

如果您发现搜索结果中,有某一类网页是您不希望看见的,那么用减号语法,就可以去除所有这些含有特定关键词的网页。

注意,前一个关键词,和减号之间必须有空格,否则,减号会被当成连字符处理,而失去减号语法功能。

Page 71: 信息检索技术、方法 及  搜索引擎
Page 72: 信息检索技术、方法 及  搜索引擎

Sergey Brin Larry Page

http://www.google.cn

Page 73: 信息检索技术、方法 及  搜索引擎

Google 搜索引擎诞生于斯坦福大学的一个学生宿舍里,然后迅速传播到全球的信息搜索者。

Google 目前被公认为万维网上最大的搜索引擎,它提供了简单易用的免费服务,使用户能够访问一个包含超过 80 亿个网址的索引。

“Google”来自于数学名词“ Googol” , Googol 表示一个 1 后面跟着 100 个零。这一术语体现了公司整合网上海量信息的远大目标。

概况

Page 74: 信息检索技术、方法 及  搜索引擎

Google 技术 Google 使用一组独特的高级硬件和软件,核心软件称为 PageRank(TM) 。

作为组织管理工具,网页级别利用了互联网独特的民主特性及其巨大的链接结构。从网页 A 链接到网页 B 时, Google 就认为“网页 A 投了网页 B 一票”。 Google 根据网页的得票数评定其重要性。除了考虑网页得票数(即链接)的纯数量之外, Google 还要分析投票的网页,“重要”的网页所投出的票就会有更高的权重。

与大多数其它搜索引擎的区别在于: Google 只显示相关的网页,其正文或指向它的链接包含您所输入的所有关键词,而无须再受其它无关结果的烦扰。

Page 75: 信息检索技术、方法 及  搜索引擎
Page 76: 信息检索技术、方法 及  搜索引擎
Page 77: 信息检索技术、方法 及  搜索引擎

Google 的特殊功能

Page 78: 信息检索技术、方法 及  搜索引擎

Flash 文件

查找 Flash 文件,只需搜索“关键词 filetype:swf” 。

Google已经可以支持 13种非 HTML文件的搜索。除了 PDF 文档, Google现在还可以搜索 Microsoft Office (doc, ppt, xls, rtf ) 、 Shockwave Flash (swf) 、 PostScript (ps) 和其它类型文档。新的文档类型只要与用户的搜索相关,就会自动显示在搜索结果中。

Page 79: 信息检索技术、方法 及  搜索引擎

点击选中的链接

Page 80: 信息检索技术、方法 及  搜索引擎

手气不错

按下“手气不错™”按钮将自动进入 Google 查询到的第一个网页。您将完全看不到其它的搜索结果。使用“手气不错”进行搜索表示用于搜索网页的时间较少而用于检查网页的时间较多。

例如,要查找 Stanford 大学的主页,只需在搜索字段中输入“ Stanford” ,然后单击“手气不错”按钮。 Google 将直接带您进入 Stanford 大学的官方主页 www.stanford.edu 。

Page 81: 信息检索技术、方法 及  搜索引擎
Page 82: 信息检索技术、方法 及  搜索引擎

错别字改正

Google 的错别字改正软件系统会对输入的关键词进行自动扫描 , 检查有没有错别字。如果发现用其他字词搜索可能会有更好的结果,它能提供相应提示来帮助纠正可能有的错别字。

例如,搜索“互连网”, Google 会自动提示 “您是不是要找:互联网”。如果您点击 “互联网”, Google 将以“互联网”作为关键词进行搜索。

Page 83: 信息检索技术、方法 及  搜索引擎

手机号码

用 Google 查询手机电话号码归属地,您只需直接输入要查的号码即可(不需要任何关键词)。 Google 能自动识别以 13开头的 11 位数字为手机号码而返回相关的网站链接,让您即刻便知道答案。

Page 84: 信息检索技术、方法 及  搜索引擎
Page 85: 信息检索技术、方法 及  搜索引擎

定义

要查看字词或词组的定义,只需键入“ define” ,接着键入一个空格,然后键入您需要其定义的词。

如果 Google 在网络上找到了该字词或词组的定义,则会检索该信息并在搜索结果的顶部显示它们。

Page 86: 信息检索技术、方法 及  搜索引擎
Page 87: 信息检索技术、方法 及  搜索引擎

Yahoo!是在网上最早出现的检索工具,一直是一种功能较强的搜索引擎。

Yahoo!属于目录索引类搜索引擎,可以通过两种方式在上面查找信息,一是通常的关键词搜索,一是按分类目录逐层查找。以关键词搜索时,网站排列基于分类目录及网站信息与关键字串的相关程度。包含关键词的目录及该目录下的匹配网站排在最前面。以目录检索时,网站排列则按字母顺序。 Yahoo 于2004 年 2月推出了自己的全文搜索引擎,并将默认搜索设置为网页搜索。

雅虎中国 http://www.yahoo.com.cn/

Page 88: 信息检索技术、方法 及  搜索引擎

2005 年 11月 9日 阿里巴巴公司在完成对雅虎中国的收购与整合之后 ,重新发布了进入中国市场 7 年之久的雅虎网站 , 未来雅虎在中国的业务重点方向将全面转向搜索领域,这也是自 8月 11日阿里巴巴宣布收购雅虎中国时就从没改变的方向。阿里巴巴 CEO马云表示 : 阿里巴巴在搜索领域既有决心更有信心,在中国,雅虎就是搜索,搜索就是雅虎。

Page 89: 信息检索技术、方法 及  搜索引擎

中国搜索 (原慧聪搜索)是国内领先的搜索引擎公司。自

2002 年正式进入中文搜索引擎市场以来,中国搜索(原慧聪搜索)取得了一系列令人瞩目的成绩。在一年多的时间里,发展成为全球领先的中文搜索引擎公司,先后为新浪、搜狐、网易、 TOM 等知名门户网站以及中国搜索联盟上千家各地区、各行业的优秀中文网站提供搜索引擎技术。目前,每天有数千万次的中文搜索请求是通过中国搜索实现的,中国搜索也被公认为第三代智能搜索引擎的代表。  

Page 90: 信息检索技术、方法 及  搜索引擎
Page 91: 信息检索技术、方法 及  搜索引擎

搜狗 http://www.sogou.com/

搜狗是搜狐公司于 2004 年 8月 3日推出的完全自主技术开发的全球首个第三代互动式中文搜索引擎,是一个具有独立域名的专业搜索网站 --“ 搜狗”( www.sogou.com )。以一种人工智能的新算法,分析和理解用户可能的查询意图,给予多个主题的“搜索提示”,在用户查询和搜索引擎返回结果的人机交互过程中,引导用户更快速准确定位自己所关注的内容,帮助用户快速找到相关搜索结果,并可在用户搜索冲浪时,给与用户未曾意识到的主题提示。

Page 92: 信息检索技术、方法 及  搜索引擎
Page 93: 信息检索技术、方法 及  搜索引擎

新浪“爱问” http://www.iask.com

“爱问”搜索引擎产品由全球最大的中文网络门户新浪汇集技术精英、 耗时一年多完全自主研发完成,为首款中文智慧型互动搜索引擎,新浪搜索引擎突破了由 GOOGLE 、百度为代表的算法致胜的搜索模式。它在保留了传统算法技术在常规网页搜索的强大功能外,以一个独有的互动问答平台弥补了传统算法技术在搜索界面上的智慧性和互动性的先天不足。通过调动网民参与提问与回答,新浪搜索引擎能汇集千万网民的智慧,让用户彼此分享知识与经验。

Page 94: 信息检索技术、方法 及  搜索引擎
Page 95: 信息检索技术、方法 及  搜索引擎

Yahoo! Yahoo!( http : //www.Yahoo.com ) Yahoo!是 Internet 上最受欢迎的搜索引擎,也是访问频率最高的一个门户网站。它是由美国斯坦福大学的华裔博士杨致远与他的同学 David Filo 于 1994 年开发的,在全球有 24 个网站, 12 个语言版本,其中雅虎中国网站( www.yahoo.com.cn )于 1999 年 9月正式开通。

Yahoo 提供了两种模式的检索方式:分类目录检索和关键词检索。雅虎的特点在于其分类目录的内容组织。它对网点信息按主题建立分类索引,按字母顺序列出14大类,每个大类下还有多个二级类目,其所包含的子类有精练的描述,每个子类有数以千计的网站信息。

Page 96: 信息检索技术、方法 及  搜索引擎

Yahoo! 的分类

Page 97: 信息检索技术、方法 及  搜索引擎
Page 98: 信息检索技术、方法 及  搜索引擎
Page 99: 信息检索技术、方法 及  搜索引擎

天网中文搜索引擎

北大天网 http://e.pku.edu.cn/

由北大计算机系网络与分布式系统研究室开发,于 1997 年 10 月 29 日正式在中国教育和科研网 CERNET上提供服务。收录网页约 6000万,主要搜索 CERNET上的信息,有强大的ftp 搜索功能。

Page 100: 信息检索技术、方法 及  搜索引擎
Page 101: 信息检索技术、方法 及  搜索引擎
Page 102: 信息检索技术、方法 及  搜索引擎

例一、利用搜索引擎找软件

日常工作和娱乐需要用到大量的软件,很多软件属于共享或者自由性质,可以在网上免费下载到。下面以百度搜索为例,介绍一下如何找软件下载:

直接找下载页面 这是最直接的方式。软件名称,加上“下载”这个特征词,通常可以很快找到下载点。

例:flashget 下载 在著名的软件下载站点找软件 由于网站质量参差不齐,下载速度

也快慢不一。如果我们积累了一些好用的下载站(如天空网,华军网,电脑之家等),就可以用 site 语法把搜索范围局限在这些网站内,以提高搜索效率。

例:网际快车 site:skycn.comNote :一旦搜索范围局限在专业下载站中,“下载”这个特征词就不必在查询词中出现了。

Page 103: 信息检索技术、方法 及  搜索引擎

例二、用搜索引擎找谜底,一搜便知

猜谜语 有时候,我们会遇上各种高难度的谜语,但有了搜索引擎,只要这种谜语的传播范围略广些,我们通常都可以在网上找到答案。搜索时候,我们只需把谜面和“谜底”作为关键词搜索就可以了。

Page 104: 信息检索技术、方法 及  搜索引擎

例三、搜索 MP3 技巧 01.在歌名后加一个粤字可以找到粤语歌

Page 105: 信息检索技术、方法 及  搜索引擎

例三、搜索 MP3 技巧

02. 不知道歌曲名和歌手名也可以用歌词搜索 !如关键词 : 多少年向往的日子找到的是赵传的 <大地 > 这首歌 !

Page 106: 信息检索技术、方法 及  搜索引擎

例四、搜索 MTV 03. 直接打入关键词 :MTV 可以搜索出 MTV视频

Page 107: 信息检索技术、方法 及  搜索引擎

例三、搜索 MP3 技巧 04. 关键词 :ps 教程或视频教程

可以找到实用的视频教程 !

Page 108: 信息检索技术、方法 及  搜索引擎

例五、查找资料——网页和网站的区别

Page 109: 信息检索技术、方法 及  搜索引擎