第 11 章 信息检索与信息发布
-
Upload
cruz-moore -
Category
Documents
-
view
113 -
download
0
description
Transcript of 第 11 章 信息检索与信息发布
第 11 章 信息检索与信
息发布
信息检索与信息发布
第 2|51 页
问题的提出 互联网是信息的海洋。在互联网上查找需要的信息不好比是大海捞针吗?
有没有便捷的方法和工具帮助我们检索信息?
什么工具可用来检索信息? ……
第 3|51 页
重点内容
1. 信息检索的基本概念2. 检索意愿的表达3. 天网搜索引擎使用介绍4. Yahoo使用方法简要介绍5. 中国期刊网(CNKI)使用介绍6. 信息发布方法介绍
第 4|51 页
一、信息搜索概述信息搜索检索信息的途径常用信息检索系统类型网络检索系统具体信息搜索步骤
第 5|51 页
1 、信息搜索 Internet 上的信息资源丰富得让人有点儿无所适从,尤其是对刚刚踏入 Internet 网络世界的生手,更是令人扑朔迷离,难以理出头绪。
有人比喻 Internet 上的信息就如同许多堆杂乱无章的书籍,只是在每堆书籍上列出此堆书籍中涉及的内容及书名,但要找到具体书籍则需自己不辞劳苦地一一查找了。
无需置疑, Internet 上众多的信息资源中肯定有你所需的信息,若清楚信息的存放地址,通过在线获取这些信息是快捷而便利的,但是主要问题是如何找到这些信息。
第 6|51 页
⑴文献
文献是知识、载体和记录三要素构成,是记录有知识的一切载体的总和。包括载体与知识两部分。 远古时期的结绳记事:绳子 + 每个结表示的含义; 甲骨文时期:大动物的骨头、龟壳 + 记录的内容; 竹简时期:竹子 + 记录的内容; 纸张时代:书、手稿等 + 记录的内容; 现代:音像制品、电子出版物等 + 记录的内容。
第 7|51 页
⑵ 信息 从客观上说,信息是指一切事物存在方式和运动规律的表征,或我们对周围世界的一种认识。有正确与错误之分。 总是看到太阳从东方升起,古代人想我们站在一个平板上,太阳绕地球转;现代人想我们站在地球上,地球绕着太阳转;
看到一块铁与一堆棉花,我们会认为铁一定比棉花重,难道一小块铁比一火车棉花还要重?
第 8|51 页
⑶信息检索 信息检索是指将杂乱无序的信息有序化形成信息集合,并根据需要从信息集合中查找出特定信息的过程。
其实质是将用户的需求与信息集合内的信息进行比较,如果匹配,信息就被查找出来,否则就查不出来。
匹配有多种方式;完全匹配、部分匹配。
第 9|51 页
查全率 R (Recall ratio)
查准率 P (Precision ratio)
检索效果
第 10|51 页
2. 检索信息的途径 在 Internet上查找信息的途径有很多种,可大致分为以下几种:① 偶然发现② 浏览( Browsing)③ 搜索( Searching)④ 通过资源指南( Resource Guide)⑤ 搜索引擎
第 11|51 页
⑴偶然发现 这是在 Internet中发现信息的原始方法。当你在 Internet上遨游之时,也许会意外发现一些很有用的信息。
由于这种方法的不可预见性,所以它也许很有乐趣,但也许会一无所获。
第 12|51 页
⑵浏览( Browsing )
浏览就如同走进图书馆的书库,然后在书架上直接翻看一样。
目前 Internet上提供的 Gopher 服务就是这种方法的电子等价物。 WWW提供的超文本方式可以看作是浏览的一种特殊形式。
第 13|51 页
⑶搜索( Searching ) 搜索就像通过索引或分类卡片来帮助查找一样。
在 Internet中有许多不同类型的搜索工具,如 WAIS、 Archie、 Veronia、 Jughead等,它们都有各自不同的搜索目的。
还有许多网点则提供给用户一种组合式的搜索界面。
第 14|51 页
⑷通过资源指南 目前 Internet 上有许多资源指南。如 http://www.rpi.edu/Internet/Guides/decemj/icmc/toc3.htm1
它搜索了关于 Internet各种技术、文化、组织、应用等大量的信息指针。用户可利用这些指针进行资源引导。但是应注意 Internet 上的信息变化极快,几乎每六个月就需对这些信息进行更新,参照的资源指南可能已经过时。
Internet 上提供了成千上万个信息源和各种各样的信息服务,而且信息源和服务种类、数量还在不断、快速地增长。对这些信息源和服务,由于时间、精力和财力限制,不可能一一亲身尝试。上面提到的偶然发现和浏览两种方法虽然在某些场合下十分有效,但有时花费时间、效益比可能不会令人太满意,而使用搜索方法则可缩小查找范围,达到事半功倍的效果。
第 15|51 页
⑸搜索引擎 在信息社会,信息的有效和迅捷是成功的必要条件。为了使用户尽快得到自己所需要的信息,许多网站都提供了信息检索服务,国外称之为“搜索引擎”。
用户要进行检索,必须提供查询条件,查询条件要符合服务站点的检索规则。各站点的检索规则不尽相同。大致可分为按布尔条件检索和按内容检索两类。
第 16|51 页
比较流行的搜索引擎 国内的有 :
“北大天网” e.pku.edu.cn“新浪”WWW.SINA.COM.CN 雅虎中文 www.yahoo.com.cn 中国考网 www.chinatest.com搜狐www.sohoo.com.cn网易搜索 www.yeah.net
国外有: www.yahoo.com www.lycos.comwww.altavista.com www.infoseek.com www.excite.comwww.webcrawler.com
第 17|51 页
3. 常用信息检索系统类型
第 18|51 页
4. 网络检索系统 网络检索工具所采用的技术分三类 :
目录型搜索引擎 基于 Robot的搜索引擎元搜索引擎
第 19|51 页
目录型搜索引擎 早期的搜索引擎是把因特网中的资源服务器的地址收集起来,由其提供的资源的类型不同而分成不同的目录,再一层层地进行分类。人们要找自己想要的信息可按他们的分类一层层进入,就能最后到达目的地,找到自己想要的信息。信息大多面向网站。
目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是: YAHOO, Open Directory,国内最具代表性的是搜狐分类目录。
这是互联网早期的搜索引擎形式,现在仍然占有重要地位。雅虎就是从一个单一的搜索引擎发展到现在有电子商务、新闻信息服务、个人免费电子信箱服务等多种网络服务…
第 20|51 页
基于 Robot的搜索引擎 由大规模机器运行的程序按照某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,并由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。
服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,可能有很多无关信息,用户必须从结果中进行筛选。
这类搜索引擎的代表是: AltaVista, Excite, Infoseek, Inktomi, FAST, Lycos,,AlltheWeb, Ask Jeeves, Google;
国内最具代表性的是:百度,天网, OpenFind。
第 21|51 页
元搜索引擎 这类搜索引擎没有自己的数据,它将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。
这类搜索引擎的代表是 WebCrawler,在实际中应用的效果并不理想。
第 22|51 页
5. 具体信息搜索步骤(1) 制定信息搜索策略 在 Internet 上进行信息搜索时,建议采取以下策略:①首先确定提供相关信息的优秀信息源;②检查信息源所提供的信息粒度是否适中,所提供的信息量是否合适。信息量太多,冗而杂,搜索不便,信息量太少,则搜索不到足够的信息;③研究信息源所提供的搜索命令及搜索方法,制定搜索计划,然后开始进行搜索。
(2) 确定信息源 确定信息源是很关键的一步。良好的开端是成功的一半。若起点没有找准,搜索结果可能会一无所获。
第 23|51 页
二 . 检索意愿的表达
常用检索技术 用得多:布尔检索、词位检索 用得少:截词检索、限制检索
注:并不是每个检索系统都支持所有的检索技术。
第 24|51 页
1 、布尔检索 布尔运算符: AND 、 OR 、 NOT
A BC
A BC
A BC逻辑“与”
逻辑“或”
逻辑“非”
举例: A 是计算机书籍的集合、B 是论文的集合, “计算机” AND“ 论文”得到的结果是“计算机论文”的集合
举例: A 是计算机书籍的集合、B 是自动控制书籍的集合, “计算机” OR“ 自动控制”得到的结果是“计算机”或“自动控制”书籍的集合。
举例: A 是计算机书籍的集合, NOT“ 计算机”得到的结果是非“计算机”书籍的集合
第 25|51 页
举例: 检索“打印机驱动程序”
查询关键词:打印机、驱动程序 检索表达式:打印机 AND 驱动程序
检索“微型计算机”方面的有关信息 查询关键词:微型计算机、微机 检索表达式:微型计算机 OR 微机
检索“笔记本”方面的有关信息 查询关键词:笔记本、电脑 检索表达式:笔记本 NOT 电脑
第 26|51 页
布尔运算符优先级 布尔运算符优先级比较
有括号时:先括号内、后括号外; 无无括时: NOT > AND > OR
例:检索“唐宋诗歌”的有关信息。 关键词:唐、宋、诗歌; 检索表达式:
(唐 OR 宋) AND 诗歌; 唐 AND 诗歌 OR 宋 AND 诗歌;
错误表达式: 唐 OR 宋 AND 诗歌; 结果:“梦回唐朝”、“唐王李世民”或“唐三彩”
第 27|51 页
2 、词位检索 词位检索又称全文检索。它是一种可以不依赖叙词表而直接使用自由词进行检索的一种技术。
这种检索技术增强了选词的灵活性,它采用位置逻辑符进行组配运算,可弥补布尔检索技术造成误检的不足。
在不同的检索系统中,词位检索算符的种类和表达形式在不同的检索系统中并不完全相同,但根本思路并没有什么大的区别,在使用时需要加以注意。
第 28|51 页
词位检索举例说明
词序关系
词序不能颠倒 词序可以颠倒
W nW N nN
关键词间插入
1 个空格或标点符号
n ( n=0 , 1 ,2 , 3… )个词
不能插入词n ( n=0 , 1 ,2 , 3… )个词
例子Nature( W ) GAS
Laser ( 1W) Printer
Wastewater( N ) Treatment
Wastewater( 4N ) Treatment
效果Nature GAS和Nature-GAS命中
Laser Printer 和Laser Color Printer 和Laser And Printer命中
Wastewater Treatment和Treatment Wastewater命中
Wastewater and air pollution Treatment 和 Treatment Wastewater命中
第 29|51 页
3 、截词检索 截词检索是预防漏检提高查全率的一种常用检索技术,大多数系统都提供截词检索的功能。截词是指在检索词的合适位置进行截断,然后使用截词符进行处理,这样既可节省输入的字符数目,又可达到较高的查全率。
尤其在西文检索系统中,使用截词符处理自由词,对提高查全率的效果非常显著。
在截词检索技术中,较常用的是后截词和中截词两种方法。如果按所截断的字符数目来分,有无限截词和有限截词两种。
截词算符在不同的系统中有不同的表达形式,需要说明的是并不是所有的搜索引擎都支持这种技术。
第 30|51 页
后截词(?) 后截词是指检索结果中单词的前面几个字符与关键字中截词符前面的字符相一致的检索。
具体包括:( 1 )有限后截词。主要用于词的单、复数,动词的词尾变化等。
如用 book? 可检索出有 book 或 books词的记录; acid?? 可检索出含有 acid , acidic 和 acids 的记录(在词中用一个“?”可表示 0 个或 1个字符)。
( 2 )无限后截词。主要用于同根词。如用 solub ?可检索出含有 solubilize , solubilization , soluble 等同根词的记录(在词根后加一个“?”,表示无限截词符号)。
第 31|51 页
中截词(?) 中截词也称屏蔽词。一般来说,中截词仅允许有限截词,主要用于英、美拼写不同的词和单复数拼写不同的词。
在词中使用“?”替代不同的字母。 如 organi ? ation 可检索出: organis
ation 和 organization 的记录 使用截词检索具有隐含的布尔逻辑或( O
R )运算的功能,可简化检索过程。
第 32|51 页
三、常用搜索引擎简介 天网中英文搜索引擎 YAHOO 搜索引擎
第 33|51 页
1. 天网搜索引擎使用介绍 启动方法
启动 IE浏览器; 在地址栏输入: http://e.pku.edu.cn/
第 34|51 页
检索网页使用方法 在检索框内输入选定的布尔表达式,如“英语学习”。 选择:
第 35|51 页
搜索文件使用方法 在检索框内输入选定的布尔表达式,如:“四六级”
选择:
第 36|51 页
示意图 使用文件传输软件将选中的文件下载到本地计算机。选择欲下载的文件: 找到自己想要的文件,直接单击鼠标右键,复制该文件的下载地址,目的为下面使用 FTP软件作准备;如下图所示:
第 37|51 页
2. Yahoo 使用方法介绍 Yahoo 是 Internet引擎的“元老”,是 WWW上最流行的
搜索工具。 Yahoo是有斯坦福大学的两位博士研究生 David Filo和 Jerry Yang(杨致远)于 1994 年 4月创建的。
Yahoo 由 65000个数据库组成, HTML文献和其他 Internet资源共 20多万个条目。 Yahoo有三种信息查询方式:
归类信息方式:如最新消息、当前热点信息等; 专题浏览方式:将所有普通信息分为十二大类:艺术、商业和经济、计算机和互联网、教育、娱乐、政府、健康、新闻、休闲和运动、参考消息、区域、科学和社会科学。每一大类又分多个小类。可用鼠标点击链接词进入相关专题,非常方便。
关键词检索方式:这是最快速、方便的检索方式,只需在Yahoo主页的搜索框内键入要查找的信息主题词,然后点击 Search 按钮即可查找列出结果。
第 38|51 页
启动方法 启动 IE浏览器; 在地址栏输入: http://cn.yahoo.com/
第 39|51 页
目录检索方法示例 检索:西安交通大学图书馆网页,可以在图 11-11中点击“参考资料”大类中的“图书馆”小类。
第 40|51 页
(续一) 弹出浏览网站分类列表,点击“大学图书馆” 。
第 41|51 页
(续二) 在大学图书馆的列表中点击交大图书馆的超级链接,即可进入交大图书馆主页。
第 42|51 页
(续三) “+” 的使用
目的:缩小检索范围 ,相当于 AND 例如,“中国爱滋病 +调查” “-” 的使用
目的:缩小检索范围,要求某些特定的词不出现在检索结果中
例如,“爱滋病–中国”,不包括中国的爱滋病 关键词用引号括起来的使用
目的:强调关键词从语法上不可分割 例如,“中国爱滋病调查”
第 43|51 页
四、中国期刊网使用介绍 中国期刊网是中国知识基础设施工程 (CNKI)的一个重要组成部分,于 1999年 6月正式启动。主要的数据库有:中国期刊全文数据库、中国优秀博硕士论文全文库。
使用要求:用户必须先购买账号与密码,才能进入使用。对于没有相应账号与密码的用户,可以浏览免费信息,如文献摘要等内容,但不能浏览或下载文献全文。
第 44|51 页
全文数据库分类
第 45|51 页
启动 在 IE 地址栏输入: http://www.cnki
.net/index.htm 下载并安装阅读器:
第 46|51 页
登录系统密码: xjtu
第 47|51 页
检索操作 输入检索关键字,如“克隆”,并选择检索范围,单击“检索”按钮,即可得到检索结果。
第 48|51 页
五、信息发布方法
(1) 网络信息发布的优势 参与客户群体众多。面向全球网络用户 传播优势。全天 24小时不间断地展播
(2) 完成发布的步骤 申请存放信息的空间 (http://go.nease.net/) 整理准备发布的信息 通过软件工具制作发布页面 将制作好的页面传送到已经申请的空间 将自己的页面链接到有关搜索引擎上,供互联网用户查阅
第 49|51 页
(续)( 3 )示例
申请到免费空间,如: 9th_view 其 URL为: http://9th_view.go.nease.net 刚开始内容为空,仅有提示信息 其文件只有一个: index.htm 整理自己欲发布的内容,入口文件名为: ind
ex.htm
第 50|51 页
(续) 打开 FTP软件,如 FlashFXP ,登录到:
ftp.go.nease.net ,使用方法参考前面介绍。
用户名: 9th_view 密码: fmmu85611 删除原来的 index.htm 及其它文件 上传新文件 通过 IE浏览 http://9th_view.go.nea
se.net
第 51|51 页
Altavista Altavista检索服务是 1995 年 12月开始的,是目前最优秀的搜索引擎,每天访问它的次数超过1 亿次。 Altavista检索非常之快,一般只需数秒钟,它维护了一个含时间变量的数据库,能保证所查询的资料是最新的和最全面的。
Altavista的查询分为简单查询和高级查询。简单查询通过输入一个或几个关键词后提交查询任务即可。这与其它引擎的查询方法差别不大。
Altavista 高级查询必须使用 AND、 OR、 NOT、NEAR以及 ( )等操作符来连接词和词组,如 internet OR intranet查询包括 internet或者 intranet的资料。
返回
第 52|51 页
Excite
Excite 是由 Architext Software公司开发,最近才加入 Internet 的一个网上查询系统。
Excite收集了 5000万网页数据,它的检索方式由 Excite search (主题词检索)、 Excite city-net (城市网络)、Excite live (生活信息)等组成。
Excite 的最大特点是采用一个称为“智能概念抽取”的专用查询软件,允许用户使用自然语言提问。
返回
第 53|51 页
Lycos Lycos 是卡耐基 / 梅龙大学的著名查询工具。它对 1900万 URL (包括 FTP 和 Gopher )进行索引,覆盖 95% 的 Web 地址 , 其中仅 360万 URL 有比较完整的全文索引。索引的内容为页名、 URL 、子标题、文本的前 20行和 100 个加权的词。 Lycos 提供多种服务,包括关键词、热点新闻、主题网址、城市导游、股市、找人、在线公司、道路地图、关于 Lycos 、帮助共 12 类。
Lycos 的最大特点是采用了一种可以大大加快数据搜寻速度的技术,称为 CentiSpeed ,它每秒可处理 4000 个查询要求。另一个特点是建立了一个叫“ A2Z” 的 Lycos数据库,含有最常用主页的主题目录。返回
第 54|51 页
WebCrawler WebCrawler 是第一个在 Internet 上提供全文检索的引
擎,后来 Lycos 、 Infoseek 、 OpenText 等加入了全文检索的行列。
它以 350000 个关键词搜索建立索引,全文索引 10万 HTML 文献。 WebCrawler 提供分类服务,包括文学和艺术、商业和财政、交谈、计算机、每日新闻、教育、娱乐、游戏、政府、健康和医疗、 Internet 、儿童和家庭、生活和文化、康复、参考台、科学、体育、旅游共 18 类。
WebCrawler功能强大,一次可以检索世界各地 25万个服务器上的 160万条文档,每天平均被访问 300万次。它的检索结果按相关性排序,分简单和详细两种格式显示。支持自然语言查询和布尔算符查询,用户输入一串词语时可指定任何一词匹配或全部词语匹配。返回
第 55|51 页
Infoseek Infoseek于 1995年由 Infoseek公司推出,对 2
500万WWW 、 FTP 、 Gopher 、 Newsgroups网点进行全文索引,是 Web 上的第一家收费的查询系统。它只免费向你提供它查到的前 100条记录(不过这对于我们一般的用户已是绰绰有余)。
Infoseek服务的特点是采用词频统计方法来确定词语的重要性和相关性,可按词序检索,词汇大小写有区别,采用双引号、连字符、加号、减号、括号来表示词语的句法。
另外, Infoseek 提供下载免费软件的功能。 PC Week Labs将 Infoseek评为功能最完美的搜索网点。
返回
第 56|51 页
举例
课题 : 高层建筑的抗震 结构设计
第 57|51 页
高层建筑 : tall buildings high-rise buildings抗震 : earthquake resistance结构设计 : structural design
课题分析 :
第 58|51 页
1. tall 2. high(w)rise 3. buildings 4. earthquake resistance 5. structural design 检索式 : (1+2)*3*4*5
制定检索式 :