第 6 章 计算机信息检索

98
第6第 第第第第第第第 所所所所所所所所所 所所所所所所所所所所所所所所所所所所所所所所所所所所所所所所所所所所 所所 所所所所所所所 所所所所 、一。

description

所谓计算机信息检索,简单来说就是利用电子计算机对信息和数据的高速处理能力来存贮数据并从中查找、取出数据这样一个过程。. 第 6 章 计算机信息检索. 计算机信息检索:是人们根据特定的信息需求, 利用计算机 从相关的 机读数据库 中识别并获取所需的信息。 计算机信息检索过程: (1) 信息存储过程 (2) 信息检索过程 计算机信息检索的本质是信息用户的提问标识和信息集合数据库特征标识匹配的过程。 ( 原理 ). 计算机信息检索的含义. - PowerPoint PPT Presentation

Transcript of 第 6 章 计算机信息检索

Page 1: 第 6 章  计算机信息检索

第 6 章 计算机信息检索

所谓计算机信息检索,简单来说就是利用电子计算机对信息和数据的高速处理能力来存贮数据并从中查找、取出数据这样一个过程。

Page 2: 第 6 章  计算机信息检索

计算机信息检索的含义

计算机信息检索:是人们根据特定的信息需求,利用计算机从相关的机读数据库中识别并获取所需的信息。计算机信息检索过程:

(1) 信息存储过程 (2) 信息检索过程

计算机信息检索的本质是信息用户的提问标识和信息集合数据库特征标识匹配的过程。 ( 原理 )

Page 3: 第 6 章  计算机信息检索

计算机检索的原理

计算机将输入机检系统的用户提问标识 ( 检索词 ) 与已存储在系统中数据库内的文献特征标识 ( 标引词 ) 进行机械性匹配比较,凡符合给定的比较原则和逻辑运算条件即为命中信息。

检索提问字符串 数据库中特征标识字符串 匹配

Page 4: 第 6 章  计算机信息检索

1 概 论

计算机信息检索的产生

外部条件

空间技术

通信技术

数据传输技术

内部需求文献数量激增

用户检索需求

Page 5: 第 6 章  计算机信息检索

计算机信息检索系统的发展 最早的计算机情报检索系统是由美国海军兵器中心( NOTS )图书馆于 1954 年研制的。从 50 年代初计算机首次应用于情报检索试验,到如今的多元化全面发展,计算机情报检索经历了以下几个阶段 :

脱机检索阶段 (1954-1964)

没有实用性,内部的实验性或半实验性系统

联机检索阶段 (1965-1972)

第三代集成电路计算机、硬磁盘及磁盘机的出现,再加上数字通讯技术的发展和分组交换公用数据通信网的普及,使得文献检索从脱机批处理阶段进入联机检索阶段 。 DIALOG 系统和 MEDLARS 系统最具代表性。

国际联机检索 (1973- )

第四代计算机的出现,卫星通讯技术和光纤通讯技术的实用化,使得计算机情报检索冲破时间和空间的限制,为快速全面地获取全球性科技情报资料和经济信息提供了非常方便的条件,从而极大地提高了情报资料的可获得性和利用价值,充分实现了人类情报资源的共享。

1 概 论

Page 6: 第 6 章  计算机信息检索

光盘检索系统 (1985- )1985 年出现 CD-ROM 数据库 .使用方便,存贮量大,不受检索时间、通信费用、打印篇数的严格限制而深受读者欢迎。

Internet 检索 (1985- )

Internet 是世界上最大的互联网络;是一个以 TCP/IP 通讯协议连接各个国家、各个部门、各个机构计算机网络的数据通信网;是一个集合各个专业、各个领域、各种资源为一体的供网上用户共享的信息资源网

在 Internet 上的科技信息资源占全部信息资源的 20%以上。

Page 7: 第 6 章  计算机信息检索

计算机信息检索特点

检索速度快,效益高检索功能强,检索更方便灵活检索途径多,手段灵活检索范围广,资源共享数量大,更新快服务方式多,二次开发容易检索结果可以直接输出

Page 8: 第 6 章  计算机信息检索

计算机信息检索系统组成

硬件:运算器、控制器、存储器、输入输出装置等软件:系统操作程序、数据库管理程序、联机控制程序、应用程序等。通讯线路:电话通讯网、数据通讯网、卫星通讯网等。检索终端:信息用户与检索系统主机进行人机对话,实现联机检索的设备。包括上网设备、调制解调器等。数据库:是计算机检索的对象。是由一个或数个文档构成,并能够满足某一特定目的或某一特定数据处理系统需要的一种数据集合。

Page 9: 第 6 章  计算机信息检索

计算机信息检索系统

系 统 软

件 应用系统软件

检索系统的构成

硬件

软件

数据库

Page 10: 第 6 章  计算机信息检索

• 数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合。是检索系统的信息源,也是用户检索的对象。数据库可以随时按不同的目的提供各种组合信息,以满足检索者的需求。

• 检索系统中的数据库一般由各个数据库生产者提供,也有一些是系统本身建的。

Page 11: 第 6 章  计算机信息检索

数据库 数据库是以特定的组织方式将相互关联的数据集合、存储的总汇。它将各种数据中的信息单元经过有序处理、组织 , 可以按通常的方法进行维护和检索。是可以共享的某些具有共同存取方式和一定组织方式的相关数据的集合。

数据库本质的三个要素相关数据

共同存取方式和一定组织方式

共享

分 类

数值型数据

库 事实型数据

库 文献型数据

Page 12: 第 6 章  计算机信息检索

数据库的类型

书目数据库

源数据库

数值型数据库

词典型数据库

全文数据库

Page 13: 第 6 章  计算机信息检索

数据库的类型文献型数据库

文献型数据库也称书目数据库( Bibliographic Database )主要是文摘索引等文献检索工具的机读版,如 MEDLINE , CBMDISC , VIPdata 等。书目检索就是检索文摘、索引的相应的机读数据库,检索的结果是书目信息,即文献的线索。书目数据库是计算机文献检索最常用的数据库类型。

数值数据库 主要包含的是数字数据,有的也包含用来定义数字所必需的少量文字。数字是指可以计算、测量或以数值表现的项目。如化学物质毒性数据库、人口统计数据库、化学结构图数据库等 。

事实数据库或词典数据库

直接提供科学依据或事实。如美国国立癌症研究所建立的 PDQ(Physician Data Query) 数据库,可提供所有主要癌症类型的最新治疗及预后,标准治疗方案和研究中治疗方案,以及主要从事癌症治疗的医生名录及有关癌症治疗护理的保健组织机构名录 。

Page 14: 第 6 章  计算机信息检索

数据库的类型①书目数据库( bibliographic database )②数值数据库( numeric database )③全文数据库( full text database )④事实数据库( fact database )⑤超文本型数据库( hypertext database )

Page 15: 第 6 章  计算机信息检索

①书目数据库( bibliographic database )

• 是机读的目录、索引和文摘检索工具,检索结果是文献的线索而非原文。

• 如许多图书馆提供的基于网络的联机公共检索目录( Web-based Online Public Access Catalogue )、 MEDLINE 、 CBMDisc 等。

Page 16: 第 6 章  计算机信息检索

②数值数据库( numeric database )

• 主要包含的是数值数据•例如美国国立医学图书馆编制的化学物质毒性数据库 RTECS ,包含了 10万多种化学物质的急慢性毒理实验数据。

Page 17: 第 6 章  计算机信息检索

③全文数据库( full text database )

•存储的是原始文献的全文,有的是印刷版的电子版,有的则是纯电子出版物

• 例如《中国学术期刊(光盘版)》

Page 18: 第 6 章  计算机信息检索

④事实数据库( fact database )

• 存储指南、名录、大事记等参考工具书的信息

• 例如美国医生数据咨询库 PDQ ( Physician Data Query )。

Page 19: 第 6 章  计算机信息检索

⑤超文本型数据库( hypertext database )

• 存储声音、图象和文字等多种信息• 例如:美国的蛋白质结构数据库 PDB ,该

数据库可以检索和观看蛋白质大分子的三维结构。

Page 20: 第 6 章  计算机信息检索

数据库的结构

数据库是由一个或多个文档( File )构成 的集合 , 每个文档由若干记录( Record )组成 , 每条记录由若干字段

( Field )构成。

Page 21: 第 6 章  计算机信息检索

文档( File ) 文档是数据库中由若干个逻辑记录构成的数据的集合。许多大型数据库往往包含有数个以万计的记录,为便利用户检索,常划分为若干文档。如 MEDLINE 数据库根据年代被分为现期文档和回溯文档。 另一方面,从数据库内部结构来看,文档是指数据库内容的组成的基本形式,是由若干个逻辑记录构成的信息集合。数据库的文档由顺排文档和若干倒排文档组成。一般来说,一个数据库至少要包括一个顺序文档( Serial File )和至少一个倒排文档 (Inverted File) 。

Page 22: 第 6 章  计算机信息检索

顺排文档按文献记录的存取号从小到大排列。218653(AN)Nonverbal Communication in TeachingTI1 TI2 TI3 TI4

Smith, Howard AAU

Reviews of Educational Research.V49 n49 p631-72 Wtr1983JN PY

Language:English LA

School –related research is reviewed under…AB1 AB2 AB3 AB4 AB5 AB6……218654218655……

Page 23: 第 6 章  计算机信息检索

倒排文档

关键词索引文档表

索引词 记录号 字段号Article 195895 , 195892 AB2Artifacts 218653 AB22Behavior 218653 , 336455 AB17Body 195895 TH2 195895 AB10……

倒排文档:从数据库全部记录的基本字段中,按照著者、主题、分类等提取出所有的检索词,分别按字顺排列而重新形成的索引文档。如下图:

Page 24: 第 6 章  计算机信息检索

顺排文档和倒排文档的主要区别

• 顺排文档以完整记录为检索和处理的单元• 倒排文档以信息的检索入口为检索和处理单元

Page 25: 第 6 章  计算机信息检索

记录( Record )•由若干不同字段组成的文献单元,一条记录在数据库中代表一篇文献。•计算机检索系统存储文献条目和标引的信息载体,每条记录记载了一篇文献的内部特征和外部特征。

Page 26: 第 6 章  计算机信息检索

字段( Field )

• 文献著录(构成记录)的基本单元,是对实体的具体属性进行描述的结果,反映文献外部特征和内容特征的每一项目,在数据库中就称为字段。如:题名、作者。

基本字段:描述文献的内容特征。如:关键词 KW 、题名 TI 、文摘 AB 、叙词 DE 等

辅助字段:描述文献的外部特征。如:作者AU 、刊名 JN 、出版时间 PY 、语种 LA 等

Page 27: 第 6 章  计算机信息检索

内容 Content 范围 Coverage 时效 Currency 费用 Cost

选库的 4C原则 :

Page 28: 第 6 章  计算机信息检索

计算机信息检索的发展

Page 29: 第 6 章  计算机信息检索

计算机信息检索过程

1. 信息存储过程:在计算机中存有多个数据库,每个数据库里有顺排文档和若干倒排文档。

2. 信息检索过程:当有检索提问式输入计算机时,计算机将提问标识和数据库倒排文档中的特征标识进行比较,如果基本相同,就将该记录存取号保存下来;如果找不到相同的字符,检索结果为零。这种匹配是字面上的匹配过程,而不是概念匹配。

Page 30: 第 6 章  计算机信息检索

计算机信息检索分类

1. 根据所检索数据库的形式(检索的内容)分:(1) 书目检索(2) 数据检索( Numerical Retrieval ):检索结果 主要为数据。

(3)事实检索 Fact Retrieval ):检索结果为事实(新闻)。

(4) 全文检索(1) 、 (4) 统称文献检索( Document Retrieval ):检索结果为文献信息(期刊论文信息)。

Page 31: 第 6 章  计算机信息检索

计算机信息检索分类

2. 根据计算机检索服务方式 ( 检索文献出版的时间 ) :(1) 定题检索( Selective Dissemination of Infor

mation , SDI ):定期提供最新文献,是目前信息服务提倡的一种文献服务方式。

(2)回溯检索( Retrospective Search ): 根据用户提问提供某一时间段的文献的检索方法。是目前最常用的检索方法。

(3) 问答式检索(4) 文献递送

Page 32: 第 6 章  计算机信息检索

定题检索( Selective Dissemination of Information , SDI )

• 定题检索服务是用户根据检索课题的内容,一次性输入事先确定好的检索提问式保存在检索系统中,检索系统根据数据库更新周期,定期地对保存的检索提问式进行检索,将检索出的最新文献信息提供给用户。定题检索服务的特点是定期性、新颖性和批处理式,即每隔一定时间就某个主题在检索系统中检索一次;检索的都是近期的新数据;成批处理检索提问。

Page 33: 第 6 章  计算机信息检索

回溯检索( Retrospective Searching ,RS )

• 回溯检索服务主要是指追溯查找过去的信息,帮助用户查找过去几年甚至几十年的文献,使用户一次检索就可以全面了解某一课题在某一段时间中的发展情况。比较适合申请专利时的新颖性检索、科研课题的立项或鉴定时的查新、撰写综述性论文以及编写教材时信息的收集等。

Page 34: 第 6 章  计算机信息检索

问答式检索服务

• 用户直接利用终端检索,检索系统即时提供用户所需的文献信息。

Page 35: 第 6 章  计算机信息检索

文献递送服务

• 用户通过联机检索得到的结果一般都是二次文献(题录和文摘等),如果需要一次文献,可以通过终端联机订购原始文献的复印件或原文。

Page 36: 第 6 章  计算机信息检索

计算机信息检索分类

3. 根据检索方式分:(1)脱机检索(2) 联机检索(3)国际联机检索(4)光盘检索(5) 网络检索

Page 37: 第 6 章  计算机信息检索

国外计算机信息检索发展阶段

脱机检索阶段 (1954-1964)联机检索阶段 (1965-1971)国际联机检索阶段 (1972-1994)网络信息检索阶段 (1995-)

Page 38: 第 6 章  计算机信息检索

国内计算机信息检索发展阶段

1975 年 , 从国外引进数据库开展机检服务;1980 年,建立国际联机终端开展检索服务;20 世纪 80年代中后期,自建数据库;90年代初,发展光盘检索;90年代中期, Internet 网络化检索阶段。

Page 39: 第 6 章  计算机信息检索

(1) 脱机检索

是六十年代发展起来的批次检索,用户不与检索系统发生直接联系,只需把检索要求送往检索中心,由检索人员在计算机主机旁进行文献检索的一种方式。优点:价格便宜,无网络通讯费,检索费用由用户平摊,随机存储。缺点:一次机会检索,检索结果延误,委托性检索。

Page 40: 第 6 章  计算机信息检索

• 在利用计算机进行信息检索的早期,人们只是用单台计算机的输入输出装置进行检索,用磁带作存储介质,一般为连续的顺序检索方式。检索部门把许多用户的检索提问汇总到一起,进行批量检索,然后把检索结果通知各个用户,用户不直接接触计算机。这种方法更适合大批量的定题信息检索,所以也叫脱机批处理检索或定题情报服务。

Page 41: 第 6 章  计算机信息检索

(2) 联机检索 Online retrieval

联机检索是用户利用终端设备,通过通信网络或通信线路与检索系统联机,进行“人机对话”,从检索中心的数据库查找所需要的文献信息过程。特点:检索的速度快,检索结果可以得到及时修改。缺点:检索费用高。

Page 42: 第 6 章  计算机信息检索

(3) 国际联机检索

该系统是 70年代出现的一门现代化情报检索手段,目前已发展到相当高的水平,计算机联机网络和检索终端已遍及世界所有主要国家和地区。特点:

(1) 可以实现资源共享;(2) 检索速度快;(3) 信息资源专业化;(4)查全率和查准率较高。

Page 43: 第 6 章  计算机信息检索

世界上最著名的国际联机检索系统1.DIALOG :有 900 多个数据库,其中广泛使用的有 600 多

个,内容涉及多个学科领域,文献存储量超过 3亿篇。2.ORBIT :提供专利、化学、能源、市场、工程和电子等方面的信息,约有 100 个数据库。

3.BRS :内容涉及医学、生物科学、教育、健康、物理和社会科学及其它综合性学科。有 150 个数据库和 40 个私用数据库。

4.OCLC :联机计算机图书馆中心,是世界上最大的为读者提供文献信息机构。有 60 个数据库,提供会议录、工业通告、图书评论等信息。

5.STN :有联邦德国、美国、日本共同合作创建的数据库,有 110 个数据库,多个数据库向中国免费服务。

6.DIMDI :德国医学文献资料学会于 1969年推出的联机检索系统。有 55 个数据库,侧重于提供生命科学领域资料。如:生物化学、肿瘤学、公共卫生、海洋生物学、兽医学、食品科学等。

Page 44: 第 6 章  计算机信息检索

(4) 光盘数据库检索

光盘 是 80年代发展起来的激光存储载体,继纸张感光材料、磁性载体之后问世的又一种新型的信息存储介质。能存储数据、文字、图形、图像、声音、动画等各种信息。一张普通的光盘、信息存储量约为 650兆。光盘的分类:按存储方式分为以下几种。

(1)只读型光盘: CD-ROM (2) 一次写入型光盘: WORM (3) 可擦写型光盘: ERM

Page 45: 第 6 章  计算机信息检索

光盘检索的定义和特点

定义: 是一种用激光技术在特制原盘上记录信息的检索

方式。特点: (1)投资成本低;存储容量大,占据空间小

(2)费用低; (3) 运行(读取)速度快; (4) 检索效果好; (5)下载方便; (6)安全性能高。

(7) 对硬件有一定要求

Page 46: 第 6 章  计算机信息检索

光盘检索的系统组成

• CD-ROM 数据库• 最初是单机检索,后来逐渐发展出了联机光盘检索单机光盘检索系统组成:

(1) 数据库:光盘 (2)软件:系统软件和检索软件 (3)硬件:计算机、光盘驱动器、显示屏、打印机等

网络光盘检索系统组成: (1)光盘塔 (2)光盘组网软件 (3)光盘塔服务器

• 联机光盘检索指把单用户系统发展成多用户的局域网系统,通过网络(如校园网)连接多个用户终端,用服务器管理多组光盘数据库及其检索系统

Page 47: 第 6 章  计算机信息检索

(5) 网络数据库检索• Web-database• 用户在自己的客户端上,通过互联网和浏览器界面对数据库进行检索

• 网络数据库是指将数据存放在远程服务器上,用户通过 Internet直接访问,也可通过 Web服务器或中间服务器访问。如《 EI Compendex Web》。

• 用户在自己的客户端上,通过互联网和浏览器界面对数据库进行检索

Page 48: 第 6 章  计算机信息检索

商业联机检索系统

Page 49: 第 6 章  计算机信息检索

万方• 万方数据电子出版社是中国科技信息 (万方数据

库 ( 集团 )) 的电子出版单位,专门从事数据库光盘和多媒体光盘的制作、出版与发行以及数据库的技术开发、技术服务。该电子出版社以中国科技信息研究所丰富的资源为依托,将一批具有规模和影响的科技类、工商类数据库 ( 共计 20 多个系列近百种产品 ) 相继投放市场,数据记录几乎覆盖全部学科领域,总量达 1,000万条以上。另外万方数据电子出版社拥有自主权的《中国企业、公司及产品数据库》 (英文版 ) 已进入美国 Dialog国际联机检索系统,向全球用户提供服务,以该库为基础与美国 Elite International group 合作开发的中国商务信息 (Chinese Business Information) 数据库光盘也向欧美市场发行。

Page 50: 第 6 章  计算机信息检索

国外著名联机检索系统

• DIALOG 系统(美国)• 建库时间: 1966—

• 国际联机: 1972—

Page 51: 第 6 章  计算机信息检索

• 美国 DIALOG ( 对话系统 ) 联机数据库系统是世界上最早和最强大的专业化国际联机检索系统, 也是目前运作最成功的联机商业数据库系统之一。它最初由美国洛克希德导弹航空公司所属的一个情报科学实验室负责建立,目前拥有 80 多个国家约 10 万多个终端用户,主机系统位于美国加利福尼亚州的 PALO ALTO 市。 DIALOG 现拥有 600 多个联机数据库,涵盖了全球大多数学术和商用数据库资源,是专业化信息查询的主要工具。其内容涉及 40 多个语种和占世界发行总量的 60% 的 6 万多种期刊,内容覆盖自然科学、工程技术、社会科学和人文科学等广泛的学科领域,但 20 世纪 70 年代后 DIALOG 数据库主攻方向逐步由科技转向经济、商业等商情类数据库领域,提供经济、人口统计和预测、商品生产和销售预测等方面的信息服务。

•  

Page 52: 第 6 章  计算机信息检索

•    DIALOG 面向社会提供收费联机服务,目前 DIALOG 已在 INTERNET 上开设 Web检索界面,具体使用可查看

    http://www.dialogweb.com

其信息量是 Internet信息总量的 50倍 至 1991 年 6月,其文献总量超过 2.6 亿篇,占世界机存文献量的 50 %以上。

Page 53: 第 6 章  计算机信息检索
Page 54: 第 6 章  计算机信息检索

DIALOG 提供的专门搜索技术

• 1 专用搜索命令2 逻辑组配3 截词技术4 限定技术5 搜索策略问题

• DIALOG除提供布尔逻辑组配搜索技术外,还提供包括专用搜索命令、截词、词位限制、检域限制等在内的一系列专业化搜索技术。

Page 55: 第 6 章  计算机信息检索

1 DIALOG指令与提问式

• ?指令 空格 数据 回车• 1 、 S指令( SELECT )基本查找指令? S COMPUTER

• 2 、 SS指令( SELECT STEPS )分布查找指令? SS COMPUTER AND DESIGN

Page 56: 第 6 章  计算机信息检索

以下 3 、 4 、 5 、 6 条指令只能在 DOS 系统中使用。• 3 、 D 指令( DISPLAY )显示指令

组号 / 输出格式 /篇数? D 3/5/4-7,9? D 3/5显示打印格式1 )文摘号2 )全记录(无文摘)3 )书目格式(无文摘)4 )全记录(字段名缩写)5 )全记录6 )题目7 )书目格式(含文摘)8 )题目和叙词

Page 57: 第 6 章  计算机信息检索

• 4 、 DS 指令( DISPLAY SETS )回顾检索步骤指令DS显示所有的检索步骤DS 2-4 只显示步骤 2-4

• 5 、 C 指令( COMBINE )逻辑组配指令? C S1*S2 或 ? C 1*3

• 6 、 E 指令( EXPAND )显示数据库中的检索词? E COM (显示由 COM 开始的检索词)

Page 58: 第 6 章  计算机信息检索

2 逻辑组配

• Dialog 系统所用的布尔逻辑组配与通用的布尔逻辑组配一样,主要包括使用 “和 (and,*)” 、“或 (or,+)” 、 “非 (not,-)”三种基本逻辑算符,这是现行计算机检索的基本技术。其优先级依次为 NOT 、 AND 、 OR ,改变优先级的方法是使用()。就象数学运算中一样,括号内的逻辑式优先执行。对话系统中 * 等价于 AND , + 等价于 OR ,为缩短检索式和醒目起见常被使用。

Page 59: 第 6 章  计算机信息检索

3 截词技术

• 在英语等西方语言中,词根相同、含义相近而词尾变化的词很多,如复数加 s ,现在分词和动名词加 ing ,过去分词加 ed ,等等,为使查询时不遗漏相关词,很多查询系统都发展了截词技术。各个查询系统使用各自规定的截词符号,在对话系统中,用?作为截词符,而且包括后截、中截、前截等。

Page 60: 第 6 章  计算机信息检索

Dialog 系统截词符

• 符号       意义          实例• ?       后截断或中截一字符     system?; wom?n

• ? ?      后截一字符         system? ?

• ??       后、中截二字符      act??; encyclop??dia

• ???      后、中截三字符       computat???

Page 61: 第 6 章  计算机信息检索

4 限定技术

• Dialog 系统提供的限定技术包括词与词之间的位置限定算符、前缀代码、后缀代码和关系算符。

Page 62: 第 6 章  计算机信息检索

 位置限定算符 (Proximity Operators) 主要有:

• 算符   用法                  意义W     A(nW)B       A 、 B两词相隔 n 词且前后次序不变符合查询要 求; n=1 时即 A()BN     A(nN)B       A 、 B两词相隔 n 词且前后次序不限符合查询要 求; n=1 时即 A(N)B

• L     A(l)B       A 、 B两词若出现在同一主题词字段 (DE) 中则符合 查询要求

• S     A(s)B       A 、 B两词若出现在用逗号连接的子字段中则符合 查询要求

• F     A(f)B       A 、 B两词出现在同一字段中就符合查询要求

• 从限制的严格性看, F 、 S 、 L 、 N 、 W依次渐严,而且都比 AND严。在执行优先级上, F 、 S 、 L 、 N 、W 比 NOT 、 AND 、 OR优先。

Page 63: 第 6 章  计算机信息检索

前缀代码 (Prefix Code) 主要有:

•    AU= 限查特定作者•    JN= 限查特定刊名 •    LA= 限查特定语种•    PN= 限查特定专利号•    PY= 限查特定年代

Page 64: 第 6 章  计算机信息检索

后缀代码 (Suffix Code) 主要有:

•    /TI 限在题目字段中查•    /AB 限在文摘字段中查•    /DE 限在主题字段中查

Page 65: 第 6 章  计算机信息检索

关系算符 (Relational Operators) 有:

•    : 包含范围,如出版年 PY=1990:1998•    > 大于•    < 小于•    >= 大于等于•    <= 小于等于•   有了以上检索技术,对话系统就能处理较复杂的查询提问,这种处理能力一般远比万维网搜索引擎和元搜索引擎强,它通过特定的搜索策略实现。

Page 66: 第 6 章  计算机信息检索

DIALOG 系统的 Internet Web界面的检索方法

• 1 利用W eb直接上网检索。其W eb 网址为 http://www.DialogWeb.com

• 这种方式检索费用最低,仅在主要是运行和调用数据一刹那计算 Internet费用,缺点是如果用户 需要将所有检索过程存盘,就要一屏一屏的存盘,否则随着检索指令的变化,一及时存盘,数据容易丢失。

Page 67: 第 6 章  计算机信息检索

DIALOG 系统的 Internet Web界面的检索方法

• 2 特别为专业人员推出的 Web界面。其网址为 http://www.DialogClassic.com 这是最新推出界面。速度快,检索过程每一屏幕均保留不丢失数据,便于存盘,界面是专 业人员熟悉的界面,能很快的从旧检索方式转入适应新的 Web界面。

Page 68: 第 6 章  计算机信息检索

• 3 非专业检索人员Web界面。其网址为http://www.dialogSelect.com DialogSelect 作为在 Internet上的傻爪界面主要针对最终用户,而非专业人员。对于初 学者、最终信息用户和不愿学习 Dialog 检索指令的人可使用其傻瓜界面。

DIALOG 系统的 Internet Web界面的检索方法

Page 69: 第 6 章  计算机信息检索

• 4 数据库兰页网址: http://library.dialog.com/bluesheets/

• 你可以按数据库名称、文档号、主题浏览兰页。数据库兰页提供有每一种数据库的收 录范 围,可供检索的字段、打印格式、记录样式及收费情况等。

DIALOG 系统的 Internet Web界面的检索方法

Page 70: 第 6 章  计算机信息检索

OCLC Online Computer Library Center,Inc.

Page 71: 第 6 章  计算机信息检索

OCLC

• 即联机计算机图书馆中心,总部设在美国的俄亥俄州,是世界上最大的提供文献信息服务的机构之一,它是一个非赢利的组织,以推动更多的人检索世界上的信息、实现资源共享并减少使用信息的费用为主要目的。

• 每天均检索约 10万次 以上

Page 72: 第 6 章  计算机信息检索

FirstSearch 的特点(1) 面向最终用户

• FirstSearch 是一个面向最终用户设计的联机检索系统,任何技术人员只要经过半天的培训都能熟练地应用,然后可自己亲自上机操作检索适合自己需要的文献,而且可以在图书馆、办公室、试验室甚至家中等任何地方的联到 Internet 网的微机上使用。

Page 73: 第 6 章  计算机信息检索

(2) 提供一体化服务

• OCLC 的一体化服务分为三个层次 : 第一层对用户提出的问题进行相关文献的检索,可检索的数据库大多为二次文献数据库。第二层是查找文献所在地,其所在地包括世界范围的图书馆、世界上可提供全文服务的文献服务社或 OCLC自身。第三层是提供一次文献,提供的方式可能是 OCLC 的数量达 100 多万篇的随时都在更新的联机全文库,也可能是通过所在图书馆的馆际互借服务,也可能是第三方的文献服务社。最终保证了用户能取到所需的文献。

Page 74: 第 6 章  计算机信息检索

(3) 收费低

• OCLC 是按检索的次数而不是按所用的机时收取费用,用户每递交一次检索式并得到命中记录的一览表后计为一次检索,之后你可以对其表中任一条记录进行联机显示、打印或以 E-mail 方式传递回本地信箱,不论你浏览了多少条记录和经过多长时间均在一次收费之内。

Page 75: 第 6 章  计算机信息检索

(4) 信息量大

• 用 FirstSearch 系统可检索主题范畴非常广泛的 70 多个数据库。

• 这些范畴包括:艺术和人文学科、工商管理和经济、会议和会议录、消费者事物和人物、教育、工程技术、普通科学、生命科学、医学和健康学、新闻和时事、公共事务和法律、社会科学、综合和参考等。它检索到的文献信息中不仅包含文摘还能查阅到馆藏地点。

Page 76: 第 6 章  计算机信息检索

(5) 信息更新快

• OCLC 的数据库经常在修改,每天都有新的信息增加到数据库中,因此用户从 OCLC的数据库能检索到世界上最新的资料和信息。

• 除以上主要特点之外,还有其他许多特点,例如操作简便,网络支持服务环境好等,不再一一列举。

Page 77: 第 6 章  计算机信息检索

OCLC Firstsearch 基础数据库– WorldCat ---- 世界范围图书馆的图书和其他

资料– Article1st ---- 12,500 多种期刊的文章索引– Contents1st ---- 12,500 多种期刊的目次页– UnionLists ---- OCLC 的期刊联合列表库 – ERIC ---- 教育方面的期刊文章和报告– GPO ---- 美国政府出版物– PapersFirst ---- 在会议上提交的文章索引 – Proceedings ---- 会议出版物索引 – WilsonSelect ---- H.W. Wilson 公司的全文库 – WorldAlmanac ---- 世界年鉴

Page 78: 第 6 章  计算机信息检索

检索系统 :OCLC 检索方法

• OCLC Firstsearch 检索系统– 基本检索:是检索所需信息的一种快捷方式。– 高级检索:允许用户构造更复杂的检索语句。使用一个或多个字段(最多 3 个)键入检索条件表达式,最多 3 个检索条件可用布尔算符( AND 、 OR 、 NOT )组合检索

– 专家检索:专家检索是为喜欢输入逻辑检索表达式的检索员设计的,检索表达式有标识符、检索词、结合符和布尔算符组成。

Page 79: 第 6 章  计算机信息检索

OCLC 的 Firstsearch 检索系统– 利用索引表或下拉表构造检索表达式– 基本检索 从索引表选择字段索引,键入检索词。– 高级检索 从下拉表选择字段索引,可键入多组

检索项。– 利用标识符构造– 专家检索 – 标识符是 2 个缩写的字符,它代表书目信息中

的一个字段。– 例如: ti 代表 Title (题名); au 代表 Auth

or (作者); kw 代表 Keyword (关键词)等。

Page 80: 第 6 章  计算机信息检索

OCLC Firstsearch 检索系统(续)

– 关键词检索– 标识符后紧跟一个冒号 (:) 和检索项,例如 : ti:computer

– 在高级检索屏幕中,用所有不带 phrase (词组)的索引构造。

– 精确匹配检索– 标识符后紧跟一个等号 (=) 和检索项, – 例如: ti=The computer connection

– 短语词组检索– 将词组放在双引号内。例如: “ information sharing”

Page 81: 第 6 章  计算机信息检索

OCLC Firstsearch 检索系统(续)

– 位置算符 : N,W – 逻辑符: AND,OR,NOT – 括号: – 复数符: +– 截词符: *– 通配符: #: 代表一个字符。 ?: 代表零个或任意个字符。例: colo?r , co

lo?4r

Page 82: 第 6 章  计算机信息检索

检索示例

– 查某一作者的发文情况: http://www.casad.ac.cn/the_whole_web_root/chinese/ysjs/error.asp(中国院士 80 、 01 )

– 跟踪某一热点或研究动态: stem cell 、 nanotube 、 genomics– 查询某一主题或领域的发展 fullerene 、 avian influenza 、 bovine spongiform

encephalopathy and detection– 期刊、机构等的评估分析:收录 / 引用

Page 83: 第 6 章  计算机信息检索

Lexis-Nexis 系统

• 美国 LEXIS-NEXIS公司创始于 1973年,数据库内容涉及新闻、法律、政府出版物、商业信息、及社会信息等,其中法规法律方面的数据库是 LEXIS-NEXIS 的特色信息源,具有非常大的影响力,尤其在法律业界具有很高知名度。

Page 84: 第 6 章  计算机信息检索

LexisNexis Academic 学术大全

• 是由美国图书馆界专家委员会设计、专为学术图书馆提供服务的专业信息资源系统。该信息资源收录了 6100 多种全文资源,包括新闻、报纸、期刊、出版物、特色数据库系统和来自其他大型信息供应商的信息资源,涉及全球新闻、商业、法律、以及参考资料等领域。

Page 85: 第 6 章  计算机信息检索

Questel-ORBIT(轨道系统 )

• ORBIT 系统是美国系统发展公司 (System Development Company,简称 SDC) 开发的仅次于 Dialog 的世界上第二大国际联机系统,特别是在专利、商标、科技信息等领域具有独特优势,它拥有大约120 个联机数据库资源、 0.6亿篇文献,约占世界机读文献总量的 25% ,每月更新 20万篇,约有 20 个左右的文档数据库与 Dialog 系统相同。

• 其Web 网点的 URL 为 http://www.questel.orbit.com

• 国际联机: 1974年—• 特点:石油文献占 1/4

Page 86: 第 6 章  计算机信息检索

• 其特色是对汽车工程、石油、化工、医学、环境科学、生物化学、安全科学、运动科学等学科文献收录较齐全,并对一批使用价值较高的数据库拥有独家经营服务权,如 APILIT (炼油文摘)、APIPAT (炼油专利索引)、 TULSA(石油文摘 ) 、PAPRA(橡胶塑料工业文摘 ) 、 PIPA(造纸、印刷、包装文摘 ) 、 WSCA(世界表面涂层文摘等 ) 。由于 ORBIT 系统的检索技术较强,因此 ORBIT 系统的服务颇受各国的科技人员的重视。

Page 87: 第 6 章  计算机信息检索
Page 88: 第 6 章  计算机信息检索

• 主页左栏列有多种可提供的 Web 服务功能,包括:Questel-Orbit --- 系统介绍; Home ---返回系统主页;What’s New?---热点新闻; Company Overview---公司浏览; Customer Service ---客户服务;Documentation --- 文档;Worldwide Contacts ---世界范围内的交往; Feedback ---反馈信息; Products & Services --- 产品和服务; Online --- 联机查询;Imagination --- 设想; Resources --- 资源服务等等。用户只要点击某一选项,就能使用相应的服务功能,有时还能调用几种服务。

Page 89: 第 6 章  计算机信息检索

ESA-IRS(欧航系统 )

• ESA-IRS 是欧洲航天局的信息查询系统,是欧洲最大的国际联机检索系统,目前其主页 URL 为 http://www.esrin.esa.it/htdocs/esairs/esairs.html ,

Page 90: 第 6 章  计算机信息检索

STN ( The Scientific and Technical Information Network )

• STN 是诞生于德国的国际联机检索系统,全称是国际科技信息网络。创建于 1983年,由美国化学文摘服务社( CAS )、德国卡尔斯鲁厄专业情况中心( FIZ-Karlsruhe )和日本科技情报中心( JICST )三家共同开发创建的,这三个机构作为 STN 的服务中心,其主机通过海底电缆相联,用户只需与其中一个服务中心的主机联机,就可实现对三台主机同时访问。其主页 URL 为http://www.fiz-karlzuhe.de

Page 91: 第 6 章  计算机信息检索

• STN 系统目前有 200 多个数据库,主要涉及各学科领域及综合性科学技术方面的论文和专利,同时提供众多公司、供应商等方面的商情信息(如生物商情、化工产品等方面)。它是世界上第一个实现图形检索的系统,能够实现化学物质的结构检索,且 STN 系统中 CA 数据库含文摘、比 Dialog 中的 CA 数据库要全面、详细。由于 CAS 是三个服务中心之一,它生产的所有的数据库都放在 STN 系统中,因此,检索化学化工方面的文献,可首先考虑使用 STN 系统。

Page 92: 第 6 章  计算机信息检索

光盘检索系统

Page 93: 第 6 章  计算机信息检索

光盘检索系统的特点

• 优点• 缺点

Page 94: 第 6 章  计算机信息检索

服务模式

• 单机• 网络

Page 95: 第 6 章  计算机信息检索

发展历程

Page 96: 第 6 章  计算机信息检索

光盘数据库简介

• 国内– 中国学术期刊(清华)– 复印报刊资料(人大)– 中文科技期刊(维普)

• 国外– WinSPIRS– ProQuest– Dialog Ondisc

Page 97: 第 6 章  计算机信息检索

《中国学术期刊 (光盘版 )》

• 简称《 CAJ- CD》,是我国第一个连续出版的大规模集成化、多功能学术期刊全文检索系统。经国家新闻出版署批准,由清华大学中国学术期刊(光盘版)电子杂志出版社编辑出版。《 CAJ- CD》精选并全文收录了我国自然科学、工程技术、人文、社会科学核心期刊和有专业特色的期刊 3500 种, 1996年试刊, 1997年 1月正式出版。

• 《 CAJ- CD》原分理工 A 、 B 、 C ,农业、医药卫生、文史哲、政治经济法律、教育、与社会科学综合 8 个专辑,分自然科学和社会科学两大类,每半年出版一张索引盘。1999年将原来的 8 个专辑中有关电子、无线电、计算机、通讯、新闻出版及图书档案等内容抽出组成一个新专辑,并按 9 个专辑出版发行,月刊分为单机版和网络版。

Page 98: 第 6 章  计算机信息检索

《中文期刊数据库》

• 简称《中刊库》,原名《中文科技期刊数据库》,是由科技部西南信息中心重庆维普咨讯公司推出的国内著名的光盘数据库,它收录了 1989~年出版的 7,000余种期刊和 2000年后出版的 1200余种期刊上发表的论文,分为 36 个专辑、 200 个专题供用户选择。学科范围覆盖理、工、农、医及社会科学各个专业,按季度出版发行题录文摘版、引文索引版以及与之配套查找原始信息的《中文期刊数据库》 ( 全文版 ), 并提供按月更新的镜像数据库服务和按季更新的全文光盘。该数据库软件功能较全,界面布局紧凑,功能较集中,分为检索区域、导航系统、概览区和功能限定下载区域。