数字信息资源 及其检索概述

73
数数数数数数 数数数数数数 北北北北北 北北北 E-mail:[email protected]

description

数字信息资源 及其检索概述. 北京大学图书馆 张春红 E-mail:[email protected]. 第一部分 数字信息资源的概念与类型. 数字信息资源概述:定义. 数字信息资源: 狭义上也称为电子资源,指一切以数字形式生产和发行的信息资源。所谓数字形式,是以能被计算机识别的、不同序列的“0”和“1”构成的形式。数字资源中的信息,包括文字、图片、声音、动态图像等,都是以数字代码方式存储在磁带、磁盘、光盘等介质上,通过计算机输出设备和网络传送出去,最终显示在用户的计算机终端上。. 数字信息资源概述:特点. 存储介质和传播形式发生变化 以多媒体作为内容特征 - PowerPoint PPT Presentation

Transcript of 数字信息资源 及其检索概述

Page 1: 数字信息资源 及其检索概述

数字信息资源及其检索概述北京大学图书馆 张春红

E-mail:[email protected]

Page 2: 数字信息资源 及其检索概述

第一部分数字信息资源的概念与类型

Page 3: 数字信息资源 及其检索概述

数字信息资源概述:定义数字信息资源:

狭义上也称为电子资源,指一切以数字形式生产和发行的信息资源。所谓数字形式,是以能被计算机识别的、不同序列的“ 0” 和“ 1” 构成的形式。数字资源中的信息,包括文字、图片、声音、动态图像等,都是以数字代码方式存储在磁带、磁盘、光盘等介质上,通过计算机输出设备和网络传送出去,最终显示在用户的计算机终端上。

Page 4: 数字信息资源 及其检索概述

数字信息资源概述:特点存储介质和传播形式发生变化以多媒体作为内容特征信息资源类型多种多样多层次的信息服务功能更新速度快、时效率性强具备检索系统,使用方便快捷不受时间、地域限制,可随时随地存取

Page 5: 数字信息资源 及其检索概述

数字信息资源概述:产生与发展最早形式:数据库产生标志: 1961 年美国化学文摘社( CAS )开始发行《化学题录》( Chemical Title )机读磁带发展:六十年代初,以《化学题录》和《医学索引》(美国国家医学图书馆)的出现为标志,至 1965 年已有大约 20 个数据库可供使用1975 年,已达到近 300 个数据库七十年代莫到八十年代末,数量已达到 3600 多个进入九十年代,网络和信息处理技术的发展,使得基于互联网开发的数字资源及其检索系统有了突飞猛进的增长。

Page 6: 数字信息资源 及其检索概述

数字信息资源概述:产生与发展(续)数据库数量增长情况  1975 年 1999 年 增长倍数

数据库 301 11,681 39

数据库生产者 200 3,674 18

数据库代理商 105 2,454 23

数据记录条数 5,200 万 128.6 亿 242

Page 7: 数字信息资源 及其检索概述

数字信息资源概述:产生与发展(续)数据库类型分布

文字型数据库70%

数值数据库12%

图像数据库12%

多媒体数据库3%

其它3%

Page 8: 数字信息资源 及其检索概述

数字信息资源概述:产生与发展(续)数据库内容分布

商业30%

/ /人文 社会科学交叉学科

14%

/医学 生命科学10%

法律11%

/新闻 综合18%

/科学 技术/工程17%

Page 9: 数字信息资源 及其检索概述

数字信息资源概述:产生与发展(续)信息存取与检索数据库:网络数据库比例越来越大,人们为数据库检索支付费用的比例不断增加,数据库检索人次飞速增长…电子期刊:出版周期短,可以检索和重复下载全文,图像与文本结合,包含有多媒体及其它类型动态信息,具备超链接功能,可以向用户主动提供期刊目次报道服务… 电子图书:可以逐页阅读,并能够快速检索书中的信息 …电子报纸:网上阅读…其他网络学术资源:飞速发展…

Page 10: 数字信息资源 及其检索概述

数字信息资源概述:产生与发展(续)电子资源现状(以北大图书馆为例)——数据库:370余种 410 多个,其中外文 160 种 187 个;覆盖北大所有重点学科电子期刊:中文 9000余种 20000余份(纸质期刊 4000余种)西文 14000余种 20000余份(纸质期刊 3000余种)全世界总量大于24000 种除覆盖北大所有重点学科外,更在工程、能源、医学、农业等学科弥补传统资源的不足电子图书:中文 18万余册,覆盖所有学科,以教学参考资料为主;另中文电子古籍:近 4000部 总量近 100 万西文电子图书: 6000余册 总量约 10 万电子报纸:中文近 300 种,外文 500余种

Page 11: 数字信息资源 及其检索概述

数字信息资源概述:类型按性质和功能:

一次文献:全文数据库、电子期刊、电子图书报纸 ..二次文献:文摘 / 索引数据库、书目数据库、搜索引擎 ..三次文献:元搜索引擎按生产途径和发布范围:见数字信息资源结构图

按载体:光盘: CA 光盘版 ,SCI 光盘版…网络数据库: CA 网络版 SciFinder,WOS…按学科:

Page 12: 数字信息资源 及其检索概述
Page 13: 数字信息资源 及其检索概述

数字信息资源概述:类型(续)参考数据库全文数据库事实数据库电子图书电子期刊电子报纸搜索引擎 /分类指南网络学术资源学科导航FTP 资源其他:网站、 BBS 、新闻组等

Page 14: 数字信息资源 及其检索概述

数字信息资源概述:类型(续)参考数据库( Reference database )概念:参考数据库是指包含各种数据、信息或知识的原始来源和属性的数据库。它报道文献信息的存在,揭示文献信息的内容。参考数据库信息源:期刊、报告、会议论文、专利文献、学位论文、技术标准、图书、政府出版物、报纸、各种数字资料等。

Page 15: 数字信息资源 及其检索概述

数字信息资源概述:类型(续)参考数据类型-按数据库内容划分

书目数据库如图书馆的馆藏机读目录。文摘数据库如 INSPEC, Chemical Abstracts, Biological Abstracts 等。索引数据库如 Science Citation Index, Engineering Index 等。

Page 16: 数字信息资源 及其检索概述

数字信息资源概述:类型(续)参考数据库的结构

构成:参考数据库的基本组成单位为记录,而记录是由字段组成。记录 (record) :作为一个单位来处理的数据集合,在参考数据库中,一条记录通常指一篇特定文献。字段 (field) :构成记录的单元,用来描述记录的某一属性。如一般记录中包含下列字段:题目、作者、出处、关键词、主题词、文摘、题目、出版社、专利号、报告号、访问号等。

Page 17: 数字信息资源 及其检索概述

数字信息资源概述:类型(续)参考数据库的特点综合性:数据量大,文献类型齐全,索引系统完备,语种多,出版连续性强。出版物类型:出版历史悠久,大多数数据库具有对应的印刷出版物。数据库结构:结构简单,数据规范性好,记录格式固定。使用:参考数据库的使用一般是开放性的,可以购买、租用,也可联机检索。标引:多数数据库具有规范的主题标引词。文件格式 :多采用文本文件格式。

Page 18: 数字信息资源 及其检索概述

数字信息资源概述:类型(续)参考数据库的用途主要用途是搜集文献线索,快速和全面的获取某个主题、学科、领域的文献信息。用于制定个性化的用户服务,如最新目次报道、定题服务、回溯服务等。用于各类统计和评估,如统计期刊、个人或机构的发文量、文章被转载或被引用情况,评估期刊影响力等。

Page 19: 数字信息资源 及其检索概述

数字信息资源概述:类型(续)全文数据库英文为 full-text database ,即收录有原始文献全文的数据库,以期刊论文、会议论文、政府出版物、研究报告、法律条文和案例、商业信息等为主。如美国的LEXIS-NEXIS 数据库、学术期刊图书馆( ProQuest Academic Research Library )及《中国人民大学书报资料中心复印报刊资料全文数据库》等。

Page 20: 数字信息资源 及其检索概述

数字信息资源概述:类型(续)事实数据库英文为 factual database ,指包含大量数据、事实,直接提供原始资料的数据库,又分为数值数据库( numeric database)、指南数据库( directory database)、术语数据库( terminological database )等,相当于印刷型文献中的字典、辞典、手册、年鉴、百科全书、组织机构指南、人名录、公式与数表、图册(集)等。数值数据库,指专门以数值方式表示数据,如统计数据库、化学反应数据库等;指南数据库,如公司名录、产品目录等;术语数据库,即专门存储名词术语信息、词语信息等的数据库,如电子版百科全书、网络词典等。

Page 21: 数字信息资源 及其检索概述

数字信息资源概述:类型(续)电子期刊英文为 electronic journals或简称 e-journal ,包括:与纸本期刊并行的电子期刊,如著名的《科学》( Science)、《自然》( Nature)、 Elsevier/Wiley/Springer/Kluwer 等出版商的电子期刊、中国电子期刊杂志社的期刊等;纯电子期刊,如《数字图书馆杂志》( D-Lib Magazine )

Page 22: 数字信息资源 及其检索概述

数字信息资源概述:类型(续)电子图书英文为 electronic books ,最初的电子图书主要以百科全书、字典词典等工具书为主,但近年来发展迅速,已涉及到了很多学科领域,文学作品、学术专著所占比例越来越大,电子图书正在逐步发展成为比较主要的数字信息资源 如国外的 NetLibrary、 Ebrary;国内的超星数字图书馆、书生之家电子图书、方正 Apabi 数字图书馆等

Page 23: 数字信息资源 及其检索概述

数字信息资源概述:类型(续)电子报纸英文为 electronic newspaper ,目前网上已有数千种报纸供用户使用。同电子期刊一样,电子报纸同样也有印刷型报纸的电子版和纯电子报纸两种类型电子报纸全文检索系统如人民日报等;全文数据库中的电子报纸如 ABI、 lexis 、中国资讯行全文数据库等;还有网上免费的电子报纸(印刷型报纸的电子版);纯电子报纸如《圣何塞信使报》

Page 24: 数字信息资源 及其检索概述

数字信息资源概述:类型(续)搜索引擎 /分类指南英文为 search engine ,是目前利用互联网开放信息的常用工具,也可以称得上是互联网开放信息的索引目录。搜索引擎主要是使用一种计算机自动搜索软件,在互联网上检索,将检索到的网页编入数据库中,并进行一定程度的自动标引,用户使用时输入检索词,搜索引擎将其与数据库中的信息匹配,然后产生检索结果。例如常用的 Yahoo、 Hotbot、 Alta

Vista、 Excite、Google 、天网、悠游等。分类指南是将搜索到的网页按主题内容组织成等级结构(主题树),用户按照这个目录逐层深入,直到找到所需文献。通常搜索引擎与分类指南是结合在一起的,例如 Yahoo 、新浪、悠游等

Page 25: 数字信息资源 及其检索概述

数字信息资源概述:类型(续)网络学术资源学科分类导航将互联网上的开放信息加以甄别、筛选和科学整理,按学科组织起来,构成完整的学科导航系统,为教学、科研、技术人员提供各类学术信息。与搜索引擎 /分类指南不同的是,网络学术资源的学科导航库通常是由图书馆单独或联合建设的。例如 CSDL 的学科信息门户http://www.csdl.org.cn

Page 26: 数字信息资源 及其检索概述

数字信息资源概述:类型(续)FTP 资源

FTP 含义是 File Transfer Protocol ,意为文件传送协议,是互联网上最早应用的协议之一,它可以使用户远程登录到远端计算机上,把其中的文件传回到自己的计算机上,或把自己计算机上的文件上传到远端计算机系统上。所谓FTP 资源,是指互联网上的开放 FTP站点,这些站点允许用户登录上去,从中下载各类数据、资料、软件等。可以利用 FTP搜索引擎查找 FTP 资源,例如北大天网文件引擎 http://e.pku.edu.cn

Page 27: 数字信息资源 及其检索概述

第二部分数字信息资源的检索

Page 28: 数字信息资源 及其检索概述

数字信息资源检索:检索系统检索系统检索系统构成检索系统评价联机数据库检索光盘数据库检索网络数据库检索检索语言相关的网络基础知识

Page 29: 数字信息资源 及其检索概述

数字信息资源检索:检索系统(续)检索系统构成——物理构成硬件( hardware):也可以说是硬件环境,是和计算机检索有关的各种硬件设备的总称,如大型计算机主机(服务器)、存储器(硬盘或光盘)、网络(广域网、局域网、存储区域网)、输入输出设备(键盘、打印机、鼠标等)、计算机终端或个人计算机( PC )等。软件( software):与计算机检索相关的数据库系统软件及相关应用软件。包括:信息采集、存储、信息标引加工、建库、词表管理、用户检索界面、提问处理、网络发布、数据库管理等模块。随着网络和计算机技术的发展,软件的开发平台、程序语言的持续升级,用户功能需求的增加,这一部分的具体结构也在不断发生变化。

Page 30: 数字信息资源 及其检索概述

数字信息资源检索:检索系统(续)检索系统构成——物理构成(续)

数据库( database):数据库是指按一定方式、以数字形式存储、可通过计算机存取、相互关联的数据集合。数据库的特点是:重复数据少;可以共享数据资源,以最优的方式为一个或多个应用服务;数据具有独立性,其存放独立于应用程序之外。由于数据库中的信息都经过了详细、精心的选择和加工,主题化,有序,能够提供多种检索途径,因此相对互联网上无组织和大量无用的信息来说,检索结果准确,时间少,价值高。从发展的角度看,以网络为中心的分布式数据库系统是今后的发展趋势。

Page 31: 数字信息资源 及其检索概述

数字信息资源检索:检索系统(续)检索系统构成——功能划分信息采集模块( collection):本模块的任务是连续、快速地采集各类信息,为数据库提供充足的数据来源。信息存储模块( repositories):存储介质包括磁带、磁盘、光盘。从根本上讲,存储方式决定了应用方式,存储方案决定了整个系统的的扩展性和灵活性。标引著录模块( description):即对信息的内容和特征进行分析,然后给予一定数量的标识,作为信息组织、存储与检索的基础。例如信息的名称、创作者、主题、分类、出版 / 生产时间、出版 / 生产者、关键词等,都可以作为信息的描述性标识。

Page 32: 数字信息资源 及其检索概述

数字信息资源检索:检索系统(续)检索系统构成——功能划分(续)

规范模块( authorities):指对信息特征和用户提问的语言形式做出规定,如主题词表、人名规范、地名规范、时代名称规范等,目的在于,一是使用户的检索更具准确性;二是逐步形成一个知识网络,通过相关信息的提供,使用户的检索更为完整。内容发布模块( publish):将数据库内容传递到网络上,让用户以常规手段(如通过浏览器)查询浏览。

Page 33: 数字信息资源 及其检索概述

数字信息资源检索:检索系统(续)检索系统构成——功能划分(续)检索模块 (access) :也就是狭义理解的检索系统,即将用户的需求进行分析,并和数据库中的信息匹配运算,再反馈给用户所需的检索结果。检索界面:即人 - 机接口;检索功能:如简单检索、复杂检索、浏览、图象检索等;检索途径:如题名、作者、主题、文摘等检索入口;检索技术:如布尔逻辑、组配检索、截词符、词根检索、位置算符等;检索结果:打印、存盘、结果格式、二次检索;提问处理:也可称匹配运算,即处理和运算用户的检索式。

Page 34: 数字信息资源 及其检索概述

数字信息资源检索:检索系统(续)检索系统构成——功能划分(续)服务模块 (services) :这是在传统检索系统基础上发展起来的新功能 ,如最新目次报道服务、文献传递服务,虚拟咨询服务等。管理模块 (administration) :主要指管理客户端,即对用户和用户行为进行管理和调查分析。主要包括三个部分,一是对用户的管理;二是运用数学和统计学方法,对用户行为的各种相关信息进行累积、加工、分析,生成各种状态报告,提供给数据库生产者、系统开发者和用户,以便对数据库及其系统进行修改、完善,使其不断得到提高;三是监控系统使用情况,如观察用户有无违反版权规定、恶意下载( abuse )现象,并对违法用户进行相应处罚。

Page 35: 数字信息资源 及其检索概述

数字信息资源检索:检索系统(续)检索系统评价-主要评价指标检索功能:指系统提供给用户的各种检索途径和检索入口。检索技术:即系统是否允许用户使用各种检索技巧,以便更准确和快速地找到自己所需信息。检索结果:即用户是否得到了内容全面、下载和使用均比较方便的检索结果,例如显示格式包含的内容是否全面;检索结果数量较多时是否允许在翻页的同时标记记录;是否提供存盘、打印、 email 发送等多种下载功能;检索结果是否与其它资源之间存在链接,为用户提供查找到其它资源的捷径等。用户服务:主要是指在检索功能之外,系统还为用户提供了哪些服务。

Page 36: 数字信息资源 及其检索概述
Page 37: 数字信息资源 及其检索概述

数字信息资源检索:联机检索联机检索( online retrieval )是指用户利用计算机终端设备,通过通信线路或网络,在联机检索中心的数据库中进行检索并获得信息的过程。

检索终端

M

通讯卫星

多路复用器

M 中央计算机 外设

通讯网络 联机检索中心

Page 38: 数字信息资源 及其检索概述

数字信息资源检索:光盘检索联机光盘检索是指把单用户系统发展成多用户的局域网系统,通过网络(如校园网)连接多个用户终端,用服务器管理多组光盘数据库及其检索系统 客户端

客户端

客户端

光盘服务器

系统软件 光盘驱动器

数据库

局域网

局域网

Page 39: 数字信息资源 及其检索概述

数字信息资源检索:网络数据库检索网络数据库( web-database )检索是指用户在自己的客户端上,通过互联网和浏览器界面对数据库进行检索,是基于互联网的分布式特点开发和应用的

2客户端

1客户端 3客户端

WWW 1服务器数据库,系统

WWW 2服务器数据库,系统

WWW 3服务器数据库,系统

Page 40: 数字信息资源 及其检索概述

数字信息资源检索:检索语言检索语言的概念与作用

检索语言( information retrieval language),是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言。所谓检索的运算匹配就是通过检索语言的匹配来实现的。检索语言是人与检索系统对话的基础。

输出

标引 主题 分析

标引 主题 分析 信息

存储 信息 内容

主题 概念

情报检索语言

信息 检索

信息 需求

主题 概念

标识

标识

检索系统 检索 结果

Page 41: 数字信息资源 及其检索概述

检索语言作用示例——已知 3篇文献的篇名,在对信息存储的过程中,对这三篇文献内容分别进行了分析,并使用检索语言对其进行标引,标引结果为:文 献 1 : 篇 名 ( title ) : A model of multimedia information retrieval 主题 ( subject ): information retrieval , multimedia computer applications文献 2 :篇名( title ): The Information retrieval in chemistry WWW server 主题( subject): chemistry, educational materials文献 3 :篇名( title): ERIC resources 主题( subject): Educational materials标引后这三篇文献分别被存储进数据库。信息检索过程:检索语言及标识匹配。检索语言作用:对文献的外部特征和内容进行多层次描述,提供多种检索途径,以方便用户从不同角度检索。

Page 42: 数字信息资源 及其检索概述

数字信息资源检索:检索语言(续)检索语言类型——人工语言

人工语言:人工语言( artificial language )是根据信息检索的需要而由人工创制的,采用规范词( controlled term),用来专指或网罗相应的概念,可以将同义词、近义词、相关词、多义词及缩略词规范在一起,由人工控制,包括

分类检索语言(分类号)主题检索语言:标题词、单元词、叙词代码检索语言

Page 43: 数字信息资源 及其检索概述

数字信息资源检索:检索语言(续)检索语言类型——人工语言(续)

分类检索语言:按照学科范畴及知识之间的关系列出类目,并用数字、字母符号对类目进行标识的一种语言体系,也称分类法。使用这种检索语言建立的信息检索系统可以反映知识的从属、派生、重合、交叉、并列等关系,用户因此可以鸟瞰全貌、触类旁通,系统地掌握和利用一个学科或专业范围的知识和信息。目前常用的分类法有《中国图书馆图书分类法》(简称《中图法》)、《美国国会图书馆分类法》、《杜威分类法》、《国际专利分类表》等。

Page 44: 数字信息资源 及其检索概述

数字信息资源检索:检索语言(续)检索语言类型——人工语言(续)主题检索语言:由主题词汇构成,即将自然语言中的名词术语经过规范化后直接作为信息标识,按字母顺序排列标识,通过参照系统揭示主题概念之间的关系,也称主题法。主题语言表达的概念比较准确,具有较好的灵活性和专指性,不同的检索系统、不同的专业领域可以有各自的主题词表。标题词语言( subject heading):是一种先组式的规范词语言,即在检索前已经将概念之间的关系组配好。具有较好的通用性、直接性和专指性,灵活性较差。常用的标题词表有《美国国会标题词表》( Library of Congress Subject)、《医学主题词表》( Medical Subject Headings)。

Page 45: 数字信息资源 及其检索概述

数字信息资源检索:检索语言(续)检索语言类型——人工语言(续)主题检索语言(续):单元词(元词法, uniterm):是一种最基本的、不能再分的单位词语,亦称元词,从文献内容中抽出,再经规范,能表达一个独立的概念。例如“信息检索”是一个词组,“信息”和“检索”才是单元词。叙词(叙词法, descriptor):是计算机检索中使用较多的一种语言,可以用复合词来表达主题概念,在检索时可由多个叙词形成任意合乎逻辑的组配,形成多种组合方式。由叙词组成的词表叫叙词表( thesaurus)。

Page 46: 数字信息资源 及其检索概述

数字信息资源检索:检索语言(续)检索语言类型——人工语言(续)

代码检索语言就事物的某一方面特征,用某种代码系统来加以标引和排列,目前主要应用于化学领域。例如,化合物的分子式索引系统,环状化合物的环系索引系统等。此外,如 DII专利代码索引, BP的concept code list…

Page 47: 数字信息资源 及其检索概述

数字信息资源检索:检索语言(续)检索语言类型——自然语言自然语言( natural language )检索用词是从信息内容本身抽取的,主要依赖于计算机自动抽词技术完成,辅以人工自由标引(非依据词表的标引方法),是非规范词( uncontrolled term)。自然语言标识包括——关键词( keyword):直接从信息资源名称、正文或文摘中抽出的代表信息主要内容的重要语词。题名:信息资源的名称,如论文篇名、图书书名、网站名称等。全文:从资源的全部内容中自动抽取、查找,是目前网上各类搜索引擎使用的最多的方法。引文:将文献所引用的参考文献的作者、篇名、来源出版物抽取出来进行标引。此外还有责任者(作者)、摘要等。

Page 48: 数字信息资源 及其检索概述

数字信息资源检索:检索语言(续)检索语言类型——人工语言和自然语言的关系

成熟的检索系统中,两种语言并用主题词和关键词人工语言和自然语言正在不断融合,形成一种新的知识体系—— NKOS( Networked knowledge organization systems / schemes / services)。它融合了叙词表、标题词表、语义网络、分类体系的功能,得到了普遍关注,并开始在各类数据库、搜索引擎以及知识管理方面应用,例如 Yahoo、 Google 的主题分类指南,以及许多企业门户网站的分类索引服务即是 NKOS 体系应用的雏形。

Page 49: 数字信息资源 及其检索概述

数字信息资源检索:相关基础知识关于网络互联网: Internet (现在译为因特网),是世界上最大的计算机互联通信网络,最早起源于美国国防部的计算机网络

ARPAnet 。它本身不是一种具体的物理网络,而是一种虚拟的计算机网络。互联网络实际上是把全世界各个地方已有的各种网络,如计算机网络、数据通信网以及公用电话交换网等通过 TCP/IP协议相互联结,组成一个跨越国界的庞大的综合网络 广域网( Wide Area Network – WAN):分布距离大于50公里,可以覆盖多个单位或多个国家,如我国的Chinanet、 CERnet 等。局域网( Local Area Network – LAN):分布距离在 10公里范围内,通常为某个单位专用,如北京大学校园网等。具有结构简单、投资少、数据传输速度快、可靠性好、保密性强等特点。

Page 50: 数字信息资源 及其检索概述

数字信息资源检索:相关基础知识关于网络技术与结构服务器 server网卡 SCSI路由器 router :路由器是一种连接多个网络或网段的网络设备,它能将不同网络或网段之间的数据信息进行“翻译”,以使它们能够相互“读”懂对方的数据,从而构成一个更大的网络网关 gateway :网关实质上是一个网络通向其他网络的 IP 地址。

Page 51: 数字信息资源 及其检索概述

数字信息资源检索:相关基础知识关于网络传输

TCP/IP协议客户端 /服务器 client/server域名( domain name )与主机( host)IP 地址与 IP范围ISP: Internet Service ProviderICP: Internet Content Provider调制解调器( modem)

Page 52: 数字信息资源 及其检索概述

数字信息资源检索:相关基础知识关于网络资源的应用与检索万维网 WWW浏览器: Netscape或 Internet Explorer

FTP: File Transfer Protocol超文本文件 HTML file超文本传输协议 http统一资源定位器 URL主页 homepage电子邮件 email新闻组 newsgroup( usenet)搜索引擎 search engine

Page 53: 数字信息资源 及其检索概述

第三部分数字信息资源的检索方法和检索技术

Page 54: 数字信息资源 及其检索概述

数字信息资源检索方法 / 技术检索方法(详见第四讲)课题分析选择信息源构造检索策略调整检索策略检索结果评价

Page 55: 数字信息资源 及其检索概述

数字信息资源检索方法 / 技术(续)检索功能浏览:由系统提供一个树状结构的概念等级知识体系,用户可以沿着这颗“树”进入不同的分支,到达叶子节点,并在节点看到检索结果列表。索引:提供一个线性的表单,可以将任何一个标引字段中的概念按字母顺序线性排列起来,不分等级。例如:人名索引、出版物索引、地名索引、主题索引、机构索引等。

Page 56: 数字信息资源 及其检索概述

数字信息资源检索方法 / 技术(续)中文科技期刊库的浏览中文科技期刊全文数据库提供了《中刊库》学科导航和刊名导航,以便用户进行不同角度的浏览需求。分类导航按照《中国图书资料分类法》的标准,逐层进行分类限制。如用户选中选中某类目,则检索结果包括此类目下的全部数据库。例如“图书情报”是一级类目,“图书馆学、图书馆事业”是二级类目,而“读者工作”为三级类目。左图标识是书本,表示该类目还有下位类,而 标识是页面,表示该类目是终端类目。

Page 57: 数字信息资源 及其检索概述

数字信息资源检索方法 / 技术(续)

ProQuest 系统提供了四种索引:主题( subjects)、公司( companies)、人名( people)和地名( locations),分别取自于主题词、公司名称、个人名称和地理名称四个标引字段。选择任一索引后,输入任意想要查找的词汇甚至若干字母,系统会按右截断的方式显示在这之后的所有词汇,供用户查看。也可以直接点击检索界面上方的 26个字母,按字母顺序翻看。索引工具最适于用户查找拼法相近的一组词汇,记不住拼写时也可以使用这种方法。

实例: ProQuest 系统的索引体系

Page 58: 数字信息资源 及其检索概述

数字信息资源检索方法 / 技术(续)检索功能(续):简单检索:为用户提供一个简单的检索界面,页面上通常只有一个检索框。复杂检索/高级检索:为专业用户、资深用户提供的比较复杂的检索界面,可以构建比较细致的检索式,帮助用户进行精确检索。专家检索:构建专业的检索策略进行检索二次检索:在检索结果内进一步检索,使检索结果更精练、准确。

Page 59: 数字信息资源 及其检索概述

实例: Kluwer 简单检索和复杂检索界面简单检索提供一个检索条件输入框和选择检索字段的下拉框。检索字段包括全面、篇名、作者、文摘和刊名 5个检索入口。同时,可以通过限制出版日期、限制文献种类,可以把检索结果限制在一定范围内,从而达到快速查准的目的。

复杂检索提供多个检索条件输入框,可以输入一个检索条件进行简单检索或输入多个检索条件实现多个检索字段的组合检索。检索字段比简单检索增加了ISSN、关键词和作者单位。与简单检索最大不同的是,复杂检索可以提供提供的逻辑算符( AND.OR.NOT)进行组配检索。

数字信息资源检索方法 / 技术(续)

Page 60: 数字信息资源 及其检索概述

数字信息资源检索方法 / 技术(续)检索功能(续)自然语言检索:检索系统在检索界面上提供的自然语言检索,指的是用户可以直接输入一句话,就象对人谈话一样。例如:

hurricanes in the Atlantic and Pacific ( 大西洋和太平洋的飓风 )How does El Nino affect weather?(厄尔尼诺现象是怎么影响气候的?)到目前为止,限于计算机智能检索技术的发展,尚没有检索系统能够提供很好的自然语言检索功能,因此这方面的功能尚不具备查全查准的实用效果。

Page 61: 数字信息资源 及其检索概述

数字信息资源检索方法 / 技术(续)检索技术

布尔逻辑检索位置算符检索截词检索与词根检索字段检索全文检索其他检索技术:嵌套、限制、大小写敏感、禁用词

Page 62: 数字信息资源 及其检索概述

数字信息资源检索方法 / 技术(续)

逻辑“与”( and):检索时,命中信息同时含有两个概念,专指性强; 逻辑“或”( or):检索时,命中信息包含所有关于逻辑 A 或逻辑B 或同时有 A和 B 的,检索范围比 and 扩大。 逻辑“非”( not):命中信息只包括逻辑 A ,不包括逻辑 B 或同时有 A和 B 的,排除了不需要的检索词。 逻辑“异或”( xor):命中信息包含逻辑 A ,也包含逻辑 B ,但不包含同时含有 A和 B 的信息。

检索技术-布尔逻辑检索:运用布尔逻辑算符( Boolean operators )对检索词进行逻辑组配,表达两个概念之间的逻辑关系。

Page 63: 数字信息资源 及其检索概述

数字信息资源检索方法 / 技术(续)检索技术-布尔逻辑检索(续)

在不同的检索系统里,布尔逻辑的运算次序是不同的,因此会导致检索结果的不同。通常运算次序有这样几种形式:一是按算符出现的顺序,如果是 and、 or、 not ,就按and、 or、 not 的顺序运算;如果是 or、 not、 and ,就按 or、 not、 and 的顺序运算;二是默认 and优先运算,其次是 or、 not;三是默认 or优先运算,然后是 and、 not 。一般来讲,检索系统的“帮助”文件中都会有这类说明,只要注意查看即可。

在中文数据库里,布尔逻辑运算符有时用 and、 or、 not 下拉菜单形式表示,供用户选择;有时用“ *”号表示逻辑“与”,用“ +”表示逻辑“或”,用“ -”表示逻辑“非”。

Page 64: 数字信息资源 及其检索概述

数字信息资源检索方法 / 技术(续)检索技术-位置算符 (position) 检索:即运用位置算符( position operators )表示两个检索词间的位置邻近关系,又叫邻接检索( proximity)。这种检索技术通常只出现在西文数据库中,在全文检索中应用较多。如果说布尔逻辑算符是表示两个概念之间的逻辑关系的话,位置算符表示的是两个概念在信息中的实际物理位置关系 。

Page 65: 数字信息资源 及其检索概述

数字信息资源检索方法 / 技术(续)检索技术-位置算符检索(续)

With(field): same field or same sequenceNear: same sentencePre (precede): library pre science library science, library with science, ...w/n (Within): library w/n science library science, science library, …Field: same fieldSame: same paragraph

Page 66: 数字信息资源 及其检索概述

数字信息资源检索方法 / 技术(续)检索技术-位置算符检索(续)常用的位置算符

算符 功能 表达式 检索结果 W, W/N withwithin

两词相邻,按输入时顺序排列(也有数据库允许顺序颠倒)

Education (W)school, 或Education with school

Education schoolEducation schools( school of educationschools of education )

nW 同上,两词中间允许插入 n个词Education (1W) school

Education schoolEducation schoolsEducation and music schoolSchool of continued education

Pre 两词相邻,按输入顺序排列 Education Pre school

Education schoolEducation schools

Page 67: 数字信息资源 及其检索概述

数字信息资源检索方法 / 技术(续)算符 功能 表达式 检索结果 N, near, adj

两词相邻,顺序可以颠倒 Education (N) school, 或Education near school

Education schoolEducation schoolsSchool of education

nN 同上,两词中间可以插入 n 个词

Education (1N) school

Education schoolSchool of educationEducation and music school

F 两个词同在一个标引字段中Education (F) school

例如同时出现在题名或文摘字段中

Same 两个词同在一个段落( paragraph )中

Education Same school

同时出现在一个段落中

检索技术-位置算符检索(续)常用的位置算符(续)

Page 68: 数字信息资源 及其检索概述

数字信息资源检索方法 / 技术(续)检索技术-位置算符检索(续)

不是每一个检索系统都使用上述位置算符,不同的系统使用的位置算符不同,不同的算符在不同的系统中有时可能含义不同。例如“ W”算符,在 Dialog 检索系统表示两词相邻,输入顺序不变;在 ProQuest 系统中,“ W”算符表示输入的两个词相邻,但顺序可变,如顺序要求不变,则使用“ Pre”算符。用户可以查阅 help帮助文档说明。

Page 69: 数字信息资源 及其检索概述

数字信息资源检索方法 / 技术(续)检索技术-截词检索截词检索:用截词符号“?”、“ *”或“ $” 加在检索词的前后或中间,以检索一组概念相关或同一词根的词。这种检索方式可以扩大检索范围,提高查全率,主要用于西文数据库检索。中文数据库通常不使用这种技术。 截词检索类型截词方式根据截词的位置不同,分为前截断、后截断、中截断;根据截断的数量不同,分为有限截断和无限截断。

Page 70: 数字信息资源 及其检索概述

数字信息资源检索方法 / 技术(续)检索技术-截词检索(续)后截断:是前方一致检索,又称右截断,截词符放在被截词的右边,是最常用的截词检索技术。后截断主要用于下列检索:词的单复数检索,如 company与 companies;年代检索,如 199?(九十年代);词根检索,如 socio* ,可以检索 sociobiology, socioecology, sociology 等 20多个词汇。 前截断:截词符放在被截词的左边,可与后截断一同使用。例如输入 *magnetic ,可检 electro-

magnetic、 electromagnetic、 thermo-magnetic 等。目前这种检索技术应用已经极少。 中截断:把截词符放在词的中间。如 organi?ation ,可检索 organisation、 organization 。这种方式查找英美不同拼法的概念最有效。

Page 71: 数字信息资源 及其检索概述

数字信息资源检索方法 / 技术(续)检索技术-截词检索(续)举例——符号: *,?, $后截断: librar* library, libraries, librarian,…前截断: *magnetic magnetic, electro-magnetic, electromagnetic, thermo-magnetic, …中截断: organi?ation organization, organisation

Page 72: 数字信息资源 及其检索概述

数字信息资源检索方法 / 技术(续)检索技术-截词检索(续)截词类型:根据截断的数量不同,分为有限截断和无限截断。无限截断:不限制被截断的字符数量,例如输入 educat? ,可以检索educator, educators, educated, educating, education, educational ,等等。 有限截断:限制被截断的字符数量,例如输入 educat** ,表示被截断的字符只有两个,可以检索 educator, educated两个词。

Page 73: 数字信息资源 及其检索概述

数字信息资源检索方法 / 技术(续)检索技术-词根检索有些检索系统不支持使用截词符的截词检索技术,系统默认的是词根检索,即输入一个词,系统会自动检索出同一词根的一组词,例如输入 gene ,可以检索出 gene, genic, genome 等。这是一种智能检索方式,但要求系统内必须预先配置词根表。

IEE/IEEE 全文数据库默认词根检索有些数据库需要加入词根运算符如“ $”才进行词根检索