第四章 计算机信息检索

49
第第第 第第第第第第第 第第第第第第第第 第第第第第第第第第 第第第第第第第第第第

description

第四章 计算机信息检索. 计算机信息检索系统 数据库的类型及结构 计算机信息检索的原理. 第一节、计算机信息检索系统. 计算机信息 检索系统的构成 计算机信息检索系统的类型. (一)计算机信息 检索系统 的构成. 1 、概念 计算机信息检索 (简称机检),指检索人员在电子计算机或计算机网络的终端上,对用户的检索提问使用 特定的检索指令和组配关系 ,由计算机从数据库中检索出所需的文献、事实、数据或其他记录,用电子化的手段传输,显示或打印检索结果,提供给用户使用的过程 . - PowerPoint PPT Presentation

Transcript of 第四章 计算机信息检索

Page 1: 第四章  计算机信息检索

第四章 计算机信息检索

计算机信息检索系统 数据库的类型及结构 计算机信息检索的原理

Page 2: 第四章  计算机信息检索

第一节、计算机信息检索系统第一节、计算机信息检索系统

计算机信息检索系统的构成计算机信息检索系统的类型

Page 3: 第四章  计算机信息检索

(一)计算机信息检索系统的构成

1 、概念计算机信息检索(简称机检),指检索人员在

电子计算机或计算机网络的终端上,对用户的检索提问使用特定的检索指令和组配关系,由计算机从数据库中检索出所需的文献、事实、数据或其他记录,用电子化的手段传输,显示或打印检索结果,提供给用户使用的过程 .

计算机信息检索系统——利用计算机的有效存贮和快速查找能力来进行信息的分析、组织、存贮和查找的系统。

Page 4: 第四章  计算机信息检索

2 、构成按物理构成分:硬件、软件、数据库( 1 )硬件系统:

主机:计算机的核心部件。 外围设备: 外部存贮器:磁带、磁盘、光盘等 输入

输出设备:数据录入设备、键盘、鼠标器、光学字符识别装置、光笔、缩微扫描器、扫描仪、显示终端等。

其他:运算器、控制器。

Page 5: 第四章  计算机信息检索

( 2 )软件系统软件是用来管理、控制与规定计算机运行步骤

的各种程序的总称。包括系统软件和应用软件。系统软件: 主要用于简化设计及使用方法,管理

计算机资源,提高其使用效率,发挥和扩大其功能及用途。包括各种系统服务程序、语言处理程序、操作及数据库管理系统。如 WINDOWS 。

应用软件(检索软件),是用户利用计算机来解决某一问题而编制的程序,包括数据库管理系统、自动标引、输入输出控制软件及检索匹配程序等 .如文件管理程序、检索程序、记帐统计程序等。

Page 6: 第四章  计算机信息检索

( 3 )数据库其含义有多种表达:国际标准组织标准 ISO/DIS5127 规定,数据库是指

至少由一种文档 (file) 组成,能满足特定目的或特定功能数据处理系统需要的数据集合 .

数据库是“按照数据结构来组织、存储和管理数据的仓库”。

数据库( DataBase , DB )是一个长期存储在计算机内的、有组织的、有共享的、统一管理的数据集合。它是一个按数据结构来存储和管理数据的计算机软件系统 。

数据库是依照某种数据模型组织起来并存放二级存储器中的数据集合

Page 7: 第四章  计算机信息检索

(二)计算机检索系统的功能

1. 信息处理、存贮与检索的功能: 包括对信息的自动搜集、排序、生成关联数据库,并按一定方式进行检索。

2. 输出功能:将检出文献按一定的格式(目录、题录、文摘或全文等)输出。

3. 自我完善与更新的功能:即可维护功能4. 网上检索功能:

Page 8: 第四章  计算机信息检索

三、计算机信息检索系统的类型

计 算 机 信 息 检计 算 机 信 息 检索系统的类型索系统的类型

检索系统存储的内容

文献信息检索系统事实信息检索系统数值信息检索系统图像信息检索系统多媒体信息检索系统

检索访问模式

脱机信息检索系统( 20世纪 50~ 60年代)联机信息检索系统( 20世纪 70年代~光盘信息检索系统( 20世纪 80年代~网络信息检索系统( 20世纪 90年代~

Page 9: 第四章  计算机信息检索

如:按检索系统的访问模式分

Page 10: 第四章  计算机信息检索

  1.脱机检索

是采用单机进行存储和处理信息,回答检索提问时,采用批处理方式。这种机检方式,人机不能进行应答,必须由专职人员建立用户提问档,系统定期进行检索。时间: 20 世纪 50年代- 60年代 检索人员→检索策略→成批检索→用户 不足:地理上的障碍;时间上的迟滞;封闭式的检

Page 11: 第四章  计算机信息检索

2. 联机检索 (Online search)

联机检索是指利用检索终端,通过通信网络和检索系统联机,从检索系统的数据库中进行检索

时间: 20 世纪 70年代- 用户→ 检索策略→“人机对话” → 获取所需信

息 著名的国际联机检索系统有美国的 DIALOG 系

统、 ORBIT 系统、 BRS 系统以及 IBM公司的“文献处理系统”等 .

Page 12: 第四章  计算机信息检索

3. 光盘检索 (CD-ROM search)

时间: 20 世纪 80年代以后光盘检索阶段:单机光盘检索 →联机光盘检索 ( 光盘库 ,2-6

个光驱,多达 500 张光盘→光盘塔 ,8-64个光驱)

Page 13: 第四章  计算机信息检索

44.网络信息检索.网络信息检索网络信息检索一般指网络信息检索一般指因特网检索因特网检索,通过网络接口,通过网络接口软件,用户可以在任一终端查询各地上网的信息资,用户可以在任一终端查询各地上网的信息资源源。时间:时间: 2020 世纪世纪 9090 年代以来 年代以来

广域网广域网 ((WAN) ::连接地理范围较大,常常是一个国家或是一个洲。。通信系统是广域网的关键。。局域网局域网 ((LAN) :一般是由一个部门或一个单位组建,:一般是由一个部门或一个单位组建,范围限于一幢楼或一个单位内。如:校园网。范围限于一幢楼或一个单位内。如:校园网。城域网城域网 ((MAN) :介于两者之间。:介于两者之间。网间网网间网( Internetwork ) : 是一系列局域网和广域网的组合, Internet便是一个当前最大也最为典型的网间网。

Page 14: 第四章  计算机信息检索

第二节、 数据库的类型及结构

数据库的类型 数据库的结构

Page 15: 第四章  计算机信息检索

(一)数据库的类型按存储文献类型分为 :1. 全文数据库: 存贮一次文献全文或其中主

要部分等。2.书目数据库: 存贮文摘、索引、目录、题

录等二次文献,提供文献线索,一般都有相应的印刷型检索工具。

Page 16: 第四章  计算机信息检索

书目型

全文型

Page 17: 第四章  计算机信息检索

(一)数据库的类型(续)3. 事实数据库 指包含大量数据、事实的数据

库,如指南数据库、术语数据库等,相当于印刷型文献中的字典、辞典、百科全书、组织机构指南、人名录、图册(集)等。

4. 数值数据库 提供数值信息,如统计数据库5. 图像数据库 提供图像信息。6. 多媒体数据库 提供文字、图像和声音等多

种信息。

Page 18: 第四章  计算机信息检索

数值型

Page 19: 第四章  计算机信息检索

(二)数据库的结构 数据库 database

文档 file, archive

  顺排文档 记录 Record

字段 Field

  倒排文档(索引 index )

Page 20: 第四章  计算机信息检索

1 、记录 (record)

记录:构成数据库的基本单元,也是文档的构成单位,是对某一实体的属性进行描述的结果。在书目数据库中,被描述的实体是某一特定文献,其属性就是该文献的外表特征和内容特征。即一条文献信息(款目)。

Page 21: 第四章  计算机信息检索

如:一条文摘信息(记录)

Page 22: 第四章  计算机信息检索

2 、字段( field)

是组成记录的下级单位 ( 条目中的一个信息项 ) ,用来描述实体的某一具体属性。如表述文献内容特征的有文摘、叙词、自由词字段,表述文献外表特征的有著者、篇名、出版年、专利号等等字段,

子字段子字段 (subfield) ,是字段的构成单位。

Page 23: 第四章  计算机信息检索

33 、文档、文档 ((file)file)

文档文档::是由是由若干数量的记录若干数量的记录所构成所构成的一类数据的集合。的一类数据的集合。

一般地说,一个数据库至少包括一个顺一般地说,一个数据库至少包括一个顺排文档和一个倒排文档。排文档和一个倒排文档。

文档文档::是由是由若干数量的记录若干数量的记录所构成所构成的一类数据的集合。的一类数据的集合。

一般地说,一个数据库至少包括一个顺一般地说,一个数据库至少包括一个顺排文档和一个倒排文档。排文档和一个倒排文档。

Page 24: 第四章  计算机信息检索

顺排文档是将记录中的信

息按某一字段(一般为存取号)的顺序存放起来形成的文档,通常按记录存入的先后顺序线性排列,所以也称为线性文档,或主文档 .

122 Student Teaching in the Context of a School-University

123 Cooperative Learning in Response to an

124 In Search of Responsive Teaching for

125 Teaching Topography: Introducing Students to Contour Map Construction. Fife, Barbara S. Science Teacher, v62 n5 p38-43 May 1995 ISSN: 0036-8555 Available From: UMI

Page 25: 第四章  计算机信息检索

倒排文档 数据库的“索引”即是

它的倒排文档,它是将记录中一切可检索的标识抽出,按某种顺序(如字顺,分类)重新排列而形成的文档。如主题、著者、文种等倒排文档。

倒排文档著者倒排档 主题倒排档 文种倒排档

著者 存取号 主题词 存取号 文种 存取号

Han js 010003

基因 010003

China

010002

Han qd 010001

心血管 010001

Eng 010003

Ma dl 010002

肿瘤 010002

Eng 010001

Page 26: 第四章  计算机信息检索

第三节、计算机信息检索的原理

信息存贮信息检索

Page 27: 第四章  计算机信息检索

一、信息存贮信息的存贮实际上是生成数据库:文献数据

库的形成,先产生线性主文档,然后依一定的规则,由线性文档构造倒排文档。这个过程要对禁用词和词标引作一些处理。禁用词: 是指那些频率较高而对标引和检索没有价值的词,如一些介词,连词,冠词及一些泛指意义的词等。

Page 28: 第四章  计算机信息检索

二、信息检索二、信息检索布尔逻辑检索截词检索字段限定检索全文检索

♣ ♥ ♠ هللا خ ك

Page 29: 第四章  计算机信息检索

1 、布尔逻辑检索它是不同的单一主题概念,通过“布尔”逻辑算符组配形成多主题概念的检索式。常用的布尔逻辑算符有 4 种:逻辑与( AND 、 * )、逻辑或( OR 、+ )、逻辑非( NOT 、 - )、异或( XOR,不常用)。

如 solar 和 energy ,它们的三种逻辑组配关系分别为:

Page 30: 第四章  计算机信息检索

逻辑与 (and 、 * 、空格等 )

solar and energy

solar * energy

Page 31: 第四章  计算机信息检索

逻辑或( or、 + 、 || )

solar or energysolar + energy

Page 32: 第四章  计算机信息检索

逻辑非( not 、 - 、^̂ 、、 !! )

solar not energy solar

- energy

Page 33: 第四章  计算机信息检索

例如: 1 、“城市绿化” 检索式:城市绿化 +( 城市 + 北京+天津+上海+

… )* (园林绿化 +绿化建设+… ) 22 、、““禾谷类作物病害防治,不是白粉病禾谷类作物病害防治,不是白粉病”” ( 禾谷类作物 + 小麦 +水稻 +玉米 +… ) * 病害 -

(白粉病) 3 、土壤环境条件对豆科植物固氮作用的影响 关键词:土壤环境条件(温度、湿度, ph 值) 豆科植物(大豆、花生等) 固氮作用(固氮菌、根瘤菌)

检索式: ( 土壤环境条件 + 温度 + 湿度+ph 值 )*( 豆科植物 + 大豆+ 花生 +…)*(固氮作用 + 固氮菌+ 根瘤菌 )

Page 34: 第四章  计算机信息检索

2 、截词( truncation )检索截词——指检索者将检索词在他认为合适的地方截断。截词检索 ( 也称模糊检索或词干检索 ),是用截断的词的

一个局部进行的检索,并认为凡是满足这个词局部中的所有字符(串)的文献,都为命中文献。截词符号一般为“ ?”,也常用“ $”,“*” 。加在检索词

的词干或不完整的词形后或中间,可以减少词的输入量。其基本含义是布尔逻辑OR 的组配截词方式 :根据截词的位置不同分为:前截断、后截断、中截断;根据截断的数量不同分为:有限截断和无限截断。

Page 35: 第四章  计算机信息检索

后方截词:在一个词干后加一个“ *” ,表示可检出在该词后加任意个字符或不加字符的记录,如 computer*, 可检出computer,computers,computerisation 等词。前方截词:如 *computer, 可检出computer,minicomputer,microcomputer 等前后截词 又称无限中截词,它是满足中间一致的检索。用截词符“ *、?”加在词干的前后,表示检索词与被检索词之间只需中间匹配即可,如“ *relation*” ,可检索出“ relation” ,“ relations” ,“ interrelation” 等等。

A.无限截词 * (或叫非限定性截词 ?)

Page 36: 第四章  计算机信息检索

有限后截词 :smok???,其后最多有三个字符变化可检出: smoke, smoky, smoker, smokers,smokes, smoking等Smok??, 最多有两个字符变化 , 可检出 : smoker, smokes 等 .

smok? ?,最多有一个字符变化可检出: smoke, smoky 等

B、有限截词( controlled Length truncation )(又叫限定性截词 )

Page 37: 第四章  计算机信息检索

有限中截词 ( 中间屏词 )

如: wom?n可检出: women woman

如: fib??board 可检出: fiberboard fibreboard

Page 38: 第四章  计算机信息检索

3 、字段限定检索 将检索词限定在某一字段中,检索时,计算机只对限

定字段进行运算。 A.主题字段 : 是内容特征的字段(有Title,Keywords, Subject,Summary等 )

B 、非主题字段:是外部特征字段,如作者、文献类型、语种、出版年份等字段 .

常用的检索符号有: in 、 = 、 < 、 > ≤ ≥、 、

例 1 : English in la 例 2 : py≥1992

例 3 :查“玉米方面的英文”文献 检索式 =( maize or zea-mays or corn ) in de

and ( English in la )

Page 39: 第四章  计算机信息检索
Page 40: 第四章  计算机信息检索

4 、全文检索

又叫位置检索 position operators) 、或邻接检索( proximity )限定两个关键词在文本中的距离,

( 1 )记录级检索C ( cition )——两词必须同时出现在同

一文献记录中,不限定词序和字段 . 如 Solar (C) energy

Page 41: 第四章  计算机信息检索

( 2 )字段级检索 F ( field )——两词必须同时出现在

文献记录的同一个字段中,词序和词间插入词数不限,但需指明要查找的字段,如 pollution (F) control/AB

文摘中含有如: control and management of industrial pollution ,等等均为命中文献 。

Page 42: 第四章  计算机信息检索

(3) 子字段级检索

S ( Subfield )——表示两词必须同时出现在同一个子字段中,即同一句子或短语中,词序和中间插入词数不限 。

Same(Sent)——两个词在同一个段落中。

Page 43: 第四章  计算机信息检索

(4)词位置检索W ( with )或 Pre—— 检索算符两侧的词必须相邻且词序不能颠倒。

如 :(w)及 (nW)—— 与( with) flue(w)cure tobacco

可检出: flue-cure tobacco flue cure tobacco

building(1W)construction可检出 : building and construction building under construction等

Page 44: 第四章  计算机信息检索

N ( near )——检索算符两侧的词必须相邻但词序可以变。

如: (N)及 (nN)—— 邻近( near)如: information(1N)retrieval可检出 :information retrieval, retrieval of information等

L ( link )——检索算符两侧的词必须在数据库界定的统一规范字段内。且有一定的从属关系 ,可以用来链接主标题词和副标题词

X 两边的检索词完全一致,并以指定的顺序相邻 .

Page 45: 第四章  计算机信息检索

注意:

不是每一个检索系统都使用上述位置算符,不同的系统使用的位置算符不同,不同的算符在不同的系统中有时可能含义不同。例如“ W” 算符,在 Dialog 检索系统表示两词相邻,输入顺序不变;在 ProQuest 系统中,“ W” 算符表示输入的两个词相邻,但顺序可变,如顺序要求不变,则使用“ Pre” 算符。用户可以查阅 help帮助文档说明。

Page 46: 第四章  计算机信息检索

检索式 命中记录 solar 1796

energy 21526 solar + energy 22548

solar * energy 774

solar (F) energy 722

solar (S) energy 522

solar (2w) energy 444

solar (1w) energy 439

solar (w) energy 434

Page 47: 第四章  计算机信息检索

三、检索技巧检索技巧主要是对逻辑运算符、词间位置算符、检索主题

概念的提取方法等的综合应用,其目的是保证查全率和查准率 .

(一 )扩大检索结果的检索技巧 1 、同义词技术: (1) 元素和元素符号,例:“ AI” 和“ Aluminium”

(2) 缩写和全称,例:“计算机辅助设计”和“ CAD”和“ Computer Aided Design”

(3) 相 关 词 , 例 : “ Database” , 其 相 关 词有“ Expert System” 、“ software” 等。

Page 48: 第四章  计算机信息检索

2 、截断技术

3 、布尔逻辑或“ OR”

(二)缩小检索结果的检索技术

 1 、布尔逻辑与“ AND”

2 、布尔逻辑非“ NOT”

 3 、字段限定检索

Page 49: 第四章  计算机信息检索

小结

1 、数据库的类型及结构 2 、几种主要的计算机信息检索技术 3 、扩大或缩小检索范围的方法