第二章 信息检索技术与策略 -...
Transcript of 第二章 信息检索技术与策略 -...
第一节 信息存储的基本知识
第二节 信息检索概述
第三节 现代信息检索策略
第四节 检索效果评价
第二章 信息检索技术与策略
第一节 信息存储的基本知识
信息存储是指利用一定的科学规则和方法,通
过对信息的特征进行分析、表征和提炼,并按给定
的参数和序列公式排列、存储在相应载体上,组织
成系统化的具有检索功能的系统过程。
第一节 信息存储的基本知识
一、信息筛选
二、信息描述
三、信息检索语言
四、信息存储
一、信息筛选
信息筛选是指对原始信息有无作用的挑选和鉴别,是建立信息
资源检索系统的基础和保障。
信息筛选原则:针对性、系统性、预见性、科学性、计划性和
及时性。
信息筛选方法:直观判断、分析、集体讨论、专家裁决、数学
核算、现场核实等方法。
二、信息描述
信息描述是指根据一定的规则和技术标准,对信息的外
部特征、物质形态和内容特征进行全面描述并给予记录的过
程。
一条信息之所以有别于其他信息,主要是它与其他信息
在外表和内容两方面的特征都有所不同。
二、信息描述
信息描述
外部特 征描述
信息名称
信息来源
信息加工者
类型及表现形式
内容特 征描述
分类号
主题词
关键词
信息外部特征的描述
期刊论文:
文献题目、著者、著
者工作单位、文献的
出处(刊名、刊号、
卷期、起止页码)、
语种、参考文献及图
表的数量等。
图书:
书名、著者(或编
者、译者)、出版
项(出版社、地点、
时间)稽核项(价
格、页数、参考文
献)、书号等。
信息内容特征的描述
信息内容特征描述:是指在对信息内容进行分析
的基础上,根据一定的规则对信息的内容予以揭示,
并赋予标识的过程。
信息内容特征的描述较为复杂,必须借助于特定
的信息检索语言。
三、信息检索语言
信息检索语言是根据信息组织和信息检索的需要
而创制的人工语言,又称信息组织语言、情报语言、
标引语言、索引语言等。
1. 分类检索语言
三、信息检索语言
分类检索语言是用分类号和类名来表达各种概念,
将各种概念按学科门类的逻辑次序或事物的性质进行
分类和系统排列。
如:中国图书馆分类法
美国国会图书馆分类法
杜威十进位分类法
中国图书馆分类法的体系结构:
部类(5个):
马克思主义、列宁主义、毛泽东思想
哲学
社会科学
自然科学
综合性图书
三、信息检索语言
中国图书馆分类法的体系结构:
大类(一级类目) 22 个
三、信息检索语言
中国图书馆分类法的体系结构:
S农业科学类目简表
三、信息检索语言
2.主题检索语言
主题检索语言是用语词作为概念标识,按字顺排列,并用参
照系统等方法间接显示概念间相互关系的一种信息检索语言,也
称主题法系统。
◆ 标题词语言(Heading) 受《词表》控制
◆ 元词(单元词)语言 (Uniterm) 受《词表》控制
◆ 叙词语言( Descriptor ) 受《词表》控制
◆ 关键词语言(Keyword) 不受《词表》控制
三、信息检索语言
四、信息存储
1. 数据库及其构成
数据库(database):至少由一种文档组成,并
能满足某一特定目的或某一特定数据处理系统需要的
一种数据集合。 通俗地说,数据库就是在计算机存储
设备上,按一定方式存储的相互关联的数据集合,是
信息检索的基础。
一条信息记录(record)是由若干个字段
(Field)所组成,字段是构成记录的基础;信息记
录的集合就形成文档,一个数据库可以包含有一个文
档,也可以含有若干个文档。
1. 数据库及其构成
四、信息存储
2.数据库记录的格式
“记录”是文献信息数据库的基本组成单位。
每一条记录是由三种类型的字段组成:检索系统存取
号、基本索引字段和辅助索引字段。
四、信息存储
2.数据库记录的格式
四、信息存储
第二节 信息检索概述
一、信息检索的发展历程及进展
二、信息检索的概念与原理
三、信息检索的类型和方法
四、信息检索工具
一、信息检索的发展历程及进展
(一)手工检索阶段
(二)机械检索阶段
(三)计算机检索阶段
1. 脱机批处理检索
2. 联机检索
3. 光盘检索
4. 网络检索
信息检索:是指将信息
(主要指文献信息)按一定
的方式组织和存储起来,并
根据用户的需要找出相关信
息的过程。
信息检索 存储
检索
存储:是对信息进行著录、 标引、整序,编制检索工 具和建立检索系统的过程。
检索:是指面向信息需求 而进行高度选择性的查找 过程。
二、信息检索的概念和原理
原始文献
加工整理
数据库
提 问
检 索
输 出 存 储
检 索
二、信息检索的概念和原理
信息检索原理
检索提问标识与存储标引标识进行比较,两者一
致或信息标引的标识包含着检索提问标识,则具有该
标识的信息就从检索系统输出,输出的信息就是检索
命中的信息。
二、信息检索的概念和原理
文献检索
数据检索
事实检索
全文检索
图像检索
超文本检索
按检索内容划分
三、信息检索的类型和方法
1. 信息检索的类型
文献检索
使用以二次文献为存储对象的信息系统,如目录型、题录
型、文摘型数据库,是一种相关性检索。特点:检索结果不直
接解答课题用户提出的技术问题,只提供与之相关的线索。
例如:查找有关“食品安全与人类健康 ”方面的国内外
信息有哪些?
三、信息检索的类型和方法
数据检索 以数值信息为检索对象,通过检索,用户可以获得所需
要的确切数据,是一种确定性检索。它一般以数据大全、手
册、年鉴等为检索工具。
例如:2013年申请中国发明专利和获得授权发明专利最
多的国家有哪些?
检索工具:中国统计年鉴
三、信息检索的类型和方法
事实检索 检索系统中存储的是从原始文献中抽取的各种事实,用户
通过检索可获得有关事物、事件的发生与发展情况及相关资料,
它也是一种确定性检索。一般利用字词典、年鉴、百科全书、
手册等为检索工具。
例如:禽流感最早出现于哪个国家
检索工具:兽医手册
三、信息检索的类型和方法
全文检索
从存储有大量原始文献全文的数据库中检索全文或某一
章节,属相关性检索的范畴。特点:是在书目信息检索基础
上更深层次的内容检索。
例如:检索由陈代文等撰写的“动物营养与免疫研究进
展 ”一文的全文
检索工具:中文科技期刊数据库等
三、信息检索的类型和方法
图像检索
以图像或图文信息为检索对象的检索方式。
超文本检索
利用非线性信息组织方法建立的数据库检索相关信息的方式。
三、信息检索的类型和方法
按信息检索手段划分
手工信息检索
计算机检索
三、信息检索的类型和方法
2. 信息检索的方法
(1)引文追溯法:利用文献所附的参考文献进行追溯查找。
(2)工具法:是指利用各种检索工具或数据库查找文献信息的
方法。包括顺查法和倒查法两种。
(3)循环法:是工具法与引文追溯法相结合的一种检索方法
三、信息检索的类型和方法
四、信息检索工具
信息检索工具是用来存储、报道和检索文献线索的工具,
具有存储和检索两个基本功能。
信息检索工具的类型按照不同的标准划分有不同的类型,
最常用的一种划分方式就是按照著录内容划分,可以分
为目录、题录、文摘三种。
第三节 现代信息检索策略
信息检索策略是为实现检索目标而制定的计划或方案。
一、分析检索课题,明确检索要求
二、选择检索系统
三、确定检索途径
四、选择检索词
五、构造检索式
六、实施检索
七、调整检索策略
八、原始文献的获取
一、分析检索课题,明确检索要求
1. 分析课题学科属性、专业范围及相关内容
2. 分析检索课题的信息类型和时间要求
3. 明确用户自身的信息需求
二、选择检索系统
选择检索系统要考虑三方面的因素:检索课题
的具体要求;检索系统的类型、性能;检索者对检
索系统的熟悉程度 。
三、确定检索途径
1.文献的外部特征为检索途径
(1)题名途径
(2)责任者(著者)途径
(3)号码途径
(4)机构途径
2.以文献信息的内容特征为检索途径
(1)分类检索途径
(2)主题检索途径
3.以文献的相互引证关系为检索途径
三、确定检索途径
四、选择检索词
选择检索词一般要考虑以下基本原则:
(1)优先选用叙词或主题词作为最基本的检索词;
(2)要从词表规定的专业范围出发,选用各学科内具有检索价
值的基本名词术语;
(3)如选择的检索词无词表可查,可选择自由词作为检索词;
(4)选词要适应待检数据库的检索用词规则;
(5)通常要选择常用的基本词汇进行匹配。
例如: 1.速溶绿豆酸奶制作工艺的研究
选择检索词:
速溶 绿豆 酸奶 制作工艺 乳酸菌 发酵
2.鹅细小病毒VP3基因疫苗两种不同免疫
方式对细胞免疫的影响
选择检索词:
雏鹅 细小病毒 基因疫苗 细胞免疫 肌肉注射
基因枪轰击 免疫方式 弱毒疫苗 免疫应答
五、构造检索式
1.单元词检索(概念检索)
检索标识是具体的检索词或词组,每个检索词表达一个概念。
2.布尔逻辑算符组配检索
将多个检索词进行逻辑组配形成的一种复合性检索要求。
用符号“or”或“+”表示,其逻辑表达式为:
A or B 或 A+B
其意义为检索记录中凡含有检索词A或检索词B,
或同时含有检索词A和B的,均为命中文献。
逻辑“或”(和)
A B
用符号“and”或“*”表示,其逻辑表达式为:
A * B 或 A and B
其意义为检索记录中必须同时含有检索词A和B的文献,
才算命中文献。
逻辑“与”
A B
用符号“not”或“-”,其逻辑表达式为:
A not B 或 A-B
其意义为:检索记录中含有检索词A,但不能
含有检索词B的文献,才算命中文献。
逻辑“非”
A B
布尔检索注意事项
“or”逻辑:
有些检索词表达的概念,存在整体与部分的关系。在检索中,
这类关系如 果处理的不 好,就不能达到满意的效果。如:
查:动物遗传育种的文献
检索式:动物 and 育种
检索式应修改为:
(动物 or 猪 or 牛 or 羊…)and 育种
With:设定需检索的两个词或词组在同一字段中,但不限制
位置的先后。
Near:设定需检索的两个词或词组在同一语句中,相对于
“with”更接近。此外,在使用“near”运算符时,还可以
在该运算符后添加一个数字以便进一步限定两个词之间的邻
近程度,如“near3” 设定需检索的两个词或词组在同一句
子中且相隔不超过3个单词。
3.位置逻辑算符
4.截词(模糊检索)
截词检索主要是利用检索词的词干或不完整的词形进行检索。
截词符一般用“?”、“ :”、“#”表示
(1)后方截词:用于前方一致的派生词检索。
如:信息?
则表示在数据库中含有信息、信息技术、信息检索等方面的
文献记录均为命中文献。
(2)前方截词:用于后方一致的派生词检索。
如:?经济
则数据库中含有经济、工业经济、农业经济等方面的文献均
为命中文献。
(3)有限截词
在检索词后面加上一个或一个以上(最多4个)的“?”,
空一格,再加一个“?”。如:
Comput??? ? 可检索出:
Computer,Computers,Computing
截词检索在不同的计算机检索系统中规定不同,请使用时
注意。
4.截词(模糊检索)
5. 比较运算符
=等于,> 大于,< 小于 ,>= 大于等于,
<= 小于等于
6. 优先运算符
( ) 、 ‘ ’ 、“ ”
六、实施检索
使用各种检索工具进行检索。
七、调整检索策略
1. 检索结果信息量过多
① 减少同义词与同族相关词。
② 增加限制概念,采用逻辑“与”连接检索词。
③ 使用字段限定,将检索词限定在一定的字段范围。
④ 使用逻辑“非”算符,排除无关概念。
⑤ 增加语种限制以及缩短检索期限。
⑥ 调整位置算符,由松变严。
⑦ 将截词的词根变长或减少截词算符的使用。
2. 检索结果信息量过少
① 选择同义词与相关词,并用逻辑“或”将它们连接起来,
增加网罗度。
② 减少逻辑“与”和逻辑“非”的运算,丢掉一些次要的或
者太专指的概念。
③ 去除某些字段限制。
④ 增加上位概念。
⑤ 重新选择更合适的数据库。
⑥ 调整位置算符,由严变松。
⑦ 增加截词算符的使用。
七、调整检索策略
3. 检索结果中误检率过高
① 对叙词进行相关的限定,如学科限定。
② 提高用户分析课题的能力,确定核心检索词。
③ 尽量少使用全文字段检索。
④ 正确使用缩写词。
七、调整检索策略
八、原始文献的获取
获取全文的途径:
首先是查找本单位购买的全文数据库;
其次可利用那些提供流量计费下载的全文数据库网站获取;
第三,向文献收藏单位联系馆际互借或文献传递;
第四,可直接向作者索取;
最后,都找不到的情况下,可向出版发行单位购买。
第四节 检索效果评价
检索效果评价主要是指信息检索的最终结果是否满
足用户需求或满足程度如何。
一、信息检索的效果评价指标
二、影响检索效率的主要因素
一、检索效果评价指标
以一个检索提问去检索任何一个数据库都会出现 4 个相关
量:检出的相关信息量、未被检出的相关信息量、检出的非相关
信息量、未检出的非相关信息量。
1. 查全率 查全率(R )= —— ×100%
查全率是对所需信息被检出程度的信息量指标,是指检索出的相关信息量与信息系统中的相关信息总量之比。 2. 查准率 查准率(P )= ——×100% 查准率是衡量拒绝非相关信息的指标,是指检索出的相关信息量和检索出的信息总量之比。
a
a+c
a
a+b
一、检索效果评价指标
3. 漏检率
漏检率(O)= ——×100%
漏检率是指未被检出的相关信息量与信息系统中的相关信息
总量之比。
4. 误检率
误检率(N) = ——×100%
误检率是指检索出的非相关信息量和检索出的信息总量之比。
c a+c
b
a+b
一、检索效果评价指标
二、影响检索效果的因素
1. 数据库的质量(客观因素)
(1)数据库搜集信息的数量与质量
(2)对每条信息揭示的深度与广度,著录标引的质量
(字段的数量,主题词的信息标引网罗度)
(3)检索途径及检索字段的数量
2. 检索策略的制定(主观因素)
(1)分析与研究课题的准确程度
(2)检索工具与数据库的选择是否恰当
(3)正确分析课题的主题内容,选择最佳检索词
注意对同义词、近义词、上位概念、下位概念的选取;
选用核心主题词及隐含的主题词,排出检索意义不大的概
念词,如:研究、进展、发展、现状、方法 ;
生物体的名称(学名、俗名、拉丁学名) ;
二、影响检索效果的因素
化学物质的名称(常用与代码);
检索词的专指度:专指度是指检索词揭示信息主题的准
确度。使用专指度高的检索词,查准率高,但查全率会相对
降低;使用专指度低的词,有利于提高查全率,但会降低查
准率。
(4)明确检索词之间的逻辑关系,制定合理检索策略
(5)在初次检索的基础上进一步修正与完善检索
2. 检索策略的制定(主观因素)
二、影响检索效果的因素