第四讲 信息检索方法与技术

36
第第第 第第第第第第第第第 第第第第第第

description

第四讲 信息检索方法与技术. 天津商学院图书馆. 主要内容. 一、 信息检索方法与途径 1 、信息检索方法 2 、信息检索途径 二、检索途径和检索方法的综合运用 三、检索程序 四、信息检索系统. 信息检索方法. 信息检索方法 : 就是制定正确、恰当的检索策略为检索过程进行指导。目的是为了优化检索过程,提高检索效率,全面、准确、快速地帮助用户找到所需信息 。. 常用检索方法- 布尔检索. 布尔检索 : 用布尔逻辑算符来表达检索词间的逻辑组配关系,是最基本、最常用的检索技术。 常用的布尔逻辑算符有 : 逻辑或 ( + , OR ) - PowerPoint PPT Presentation

Transcript of 第四讲 信息检索方法与技术

Page 1: 第四讲  信息检索方法与技术

第四讲 信息检索方法与技术

天津商学院图书馆

Page 2: 第四讲  信息检索方法与技术

主要内容一、信息检索方法与途径 1 、信息检索方法 2 、信息检索途径二、检索途径和检索方法的综合运用三、检索程序四、信息检索系统

Page 3: 第四讲  信息检索方法与技术

信息检索方法信息检索方法: 就是制定正确、恰当的检索策略为检索过程进行指导。目的是为了优化检索过程,提高检索效率,全面、准确、快速地帮助用户找到所需信息 。

Page 4: 第四讲  信息检索方法与技术

常用检索方法-布尔检索

布尔检索:用布尔逻辑算符来表达检索词间的逻辑组配关系,是最基本、最常用的检索技术。

常用的布尔逻辑算符有 :

逻辑或( + , OR ) 逻辑与( * , AND ) 逻辑非( - , NOT )

Page 5: 第四讲  信息检索方法与技术

布尔检索 逻辑或( + , OR ):表达检索词间的并列关系。

可扩大检索范围,提高查全率。如: A+B ,表明结果中含有 A 或 B 都为检索命中

逻辑与( * , AND ):表达检索词间的交叉关系。可缩小检索范围,提高查准率。如: A*B ,表明结果必须同时含有 A 和 B 才为命中

逻辑非( - , NOT ):表达检索词间的排除关系。可缩小检索范围,提高查准率,但要慎用。如:A—B ,表明结果是 A 中不包含 B 的那部分

Page 6: 第四讲  信息检索方法与技术

逻辑或 逻辑与

逻辑非

A B A B

A B

Page 7: 第四讲  信息检索方法与技术

computer adventure game 最基本的搜索方式。查找与该关键词有关的记录,在过去通常情况下相当于布尔逻辑命令中“ OR” 的关系,翻译过来就是:

  computer ( OR ) adventure ( OR ) games  因此搜索结果中不仅有同时包含三个关键字的记

录,也有仅含部分关键字串(如 computer games )和个别关键字(如 computer )的记录。目前搜索引擎的趋势是默认匹配全部关键词搜索,即仅返回包含所有关键词的记录,相当于下面将介绍的“ +” 号和 AND 的关系,当然有时也有例外。

Page 8: 第四讲  信息检索方法与技术

+computer +adventure +game 相当于布尔逻辑命令中的“ AND” 关系,翻译过来就是:

  computer ( AND ) adventure ( AND ) games

 因此搜索结果中只列出同时包含三个关键字的记录。在搜索条件中使用“ +” 号还可强制搜索引擎将一些停用词当作关键词进行搜索。比如我们搜索“ who am i” 时,其中“ who” 和“ i” 是停用词,我们可以在两个单词前加上“ +” 号强制对其进行搜索,此时的搜索条件即可为: +who +am +i 。

Page 9: 第四讲  信息检索方法与技术

+computer +game -adventure 翻译过来就是:

  computer ( AND ) game ( NOT ) adventure

 列出所有包含 computer game 的记录,但在其中排除有关 adventure 的记录。

 综上所述,“+”号( AND )用于在搜索中指定涵盖某项内容,而“-”号( NOT )则用来从结果中排除某项内容。

Page 10: 第四讲  信息检索方法与技术

常用检索方法-截词检索

截词检索:又称词干检索、模糊检索。检索时,只需用词干加截词符号,凡是含有与该词干相同的文献均能被检出。该方法能很好避免漏检现象的出现。检索系统不同,截词符也不同,常用的有: # ,?, * 等。

根据截词符出现的位置不同,可分为: 后截词 前截词 中间截词

Page 11: 第四讲  信息检索方法与技术

截词检索-后截词

后截词:将截词符放在词根后面,前方一致。 是最常用的截词方式。主要用在词的单复数、年代、作者、查同根词等情况。如:王伟?(可查出所有名字中含“王

伟”的作者的文献); Social* (可代替social, socialist, socialistic, sociality, socialization )

Page 12: 第四讲  信息检索方法与技术

截词检索-前截词

前截词:将截词符放在词根的前面,后方一致。多见于复合词较多的文献检索,也可进行一个学科的不同应用领域的检索。但有此功能的系统不多。

Page 13: 第四讲  信息检索方法与技术

截词检索-中间截词

中间截词:将截词符置于检索词中间,词的前后方一致。又称“通用字符法”或“内嵌字符截断” ,该方式能解决英美拼法不同单词的书写或有些词在某个元音位置上出现的单复数的不同拼写。

如: wom?n (可代替 woman, women )

社会科学?发展(可代替社会科学的发展,社会科学研究的发展等)

Page 14: 第四讲  信息检索方法与技术

常用检索方法-限制检索

限制检索:限制检索是缩小或约束检索结果的方法,主要是指限定字段检索,即是指定检索词在记录中出现的字段。限制检索的方法很多,如利用前、后缀符进行的字段检索;利用系统规定的限制符、限制检索命令进行的限制检索等。

Page 15: 第四讲  信息检索方法与技术

(三)限制检索 限制检索是缩小或约束检索结果的方法,主要

是指限定字段检索,即是指定检索词在记录中出现的字段。

常用的字段代码有: TI (题名) AU (作者) AB (文摘) JN (刊名) PY (年代) LA (语种) ……

如: information/TI LA=english 文摘 = 网络信息资源

Page 16: 第四讲  信息检索方法与技术

(四)位置算符 通过位置算符对复合检索词进行加工,限定词与

词之间的位置关系,提高检准率。

* ( W )算符:表示该算符两边的检索词顺序排列,不能颠倒,且除空格和标点符号外,不能插入其他词或字母。

例: High(w)Strength

结果: High Strength

High_Strength

Page 17: 第四讲  信息检索方法与技术

* ( nW )算符:允许两词间最多插入 n 个词 例:H eat(1W)Combustion

结果: Heat of Combustion

* ( N )算符:除空格和标点符号外,不得插入其它词或字母,但两词顺序可以颠倒。

例: money(N)supply

结果: money supply supply money

* ( nN )算符:两词顺序可以颠倒,中间可以插入最多 n 个词。

例: number(2N)theory

结果: number theory theory of number theory of the number

Page 18: 第四讲  信息检索方法与技术

各个数据库的不同检索技巧 (SDOL)AND 同时出现在文章中, 例: lesion AND pancreatic(胰腺损伤)OR 其中一个出现在文章中,例: kidney OR renal (肾 )

AND NOT

后面所跟的词不出现在文章中,例: tumor AND NOT malignant

通配符

*取代一个单词中的一个字母,例:wom*n would find "woman" and "women "transplant** would find “transplanted, transplator” not find “transplanti

ng”

! 取代任意字母后缀,例:behav! would find "behave," "behaviour," "behavioural"

( ) 定义检测词顺序,例: (remote OR satellite) AND education

W/nnPRE/nn

两词相隔不超过 N词,词序不定,例: pain W/15 morphine 两词相隔不超过 N词,词序一定,例: behavioural PRE/3 disturbances

作者检索先输入名的全称或缩写,然后输入姓,例: r smith ; jianhua zhang 临近符可以用于作者检索, raymond W/3 smith 可检索到 Raymond S

mith, Raymond J. Smith and Raymond J.

Page 19: 第四讲  信息检索方法与技术

各个数据库的不同检索技巧 (OCLC)

位置符: N,W (限定检索词的前后位置及间隔词数)N 或

W 后可插入 1-25之间的间隔词数 例: ab:head w2 class 逻辑符: AND,OR,NOT (确定检索词间的逻辑关系) 例: information and sharing 括号: 例: (baseball AND Brewers) OR Twins 复数符: + 加在词尾,单、复数全检索。例 : librar+ 截词符: * 至少键入前 3 个字符的词根,例: econ* 通配符: #: 代表一个可替换字符。例: wom#n ?: 代表零个或任意个可替换字符。 例: colo?r , colo?4r

Page 20: 第四讲  信息检索方法与技术

各个数据库的不同检索技巧 (EBSCO) 通配符:对不确定的字母可使用“?”来查询 如:键入

“ Re?d” 可找到“ read” 、“ reed” 、“ reid” ■ 截词符:在关键词后面加上“ *” 可以找到不同意义的字

如:键入“ walk*” 可以找到“ walk” 、“ walked” 、“ walking” 、“ walkway”

(6) 位置算符:“ Nn” 和“ Wn” 表示两个检索词之间的位置邻近关系

■ Nn: 两个检索词相隔距离最多为 n 个单词,两词出现的顺序可互换

例如, tax N5 reform ■ Wn: 两个检索词相隔距离最多为 n 个单词,两词出现的顺序不可互换

例如, income W2 tax

Page 21: 第四讲  信息检索方法与技术

各个数据库的不同检索技巧 (SpringerLink)

布尔逻辑检索( Boolean Logic ) :

逻辑“与” And (或 * ) 逻辑“或” Or (或 + ) 逻辑“非” Not (或 - ) 截词检索 (Wildcards):

SpringerLink 截词符 “ *”

e.g.Ti=defen* 会检索出标题中含有“ denfense” 或“ defence” 或“ defensive” 等同根词

Page 22: 第四讲  信息检索方法与技术

各个数据库的不同检索技巧 (CSA)

布尔算符 AND ; OR ; NOT ;

优先算符 (),例如: ( mouse and mice ) and (gene or pseudogene) ;

位置算符 WITHIN “X” ( X 代表数字),如“ women within 8 movement” ; NEAR ;

替代算符 “?”

截词算符 “*”

Page 23: 第四讲  信息检索方法与技术

机检系统常用检索方法 简单检索( basic search ):是一种单项检

索。一般只需输入一个检索词,辅以相应的途径即可进行检索。

二次检索:在原有简单检索的结果基础上,再进行检索。可反复使用,不断缩小检索范围。

高级检索( advanced search ):是一种多项组合检索,一般输入多个检索词进行组配。有的检索系统也称为复杂检索或扩展检索。

专家检索:用多个检索词与各种运算符组成检索式,功能与高级检索相似。

Page 24: 第四讲  信息检索方法与技术

六、检索效果评价 检索效果( retrieval effectiveness )是指检

索系统检索的有效程度 有 6 项评价检索效果的指标,它们由克兰弗登

( Cranfield )在分析用户基本要求的基础上提出的,包括:收录范围、查全率、查准率、响应时间、用户负担及输出形式。其中两个主要的衡量指标是查全率( Recall ratio )和查准率( precision ratio ),分别用 R 和 P大写字母表示。

Page 25: 第四讲  信息检索方法与技术

检准率:指检出的相关文献量与检出文献总量的比率。反应检索结果的准确性。

检全率:指检出的相 关文献量与检索系统中相 关文献总量的比率。反映检索结果的全面性。

Page 26: 第四讲  信息检索方法与技术
Page 27: 第四讲  信息检索方法与技术
Page 28: 第四讲  信息检索方法与技术

举 例 查找某主题文献

查准率 = 查全率 =

相关情况

检出情况

相关文献 非相关文献 总计

被检出文献 40 10 50

未被检出文献 15

总计 45

Page 29: 第四讲  信息检索方法与技术

七、信息检索技巧

提高检全率的方法 用“全文”等低相关度的检索途径进行检索 使用同、近义词( or ) 使用“模糊检索”和“截词检索”等利用文献后所附“参考文献”进行检索

Page 30: 第四讲  信息检索方法与技术

提高检准率的方法 使用高相关度的检索入口 题名 / 关键词 ___ 文摘 ___ (全文) 使用限制检索 如:在百度中可以进行多种限制: 网页位置;限定搜索网站;网页格式等。 反复使用二次检索( and ) 使用“精确检索” 如:百度中的“”(双引号)与《》(书名号)等

维普与 CNKI 中的“精确检索”

Page 31: 第四讲  信息检索方法与技术

2 、检索途径 检索途径:依据文献的外部特征(题

名、责任者、标识、出版者、出版时间等)和内部特征(分类号、主题词、关键词或自由词等)来确定,是信息检索的入口点。

Page 32: 第四讲  信息检索方法与技术

三、检索程序分析研究课题选择检索工具确定检索途径查找文献线索索取原始文献

Page 33: 第四讲  信息检索方法与技术

检索系统的原理

文献群 入选文献

概念分析

词汇转换

文献库索引文献库

词汇转换

概念分析

检索提问用户 信息需求

信息检索语言

信息存储

信息查找

Page 34: 第四讲  信息检索方法与技术

检索实施过程用户检索提问

确定检索标识

确定检索方法

实施具体查找

文献描述

原始文献

选择检索系统

确定检索途径

Page 35: 第四讲  信息检索方法与技术

作业 :

1 、按下列要求构造检索式: ( 1 ) 要求检索结果含有搜索引擎的历史,

但是不能带有世界历史、中国历史、历史文化等不相关的知识;

( 2 )检索全部唐诗 2 、说出以下检索符号及各个检索式的意义: ( 1 ) walk* 、 compt* 、 defen* 、 Social* ( 2 ) income W2 tax 、 tax N5 reform

Page 36: 第四讲  信息检索方法与技术

Thank you for your attention!