第三讲 信息检索语言

38
第第第 第第第第第第 第第第第第第

description

第三讲 信息检索语言. 天津商学院图书馆. (一)检索语言的类型. 1 、什么是信息检索? 广义: 信息检索( Information Retrieval ):将信息按一定 的方式组织和存储起来,并根据信息用户的需要 找出有关的信息的过程和技术。 狭义: 从信息集合中找出所需要的信息(信息查询) 存--取. (一)检索语言的类型. 2 、什么是检索语言 ( Retrieval Language ) ? - PowerPoint PPT Presentation

Transcript of 第三讲 信息检索语言

Page 1: 第三讲 信息检索语言

第三讲 信息检索语言

天津商学院图书馆

Page 2: 第三讲 信息检索语言

(一)检索语言的类型

1 、什么是信息检索?

广义: 信息检索( Information Retrieval ):将信息按一定 的方式组织和存储起来,并根据信息用户的

需要 找出有关的信息的过程和技术。

狭义:从信息集合中找出所需要的信息(信息查询)

存--取

Page 3: 第三讲 信息检索语言

(一)检索语言的类型

2 、什么是检索语言( Retrieval Language ) ?

用来描述文献、组织文献记录,进行文献检索的标识系统,称为检索语言。检索语言是文献检索系统存储与检索信息所使用的共同语言,它是标引人员与检索人员之间沟通思想、取得一致理解的桥梁。所以,检索语言实质上是标引和检索之间的约定语言。

Page 4: 第三讲 信息检索语言

3 、检索语言的类型:

按描述文献的内容性质划分,可分为分类语言和主题语言。

分类语言。用分类号和相应的分类款目来表达各种概念,以学科体系为 基础将各种概念按学科性质和逻辑层次结构进行分类和系统

排序,能反映事物的从属派生关系,便于按学科门类进行族性检索。按照分类方式的不同,分类语言又分为体系分类语言、组配分类语言和混合分类语言。 主题语言。主题语言就是对表达信息主题内容特征的主题词汇概念,经规范化处理所形成的检索语言。由于主题词汇表达概念准确,所以主题途径是检索信息的主要途径。主题语言按照主题性质的不同,它又可分为标题词语言、单元词语言、叙词语言、关键词语言和引文语言。

Page 5: 第三讲 信息检索语言

4 、检索系统按功能分类

目录检索系统 馆藏目录、联机公共检索目录( OPAC ) 文献检索系统 目录检索和文献检索统称为书目检索(二次文

献),提供的信息是文献线索 事实检索系统 包括对事实、数据和全文的检索,是一种直接的

确定性检索。词典、百科全书、年鉴、名录等。

Page 6: 第三讲 信息检索语言

公共检索系统的使用

1. 随书光盘系统:http://202.113.82.9:8080/poweb/index.jsp

2. 书刊检索系统 :通过本系统可进行图书信息、本人借阅信息的检索,以及办理续借手续。

3. 读者登录方式: ①、校园网用户:请登录 http://ilink.tjdl.cn/,也可在我馆还书

处及阅览室的检索窗进行检索和办理续借。②、公共网用户:请登录 http://218.67.246.84/index2.html

Page 7: 第三讲 信息检索语言

书刊检索系统使用说明

第一步:登录 http://211.81.31.33/   进入以下界面

Page 8: 第三讲 信息检索语言

第二步:单击天津商业大学图标进入以下界面

第三步:输入用户标识 ( 即:本人借阅证号 ) 及个人密码 ( 初始密码为“ 0000” ,若有改动,请本人务必记清楚 ) 。登录后在“我的帐户”里可进行图书信息的检索,本人借阅信息的检索,以及办理续借手续。

Page 9: 第三讲 信息检索语言

备注:我校现已改用校园一卡通,校园卡上没有借阅证号码,在进行检索时借阅证号码的生成规则为: 1 、教工:“ R130TSJ000” 加本人工作证号 (4 位 ) ,共14 位; 2 、研究生:“ R130TSY” 加本人学生证号后七位,共 14

位; 3 、本科生:“ R130TSB” 加本人学生证号后七位,共 14

位; 4 、院外读者仍使用原借阅证,详情请查看《图书馆一卡通借阅证号码变更说明》。

Page 10: 第三讲 信息检索语言

中国年鉴全文库 中国药典查询应用系统

事实检索系统

Page 11: 第三讲 信息检索语言

(二)分类语言

1 、几个概念: ( 1 )分类:以事物的本质属性或其他显著特征作为依据,把各种事物集合成类的过程。是人们认识事物、区分事物、组织事物的一种逻辑方法。

( 2 )分类法:对文献进行分类的工具。是一种重要的情报检索语言。

Page 12: 第三讲 信息检索语言

2 、分类法的历史

较早时的分类法:“四库分类法” 20世纪以来,一些以现代学科分类为基础的图书分类法陆续出现。这些分类法考虑了知识的系统性,按照学科的性质归类。

最有影响的有四种: 1 ) 《仿杜威书目十进制》,沈祖荣、胡庆生, 1917

2 ) 《世界图书分类法》,杜定友, 1925

3 ) 《中国图书分类法》, 刘国钧 , 1929

4 ) 《中国十进分类法及索引》,皮高品, 1934

Page 13: 第三讲 信息检索语言

建国后陆续编制出《中国人民大学图书馆图书分类法》、《中国科学院图书馆分类法》和《中小型图书馆图书分类表草案》,都被应用于编制馆藏目录、书目和索引。《中国图书资料分类法》也是常用的分类法。

现在,我国用的最广泛的是《中国图书馆分类法(第四版)》

Page 14: 第三讲 信息检索语言

《中图法》的前身可追溯到《中小型图书馆分类表草案》( 以下称《中小型法》 )

《中小型法》, 1957 《大型法》, 1959 《中图法》

《中图法》是一部综合性分类表,也就是说《中图法》是能够供所有学科专业文献标引和检索使用的标引语言。 1975 年 10月科学技术文献出版社正式出版《中图法》第一版, 1999 年 3月北京图书馆出版社出版第四版,全称也从《中国图书馆图书分类法》改为《中国图书馆分类法》。 2001 年夏北京图书馆出版社出版了第四版的电子版,称为《中国图书馆分类法》(第四版)电子版 1.0版。

Page 15: 第三讲 信息检索语言

3 、中图法五大部类序列

1 )马克思主义、列宁主义、毛泽东思想、邓小平理论

2 )哲学、宗教 3 )社会科学 4 )自然科学 5 )综合性图书

Page 16: 第三讲 信息检索语言

4 、中图法类目简介

S

S1 S2 S3 S4 S5 S6 S7 S8 S9

S11 S12 S13 S14 S15 S16 [S17] S18 [S19]

S21 S22 S23 S24 S25 S26 S27 S28 S29

S281 S282 S283 S284 S285 S286 S287 S288 S289

Page 17: 第三讲 信息检索语言

5 、《中图法》的编制原则 第一,以马列主义毛泽东思想为指导,以科学技术发展水平和文献出版的实际为基础,将科学性、实用性、思想性有机地统一。

第二,以科学分类和知识分类为基础,依照从总到分、从一般到具体、从理论到应用的原则构建逻辑系统。分类体系与类目设置既要保持相对稳定性,又要考虑有一定的动态性,及时反映新学科、新主题的发展,并允许对其结构与类目作一定的调整,以满足不同的需要。

第三,标记符号力求简明、易懂、易记、易用;标记制度力求灵活实用,有较好的结构性,以揭示体系分类法的本质特征。

第四,兼顾作为编制分类检索工具的规范与作为文献分类排架的规范的双重职能。

第五,兼顾不同类型、不同规模图书馆和文献信息机构类分不同类型文献的需要。

Page 18: 第三讲 信息检索语言

6 、《中图法》的分类体系 基本部类 基本大类 马克思主义、列宁主义、毛泽东想、邓小平理论 A马克思主义、列宁主义、毛

泽东思想、邓小平理论

哲学、宗教……………… B哲学、宗教 社会科学………………… C社会科学总论 D政治、法律 E军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J艺术 K历史、地理

Page 19: 第三讲 信息检索语言

6 、《中图法》的分类体系 自然科学…… N自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R医药、卫生 S农业科学 T 工业技术(包括 17 种工业部门技术) U交通运输 V航空、航天 X环境科学、安全科学 综合性图书…………………… Z综合图书

Page 20: 第三讲 信息检索语言

7 、《中图法》的标记符号

《中图法》的标记符号分为基本符号与辅助符号两种 :

( 1 ) 基本符号 :以字母和阿拉伯数字混合作为其基本符号,如 R511 (医学 / 内科学 /传染病/病毒传染病)。一般一个字母表示一个大类,但“法律”大类第二分类体系用“ DF” 表示(以法的类型集中文献,主要供法学、法律单位选择使用。),“工业技术”的二级类采用双字母。

Page 21: 第三讲 信息检索语言

7 、《中图法》的标记符号 如: T (工业技术)、 TB (一般工业技术)、 TD9 (矿

业工程)、 TE (石油、天然气工业)、 TF (冶金工业)、TG (金属学与金属工艺)、 TH (机械、仪表工业)、 TJ

(武器工业)、 TK (能源与动力工程)、 TL (原子能技术)、 TM (电工技术)、 TN (无线电电子学、电信技术)、 TP (自动化技术、计算机技术)、 TQ (化学工业)、 TS (轻工业、手工业)、 TU (建筑科学)、 TV

(水利工程)。 以字母顺序反映大类及工业技术所属二级类的序列,字母之后用数字表示下属各级类,数字依小数制升序排列。(以 R511 为例)

Page 22: 第三讲 信息检索语言

( 2 )辅助符号 :

1 )总论复分号“ -”

这是表示总论复分表中的类目号码,凡主表类目使用总论复分表复分组号时,须将“ -” 与总论复分表中的类号一起加在主类号后。

例如:《物理学词典》 类号: O4-61 物理学 / (总论复分表)名词术语、词典、百科全书

Page 23: 第三讲 信息检索语言

2 )组配符号“∶”

用于联结两个相关的主类号,合成一个组配类号。 例 1 :《英美名诗汉译集》 类号: H319.4 I561.2∶ 英语读物 / 组配编号法 / 文学 / (世界地区表)英国文学 / (专类复分表)诗歌

互见类号 H319.4 I712.2∶ 例 2 :《汉语方言研究文献目录》 类号: Z88 H17∶ 专科目录 / 组配编号法 /汉语方言

Page 24: 第三讲 信息检索语言

3 )地区区分号“()”

当某类目需要依地区、国家区分,但类目无注释规定可依地区表复分时,则可将“世界地区表”或“中国地区表”中的有关类号用()括起,加在主类号之后。

例如:《俄罗斯画家尼古拉 ·费迅油画作品》 类号: J233(512)=5 (各国绘画作品)油画 / (世界地区表)俄罗斯及苏联 / (国际时代表)现代

Page 25: 第三讲 信息检索语言

4 )时代区分号“ =”

当某类目需要依时代区分,但类目无注释规定可依时代表复分时,则可将“国际时代表”或“中国时代表”中的有关类号加在主类号之后,中间用“ =” 联结。

例如:《羽坛辣妹子自话》(龚智超的自传) 类号: K825.47=76 (中国人物传记)体育人物 /(中国时代表) 21世纪

Page 26: 第三讲 信息检索语言

5 )民族区分号““”” 如某类目需要依民族细分,但类目无注释依“世界种族与民族表”或“中

国民族表”复分时,则可将种族或民族号码置于“”中,加在主类号之后。 例 1 :《犹太人经商智慧》或《犹太人经商秘诀》 类号: F715“382” 商业企业组织与管理(类目注释:商业经营管理学

入此。) / (世界种族与民族表)犹太人 例 2 :《吉普赛舞蹈》 类号: J732.2“510.5” (各国舞蹈、舞剧 / 各种舞蹈)民族、民间舞蹈

/ (世界种族与民族表)吉普赛人(茨冈人) 例 3 :《吉普赛扑克牌游戏》 (电影《叶塞尼亚》) 类号: G892“510.5” (文体活动)牌类(类目注释:扑克、桥牌、麻

将等入此。) / (世界种族与民族表)吉普赛人(茨冈人)

Page 27: 第三讲 信息检索语言

6 )通用时间、地点区分号“〈〉”

若某类目需按通用时间、地区复分,则将“通用时间、地点区分表”的有关类号置于“〈〉”内,加在主类号之后。 例如:《春季饮食养生》或《春季进补》 类号: R247.1<111> (中医学临床)食养、食疗 /

(通用时间、地点表)春

Page 28: 第三讲 信息检索语言

7 )其他符号

“/” (起止符号),例如: D73/77 各国政治、 R25/278 中医各科及中医急症学;

“[]”(交替符号),例如: [F418]世界工人生活状况(宜入 D411.7 );

“{}”(停用符号),例如: {D018}消灭阶级剥削(停用; 4版改入 D011阶级的产生与消亡);

“+” (加号,资料分类的标记符号),例如: Q563维生素 B 、 Q563+.1维生素 B1 等辅助符号,只出现在分类表中,不出现在标引中,可结合《中图法》实际类表了解与掌握。

注:类号数字中三位一点的小圆点,例如: TS142.221+.321 定粒式自动缫丝机,只是为了使类号清晰易读,可以不归入辅助符号之列。

Page 29: 第三讲 信息检索语言

8 、标记符号的排列

《中图法》标记符号的排列采用:一般类号由左至右逐位对比的方法进行升序排列,先比较字母部分,再比较数字部分。字母部分按字母固有的次序排列,数字依小数制排列。分类号中如果涉及多种辅助符号的使用,一般按 - 、()、“”、 = 、〈〉的顺

序排列。

Page 30: 第三讲 信息检索语言

排列举例分类号款目排序次序:总论复分区分符号: -国家地区区分符号:()民族区分符号:“”时代区分符号: =通用时间、地点区分符号: < >主类号组配复分区分符号:∶ 例如:《八十年代美国妇科学》 类号: R711(712)=535妇科学 / (仿世界地区表)美国 / (仿国际时代表) 20世纪 80 年代

Page 31: 第三讲 信息检索语言

(三)主题语言

主题语言是一种描述性语言。它用语词直接表达文献的主题,这些语词就是表达主题概念的标识。将这些作标识的语词按字顺排列并使用参照系统来间接表达各种概念之间的关系,这就是主题语言。根据词语的选词原则、组配方式、规范方法,主题词语言可以分为叙词语言、标题词语言和关键词语言 。

Page 32: 第三讲 信息检索语言

1 、叙词语言

叙词语言是主题语言的高级形式。叙词是从文献内容中抽

取出来的、从概念上不可再分的基本概念单元词汇。检索时利用这些表达概念单元的叙词进行组配,以表达一个复杂的概念。叙词语言是近代用途较广、既适用于手工检索,又适用于计算机检索的后组式检索语言。

Page 33: 第三讲 信息检索语言

举例: 《 INSPEC Thesaurus》是英国《科学文摘》使用的叙词表,表中全部词汇按字顺排列,正式主题词用黑体字表示,图例列出了主题词与其相关词的参照关系。 Acoustic wave velocityUF acoustic velocityNT ultrasonic velocityBT velocityTT velocityRT acoustic dispersion acoustic impedance acoustic wave propagation acoustic wave velocity measurement acoustic wave liquid helium sound propagation Mach number shock wavesCC A4300 A5140 A6260 A6265FC a4300-za5140+ga6260+ya6265+aDI January 1973说明: UF ( Used for )表示主题词所替代的非规范词, UF 后的词不能用作检索词。 NT ( Narrow Term ),狭义词,表示主题词的下位词。 BT ( Broad Term ),广义词,指明主题词的上位词。 TT ( Top Term ),族首词,指明主题词的最上位词。 RT ( Telated Term ),相关词,表示与主题词有关联的词。 CC ( Classification Code ),分类代码,由分类号和《 SA》分辑号组成。

FC ( Full Form of Code ),表示输入计算机的时间。 DI ( Date of Input ),表示输入计算机的时间。

Page 34: 第三讲 信息检索语言

2 、标题词语言 标题词语言是以标题词作为文献内容标识和检索依据的一种主题语言。标题词是来自自然语言中比较定型事物的名称,并经规范化处理的能表达文献主题内容的词、词组或短语。在编制标题词表时,是先将一级标题词和二级标题词加以固定组配,所以,标题词语言属于先组式规范化的检索语言。美国《工程索引》使用的《工程标题词表》就是一种标题词。

以上两种语言均是受词表控制的规范化语言。

Page 35: 第三讲 信息检索语言

3 、关键词语言 在计算机检索中,大多数系统具有主题词检索功能,因为通

过主题词检索可以缩小检索范围,提高准确度和检索速度。为了便于用户检索使用,一般在系统中预先将本数据库系统所定义的全部主题词存入系统,用户可以根据系统的主题词库直接检索,不必牢记各个主题词或翻查主题词表。很多情况下,我们并不十分了解自己要检索的文献归属于哪一个主题词下,或用一两个主题词很难代表要查找文献的全部含义,这时,可以使用自由词或关键词检索。计算机系统可以对所有的词进行检索,并对每个词在每篇文献中出现的频率进行统计,可以根据某一词出现的频率判断某篇文献与某一主题的相关程度。一般主题词的检索局限在题名、文摘、全文等字段中,而自由词或关键词的检索则不局限于字段,可以对所有字段进行自由检索。

Page 36: 第三讲 信息检索语言

( 四 ) 主题词法与分类法的比较

主题词法 分类法

检索功能 侧重于特性检索

侧重于族性检索

检索标识 主题词-文字符号

分类号-数码符号

排列方式 字顺排列 等级排列

Page 37: 第三讲 信息检索语言

作业 :

1 、检索语言有哪两类?有什么异同?

2 、我国现行的《中图法》全称是什么?是第几版的?

Page 38: 第三讲 信息检索语言

Bye bye

!