第 4 章 信息存储与检索

33
第 4 第 第第第第第第第 4.1 第第第第第第 4.1.1 第第第第第第 4.1.2 第第第第 4.2 第第第第第第 4.3 第第第 4.4 第第第第第第第第第 4.4.1 第第第第第第 4.4.2 第第第第第第

description

第 4 章 信息存储与检索. 4.1 信息存储概述 - 4.1.1 信息存储方法 - 4.1.2 信息存储体系 4.2 语义信息编码 4.3 语义网 4.4 信息检索与搜索引擎 - 4.4.1 信息检索概述 - 4.4.2 搜索引擎概述. [ 学习目标 ]. ( 1 )理解信息存储的基本概念和作用; ( 2 )了解信息组织、存储与检索的关系; ( 3 )掌握信息存储的主要途径及计算机信息存储体系; ( 4 )理解语义编码的含义; ( 5 )理解语义网的含义、作用、基本结构及其 关键技术; - PowerPoint PPT Presentation

Transcript of 第 4 章 信息存储与检索

Page 1: 第 4 章 信息存储与检索

第 4章 信息存储与检索

4.1 信息存储概述 - 4.1.1 信息存储方法 - 4.1.2 信息存储体系

4.2 语义信息编码4.3 语义网4.4 信息检索与搜索引擎

- 4.4.1 信息检索概述 - 4.4.2 搜索引擎概述

Page 2: 第 4 章 信息存储与检索

[ 学习目标 ]

( 1)理解信息存储的基本概念和作用;( 2)了解信息组织、存储与检索的关系;( 3)掌握信息存储的主要途径及计算机信息存储体系;( 4)理解语义编码的含义;( 5)理解语义网的含义、作用、基本结构及其 关键技术;( 6)掌握搜索引擎的含义。

Page 3: 第 4 章 信息存储与检索

信息存储是指通过多种形式记录和排序信息的过程。4.1.1 信息存储技术1. 信息的印刷存储

造纸和印刷术的发明,对信息的存储与交流带来了深刻的影响。 纸质文献对信息的揭示和组织的四个基本要素:信息内容、载体材料、记录符号和记录方式。按照文献编纂方法和出版特点划分,可将纸质文献分为图书、期刊、报纸、会议文献、科技报告、标准文献、专利文献、学位论文、产品说明书等。

4.1 信息存储概述

Page 4: 第 4 章 信息存储与检索

4.1.1 信息存储技术2. 信息的磁存储 在现代信息存储技术中,磁存储是信息存储的主要手段。磁存储信息系统,尤其是硬磁盘存储系统,是当今各类计算机系统的最主要存储设备。( 1 )磁存储的特点: ① 长久保存、重复使用和重新记录; ② 多路存储; ③ 存储频带宽广。

4.1 信息存储概述

Page 5: 第 4 章 信息存储与检索

4.1.1 信息存储技术( 2 )几种主要磁存储介质 ① 计算机磁带 ② 硬盘 ③ 软盘 ④ 移动存储磁盘

4.1 信息存储概述

IBM System Storage TS3100 磁带库

软盘 移动硬盘( U 盘、 MP3 )

台式机硬盘

Page 6: 第 4 章 信息存储与检索

4.1.1 信息存储技术3. 信息的缩微存储 信息的缩微存储是用缩微摄影机将文件资料缩小拍摄

在感光胶片上,经加工处理后作为信息载体保存起来。

4.1 信息存储概述

缩微胶片阅读器缩微胶片 缩微胶片扫描仪

Page 7: 第 4 章 信息存储与检索

4.1.1 信息存储技术缩微存储技术的特点:

( 1 )缩微品的信息存储容量大,密度高; ( 2 )存储介质占用空间小,可节省大量空间; ( 3 )缩微品忠于原件,不易出差错; ( 4 )保存时间长; ( 5 )便于计算机检索。

主要成就 ( 1 )计算机输出缩微胶片 (COM) 技术 ( 2 )计算机输入缩微胶片 (CIM) 技术 ( 3 )计算机辅助缩微品检索系统 ( 4 )视频缩微系统

4.1 信息存储概述

Page 8: 第 4 章 信息存储与检索

4.1.1 信息存储技术4. 信息的光存储

光存储以激光为光源,以薄膜作为信息存储材料。 特点:

(1) 数据存储密度高、容量大、盘片可更换、携带方便 (2) 存储寿命长、功能多样化 (3) 生产成本低廉、数据复制工艺简单、效率高。

4.1 信息存储概述

Page 9: 第 4 章 信息存储与检索

4.1.2 信息存储体系计算机信息存储体系是利用计算机对一定范围内的信息集合进行选择、记录和存储,以便用户采用科学手段与技术获取必要和充分信息资源的信息系统。从整体上看,计算机信息存储系统包括硬件、软件和数据库。

1. 硬件设备 这是计算机信息存储体系用于处理数据的各种硬设

备的总称。包括外部设备 、中央处理机、主存储器和外部存储器等。

4.1 信息存储概述

Page 10: 第 4 章 信息存储与检索

4.1.2 信息存储体系2. 软件设备

软件设备是计算机信息存储体系中各类程序和各种文件数据的总称,分为系统软件和应用软件。 系统软件是关于组织控制计算机硬件资源协调工作的操作程序。应用软件通常包括自动标引软件、词表管理软件、各种匹配程序及数据库管理程序等。数据库管理程序是计算机信息存储体系最基本、最重要的组成部分。

4.1 信息存储概述

Page 11: 第 4 章 信息存储与检索

4.1.2 信息存储体系3. 数据库 数据库是计算机信息存储体系的基础,也是用户进行计算机

信息存储与检索的对象。 数据库的类型:① 从数据的存储方式划分,可以分为层次数据库、网状数据库 和关系数据库。② 从数据存储的介质划分,可以分为磁带数据库、磁盘数据库 和光盘数据库。 ③ 从数据类型划分,有文献数据库、数据型数据库、事实型数 据库、多媒体数据库和超媒体数据库。

4.1 信息存储概述

Page 12: 第 4 章 信息存储与检索

4.1.2 信息存储体系4. 数据仓库 数据仓库( DW)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策,容量一般大于 100GB。

( 1 )数据仓库的特征: ① 面向主题 ② 集成的 ③ 相对稳定 ④ 反映历史变化

4.1 信息存储概述

Page 13: 第 4 章 信息存储与检索

4.1.2 信息存储体系4. 数据仓库( 2 )数据仓库系统体系结构 ( 四个层次 ) : ① 数据源(基础和源泉) ② 数据的存储与管理(核心) ③ OLAP(在线分析技术)服务器(分析) ④ 前端工具(应用开发)

4.1 信息存储概述

Page 14: 第 4 章 信息存储与检索

语义编码就是用一组数字或字符描述客观实体或实体的属性。 1. 语义编码的原则( 1 )惟一性原则 ——将原来不能区分的实体惟一地加以标识。 ( 2 )规范性原则 ——在遵循惟一性的前提下必须强调编码的规范化。 ( 3 )标准化原则 ——对信息进行编码应尽量标准化。2. 语义编码方法 ( 1 )顺序编码:(如 01- 教授、 02- 副教授、 03- 讲师)( 2 )分段编码: 将数据项分成若干组,每段代表一个组 ( 3 )助记编码:(如电冰箱型号 BCD-180W)

4.2 语义信息编码

Page 15: 第 4 章 信息存储与检索

3. 语义编码的校验 为了保证信息在交流过程中的正确,在编码时往往引入校验位,使其对码值进行校验。

( 1 )错误种类 ① 误记:如把 1 记成 7; ② 易位:如把 1436 变成 1346; ③ 双易:如把 34567 变成 36547; ④ 随机:包括上述两种或三种错误或其他错误。

( 2 )校验方法:模 11 校验位的确定方法

4.2 语义信息编码

Page 16: 第 4 章 信息存储与检索

3. 语义编码的校验( 2 )校验方法 ① 算术级数法 设原代码为 ,其中 ,各码字 对应的权值分别为 ,则原代码的加权和为:

以 11 为模去除S, 所得余数就是校验码,即校验码为:

],,1[],9,,0[ niai naaa ,,, 21

2,,,1 nn

n

iiainS

1

)2(

)11(modS

4.2 语义信息编码

Page 17: 第 4 章 信息存储与检索

3. 语义编码的校验( 2 )校验方法 ② 几何级数法 设原代码为 ,其中 ,各码字 对应的权值分别为 ,则原代码的加权和为:

以 11 为模去除 S, 所得余数就是校验码,即校验码为:

],,1[],9,,0[ niai naaa ,,, 21 11 ,,, mmm nn

n

ii

in amS1

)1(

)11(modS

4.2 语义信息编码

Page 18: 第 4 章 信息存储与检索

3. 语义编码的校验( 2 )校验方法 ③ 质数法 设原代码为 ,其中 ,各码字 对应的权值为一质数序列 ,则原代码的加权 和为:

以 11 为模去除 S, 所得余数就是校验码,即校验码为:

],,1[],9,,0[ niai naaa ,,, 21

11 ,,, ppp nn

n

iiapS in

1

1

)11(modS

4.2 语义信息编码

Page 19: 第 4 章 信息存储与检索

1 .语义网产生的背景及含义语义网是互联网研究者对下一代互联网的称谓,通

过扩展现有互联网,在信息中加入表示其含义的内容,使计算机可以自动与人协同工作。语义网中的各种资源不再只是各种相连的信息,还

包括其信息的真正含义,从而提高计算机处理信息 的自动化和智能化。语义网的建立需要研究者们对信息进行有效的表示,制定统一的标准,使计算机可以对信息进行有效的自动处理。

4.3 语义网

Page 20: 第 4 章 信息存储与检索

2 .语义网的体系结构蒂姆·伯纳斯·李提出的语义网模型,从下到上分为七层: Unicode与 URI, XML, RDF(S) ,本体层,逻辑层,证明层和信任层,见图 4.3 。

4.3 语义网

Unicode URI

XML+NS+XMLSchema

RDF+RDFSchema

本体词汇层逻辑层证明层

信任层

图 4.3 语义网的体系结构 第一层:结构的基础

第二层:语法的基础

第三层:描述信息和类型

第四层:语义级的交换

第五层:智能服务基础

第六层:认证

第七层:信任

Page 21: 第 4 章 信息存储与检索

3. 语义网的关键技术(1) RDF 与 RDFS ( RDF Schema ) RDF提供了资源的通用描述方式。

(2) 本体模型( Ontology ) ① Ontology的含义概念化:客观世界的抽象模型;明确:概念及它们之间的联系都被精确定义;形式化:精确的数学描述;共享:本体中反映的知识是其使用者共同认可的。

4.3 语义网

Page 22: 第 4 章 信息存储与检索

② Ontology与传统数据库的区别 ( 1 )语言更加丰富; ( 2 )半结构化的自然语言文本; ( 3 )必须公用的术语; ( 4 )提供特定领域的知识模型。③ Ontology描述语言 KIF(知识交换格式)、 Ontolingua、 Loom、 OCML、 FLogic等描述语言。

4.3 语义网

Page 23: 第 4 章 信息存储与检索

(3) XML一个 XML文本包含了一套可嵌套的开关标记,每一个标记可以有许多属性值对。 XML的基本数据模型是一棵标签树,每一个标记对应数据模型中的一个节点,每一个嵌套的子标记是树中的一个孩子。XML主要用于定义一种语法,只要可以定义它的语法,用 XML可以编写任何东西。

4.3 语义网

Page 24: 第 4 章 信息存储与检索

4.4.1 信息检索概述1 .信息检索的概念

信息检索是指从以任何方式组成的信息集合中,查找特定用户在特定时间和条件下所需信息的过程。 实现过程 :

( 1 )信息标引和存储过程 ——组织检索系统的过程。 ( 2 )信息的需求分析和检索过程 ——检索系统的应用过程。

4.4 信息检索与搜索引擎

Page 25: 第 4 章 信息存储与检索

2 .信息检索与信息存储的关系信息检索是通过信息存取系统(即检索工具)来实现的。

4.4 信息检索与搜索引擎

信息检索信息存储

转换 成 系统标识

转换 成 检索标识

主题

分析

信息资源

形式概念

系统标识语言

形式概念

课题

分析

检索提问

答复

信息集合检索系统

信息

用户

图 4.4 信息存储与信息检索关系图

Page 26: 第 4 章 信息存储与检索

信息检索根据检索的目的和对象不同,可以分为:( 1 )书目信息检索 从存储有标题项、作者项、出版项或文摘项的检索系统中获 取有关信息线索。 ( 2 )全文信息检索 从存储整篇论文、专利说明书或整本著作的检索系统中获取 全文信息 。( 3 )数据信息检索 从存储有大量数据、图表的检索系统中获取数值性信息 。( 4 )事实信息检索 从存储有大量事实信息和数据信息的检索系统中获取某一事 项的具体答案 。

4.4 信息检索与搜索引擎

Page 27: 第 4 章 信息存储与检索

3. 信息检索的效率和检索系统( 1 )信息检索效率 信息检索效率是研究信息检索原理的核心,是评价 一个检索系统性能优劣的标准,它始终贯穿于信息 存储和检索的全过程。主要有以下衡量指标: ① 查全率 (R)=

② 查准率 (P)=

③ 漏检率 (O)=

④ 误检率 (N)= m

w1

%100x

w

%100m

w w: 检索出的相关信息量

x: 信息库中存储的相关信息量

m: 检出信息总量x

w1

4.4 信息检索与搜索引擎

Page 28: 第 4 章 信息存储与检索

( 2 )信息检索系统构成:

信息数据库;存储、检索信息的装备;存储、检索信息的方法;系统工作人员;信息用户。按使用的技术手段可分为:

手工检索系统、机械检索系统和计算机检索系统。 计算机检索系统,按使用的设备和采用的通讯手段,可分为联机检索系统、光盘检索系统和网络检索系统。

4.4 信息检索与搜索引擎

Page 29: 第 4 章 信息存储与检索

4 .信息检索语言检索语言是信息检索系统存储和检索信息时共同使用的,以达到信息存储和检索的一致性,提高检索效率的一种约定性语言。 突出特点 :具有必要的语义和语法规则;具有表达概念的惟一性;具有检索标识及提问特征进行比较和识别的方便性;既适用于手工检索系统又适用于计算机检索系统。 主要功能 : 沟通信息存储检索的全过程,是信息标引存储人员与信息检索人员和用户之间进行交流的媒介。

4.4 信息检索与搜索引擎

Page 30: 第 4 章 信息存储与检索

4.4.2 搜索引擎概述1. 搜索引擎的含义(1)搜索引擎是指对 WWW站点资源和其他网络资源进

行标引和检索的一类检索系统机制。(2)搜索引擎是 Web 中主动搜索信息并将其自动索引的

Web网站,其索引内容储存在可供检索的大型数据库中,并建立索引和目录,以提供服务。

2. 搜索引擎的基本构成 狭义:信息检索。由关键词检索和分类浏览两部分 构成。 广义:一是对信息的采集、存储和组织。二是信息 检索。

4.4 信息检索与搜索引擎

Page 31: 第 4 章 信息存储与检索

3. 搜索引擎的工作原理及主要技术 一个搜索引擎由搜索器、索引器、检索器和用户接口四个部

分组成。 搜索器的功能是在互联网中漫游、发现和收集信息。 索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档及生成文档库的索引表。

检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。

用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。

4.4 信息检索与搜索引擎

Page 32: 第 4 章 信息存储与检索

4. 搜索引擎的使用方法 ( 1 )模糊查找( 2 )精确查找( 3 )逻辑查找

5. 主要搜索引擎介绍(自学为主) ( 1 ) Google搜索引擎( 2 )百度搜索引擎

4.4 信息检索与搜索引擎

Page 33: 第 4 章 信息存储与检索

[1] 张帆.信息存储与检索.高等教育出版社, 2003 [2] Henzinger M. The Past, Present and Future of Web Search Engi

nes. Lecture Notes In Computer Science, 2004(3) : 24-26[3] Nechesr, Ikesre, Grubertr,etal . Enabling Technology for Kno

wledge Sharing. AI Magazine, 1999,12(3):36-56[4] Gruberctr. A Translation Approach To Portable Ontology. Know

ledge Acquisition, 1993, 5(2): 199-220[5] 曹青.情报检索中对自然语言的控制.北京教育学院学报, 2001,15(1) : 53-55[6] 林 青,邓志鸿,唐世渭,等. Ontology 研究综述 [J] .北

京大 学学报(自然科学版), 2002 , 38 ( 5 ): 24-25[7] 马张华.分类搜索引擎类目体系研究 [J] .图书情报工作, 2001(2) : 36-40

参考文献