从情报检索到可信网络——论张琪玉先生情报语言学思想在网络时代的意义

36
从情报检索到可信网络 ——谈张琪玉教授情报语言学思想在网络时代的意义 刘炜 [email protected] 张琪玉情报语言学思想研讨会上海 2014.6

description

一点感想

Transcript of 从情报检索到可信网络——论张琪玉先生情报语言学思想在网络时代的意义

从情报检索到可信网络 ——谈张琪玉教授情报语言学思想在网络时代的意义

刘炜 [email protected]

张琪玉情报语言学思想研讨会·•∙上海·•∙2014.6

2

内容

1. 张琪玉教授情报语言学思想研修心得

2. 一个西方索引学先驱的故事

3. 可信网络,从情报语言做起

3

一. 张琪玉教授情报语言学思想研修心得

4

“情报检索语⾔言是根据情报检索的需要⽽而创制的⼈人⼯工语⾔言。”

–––张琪⽟玉《情报检索语⾔言》绪论第⼀一节第1段

5

–––张琪⽟玉《情报检索语⾔言⼤大纲》第⼀一章第⼀一节第3段

“情报检索语⾔言是表达⼀一系列概括⽂文献情报内容的概念及其相互关系的概念标识系统。”

6

–––张琪⽟玉《情报检索语⾔言⼤大纲》第⼀一章

“概念逻辑和知识分类是情报检索语⾔言的基础。”

“事物、概念、语词三者是辩证统⼀一关系。”

“情报检索语⾔言不仅要表达⼀一个个不同的概念,⽽而且还要显⽰示各种概念之间的逻辑关系。”

7

8

–––张琪⽟玉《情报检索语⾔言》绪论第⼀一节第5段

“情报检索的全过程包括情报的存贮和检索两个⽅方⾯面。情报存贮是指编制检索⼯工具和建⽴立建索系统;情报检索即是利⽤用这些检索⼯工具和检索系统来查找所需的情报。”

9

“提⾼高情报检索效率,特别是提⾼高检全率和检准率以及情报检索计算机化程度,是现今情报检索语⾔言研究的主要⺫⽬目标。”

–––张琪⽟玉《情报检索语⾔言⼤大纲》第⼀一章绪论第⼀一节末句段

10

核心思想

1. 情报语言是关于概念的。概念逻辑和知识分类提供了情报语言的基础。概念和概念间的关系的表示是情报语言要解决的关键问题。

2. 情报语言应用于情报系统的完整过程,包括存储过程和检索过程。这两个过程通过应用情报语言对文献内容和提问表达进行描述来实现。

3. 情报语言的根本目的是提高情报系统的检索效率,检索效率可以有一个指标体系进行衡量。

11

其它思想 1. 数据库就是信息时代的索引

2. 数据库推动了索引工作的现代化

3. 当前索引事业发展的重点是数据库建设

4. 网络信息检索工具是新颖的索引

5. 自然语言完全取代索引语言但神话不可能实现

6. 万事万物皆可索引

……

12

学科-事物概念组配型检索语言

1. 学科聚类与事物聚类结合

2. 先组式与后组式语言结合

3. 人工语言与自然语言结合

4. 号码标识与语词标识结合

5. 不变概念代码与可变概念体系结合

……

13

二. 布撒神父的故事

Roberto A. Busa!1913 - 2011

15

Saint Thomas Aquinas!1225 - 1274

16

Thomas Watson!1874 - 1956

17

Roberto A. Busa!1913 - 2011

18

• 词语在⽂文本中的位置 • 特殊参考标识 • 词语本⾝身 • ⽂文本中词语的数量 • 前⼀一个词语中第⼀一个字⺟母 • 后⼀一个词语中的第⼀一个字⺟母 • 表格卡⽚片号 • 款⺫⽬目卡⽚片号

19

20

21

http://www.alice.id.tue.nl/references/busa-1980.pdf

罗伯特·•∙布撒(Father � Roberto � Busa) � 耶稣会会士,计算机语言的发明者,超文本应用的先驱,伟大的和不朽的托马斯全集索引的编纂者。

在相关领域领先美国同行15年。

23

布撒神父认为,计算机技术的应用能够:

• 将学者从低级繁杂的资料收集和整理工作中解脱出来;

• 专注于高层次的学术发现;

• 进而加快研究速度,提升研究效率。

而且更加重要的是:• 给学者提供全新视角、媒介、方法、工具和平台,

实现研究的范式变革;

• 不仅应将索引作为一种检索工具,而且更应该被当作一种诠释方法。

24

布撒神父毕其一生,编撰了托马斯全集索引。该项目是一个不可多得的、完整而典型的数字人文案例,也是索引学的实践案例,伴随了信息技术从婴儿期到所向披靡的青年期。

由于他创造性地应用了几乎所有可能的计算机方法进行人文学科研究,被尊为数字人文的开创者。他的思想不局限于一套索引,当然仅仅这一套索引也足以让人叹为观止。

25

26

三. 可信网络

从情报语言做起

由网络带来的追问 1. 情报检索语言和索引的对象都是文献吗?知识在细粒度化、多媒体化 2. 情报语言的本质是什么?搜索引擎是否应用了情报语言? 3. 情报语言学除了检索语言(KOS)之外,还有什么?规范档是吗?万事万物的属性词表是吗?取值词表是吗? 4. 情报语言学(检索语言)与索引学的目的除了提高检索系统效率,还有什么? 5. 情报检索语言用于检索的功能如何强化,交由机器自动(情境)感知、自动匹配? 6. 如何从文献索引到基于任何形态和媒体的内容索引(支持大数据挖掘和云计算?),是情报语言学常保青春? ……

28

唯一不变的是变化本身 1. 索引对象的普遍化:万事万物皆有属性,且皆可寻找到规律,进行结构化。

2. 索引点(索引项、检索点)的任意化(数字化之后都是数字,可融合)

3. 情报检索语言的泛化(传统的几种类型:分类、主题、标题、关键词等

4. 标引(特征提取)的自动化

5. 规范控制的全网域化

6. 知识发现系统的全面应用

29

网络时代的意义 1. 情报语言是关于概念的。概念逻辑和知识分类提供了情报语言的基础。概念和概念间的关系的表示是情报语言要解决的关键问题。说明:基于概念,就意味着形式化;规范控制的核心:即词表规范;概念体系:本体(RDFS、SOKS、OWL)

2. 情报语言应用于情报系统的完整过程,包括存储过程和检索过程。这两个过程通过应用情报语言对文献内容和提问表达进行描述来实现。说明:索引即建模并建立概念逻辑视图,可以多个视图;表达式的处理可以经由系统自动实现,并根据社会性实践提供个性化体验。

3. 情报语言的根本目的是提高情报系统的检索效率,检索效率可以有一个指标体系进行衡量。说明:Web应用的开放世界假说要求效率的计算有不同的方法,但目前的指标体系可以作为一种标准参照。

30

学科-事物概念组配型检索语言

1. 学科聚类与事物聚类结合—>面向对象

2. 先组式与后组式语言结合—>面向机器

3. 人工语言与自然语言结合—>面向知识

4. 号码标识与语词标识结合—>面向代码

5. 不变概念代码与可变概念体系结合—面向形式化本体

情报语言隐入幕后, 但仍需图书情报工作者进行设计、应用。

31

可信网络 Web of Trust

32

概念词表的网络(Web)扩展

1. URI作为ID标目

2. 用HTTP URI获取

3. 用RDF给出有意义的描述

4. 用URI作为RDF的内容,关联出去

33

以语义技术发布情报语言(Web化/RDF化),并提供自动的映射、组配等服务(Web服务化):

张琪玉教授把情报检索现象和系统的建设上升为一种理论,进而建立一门学科。这是一个具有中国特色的创举。 张教授的情报语言学思想依旧前沿,我们跟进得并不多。特别是进入数字时代,很多很有价值的普遍性原理并没有得到阐扬,我们更多地沉迷于工具论,不愿意进行形而上的思考,无法上升到理论层面,无法使数字时代的情报检索得到整体提升。

34

期待突破!

张琪玉情报语言学思想研讨会·•∙上海·•∙2014.6