全信息理论与中文信息处理

30
22/6/13 1 全全全全全全全全全全全全 全全全 全全全全全全全全全全 全全全全全全 2006-8-24 [email protected]

description

全信息理论与中文信息处理. 钟义信 智能科学技术研究中心 北京邮电大学 2006-8-24 [email protected]. 目 录. 一,问题的提出. 二,解决的方法. 三,研究的重点. 一,问题的提出. 中文信息(自然语言)处理的重大社会需求. 1 ,人际交往 -- 多种语言的存在 -- 全球交往的进程 -- 学习语言的困难 -- 机器翻译的前景. 2 ,人机合作 -- 人类操作能力的局限 -- 机器工作性能的威力 -- 机器认知能力的潜力 -- 人机能力的天然互补. 中文信息(自然语言)处理的核心目标. - PowerPoint PPT Presentation

Transcript of 全信息理论与中文信息处理

Page 1: 全信息理论与中文信息处理

23/4/19 1

全信息理论与中文信息处理

钟义信智能科学技术研究中心

北京邮电大学2006-8-24

[email protected]

Page 2: 全信息理论与中文信息处理

23/4/19 2

目 录

一,问题的提出

二,解决的方法

三,研究的重点

Page 3: 全信息理论与中文信息处理

23/4/19 3

一,问题的提出

Page 4: 全信息理论与中文信息处理

23/4/19 4

中文信息(自然语言)处理的重大社会需求

1 ,人际交往 -- 多种语言的存在 -- 全球交往的进程 -- 学习语言的困难 -- 机器翻译的前景

2 ,人机合作 -- 人类操作能力的局限 -- 机器工作性能的威力 -- 机器认知能力的潜力 -- 人机能力的天然互补

Page 5: 全信息理论与中文信息处理

23/4/19 5

中文信息(自然语言)处理的核心目标

表面上看,“中文信息处理”研究工作的着眼点和落脚点应是中文信息的“处理” – 如词语切分,词形标注,语句分析,专名识别,词语消岐,等等。

实质上看,研究工作的目标是“使机器能够在一定程度上理解中文信息”,或对中文信息实现一定认知。

无论从 “人际通信” 还是 “人机合作” 的需求来看,处理都是手段,理解(认知)才是目的。

Page 6: 全信息理论与中文信息处理

23/4/19 6

自然语言 “理解” 与人工智能

1 ,智能的核心是思维;语言是思维的表达;因此语 言也是智能的表达。

2 ,理解(认知),是智能的内核;因此自然语言理 解是人工智能的基本研究方向。

3 ,自然语言理解本质上是人工智能、信息科学、 认 知科学和语言学的交叉科学。

4 ,自然语言理解系统本质上是一类智能系统。

Page 7: 全信息理论与中文信息处理

23/4/19 7

智能系统的核心机制:信息 - 知识 - 智能转换

需求 / 约束信息获取 信息执行

信息传递 信息传递

预处理 决策

本体信息

智能 策略

智能行为

目标认知 知识

感觉器官

传导系统

思维器官

效应器官

传导系统

有序信息

知识库

需求 / 约束

实得信息

Page 8: 全信息理论与中文信息处理

23/4/19 8

信息 - 知识 - 智能转换:自然语言理解通用方法论

智能行为

信息 - 知识转换 知识 - 智能转换 信息知识转换

知识库

信息(问题与约束) 结果(性能与评价)

归纳 归纳演绎

目的

Page 9: 全信息理论与中文信息处理

23/4/19 9

中文信息处理研究的现状

中文信息处理研究领域取得了许多重要进展和重要成果;但基本理论、基础资源、基本工具、基本方法和性能水平离实际应用的要求还有相当差距。

中文信息理解的研究基本上突破了纯粹语法分析的层次,正在走向语法与语义分析相结合的新阶段。 但是,还少有语用要素的考虑:还没有真正到位。

Page 10: 全信息理论与中文信息处理

23/4/19 10

统计方法(归纳)基于大数定律,方法论上是“从众”,不要求真正达到理解。是初级认知方法。 缺点:假设难满足;结论平均性;真理常在少数人手中。 优点:容易操作,尤其是有了计算和网络技术的支持。

自然语言“机器认知”的两种基本方法

两种方法性质互补,谁也不能单独包打天下。问题是如何实现 “统计与规则方法的有效结合:大统计,小规则”。

规则方法(演绎)基于理解和规则推理,是处理新问题和复杂问题不可避免的高级认知方法。 缺点:规则难建立;规则难完备;规则不灵活。 优点:可信(如果规则和前提均可信)

Page 11: 全信息理论与中文信息处理

23/4/19 11

自然语言理解(机器认知)的困难和意义

自然语言理解是世界级难题,至今没有得到满意的解决。如果有所进展,将是具有世界意义的贡献。

自然语言理解是人工智能的典型应用,它的困难充分表现在:一方面是自然语言表达的多样性、灵活性、复杂性、动态性,一方面是机器“理解”能力的机械性、被动性与局限性。

即使是人(更不要说机器)对自然语言的理解也需要经过长时间的训练和学习,需要在大量“记忆 +模仿”实践的基础上才能逐渐生长出“自主理解”的能力。

Page 12: 全信息理论与中文信息处理

23/4/19 12

二,解决的方法

Page 13: 全信息理论与中文信息处理

23/4/19 13

全信息理论与自然语言理解

语言是信息的载体;信息是语言的内核。理解自然语言的本质是理解它所载荷的信息,因此要用信息论。 但现有信息论不能解决问题。

“全信息理论”是北京邮电大学智能研究中心创建的信息理论 [1, 2, 3] ,拥有自主知识产权。

[1] 钟义信,全信息理论,北京邮电大学学报, 1984[2] 钟义信,信息科学原理,北京邮电大学出版社, 1988第一版, 1996 第二版, 2002第三版[3] 钟义信等,信息科学教程,北京市研究生教育重点 精品教材,北京邮电大学出版社, 2004

Page 14: 全信息理论与中文信息处理

23/4/19 14

Shannon 信息论只关心“噪声中的信号波形复制” 问题:

X = {xn} 信号状态(是 0还是 1 ?)P = {pn} 各种信号状态的出现方式n (1,N)

Y

D

I(X;Y) = H(X) – H(X|Y) H(X) = - pn log pn

X

n

为什么 Shannon Information 不能解决问题?

Page 15: 全信息理论与中文信息处理

23/4/19 15

全信息与“认知能力要素”

符号客体 主体

语法信息 符号序列(形式结构)

序列内容 序列价值语义信息 语用信息

在给定语境(包括主体、客体、文本、环境和常识)下,语言理解要包含该语境下的语法、语义、语用三要素。 只当语境足够深广,语法、语义、语用分析才有唯一解。

人的认知能力包括:观察力,理解力,目的性。观察事物的外部形式,理解事物的内在含义,判断与自身的利害关系。

Page 16: 全信息理论与中文信息处理

23/4/19 16

全信息自然语言理解的“认知机理”

幼儿识字教学过程:如,教学生认识“树”这个字。

先教怎么写(符号的笔划结构);再告诉“树”的真实样子(事物的形态结构) ,接着告诉“树”的基本特征及树与草、与花的区别(语义);再告诉“树”的用途(语用)。 明确了用途或害处(语用),人们才会去关注它。

此后,见到“树”这个字或真的树(语法),就会在脑海中联想到它的语义和语用;才算理解了这个字。

这就是由“语法”调用“全信息词典”的过程。机器可以模拟这种认知过程。

Page 17: 全信息理论与中文信息处理

23/4/19 17

An Example for “Understanding”

Sensing

ExperiencingThinking

Form

Value

Content

Learning the Concept “Tree”

The Mechanism of Understanding

Form Value Content

Page 18: 全信息理论与中文信息处理

23/4/19 18

全信息与语言理解的层次

对于自然语言的理解,存在三个相依的层次:

( 1 )了解它的语法信息 ( 2 )了解它的语义信息 ( 3 )了解它的语用信息

语法、语义、语用“三位一体”的分析是自然语言理解方法的基本要求(门槛);“两位一体”还不够。

从语法分析走向语义分析,是自然语言处理的重要进步;但对自然语言理解而言,仍然没有到位!

浅层理解中层理解深层理解

Page 19: 全信息理论与中文信息处理

23/4/19 19

骨架捕获 – 自然语言认知的基本技巧

人类对自然语言的理解(认知)过程既有层次性,又有灵活性。重要的方法是“快速捕获骨架”(剪枝技巧)。

( 1 )对浅显而熟悉的部分一扫而过(其实就是剪枝),只对重要而又困难的部分才做必要的分析。

( 2 )“必要的分析”主要是“骨架分析”:篇章的骨架,段落的骨架,语句的骨架。

( 3 )对于人来说,“一扫而过”也做了“语法 - 语义 - 语用”分析,只是因为熟悉和容易,做的极快(由下意识处理),以致自己都没有意识到。

Page 20: 全信息理论与中文信息处理

23/4/19 20

全信息自然语言理解的基本模型

预处理

后处理

语用分析

语义分析

语法分析

全信息 - 知识库

合法骨架?

符合目的?

真实逻辑?

++ +

学习扩展人工奠基

Page 21: 全信息理论与中文信息处理

23/4/19 21

“ 基本模型”的特色

1 ,目的性 明确地面向“理解”需求。

4 ,开放性: 模型能够适应各种“理解”应用;能够随着信息表示与处 理方法的进步而不断改进自己的性能。

2 ,包容性 包容了规则方法和统计方法两种规范。在规则模式下, 序列是语句;在统计模式下,序列是特征集合。 而且可以包容其它基于语言行为特征的方法。

3 ,灵活性 整体框架是语言学风格,包含语法分析、语义分析和语 用分析;实际分析深度可依问题需求而有所不同。 模块实现可以是规则的、统计的、规则统计交互补足的。

Page 22: 全信息理论与中文信息处理

23/4/19 22

关于灵活性的一个说明

统计分析 OK?

规则分析N

Y

根据实际问题求解的需要,规则方法与统计方法两者可以灵活地互相调用和互相支持(嵌套)。

OK?

Page 23: 全信息理论与中文信息处理

23/4/19 23

Applications of CIM-NLU

InternetMobile Service

IR

Abstract Content Analyzer

ML- Dialog

IE

Page 24: 全信息理论与中文信息处理

23/4/19 24

三,研究的重点

Page 25: 全信息理论与中文信息处理

23/4/19 25

基本特色

1 ,以中文为起始对象

2 ,以“全信息自然语言理解”为基本方法

3 ,以领域相关为研究基点

4 ,以超越 Semantic Web 为基本目标

Page 26: 全信息理论与中文信息处理

23/4/19 26

An Example for “The Base”

Recalling The Concept “Tree”

Form { Content; Value }

The Structure of Information Base for Retrieval

{Form | Content; Value}

Page 27: 全信息理论与中文信息处理

23/4/19 27

语法特征 语义特征 语用特征

#1

#m

#1

#n

#1

#p

项(概念,词)

…… …以语句为单位以骨架为对象树的深度有限

(一)全信息的表示:全信息资源库建设的框架

Page 28: 全信息理论与中文信息处理

23/4/19 28

(三)应用:特定领域的智能网 (基于理解 / 认知的信息检索网)

CI-Web = CI-base • NLU-SE

(二)基于全信息理解的搜索引擎 核心技术参考《基本模型》: p.20

Page 29: 全信息理论与中文信息处理

23/4/19 29

Domain Specific CI-Web

Semantic Web = {Ontology} • Semantic SE

{CI Bases} • NLU-SECI-Web =

World-Wide Web = {Syntax} • Match-based SE

+ Semantics

+ Pragmatic

+ Semantics

+ Pragmatic

Page 30: 全信息理论与中文信息处理

23/4/19 30

请多批评,谢谢!