第 0 章绪论第 1 章搜索问题第 2 章与或图搜索问题第 3 章...

复习• 第 0 章绪论 • 第 1 章搜索问题• 第 2 章与或图搜索问题• 第 3 章谓词逻辑与归结原理• 第 4 章知识表示方法 • 第 5 章不确定性推理 • 第 6 章机器学习 • 第 7 章高级搜索

第 0 章绪论主要知识点：人工智能的定义人工智能的研究目标人工智能的三个主要学派人工智能的主要研究应用领域。

第 0 章绪论• 人工智能的定义研究怎样使计算机模仿人脑所从事的感知、推理、学习、思考、规划等思维活动，来解决需要用人类智能才能解决的问题。

第 0 章绪论人工智能的研究目标近期目标建造智能计算机代替人类的部分智力劳动

远期目标用自动机模仿人类的思维过程和智能行为

第 0 章绪论• 符号主义（ Symbolists), 又称逻辑主义 (Logic's), 心理学派 (Psychlogism), 计算机学派 (Computerism). 原理主要为物理符号系统 ( 符号操作系统），认为人工智能源于数理逻辑，人的认知基元是符号 , 认知过程就是符号操作过程，人和计算机系统都是一个物理符号系统 . 其方法 : 以功能模拟人的智能

第 0 章绪论• 联结主义 (Connectionism), 又称仿生学派

(Bionicisism), 生理学派 (Physiologism).

主要原理为神经网络及神经网络间的连接机制与学习算法，认为人工智能源于仿生学 . 特别是人脑模型的研究，认为人的认知思维基元是神经元 , 用大脑工作模式代替电脑工作模式。

其方法 : 以结构模拟人的智能

8

第 0 章绪论人工智能研究论域• 自然语言理解与机器翻译• 数据库的智能检索• 专家咨询系统• 定理证明• 博弈• 机器人学• 自动程序设计• 组合调度问题• 感知问题

第 1 章搜索问题• 主要知识点：状态空间表示法盲目搜索和启发式搜索的特点宽度优先搜索、深度优先搜索、分支界限法、最佳优先搜索法、 A 算法、 A* 算法

• 问题的状态空间 (state space) 是一个表示该问题全部可能状态及其关系的图，它包含三种说明的集合，即所有可能的问题初始状态集合 S 、算符集合 F 以及目标状态集合G 。因此，可把状态空间记为三元状态 (S，F， G) 。

• 图搜索的定义—一种计算机在状态图中寻找路径的方法。

第 1 章搜索问题

• 深度优先搜索首先扩展最新产生的 ( 即最深的 ) 节点。深度相等的节点可以任意排列。这种盲目

( 无信息 ) 搜索叫做深度优先搜索或纵向搜索。深度优先搜索算法是一种“后进先出”的算法。


八数码魔方的深度优先搜索树


• 宽度优先搜索以接近起始节点的程度逐层扩展节点的搜索方法 (breadth-first search) ，这种盲目 ( 无信息 ) 搜索叫做宽度优先搜索或横向搜索。

宽度优先搜索算法是一种“先进先出”的算法。


12 38

4567

12384 1

2 38456

7 412 38

56712 3

8 4 12 38

45

67

12 38

456

712

384

567

6 7 8 9 10 11 12 13

12 38

4 567567 567

1

12 38

4567

12 3

8 4567

12 38

45

67

12 38

4567

2 3 4 5

八数码魔方的宽度优先搜索树

13

456

12

384567 1

2 38456

7 12 38

456

71 2 3

8 456

71 2 38 4

567

23 24 25 26 27

123

67

8

22

12384567

12 38

456

71 2 3

8 4567

12 3

84

567 1

2 3845

67

12 38

456

712

384

567

14 15 16 17 18 19 20 21

12 38

4 567

4

2829 30 31

12 3

84

56712 3

845

67 1

2 3845

67

12 38

45

67

32

13 4

56123

67

8

381

2384567

39 扩展 26 个节点，共生成 46 个节点之后，才得到目标

• 分支界限法分支界限法是优先扩展当前具有最小代价的分支路径的节点，其评价函数为 f(n)=g(n) ，直到生成目标节点为止。


• A 算法定义每个节点 n 的估价函数 f(n)=g(n)

+h(n) 从起始节点到节点 n 的代价 g(n) 以及从节点 n 到达目标节点代价的估算值 h(n) ，找出一个最有希望的节点来扩展。


• A* 算法• 在 A 算法中，如果满足条件：

h(n)≤h*(n)则 A 算法称为 A* 算法。

在 A 算法中，如果对所有的 x存在h(x)≤h*(x),则称 h(x)为 h*(x) 的下界，它表示某种偏于保守的估计。


• 8 数码问题– h1(n) = “不在位”的将牌数– h2(n) = 将牌“不在位”的距离和

2 8 31 6 47 5

1 2 3

45

7 6

8

将牌 1： 1将牌 2： 1将牌 6： 1将牌 8： 2

八数码魔方（ 8-puzzle problem ）

1 2 38 4

567

（目标状态）

12 38

45

67

（初始状态）

57

①

④

⑤

⑥

③

12 38

4567

12 38

45

67

12 38

456

7(1+4=5)(1+6=7) (1+6=7)

②

12 3

8 4567

12 38

4567

12 38

4567

(2+5=7)(2+5=7) (2+3=5)

12 38 4

56712 3

8 4567

(3+2=5) (3+4=7)

1 2 38 4

567(4+1=5)

81 32

4567

1 2 38 4

567(5+0=5) (5+2=7)

12 38

46(0+5=5)7

⑦ 八数码魔方的 A*算法搜索树

第三章与或图搜索问题• 主要知识点：与或图的启发式搜索算法 AO*

博弈搜索的极大极小法 -剪枝法。

第三章与或图搜索问题• 启发式搜索算法 AO* 过程：图生成过程，即扩展节点– 从最优的局部途中选择一个节点扩展计算耗散值的过程– 对当前的局部图重新新计算耗散值

第三章与或图搜索问题AO* 算法可划分成两个操作阶段：第一阶段是完成自顶向下的图生成操作 , 先通过有标记的连接符，找到目前为止最好的一个局部解图，然后对其中一个非终结点进行扩展，并对其后继结点赋估计耗散值和加能解标记。

第三章与或图搜索问题第二阶段是完成自下向上的耗散值修正计算、连接符 ( 即指针 ) 的标记以及结点的能解标记。耗散值的修正从刚被扩展的结点 n 开始，其修正耗散值 q(n) 取估计 h(n) 的所有值中最小的一个，然后根据耗散值递归计算公式逐级向上修正其先辈结点的耗散值，只有下层耗散值修正后，才可能影响上一层结点的耗散值，因此必须自底向上一直修正到初始结点。这由算法中的内循环过程完成。

25

AO* 算法举例其中： h(n0)=3 h(n1)=2 h(n2)=4 h(n3)=4 h(n4)=1 h(n5)=1 h(n6)=2 h(n7)=0 h(n8)=0

设： K 连接符的耗散值为 K目标

目标

初始节点n0

n1

n2

n3

n4

n5

n6

n7

n8

26目标目标

初始节点n0

n1

n2

n3

n4

n5

n6

n7

n8

n4(1)

红色： 4

黄色： 3

初始节点n0

n1(2)

n5(1)

27

目标目标

初始节点n0

n1

n2

n3

n4

n5

n6

n7

n8 红色： 4

黄色： 6

n3(4)

初始节点n0

n4(1)

n5(1)

n1

n2(4)

5

28

目标目标

初始节点n0

n1

n2

n3

n4

n5

n6

n7

n8

红色： 5

黄色： 6

初始节点n0

n4(1)

n5(1)

n1

n2(4)

n3(4)

5

n6(2)

n7(0)

n8(0)

2

29

目标目标

初始节点n0

n1

n2

n3

n4

n5

n6

n7

n8

红色： 5

黄色： 6

初始节点n0

n4(1)

n5(1)

n1

n2(4)

n3(4)

5

n6(2)

n7(0)

n8(0)

2

1

第三章与或图搜索问题• 对各个局面进行评估– 评估的目的：对后面的状态提前进行考虑，并且以各种状态的评估值为基础作出最好的走棋选择。 – 评估的方法：用评价函数对棋局进行评估。赢的评估值设为 +∞ ，输的评估值设为 -∞ ，平局的评估值设为 0 。 – 评估的标准：由于下棋的双方是对立的，只能选择其中一方为评估的标准方。

第三章与或图搜索问题• 正方（ MAX 节点）从所有子节点中，选取具有最大评估值的节点。• 反方（ MIN 节点）从其所有子节点中，选取具有最小评估值的节点。• 反复进行这种选取，就可以得到双方各个节点的评估值。这种确定棋步的方法，称为极小极大搜索法。

第三章与或图搜索问题• 在九宫格棋盘上，两位选手轮流在棋盘上摆各自的棋子 ( 每次一枚 ) ，谁先取得三线的结果就取胜。设程序方 MAX 的棋子用 (×) 表示，

MAX 先走。对手 MIN 的棋子用 (o) 表示。

第三章与或图搜索问题估计函数 f(p)=( 所有空格都放上 MAX 的棋子之后， MAX 的三子成线数 ) － ( 所有空格都放上 MIN 的棋子之后， MIN 的三子成线的总数 )

若 P 是MAX 获胜的格局，则 f(p)=+∞ ；若 P 是MIN 获胜的格局，则 f(p)＝ -∞ 。

估计函数值 f(p)=6-4=2

估计函数 f(p)=( 所有空格都放上 MAX 的棋子之后， MAX 的三子成线 ( 行、列、对角 ) 数 ) － ( 所有空格都放上 MIN 的棋子之后， MIN 的三子成线 ( 行、列、对角 )的总数 )

当前棋局f(p)=2

第三章与或图搜索问题

• -剪支法的引入在极小极大法中，必须求出所有终端节点的评估值，当预先考虑的棋步比较多时，计算量会大大增加。为了提高搜索的效率，引入了通过对评估值的上下限进行估计，从而减少需进行评估的节点范围的 -剪支法。


作为正方出现的 MAX 节点，假设它的 MIN子节点有 N 个，那么当它的第一个 MIN 子节点的评估值为时，则对于其它的子节点，如果有高过的，就取那最高的值作为该 MAX 节点的评估值；如果没有，则该MAX 节点的评估值为。总之，该MAX 节点的评估值不会低于，这个就称为该MAX 节点的评估下限值。

MAX 节点的评估下限值


• MIN 节点的评估上限值作为反方出现的 MIN 节点，假设它的 MAX 子节点有 N 个，那么当它的第一个 MAX 子节点的评估值为时，则对于其它子节点，如果有低于的，就取那个低于的值作为该 MIN 节点的评估值；如果没有，则该MIN 节点的评估值取。总之，该MIN 节点的评估值不会高过，这个就称为该MIN 节点的评估上限值。


• 剪支法

MAX 节点

MIN 节点 =

剪支A

B C D

设MAX 节点的下限为，则其所有的 MIN子节点中，其评估值的上限小于等于的节点，其以下部分的搜索都可以停止了，即对这部分节点进行了剪支。


设MIN 节点的上限为，则其所有的 MAX 子节点中，其评估值的下限大于等于的节点，其以下部分的搜索都可以停止了，即对这部分节点进行了剪支。

MAX 节点

MIN 节点

=

剪支A

B C D

剪支法


MAX 节点 (5,)

3 5 6 5 2 1 6 4

(6,) (2,)

(-,5) (-,2)

(5,)

MIN 节点

终端节点

剪支

剪支A

B C

D E F G

H I J K L N O M

MAX 节点第三章与或图搜索问题

第四章谓词逻辑与归结原理主要知识点：谓词逻辑表示的语言与方法谓词归结子句形谓词逻辑归结原理 Herbrand 定理

例：将下式化为 Skolem 标准形：～ (x)(y)P(a, x, y) →(x)(～ (y)Q(y, b)→R(x))

– 解：第一步，消去→号，得：～ (～ (x)(y)P(a, x, y)) ∨(x) (～～ (y)Q(y, b)∨R(x))– 第二步，～深入到量词内部，得： (x)(y)P(a, x, y) ∨(x) ((y)Q(y, b)∨R(x))– 第三步，变元易名，得(x)(y)P(a, x, y) ∨(u) ( v)(Q(v, b) ∨R(u))

– 第四步，存在量词左移，直至所有的量词移到前面，(x) (y) (u) ( v) (P(a, x, y) ∨(Q(v, b) ∨R(u))由此得到前述范式

– 第五步，消去“”（存在量词），略去“”全称量词– 消去 (y) ，因为它左边只有 (x) ，所以使用x 的函数 f(x)代替之，这样得到：

(x)(u)(v) (P(a, x, f(x)) ∨ Q(v, b)∨R(u))– 消去 (u) ，同理使用 g(x)代替之，这样得到：

(x) (v) ( P(a, x, f(x)) ∨ Q(v, b) ∨ R(g(x)))– 则，略去全称变量，原式的 Skolem 标准形为：

P(a, x, f(x)) ∨ Q(v, b) ∨ R(g(x))

例题“快乐学生”问题假设任何通过计算机考试并获奖的人都是快乐的，任何肯学习或幸运的人都可以通过所有的考试，张不肯学习但他是幸运的，任何幸运的人都能获奖。求证：张是快乐的。证明：先将问题用谓词表示如下：R1:“任何通过计算机考试并获奖的人都是快乐的”

(x)((Pass(x, computer) Win(x, prize))→Happy(x))∧R2:“任何肯学习或幸运的人都可以通过所有考试”

(x)(y)(Study(x) Lucky(x)→Pass(x, y))∨R3:“张不肯学习但他是幸运的”～ Study(zhang) Lucky(zhang)∧

R4:“任何幸运的人都能获奖”(x)(Luck(x)→Win(x,prize))

结论：“张是快乐的”的否定～ Happy(zhang)

由 R1 及逻辑转换公式 :P W→H = ∧ ～（ P W∧ ）∨ H ，可得 (1)～ Pass(x, computer)∨～Win(x, prize) Happy(x)∨由 R2 ： (2)～ Study(y) Pass(y,z)∨ (3)～ Lucky(u) Pass(u,v)∨由 R3 ： (4)～ Study(zhang) (5)Lucky(zhang)由 R4 ： (6)～ Lucky(w) Win(w∨ ， prize)由结论： (7)～ Happy(zhang) （结论的否定）(8)～ Pass(w, computer) Happy(w)∨ ∨～ Luck(w) (1)(6)， {w/x}(9)～ Pass(zhang, computer)∨～ Lucky(zhang) (8)(7)， {zhang/w}(10) ～ Pass(zhang, computer) (9)(5)(11) ～ Lucky(zhang) (10)(3)， {zhang/u, computer/v}(12) (11)(5)

例设已知： (1)能阅读者是识字的； (2)海豚不识字； (3)有些海豚是很聪明的。试证明：有些聪明者并不能阅读。证首先，定义如下谓词： R(x) ： x 能阅读。 L(x) ： x 识字。 I(x) ： x 是聪明的。 D(x) ： x 是海豚。

然后把上述各语句翻译为谓词公式：(1) x(R(x)→L(x))(2) x(D(x)→ ﹁ L(x)) 已知条件(3) x(D(x)∧I(x))(4) x(I(x)∧﹁ R(x)) 需证结论

求题设与结论否定的子句集，得(1)﹁ R(x)∨L(x)(2)﹁ D(y)∨ ﹁ L(y)(3)D(a)(4)I(a)(5)﹁ I(z)∨R(z)

第五章知识表示• 主要知识点：产生式规则表示法语义网络表示法框架表示法

表示方法—产生式规则表示法• 产生式系统基本结构

推理机

数据库规则库知识库

产生式系统结构图

表示方法—产生式规则表示法• 正向推理方法：从已知事实出发，逐步推导出最后结论。其推理过程大致是：– 用工作存储器中的事实与产生式规则的前提条件进行匹配。–按冲突消解策略从匹配的规则中选择一条规则。–执行选中规则的动作（依次）。修改工作存储器。– 用更新后的工作存储器，重复上述工作，直到得出结论或工作存储器不再发生变化为止。

表示方法—产生式规则表示法• 反向推理方法：首先提出假设，然后验证这些假设的真假性，找到假设成立的所有证据或事实。其推理过程大致是：– 看假设是否存在于工作存储器中，若在，则假设成立，推理结束。– 找出结论与此假设匹配的规则。– 按冲突消解策略从匹配的规则实例中选择一条规则。– 将选中的规则的前提条件作为新的假设，重复上述工作，直到假设的真假性被验证或不存在激活的规则。

表示方法—产生式规则表示法• 优点– 模块性。规则与规则之间相互独立– 灵活性。知识库易于增加、修改、删除– 自然性。方便地表示专家的启发性知识与经验– 透明性。易于保留动作所产生的变化、轨迹

表示方法—产生式规则表示法• 缺点：– 知识库维护难。– 效率低。为了模块一致性。– 理解难。由于规则一致性彼此之间不能调用。

表示方法—语义网络表示法• 表示形式

每一个要表达的事实用一个“结点”表示，而事实之间的关系用“弧线”表示。即，有向图表示的三元组，（结点 1 ，弧，结点2 ）连接而成。

张三职员

李四

四肢

手

动物人类

老板

办公用品桌子

i sa ako ako

manage-ofi sa

owns

ako

has-part

ako

ako

表示方法—语义网络表示法推理方法– 网络匹配：结构上的匹配，包括结点和弧的匹配–继承推理：利用如：成员联系、特征联系、相互作用联系、集合联系、合成联系、因果联系、活动方式联式、活动目标联系、蕴含联系等具有继承性质的语义联系建立一些并不一定显示存在于网络知识库中的网络结构。– 语义网络上的推理：网络上的搜索过程，正向、逆向、双向。

表示方法—语义网络表示法• 特点：–语义网络图的好处是直观、清晰–缺点是表达范围有限。如，一旦有十个结点，而且各结点之间又有联系，则这个网络就很难辨请了。

表示方法—框架表示法• 定义–框架是由若干个结点和关系（统称为槽）构成的网络。是语义网络的一般化形式的一种结构。同语义网络没有本质的区别。如书上的所示如将语音网络结点间弧上的标注也放到槽内就成了框架表示形式。

• 表示形式：–由框架名、槽名、侧面、值组成

• 推理方法：–没有固定的推理机理。但和语义网络一样遵循匹配和继承的原理。

表示方法—框架表示法简单框架的例子：

MichealGender ： manProfession: singerHeight: 185cmWeight: 79kgAge: 27

表示方法—框架表示法• 框架之间的关系框架也分为类框架和实例框架。通过引入类 - 超类

（ AKO ）及实例 -类（ ISA ）关系来表示框架之间的包含关系和属于关系。框架理论将知识看成相互关系的成块组织。• 推理方法：– 匹配：和语义网络一样遵循匹配原理。– 槽计算：继承（属性值、属性、限制），附加过程，即附加在数据结构上，启动时计算槽值。

表示方法—混合型知识表示法• 上述的知识表示虽各有特点，而且适用的领域也不同。如：–谓词逻辑方法只适用于确定性、陈述性、静态性知识，而对动态的、变化性、模糊性知识则很难表示。 – 产生式规则方法推理方法太单一，如果前提条件太多，或规则条数太多，则推理的速度将慢得惊人。 – 语义网络方法表达的知识面比较窄。 –框架方法表示的知识横向关系不太明确。（纵向从属继承关系很明确）

• 对于复杂的、深层次的知识，就很难用一种知识表示来解决问题。

第 6 章机器学习• 主要知识点：实例学习基于解释的学习决策树学习神经网络学习

机器学习 — 概述• 机器学习模型– 学习是建立理论、形成假设和进行归纳推理的过程。

– 整个过程包括：信息的存储、知识的处理两部分

环境学习环节知识库执行环节

实例学习– 50年代兴起的实例学习是归纳学习的一种。目前实例学习在某些系统中的应用已成为机器学习走向实践的先导。– 环境提供给系统一些特殊的实例，这些实例事先由施教者划分为正例和反例。实例学习系统由此进行归纳推理得到一般规则。– 环境提供给学习环节的正例和反例是低水平的信息，这是特殊情况下执行环节的行为。学习环节归纳出的规则是高水平的信息，可以在一般情况下用这些规则指导执行环节的工作。

实例学习• 解释例子– 解释例子的目的是从例子中提出用于搜索空间的信息。把示教例子变换成易于进行符号归纳的形式。–例如： Winston 的积木世界中的“拱”的概念。

B CA

• 温斯顿拱概念的学习中，示例分为两种：– 一是适合于拱概念的例子，称为正例；–另一种是相反的例子，称为反例。

正例反例

2. 根据逐次展开的示例生成归纳模型从第一个正例，可学习到原始拱的初始模型，至于哪个节点或连线具有本质意义呢，从第一个例子中还看不出来。

第一个正例

支撑支撑

在左面学到的模型

学完第二个负例后，再对第一个正例建立的模型进行增强，得到一定要支撑一定要支撑

在左面

增强的模型

第三个负例及其语义网络

第三个负例

支撑支撑在左面

接触语义网络表示

第三个负例学完后，对正例模型再进行增强，得到一定要支撑一定要支撑

在左面一定不要接触

最后，再对第四个正例进行学习

第四个正例

支撑支撑

在左面

语义网络表示

得到增强的模型一定要支撑一定要支撑在左面

一定不要接触

表示不限定积木的形状

四个例子学完后的模型

对上述四个例子的学习总结，可得到• 如果现有模型中存在的连线在反例中不存在，如“支撑”连线在第二个反例中不存在，那么需要将该连线增强为“一定要支撑”。• 如果现有模型中不存在的连线在反例中出现了，则该连线应增强为“一定不要出现”。如第三个反例中的“接触”连线，在正模型中则变为“一定不要接触”。

• 现有模型与新的正例的对应节点不属于同一种物体时，则找出它们共同的上层节点，来替换原有模型的对应节点。• 如果它们没有共同的上层节点，则新设一个类别来表示这两个节点的属类别之和。• 现有模型中的连线在新的正例中不存在，则将其删除。

基于解释的学习 (简介 )

解释空间的描述– 概念空间：某个学习程序能描述的所有概念的集合，其中每一点对应例子空间的唯一的一个子集合。例： C1对应 I1， I2， I3。但概念空间的一个点可以对应概念描述空间的多个点。例： C1对应不可操作的 D1和可操作的 D2。对应同一概念的两个描述称为同义词。– 解释学习的任务：把不可操作的描述转化为可操作的描述。例： D1是搜索的开始结点， D2是解结点，解释是空间的变换，而可操作性是搜索结束的标准。从 D1到 D2的过程称作概念可操作。

EXL 概念描述的转换

KB PS

结果是否可操作D1 D2

N

Y

解释学习的框架


解释学习的模型– 执行系统： PS– 学习系统： EXL– 领域知识库： KB(不同描述间转换的集合 )系统工作过程– EXL输入概念 C1的描述 D1（一般是不可操作的）– 根据 KB 中的知识，对其进行不同的转换（搜索）– PS 对每个转换结果进行测试，直至转换结果是 PS 可以接受的描述 D2（可操作的）时，学习结束，输出 D2


• 一般框架：– 给定：领域知识、目标概念、训练实例和操作性准则。

• 领域知识：描述领域的事实和规则，背景知识，用来证明训练实例为什么可作为目标概念的实例。• 训练实例：为了解释学习提供的一个例子，解释学习正是从该例出发，通过运用领域知识进行证明，最终推广出目标概念的描述。• 操作性准则：用于指明哪些测试在运行时容易判定，指导系统对描述目标的概念进行取舍。

– 找出：满足操作性准则的关于概念的充分条件

决策树的学习• 如果学习的任务是对一个大的例子集作分类概念的归纳定义，而这些例子又都是用一些无结构的属性值对来表示，则可以采用示例学习方法的一个变种──决策树学习，其代表性的算法是昆兰（ J.R.Quinlan，1986 ）提出的 ID3 。

• 决策树 (Decision Tree) 一种描述概念空间的有效的归纳推理办法。基于决策树的学习方法可以进行不相关的多概念学习，具有简单快捷的优势，已经在各个领域取得广泛应用。

基于决策树的概念表示• 决策树是一种树型结构，其中每个内部结点表示在一个属性上的测试，每个分支代表一个测试输出，每个叶结点代表一种类别。

如，白化体动物的 8 个样本集合：事例动物种类身体颜色眼睛颜色白化体1 兔棕黑负2 兔白红正3 兔灰红负4 兔白红正5 象白黑负6 象白红正7 象灰红负8 象灰黑负

CLS 算法得出的决策树为：动物种类

兔象身体的颜色

眼睛的颜色

棕

灰白

+

红黑

身体的颜色

眼睛的颜色

棕

灰白

+

红黑

根据信息量标准选择分类属性• ID3对 CLS 的改进主要体现在两方面：①增加了窗口技术；②使用信息增量的方法来选择节点上的测试属性。

• 采用训练实例的子集 ( 即，可选择窗口 ) ，通过属性，使用熵概念，来形成决策树。实质是构造一株熵值下降平均最快的判定树。

信息熵的定义• 香农定义信息熵为，表征了信源整体的统计特征的一个量。即总体的平均不确定性的量度。对某一特定的信源，其信息熵只有一个，因统计特性不同，其熵也不同。• 信息熵表征了变量 X 的随机性。如信息熵大，表明 X随机性大；而信息熵小，变量 X的随机性就小。因此，熵反映了变量的随机性，也是表征随机变量统计特性的一个特征参数。

样本集的信息熵• 设样本数据集为： X=[x1,x2,…,xn] 记 X 的两个训练子集 P+X和 P-X 分别为正例集和反例集，其中 P+和 P- 分别为两个集合的概率，则样本空间的信息熵为： PPPPH 220 loglog

样本集属性 F 的信息熵• 假设样本集 X 有属性 F ，其属性值集合为 {v1,v2,…,vn} ，它将 X 划分为 n 个子集。假设第 i 个子集中包含 Ni

+ 个正例， Ni- 个反例，则该子集的信息熵为：

ii

i

ii

ivF NN

NNN

NHi 2log

ii

i

ii

i

NNN

NNN

2log

样本集属性 F 的信息熵• 因此，针对样本集的属性 F ，其各个取值的信息熵为 (其 pi为 F=vi 的概率， N 为样本总数 ) ：

ivF

n

iiF HpH

1

n

i ii

ii

ii

ii NN

NNNN

NNN 1

22 loglog1

ii

i

ii

in

i

ii

NNN

NNN

NNN

21

log

ii

i

ii

i

NNN

NNN

2log

• 因此，以属性 F 为根节点的样本集合信息增量是：

• 由于样本集的信息熵 H0 是不可改变的，所以当属性 F 的信息熵取 HF 最小时，获得的信息增量最大。即选择使 HF 最小的属性 F ，做为决策树的分叉节点。

FF HHgain 0

决策树分类节点的选取

例如，白化体样本集的分类• 根据具体的样本集合，计算其在各属性下的信息熵：

象种兔种种 HHH84

84

43log3

41log1

42log2

42log2

81

2222

906.0

灰体白体棕体体 HHHH83

84

81

30log0

33log3

41log1

43log3

10log0

11log1

81

222222

406.0

红眼黑眼眼 HHH85

83

52log2

53log3

30log0

33log3

81

2222

607.0

• 从上述计算中发现，

因此选身体的颜色这个属性来进行分类，其信息增量为最大。• 由于身体颜色这个属性中，仍有分枝存在正负例混杂的情况，需要对其继续进行分类。

种眼体 HHH

• 分别计算四个身体颜色为白的分枝下，种类和眼睛颜色属性的信息熵：象种兔种种 HHH

42

42

21log1

21log1

20log0

22log2

41

2222

5.0

黑眼红眼眼 HHH41

43

10log0

11log1

30log0

33log3

41

2222

0

• 因此，作为下一次分类的属性，就选择眼睛的颜色了。而且由于它的信息熵为 0 ，表示没有必要再进行分类了。• 最后得到的决策树如图所示。

身体的颜色

眼睛的颜色

棕

灰白

+

红黑

例：设样本集合如下所示，其中 A、 B、 C是 F 的属性，试根据信息增益标准 (ID3 算法 ) 求解 F 的决策树。

A B C F

0 0 0 0 0 0 1 1 0 1 0 0 0 1 1 1 1 0 0 1 1 0 1 1 1 1 0 0

(已知 log2(2/3)= -0.5842, log2(1/3)= -1.5850, log2(3/4)= -0.41504, )

计算样本分别按三种属性分类的信息熵965.0

31log1

32log2

42log2

42log2

71

73

74

222210

AAA HHH

857.032log2

31log1

41log1

43log3

71

73

74

222210

BBB HHH

464.030log0

33log3

43log3

41log1

71

73

74

222210

CCC HHH

5.021log1

21log1

41

42

42

2210

AAA HHH

5.021log1

21log1

41

42

42

2210

BBB HHH

所以第一次分类选属性 C ，对 C=0的四个例子再进行第二次分类。

所以，可任选属性 A 或 B 作为第二次分类的标准，如选属性 A，则 A=1的两个例子再按属性 B 分类，得到

0021

21

21

10 BBB HHH

最后，得到 F 的决策树如下：C

A +

C=1C=0

—B

A=0A=1

—+

B=0B=1

• 什么叫人工神经网络– 采用物理可实现的系统来模仿人脑神经细胞的结构和功能的系统。

• 为什么要研究神经网络– 用计算机代替人的脑力劳动。 – 计算机速度为纳秒级，人脑细胞反应时间是毫秒级。而计算机不如人。 – 长期以来人类的梦想，机器既能超越人的计算能力，又有类似于人的识别、分析、联想等能力。

人工神经网络

基本原理－神经元模型

• 神经元– 每一个细胞处于两种状态。突触联接有强度。多输入单输出。实质上传播的是脉冲信号，信号的强弱与脉冲频率成正比。

yi

si

x1

x2

xn

ui

θ i

基本原理－神经元模型• 转移函数：– 神经细胞的输出对输入的反映。典型的转移函数是非线性的。

f (u) f (u) f (u)1 1 1

0 0 0u u u

(a) (b) (c)

单层感知机的学习算法• 单层感知机的学习是错误订正的学习，在导师的指导下，根据学习信号不断修改其连接权值。罗森布拉特感知器的学习信号是网络输出 x 与教师信号 d 的差： =d-x 权值修改按下式进行：其中， k ，为学习的效率系数。

10 0 kxtkt ii ， )()1(

例如，给定下列条件• x1=0, x2=1, 1(0)=0.0, 2(0)=0.2, =0.5, k=0.9, =0.2

• 要求经过学习后，输出 x=d=1

t=0 时的情况 0]3.0[15.02.001)0()0(1 2211 xxx

00)01(2.009.0)()0()1( 111 xxdk

38.01)01(2.02.09.0)()0()1( 222 xxdk

t=1 时的情况 0]12.0[15.038.001)1()1(1 2211 xxx

00)01(2.009.0)()1()2( 111 xxdk

542.01)01(2.038.09.0)()1()2( 222 xxdk

t=2 时的情况

1]042.0[15.0542.001)2()2(1 2211 xxx

前馈型神经网络• 多层感知器 –多层感知器的输入输出关系与单层感知器完全相同。前一层的输出是下一层的输入。也被称为 BP 网络。

)(

)(

...

)(

1

2

0

1

1

0

12

1

0

1

i

n

iijj

j

n

jikk

vk

n

k

vkll

xwfx

xwfx

xwfyv

前馈型神经网• 多层感知器 –采用 BP 算法学习时要求传递函数为有界连续可微函数如 sigmoid 函数。因此，网络可以用一个连续的超曲面（而不仅仅是一个超平面）来完成划分输入样本空间的功能。– 先求误差，用梯度下降的方法求误差的传递。从后往前算。

21

0

)(21

1

11

P

P

m

l

Pl

Pl ytE

BP网络的拓扑结构x1 o1

输出层隐藏层输入层

x2 o2

omxn

… … … … …… …

训练过程• 样本： ( 输入向量，理想输出向量 )• 权初始化：“小随机数”与饱和状态；“不同”保证网络可以学。• 1 、向前传播阶段：• （ 1 ）从样本集中取一个样本（ X p，Y p ），将Xp输入网络；• （ 2 ）计算相应的实际输出 Op：• Op=Fn （ … （ F2 （ F1 （ XpW(1) ） W(2) ）…）W(n) ）

• 2 、向后传播阶段——误差传播阶段：• （ 1 ）计算实际输出 Op与相应的理想输出 Yp的差；• （ 2 ）按极小化误差的方式调整权矩阵。• 网络关于第 p个样本的误差测度：• Ep=• 网络关于整个样本集的误差测度：• E=∑Ep

m

1j

2pjpj oy

21

• 练习：设 x1=0 ，

x2=1， 1(0)=0.0， 2(0)=0.2， =0.5， k=0.8， =0.2 。期望输出值 d=1 ，激活函数取阶跃函数，在采用错误订正，试确定学习后神经元的输出 y达到期望值 d 的时间和修改后的权值。

•

0

0

x1

x2

1

2

x

t=0 时的情况 0]3.0[15.02.001)0()0(1 2211 xxx

00012008001 111 )(..)()()( xxdk

36010120208001 222 .)(...)()()( xxdk

t=1 时的情况 014015036001111 2211 ].[..)()( xxx

00012008012 111 )(..)()()( xxdk

4880101203608012 222 .)(...)()()( xxdk

t=2 时的情况 00120150488001221 2211 ].[..)()( xxx

00012008023 111 )(..)()()( xxdk

590401012048808023 222 .)(...)()()( xxdk

t=3 时的情况 1090401505904001331 2211 ].[..)()( xxx

第 7 章遗传算法模拟生物在自然环境中的遗传和进化过程而形成的一种自适应全局优化概率搜索算法。

基本遗传算法的基本步骤• 基本遗传算法（ Simple Genetic Algorithms,简称 SGA ）是一种统一的最基本的遗传算法，它只使用选择、交叉、变异这三种基本遗传算子，其遗传进化操作过程简单，容易理解，是其他一些遗传算法的雏形和基础，它不仅给各种遗传算法提供了一个基本框架，同时也具有一定的应用价值。

基本遗传算法的框图初始化种群 (t=0)

计算适应度的值

选择操作 t=t+1

遗传操作 (交叉、变异）

结束终止条件

SGA 的步骤：1.初代种群的生成

根据算法规模，选择 N 个具有随机染色体的个体。在二进制情况下，即生成规定长度的位串形式编码。例如，设某数的取值范围是 [A， B] ，用 t 位长的二进制码来表示该数，可将 B-A 分成 2t-1等份，即 000000000000=0 A 000000000001=1 A+ 111111111111=2t-1 B其中，

12

t

AB

• 假设某一个个体的编码是： x： xtxt-1xt-2x2x1

则它对应的实数为：

t

i

iit xABAx

1

1212

2. 适应度的计算• 按照预先确定的适应函数对各个个体 xi ，计算其相应的适应函数的值 f(xi) 。

3. 终止条件的测试• 满足算法停止的最简单的两个条件：

① 完成了预先给定的进化代数则停止；② 群体中的最优个体在连续若干代没有改进或平均适应度在连续若干代基本没有改进时停止。

4. 选择操作• 从第 t代中选择 N 个进入 t+1代的个体。选择按比例选择方式进行，即“转轮盘”。

比例选择的具体执行过程：• 先计算出群体中所有个体的适应度之和；

• 其次计算出每个个体的相对适应度的大小，此值即为各个个体被遗传到下一代群体中的概率；

N

jjXf

1

)(

N

jj

ii

Xf

XfXp

1)(

)()(

比例选择的具体执行过程：• 最后再根据个体总数 N ，来决定各个个体进入下一代的个数。

其中， Ni 是个体 Xi 进入下一代的期望个数，是平均适应度。

fXf

NXf

XfNXf

XfN iN

jj

iN

jj

ii

)(

/)(

)(

)(

)(

11

f

例如，某种群有四个个体 X1-X4 ，• 其适应度如下表所示：个体

Xi适应度f(Xi)

选择概率p(Xi)

进入下一代的 Ni 数实际被选择的个数X1 150 0.405 1.62 2X2 80 0.21 0.84 1X3 40 0.11 0.44 0X4 100 0.27 1.08 1

5923704

1

.)(

fXfj

j ，

5. 遗传操作• 交叉操作的简单方式是将被选择出的两个个体 P1和 P2 作为父母个体，将两者的部分码值进行交换。

• 例如，有两个 8 位的二进制码个体： 1 0 0 0 1 1 1 0 1 1 0 1 1 0 0 1 根据随机产生的交叉位数，如 3 ，进行低 3 位的交换。得到 1 0 0 0 1 0 0 1 和 1 1 0 1 1 1 1 0这就是它们的后代。

变异操作• 变异操作的简单方式是改变数码串的某个位置上的数码。二进制编码表示的简单变异操作是将 0 与 1 互换： 0 变异为 1 ， 1变异为 0 。• 例如，某个码长为 8 位二进制的个体， 1 0 1 0 0 1 1 0 根据随机产生的变异位数，如 5 ，改变第5 位的值，由 0变 1 。得到

1 0 1 1 0 1 1 0

基本遗传算法的运行参数• 基本遗传算法有下述 4 个运行参数需要提前设定：种群大小 N ，即群体中所含个体数目，一般取为 20~100 ；遗传运算的终止进化代数 T ，一般取为 100~500 ；交叉概率 Pc ，一般取为 0.4~0.99 ；变异概率 Pm ，一般取为 0.0001~0.1 。

简单函数最优化举例• 利用 SGA 算法，在区间 [-6.4, 6.3] 上求下列函数的最大值。

2220 xexf x cos)( .

各参数的设定• 设定种群的规模 N=10 ，交叉率 pc=0.6 ，变异率 pm=0.006 。• 用二进制编码表示种群中的每一个染色体，来代表变量 x 的实数值。矢量的长度取决于本题所要求的精度，取小数点后 1 位。• 这样 [-6.4， 6.3] 的区间将被均匀分为个等长的区间。由于 27=128 ，所以码长 7位。

127104636 ).(.

• 假设某一个个体的编码是： x： x7x6x5x2x1

则它对应的实数为：

7

1

17

1

17 210462

12463646

i

ii

i

ii xxx ..).(..

遗传操作的过程• 首先，随机地生成初始种群；然后按 f(x) 分别计算各个个体的适应度的值；再进行终止条件的测试；最后按 pc、 pm等参数进行“选择交叉变异”等遗传操作。• 经过 8 次迭代，得到了最优解 x=1000000 ，它对应的实数值为：

0641046 ..x

第 0 章绪论第 1 章搜索问题第 2 章与或图搜索问题第 3 章...

Documents

Transcript of 第 0 章绪论第 1 章搜索问题第 2 章与或图搜索问题第 3 章...

第 0 章 绪论 第 1 章搜索问题 第 2 章 与或图搜索问题 第 3 章...

Documents

Transcript of 第 0 章 绪论 第 1 章搜索问题 第 2 章 与或图搜索问题 第 3 章...

第 0 章绪论第 1 章搜索问题第 2 章与或图搜索问题第 3 章...

Transcript of 第 0 章绪论第 1 章搜索问题第 2 章与或图搜索问题第 3 章...