PCA （ principle components analysis) 网络及算法

PCA （ principle components analysis)网络及算法

房子成郑金斌

主要内容神经网络 PCA 的基本结构 PCA 的基本原理 PCA 算法的进一步扩展研究网络遇到的问题 PCA 仿真应用

第一个问题：神经网络 PCA 的基本结构一、单个神经元抽取最大分量

输出为

权值修正公式：

向量形式：

1

0

p

iiixy

)]()()()[()()1( nnynxnynn iiii

)]()()()[()()1( nxnynxnynwnw

二、单层网络抽取一主分量

网络的输出为： Sanger 提出如下的权值修正公式：

向量形式：

其中

1

0)()()(

p

iijij nxnny

j

kkiiijji nknnynxny

0)]()()()()([

)()()('))( 2( nwnynxnyjnw j

jj

1

0)()()()('

j

kkk nwnynxnx

第二个问题： PCA 的基本原理 E[X]=0 a=xTu=uTx σ2=E[a2]=uTRxxu φ(u)= σ2=uTRxxu φ(u+δu) ≤ φ(u) (δu)TRxxu≈0 (δu)Tu≈0 (δu)T(Rxxu-λu)=0 Rxxu=λu

第二个问题： PCA 的基本原理 Λ=diag(λ0,λ1,…,λd － 1) UTRxxU=Λ

jkjk

URUj

Kxxt

j ,0,

1

0'

m

jjjuax

1

0

d

jjjuaUax

第二个问题： PCA 的基本原理误差为：

原是变量 x 的 d 个分量的总方差为：

变换后的向量前 m 个分量的方差为：

误差 e 的方差为：

1

0

1

0

2d

ji

d

jj

1

'd

mjjjuaxxe

1

0

1

0

2m

ji

m

jj

1d

mj i

结论：欲进行维数压缩，应先计算输入向量的相关矩阵 Rxx 的特征值和特征向量，并将特征向量单位化，按大小顺序排列。然后将原向量投影到前 m 个特征值对应的特征向量构成的子空间中，用 x’0,x’1,…,x’m-1 表示投影后的分量，则 x’0 具有最大方差，，与 x’0 不相关的方向中 x’1 ，具有最大方差。依次类推。

主成分的几何说明

第三个问题： PCA 算法的进一步扩展一、有侧向连接自适应的 PCA

说明：（ 1 ）由输入到神经元 0 ， 1 ，…， j 间是前向连接， j p,p﹤ 是维数，权向量为

Wj=[ωj,0(n), ωj,1(n), ωj,2(n), ωj,p-1(n),]T

他们是按 Hebb 规则学习的，起自增强的作用。（ 2 ）从神经元 0 ， 1 ，…， j － 1 到第 j 神经元间的侧向连接起反馈作用，反馈连接权为

aj(n)=[aj,o(n) ,aj,1(n), …, aj,j-1(n)]T

他们按反 Hebb 规则学习的，起抑制作用。

j 单元的输出为：yj(n)=wj

T(n)x(n)+ajT(n)yj-1(n)

其中反馈信号：yj-1(n)=[y0(n), y1(n), …, yj-1(n)]T

二、非线性的 PCA

线性 PCA 的不足：（ 1 ）常规的 PCA 可以用数值法求解，而基于梯度法的神经网络收敛较慢。（ 2 ）主分量只由数据的二阶统计量——自相关阵确定，这种二阶统计量只能描述平稳的高斯分布。（ 3 ） PCA 网络不能从线性组合中把独立信号成分分离出来。

非线性 PCA 的优势：（ 1 ）输入到输出的变换非线性的，使得神经网络更为有效。（ 2 ）梯度法通过迭代计算，避免了非线性方程，且可以用模拟硬件电路实现。（ 3 ）可以使用如累计量这样的高阶统计量，可以代表非高斯数据。（ 4 ）非线性处理可以使输出更加相互独立。

非线性主元的结构图

非线性主元：T=G(X) G=[G1,G2, …,

Gf]第 i 个主元 Ti 为：Ti=Gi(X)

对 T 反变换得Xj’=Hj(T)

重建误差：2'

1 1)( p

i

n

p

m

i

p

ixxE

三、鲁棒 PCA 算法目的：常规的 PCA 当原始数据有格点（ outliers) 时出现较大的误差，为解决这一个问题，基于鲁棒统计方法和统计物理方法中的鲁棒 PCA 算法，主要研究改善主成分分析的算法鲁棒性的一种途径，以提高

PCA 的精度。修正的 PCA 算法能够在运行中自动的识别样本集中的“劣点”，从而通过迭代计算加以适当处理来排除对运算精度的影响。

一是要考虑如何能够达到输出各主成分间相互独立。二是考虑如何去除或减弱有限的训练样本集少量的“劣点”样本的影响从而获得准确的主方向。

第四个问题：研究网络遇到的问题（ 1 ） GHA 算法中，步长的选择与什么因素有关？（ 2 ）单个神经元的 PCA 中，为什么不采用 Hebb规则？

在许多工程问题 , 特别如计算机视觉中 , 经常遇到用一个直线 ( 曲线 ) , 平面 ( 曲面 ) 或超平面 ( 超曲线 ) 拟合给定数据的问题 , 常用的是最小二乘法 (LS) ，例如给定一组数点 , 用一个直线模型在通常的 LS 意义拟合的问题，就是找到一个估计 , 是使：

其中：)},(min{),( 22 dkEdkE

)(,),( )(1

)(2

1

22 dkxxeedkE ii

i

N

ii

dkxx 12

dk,

如图：

是点到拟合直线的纵向线段的长度，因此上式的意义是使所有这种纵向线段的平方长度之和最小。其实，只有因变量有误差，而是准确的。所有测量结果都包含一定程度的误差。此时，上式确定的直线不是最优的，最优的直线应使“与拟合直线相垂直的所有线

x1

x2

o

ie ),( )(2

)(1

iii xxP

)(2ix )(

1ix

dxkx 12

|e|

P(i)r

(i)

段的平方长度之和”最小。

其中：这就是所谓总体最小二乘法（ TLS ）的思想，在直线或平面拟合是，可将直线或平面分别表示为：

)},,(min{),( '2

'2 dkEdkE

2

)(1

)(2

1

2'2

1,),(

k

dkxxrrdkE

ii

i

N

ii

00

02211

02211

bxaxaxabxaxa

NN

在 TLS意义上的最优拟合问题并不太复杂，可以用具有一个神经元的网络来解。从上式可知 TLS 法是使下式中的 E 最小。

令则可写为

22

21

0)(

22)(

11

1

2 ,aa

bxaxarrE

ii

i

N

ii

Tiii

T xxaa ],[x,],[a )(2

)(i21

aaea2Raa

aa)xa(

T0

T0

T

1T

20i

T bbNbEN

i

式中 e ， R 分别是数据的均值矢量和自相关矩阵，从，得 E 的临界点应满足。

上式是一个非线性矩阵，很难求解，这里采用一特殊的方法来求解，首先对方程两边取期望，得

xD0a ddE

aabea2Raa0,aeRa T

0T

0T

0

bb

eaT0 b

N

i 1

Tiixx

N1R

N

i 1ix

N1e,

代入上式并化简得：

式中为的协方差矩阵，由此可知 ,TLS 问题变成寻找矩阵的最小特征值和相应的归一化特征向量的问题，即求的第一次成分问题 , 得的特征向量即为直线和平面的系数，对于最小特征值和相应的归一化特征向量我们可以用 PCA 算法来求解。

TeeR xDaa

aa0,aa T

T

xD

PCA （ principle components analysis) 网络及算法

Documents

Transcript of PCA （ principle components analysis) 网络及算法