PCA ( principle components analysis) 网络及算法
-
Upload
chantale-irwin -
Category
Documents
-
view
166 -
download
2
description
Transcript of PCA ( principle components analysis) 网络及算法
PCA ( principle components analysis)网络及算法
房子成 郑金斌
主要内容 神经网络 PCA 的基本结构 PCA 的基本原理 PCA 算法的进一步扩展 研究网络遇到的问题 PCA 仿真应用
第一个问题:神经网络 PCA 的基本结构一、单个神经元抽取最大分量
输出为
权值修正公式:
向量形式:
1
0
p
iiixy
)]()()()[()()1( nnynxnynn iiii
)]()()()[()()1( nxnynxnynwnw
二、单层网络抽取一主分量
网络的输出为: Sanger 提出如下的权值修正公式:
向量形式:
其中
1
0)()()(
p
iijij nxnny
j
kkiiijji nknnynxny
0)]()()()()([
)()()('))( 2( nwnynxnyjnw j
jj
1
0)()()()('
j
kkk nwnynxnx
第二个问题: PCA 的基本原理 E[X]=0 a=xTu=uTx σ2=E[a2]=uTRxxu φ(u)= σ2=uTRxxu φ(u+δu) ≤ φ(u) (δu)TRxxu≈0 (δu)Tu≈0 (δu)T(Rxxu-λu)=0 Rxxu=λu
第二个问题: PCA 的基本原理 Λ=diag(λ0,λ1,…,λd - 1) UTRxxU=Λ
jkjk
URUj
Kxxt
j ,0,
1
0'
m
jjjuax
1
0
d
jjjuaUax
第二个问题: PCA 的基本原理 误差为:
原是变量 x 的 d 个分量的总方差为:
变换后的向量前 m 个分量的方差为:
误差 e 的方差为:
1
0
1
0
2d
ji
d
jj
1
'd
mjjjuaxxe
1
0
1
0
2m
ji
m
jj
1d
mj i
结论: 欲进行维数压缩,应先计算输入向量的相关矩阵 Rxx 的特征值和特征向量,并将特征向量单位化,按大小顺序排列。然后将原向量投影到前 m 个特征值对应的特征向量构成的子空间中,用 x’0,x’1,…,x’m-1 表示投影后的分量,则 x’0 具有最大方差,,与 x’0 不相关的方向中 x’1 ,具有最大方差。依次类推。
主成分的几何说明
第三个问题: PCA 算法的进一步扩展 一、有侧向连接自适应的 PCA
说明:( 1 )由输入到神经元 0 , 1 ,…, j 间是前向连接, j p,p﹤ 是维数,权向量为
Wj=[ωj,0(n), ωj,1(n), ωj,2(n), ωj,p-1(n),]T
他们是按 Hebb 规则学习的,起自增强的作用。( 2 )从神经元 0 , 1 ,…, j - 1 到第 j 神经元间的侧向连接起反馈作用,反馈连接权为
aj(n)=[aj,o(n) ,aj,1(n), …, aj,j-1(n)]T
他们按反 Hebb 规则学习的,起抑制作用。
j 单元的输出为:yj(n)=wj
T(n)x(n)+ajT(n)yj-1(n)
其中反馈信号:yj-1(n)=[y0(n), y1(n), …, yj-1(n)]T
二、非线性的 PCA
线性 PCA 的不足:( 1 )常规的 PCA 可以用数值法求解,而基于梯度法的神经网络收敛较慢。( 2 )主分量只由数据的二阶统计量——自相关阵确定,这种二阶统计量只能描述平稳的高斯分布。( 3 ) PCA 网络不能从线性组合中把独立信号成分分离出来。
非线性 PCA 的优势:( 1 )输入到输出的变换非线性的,使得神经网络更为有效。( 2 )梯度法通过迭代计算,避免了非线性方程,且可以用模拟硬件电路实现。( 3 )可以使用如累计量这样的高阶统计量,可以代表非高斯数据。( 4 )非线性处理可以使输出更加相互独立。
非线性主元的结构图
非线性主元:T=G(X) G=[G1,G2, …,
Gf]第 i 个主元 Ti 为:Ti=Gi(X)
对 T 反变换得Xj’=Hj(T)
重建误差:2'
1 1)( p
i
n
p
m
i
p
ixxE
三、鲁棒 PCA 算法目的: 常规的 PCA 当原始数据有格点( outliers) 时出现较大的误差,为解决这一个问题,基于鲁棒统计方法和统计物理方法中的鲁棒 PCA 算法,主要研究改善主成分分析的算法鲁棒性的一种途径,以提高
PCA 的精度。修正的 PCA 算法能够在运行中自动的识别样本集中的“劣点”,从而通过迭代计算加以适当处理来排除对运算精度的影响。
一是要考虑如何能够达到输出各主成分间相互独立。 二是考虑如何去除或减弱有限的训练样本集少量的“劣点”样本的影响从而获得准确的主方向。
第四个问题:研究网络遇到的问题 ( 1 ) GHA 算法中,步长的选择与什么因素有关? ( 2 )单个神经元的 PCA 中,为什么不采用 Hebb规则?
在许多工程问题 , 特别如计算机 视觉中 , 经常遇 到用一个直线 ( 曲线 ) , 平面 ( 曲面 ) 或超平面 ( 超曲线 ) 拟合给定数据的问题 , 常用的是最小二乘法 (LS) , 例如给定一组数点 , 用一个直线模型 在通常的 LS 意义 拟合 的问题,就是找到一个估计 , 是使:
其中:)},(min{),( 22 dkEdkE
)(,),( )(1
)(2
1
22 dkxxeedkE ii
i
N
ii
dkxx 12
dk,
如图:
是点 到拟合直线的纵向线段的长度, 因此上式的意义是使所有这种纵向线段的平方长度之和最小。其实,只有因变量 有误差,而 是准确的。所有测量结果都包含一定程度的误差。此时,上式确定的直线 不是最优的,最优的直线应使“与拟合直线相垂直的所有线
x1
x2
o
ie ),( )(2
)(1
iii xxP
)(2ix )(
1ix
dxkx 12
|e|
P(i)r
(i)
段的平方长度之和”最小。
其中: 这就是所谓总体最小二乘法( TLS )的思想,在直线或平面拟合是,可将直线或平面分别表示为:
)},,(min{),( '2
'2 dkEdkE
2
)(1
)(2
1
2'2
1,),(
k
dkxxrrdkE
ii
i
N
ii
00
02211
02211
bxaxaxabxaxa
NN
在 TLS意义上的最优拟合问题并不太复杂, 可以用具有一个神经元的网络来解。从上 式可知 TLS 法是使下式中的 E 最小。
令 则可写为
22
21
0)(
22)(
11
1
2 ,aa
bxaxarrE
ii
i
N
ii
Tiii
T xxaa ],[x,],[a )(2
)(i21
aaea2Raa
aa)xa(
T0
T0
T
1T
20i
T bbNbEN
i
式中 e , R 分别是数据 的均值矢量和自相关 矩阵,从 ,得 E 的临界点应满足。
上式是一个非线性矩阵,很难求解,这里采用一 特殊的方法来求解,首先对方程两边取期望,得
xD0a ddE
aabea2Raa0,aeRa T
0T
0T
0
bb
eaT0 b
N
i 1
Tiixx
N1R
N
i 1ix
N1e,
代入上式并化简得:
式中 为 的协方差矩阵,由此可知 ,TLS 问题变成寻找矩阵 的最小特征值和相应的归一化特征向量的问题,即求 的第一次成分问题 , 得的特征向量即为直线和平面的系数,对于最小特征值和相应的归一化特征向量我们可以用 PCA 算法来求解。
TeeR xDaa
aa0,aa T
T
xD