资源预览内容
第1页 / 共10页
第2页 / 共10页
第3页 / 共10页
第4页 / 共10页
第5页 / 共10页
第6页 / 共10页
第7页 / 共10页
第8页 / 共10页
第9页 / 共10页
第10页 / 共10页
亲,该文档总共10页全部预览完了,如果喜欢就下载吧!
资源描述
主成分分析1 主成分分析及主成分回归的基本思想主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式, 从这些指标中尽可能快的提取信息。 当第一个线性组合不能提取更多的信息时, 再考虑用第二个线性组合继续这个快速提取过程, 直到所提取的信息与原指标相差不多时为止。 主成分分析试图在力保数据信息丢失最少的原则下, 对这种多变量的截面数据表进行最佳综合简化, 也就是说,对高维变量空间进行降维处理。很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。 主成分回归是在主成分分析法的基础上,由 m 1 个自变量选出前 q 个主成分,他们是互不相关的;在保持因变量不变,用这q个主成分作为自变量作回归;最后把所得的结果作变量代换, 转化成原来因变量与自变量的关系。2 数学模型与几何解释主成分分析的数学模型是,设p 个变量构成p 维随机向量为Xi,X2,,Xp。对X作正交变换,令Y TTX ,其中T为正交阵,要求Y 的各分量是不相关的,并且Y 的第一个方差是最大的,第二个分量的方差次之,。为了保持信息不丢失,Y的各分量方差与 X 的各分量方差和相等。其数学推导为:设X Xi,X2,|,XpT为一个p维随机向量,弁假定存在二阶 矩,其均值向量与协方差分别记为E(X), D(X)考虑如下的线性变换丫2tiiXit12X1t2lX2t22X2tpiXptp2XpYp tipXi 12PX2. tppXp用矩阵表示为Y TTX其中,YY,Y2,|,Yp T ; TTi,T2,|,Tp o满足如下条件:每个主成分的系数平方和为1。即11TH 1。主成分之间相互独立,即无重叠信息。即Cov Y, Yj0,i j,i,j 1,2. p主成分的方差依次递减,重要性依次递减,即Var(Yi) Var(Y2) Var(Yp)3主成分分析的性质及推导(1)第一主成份的推导:1212 HI 1p设X的协方差阵为区21: Hi 2P:1;2p由于2 x为非负定的对称阵, x则有利用线性代数的知识可得,必存在正交阵T使得TT&T00其中1, 2,|, p为X的特征根,不妨假设12 I p。而T恰好是由特征根相对应的特征t向量所组成的正交阵。T (t1,|,tp)t11122122t1 pt2pnTi t1i, t2i,ll(,tpi i 1,2,I(I,P设有P维正交向量a1丫1a11X1. ap1X paXVar(Y) a1 a1aTa1 u1,u2,Uppp(iatiti a =i(ati)2当且仅当a1t1时,即tp1tp2IIIt ppa11, a21, a p1Ta1U1U2a1(ati)2丫1t1*1p1 a titi ai 1tp1Xp1a TTa1时,有最大的方差1。因为Var(Y) T1如果第一主成分表达的信息不够,则须找第二主成分。(2)第二主成分:因为第一,第二主成分线性无关所以有条件cov(%Y2) 0,寻找第二主成分以t2tl 0。则对p维向量t2有Var(Y2)pt2 t2it2 titi t2i ipi(t2ti)2 i ipp2(t2ti)22 t2 titi t22t2TTt2i 2i i2t2 t22 o所以取线性变换丫2t12X1t22X2tp2Xp,则丫2方差次大。依次类Y1tii Xi t2i X2推 Y2ti2Xit22X2tpiXptp2XpYptipXi 12 P X2tppX plt2tl 0 所丫2%Xi . tp2Xp ,因为 cov(Y,Y2)cov(ti X,t2X)t2 ti矩阵形式为Y TTX 。2.3.2主成份性质:性质i主成分的协方差矩阵是对角阵。(Yk,XJ性质2主成分的总方差等于原是变量的总方差。性质3主成分丫卜与原是变量Xi的相关系数为弁称之为因子负荷量。p 0,、性质 4 i i 2(Yk,Xi)? H r (k i,2,.p)。样本主成分性质i、第k个主成分Yk的系数向量是第k个特征根k所对应的标准化特征向量。2、第k个主成分的方差为第k个特征根且任意两个主成分都是不相关的,也就是Y,Y2,.,Yp的样本协方差矩阵是对角矩阵3、样本主成分的总方差等于原变量样本的总方差,为 p4、第k个样本主成分与第j个变量样本之间的相关系数为:(Yk,Xi).一tki(因子载荷量)2.4 主成分的方差贡献率主成分分析把p个原始变量Xi,X2,.,Xp的总方差tr()分解成一p了 p个相互独立的变量Yi,Y2,.,Yp的方差之和 主成分分析的目 k 1的是减少变量的个数,所以一般不会使用所有p个主成分,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们称kk/p k为第k个主成分Yk的贡献率。第一主成分的:k 1贡献率最大,这表明Yi TJX综合原始变量Xi,X2,.,Xp的能力最强,而Yi,Y2,.,Yp的综合能力依次递减。若只取m个主成分,则称k为主成分Yi,Y2,.,Yp的累计贡献率,累计贡献率表明Y1,Y2,.,Yp综合X1,X2,.,Xp的能力。通常使得累计贡献率达到一个较 高的百分数(如85蛆上)。2.5 主成分分析的计算步骤(1)由观测数据计算无,&及tkj k, j 1,2,.m(2)由协方差矩阵T得到特征值 -j 1,2.m及各个主成 分的方差贡献、贡献率和累计贡献率,弁根据累计贡献率确定主 成分保留的个数pojXmtiiXitl2XitimXi式中,jt2lX2t22 X 212mX21,2mtmiX mtm2X mtmmX m利用施密特正交化方法,对每一个j求他所对应的基本方程 组的解Xi,X2,,Xm, j i,2m,然后令从而得到用X;,X2,,X:所表示的主成分zjbkjX;,或将k*XkT代入后得到用Xi,X2Xm所表示的主成分zjbkjXk aj。 k(4)将X1,X2,,Xm的观测值带入主成分的表达式中计算各个主成分的值。(5)计算原指标与主成分的相关系数即因子载荷,解释主成分的意义。(资料素材和资料部分来自网络,供参考。可复制、编制,期待你的好评与关 注)
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号