资源预览内容
第1页 / 共15页
第2页 / 共15页
第3页 / 共15页
第4页 / 共15页
第5页 / 共15页
第6页 / 共15页
第7页 / 共15页
第8页 / 共15页
第9页 / 共15页
第10页 / 共15页
亲,该文档总共15页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
主成分分析(PCA),冶继民 2015年7月,PCA从分析一个n元随机变量x着手其协方差为 , x(1); :; x(T) 是x的一个容量为T的样本 通常n元随机变量x是像素灰度值或不同时刻信号测量值 在PCA变换中, 向量x 首先被期望置零: x :x-Ex 然后, 寻找一个方向,记为W1,满足W1*W1=I, x在其上的投影为y1=w1*x, 使y1的方差为w1 w1最大,什么是主成分,问了寻找满足要求的w1,作lagrrange乘数函数,由于 w1不为零向量,即 是 的特征根,而且w1是与之对应的特征向量,设 的特征分解为,则易见,y1=e1*x具有最大方差,称为x的第一主分量,它最大综合反映了x具有的信息。 接下来再找第二个方向w2,满足w2*w2=1,x在w2上的投影y2=w2*x,使y2与y1不相关而且具有最大方差,即,,类似于的w1的情形 求解上约束优化,可得w2=e2,y2=e2*x,它是与y1不相关的方差最大的综合反映x具有信息的随机变量,且方差为 称y2为x的第二主分量,由,依次下去可得x的直到第r个主分量,r是随机变量x的秩,亦即 的秩。,主成分分析(PCA) (亦称 Hotelling 变换 , 或 Karhunen - Loeve 变换) 是数据分析和 信号分析的经典技术 PCA 可以去除数据或信号之间的相关性,同时前面少数几个主成分的方差和远大于后面主成分方差,从而可以用少数几个主成分更经济的反映x中信息 对高维高斯数据来说,PCA使主成分之间相互独立, 否则,PCA不能保证主成分之间独立,为什么要做主成分分析,二维正态分布主成分分析,主成分分析应用1:图像数据压缩,如果用前若干个主成分来近似随机向量X,即,,从而实现数据压缩,在图像传输过程中经常需要数据压缩。,例一:在数字图像处理中数据一般都非常大,需要数据压缩。图2的最左边一列是手写的10个数字。每个数字用32*32的二进矩阵表示,这样每个手写数字按行扫描结果就是一个1024维向量。对每个字母采集1700个手写样本并扫描获得一个1024*1700的数据集,它们的均值图像在第2列,计算每个数字数据集的协方差阵并计算其主成分和主成分向量。后年各列分别是用前1个,2个,5个,32个,64个主分量近似时给出的10个数字图像的重构。,图2:左边第1列10个数字图像,第2列:均值,其它列从左到右:用前1,2,5,16,32,64个主成分对数字图像的重构。,问题:在考虑因变量Y与p个自变量X1,Xp的回归模型中,当自变量之间具有较强相关性时,利用经典的回归方法求回归系数的最小二乘估计效果一般很差。,主成分分析应用:主成分回归,思路:考虑到主分量之间是不相关的,而且前面的主分量具有最大方差从而可以很好综合反映自变量数据的信息。,解决方法:用自变量数据集计算前若干个(m个)主分量的数据集,利用主分量为自变量作线性回归。,好处:消除了变量之间相关性的影响;一般m小于p,减少了线性回归规模。,注意:主分量是原变量在主分量向量上投影,即原变量的线性组合,一般需要用逆变换变回原变量的回归方程再进行解释。,例2:经济分析数据的主成分回归.考察进口总额Y 与三个自变量:国内总产值X. 存储量岛,总消费量均(单位均为10 亿法郎)之间的关系.现收集了1949 至1959 年共11 年的数据.对表7.6 的数据试用主成分回归分析方法求进口总额与总产值、存储量和总消费量的定量关系式. 。,解:首先把各变量的观测数据标准化,再调用SAS/STAT 软件中PRINCOMP 过程对3 个自变量做主成分分析;然后用主成分得分数据进行主成分回归.,经济数据表,The end!,
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号