资源预览内容
第1页 / 共56页
第2页 / 共56页
第3页 / 共56页
第4页 / 共56页
第5页 / 共56页
第6页 / 共56页
第7页 / 共56页
第8页 / 共56页
第9页 / 共56页
第10页 / 共56页
亲,该文档总共56页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
题目: 主成分分析 PCA路志宏Lu_zhihong163.comPrincipal Component Analysis内 容u 一、一、前前 言言u 二、二、问题的提出问题的提出u 三、主成分分析三、主成分分析1. 二维数据的例子二维数据的例子 2. PCA的几何意义的几何意义3. 均值和协方差、均值和协方差、 特征值和特征向量特征值和特征向量4. PCA的性质的性质 u 四、四、主成分分析的算法主成分分析的算法u 五、五、具体实例具体实例 实例实例2u 六、六、 结论结论七、七、练习练习21. 前前 言言假定你是一个公司的财务经理,掌握了公司的假定你是一个公司的财务经理,掌握了公司的所有数据,比如所有数据,比如固定资产、流动资金、每一笔固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等的分工和教育程度等等。如果让你介绍公司状况,你能够把这些指标和如果让你介绍公司状况,你能够把这些指标和数字都数字都原封不动地摆出去吗原封不动地摆出去吗? 当然不能当然不能。实例实例1 实例实例2你必须要把各个方面作出你必须要把各个方面作出高度概括高度概括,用一两个用一两个指标简单明了地把情况说清楚。指标简单明了地把情况说清楚。 l汇报什么?汇报什么?3PCA多变量问题是经常会遇到的。多变量问题是经常会遇到的。变量太多,无疑会增加分析问变量太多,无疑会增加分析问题的难度与复杂性题的难度与复杂性. 在许多实际问题中,多个变量之间是具有一定的相关关系的。在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,能否在各个变量之间相关关系研究的基础上,用因此,能否在各个变量之间相关关系研究的基础上,用较少较少的新变量代替原来较多的变量的新变量代替原来较多的变量,而且使这些较少的新变量,而且使这些较少的新变量尽尽可能多地保留原来较多的变量所反映的信息可能多地保留原来较多的变量所反映的信息?事实上,这种?事实上,这种想法是可以实现的想法是可以实现的.主成分分析原理主成分分析原理: 是把原来多个变量化为少数几个综合指标是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理的一种统计分析方法,从数学角度来看,这是一种降维处理技术。技术。主成分分析方法就是综合处理这种问题的一种强有力的方法。主成分分析方法就是综合处理这种问题的一种强有力的方法。4 (1) (1) 如何作主成分分析如何作主成分分析? ? 当当分分析析中中所所选选择择的的变变量量具具有有不不同同的的量量纲纲,变变量量水水平平差差异异很很大大,应应该该选选择择基基于于相相关关系系数数矩矩阵的主成分分析。阵的主成分分析。 在在力力求求数数据据信信息息丢丢失失最最少少的的原原则则下下,对对高高维维的的变变量量空空间间降降维维,即即研研究究指指标标体体系系的的少少数数几几个个线线性性组组合合,并并且且这这几几个个线线性性组组合合所所构构成成的的综综合合指指标标将将尽尽可可能能多多地地保保留留原原来来指指标标变变异异方方面面的的信信息息。这这些些综综合合指指标就称为主成分。标就称为主成分。要讨论的问题是:要讨论的问题是:2. 问题的提出问题的提出5各个变量之间差异很大各个变量之间差异很大6 (2 2) 如何选择几个主成分。如何选择几个主成分。 主主成成分分分分析析的的目目的的是是简简化化变变量量,一一般般情情况况下下主主成成分分的的个个数数应应该该小小于于原原始始变变量量的的个个数数。关关于于保保留留几几个个主主成成分分,应应该该权权衡衡主主成成分分个个数数和保留的信息。和保留的信息。 (3 3)如如何何解解释释主主成成分分所所包包含含的的几几何何意意义义或经济意义或其它。或经济意义或其它。7 美美国国的的统统计计学学家家斯斯通通(Stone)(Stone)在在19471947年年关关于于国国民民经经济济的的研研究究是是一一项项十十分分著著名名的的工工作作。他他曾曾利利用用美美国国19291929一一19381938年年各各年年的的数数据据,得得到到了了1717个个反反映映国国民民收收入入与与支支出出的的变变量量要要素素,例例如如雇雇主主补补贴贴、消消费费资资料料和和生生产产资资料料、纯纯公公共共支支出出、净净增增库库存存、股股息息、利利息息、外贸平衡等等。外贸平衡等等。l在进行主成分分析后,竟以在进行主成分分析后,竟以97.4的精度,用的精度,用三个新变量就取代了原三个新变量就取代了原17个变量。个变量。实例实例1: 经济分析经济分析8 根根据据经经济济学学知知识识,斯斯通通给给这这三三个个新新变变量量分分别别命命名名为为总总收收入入F1F1、总总收收入入变变化化率率F2F2和和经经济济发发展展或或衰衰退退的的趋趋势势F3F3。更更有有意意思思的的是是,这这三三个个变变量量其其实实都都是是可可以以直直接测量的。接测量的。9 主主成成分分分分析析就就是是试试图图在在力力保保数数据据信信息息丢丢失失最最少少的的原原则则下下,对对这这种种多多变变量量的的数数据据表表进进行行最最佳佳综综合合简简化化,也也就就是是说说,对对高高维维变变量量空空间间进行降维处理。进行降维处理。 很很显显然然,识识辨辨系系统统在在一一个个低低维维空空间间要要比比在一个高维空间容易得多。在一个高维空间容易得多。10实例实例2: 成绩数据成绩数据100个个学学生生的的数数学学、物物理理、化化学学、语语文文、历历史、英语的成绩如下表(部分史、英语的成绩如下表(部分)。)。 11从本例可能提出的问题从本例可能提出的问题目目前前的的问问题题是是,能能不不能能把把这这个个数数据据的的6 6个个变变量量用用一一两两个个综综合合变变量量来来表表示示呢呢?这这一一两两个个综综合合变变量量包包含含有有多多少少原原来来的的信息信息呢?呢?能能不不能能利利用用找找到到的的综综合合变变量量来来对对学学生生排排序序呢呢?这这一一类类数数据据所所涉涉及及的的问问题题可可以以推推广广到到对对企企业业,对对学学校校进进行行分分析析、排序、判别和分类等问题。排序、判别和分类等问题。12例中的的数据点是六维的;也就是说,每个观测值例中的的数据点是六维的;也就是说,每个观测值是是6维空间中的一个点。维空间中的一个点。我们希望把我们希望把6维空间用低维维空间用低维空间表示。空间表示。3.1 PCA: 二维数据分析二维数据分析13平均成绩73.769.861.372.577.272.36372.370单科平均成绩74.1747066.473.663.31415 先先假假定定数数据据只只有有二二维维,即即只只有有两两个个变变量量,它它们们由由横横坐坐标标和和纵纵坐坐标标所所代代表表;因因此此每每个个观观测测值值都都有有相相应应于于这这两两个个坐坐标轴的两个坐标值;标轴的两个坐标值; 如如果果这这些些数数据据形形成成一一个个椭椭圆圆形形状状的的点点阵阵(这这在在变变量量的的二二维维正正态态的的假假定定下下是可能的)是可能的). .163 3. .2 2主主成成分分分分析析的的几几何何解解释释平移、旋转坐标轴17主成分分析的几何解释平移、旋转坐标轴18 主成分分析的几何解释平移、旋转坐标轴19主成分分析的几何解释平移、旋转坐标轴203.2. PCA: 进一步解释进一步解释 椭椭圆圆有有一一个个长长轴轴和和一一个个短短轴轴。在在短短轴轴方方向向上上,数数据据变变化化很很少少;在在极极端端的的情情况况,短短轴轴如如果果退退化化成成一一点点,那那只只有有在在长长轴轴的的方方向向才才能能够够解解释释这这些些点点的的变变化化了了;这这样样,由由二二维维到到一一维维的降维就自然完成了。的降维就自然完成了。21二维数据二维数据22进一步解释进一步解释PCA当当坐坐标标轴轴和和椭椭圆圆的的长长短短轴轴平平行行,那那么么代代表表长长轴轴的的变变量量就就描描述述了了数数据据的的主主要要变变化化,而而代代表表短短轴轴的的变变量就描述了数据的次要变化。量就描述了数据的次要变化。但但是是,坐坐标标轴轴通通常常并并不不和和椭椭圆圆的的长长短短轴轴平平行行。因因此此,需需要要寻寻找找椭椭圆圆的的长长短短轴轴,并并进进行行变变换换,使使得得新变量和椭圆的长短轴平行。新变量和椭圆的长短轴平行。如如果果长长轴轴变变量量代代表表了了数数据据包包含含的的大大部部分分信信息息,就就用用该该变变量量代代替替原原先先的的两两个个变变量量(舍舍去去次次要要的的一一维维),降维就完成了。,降维就完成了。椭椭圆圆(球球)的的长长短短轴轴相相差差得得越越大大,降降维维也也越越有有道道理。理。23进一步解释进一步解释PCA(续续)对对于于多多维维变变量量的的情情况况和和二二维维类类似似,也也有有高高维维的的椭椭球球,只只不不过过无无法法直直观观地地看看见罢了。见罢了。首首先先把把高高维维椭椭球球的的主主轴轴找找出出来来,再再用用代代表表大大多多数数数数据据信信息息的的最最长长的的几几个个轴轴作作为为新新变变量量;这这样样,主主成成分分分分析析就就基基本完成了。本完成了。注注意意,和和二二维维情情况况类类似似,高高维维椭椭球球的的主主轴轴也也是是互互相相垂垂直直的的。这这些些互互相相正正交交的的新新变变量量是是原原先先变变量量的的线线性性组组合合,叫叫做主成分做主成分(principal component)。 24正正如如二二维维椭椭圆圆有有两两个个主主轴轴,三三维维椭椭球球有有三三个个主主轴轴一一样样,有有几几个个变变量量,就就有有几几个个主成分。主成分。选选择择越越少少的的主主成成分分,降降维维就就越越好好。什什么么是是标标准准呢呢?那那就就是是这这些些被被选选的的主主成成分分所所代代表表的的主主轴轴的的长长度度之之和和占占了了主主轴轴长长度度总总和和的的大大部部分分。有有些些文文献献建建议议,所所选选的的主主轴轴总总长长度度占占所所有有主主轴轴长长度度之之和和的的大大约约85%85%即即可可,其其实实,这这只只是是一一个个大大体体的的说说法;具体选几个,要看实际情况而定。法;具体选几个,要看实际情况而定。253.3. 均值和协方差均值和协方差 特征值和特征向量特征值和特征向量设有设有n个样本,每个样本观测个样本,每个样本观测p个指标(变量):个指标(变量):X1,X2,Xn, 得到原始数据矩阵:得到原始数据矩阵:261. 样本均值样本均值显然显然,样本均值是数据散列图的样本均值是数据散列图的中心中心.于是于是 p*n 矩阵的列矩阵的列B具有零样本均值具有零样本均值,称为平均偏差形式称为平均偏差形式M272. 样本协方差样本协方差 中心中心中心中心 协方差的大小在一定程度上反映了多变量协方差的大小在一定程度上反映了多变量之间的关系,但它还受变量自身度量单之间的关系,但它还受变量自身度量单位的影响位的影响.注意:协方差注意:协方差是对称矩阵且半正定是对称矩阵且半正定283.3 3.3 特征值与特征向量特征值与特征向量定义定义定义定义为阶方阵,为阶方阵,为数,为数, 为维非零向量,为维非零向量,若若则则称为称为的的特征值特征值, 称为称为的的特征向量特征向量注注注注并不一定唯一;并不一定唯一;阶方阵阶方阵的特征值,就是使齐次线性方程组的特征值,就是使齐次线性方程组特征向量特征向量 ,特征值问题只针对与方阵;,特征值问题只针对与方阵;有非零解的有非零解的值,即满足值,即满足的的都是都是方阵方阵的特征值的特征值定义定义定义定义称以称以为未知数的一元次方程为未知数的一元次方程为为的的特征方程特征方程29例例1:1: 从一个总体中随机抽取从一个总体中随机抽取4 4个样本作三个样本作三次测量次测量, ,每一个样本的观测向量为每一个样本的观测向量为: : 计算样本均值计算样本均值M M和协方差矩阵和协方差矩阵S S以及以及S S的特征值和特征向量的特征值和特征向量. .30Syntax C = cov(X)AlgorithmThe algorithm for cov is n,p = size(X);X = X - ones(n,1) * mean(X);Y = X*X/(n-1);See Also corrcoef, mean, std, var31平移、旋转坐标轴M7/25/202432 为了方便,我们在二维空间中讨论主成分的几何意义。为了方便,我们在二维空间中讨论主成分的几何意义。 设有设有n个样本,每个样本有两个观测变量个样本,每个样本有两个观测变量xl和和x2,在由变在由变量量xl和和x2 所确定的二维平面中,所确定的二维平面中,n个样本点所散布的情况个样本点所散布的情况如椭圆状如椭圆状。由图可以看出这。由图可以看出这n个样本点无论是沿着个样本点无论是沿着xl 轴方轴方向或向或x2轴方向都具有较大的离散性,其离散的程度可以分轴方向都具有较大的离散性,其离散的程度可以分别用观测变量别用观测变量xl 的方差和的方差和x2 的方差定量地表示。显然,的方差定量地表示。显然,如果只考虑如果只考虑xl和和x2 中的任何一个,那么包含在原始数据中中的任何一个,那么包含在原始数据中的信息将会有较大的损失。的信息将会有较大的损失。 7/25/202433 如果我们将如果我们将xl 轴和轴和x2轴先平移,再同时轴先平移,再同时按逆时针方向旋转按逆时针方向旋转 角度,得到新坐标轴角度,得到新坐标轴Fl和和F2。Fl和和F2是两个新变量是两个新变量。7/25/202434 Fl,F2除了可以对包含在除了可以对包含在Xl,X2中的信息起着中的信息起着浓缩作用之外,还具有不相关的性质,这就使得浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚在研究复杂的问题时避免了信息重叠所带来的虚假性。假性。二维平面上的个点的方差大部分都归结在二维平面上的个点的方差大部分都归结在Fl轴上,而轴上,而F2轴上的方差很小。轴上的方差很小。Fl和和F2称为原始变称为原始变量量x1和和x2的综合变量。的综合变量。 F简化了系统结构,抓住了主要矛盾。简化了系统结构,抓住了主要矛盾。 7/25/202435稍事休息稍事休息363.4 PCA3.4 PCA的性质的性质 一、两个线性代数的结论一、两个线性代数的结论 1、若A是p阶实对称阵,则一定可以找到正交阵U,使其中 是A A的特征根。37 2、若上述矩阵的特征根所对应的单位特征向量为 则实对称阵 属于不同特征根所对应的特征向量是正交的,即有令38 3.4 PCA的性质的性质(续续)3 3、均值、均值4 4、方差为所有特征根之和、方差为所有特征根之和 说说明明主主成成分分分分析析把把P P个个随随机机变变量量的的总总方方差差分分解解成成为为P P个不相关的随机变量的方差之和。个不相关的随机变量的方差之和。 协协方方差差矩矩阵阵 的的对对角角线线上上的的元元素素之之和和等等于于特特征征根根之和。之和。39 3.43.4、精度分析、精度分析 1)贡献率:第i个主成分的方差在全部方差中所占比重 ,称为贡献率 ,反映了原来P个指标多大的信息,有多大的综合能力 。 2)累积贡献率:前k个主成分共有多大的综合能力,用这k个主成分的方差和在全部方差中所占比重来描述,称为累积贡献率。40PCA常用统计量:.特征根i .各成分贡献率.前各成分累计贡献率.特征向量 各成分表达式中标准化原始变量的系数向量,就是各成分的特征向量。41 我我们们进进行行主主成成分分分分析析的的目目的的之之一一是是希希望望用用尽尽可可能能少少的的主主成成分分F F1 1,F F2 2,F Fk k(kpkp)代代替替原原来来的的P P个个指指标标。到到底底应应该该选选择择多多少少个个主主成成分分,在在实实际际工工作作中中,主主成成分分个个数数的的多多少少取取决决于于能能够够反反映映原原来来变变量量80%80%以以上上的的信信息息量量为为依依据据,即即当当累累积积贡贡献献率率80%80%时时的的主主成成分分的的个个数数就就足足够够了了。最最常见的情况是主成分为常见的情况是主成分为2 2到到3 3个。个。42 例例 设 的协方差矩阵为 解得特征根为 , , 第一个主成分的贡献率为5.83/(5.83+2.00+0.17)=72.875%,尽管第一个主成分的贡献率并不小,但应该取两个主成分。97.88%434 4 主成分分析的步骤主成分分析的步骤 第一步:由X的协方差阵x,求出其特征根,即解方程 ,可得特征根 。一、基于协方差矩阵44 第二步:求出分别所对应的特征向量U1,U2,Up, 第三步:计算累积贡献率,给出恰当的主成分个数。第四步:计算所选出的k个主成分的得分。将原始数据的中心化值: 代入前k个主成分的表达式,分别计算出各单位k个主成分的得分,并按得分值的大小排队。45 例例 应收账款是指企业因对外销售产品、材料、提供劳务及应收账款是指企业因对外销售产品、材料、提供劳务及其它原因,应向购货单位或接受劳务的单位收取的款项,包括应其它原因,应向购货单位或接受劳务的单位收取的款项,包括应收销货款、其它应收款和应收票据等。出于扩大销售的竞争需要,收销货款、其它应收款和应收票据等。出于扩大销售的竞争需要,企业不得不以赊销或其它优惠的方式招揽顾客,由于销售和收款企业不得不以赊销或其它优惠的方式招揽顾客,由于销售和收款的时间差,于是产生了应收款项。应收款赊销的效果的好坏,不的时间差,于是产生了应收款项。应收款赊销的效果的好坏,不仅依赖于企业的信用政策,还依赖于顾客的信用程度。由此,仅依赖于企业的信用政策,还依赖于顾客的信用程度。由此,评评价顾客的信用等级,了解顾客的综合信用程度,做到价顾客的信用等级,了解顾客的综合信用程度,做到“知己知彼,知己知彼,百战不殆百战不殆”,对加强企业的应收账款管理大有帮助,对加强企业的应收账款管理大有帮助。某企业为了。某企业为了了解其客户的信用程度,采用西方银行信用评估常用的了解其客户的信用程度,采用西方银行信用评估常用的5C5C方法,方法,5C5C的目的是说明顾客违约的可能性。的目的是说明顾客违约的可能性。 5 PCA的应用的应用 461、品品格格(用用X1表表示示),指指顾顾客客的的信信誉誉,履履行行偿偿还还义义务务的的可可能能性性。企企业业可可以以通通过过过过去去的的付付款款记记录录得得到到此此项。项。2、能能力力(用用X2表表示示),指指顾顾客客的的偿偿还还能能力力。即即其其流流动动资资产产的的数数量量和和质质量量以以及及流流动动负负载载的的比比率率。顾顾客客的的流流动动资资产产越越多多,其其转转化化为为现现金金支支付付款款项项的的能能力力越越强强。同同时时,还还应应注注意意顾顾客客流流动动资资产产的的质质量量,看看其其是是否否会会出出现现存存货货过过多多过过时时质质量量下下降降,影影响响其其变变现现能能力力和和支支付能力。付能力。3、资资本本(用用X3表表示示),指指顾顾客客的的财财务务势势力力和和财财务务状状况,表明顾客可能偿还债务的背景。况,表明顾客可能偿还债务的背景。4、附附带带的的担担保保品品(用用X4表表示示),指指借借款款人人以以容容易易出出售的资产做抵押。售的资产做抵押。5 5、环境条件(用环境条件(用X5表示),表示),指企业的外部因素,即指企业的外部因素,即指非企业本身能控制或操纵的因素。指非企业本身能控制或操纵的因素。 47 首先并抽取了10家具有可比性的同类企业作为样本,又请8位专家分别给10个企业的5个指标打分,然后分别计算企业5个指标的平均值,如表。 76.581.57675.871.78579.280.384.476.570.67367.668.178.5949487.589.59290.787.39181.58084.666.968.864.866.477.573.670.969.874.857.760.457.460.86585.668.57062.276.57069.271.764.968.9;48 Eigenvalues of the Covariance Matrix Eigenvalue Difference Proportion Cumulative PRIN1 410.506 367.242 0.845854 0.84585 PRIN2 43.264 22.594 0.089146 0.93500 PRIN3 20.670 12.599 0.042591 0.97759 PRIN4 8.071 5.266 0.016630 0.99422 PRIN5 2.805 0. 0 0.005779 1.00000 Eigenvectors PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 X1 0.468814 -.830612 0.021406 0.254654 -.158081 X2 0.484876 0.329916 0.014801 -.287720 -.757000 X3 0.472744 -.021174 -.412719 -.588582 0.509213 X4 0.461747 0.430904 -.240845 0.706283 0.210403 X5 0.329259 0.122930 0.878054 -.084286 0.31367749 第第 一一 主主 成成 份份 的的 贡贡 献献 率率 为为 84.6%84.6%, 第第 一一 主主 成成 份份 Z Z1 1=0.469X=0.469X1 1+0.485X+0.485X2 2+0.473X+0.473X3 3+0.462X+0.462X4 4+0.329X+0.329X5 5 的的各各项项系系数数大大致致相相等等,且且均均为为正正数数,说说明明第第一一主主成成份份是是对对所所有有指指标标的的一一个个综综合合测测度度,可可以以作作为为综综合合的的信信用用等等级级指指标标。可可以以用用来来排排序序。将将原原始始数数据据的的值值中中心心化化后后,代代入入第第一一主主成成份份Z Z1 1的的表表示示式式,计算各企业的得分,并按分值大小排序计算各企业的得分,并按分值大小排序: : 在在正正确确评评估估了了顾顾客客的的信信用用等等级级后后,就就能能正正确确制制定定出出对对其其的的信信用用期期、收收帐帐政政策策等等,这这对对于于加加强强应应收收帐帐款款的的管管理理大有帮助。大有帮助。序号序号1 12 23 34 45 56 67 78 89 91010得分得分3.163.1613.613.6-9.01-9.0135.935.925.125.1-10.3-10.3- -4.364.36-33.8-33.8- -6.416.41-13.8-13.8排序排序4 43 37 71 12 28 85 510106 69 950例例二二 基于相关系数矩阵的主成分分析。对美国纽约上市的有关化学产业的三个证券和石油产业的2个证券做了100周的收益率调查。下表是其相关系数矩阵。 1)利用相关系数矩阵做主成分分析。 2)决定要保留的主成分个数,并解释意义。10.5770.5090.00630.00370.57710.5990.3890.520.5090.59910.4360.4260.3870.3890.43610.5230.4620.3220.4260.523151 Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative PRIN1 2.85671 2.04755 0.571342 0.57134 PRIN2 0.80916 0.26949 0.161833 0.73317 PRIN3 0.53968 0.08818 0.107935 0.84111 PRIN4 0.45150 0.10855 0.090300 0.93141 PRIN5 0.34295 0. 0 0.068590 1.00000 Eigenvectors PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 X1 0.463605 -.240339 -.611705 0.386635 -.451262 X2 0.457108 -.509305 0.178189 0.206474 0.676223 X3 0.470176 -.260448 0.335056 -.662445 -.400007 X4 0.421459 0.525665 0.540763 0.472006 -.175599 X5 0.421224 0.581970 -.435176 -.382439 0.38502452 根据主成分分析的定义及性质,我们已大体上根据主成分分析的定义及性质,我们已大体上能看出主成分分析的一些应用。概括起来说,主成能看出主成分分析的一些应用。概括起来说,主成分分析主要有以下几方面的应用。分分析主要有以下几方面的应用。 1 1主成分分析能降低所研究的数据空间的维数。主成分分析能降低所研究的数据空间的维数。即用研究即用研究m m维的维的Y Y空间代替空间代替p p维的维的X X空间空间(m(mp)p),而低而低维的维的Y Y空间代替空间代替 高维的高维的x x空间所损失的信息很少。即:空间所损失的信息很少。即:使只有一个主成分使只有一个主成分Y Yl l( (即即 m m1)1)时,这个时,这个Y Yl l仍是使用仍是使用全部全部X X变量变量(p(p个个) )得到的。例如要计算得到的。例如要计算Y Yl l的均值也得的均值也得使用全部使用全部x x的均值。在所选的前的均值。在所选的前m m个主成分中,如果个主成分中,如果某个某个X Xi i的系数全部近似于零的话,就可以把这个的系数全部近似于零的话,就可以把这个X Xi i删除,这也是一种删除多余变量的方法。删除,这也是一种删除多余变量的方法。66 主成分分析结论主成分分析结论53 2.2. 多维数据的一种图形表示方法。我们知多维数据的一种图形表示方法。我们知道当维数大于道当维数大于3 3时便不能画出几何图形,多元统时便不能画出几何图形,多元统计研究的问题大都多于计研究的问题大都多于3 3个变量。要把研究的问个变量。要把研究的问题用图形表示出来是不可能的题用图形表示出来是不可能的。然而,经过主成然而,经过主成分分析后,我们可以选取前两个主成分或其中某分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出两个主成分,根据主成分的得分,画出n n个样品个样品在二维平面上的分布况,由图形可直观地看出各在二维平面上的分布况,由图形可直观地看出各样本在主分量中的地位。样本在主分量中的地位。54 3 3由主成分分析法构造回归模型。即把各由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量主成分作为新自变量代替原来自变量x x做回归分做回归分析。析。 4 4用主成分分析筛选回归变量。回归变量用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的计算量来选择量,获得选择最佳变量子集合的效果。效果。5556
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号