资源预览内容
第1页 / 共116页
第2页 / 共116页
第3页 / 共116页
第4页 / 共116页
第5页 / 共116页
第6页 / 共116页
第7页 / 共116页
第8页 / 共116页
第9页 / 共116页
第10页 / 共116页
亲,该文档总共116页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
主成分分析与 因子分析方法汇报什么? 假定你是一个公司的财务经理,掌握了公司的 所有数据,比如固定资产、流动资金、每一笔 借贷的数额和期限、各种税费、工资支出、原 料消耗、产值、利润、折旧、职工人数、职工 的分工和教育程度等等。 如果让你向上面介绍公司状况,你能够把这些 指标和数字都原封不动地摆出去吗? 当然不能。 你必须要把各个方面作出高度概括,用一两个 指标简单明了地把情况说清楚。 主成分分析 每个人都会遇到有很多变量的数据。 比如全国或各个地区的带有许多经济和社会变 量的数据;各个学校的研究、教学等各种变量 的数据等等。 这些数据的共同特点是变量很多,在如此多的 变量之中,有很多是相关的。人们希望能够找 出它们的少数“代表”来对它们进行描述。 本章就介绍两种把变量维数降低以便于描述、 理解和分析的方法:主成分分析(principal component analysis)和因子分析(factor analysis)。实际上主成分分析可以说是因子 分析的一个特例。主成分分析概 念主成分分析(principal component analysis)是将分散在 一组变量上的信息,集中到某几个综合 指标(主成分)上的一种探索性统计分 析方法。它利用降维的思想,将多个变 量化为少数几个互不相关的主成分,从 而描述数据集的内部结构。一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。1 基本思想在进行主成分分析后,竟以97.4的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。(1) 基于相关系数矩阵还是基于协方差 矩阵做主成分分析。当分析中所选择的经济变 量具有不同的量纲,变量水平差异很大,应该 选择基于相关系数矩阵的主成分分析。在力求数据信息丢失最少的原则下,对高维的变 量空间降维,即研究指标体系的少数几个线性组合 ,并且这几个线性组合所构成的综合指标将尽可能 多地保留原来指标变异方面的信息。这些综合指标 就称为主成分。要讨论的问题是:(2) 选择几个主成分。主成分分析的目 的是简化变量,一般情况下主成分的个数应 该小于原始变量的个数。关于保留几个主成 分,应该权衡主成分个数和保留的信息。(3)如何解释主成分所包含的经济意义 。成绩数据(student.sav) 100个学生的数学、物理、化学、语文、 历史、英语的成绩如下表(部分)。 从本例可能提出的问题目前的问题是,能不能把这个数据的6 个变量用一两个综合变量来表示呢? 这一两个综合变量包含有多少原来的信 息呢? 能不能利用找到的综合变量来对学生排 序呢?这一类数据所涉及的问题可以推 广到对企业,对学校进行分析、排序、 判别和分类等问题。主成分分析 例中的的数据点是六维的;也就是说,每个观 测值是6维空间中的一个点。我们希望把6维空 间用低维空间表示。 先假定只有二维,即只有两个变量,它们由横 坐标和纵坐标所代表;因此每个观测值都有相 应于这两个坐标轴的两个坐标值;如果这些数 据形成一个椭圆形状的点阵(这在变量的二维 正态的假定下是可能的)主成分分析 那么这个椭圆有一个长轴和一个短轴。在短轴 方向上,数据变化很少;在极端的情况,短轴 如果退化成一点,那只有在长轴的方向才能够 解释这些点的变化了;这样,由二维到一维的 降维就自然完成了。主成分分析 当坐标轴和椭圆的长短轴平行,那么代表 长轴的变量就描述了数据的主要变化,而 代表短轴的变量就描述了数据的次要变化 。 但是,坐标轴通常并不和椭圆的长短轴平 行。因此,需要寻找椭圆的长短轴,并进 行变换,使得新变量和椭圆的长短轴平行 。 如果长轴变量代表了数据包含的大部分信 息,就用该变量代替原先的两个变量(舍 去次要的一维),降维就完成了。 椭圆(球)的长短轴相差得越大,降维也 越有道理。主成分分析对于多维变量的情况和二维类似,也 有高维的椭球,只不过无法直观地看 见罢了。 首先把高维椭球的主轴找出来,再用 代表大多数数据信息的最长的几个轴 作为新变量;这样,主成分分析就基 本完成了。 这些互相正交的新变量是原先变量的 线性组合,叫做主成分(principal component)。 主成分分析正如二维椭圆有两个主轴,三维椭球有三 个主轴一样,有几个变量,就有几个主成 分。 选择越少的主成分,降维就越好。什么是 标准呢?那就是这些被选的主成分所代表 的主轴的长度之和占了主轴长度总和的大 部分。有些文献建议,所选的主轴总长度 占所有主轴长度之和的大约80%即可, 其实,这只是一个大体的说法;具体选几 个,要看实际情况而定。成绩数据(student.sav) 100个学生的数学、物理、化学、语文、 历史、英语的成绩如下表(部分)。 对于我们的数据,SPSS输出为 这里的Initial Eigenvalues就是这里的六个 主轴长度,又称特征值(数据相关阵的特 征值)。头两个成分特征值累积占了总方 差的81.142%。后面的特征值的贡献越来越 少。 怎么解释这两个主成分。前面说过主成分 是原始六个变量的线性组合。是怎么样的 组合呢?SPSS可以输出下面的表。 这里每一列代表一个主成分作为原来变量线性组 合的系数(比例)。比如第一主成分作为数学、 物理、化学、语文、历史、英语这六个原先变量 的线性组合,系数(比例)为-0.806, -0.674, - 0.675, 0.893, 0.825, 0.836。 如用x1,x2,x3,x4,x5,x6分别表示原先的六个变量,而用 y1,y2,y3,y4,y5,y6表示新的主成分,那么,原先六个变量 x1,x2,x3,x4,x5,x6与第一和第二主成分y1,y2的关系为: X1=-0.806y1 + 0.353y2 X2=-0.674y1 + 0.531y2 X3=-0.675y1 + 0.513y2 X4= 0.893y1 + 0.306y2 x5= 0.825y1 + 0.435y2 x6= 0.836y1 + 0.425y2 这些系数称为主成分载荷(loading),它表示主成分和相应的 原先变量的相关系数。 比如x1表示式中y1的系数为-0.806,这就是说第一主成分和数学 变量的相关系数为-0.806。 相关系数(绝对值)越大,主成分对该变量的代表性也越大。 可以看得出,第一主成分对各个变量解释得都很充分。而最后 的几个主成分和原先的变量就不那么相关了。 可以把第一和第二主成 分的载荷点画出一个二维 图,以直观地显示它们如 何解释原来的变量的。这 个图叫做载荷图。该图左面三个点是数学、物理、化学三科,右边三个点 是语文、历史、外语三科。这些点的坐标是前面的第一 二主成分载荷,坐标是前面表中第一二列中的数目。2 数学模型与几何解释假设我们所讨论的实际问题中,有p个指 标,我们把这p个指标看作p个随机变量,记为X1 ,X2,Xp,主成分分析就是要把这p个指标的 问题,转变为讨论p个指标的线性组合的问题, 而这些新的指标F1,F2,Fk(kp),按照保 留主要信息量的原则充分反映原指标的信息,并 且相互独立。这种由讨论多个指标降为少数几个综合指 标的过程在数学上就叫做降维。主成分分析通 常的做法是,寻求原指标的线性组合Fi。满足如下的条件:主成分之间相互独立,即无重叠的信息。即主成分的方差依次递减,重要性依次递减,即每个主成分的系数平方和为1。即为了方便,我们在二维空间中讨论主成分的几何意义。 设有n个样品,每个样品有两个观测变量xl和x2,在由变量xl和x2 所确定的二维平面中,n个样本点所散布的情况如椭圆状。由图可以看出这n个样本点无论是沿着xl 轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl 的方差和x2 的方差定量地表示。显然,如果只考虑xl和x2 中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。 主成分分析的几何解释 如果我们将xl 轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。 主成分分析的几何解释平移、旋转坐标轴根据旋转变换的公式:旋转变换的目的是为了使得n个样品点在 Fl轴方向上的离 散程度最大,即Fl的方差最大 。变量Fl代表了原始数据的绝大 部分信息,在 研究某经济问题时,即使不考虑变量F2也无损 大局。经过上述旋转变换原始数据的大部分信 息集中到Fl轴上,对数据中包含的信息起到了 浓缩作用。Fl,F2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的个点的方差大部分都归结在Fl轴上,而F2轴上的方差很小。Fl和F2称为原始变量x1和x2的综合变量。F简化了系统结构,抓住了主要矛盾。 3 主成分的性质一、均值二、方差为所有特征根之和说明主成分分析把P个随机变量的总方差分解成为P个不相关的随机变量的方差之和。协方差矩阵的对角线上的元素之和等于特征根之和。三、精度分析1)贡献率:第i个主成分的方差在全部方差中所占比重 ,称为贡献率 ,反映了原来P个指标多大的信息,有多大的综合能力 。2)累积贡献率:前k个主成分共有多大的综合能力,用这k个主成分的方差和在全部方差中所占比重来描述,称为累积贡献率。我们进行主成分分析的目的之一是希望用尽可能少的主成分F1,F2,Fk(kp)代替原来的P个指标。到底应该选择多少个主成分,在实际工作中,主成分个数的多少取决于能够反映原来变量80%以上的信息量为依据,即当累积贡献率80%时的主成分的个数就足够了。最常见的情况是主成分为2到3个。4 主成分分析的步骤第一步:由X的协方差阵x,求出其特征根,即解方程 ,可得特征根 。一、基于协方差矩阵第二步:求出分别所对应的特征向量U1,U2,Up, 第三步:计算累积贡献率,给出恰当的主成分个数 。第四步:计算所选出的k个主成分的得分。将原始数据的中心化值: 代入前k个主成分的表达式,分别计算出各单位k个主成分的得分,并按得分值的大小排队。二、基于相关系数矩阵如果变量有不同的量纲,则必须基于相关系数矩阵进行主成分分析。不同的是计算得分时应采用标准化后的数据。例一 应收账款是指企业因对外销售产品、材料 、提供劳务及其它原因,应向购货单位或接受劳务的单 位收取的款项,包括应收销货款、其它应收款和应收票 据等。出于扩大销售的竞争需要,企业不得不以赊销或 其它优惠的方式招揽顾客,由于销售和收款的时间差, 于是产生了应收款项。应收款赊销的效果的好坏,不仅 依赖于企业的信用政策,还依赖于顾客的信用程度。由 此,评价顾客的信用等级,了解顾客的综合信用程度, 做到“知己知彼,百战不殆”,对加强企业的应收账款 管理大有帮助。某企
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号