资源预览内容
第1页 / 共65页
第2页 / 共65页
第3页 / 共65页
第4页 / 共65页
第5页 / 共65页
第6页 / 共65页
第7页 / 共65页
第8页 / 共65页
第9页 / 共65页
第10页 / 共65页
亲,该文档总共65页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
数据分析 (方法与案例)作者 贾俊平统计学统统 计计 学学12 - 2统计学 STATISTICS (第四版)模型选择是艺术,而不是科学。William Navidi统计名言统计名言第 12 章 主成分分析和因子分析12.1 主成分分析 12.2 因子分析 12 - 4统计学 STATISTICS (第四版)学习目标l主成分分析和因子分析的基本原理 l主成分分析和因子分析的异同l主成分分析和因子分析的数学模型l用SPSS进行主成分分析和因子分析l用主成分分析和因子分析对实际问题进 行综合评价12 - 5统计学 STATISTICS (第四版)n n在研究实际问题时,往往需要收集多个变量。但这在研究实际问题时,往往需要收集多个变量。但这 样会使多个变量间存在较强的相关关系,即这些变样会使多个变量间存在较强的相关关系,即这些变 量间存在较多的信息重复,直接利用它们进行分析量间存在较多的信息重复,直接利用它们进行分析 ,不但模型复杂,还会因为变量间存在多重共线性,不但模型复杂,还会因为变量间存在多重共线性 而引起较大的误差而引起较大的误差n n为能够充分利用数据,通常希望用较少的新变量代为能够充分利用数据,通常希望用较少的新变量代 替原来较多的旧变量,同时要求这些新变量尽可能替原来较多的旧变量,同时要求这些新变量尽可能 反映原变量的信息反映原变量的信息n n主成分分析和因子分子正式解决这类问题的有效方主成分分析和因子分子正式解决这类问题的有效方 法。它们能够提取信息,使变量简化降维,从而使法。它们能够提取信息,使变量简化降维,从而使 问题更加简单直观问题更加简单直观主成分分析和因子分析 (principal component analysis & factor analysis)12 - 6统计学 STATISTICS (第四版)因子分析得到的是什么? 因子分析方法在部分领域应用的一些例子 l 心理学:心理学家瑟斯登对56项测验的得分进行因子分 析,得出了7中主要智利因子:词语理解能力,语言流畅 能力、计数能力、空间能力、记忆力、知觉速度和推理 能力 l 教育学:某师范大学在对以幼儿园36岁幼儿为对象, 通过80名幼儿教师对480名幼儿好奇心行为特征描述的开 放式问卷调查,编制出60个项目的初始问卷,对500名幼 儿的初测结果进行探索性因子分析后,形成了33个项目 的正式问卷,对1000名幼儿的评价结果进行验证性因子 分析,结果表明:教师评价的36岁幼儿好奇心结构包 括敏感、对未知事物的关注、好问、喜欢摆弄、探索持 久和好奇体验6个因子12 - 7统计学 STATISTICS (第四版)因子分析得到的是什么?l 医学:一位研究者对山东某县20002002年3年 的全死因调查资料中不同地区各恶性肿瘤标化死 亡率进行因子分析后发现,该县居民恶性肿瘤的 发病和死亡具有明显的地区分布。在地区分布中 ,各种恶性肿瘤的死亡具有一定程度的聚集性。 经因子分析得到的4个主因子可以解释10种恶性 肿瘤死亡率的74.54;10种恶性肿瘤中,被解 释的比例最小也在62以上;而胃癌、白血病、 膀胱癌、乳腺癌、结肠癌死亡率被解释的比例均 在77以上,表明这10种恶性肿瘤之间存在中等 偏强的内在联系和地区分布特点12 - 8统计学 STATISTICS (第四版)因子分析得到的是什么?l 地质学:海南岛的石绿铁矿及外围地区有透辉石透闪岩石和阳 起石两种岩石。地质工作者对两种岩石标本的11种化验数据进 行了因子分析,分别得到5种和4种主要因子。结果表明,透辉 石透闪岩石与阳起石有明显区别,前者的元素组合属碳酸盐沉 积型,后者属岩浆分异型。透辉石透闪岩石中铁的沉积与泥质 成分有关,属于正常沉积。由此推断石绿铁矿的主要成矿为沉 积作用,并据此提出了找矿标志和找矿方向 l 上市公司评价:某研究者选择35家能源类上市公司,根据 2007年的12项经营指标数据,采用因子分析法分别按盈利能 力、资产管理能力、偿债能力及经营业绩综合评分等方面对35 家上市公司进行了排名。其中:盈利能力排在前5位的是:神 火股份、海油工程、兰花科创、潞安环能和中国石油;经营业 绩综合得分排在前5位的是:神火股份、潞安环能、兰花科创 、海油工程和开滦股份12.1 12.1 主成分分析主成分分析1 12.1.1 2.1.1 主成分分析的基本原理主成分分析的基本原理12.1.2 12.1.2 主成分分析的数学模型主成分分析的数学模型12.1.3 12.1.3 主成分分析的步骤主成分分析的步骤第 12 章 主成分分析和因子分析12.1.1 主成分分析的基本原理12.1 12.1 主成分分析主成分分析12 - 11统计学 STATISTICS (第四版)n n主成分的概念由主成分的概念由Karl PearsonKarl Pearson在在19011901年提出年提出n n考察多个变量间相关性一种多元统计方法考察多个变量间相关性一种多元统计方法n n研究如何通过少数几个主成分研究如何通过少数几个主成分(principal (principal component)component)来解释多个变量间的内部结构。即从来解释多个变量间的内部结构。即从 原始变量中导出少数几个主分量,使它们尽可能原始变量中导出少数几个主分量,使它们尽可能 多地保留原始变量的信息,且彼此间互不相关多地保留原始变量的信息,且彼此间互不相关n n主成分分析的目的:数据的压缩;数据的解释主成分分析的目的:数据的压缩;数据的解释l l常被用来寻找判断事物或现象的综合指标,并对综常被用来寻找判断事物或现象的综合指标,并对综 合指标所包含的信息进行适当的解释合指标所包含的信息进行适当的解释什么是主成分分析? (principal component analysis)12 - 12统计学 STATISTICS (第四版)n n对这两个相关变量所携带的信息对这两个相关变量所携带的信息( (在统计上信息往往是在统计上信息往往是 指数据的变异指数据的变异) )进行浓缩处理进行浓缩处理n n假定只有两个变量假定只有两个变量x x1 1和和x x2 2,从散点图可见两个变量存,从散点图可见两个变量存 在相关关系,这意味着两个变量提供的信息有重叠在相关关系,这意味着两个变量提供的信息有重叠主成分分析的基本思想 (以两个变量为例)n n如果把两个变量用如果把两个变量用 一个变量来表示,一个变量来表示, 同时这一个新的变同时这一个新的变 量又尽可能包含原量又尽可能包含原 来的两个变量的信来的两个变量的信 息,这就是降维的息,这就是降维的 过程过程12 - 13统计学 STATISTICS (第四版)n n椭圆中有一个长轴和一个短轴,称为主轴。在长轴方向,数据椭圆中有一个长轴和一个短轴,称为主轴。在长轴方向,数据 的变化明显较大,而短轴方向变化则较小的变化明显较大,而短轴方向变化则较小n n如果沿着长轴方向设定一个新的坐标系,则新产生的两个变量如果沿着长轴方向设定一个新的坐标系,则新产生的两个变量 和原始变量间存在一定的数学换算关系,同时这两个新变量之和原始变量间存在一定的数学换算关系,同时这两个新变量之 间彼此不相关,而且长轴变量携带了大部分的数据变化信息,间彼此不相关,而且长轴变量携带了大部分的数据变化信息,而而主成分分析的基本思想 (以两个变量为例)短轴变量只携带了一小短轴变量只携带了一小 部分变化的信息部分变化的信息( (变异变异) )n n此时,只需要用长轴方此时,只需要用长轴方 向的变量就可以代表原向的变量就可以代表原 来两个变量的信息。这来两个变量的信息。这 样也就把原来的两个变样也就把原来的两个变 量降维成了一个变量。量降维成了一个变量。 长短轴相差越大,降维长短轴相差越大,降维 也就越合理也就越合理12 - 14统计学 STATISTICS (第四版)n n多维变量的情形类似,只不过是一个高维椭球,无法多维变量的情形类似,只不过是一个高维椭球,无法 直观地观察直观地观察n n每个变量都有一个坐标轴,所以有几个变量就有几主每个变量都有一个坐标轴,所以有几个变量就有几主 轴。首先把椭球的各个主轴都找出来,再用代表大多轴。首先把椭球的各个主轴都找出来,再用代表大多 数数据信息的最长的几个轴作为新变量,这样,降维数数据信息的最长的几个轴作为新变量,这样,降维 过程也就完成了过程也就完成了主成分分析的基本思想 (以两个变量为例)n n找出的这些新变量找出的这些新变量 是原来变量的线性是原来变量的线性 组合,叫做主成分组合,叫做主成分12.1.2 主成分分析的数学模型12.1 12.1 主成分分析主成分分析12 - 16统计学 STATISTICS (第四版)n n数学上的处理是将原始的数学上的处理是将原始的p p个变量作线性组合,作为新的个变量作线性组合,作为新的 变量变量n n设设p p个原始变量为个原始变量为 ,新的变量,新的变量( (即主成分即主成分) ) 为为 ,主成分和原始变量之间的关系表示为,主成分和原始变量之间的关系表示为主成分分析的数学模型主成分分析的数学模型aij为第i个主成分yi和原 来的第j个变量xj之间的 线性相关系数,称为载 荷(loading)。比如,a11 表示第1主成分和原来的 第1个变量之间的相关系 数,a21表示第2主成分 和原来的第1个变量之间 的相关系数12 - 17统计学 STATISTICS (第四版)n n选择几个主成分?选择几个主成分?选择标准是什么?选择标准是什么?n n被选的主成分所代表的主轴的长度之和占了主轴被选的主成分所代表的主轴的长度之和占了主轴 总程度之和的大部分总程度之和的大部分n n在统计上,主成分所代表的原始变量的信息用其在统计上,主成分所代表的原始变量的信息用其 方差来表示。因此,所选择的第一个主成分是所方差来表示。因此,所选择的第一个主成分是所 有主成分中的方差最大者,即有主成分中的方差最大者,即Var(yVar(yi i) )最大最大n n如果第一个主成分不足以代表原来的个变量,在如果第一个主成分不足以代表原来的个变量,在 考虑选择第二个主成分,依次类推考虑选择第二个主成分,依次类推n n这些主成分互不相关,且方差递减这些主成分互不相关,且方差递减主成分的选择12 - 18统计学 STATISTICS (第四版)n n究竟选择几个主成分才合适呢?究竟选择几个主成分才合适呢?n n一般要求所选主成分的方差总和占全部方差的一般要求所选主成分的方差总和占全部方差的 80%80%以上就可以了。当然,这只是一个大体标准以上就可以了。当然,这只是一个大体标准 ,具体选择几个要看实际情况,具体选择几个要看实际情况n n如果原来的变量之间的相关程度高,降维的效果如果原来的变量之间的相关程度高,降维的效果 就会好一些,所选的主成分就会少一些,如果原就会好一些,所选的主成分就会少一些,如果原 来的变量之间本身就不怎么相关,降维的效果自来的变量之间本身就不怎么相关,降维的效果自 然就不好然就不好n n不相关的变量就只能自己代表自己了不相关的变量就只能自己代表自己了主成分的选择12.1.3 主成分分析的步骤12.1 12.1 主成分分析主成分分析12 - 20统计学 STATISTICS (第四版)n n 对原来的对原来的p p个指标进行标准化,以消除变量个指标进行标准化,以消除变量 在水平和量纲上的影响在水平和量纲上的影响 n n 根据标准化后的数据矩阵求出相关系数矩根据标准化后的数据矩阵求出相关系数矩 阵阵 n n 求出协方差矩阵的特征根和特征向量求出协
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号