资源预览内容
第1页 / 共92页
第2页 / 共92页
第3页 / 共92页
第4页 / 共92页
第5页 / 共92页
第6页 / 共92页
第7页 / 共92页
第8页 / 共92页
第9页 / 共92页
第10页 / 共92页
亲,该文档总共92页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
2012数学建模培训数学建模培训第第8讲讲 多元分析与多元分析与SPSS 多元分析是一种研究多个自变量与因变量相互之间统计关系的统计分析方法。其主要内容包括假设检验、方差分析、主成分分析、因子分析、聚类分析和相关分析等。 通用数学软件Matlab和Maple等都有统计包可进行多元分析。专业统计软件SPSS和SAS的多元统计分析功能更加强大, 使用更加方便。 本讲主要介绍如何用SPSS做描述性统计分析、方差分析、主成分分析、因子分析、聚类分析和相关分析。 本讲要求学生首先能正确判定问题的统计性质,选择正确的多元分析方法,然后利用SPSS得出统计结果, 并理解结果的统计学意义。 尽管多元分析内容专业性很强,难度极大,培训时间又非常有限,但我们还是准备在课堂上简要讲授多元分析方法的基本思想、基本原理和分析过程,力争使各位对上述内容有一定程度的理解,从而能正确判定问题的类型,合理选择方法和各类选项,准确理解结果的含义。 听懂上述内容需要具备良好的概率统计和线性代数基础。 Spss软件的主要学习方式是课堂演示、观看视频和上机练习。一、一、数据的录入与管理数据的录入与管理 Spss具有很强的数据处理分析能力,它可以读取11种不同类型的外部文件,存储30种不同类型的数据文件。 利用Spss对数据进行分析,首先要建立数据文件。另外,有时还需要对已有数据文件进行编辑、管理,如变量、属性和文件的管理等。1. 数据的录入与调用数据的录入与调用 数据的录入是Spss分析的基础。 下面用一个实例介绍建立数据文件和录入数据的方法。 例例1 现有15人的体检资料,试建立Spss数据文件,并存为1_1.sav。 体检资料包含的信息有编号、姓名、文化程度、出生日期、体检日期、身高、体重、疾病名称。 在SPSS中,用不同的变量表示不同类型的信息。录入数据时,首先要根据信息的数据特征确定变量的名称、类型(宽度,小数)、标签、值等。 本例中的变量特征如下: 名称类型宽度小数标签说明编号数值20校体检姓名字符80*8ASCII 4汉文化数值401-6 小学-博士出生日 日期100*mm/dd/yyyy体检日 日期100*普查mm/dd/yyyy身高数值52cm体重数值42kg疾病数值40代码表示疾病 数据录入过程与方法: (1) 启动Spss,选择“输入数据”,进入数据编辑器; (2) 选择变量视图; (3) 依次录入各变量的名称、类型 (宽度,小数)、标签、值; (4) 选择数据视图; (5) 依次录入相应数据。 保存后即生成.sav文件。 如果Spss需调用Excel文件,当数据较少时,可直接复制;当数据较多时,可通过: 文件打开数据库新建查询Excel files流程调入Excel 数据。 调入数据后,可按照前述方式对其分别定义变量各属性。 调入Excel 数据要特别注意第1行数据的变化。2. 数据的管理数据的管理 数据文件建立后,有时需要对变量进行管理,如插入变量、定义变量属性、复制变量属性等。 数据管理主要通过“数据”菜单进行,请各位自行练习。二、二、数据的描述性统计分析数据的描述性统计分析 描述性统计分析是指对数据进行一系列的基本统计分析和作图,内容包括频率分析、描述性分析、探索性分析、交叉表分析等,其目的是认识数据的统计分布特征。 下面通过例子简要介绍频率分析、描述性分析和探索性分析。1. 频率分析频率分析 频率分析是最基本的描述性统计分析方法,提供均值、方差、中位数、众数、全距、最大最小值、频数百分比、偏度、峰度等统计量及条形图、饼图和直方图。 例例2 分析50名学生的身高(案例2.1.sav)的分布特征,计算平均值、标准差、最大最小值,并绘制频数表和直方图。 操作过程如下: (1) 打开相关数据文件; (2) 打开 “分析 描述统计 频率” 菜单; (3) 选择频率分析的变量身高进入列表框; (4) 在统计量对话框中选尽量多的统计量, 在图表中选直方图带正态曲线, 格式默认。 分析结果及图表见软件演示。2. 描述性分析描述性分析 描述性分析与频率分析类似,不同之处在于: (1) 描述性分析可在一个统计表中显示多个变量的综合统计量,而频率分析对多个变量的分析结果在不同的表内; (2)描述性分析可将标准化值存放于原数据文件供进一步分析; (3) 描述性分析不提供统计图。 例例3 对50名新生的体重(案例2.2.sav)进行描述性分析,了解其分布特征。 操作过程如下: (1) 打开相关数据文件; (2) 打开 “分析 描述统计 描述” 菜单,选择“将标准化得分另存为变量”; (3) 选择描述性分析的变量体重进入列表框; (4) 在选项框中选尽量多的统计量; 分析结果及图表见软件演示。 原数据中添加的第3列z体重称为标准化值,是数据与平均值的距离以标准差为单位的相对值。标准化数据越大,说明它离平均值越远。 描述性分析由于不提供统计图,较少使用。3. 探索性分析探索性分析 探索性分析除了可以提供比描述性分析更加丰富的统计指标和统计图形外,最大的特色是可以根据需要进行分组统计分析,这将有助于对数据进行更加深入的研究分析。 例例4 根据所给数据(案例2.3.sav), 对天津和济南两地平均气温进行探索性分析,研究其基本特征。 本例中有城市、月份、平均气温三个变量。依题意,需研究两城市平均气温的变化,故取平均气温为因变量,城市为因子,而月份为标注个案。 操作过程如下: (1) 打开相关数据文件; (2) 打开“分析 描述统计 探索”菜单; (3) 选择平均气温进入因变量列表, 城市进入因子列表,月份进入标注列表; (4) 在统计量中全选,在图表中加选直方图和带检验的正态图, 选项默认。 分析结果及图表见软件演示。 探索性分析的统计结果较为丰富,如从正态概率图中可看出,数据的正态分布特征不明显。三、方差分析三、方差分析 均值是描述数据特征的一个非常重要的指标。在做数据分析时,经常需要对数据进行均值比较。 用于均值比较的常用方法有t检验和方差分析。这两种方法在原理、方法和适用范围等方面均不同。但在实际中,常常有误用t检验法的情况。 下面简要介绍两种方法的区别。 简单地讲, t检验法仅用于单因素两水平设计和单组设计中均值的检验,而方差分析可用于单因素多水平设计和多因素设计中均值的检验。 具体来讲,t检验有三种形式: (1) 单个样本的t检验; (2) 配对样本的t检验; (3) 两个独立样本的t检验。 t检验的基本思想是对正态总体样本构造统计量, 使其满足t分布, 然后利用t分布进行假设检验,从而判定均值间是否存在差异。 方差分析的基本思想是:假设待比较的均值都相等,然后将总偏差平方和分解为效应平方和SA与误差平方和Se两部分,再利用SA和Se构造服从F分布的统计量, 进行假设检验,从而判定均值之间是否存在差异。 1. 单因素方差分析单因素方差分析 单因素方差分析是方差分析中最基本的一种,研究的是一个因素对于试验结果的影响和作用,即当因素选择不同的取值时,对结果有无显著影响。 例例5 根据4种新型药物对白鼠胰岛素分泌水平影响的测量结果(案例7.1.sav),用单因素方差分析检验4种药物对胰岛素水平的影响是否相同。 (1) 打开相关数据文件; (2) 选择 “分析 比较均值 单因素ANOVA”; (3) 选择胰岛质量进“因变量列表”, 药物组进“因子”; (4) 在对比栏中选择多项式(线性);在两两比较栏中选择LSD, 其它默认; 在选项栏中选方差同质性检验和均值图; (5) 确定。 结果解释如下: (1) 方差齐次性检验 显著性为0.504,远大于0.05,故各组的总体方差相等。 (2) 方差分析表 因为F=3.795,对应的显著性为0.031,小于显著性水平0.05,故4组中至少有一组与另一组存在显著性差异。 (3) 多重比较 从多重比较表中可看出, 第4组和其它组之间、第1组和第2组之间的显著性都大于显著性水平0.05,故这几组之间差异不显著,其它各组差异显著。2. 多因素方差分析多因素方差分析 多因素方差分析的基本思想与单因素方差分析类似,不同之处在于它研究的是两个或两个以上因素对试验结果的作用和影响。下面介绍双因素方差分析实例。 例例6 将20只大鼠随机等分为4组,进行肌肉损伤后的缝合试验。考虑两个因素:缝合方法(A),分别为外膜缝合(a1)和内膜缝合(a2);缝合时间(B), 分别为缝合后1月(b1)和2(b2)。试验结果为缝合后肌肉力度的恢复度, 如表(案例7.2.sav)。考察缝合方法和时间对恢复度有无显著影响。 (1) 打开相关数据文件; (2) 选择 “分析 一般线性模型 单变量”; (3) 选择肌肉力度进“因变量”, 缝合方法和缝合后时间分别进“固定因子”; (4) 模型和对比栏均默认; 在绘制栏中选缝合后时间进水平轴,选缝合方法进单图,然后单击“添加”; (5) 在多重比较栏中选缝合后时间进两两比较框,并选择LSD方法; (6) 在选项栏中选择OVERALL进显示均值,并选择输出“方差齐性检验”; (7) 其余默认,确定。 结果解释如下: (1) 误差方差等同性检验 显著性为0.335大于0.05,故各组的总体方差相等。 (2) 方差分析表 因为缝合方法和缝合后时间的显著性分别为0.45和0.012,故缝合方法对恢复度影响不显著,而缝合时间对恢复度影响显著。两因素的交互作用的显著性为0.800,即对恢复度影响不显著。 (3) 两因素交互影响折线图 因为两条线近似平行,所以两因素交互作用不显著。四、主成分分析四、主成分分析 主成分分析又称主分量分析,是由皮尔逊于1901年首先提出,后来由霍特林于1933年进行了发展。主成分分析是一种通过降维技术把多个变量化为少数几个主成分即综合变量的多元统计方法。这些主成分能够反映原始变量的大部分信息,通常表示为原始变量的线性组合。为使得这些主成分所包含的信息互不重叠,要求各主成分互不相关。 主成分分析在很多领域有着广泛的应用。一般来说,当研究的问题涉及很多变量,并且变量间相关性明显,即包含的信息有所重叠时,可以考虑用主成分分析方法,这样更容易抓住事物的主要矛盾,使得问题得到简化。1. 主成分分析的几何意义与基本思想主成分分析的几何意义与基本思想 假设从二元总体x=(x1,x2)中抽取容量为n的样本,绘出样本观测值的散点图如下: 从图中可以看出,散点大致分布在一个狭长的椭圆内, x1和x2呈现出明显的线性相关性。这n个样本在x1和x2方向具有相似的离散度, 离散度可用x1和x2的方差表示。换句话说,x1和x2包含了大致相等的信息, 丢掉其中任意一个变量,都会损失较多的信息。 若将坐标轴旋转一个角度,使得x1轴旋转到椭圆的长轴方向 y1,x2轴旋转到椭圆的短轴方向y2,即易见,n个点在新坐标系下的坐标y1和y2几乎不相关,并且y1和方差要比y2的方差大得多。也就是说,y1包含了原始数据中的大部分信息,此时丢掉变量y2,信息的损失是比较小的。y1称为第一主成分,y2称为第二主成分。 主成分分析其实就是坐标旋转,新坐标轴方向就是各主成分方向,新旧坐标转换关系式就是各主成分表达式。 主成分分析的基本思想是:利用线性变换, 将原有相关性较强的p个指标重新组合成 p 个新的相关性较弱的综合指标。通过选择适当的线性变换系数,使得新指标中的第一个指标方差最大(如有必要, 还需使第二个指标方差尽可能地大), 从而最终可用较少的指标(如第1,2个)表示原 p 个指标中足够多的信息,即降维。2. 主成分分析的基本原理主成分分析的基本原理 本节要介绍主成分分析的基本原理,其中要用到概率论和线性代数中的一些内容。如果能搞懂这些内容,不仅将大大加深对主成分分析法的原理、步骤和结果的理解,而且能够清楚地分辨主成分分析、因子分析、聚类分析等方法间的联系和区别,使自己应用多元分析方法解决问题的能力提高到了一个新的层次。 设总体x=(x1,x2,xp)T为p维,且x的期望和协方差矩阵均存在,分别记为E(x)=, var(x)=。 根据主成分分析的基本思想,考虑线性变换其中a1, a2, ap均为单位列向量。 下面求a1使y1的方差最大。 设 为的p个特征值,t1,t2,tp为对应的正交单位特征向量,即从而其中T= (t1,t2,tp), =diag(1,2,p)。即当 a1=t1 时,y1=t1Tx 的方差达到最大,最大值为1。 由于y1的方差最大,即y1包含的信息最多,所以称之为第一主成分。 如果第一主成分包含的信息不够充分,还应考虑第二主成分。 在cov(y1,y2)=0的条件下,同理可求得,当a2=t2时, y2=t2Tx的方差达到最大, 最大值为2,称y2为第二主成分。 类似地,称yi=tiTx为第i主成分。 显然,确定各主成分的主要步骤就是求协方差矩阵的特征值与特征向量。3. 主成分的性质主成分的性质 下面给出主成分的若干性质,以加深对主成分分析法的理解。 (1) 主成分的协方差矩阵为对角阵 由主成分确定过程中的cov(yi,yj)=0(ij)条件易知。 此性质表明,主成分之间不相关。 (2) 主成分的方差等于原始变量的方差 此性质表明,p个不相关的主成分包含了原始数据中的全部信息。 第i个主成分 yi 的方差在总方差中所占比例称为主成分 yi 的贡献率。贡献率反映了主成分综合原始变量信息的能力,即解释原始信息的能力。 显然,第一个主成分的贡献率最大,依次递减。前m(mp) 个主成分的贡献率之和称为前 m个主成分的累积贡献率,它反映了前m个主成分综合原始变量信息(解释原始变量)的能力。 通常,累积贡献率85% 时,可认为前m个主成分很好地解释了原始变量。 (3) 原始变量对主成分yj的贡献 设主成分yj的表达式为 yj=tjTx=t1jx1+t2jx2+tpjxp则称 tij为第j个主成分 yj在第i个原始变量xi上的载荷,它反映了xi对yj的重要程度。 在实际中,通常根据载荷 tij 解释主成分的实际意义。 (4) 如果将主成分分析原理推导过程中的协方差矩阵换成相关系数矩阵,则前m个主成分的累积贡献率为4. 主成分分析的基本步骤主成分分析的基本步骤 设x1,x2,xn为总体x的样本,每个xi有p个指标,xi=(xi1,xi2,xin),即原始数据矩阵为 根据前述分析,主成分分析的基本步骤如下: (1) 将原始数据标准化: (2) 建立相关系数矩阵 rij为xi*与xj*的相关系数。 (3) 计算R的特征值i与特征向量ti; (4) 根据85%原则确定主成分的个数; (5) 建立载荷矩阵,解释主成分。 注注 (1) 特征向量不唯一, 故主成分的表达式也不唯一,但这不影响后续的分析。 (2) 在确定主成分时, 往往只选取那些对应特征值大于 1 的主成分。因为特征值在某种程度上可以被看成是表示主成分影响力度大小的指标, 如果特征值小于1, 说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大,所以一般可以用特征值大于1作为纳入标准。 5. Spss中的主成分分析中的主成分分析 Spss并未像Sas一样, 将主成分分析和因子分析并列为两个独立方法,而是将其归为因子分析的一部分,即Spss不能直接进行主成分分析。 Spss这样做的原因是:在因子分析过程中恰好用到主成分分析, 将主成分分析嵌入因子分析可以简化程序。 但这也为主成分分析带来的不便, 甚至于一些Spss的教程都没有详细介绍如何进行主成分分析。 下面以一个例子说明Spss的主成分分析过程。 例例7 下表中给出了中国近年国民经济主要指标统计(案例10.1.sav)。试对这些数据进行主成分分析。 (1) 打开相关数据文件; (2) 选择“分析降维因子分析”; (3) 将所有变量选入变量列表; (4) 在“描述”中选择输出系数相关矩阵,其余选项均为默认; (5) 确定。6. 主成分分析结果的解释主成分分析结果的解释 主成分分析结果的解释是一个难点,许多学生能熟练地用Spss对数据进行主成分分析,但却全然不知这些结果的含义。 下面从下列几方面对主成分分析的结果进行详细的解释: (1) 系数相关矩阵 Spss首先给出了所有变量的系数相关矩阵,这个结果主要用于判断此问题是否适合用主成分分析法。本例中各变量均具有一定的相关性且有些相关系数比较大,接近1,这表明本例适宜用主成分分析法。 (2) 累积贡献率 由“总方差”表知,只有前两个特征值大于1,所以Spss只选择了前两个主成分。第一主成分的贡献率为80.23%,前两个主成分的累积贡献率已达88.11%。可见,选择前两个主成分已足以表示原来的变量。 (3) 主成分系数 由“成分矩阵”可得主成分系数即主成分在原始变量上的载荷,从而得出主成分的表达式。需要注意的是,表达式中的各变量不是原始变量而是标准化变量。 F1=0.520*全国人口+0.736*油料 F2=0.005*全国人口+- 0.546*油料 在第一主成分中,除粮食以外的变量的系数都比较大,可以看成是反映那些变量方面的综合指标;在第二主成分中,变量粮食的系数比较大,可以看做是反映粮食的综合指标。 因为主成分分析只不过是一种矩阵变换,所以各个主成分并不一定有实际意义,本例中的各个主成分的内在含义就不是很明确。 我们似乎从本例看不出主成分分析有何用处,其实不然。 在灰色系统一讲中,我们就介绍过,主成分分析和因子分析其实也是一种综合评价方法。 根据主成分表达式,可以计算综合主成分值,对原始变量按主成分值排序,即可实现综合评价。 相关例子见后。 五、五、因子分析因子分析 先作个形象的比喻。对面来了群女生,男生一眼就能分辨出漂亮不漂亮,这是判别分析,并且在脑海中会迅速将这群女生分为漂亮的一类和不漂亮的一类,这是聚类分析。我们之所以认为某个女生漂亮,是因为她具有漂亮女孩所具有的一些共同特点:漂亮的脸蛋、高挑的身材、白皙的皮肤等。 这种从研究对象中寻找公共因子的方法就是因子分析。 因子分析的思想源于1904年斯皮尔曼对学生考试成绩的研究。目前,因子分析已在很多领域得到了广泛的应用。 因子分析在一定程度上可被视为主成分分析的深化和拓展,它对相关问题的研究更为深入、透彻。 因子分析也是利用降维的思想,将每个原始变量分解成两部分:一部分是少数几个公共因子的线性组合,另一部分是该变量所特有的特殊因子。利用这少数的公共因子对所有原始变量进行充分的解释。 公共因子和特殊因子都是不可观测的隐变量,需要对公共因子作出具有实际意义的合理的解释。 1. 因子分析模型因子分析模型 设p维总体x=(x1,x2,xp)T的均值为 ,协方差矩阵 ,相关系数矩阵为 。 根据因子分析的基本思想,因子分析的基本模型为其中,f1,f2,fm为m个公共因子,i是变量xi 所独有的特殊因子,这两种因子均为不可观测的隐变量。aij 为变量xi 在公共因子 fj 上的载荷,它反映了公共因子对变量的重要程度, 对解释公共因子具有重要的作用。 模型的矩阵形式为其中, 称为因子载荷矩阵,f=(f1,f2,fm)T为公共因子向量,为特殊因子向量。 在因子模型中通常假设: (1) 公共因子互不相关,且具有单位方差,即 。 (2) 特殊因子互不相关,即 。 (3) 公共因子和特殊因子互不相关,即2. 因子分析的性质因子分析的性质 (1) 的分解 对(2)式两边求方差,并根据模型的假设,有 若x的各分量已标准化,则 (2) 因子载荷阵不唯一 设T为一个正交矩阵,则 令 ,则 , 即 f *是由因子f经旋转后得到的新因子,A*是相应的因子载荷阵。 此性质表明,当公共因子不好解释时,可以通过因子旋转得到新的因子和载荷阵,使得新因子具有更强的实际意义。 (3) 因子载荷是原始变量和公共因子的协方差矩阵 根据模型假设及协方差性质 若x的各分量已标准化,则 (4) 共性方差和特殊方差 令 ,则其反映了公共因子对变量xi的影响,可看成公共因子对xi的方差的贡献,称为共性方差。特殊因子i 的方差 反映了特殊因子对变量 xi 方差的贡献,称为特殊方差。 若x的各分量已标准化,则 (5) 公共因子重要性的度量 令 ,则其反映了第j个公共因子对p个原始变量总方差的贡献, 是衡量公共因子重要性的一个度量。它的值越大,说明第j个公共因子越重要。 称为第j个公共因子的贡献率。若x的各分量已标准化,则fj的贡献率为3. 因子载荷阵和特殊方差阵的估计因子载荷阵和特殊方差阵的估计 求解因子模型的关键是估计因子载荷阵A和特殊方差阵D, 常用的估计方法有主成分法、主因子法和最大似然法。 主成分法和主因子法都是利用主成分分析法估计A和D, 所得解分别称为主成分解和主因子解,两者的主要区别在于:主成分法从样本协方差矩阵出发,而主因子法则从相关系数矩阵出发。 最大似然法是利用最大似然估计法求A和D。 正是由于因子分析中估计A和D时应用了主成分分析法,所以 Spss 没有将主成分分析法单列为一种方法, 而是将其归入因子分析法。 这也是许多人分辨不清主成分分析和因子分析两种方法之间区别的原因之一。4. 因子旋转和因子得分因子旋转和因子得分 因子分析的主要目的是对公共因子给出符合实际意义的合理的解释,解释的主要依据就是因子载荷阵各列元素的值。 当因子载荷阵某列各元素的绝对值差异较大,且绝对值大的元素较少时,该公共因子易于解释;反之,公共因子就难以解释。此时,可考虑对因子和因子载荷阵进行旋转,使得旋转后的因子载荷阵各列 元素的绝对值尽可能两极分化,这样就使得因子的解释变得容易。 这就好比一个女孩,正面看上去可能不是很漂亮,可女孩不经意的一个转身,或许让我们看到她楚楚动人的某个侧面。 因子旋转有正交旋转和斜交旋转两种方法。由于正交旋转不改变共性方差,所以在实际中通常采用正交旋转法。 最常用的正交旋转法是最大方差法。 在对公共因子作出合理解释后,有时还需要求出各公共因子的得分。就比如我们知道某个女孩是美女后,可能很多人还要关心该给她的脸蛋、身体各打多少分。 确定因子得分的常用方法有加权最小二乘法和回归法。 用加权最小二乘法得出的称为巴特莱特(Bartlett)因子得分, 用回归法得出的称为汤姆森(Thompson)因子得分。5. Spss中的因子分析中的因子分析 SPSS的因子分析方法中包括了主成分分析。下面以一个例子说明SPSS的因子分析过程。 例例8 下表中给出了中国近年国民经济主要指标统计(案例10.2.sav)。试对这些数据进行因子分析。 (1) 打开相关数据文件; (2) 选择“分析降维因子分析”; (3) 将除年份外的所有变量选入变量列表; (4) 在“描述” 中的相关矩阵栏选择 “系数”和“KMO和Bartlett球形度检验”; (5) 在“抽取”中的输出栏选择“碎石图”,抽取方法默认为“主成分法”; (6) 在“旋转”中的方法栏选择 “最大方差法”; (7) 在“得分”中的方法栏默认为回归,再选择显示因子得分系数矩阵; (8) 其余选项均为默认后,确定。 试想,如果前面不介绍因子分析的相关内容, 如何选择“抽取”,“旋转”,“得分”等对话框中的选项?更谈不上理解。6. 因子分析结果的解释因子分析结果的解释 因子分析结果的解释也较为复杂。 下面从下列几方面对因子分析的结果进行详细的解释: (1) 相关矩阵 相关矩阵的解释同主成分分析; (2) KMO和Bartlett球形度检验结果 KMO检验是为了看数据是否适合因子分析,其取值范围是01。其中0.91,0.80.9,0.70.8,0.60.7,0.50.6,00.5分别表示极好,好,较好,中等,较差,不能接受。 本例中的KMO为0.657, 表示可以进行因子分析。 Bartlett检验是为了看数据是否来自于多元正态分布总体。本例中的Sig.=0.000, 小于0.05,说明数据来自正态总体。 (2) 变量共同度 公因子方差反映了各变量中所含原始信息能被提取的公因子所解释的程度,称为变量共同度。本例中所有变量共同度都在85% 以上,所以提取的这几个公因子对各变量的解释能力很强。 (3) 解释的总方差 基本同主成分分析。旋转平方和载入显示的是旋转后的因子提取结果。 (4) 碎石图 碎石图以降序方式显示与成分或因子关联的特征值以及成分或因子的数量,通常用在主成分和因子分析中,以直观地评估哪些成分或因子占数据中变异性的大部分。典型的碎石图有一个明显的拐点碎石,该点之前是与大因子连接的陡峭的折线,之后是与小因子相连的平缓折线。 (5) 成分矩阵与旋转成分矩阵 成分矩阵显示的是初始因子载荷,旋转成分矩阵显示的则是旋转后的因子载荷矩阵。本例中第一个因子在工业总产值、国内生产总值、货物周转量、发电量及原油上有较大载荷,所以其反映的是除原煤以外的变量信息,第二个因子在原煤这一变量上有较大载荷,反映的是原煤这一变量的信息。 (6) 成分得分系数矩阵 根据成分得分系数矩阵,可以写出各公因子的表达式。 F1=0.194*工业总产值+0.212*原油 F2= 0.311*工业总产值+0.036*原油 与主成分分析类似,因子分析中的公共因子的内在含义也很不明确,需要根据实际问题进行合理解释。 例如,在教师教学效果评价的众多指标中, 可以用因子分析找出几个公共因子,然后按这些因子对教师排名,从而找出教学的薄弱环节。六、主成分分析与六、主成分分析与因子分析的区别因子分析的区别 由于主成分分析和因子分析的基本思想均为降维,因子分析估计因子载荷阵时又用到主成分分析,加之主成分分析的几何意义是旋转,而因子分析也可以对载荷阵进行旋转,所以许多人搞不清这两种方法的联系与区别,甚至将两者混为一谈。 下面简要分析这两种方法的联系与区别。 1. 主成分分析与因子分析的联系主成分分析与因子分析的联系 主成分分析和因子分析都属于多元分析中的降维方法,两者都是针对相关性较强的多个变量,从相关系数矩阵出发,在损失较少信息的前提下,把这些变量综合成少数几个不相关的综合变量,用这几个综合变量充分解释原始数据。 因子分析的过程中需要用到主成分分析。2. 主成分分析与因子分析的区别主成分分析与因子分析的区别 主成分分析和因子分析的区别是主要的,体现在下列方面: (1) 基本思想 主成分分析的基本思想是将原有相关性较强的多个变量重新组合成新的相关性较弱的少数几个综合变量。因子分析的基本思想是将相关性较强的原始变量表示为几个公共因子的组合。 (2) 数学模型 主成分分析实质上是一种线性变换,通过研究变量的总方差,确定方差较大的新变量主成分。 因子分析则是通过研究变量的协方差,找出能够描述所有变量的因子,然后根据因子的相关程度确定各公共因子。 (3) 假设条件 主成分分析不需要假设,但因子分析需要各种不相关的假设。 (4) 载荷矩阵 主成分分析的载荷矩阵是可逆的,而因子分析的载荷矩阵是不可逆的。 (5) 主成分与公共因子 主成分通常是固定的,公共因子则可通过旋转而变化。 例例9 在制定服装标准的过程中, 对128名成年男子身材的六个指标进行了测量:身高(x1)、坐高(x2)、胸围(x3)、臂长(x4),肋围(x5)和腰围(x6),样本相关系数如表。试根据样本相关系数矩阵,利用主成分分析法,分析制定服装标准要重点考虑的因素。身高坐高胸围臂长肋围腰围身高10.790.360.760.250.51坐高0.7910.310.550.170.35胸围0.360.3110.350.640.58臂长0.760.550.3510.160.38肋围0.250.170.640.1610.63腰围0.510.350.580.380.631试根据样本相关系数矩阵,利用主成分分析法,分析制定服装标准要重点考虑的因素。 (1) 打开相关数据文件; (2) 选择“分析降维因子分析”; (3) 将
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号