资源预览内容
第1页 / 共61页
第2页 / 共61页
第3页 / 共61页
第4页 / 共61页
第5页 / 共61页
第6页 / 共61页
第7页 / 共61页
第8页 / 共61页
第9页 / 共61页
第10页 / 共61页
亲,该文档总共61页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第八章第八章 SPSS的多元统计分析的多元统计分析本章主要内容:u 因子分析u 聚类分析u 判别分析在工业、农业以及经济、管理等诸多领域中,常常需要同时观测多个指标。例如,衡量一个地区的经济发展,需观测的指标有:总产值、利润、效益、劳动生产率、固定资产、物价、信贷等。因此,受多种指标作用和影响的现象是大量存在的。由于每个指标值是不能预先确定的,那么该如何根据这些观测数据进行有效的分析研究呢?-多元统计分析,就是进行多个随机变量观测数据分析的一种有效方法,它通过研究变量之间的相互关系来揭示这些变量内在的变化规律。在当前科技和经济迅速发展的今天,国民经济许多领域只停留在定性分析上往往是不够的。为提高科学性、可靠性,通常需要定性与定量分析相结合。而多元分析正是定量分析的有效手段和方法。整体分析与设计的内容u 因子分析因子分析一、案例背景一、案例背景n居民消费结构变化 “消费结构”是指消费过程中,各项消费支出占居民总支出的比重,它是反映居民生活消费水平、生活质量变化状况以及内在过程合理化程度的重要标志。消费结构的变动不仅是消费领域的重要问题,而且也关系到国民经济的发展。因为合理的消费结构及消费结构的升级和优化不仅反映了消费的层次和质量的提高,而且也为建立合理的产业结构和产品结构提供了重要的依据。首先看一下本节课给出的相关数据:本数据文件是某市民在食品、衣着、医疗保健等几个方面的消费数据。这些指标之间存在着不同强弱的相关性。如果单独分析这些指标,那么就很难全面的分析和了解居民消费结构的特点。因此,我们可以考虑采用“因子分析因子分析”的方法,将这几个指标综合为少数几个因子,通过这几个因子来考察居民消费结构的变动情况。整体分析与设计的内容u 因子分析因子分析二、方法原理二、方法原理 在研究实际问题的时候,往往希望尽可能的收集相关变量,以期对问题有较全面、完整的把握和认识。例如,企业综合评价研究中,可能会收集诸如盈利能力、负债能力、运营能力等方面的经济指标数据。 这些数据在带来有关信息的同时,也给数据的分析带来了一定的困难:这众多的变量之间可能存在着或多或少的相关性,实际观测到的数据包含的信息有一部分可能是重复的。 为了解决这些问题,最简单和最直接的办法就是减少变量数目。但这又将导致另一个问题,即信息丢失或不完整的问题。 因此,研究人员希望能够找到一种有效的方法,既能减少参与数据分析的变量个数,同时又不会造成统计信息的大量浪费和丢失。-“因子分析因子分析”就这样应运而生了。因子分析就是在尽可能不损失信息或少损失信息的情况下,将多个变量减少为少数几个因子的方法,这几个因子可以高度概括大量数据中的信息。这样,既减少了变量个数,又同样能再现变量之间的内在联系。整体分析与设计的内容u 因子分析因子分析二、方法原理二、方法原理1.因子分析的数学模型针对变量作因子分析,称为R型因子分析;对样本个案做因子分析,称为Q型因子分析。这两种方法有许多相似之处。其中,R型因子分析的数学模型如下:设原有p个变量,且每个变量(或经标准化处理后的变量)的均值为0,标准差为1.现将每个原有变量用k(k0的情况,这个距离有助于克服各指标之间量纲的影响,但没有考虑指标间的相关性。4.相似系数n 夹角余弦将任何两个样品Xi与Xj看成p纬空间的两个向量,这两个向量的夹角余弦可表达为:取值1,说明两样品完全相似;接近1,说明两样品相似密切;取值0,说明两样品完全不相似;接近0,说明两样品差别大。整体分析与设计的内容u 聚类分析聚类分析一、方法原理一、方法原理4.相似系数n 相关系数聚类分析的内容非常丰富:有序样品聚类法、动态聚类法、模糊聚类法、快速聚类法、系统聚类法等。整体分析与设计的内容u 聚类分析聚类分析二、快速聚类法二、快速聚类法1. 算法原理算法原理 K-均值聚类法又叫快速聚类法,可用于大量数据进行聚类分析的情形。它是一种非分层的聚类方法,具有占用内存少、计算量大、处理速度快,特别适合大样本的聚类分析。其具体操作步骤为:其具体操作步骤为:指定聚类数目k(由用户指定)确定k个初始类的中心(用户指定;或根据数据本身结构的中心来确 定)根据距离最近原则进行分类。(逐一计算每一记录到各个中心点的距离,把各个记录按照距离最近的原则归入各个类别,并计算新形成类别的中心点)按照新的中心位置,重新计算每一个记录距离新的类别中心点的距离,并重新进行归类重复步骤(4),直到达到一定的收敛标准整体分析与设计的内容u 聚类分析聚类分析二、快速聚类法二、快速聚类法2.案例背景介绍案例背景介绍n 全国人口文化程度分析 深入了解全国人口的文化程度状况,是很有意义的一项工作。 本节的数据文件给出了1990年全国人口普查数据。 数据中,有三个指标:大学以上文化程度的人口比例、初中文化程度的人口比例、文盲半文盲的人口比例。过这些指标和具体的数据,来分析省市地区之间文化程度的差异。 这是一个典型的多元分析问题,可以考虑利用快速聚类法来分析研究省市之间的差异性。整体分析与设计的内容u 聚类分析聚类分析二、快速聚类法二、快速聚类法3.操作说明操作说明数据文件:“全国人口文化程度.sav” 菜单:“分析分类K-均值聚类”输入分类个数,系统默认为2.本例子中,输入4.系统默认项.选择初始类中心,在迭代的过程中不断更新聚类中心。把观测量分派到与之最近的以类中心为标志的类中去。只使用初始类中心对观测量进行分类,聚类中心始终不变。用户可以指定外部文件或数据作为初始聚类中心点;也可以将聚类分析中心结果输出到指定文件或数据集中。小技巧:对于大数据集,可以先用小样本,迭代聚类,并通过该选项组将中心结果保存到文件或记录集;再通过读取的方式,获得该中心,选择“仅分类”来处理大样本数据。整体分析与设计的内容u 聚类分析聚类分析二、快速聚类法二、快速聚类法3.操作说明操作说明1)“迭代”按钮:输入迭代次数。文本框可输入范围:1999输入算法收敛标准,其实就是算法的精度。该文本框输入数值是不得超过1的正数。例如,输入0.02,则表示两次迭代计算的最小的类中心的变化距离小于初始类中心距离的2%时,迭代停止。选择该复选框,在每个观测量被分配到一类后,立刻计算新的类中心;若不选该复选框,则完成所有的观测量的一次分配后,再计算各类的中心,此时可节省迭代时间。2)“保存”按钮:在 数 据 集 中 生 成 名 为qcl_1的新变量。其值表示聚类结果,即各观测量被分配到哪一类。其取值可为1、2、3等。在 数 据 集 中 生 成 名 为qcl_2的新变量。其值表示各观测量与所属类中心的欧氏距离。整体分析与设计的内容u 聚类分析聚类分析二、快速聚类法二、快速聚类法3.操作说明操作说明3)“选项”按钮:整体分析与设计的内容u 聚类分析聚类分析二、快速聚类法二、快速聚类法4.输出分析输出分析1)初始中心表2)迭代历史表初始中心间的最小距离为13.128整体分析与设计的内容u 聚类分析聚类分析二、快速聚类法二、快速聚类法4.输出分析输出分析3)分析结果列表列出了4类地区整体分析与设计的内容u 聚类分析聚类分析二、快速聚类法二、快速聚类法4.输出分析输出分析4)最终聚类分析中心表5)最终聚类中心位置之间的距离与初始中心比,变化很大第一类和第二类之间的距离最大;第一类和第三类之间的距离最短。整体分析与设计的内容u 聚类分析聚类分析二、快速聚类法二、快速聚类法4.输出分析输出分析6)方差分析表组间均方组间自由度组内均方组内自由度7)聚类数目汇总表整体分析与设计的内容u 聚类分析聚类分析三、系统聚类法三、系统聚类法1. 算法原理算法原理 又称为层次聚类法或分层聚类法。 1)对研究对象本身进行分类,称为Q型聚类;对研究对象的观察指标 进行分类,称为R聚类。2)根据聚类过程的不同,又分为分解法和凝聚法。n分解法:开始把所有个体(观测量或变量)都视为同属一大类,再根据距离和相似性逐层分解,直到参与聚类的每个个体自成一类为止。n凝聚法:开始把参与聚类的每个个体(观测量或变量)视为一类,根据两类之间的距离或相似性逐步合并,直到合并为一个大类为止。系统聚类的距离公式有多种,常用的是“组间平均距离法”。整体分析与设计的内容u 聚类分析聚类分析三、系统聚类法三、系统聚类法2. 案例背景案例背景 要求:要求:不同地区信息基础设施发展状况的评价。数据文件中给出了世界不同地区信息基础设施的发展状况。这里选取了发达地区、新兴工业化地区、拉美地区。亚洲发展中地区、转型地区等不同类型的20个地区的数据。描述信息基础设施的变量主要有6个,分别为:nCall:每千人拥有电话线数nMovecall:每千房居民移动电话数nFee:高峰时期每三分钟国际电话的成本nComputer:每千人拥有的计算机数nMips:每千人中计算机功率(每秒百万指令)nNet:每千人互联网络户主数根据这6个变量指标来分析地区之间的信息基础设施发展的差异,可采用系统聚类法.整体分析与设计的内容u 聚类分析聚类分析三、系统聚类法三、系统聚类法3. 操作操作 数据文件:”不同地区信息基础设施发展状况的评价.sav” 菜单:“分析分类系统聚类”即Q型聚类即R型聚类整体分析与设计的内容u 聚类分析聚类分析三、系统聚类法三、系统聚类法3. 操作操作1)“统计量”按钮:输出显示聚类过程中每一步合并的类或观测量,反映聚类过程中每一步样品或类的合并过程。输出相似矩阵或不相似矩阵,及其更具体的类别,取决于“方法”按钮对应的对话框中的设置。输入大于1的整数。例如,输入“2”,在结果窗口将显示输出聚为2类的分析结果。输入大于1的整数。表述输出样本或变量的分类数从最小值到最大值的各种分类聚类表。最大类数值不能大于参与聚类的样本数或变量总数。整体分析与设计的内容u 聚类分析聚类分析三、系统聚类法三、系统聚类法3. 操作操作2)“绘制”按钮:输入文本框的必须是正整数。分别是起、止步骤以及步长。例如,输入3、9、2,则生成的冰柱图则从第3步开始,显示第3、5、7、9步的聚类情况。注注意意:“排序标准”标签文字翻译的不对,应该是“步长”才准确。冰柱图的显示方向。整体分析与设计的内容u 聚类分析聚类分析三、系统聚类法三、系统聚类法3. 操作操作3)“方法”按钮:该方法合并两类的依据是使这两个类别里所有两两配对观测量的平均距离最小。该方法合并两类的依据是使两个类别合并后的新类中,观测量的平均距离最小。离差平方和。聚类使得类内各样本的离差平方和最小;类间的离差平方和尽可能大。适合于等间隔测度的连续性变量。下拉列表中可选择距离测度方法。适合于字数变量(离散变量),下拉列表中可选择不相似性测度的方法。选择标准化方法。把相似性值变为不相似性或相反整体分析与设计的内容u 聚类分析聚类分析三、系统聚类法三、系统聚类法3. 操作操作4)“保存”按钮:保存指定聚类个数时的分类结果。文本框的值必须是大于1的正数,且小于等于参与聚类的观测量个数和变量个数。文本框中输入最小聚类数目和最大聚类数目,表示分别生成样本或变量的分类数从最小值到最大值的各种分类聚类变量。例如,输入“4”和“6”,表示在聚类结束后,在原数据集中将会增加3个变量,分别表明分为4类、5类和6类时的聚类结果,即分别为4、5、6类时各分析对象分别属于哪一类。整体分析与设计的内容u 聚类分析聚类分析三、系统聚类法三、系统聚类法4. 输出分析输出分析1)聚类过程表步骤序号第二列和第三列,给出了某一步骤中哪些地区参与了合并。例如,第一步中,第十个样品和第十二个样品,首先被合并在一起。每一步的聚类系数。可根据这个系数来判断数据应该被分为多少类,当两个相邻步骤的系数变化远大于前面相邻步骤变化时,即可大致确定应该将聚类过程进行到哪里的类别数是较为合适的。(主要是参考作用)第五列和第六列,表示参与合并的类是在第几步第一次出现。0代表该记录是第一次出现在聚类过程中。标识出:该步骤合并的类别,下一次将在第几步中出现,与其他类再进行合并。整体分析与设计的内容u 聚类分析聚类分析三、系统聚类法三、系统聚类法4. 输出分析输出分析2)聚类分析结果表3)树形图聚类结果分两类。其中,第一类是转型地区和亚洲、拉美发展中地区,这些区域经济不发达,基础设施薄弱;第二类主要是美、日、欧洲发达地区与新兴工业化地区,如中国台湾、新加坡、韩国等,信息基础设施较好。其中,美国、瑞典、丹麦的信息基础设施发展最为良好。整体分析与设计的内容u 判别分析判别分析一、方法原理一、方法原理判别分析是判别样品所属类型的一种统计方法,其应用也非常广泛。在生产、科研和日常生活中,经常需要根据观测到的数据资料,对所研究的对象进行分类。例如,在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是否畅销、平常或滞销。总之,在实际问题中需要判别的问题几乎到处可见。判别分析和聚类分析不同。判别分析和聚类分析不同。n判别分析是在已知研究对象分成若干类型(或组别),并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后来对未知类型的样品进行判别分类。n聚类分析,一批给定样品要划分的类型事先并不知道,需要通过聚类分析以确定类型。判别分析和聚类分析常联合使用。先聚类分析,再用判别分析建立判别式。整体分析与设计的内容u 判别分析判别分析一、方法原理一、方法原理判别分析的分类:1)按组数:两组判别分析和多组判别分析2)按总体所用的数学模型不同:线性判别和非线性判别3)按处理变量的方法不同:逐步判别和序贯判别判别方法介绍判别方法介绍距离判别分析距离判别分析,是一种常见的判别分析法。其基本思想是:首先根据已知分类的数据计算各类的中心(即类的均值),若样品与第i类的中心距离最近,就认为该样品来自第i类。例如,两个总体的距离判别法中,设有两个总体G1、G2,从第一个总体中抽取n1个样品,从第二个总体抽取n2个样品,每个样品测量p个指标。现任取一个样品,来判断X该归哪一类?X到G1的距离X到G2的距离整体分析与设计的内容u 判别分析判别分析二、操作二、操作数据文件:“省市地区经济增长差异.sav”菜单:“分析分类判别”选择离散型变量作为分类变量.然后在”定义范围”中输入分类变量的数值范围.当所有自变量都能对观测量特性提供丰富的信息时,选择该选项.采用逐步判别法作判别分析.点选该按钮,界面右侧的”方法”按钮将被激活,可以进一步选择判别分析方法.整体分析与设计的内容u 判别分析判别分析二、操作二、操作1)”统计量”按钮对各类协方差矩阵相等的假设进行检验。对每一类给出一组系数,并给出该组中判别分数最大的观测量。整体分析与设计的内容u 判别分析判别分析二、操作二、操作2)”方法”按钮每 步 都 选 择 Wilk 的lambda统计量最小的变量加入判别函数。选择未解释方差和最小变量加入判别函数。每步都选择靠的最近的两类间的马氏距离的变量加入判别函数中。每步都选择任何两类间的“最小F值”达到最大的变量加入判别函数中。每步都选择使V统计量产生最大增量的变量加入判别函数。(在文本框中输入数值,当某变量导致的V值增量大于该数时,此变量就进入判别函数。)用于设置逐步判别过程中保留或删除变量的准则。当变量的F值大于文本框中的数值时,保留该变量。当变量的F值小于文本框中的数值时,删除该变量。与F值类似,只是换成了F检验概率。显示每步选择变量之后各变量的统计量结果。显示两类之间的F比值矩阵。整体分析与设计的内容u 判别分析判别分析二、操作二、操作3)”分类”按钮各类先验概率相等,若分m类,则概率均为1/m根据各类样本量占总样本量的比例,计算先验概率。输出每个观测量的判别分数、实际类、预测类(依据判别函数求得的分类结果)和后验概率等。若文本框输入了数据n,则表示输出前n个观测量。根据前两个判别函数的得分,作出包括所有类别的散点图;若只有一个判别函数,就输出直方图。根据前两个判别函数的得分,作每一个类别的散点图;若只有一个判别函数,就输出直方图。根据判别函数的得分所作的、对观测量进行分类的边界图。此图把平面划分成与分类个数相同的几个区域,每类占据一个区域,各类的均值在其区域中用“*”标出;若只有一个判别函数,则不做此图。整体分析与设计的内容u 判别分析判别分析二、操作二、操作4)”保存”按钮将复选框指定的计算结果保存到记录集。注注:目前选了这一项会出现系统异常。整体分析与设计的内容u 判别分析判别分析三、输出分析三、输出分析1)判别分析概述表参加分析的变量总数为30有效的变量总数为27包含缺失值或分类变量范围之外的观测量为3.“至少一个缺失判别变量”整体分析与设计的内容u 判别分析判别分析三、输出分析三、输出分析2)分组统计表给出了不同类别的基本描述性统计量。从数据可知:不同类别之间的省市经济指标差异比较明显。整体分析与设计的内容u 判别分析判别分析三、输出分析三、输出分析3)类均值相等检验表这个表,列出了不同类之间的 4 个经济指标,均值是否相等的检验结果。可知,4个指标都小于显著性水平,这就说明不同类之间的指标均值存在显著性差异,可以进行判别分析。整体分析与设计的内容u 判别分析判别分析三、输出分析三、输出分析4)判别分析特征值特征值方差百分比方差累计百分比典型相关系数5)Wilkss Lambda表整体分析与设计的内容u 判别分析判别分析三、输出分析三、输出分析6)标准化判别函数系数对判别结果影响最小对判别结果影响最大标准化判别函数:整体分析与设计的内容u 判别分析判别分析三、输出分析三、输出分析6)标准化判别函数系数对判别结果影响最小对判别结果影响最大标准化判别函数:7)结构矩阵表判别变量与标准化函数之间的相关系数。整体分析与设计的内容u 判别分析判别分析三、输出分析三、输出分析8)非标准化判别函数系数标准化系数在使用时,需要先将原始变量标准化,不太方便。而非标准化判别系数可以直接通过原始变量进行计算。非标准化判别函数(可代入变量计算出判别值):整体分析与设计的内容u 判别分析判别分析三、输出分析三、输出分析9)判别函数类别表这是判别函数在各类均值处的判别分数值。两个类别有明显的差异。10)分类过程概述表观测量都参与了分类过程,没有缺失变量存在。11)类先验概率表按照先前的设置,先验概率都为0.5整体分析与设计的内容u 判别分析判别分析三、输出分析三、输出分析12)分类总结表96.3%的数据被正确分类13)分类函数系数表将待判定的省市的各类经济指标代入判别函数进行计算,比较二者大小。若F1F2,对应省市归第一类;否则归第二类。整体分析与设计的内容u 判别分析判别分析三、输出分析三、输出分析14)保存后的变量
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号