资源预览内容
第1页 / 共28页
第2页 / 共28页
第3页 / 共28页
第4页 / 共28页
第5页 / 共28页
第6页 / 共28页
第7页 / 共28页
第8页 / 共28页
第9页 / 共28页
第10页 / 共28页
亲,该文档总共28页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第十一章 聚类与判别分析n第一节 聚类基础知识回顾n第二节 系统聚类法n第三节 动态聚类法n第四节 判别分析第一节 聚类基础知识回顾n基本概念n聚类统计量n无量纲化方法基本概念n聚类分析概念:建立一种分类方法,它将一批样品或 变量(指标),按照它们在性质上的相似 、疏远程度进行科学的分类。第一节 聚类基础知识回顾基本概念聚类分析的方法在实际应用中聚类的方法有多种,最 常 用的是系统聚类法,按照不同的分类较常 用 的有以下几种: 1、根据聚类过程不同分为: 分解法和凝聚法 2、根据聚类调整次数分为: 静态聚类法和动态聚类法 3、根据聚类的对象分为: Q型聚类和R型聚类 第一节 聚类基础知识回顾聚类统计量nQ型聚类统计量绝对距离、欧氏距离、明氏距离、切 比 雪夫距离、马氏距离、兰氏距离 nR型聚类统计量夹角余弦、相似系数、同号率第一节 聚类基础知识回顾无量纲化方法1n极差正规化法第一节 聚类基础知识回顾n标准化变换无量纲化方法2n功效系数法n相对化变换第二节 系统聚类法系统聚类又称为分层聚类,它是 在 众多的聚类方法中应用最多的一种聚 类 方法。根据聚类过程不同又分为凝聚 法 和分解法。基本思想:距离最近或最相似的聚为一类 。实施步骤n选择参与分析的变量和标签变量 n选择进行的是R或Q聚类 n选择对数据进行无量纲化的方法nQ聚类选择样本点距离的计算方法,R聚 类选择变量相关系数的计算公式n确定类与类距离的测量方法n选择使用其它附加功能 n对输出结果进行合理的解释第二节 系统聚类法应用实例-Q型聚类n数据背景为研究山东省2002年农村居民生活消 费的分布规律,根据调查资料做类型划分 。n 数据文件:农村居民消费支出2002.savn要求:第二节 系统聚类法应用实例-R型聚类R型聚类是一种降维的方法,用于在变 量众多时寻找有代表性的变量。(例如衣服 尺 寸变量的选择)选择代表性指标的方法: 1.根据专业知识选择。 2.利用计算确定第二节 系统聚类法应用实例-R型聚类n数据背景:有10个测试项目,分别用变量 x1x10 表示,50名学生参加测试。(10项指标均 为 百分数)n数据文件为:data14-03.savn要求:最长距离法、皮尔逊相关、输出相关阵 、分成3组,找出三个代表性变量。第二节 系统聚类法选取分成三类的第三组代表性指标第三组包含的变量为X3、X8、X9、X10从相 关系数矩阵中读取相关系数,计算各相关指数 :第二节 系统聚类法第三节 动态聚类法动态聚类又叫快速聚类,其特点 是 处理速度快,占用内存少,适用于大 样 本的聚类分析。基本思想最终分类选凝聚点修改分类初始分类最近距离原则分 类 是 否 合 理合否第三节 动态聚类法实施步骤第一步:数据标准化(descriptives) 第二步:选择参与分析的变量和标签变量 第三步:确定分类数 第四步:输入聚类中心点(凝聚点) 第五步:确定迭代次数或收敛判据 第六步:其他功能设置 第七步:对输出结果进行合理的解释第三节 动态聚类法应用实例及参数说明n数据背景:为研究山东省2002年农村居民生活消 费的分布规律,根据调查资料做类型划分 。n 数据文件:农村居民消费支出2002.savn凝聚点文件:标准化凝聚点.sav (注意文件格式)第三节 动态聚类法注意问题n快速聚类使用的是欧氏距离平方n快速聚类变量必须是连续变量n对数据一定事先考察有无量纲影响 第三节 动态聚类法第四节 判别分析n含义:判别分析就是解决在研究对象用某种 法 方法已经分成若干类(组)的情况下,确定 新 的观测数据(样本点)属于已知类别中哪 一 类的多元统计分析方法。基本思想:通常建立一个判别函数,来描述新样 本点与已知组别的接近程度,从而决定样 本归属。第四节 判别分析方法分类:1、按判别组数分: 两组判别分析和多组判别分析 2、按区分总体所用数学模型分: 线性判别和非线性判别注:fisher判别是常用的线性判别 3、按处理方法不同分: 逐步判别、序贯判别等第四节 判别分析实例分析n数据背景:有三种鸢尾花的花瓣、花萼的长、宽 数 据。共搜集了三种鸢尾花,每种50个观测 , 共150个观测量的数据。建立判别函数, 并 判断花萼长50、花萼宽33、花瓣长14、花 瓣宽2的鸢尾花属于哪一种?n数据文件:data14-04.sav第四节 判别分析判别结果将花萼长50、花萼宽33、花瓣长14、 花瓣宽2的鸢尾花数据代入三个判别函数中 得:F1=76.129 (刚毛鸢尾花)F2=33.572 (变色鸢尾花)F3=-9.547 (佛吉尼亚鸢尾花) F1最大,得出此种花属于刚毛鸢尾花。第四节 判别分析无量纲化方法1nnone不进行标准化 nz scores 把数值标准化到Z分数 nrange 0 to 1 把数值标准化到0到1范 围内(极差正规化),减去最小值, 然后除以极差 nrange -1 to 1 把数值标准化到-1to+1范围内.第二节 系统聚类法无量纲化方法2nmaximum magnitude of 1 每个 变量值除以每个变量的最大值 nmean of 1 每个变量值除以每个变 量的均值 nstandard deviation of 1 把被标准 化的变量或样品除以该项的标准差 第二节 系统聚类法相关指数确定代表性指标设X1、 X2 、 X3 、 X4 、4个指标已经 根 据R型聚类结果聚为一类。 根据公式计算相关指数:其中,r为指标Xj与同类中其他指标间的相 关 系数;mj为指标Xj所在类的指标个数。第二节 系统聚类法凝聚点的选择n经验选择法n随机分类法n最小最大距离法n密度法第三节 动态聚类法要求nWard法、欧氏平方距离、Z-scoren保存2-4组分类结果n用标准化数据作因子分析,计算出因子得 分并用前两个主因子得分绘制散点图。第二节 系统聚类法
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号