资源预览内容
第1页 / 共61页
第2页 / 共61页
第3页 / 共61页
第4页 / 共61页
第5页 / 共61页
第6页 / 共61页
第7页 / 共61页
第8页 / 共61页
第9页 / 共61页
第10页 / 共61页
亲,该文档总共61页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第十一讲聚类分析聚类分析Cluster Analysis(1) Date1西南科技大学生命科学与工程学院周海廷制作聚类分析也是一种分类技术。与多元 分析的其他方法相比,该方法较为粗糙 ,理论上还不完善,但应用方面取得了 很大成功。与回归分析、判别分析一起 被称为多元分析的三大方法。5.1 基本概念Date2西南科技大学生命科学与工程学院周海廷制作5.1.1 聚类的目的根据已知数据,计算各观察个体或变量之间 亲疏关系的统计量(距离或相关系数)。根据 某种准则(最短距离法、最长距离法、中间距 离法、重心法),使同一类内的差别较小,而 类与类之间的差别较大,最终将观察个体或变 量分为若干类。Date3西南科技大学生命科学与工程学院周海廷制作5.1.2 5.1.2 聚类分析的应用例子聚类分析的应用例子同一种疾病(如肝炎),根据临床表现等将病人 分成若干类(甲、乙、丙、丁、戊型肝炎) 根据疾病的若干临床表现,将病人分成轻、中、 重三型 在儿童生长发育研究中,把以形态学为主的指标 归于一类,以机能为主的指标归于另一类Date4西南科技大学生命科学与工程学院周海廷制作5.1.3 5.1.3 聚类的种类聚类的种类根据分类的原理可将聚类分析分为: 系统聚类与快速聚类 根据分类的对象可将聚类分析分为: 系统Q型与R型(即样品聚类clustering for individuals 与指标聚类clustering for variables)Date5西南科技大学生命科学与工程学院周海廷制作5.1.4 5.1.4 聚类分析数据格式聚类分析数据格式kDate6西南科技大学生命科学与工程学院周海廷制作5.1.5. 5.1.5. 判别分析数据格式判别分析数据格式Date7西南科技大学生命科学与工程学院周海廷制作5.1.6 5.1.6 聚类分析与判别分析间的联聚类分析与判别分析间的联 系系先采用聚类分析获得各个个体的类 别(classification );然后采用判别分 析建立判别函数,对新个体进行类型识 别((identification )Date8西南科技大学生命科学与工程学院周海廷制作5.2 5.2 图示法聚类分析图示法聚类分析Date9西南科技大学生命科学与工程学院周海廷制作5.2.1. 5.2.1. 散点图(散点图(Scatter Scatter diagramsdiagrams)Date10西南科技大学生命科学与工程学院周海廷制作5.2.2. 5.2.2. 轮廓图轮廓图(Profile (Profile diagramdiagram) Date11西南科技大学生命科学与工程学院周海廷制作5.3 5.3 距离与相似系数距离与相似系数Date12西南科技大学生命科学与工程学院周海廷制作5.3.1 5.3.1 距离距离假使每个样品有p个变量,则 每个样品都可以看成p维空间中的 一个点,n个样品就是p维空间中的 n个点,则第i样品与第j样品之间的 距离记为dijDate13西南科技大学生命科学与工程学院周海廷制作1. 1. 欧式(欧式(EuclidianEuclidian )距距 离离Date14西南科技大学生命科学与工程学院周海廷制作1.1 1.1 二维空间欧式距离二维空间欧式距离Date15西南科技大学生命科学与工程学院周海廷制作1.2 1.2 欧式距离的平方欧式距离的平方Date16西南科技大学生命科学与工程学院周海廷制作2. 2. 明氏(明氏(MinkowskiMinkowski )距离距离SPSS称为 BLOCKDate17西南科技大学生命科学与工程学院周海廷制作实例计算实例计算品Date18西南科技大学生命科学与工程学院周海廷制作绝对值距离绝对值距离Date19西南科技大学生命科学与工程学院周海廷制作EuclidianEuclidian距离的平方距离的平方Date20西南科技大学生命科学与工程学院周海廷制作EuclidianEuclidian距离距离Date21西南科技大学生命科学与工程学院周海廷制作变量标准化变量标准化作用:消除量纲的影响Date22西南科技大学生命科学与工程学院周海廷制作3. 3. MahalanobisMahalanobis 距离距离Date23西南科技大学生命科学与工程学院周海廷制作MahalanobisMahalanobis 距离距离优点:马氏距离既排除了各指标 间的相关性干扰,又消除了各指 标的量纲缺点:样品协方差矩阵不变不合 理。Date24西南科技大学生命科学与工程学院周海廷制作MahalanobisMahalanobis 距离实例距离实例Date25西南科技大学生命科学与工程学院周海廷制作4. 4. LanceLance和和WilliamsWilliams 距离距离Date26西南科技大学生命科学与工程学院周海廷制作5. 5. 斜交空间距离距离可考虑变量间相关性问题Date27西南科技大学生命科学与工程学院周海廷制作6. 6. 配合距离距离适用于分 类变量, 尤其是名 义尺度变 量Date28西南科技大学生命科学与工程学院周海廷制作5.3.2 5.3.2 相似系数相似系数研究样品间的关系常用距 离,研究指标间的关系常用 相似系数。 相似系数常用的有:夹角余弦 与相关系数Date29西南科技大学生命科学与工程学院周海廷制作1. 1. 夹角余弦(夹角余弦(CosineCosine)Date30西南科技大学生命科学与工程学院周海廷制作2. Pearson2. Pearson相关系数相关系数Date31西南科技大学生命科学与工程学院周海廷制作5.4 5.4 系统聚类法系统聚类法 (hierarchical clustering hierarchical clustering methodmethod)Date32西南科技大学生命科学与工程学院周海廷制作 将将n n个样品各作为一类个样品各作为一类系统聚类法是诸聚类分析方法中系统聚类法是诸聚类分析方法中 使用最多的一种,按下列步骤进行使用最多的一种,按下列步骤进行 : 计算计算n n个样品两两之间的距离,个样品两两之间的距离, 构成距离矩阵构成距离矩阵 合并距离最近的两类为一新合并距离最近的两类为一新 类类 计算新类与当前各类的距离。再计算新类与当前各类的距离。再 合并、计算,直至只有一类为止合并、计算,直至只有一类为止 画聚类图,解释画聚类图,解释Date33西南科技大学生命科学与工程学院周海廷制作类与类之间的距类与类之间的距 离离1.最短距离法(single linkage)2.最长距离法(complete linkage)3.中间距离法(median method)4.类平均法(average linkage)5.可变类平均法(flexible-beta method)6.重心法(centroid method)7.Ward离差平方和法(Wards minimum-variancemethod) Date34西南科技大学生命科学与工程学院周海廷制作类与类之间的距类与类之间的距 离离11.两阶段密度估计法(two-stage density linkage)等。8.Mcquitty的相似分析法(Mcquittys similarity analysis)9.最大似然估计法(EML)10.密度估计(density linkage)Date35西南科技大学生命科学与工程学院周海廷制作5.4.1 5.4.1 最短距离法最短距离法 (single linkage(single linkage,nearest nearest neighborneighbor) )B2 A2 * * B1 A1 * * B3*样品间:欧氏距离 类类间:两类间两 两样品距离最短。 即图中样品A2和B1 之间的距离 Date36西南科技大学生命科学与工程学院周海廷制作6个民族的粗死亡率与期望寿 命Date37西南科技大学生命科学与工程学院周海廷制作Date38西南科技大学生命科学与工程学院周海廷制作Date39西南科技大学生命科学与工程学院周海廷制作Date40西南科技大学生命科学与工程学院周海廷制作Date41西南科技大学生命科学与工程学院周海廷制作Date42西南科技大学生命科学与工程学院周海廷制作Date43西南科技大学生命科学与工程学院周海廷制作Date44西南科技大学生命科学与工程学院周海廷制作Date45西南科技大学生命科学与工程学院周海廷制作5.4.2 5.4.2 最长距离法最长距离法 ( (completecomplete linkage linkage,furthest furthest neighborneighbor) )B2 A2 * * B1 A1 * * B3*样品间:欧氏距离 类类间:两类间样 品两两距离最长。 即图中样品A2和B3 之间的距离 Date46西南科技大学生命科学与工程学院周海廷制作Date47西南科技大学生命科学与工程学院周海廷制作Date48西南科技大学生命科学与工程学院周海廷制作Date49西南科技大学生命科学与工程学院周海廷制作Date50西南科技大学生命科学与工程学院周海廷制作Date51西南科技大学生命科学与工程学院周海廷制作5.4.3 5.4.3 中间距离法中间距离法 ( (median methodmedian method) )最长距离夸大了类 间距离,最短距离 低估了类间距离。 介于两者间的距离 即为中间距离KLJMDate52西南科技大学生命科学与工程学院周海廷制作5.4.4 5.4.4 中间距离法的变中间距离法的变 形形 可变法可变法Date53西南科技大学生命科学与工程学院周海廷制作5.4.5 5.4.5 类平均法类平均法 (average linkage(average linkage between between groupgroup) ) SPSS作为默认方法 ,称为 between- groups linkage KLJMDate54西南科技大学生命科学与工程学院周海廷制作5.4.6 5.4.6 可变可变类平均法类平均法 (flexible-beta method)(flexible-beta method)类平均法的变型 KLJMDate55西南科技大学生命科学与工程学院周海廷制作5.4.7 5.4.7 重心重心法法 ( (centroidcentroid method method) )B2 A2 * * B1 A1 * * B3*类类间的距离用各自 重心间的距离表示 Date56西南科技大学生命科学与工程学院周海廷制作5.4.8 Ward5.4.8 Ward最小方差法最小方差法 ( (Ward minimum variance Ward minimum variance methodmethod) )先将n个样品各自成一类,然后每次每 缩小一类,每缩小一类离差平方和就要增 加,选择使离差平方和增加(SSMSSK SSL)最小的两类合并,直至所有的样 品归为一类为止。Date57西南科技大学生命科学与工程学院周海廷制作5.6.9 5.6.9 八种系统聚类方法的统八种系统聚类方法的统 一一以上聚类方法的计算步骤完全相同,仅 类与类之间的定义不同。Lance和Williams 于1967年将其统一为:Date58西南科技大学生命科学与工程学院周海廷制作八种系统聚类法公式的参数八种系统聚类法公式的参数Date59西南科技大学生命科学与工程学院周海廷制作系统聚类法的性质系统聚类法的性质 单调
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号