资源预览内容
第1页 / 共72页
第2页 / 共72页
第3页 / 共72页
第4页 / 共72页
第5页 / 共72页
第6页 / 共72页
第7页 / 共72页
第8页 / 共72页
第9页 / 共72页
第10页 / 共72页
亲,该文档总共72页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第18章 聚类 分析中国疾病预防控制中心学习目标v了解聚类分析的基本思想;v了解聚类分析的一些常见统计量;v掌握聚类分析的基本方法;v通过实例练习掌握聚类分析的SAS过程步。概述v聚类分析是将随机现象归类的统计学方法, 已广泛应用于医学科学研究之中。聚类分析 也称群分析、点群分析,他是研究分类的一 种多元统计方法。v例如,我们可以根据学校的师资、设备、学 生的情况,将大学分成一流大学,二流大学 等;国家之间根据其发展水平可以划分为发 达国家、发展中国家; 概述v这些问题的本质就是希望能找到一种合理的 方法将一批研究对象按其所属特性分门别类 。统计学上用于解决这种分类问题的主要方 法是聚类分析法和判别分析法。这一章主要 讨论聚类分析。 聚类分析的基本思想 v聚类分析是将样本个体或指标变量按其具有 的特性进行分类的一种统计分析方法。我们 所研究的样品或指标(变量)之间存在程度 不同的相似性(亲疏关系)。于是根据一批 样品的多个观测指标,具体找出一些能够度 量样品或指标之间相似程度的统计量,以这 些统计量为划分类型的依据。聚类分析的基本思想v把一些相似程度较大的样品(或指标)聚合为一类 ,把另外一些彼此之间相似程度较大的样品(或指 标)又聚合为另一类,关系密切的聚合到一个小的 分类单位,关系疏远的聚合到一个大的分类单位, 直到把所有的样品(或指标)聚合完毕,这就是分 类的基本思想。由此得知,聚类分析的任务有两个 ,第一就是寻找合理的度量事物相似性的统计量; 第二是寻找合理的分类方法。 聚类分析的基本思想v在聚类分析中,通常我们将根据分类对象的不同分 为Q型聚类分析和R型聚类分析两大类。Q型聚类分 析是对样本进行分类处理,又称为样本聚类分析; R型聚类分析是对指标进行分类处理,称为指标聚 类分析。对样品进行聚类的目的是将分类不明确的 样品按性质相似程度分为若干组,从而发现同类样 品的共性和不同样品间的差异。对指标进行聚类的 目的是将分类不明确的指标按性质相似程度分成若 干组,从而在尽量不损失信息的条件下,用一组少 量的指标来代替原来的多个指标。 聚类分析的基本思想vR型聚类分析的主要作用是:不但可以了解个别 变量之间的关系的亲疏程度,而且可以了解各个指 标组合之间的亲疏程度;根据变量的分类结果以 及它们之间的关系,可以选择主要变量进行回归分 析或Q型聚类分析。vQ型聚类分析的作用是:可以综合利用多个变量 的信息对样本进行分类;分类结果是直观的,聚 类谱系图非常清楚地表现其数值分类结果;聚类分 析所得到的结果比传统分类方法更细致、全面、合 理。聚类分析的基本思想v例如在医生医疗质量研究中,有N个医生参 加医疗质量评比,每一个医生有K个医疗质量 指标被记录。利用聚类分析可以将N个医生 按其医疗质量的优劣分成几类,或者把K个医 疗质量指标所反映的问题侧重点不同分成几 类。前者是聚类分析中的样品聚类,后者是 指标聚类。聚类分析的统计量 v无论是R型聚类或是Q型聚类的关键是如何定义相似 性,即如何把相似性数量化。聚类的第一步需要给 出两个指标或两个样品间相似性度量的统计量。v聚类分析中用来衡量样本个体之间属性相似程度的 统计量和用来衡量指标变量之间属性相似程度的统 计量是不同的,前者用的统计量是距离系数,后者 用的统计量是相似系数。距离系数的定义有很多, 如欧式距离、极端距离、绝对距离等。相似系数的 定义也很多,如相关系数、列联系数等。下面给出 它们的计算公式。距离v明氏距离v马氏距离v兰氏距离v类间距离类间距离 v最短距离法 v最长距离法 v重心距离法 v平均距离法 v中间距离法 vWard离均差平方和法 相关系数v相关系数是最容易理解的一种统计量,它就 是统计中经常用的两变量之间的简单相关系 数。在聚类分析中,相关系数用来描述两个 指标之间的相似程度。v 是第s个指标变量, 是第t个指标变量,相关系数v两个指标变量和之间的相关系数是:v这是一个无量纲统计量。在指标聚类分析中 ,两个指标变量之间的相关系数越大,说明 这两个指标变量的性质越相似。类间相似系数v夹角余弦v相关系数聚类分析的方法 v聚类分析的方法很多,本章仅介绍常用的系 统聚类法和逐步聚类法。系统聚类法适用于 小样本的样本聚类或指标聚类。逐步聚类法 适用于大样本的样本聚类。对于小样本的样 本聚类,如果采用逐步聚类法,聚类结果将 与样本的顺序有关。聚类指标v一般用系统聚类法来聚类指标,它的基本思想是先 把k个指标看成一类;然后用主成分分析法将它分解 成若干类,分类的原则是使得每一类的类内指标总 变异尽可能多地被该类的类成分所解释;如果每一 类的类内指标总变异被类成分所解释的比例满足事 先给出的要求,则聚类停止;否则,对比例小的类 再继续进行分解,直到所有类的类内指标总变异被 类成分所解释的比例都满足事先给出的要求为止。 聚类指标v系统聚类法对k个指标进行聚类的具体步骤如 下:v确定每一类的类内指标总变异被类成分所 解释的最低比例P;v把所有指标看成一类,计算类内指标总变 异被类成分所解释的比例,如果所解释的比 例大于或等于P,则聚类停止;否则进行;聚类指标v将这个类分解成两个类,分类原则是使得每一类 内的指标总变异尽可能地被该类的类成分所解释且 类间相关系数达到最小,计算每一类的类内指标总 变异被类成分所解释的比例,如果所解释的比例大 于或等于P,则聚类停止;否则进行;v最解释比例最小的一类在继续进行分解;v重复以上步骤,直到所有类的类内指标总变异被 类成分所解释的比例都大于或等于P为止。系统聚类法聚类样本v用系统聚类法聚类样本v用系统聚类法聚类样本的基本思想是先把n个聚类 样本看成n类,然后按类间距离将相似程度最大的 两个类合并为一类,再将所有的类(包括合并形成 的新类)中相似程度最大的两个类合并为一类。重 复此过程,直到所有的类间距离达到一定的要求为 止,或直至所有的样本被合并为一类为止,然后根 据类间距离的要求以及实际意义选择一个适当的分 类。系统聚类法聚类样本v用系统聚类法对样本进行聚类的具体方法步骤如下:v把n个样本看成n类,类的个数g=n;v计算两两类间距离,并将类间距离最小的两个合并为一类 ,则g=n-1;v继续计算两两类间距离,并将类间距离最小的两个合并为 一类,则g=n-2;v重复上述步骤,直到类间距离达到一定的要求为止,或所 有的样本被合并为一类为止;v根据类间距离的要求以及实际意义选择一个适当的分类。逐步聚类法聚类样本v用逐步聚类法聚类样本的基本思想是先选择若干个 初始凝聚点,这些凝聚点可以是所有样本中的任意 几个样本,也可以是随意确定的几个新样本观察值 。然后把每一个样本按距离大小归入到与该样本最 近的凝聚点所代表的初始类中,再以这些初始类的“ 重心”(类内各样本观察值的平均值)作为新的凝聚 点重新将样本归类。重复以上步骤,直到分成的类 再没有什么变化为止。逐步聚类法聚类样本v用逐步聚类法对样本进行聚类的具体方法步骤如下:v确定初始凝聚点;v计算样本与每一个初始凝聚点的距离,并将每一个样本归 入到与该样本最近的凝聚点所代表的初始类中;v计算上述初始类的新凝聚点,等于类内各样本观察值的平 均值;v计算样本与上述新凝聚点的距离,并将每一个样本归入到 与该样本最近的新凝聚点所代表的类中;v重复上述步骤,直到新分成的类再没有什么变化为止。VARCLUS过程 vSAS系统中利用VARCLUS过程步进行指标聚类。vVARCLUS过程的语法格式如下:vPROC VARCLUS DATA= OUTTREE= PROPORTION= MAXEIGEN= MAXC= MINC= 选项;vVAR 变量/选项;vRUN;vPROC TREE DATA= HORIZONTAL= PAGE= SPACE= ;vID _NAME_ ;vRUN;VARCLUS过程 vDATA语句指定要分析的数据集名及一些选项,它可以是原 SAS数据集,也可以是corr、cov、ucorr、ucov等矩阵。vOUTTREE选择项用来保存用于绘制树状图的聚类信息。vPROPORTION选择项用来指定所有类中指标变量的总变异 至少应被类成分解释的比例。等号后面可以给出介于0和1之 间的小数,也可以给出介于1和100之间的正数, PROPORTION=75和PROPORTION=0.75是等价的,表示 聚类的结果必须满足所有类中指标变量的变异至少75%被类 成分所解释,如果一个类的比例小于此值,就要将它继续分 解为两类。VARCLUS过程vMAXEIGEN选择项用来指定所有类中第二特 征值的最大允许值,超过此值就要分割为两 类。vMAXC选择项用来指定允许的最大类别数。vMINC选择项用来指定允许的最小类别数。VARCLUS过程v第二个过程步用第一个过程步得到的结果绘制树状图,其中 :vDATA语句使用的是VARCLUS过程步的输出数据集,即由 OUTTREE输出的数据集。vHORIZONTAL选择项表示指令树状图的枝干绘制成水平的 。vPAGE选择项指定树状图所需的页数。vSPACE选择项指定指标变量之间的间距(行数或列数)。vID语句给出的变量名用来作为树干刻度的标记,这个变量名 是系统定义的,由指标变量名构成。CLUSTER过程 vSAS系统中利用CLUSTER过程步进行小样本聚类。vCLUSTER过程的语法格式如下:vPROC CLUSTER DATA= OUTTREE= METHOD= STANDARD NONORM RSQUARE 选项;vVAR 指标变量/选项;vID 样本序号变量 ;vRUN;vPROC TREE DATA= HORIZONTAL= PAGE= SPACE= ;vID样本序号变量 ;vRUN;CLUSTER过程v第一个过程步用于聚类样本中,其中vDATA语句指定要分析的数据集名及一些选项,它可以是原 SAS数据集,也可以是corr、cov、ucorr、ucov等矩阵。vOUTTREE选择项用来保存用于绘制树状图的聚类信息。vMETHOD选择项用于确定聚类的方法,选择的方法有single 、complete、centroid、average、median、ward,其中 single表示最短距离法,complete表示最长距离法,centroid 表示重心距离平均法,average表示平均距离平方法, median表示中间距离平均法,ward表示最小离均差平方和 法。CLUSTER过程vSTANDARD指令系统将原始数据标准化。vNONORM表示类间距离不进行标准化。vRSQUARE表述输出每一种聚类的复相关系数的平 方和半偏复相关系数的平方,每一种聚类的复相关 系数的平方等于总体变异被聚类成分所解释的比例 ,半偏复相关系数的平方等于由合并两个类引起的 复相关系数平方的减少量。vVAR语句给出用来聚类样本的指标变量。vID语句给出样本序号变量名。CLUSTER过程v第二个过程步用第一个过程步得到的结果绘制树状图,其中 :vDATA语句使用的是VARCLUS过程步的输出数据集,即由 OUTTREE输出的数据集。vHORIZONTAL选择项表示指令树状图的枝干绘制成水平的 。vPAGE选择项指定树状图所需的页数。vSPACE选择项指定指标变量之间的间距(行数或列数)。vID语句给出的变量名也是用来作为树干刻度的标记,但这个 变量名由样本序号构成。FASTCLUS过程 v用于大样本样品聚类的FASTCLUS过程步使用的是 逐步聚类法,其聚类原则是使得类间距离最小。v和CLUSTER过程步相比,FASTCLUS过程步的缺 点是:没有将原始数据标准化的功能;不能自动确定类别数;需要确定初始凝聚点;不能输出作树状图的聚类信息。FASTCLUS过程v因此,在使用FASTCLUS过程步前,要用 STANDARD
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号