SAS软件应用之聚类分析-

第18章聚类分析中国疾病预防控制中心学习目标v了解聚类分析的基本思想；v了解聚类分析的一些常见统计量；v掌握聚类分析的基本方法；v通过实例练习掌握聚类分析的SAS过程步。概述v聚类分析是将随机现象归类的统计学方法，已广泛应用于医学科学研究之中。聚类分析也称群分析、点群分析，他是研究分类的一种多元统计方法。v例如，我们可以根据学校的师资、设备、学生的情况，将大学分成一流大学，二流大学等；国家之间根据其发展水平可以划分为发达国家、发展中国家；概述v这些问题的本质就是希望能找到一种合理的方法将一批研究对象按其所属特性分门别类。统计学上用于解决这种分类问题的主要方法是聚类分析法和判别分析法。这一章主要讨论聚类分析。聚类分析的基本思想 v聚类分析是将样本个体或指标变量按其具有的特性进行分类的一种统计分析方法。我们所研究的样品或指标（变量）之间存在程度不同的相似性（亲疏关系）。于是根据一批样品的多个观测指标，具体找出一些能够度量样品或指标之间相似程度的统计量，以这些统计量为划分类型的依据。聚类分析的基本思想v把一些相似程度较大的样品（或指标）聚合为一类，把另外一些彼此之间相似程度较大的样品（或指标）又聚合为另一类，关系密切的聚合到一个小的分类单位，关系疏远的聚合到一个大的分类单位，直到把所有的样品（或指标）聚合完毕，这就是分类的基本思想。由此得知，聚类分析的任务有两个，第一就是寻找合理的度量事物相似性的统计量；第二是寻找合理的分类方法。聚类分析的基本思想v在聚类分析中，通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。Q型聚类分析是对样本进行分类处理，又称为样本聚类分析； R型聚类分析是对指标进行分类处理，称为指标聚类分析。对样品进行聚类的目的是将分类不明确的样品按性质相似程度分为若干组，从而发现同类样品的共性和不同样品间的差异。对指标进行聚类的目的是将分类不明确的指标按性质相似程度分成若干组，从而在尽量不损失信息的条件下，用一组少量的指标来代替原来的多个指标。聚类分析的基本思想vR型聚类分析的主要作用是：不但可以了解个别变量之间的关系的亲疏程度，而且可以了解各个指标组合之间的亲疏程度；根据变量的分类结果以及它们之间的关系，可以选择主要变量进行回归分析或Q型聚类分析。vQ型聚类分析的作用是：可以综合利用多个变量的信息对样本进行分类；分类结果是直观的，聚类谱系图非常清楚地表现其数值分类结果；聚类分析所得到的结果比传统分类方法更细致、全面、合理。聚类分析的基本思想v例如在医生医疗质量研究中，有N个医生参加医疗质量评比，每一个医生有K个医疗质量指标被记录。利用聚类分析可以将N个医生按其医疗质量的优劣分成几类，或者把K个医疗质量指标所反映的问题侧重点不同分成几类。前者是聚类分析中的样品聚类，后者是指标聚类。聚类分析的统计量 v无论是R型聚类或是Q型聚类的关键是如何定义相似性，即如何把相似性数量化。聚类的第一步需要给出两个指标或两个样品间相似性度量的统计量。v聚类分析中用来衡量样本个体之间属性相似程度的统计量和用来衡量指标变量之间属性相似程度的统计量是不同的，前者用的统计量是距离系数，后者用的统计量是相似系数。距离系数的定义有很多，如欧式距离、极端距离、绝对距离等。相似系数的定义也很多，如相关系数、列联系数等。下面给出它们的计算公式。距离v明氏距离v马氏距离v兰氏距离v类间距离类间距离 v最短距离法 v最长距离法 v重心距离法 v平均距离法 v中间距离法 vWard离均差平方和法相关系数v相关系数是最容易理解的一种统计量，它就是统计中经常用的两变量之间的简单相关系数。在聚类分析中，相关系数用来描述两个指标之间的相似程度。v 是第s个指标变量，是第t个指标变量，相关系数v两个指标变量和之间的相关系数是：v这是一个无量纲统计量。在指标聚类分析中，两个指标变量之间的相关系数越大，说明这两个指标变量的性质越相似。类间相似系数v夹角余弦v相关系数聚类分析的方法 v聚类分析的方法很多，本章仅介绍常用的系统聚类法和逐步聚类法。系统聚类法适用于小样本的样本聚类或指标聚类。逐步聚类法适用于大样本的样本聚类。对于小样本的样本聚类，如果采用逐步聚类法，聚类结果将与样本的顺序有关。聚类指标v一般用系统聚类法来聚类指标，它的基本思想是先把k个指标看成一类；然后用主成分分析法将它分解成若干类，分类的原则是使得每一类的类内指标总变异尽可能多地被该类的类成分所解释；如果每一类的类内指标总变异被类成分所解释的比例满足事先给出的要求，则聚类停止；否则，对比例小的类再继续进行分解，直到所有类的类内指标总变异被类成分所解释的比例都满足事先给出的要求为止。聚类指标v系统聚类法对k个指标进行聚类的具体步骤如下：v确定每一类的类内指标总变异被类成分所解释的最低比例P；v把所有指标看成一类，计算类内指标总变异被类成分所解释的比例，如果所解释的比例大于或等于P，则聚类停止；否则进行；聚类指标v将这个类分解成两个类，分类原则是使得每一类内的指标总变异尽可能地被该类的类成分所解释且类间相关系数达到最小，计算每一类的类内指标总变异被类成分所解释的比例，如果所解释的比例大于或等于P，则聚类停止；否则进行；v最解释比例最小的一类在继续进行分解；v重复以上步骤，直到所有类的类内指标总变异被类成分所解释的比例都大于或等于P为止。系统聚类法聚类样本v用系统聚类法聚类样本v用系统聚类法聚类样本的基本思想是先把n个聚类样本看成n类，然后按类间距离将相似程度最大的两个类合并为一类，再将所有的类（包括合并形成的新类）中相似程度最大的两个类合并为一类。重复此过程，直到所有的类间距离达到一定的要求为止，或直至所有的样本被合并为一类为止，然后根据类间距离的要求以及实际意义选择一个适当的分类。系统聚类法聚类样本v用系统聚类法对样本进行聚类的具体方法步骤如下：v把n个样本看成n类，类的个数g=n；v计算两两类间距离，并将类间距离最小的两个合并为一类，则g=n-1；v继续计算两两类间距离，并将类间距离最小的两个合并为一类，则g=n-2；v重复上述步骤，直到类间距离达到一定的要求为止，或所有的样本被合并为一类为止；v根据类间距离的要求以及实际意义选择一个适当的分类。逐步聚类法聚类样本v用逐步聚类法聚类样本的基本思想是先选择若干个初始凝聚点，这些凝聚点可以是所有样本中的任意几个样本，也可以是随意确定的几个新样本观察值。然后把每一个样本按距离大小归入到与该样本最近的凝聚点所代表的初始类中，再以这些初始类的“ 重心”（类内各样本观察值的平均值）作为新的凝聚点重新将样本归类。重复以上步骤，直到分成的类再没有什么变化为止。逐步聚类法聚类样本v用逐步聚类法对样本进行聚类的具体方法步骤如下：v确定初始凝聚点；v计算样本与每一个初始凝聚点的距离，并将每一个样本归入到与该样本最近的凝聚点所代表的初始类中；v计算上述初始类的新凝聚点，等于类内各样本观察值的平均值；v计算样本与上述新凝聚点的距离，并将每一个样本归入到与该样本最近的新凝聚点所代表的类中；v重复上述步骤，直到新分成的类再没有什么变化为止。VARCLUS过程 vSAS系统中利用VARCLUS过程步进行指标聚类。vVARCLUS过程的语法格式如下：vPROC VARCLUS DATA= OUTTREE= PROPORTION= MAXEIGEN= MAXC= MINC= 选项;vVAR 变量/选项;vRUN;vPROC TREE DATA= HORIZONTAL= PAGE= SPACE= ;vID _NAME_ ;vRUN;VARCLUS过程 vDATA语句指定要分析的数据集名及一些选项，它可以是原 SAS数据集，也可以是corr、cov、ucorr、ucov等矩阵。vOUTTREE选择项用来保存用于绘制树状图的聚类信息。vPROPORTION选择项用来指定所有类中指标变量的总变异至少应被类成分解释的比例。等号后面可以给出介于0和1之间的小数，也可以给出介于1和100之间的正数， PROPORTION=75和PROPORTION=0.75是等价的，表示聚类的结果必须满足所有类中指标变量的变异至少75%被类成分所解释，如果一个类的比例小于此值，就要将它继续分解为两类。VARCLUS过程vMAXEIGEN选择项用来指定所有类中第二特征值的最大允许值，超过此值就要分割为两类。vMAXC选择项用来指定允许的最大类别数。vMINC选择项用来指定允许的最小类别数。VARCLUS过程v第二个过程步用第一个过程步得到的结果绘制树状图，其中：vDATA语句使用的是VARCLUS过程步的输出数据集，即由 OUTTREE输出的数据集。vHORIZONTAL选择项表示指令树状图的枝干绘制成水平的。vPAGE选择项指定树状图所需的页数。vSPACE选择项指定指标变量之间的间距（行数或列数）。vID语句给出的变量名用来作为树干刻度的标记，这个变量名是系统定义的，由指标变量名构成。CLUSTER过程 vSAS系统中利用CLUSTER过程步进行小样本聚类。vCLUSTER过程的语法格式如下：vPROC CLUSTER DATA= OUTTREE= METHOD= STANDARD NONORM RSQUARE 选项;vVAR 指标变量/选项;vID 样本序号变量 ;vRUN;vPROC TREE DATA= HORIZONTAL= PAGE= SPACE= ;vID样本序号变量 ;vRUN;CLUSTER过程v第一个过程步用于聚类样本中，其中vDATA语句指定要分析的数据集名及一些选项，它可以是原 SAS数据集，也可以是corr、cov、ucorr、ucov等矩阵。vOUTTREE选择项用来保存用于绘制树状图的聚类信息。vMETHOD选择项用于确定聚类的方法，选择的方法有single 、complete、centroid、average、median、ward，其中 single表示最短距离法，complete表示最长距离法，centroid 表示重心距离平均法，average表示平均距离平方法， median表示中间距离平均法，ward表示最小离均差平方和法。CLUSTER过程vSTANDARD指令系统将原始数据标准化。vNONORM表示类间距离不进行标准化。vRSQUARE表述输出每一种聚类的复相关系数的平方和半偏复相关系数的平方，每一种聚类的复相关系数的平方等于总体变异被聚类成分所解释的比例，半偏复相关系数的平方等于由合并两个类引起的复相关系数平方的减少量。vVAR语句给出用来聚类样本的指标变量。vID语句给出样本序号变量名。CLUSTER过程v第二个过程步用第一个过程步得到的结果绘制树状图，其中：vDATA语句使用的是VARCLUS过程步的输出数据集，即由 OUTTREE输出的数据集。vHORIZONTAL选择项表示指令树状图的枝干绘制成水平的。vPAGE选择项指定树状图所需的页数。vSPACE选择项指定指标变量之间的间距（行数或列数）。vID语句给出的变量名也是用来作为树干刻度的标记，但这个变量名由样本序号构成。FASTCLUS过程 v用于大样本样品聚类的FASTCLUS过程步使用的是逐步聚类法，其聚类原则是使得类间距离最小。v和CLUSTER过程步相比，FASTCLUS过程步的缺点是：没有将原始数据标准化的功能；不能自动确定类别数；需要确定初始凝聚点；不能输出作树状图的聚类信息。FASTCLUS过程v因此，在使用FASTCLUS过程步前，要用 STANDARD