第二章聚类分析.课件-

第一节第一节聚类分析核心思想聚类分析核心思想第二节第二节相似性的量度相似性的量度第三节第三节系统聚类分析法系统聚类分析法第四节第四节 K均值聚类分析均值聚类分析第五节第五节实例分析与计算机实现实例分析与计算机实现第二章聚类分析第一节核心思想 “物以类聚，人以群分”。“近朱者赤,近墨者黑”在生物学中，为了研究生物的演变，生物学家需要根据各种生物不同的特征对生物进行分类。在经济学中，根据经济发展的不同阶段对世界各个国家进行分类.医学研究中,阑尾炎类型的划分:性单纯性阑尾炎,急性化脓性阑尾炎,坏疽性及穿孔性阑尾炎。在社会学研究中，需要构造人口生育分类模式、人口死亡分类状况，以此来研究人口的生育和死亡规律。聚类分析的核心思想就是根据具体的聚类分析的核心思想就是根据具体的指标指标(变量变量)对对你所研究的你所研究的样品样品进行分类进行分类.指标是什么?书上的例子.将居民户按户主收入状况进行分类,那么衡量收入状况的指标有:标准工资收入职工奖金.样品是什么?你所研究的11户居民.进一步解读指标:间隔尺度有序尺度名义尺度思考:能不能对指标进行聚类?所以,聚类分析包括两种类型:Q型聚类:根据指标(变量)对样品进行分类R型聚类:对指标(变量)进行分类问题:大家认为聚类的结果是什么呢?第二节相似性的量度一一样品相似性的度量样品相似性的度量二二变量相似性的度量变量相似性的度量一、样品相似性的度量Q型聚类分析，常用距离来测度样品之间的相似程度。选择p个变量对n个样品聚类:可以把n个样品看成p维空间中的n个点，则两个样品间相似程度就可用p维空间中的两点距离来度量。：不同的距离公式:1明考夫斯基距离令dij 表示样品Xi与Xj的距离明考夫斯基距离的缺陷:容易受变量的量纲影响. 没有考虑变量间的相关性两种改进措施:“马氏距离”法和变量标准化处理法(见书)高校科研的样本学校学校参加科研人数参加科研人数(人人)投入经费投入经费(元元)立项课题数立项课题数()1410438000019233617300002134902200008欧氏距离欧氏距离元万元(1,2)26500081.6(1,3)218000193.7(2,3)47000254.8从距离的定义来看,所有变量都会在距离中做出贡献,若变量间存在较高的线形相关性,能够相互替代,那么计算距离就会重复替代,将在距离计算中有较高的权重,从而使最终的聚类结果更倾向此变量2马氏距离两个样品间的马氏距离为马氏距离又称为广义欧氏距离。优点:(1)考虑了观测变量之间的相关性。如果各变量之间相互独立，即观测变量的协方差矩阵是对角矩阵。 (2)不再受各指标量纲的影响。4距离选择的原则（1）要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。（2）要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理，则通常就可采用欧氏距离。（3）要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题，我们应根据研究对象的特点不同做出具体分折。实际中，聚类分析前不妨试探性地多选择几个距离公式分别进行聚类，然后对聚类分析的结果进行对比分析，以确定最合适的距离测度方法。二、变量相似性的度量 R型聚类分析中,常用相似系数表示变量间的相似性。1、夹角余弦变量i的第k个取值变量j的第k个取值显然，cos ij 1。二氧化碳影响因素聚类2相关系数相关系数经常用来度量变量间的相似性。变量Xi与Xj的相关系数定义为分别为变量i和j的均值显然也有，rij 1。有了对单个样品和单个指标相似形的度量方法后,如何根据类间距离大小和相关系数大小来进行分类呢?会用到以下聚类方法:系统聚类模糊聚类K均值聚类有序样品聚类第三节系统聚类一一系统聚类的基本思想系统聚类的基本思想二二类间距离与系统聚类法类间距离与系统聚类法三三类间距离的统一性类间距离的统一性一、系统聚类的基本思想系统聚类的基本思想是：距离相近的样品（或变量）先聚成类，距离相远的后聚成类，过程一直进行下去，每个样品（或变量）总能聚到合适的类中。系统聚类过程是：假设总共有n个样品（或变量）第一步:将每个样品（或变量）独自聚成一类，共有n类；第二步:根据所确定的样品（或变量）“距离”公式，把距离较近的两个样品（或变量）聚合为一类，其它的样品（或变量）仍各自聚为一类，共聚成n 1类；第三步:将“距离”最近的两个类进一步聚成一类，共聚成n 2类；，以上步骤一直进行下去，最后将所有的样品（或变量）全聚成一类。有两个关键问题:类与类间的距离如何衡量?如何选择分几类呢?二、类间距离最短距离法、最长距离法、类平均法、重心法和离差平方和法等。它们的归类步骤基本上是一致的，主要差异是类间距离的计算方法不同。以下用dij表示样品(指标)Xi与Xj之间距离，用D表示类Gi与Gj之间的距离。1. 最短距离法定义类与之间的距离为两类最近样品(指标)的距离，即为 .12345. 离差平方和法又称为Ward法。如果分类正确，同类样品的离差平方和应当较小，类与类的离差平方和较大。具体做法是先将n个样品各自成一类，然后每次缩小一类，每缩小一类，离差平方和就要增大，选择使方差增加最小的两类合并，直到所有的样品归为一类为止。Dp为p类的离差平方和Dq为q类的离差平方和Dpq为p和q组成总类的离差平方和5.组间平均链接该个体与小类中每个个体距离的平均6.组内平均链接该个体与小类中每个给体距离,以及小类内部每个个体距离的平均case欧氏距离欧氏距离12345108.06217.80426.90730.41428.062025.45634.65538.21317.80425.45609.2212.806426.90734.6559.2203.606530.41438.2112.8063.6060三、分类数的确定可以根据碎石图确定:X轴表示分几类Y轴表示聚合系数四、聚类分析步骤以最短距离法步骤为例：（1）选择样品(指标)距离公式，计算样品的两两距离，得距离阵记为D（0），开始每个样品自成一类，这时Dij = dij。（2）找出距离最小元素，设为Dpq，则将Gp和Gq合并成一个新类，记为Gr，即Gr = Gp，Gq。（3）根据最短距离法计算新类与其它类的距离。（4）重复（2）、（3）两步. 如果某一步距离最小的元素不止一个，则对应这些最小元素的类同时合并。【例5.1】设有六个样品，每个只测量一个指标，分别是1，2，5，7，9，10，试用最短距离法将它们分类。（1）选择样品距离公式，绝对距离最简单,形成D（0）（2）D（0）中最小的元素是D12D561，于是将G1和G2合并成G7，G5和G6合并成G8，并利用（5.12）式计算新类与其它类的距离D（1）（3）在D（1）中最小值是D34D482，由于G4与G3合并，又与G8合并，因此G3、G4、G8合并成一个新类G9，其与其它类的距离D（2）（4）最后将G7和G9合并成G10，这时所有的六个样品聚为一类，其过程终止。上述聚类的可视化过程如下:【例5.2】针对例5.1的数据，试用重心法将它们聚类。（1）假设样品采用欧氏距离，样品间的平方距离阵D2（0）（2）D2（0）中最小的元素是D212D2561，于是将G1和G2合并成G7，G5和G6合并成G8，新类与其它类的距离得到距离阵D2（1）（3）在D2（1）中最小值是D2344，那么G3与G4合并一个新类G9，其与与其它类的距离D2（2）（4）在中最小值是12.5，那么与合并一个新类，其与与其它类的距离（5）最后将G7和G10合并成G11，这时所有的六个样品聚为一类，其过程终止。上述重心法聚类的可视化过程见图5.3所示，横坐标的刻度表示并类的距离。系统聚类总结:要选择初始样品(指标)的相似形测度公式聚成新类后要选择类与类间的距离公式在选择哪些样品(指标)或是哪些类聚合为一类时统一的标准都是距离最近.引申出一个问题,到底选择哪一种类间距离公式更好呢?最短距离法是用得比较多的第四节K均值聚类一、核心思想这种算法的基本思想是将每一个样品分配给最近中心（均值）的类中，具体的算法至少包括以下三个步骤：1.指定聚类数；2.确定初始类的中心.用户指定或系统指定.3.根据距离最近原则进行分类.计算每个样本到各类中心点的距离,并按距离最近原则对所有样品进行分类.4.重新确定各类中心。利用分配过来的样本重新计算类均值.5.判断是否满足终止聚类的条件.跌代次数:SPSS默认为10类中心点偏移程度:新确定的类中心点距离上个类中心点的最大偏移量小于指定量.系统聚类与K均值聚类的区别与联系 K均值法和系统聚类法一样，都是以距离的远近亲疏为标准进行聚类的.系统聚类可以选择分类数,而K均值法只能产生指定类数的聚类结果。所以有时也借助系统聚类法以一部分样品为对象进行聚类，其结果作为K均值法确定类数的参考。【例5.3】假定我们对A、B、C、D四个样品分别测量两个变量,得到结果。试将以上的样品聚成两类。第一步：按要求取K=2，为了实施均值法聚类，我们将这些样品随意分成两类，比如（A、B）和（C、D），然后计算这两个聚类的中心坐标，见表5.10所示。中心坐标是通过原始数据计算得来的，比如（A、B）类的第二步：计算某个样品到各类中心的欧氏平方距离，然后将该样品分配给最近的一类。对于样品有变动的类，重新计算它们的中心坐标，为下一步聚类做准备。先计算A到两个类的平方距离：由于A到（A、B）的距离小于到（C、D）的距离，因此A不用重新分配。计算B到两类的平方距离：由于B到（A、B）的距离大于到（C、D）的距离，因此B要分配给（C、D）类得到新的聚类是（A）和（B、C、D）。更新中心坐标第三步：再次检查每个样品，以决定是否需要重新分类。计算各样品到各中心的距离平方。到现在为止，每个样品都已经分配给距离中心最近的类，因此聚类过程到此结束。最终得到K=2的聚类结果是A独自成一类，B、C、D聚成一类。第五节实例分析与计算机实现一一在在SPSS中利用系统聚类法进行聚类分析中利用系统聚类法进行聚类分析二二在在SPSS中利用中利用K均值法进行聚类分析均值法进行聚类分析第一，进行层次聚类分析，得到“凝聚状态表”第二步，利用表中第1列和第4列数据，绘制“碎石图”。首先将第4列数据拷入EXCEL数据表中；然后再由EXCEL自动生成以下一列数据：30、29、28、274、3、2、1，相当于将第1列数据逆序排列。第三步，以第4列数据为横坐标（X轴），以逆序的第1列数据为纵坐标（Y轴）绘制散点图，这样就生成我们所需要的“碎石图”。一、在SPSS中利用系统聚类法进行聚类分析设有20个土壤样品分别对5个变量的观测数据如表5.16所示，试利用系统聚类法对其进行样品聚类分析。表表5.16 土壤样本的观测数据土壤样本的观测数据（一）操作步骤1. 在SPSS窗口中选择AnalyzeClassifyHierachical Cluster，调出系统聚类分析主界面，并将变量X1X5移入Variables框中。在Cluster栏中选择Cases单选按钮，即对样品进行聚类（若选择Variables，则对变量进行聚类）。在Display栏中选择Statistics和Plots复选框，这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。图图5.15 K均值聚类分析主界面均值聚类分析主界面2. 点击Iterate按钮，对迭代参数进行设置。Maximum Iterations参数框用于设定K-means算法迭代的最大次数，Convergence Criterion参数框用于设定算法的收敛判据，其值应该介于0和1之间。例如判据设置为0.02，则当一次完整的迭代不能使任何一个类中心距离的变动与原始类中心距离的比小于2时，迭代停止。设置完这两个参数之后，只要在迭代的过程中先满足了其中的参数，则迭代过程就停止。这里我们选择系统默认的标准。单击Continue，返回主界面。图图5.16 Iterate子对话框子对话框3. 点击Save按钮，设置保存在数据文件中的表明聚类结果的新变量。其中Cluster membership选项用于建立一个代表聚类结果的变量，默认变量名为qcl_1；Distance from cluster center选项建立一个新变量，代表各观测量与其所属类中心的欧氏距离。我们将两个复选框都选中，单击Continue按钮返回。图图5.17 Save子对话框子对话框4. 点击Options按钮，指定要计算的统计量。选中Initial cluster centers和Cluster information for each case复选框。这样，在输出窗口中将给出聚类的初始类中心和每个观测量的分类信息，包括分配到哪一类和该观测量距所属类中心的距离。单击Continue返回。5. 点击OK按钮，运行K均值聚类分析程序。图图5.18 Options子对话框子对话框（二）主要运行结果解释1. Initial Cluster Centers（给出初始类中心）2. Iteration History（给出每次迭代结束后类中心的变动）从表5.18中可以看到本次聚类过程共经历了三次迭代。由于我们在Iterate子对话框中使用系统默认的选项（最大迭代次数为10和收敛判据为0），所以在第三次迭代后，类中心的变化为0，从而迭代停止。3. Cluster Membership（给出各观测量所属的类及与所属类中心的距离）表5.19中Cluster列给出了观测量所属的类别，Distance列给出了观测量与所属类中心的距离。（出于排版要求，此表经过加工，因此与原始输出表形态有一定差异）。表表5.18 迭代过程中类中心的变化量迭代过程中类中心的变化量表表5.19 各观测量所属类成员表各观测量所属类成员表4. Final Cluster Centers（给出聚类结果形成的类中心的各变量值）表表5.20 最终的类中心表最终的类中心表结合表5.19和表5.20，我们可以看出31个地区被分成3类。第一类包括：江苏、浙江、山东和广东4个省。这一类的类中心三个产业的产值分别为1102.14亿元、6423.01亿元和4454.26亿元，属于三个产业都比较发达的地区。第二类包括：天津、山西、内蒙古、吉林、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏和新疆16个地区。这一类的类中心三个产业的产值分别为307.61亿元、795.41亿元和673.63亿元，属于欠发达地区。剩下的11个地区为第三类。这一类的类中心三个产业的产值分别为713.28亿元、2545.20亿元和212.87亿元，属于中等发达地区。5. 由于我们已经在Save子对话框中设置了在数据文件中生成新的分类变量，所以，在数据编辑窗口中，我们可以看到生成的两个表示分类结果的新变量。变量qcl_1和变量qcl_2分别代表分类号和观测量距所属类中心的距离。章节练习样品为:全国31个省市指标为:地区生产总值人均GDP城镇人口比重(城镇化率)人口规模万元地区生产总值能耗进行聚类分析:选择合适的聚类方法并对结果作出合理的解释地区人均GDP三产比重人均消费人口增长文盲半文盲内蒙古506831.121418.2315,83广西407634.220409.0113.32贵州234229.8155114.2628.98云南435531.1205912.125.48西藏371643.5155115.957.97宁夏427037.3194713.0825.56新疆622935.4274512.8111.44甘肃345632.8161210.04 28.65青海436740.9204714.4842.92