第九讲-系统聚类-－金锄头文库

第九讲系统聚类分析人们往往会碰到通过划分同类属性的对象很好的解决问题的情形，而不论这些对象是个体、公司、产品甚至行为。为此常用的技巧是聚类分析。聚类分析将个体或对象分类，使得同一类的对象之间的相似性比与其他类的对象的相似性更强。目的在于使类间对象的同质性最大化和类与类间对象的差异性最大化。一、导言近些年类，统计学的多元分析方法有了迅速的发展，多元分析技术自然被引用到分类学中，于是从数值分类逐渐分离出聚类分析这个新的分支。我们认为，所研究的样品或指标（变量）之间存在着程度不同的相似性（亲疏关系）。于是根据一批样品的多个观测指标，具体找出一些能够度量样品或指标之间的相似度的统计量，以这些统计量为划分类型的依据，把一些相似度较大的样品（或指标），聚合为一类，把另一类彼此之间相似程度较大的样品（或指标）又聚合为另一类，关系密切的聚合到一个小的分类单位，关系疏远的聚合到一个大的分类单位，直到把所有样品（或指标）都聚合完毕，把不同类型一一划分出来，形成一个由小到大的分类系统。最后把整个分类系统画成一张分类图（又称谱系图），用它把所有样品（或指标）间的亲疏关系表示出来。在经济、社会、人口研究中，存在着大量分类研究、构造分类模式的问题。过去人们主要靠经验和专业知识，作定性分析处理，致使许多分类带有主观性的任意性，不能很好的揭示客观事物内在本质差别和联系，特别是对于多因素、多指标的分类问题，定型分类更难以实现准确分类。为了克服定型分类时存在的不足，统计学这个有用的工具逐渐被引进到分类学中，形成数值分类学。随着多元分析的引进，聚类分析可以用来对案例进行分类，也可以用来对变量进行分类。对样品的分类常称为Q型聚类分析，对变量的分类常称为R型聚类分析。与多元分类的其他方法相比，聚类分析的方法是很粗糙的，理论上还不完善，但由于它能解决许多实际问题，很受人们的重视，和回归分析、判别分析一起被称为多元分析的三大方法。SPSS for Windows 的系统聚类分析其统计结果与图形有凝聚顺序表、相似矩阵、聚类成员结果的范围；且可绘制垂直冰柱图、水平冰柱图或树状结构图等。聚类分析根据用户选择不同的聚类方法、不同的量度、是否标准化、不同联结的图形，其分类的结果是不尽相同的。二、样品（Q型）聚类分析以地级行政单元作为区域分析的对象，利用多元统计分析方法对河北省11个地级市的农村基础设施状况进行分析。其指标的选择主要根据代表性原则、综合性原则、系统性原则、易获得性原则，选取2007年河北省社会经济发展指标因子8项，组成一个原始数据矩阵X，作为分析的依据。所选取的指标有：乡村劳动力资源（x1）、农用机械总动力（x2）、农村用电量（x3）、农村社会总产值（x4）、自来水受益村(x5)、通村(x6)、有效灌溉面积(x7)、农村运输业固定资产（x8）。表9-1指标数据表城市乡村劳动力资源（人）农用机械总动力（千瓦）农村用电量（万千瓦小时）农村社会总产值（万元）自来受益村（个）通电村数（个）有效灌溉面积(公顷)农村运输业固定资产（万元）石家庄3849814190018046248773757454339804418495628525146唐山3175708931758111697914873608537855020499068547760秦皇岛1202391278274111319267922798472262124364138657邯郸3691615120686514482443696913145905347535707435227邢台299286582783202415192176364649545172553587379118保定5446331102477003216252809301441166210655113431368张家口1945917241507168599648414528634067249021159708承德17432642114710121829925489316202552138738182419沧州3212666108119915372273436916656795741561042332882廊坊170608364679863868142322406631643222283788280718衡水189510278387292676341525897349334982473719138165资料来源：2023年河北农村统计年鉴（一）打开SPSS 11.5输入数据后选择Analyze/Classify/Hierarchical Cluster.得到图9-1图9-1单击打开系统聚类分析主对话框见图9-2。 Variable（变量）列表，进行聚类分析的变量。本例为x1-x8 Lable Cases by（识别个案），本例为城市 Cluster（聚类方法），可以选择Case（样本聚类）或Variables（指标聚类）。 Display（显示） Statistics（统计量），系统分析的统计量。 Plots（图形），冰柱图（Icicle）、树状图（Dendrogram）等图9-2（二）单击Statistics打开系统聚类分析统计量对话框见图9-3图9-3 Agglomeration schedule（凝聚顺序表），显示每阶段中结合的个案（分类）的距离及每个引入聚类的个案（变量）的最终聚类水平，本案例选择此项。 Proximity matrix（相似性矩阵），显示项目间的距离或相似性。本案例选择此项。Cluster Membership（聚类成员），显示各个案分配到1个或1个以上级别的聚类结合。l None（不显示聚类成员）。这是默认格式。l Single solution（单一聚类成员）。若选此项，应设定Number of cluster(聚类数)，必须输入一个大于1的整数。l Range of solutions（某范围聚类成员），若选此项应设定Minimum number of cluster及Maximum number of cluster（最大聚类数）。（三）单击Continue/Plots，打开Hierarchical Cluster Analysis：Plots（系统聚类分析：图形）对话框，见图9-4图9-4 Dendrogram（树形图），树形图可直观的表示系统聚类分析过程每步结合的聚类及聚类系数值。竖线的连接表示个案的结合，树状图将实际距离按比例赋值为025，并隐藏每步的距离比。树状图可用于评估聚类模型的凝聚性，并且提供保持适当聚类的信息。树状图是SPSS的独特风格，一般均选择此项。 Icicle（冰柱图），显示包括所有聚类和聚类范围冰柱图。可显示个案合并到聚类的过程，在图形的底部未合并任何个案，从下往上阅读时，通过X或条进行聚类合并，不同的分类通过项目间的空格表示。冰柱图显示分析中每次迭代的个案结合到聚类的信息。l All cluster(所有聚类的冰柱图)，这是默认格式l Specified range of cluster（某指定范围的冰状图），应当设定Start Cluster（起始分类）、Stop cluster（结束分类），及By（间隔）。l None 不显示冰状图。Orientation（方向），可选择Vertical(垂直冰状图)或Horizonal（水平冰状图）。（四）单击Continue/Method，打开（系统聚类分析：方法）对话框，见图9-5Cluster Method（聚类方法）下拉菜单Between-gropes linkage（组间均联法）。Within-groups linkage(组内均联法)Nearest neighbor（近邻法）又称最短距离法或单联法Furthest neighbor（远邻法）又称最长距离法或完全关联法Centroid Clustering（重心聚类法）又称质心法Median Cluster(中位数聚类法)Wards Methord(Ward法)图9-5Interval（等距资料）下拉菜单Euclidean distance (Euclidean距离)，两项目值之差的平方和的平方根。Squared Euclidean distance(Euclidean距离平方)，两项目之差的平方和。Chebychev(Chebychev距离)，两项目值间差值的最大绝对值。Cosine（余弦测度），两向量间的余弦相似性测度。Pearson correlation（Pearson相关测度），两向量间的积矩相关系数，此项为等距资料相似性测度的默认选项。Block（区组距离），两项目值间的最大绝对值的总和。Minkowski (Minkowski距离)，两项目值差值P次幂绝对值之和的P次方根。Customized(自定义距离)，两项目值差值P次幂绝对值之和的r次方根。Counts（计数数据）下拉菜单Chi-square measure(2测度)，该测度基于两组频数相等的2检验。Phi-square measure(2测度)为结合频数的平方根正态化的2测度Binary（二值数据）下拉菜单Euclidean distance (Euclidean距离)根据四个表计算SQRT（b+c），b和c表示在一项中出现，而在另一项中不出现的对角格子。Squared Euclidean distance(Euclidean距离平方)，计算不一致的个案数，范围是（0，+）。Sizedifference（大小不同的测度），范围是（0,1）的不对称指数。Patten difference（模式差异测度），范围是（0,1）的二值数据的不相似性测度，根据四个表计算bc/（n*2），b和c表示在一项中出现，而在另一项中不出现的对角格子例数，n表示总观测值例数，范围是（0,1）。Variance（方差测度），根据四个表计算(b+c)/4n，b和c表示在一项中出现，而在另一项中不出现的对角格子例数，n表示总观测值例数，范围是（0,1）。Dispersion（分配相似性测度），测度值范围是（-1，1）Shape（形状测度），范围是（0,1）的观测值。Simple matching（简单匹配相似性测度），是匹配数与总数的比值，分配给匹配与不匹配个案的权重相等。Phi 4-ponit correlation（4点相关测度），Pearson相关系数的二元形式，测度范围值是（-1,1）。Lambda（Goodman和Kruskal 相似性测度），为使用一个项目预测另一个项目（双方向预测）的误差简化比例（PRE）的一致性，观测值范围是（0，1）。Kulczynski 1(Kulczynski 1相似性测度)，为结合出现数与所有不匹配数的比值，观测值大于0，当观测值大于9999.999或不确定是，则将距离赋值为999.999或不确定。Kulczynski 2(Kulczynski 2相似性测度)，为一个特征在一项中出现而导致该特征也在另一项中出现的条件概率。Anderbergs D（Anderbergs D相似性测度）与相似性