资源预览内容
第1页 / 共47页
第2页 / 共47页
第3页 / 共47页
第4页 / 共47页
第5页 / 共47页
第6页 / 共47页
第7页 / 共47页
第8页 / 共47页
第9页 / 共47页
第10页 / 共47页
亲,该文档总共47页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第4节 系统聚类分析 聚类要素的数据处理距离的计算直接聚类法 最短距离聚类法 最远距离聚类法系统聚类法计算类之间距离的统一公式 系统聚类分析实例 一、聚类要素的数据处理 在聚类分析中,聚类要素的选择是十分重 要的,它直接影响分类结果的准确性和可靠性 。在地理分类和分区研究中,被聚类的对象 常常是多个要素构成的。不同要素的数据往往 具有不同的单位和量纲,其数值的变异可能是 很大的,这就会对分类结果产生影响。因此当 分类要素的对象确定之后,在进行聚类分析之 前,首先要对聚类要素进行数据处理。 假设有m 个聚类的对象,每一个聚类对象 都有n个要素构成。它们所对应的要素数据可 用表3.4.1给出。 表3.4.1 聚类对象与要素数据 在聚类分析中,常用的聚类要素的数据处理方法有如下几种: 总和标准化。分别求出各聚类要素所 对应的数据的总和,以各要素的数据除以该要 素的数据的总和,即 这种标准化方法所得到的新数据满足(3.4.1) 标准差标准化,即由这种标准化方法所得到的新数据,各要 素的平均值为0,标准差为1,即有(3.4.2) 极大值标准化,即经过这种标准化所得的新数据,各要素的 极大值为1,其余各数值小于1。 极差的标准化,即 经过这种标准化所得的新数据,各要素的 极大值为1,极小值为0,其余的数值均在0与1 之间。 (3.4.3)(3.4.4)例题:表3.4.2给出了某地区9个农业区的7项 指标,它们经过极差标准化处理后,如表 3.4.3所示。 表3.4.2 某地区9个农业区的7项经济指标数据 区 代 号人均 耕地X1/(hm2人-1)劳均 耕地X2/(hm2个-1 )水田 比重 X3 /%复种 指数x4 /%粮食 单产 x5/(kghm -2)人均粮食x6/(kg人-1 )稻谷 占粮 食比 重 x7/% G10.2941.0935.63113.64 510.51 036.412.2G20.3150.9710.3995.12 773.5683.70.85G30.1230.3165.28148.56 934.5611.16.49G40.1790.5270.391114 458632.60.92 G50.0810.21272.04217.812 249791.180.38 G60.0820.21143.78179.68 973636.548.17 G70.0750.18165.15194.710 689634.380.17 G80.2930.6665.3594.93 679.5771.77.8G90.1670.4142.994.84 231.5574.61.17表3.4.3 极差标准化处理后的数据x1x2x3x4X5X6X7G10.911.000.070.150.181.000.14G21.000.870.000.000.000.240.00G30.200.150.070.440.440.080.07G40.440.380.000.130.180.130.00G50.030.031.001.001.000.451.00G60.030.030.610.690.650.130.59G70.000.000.900.810.840.131.00G80.910.530.070.000.100.430.09G90.380.260.040.000.150.000.00二、距离的计算 常见的距离有 绝对值距离 欧氏距离 明科夫斯基距离 (3.4.5) (3.4.6) (3.4.7) 切比雪夫距离。当明科夫斯基距 时,有 据表3.4.3中的数据,用公式(3.4.5)式计 算可得9个农业区之间的绝对值距离矩阵如下 (3.4.8) (3.4.9) 三、直接聚类法 原理先把各个分类对象单独视为一类,然后根 据距离最小的原则,依次选出一对分类对象, 并成新类。如果其中一个分类对象已归于一类 ,则把另一个也归入该类;如果一对分类对象 正好属于已归的两类,则把这两类并为一类。 每一次归并,都划去该对象所在的列与列序相 同的行。经过m-1次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出 聚类谱系图。 例题:根据距离矩阵式(3.4.9),用直接 聚类法对某地区的9个农业区进行聚类分析, 步骤如下:(1)在距离矩阵D中,除去对角线元素 以外,d49=d94=0.51为最小者,故将第4区与 第9区并为一类,划去第9行和第9列;(2)在余下的元素中,除对角线元素以 外,d75= d57=0.83为最小者,故将第5区与 第7区并为一类,划掉第7行和第7列; (3)在第2步之后余下的元素之中,除对 角线元素以外,d82= d28=0.88为最小者,故 将第2区与第8区并为一类,划去第8行和第8列;(4)在第3步之后余下的元素中,除对角 线元素以外,d43= d34=1.23为最小者,故将 第3区与第4区并为一类,划去第4行和第4 列,此时,第3、4、9区已归并为一类;(5)在第4步之后余下的元素中,除对角 线元素以外,d21= d12=1.52为最小者,故将 第1区与第2区并为一类,划去第2行和第2列 ,此时,第1、2、8区已归并为一类;(6)在第5步之后余下的元素中,除对角 线元素以外,d65= d56=1.78为最小者,故将 第5区与第6区并为一类,划去第6行和第6列 ,此时,第5、6、7区已归并为一类; (7)在第6步之后余下的元素中,除对角 线元素以外,d31= d13=3.10为最小者,故将第 1区与第3区并为一类,划去第3行和第3列, 此时,第1、2、3、4、8、9区已归并为一类; (8) 在第7步之后余下的元素中,除去对 角线元素以外,只有d51= d15=5.86,故将第1 区与第5区并为一类,划去第5行和第5列,此 时,第1、2、3、4、5、6、7、8、9区均归并为一类。 根据上述步骤,可以作出聚类过程的谱 系图3.4.1。图3.4.1 直接聚类谱系图 四、最短距离聚类法 n原理最短距离聚类法,是在原来的mm距离矩阵的非对角元素中找出 ,把分类 对象Gp和Gq归并为一新类Gr,然后按计算公式 计算原来各类与新类之间的距离,这样就得到 一个新的(m1)阶的距离矩阵; 再从新的 距离矩阵中选出最小者dij,把Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去 ,直至各分类对象被归为一类为止。(3.4.10) 例题:以下根据式(3.4.9)中的距离矩阵,用最短距离聚类法对某地区的9个农业区进行 聚类分析。(1) 在99阶距离矩阵D中,非对角元素 中最小者是d94=0.51,首先将第4区与第9区并 为一类,记为G10=G4,G9。按照公式( 3.4.10)式分别计算G1,G2,G3,G5,G6, G7,G8与G10之间的距离得d1,10=mind14,d19= min2.19,2.62=2.19d2,10=mind24,d29= min1.47,1.66=1.47d3,10=mind34,d39= min1.23,1.20=1.20d5,10=mind54,d59= min4.77,4.84=4.77d6,10=mind64,d69= min2.99,3.06=2.99d7,10=mind74,d79= min4.06,3.32=3.32d8,10=mind84,d89= min1.29,1.40=1.29(2)这样就得到G1,G2,G3,G5,G6,G7 ,G8,G10上的一个新的88阶距离矩阵 (3)在上一步骤中所得到的88阶距离矩 阵中,非对角元素中最小者为d57=0.83,故将 G5与G7归并为一类,记为G11,即G11=G5, G7。 按照公式(3.4.10)式分别计算G1,G2, G3,G6,G8,G10与G11之间的距离,可得到 一个新的77阶距离矩阵 (4)在第2步所得到的77阶距离矩阵中, 非对角元素中最小者为d28=0.88,故将G2与G8 归并为一类,记为G12,即G12=G2,G8。 再按照公式(3.4.10)分别计算G1,G3,G6, G10,G11与G12之间的距离,可得到一个新的 66阶距离矩阵 (5)在第3步所得的66阶距离矩阵中,非 对角元素中最小者为d6,11=1.07,故将G6与G11 归并为一类,记为G13,即G13=G6,G11= G6,(G5,G7)。再按照公式(3.4.10) 计算G1,G3,G10,G12与G13之间的距离,可 得到一个新的55阶距离矩阵 (6)在第4步所得的55阶距离矩阵中,非 对角线元素中最小者为d3,10=1.20,故将G3与 G10归并为一类,记为G14,即G14=G3,G10 =G3,(G4,G9)。再按照公式( 3.4.10)计算G1,G12,G13与G14之间的距离 ,可得一个新的44阶距离矩阵 (7)在第5步所得到的44阶距离矩阵中 ,非对角线元素中最小者为d12,14=1.29,故 将G12与G14归并为一类,记为G15,即G15= G12,G14=(G2,G8),(G3,(G4, G9)。再按照公式(3.4.10)计算G1, G13与G15之间的距离,可得一个新的33阶 距离矩阵 (8)在第6步所得的33阶距离矩阵中,非对角线 元素中最小者为d1,15=1.32,故将G1与G15归并为一类 ,记为G16,即G16=G1,G15=(G1,(G2,G8 ),(G3,(G4,G9)。再按照公式(3.4.10) 计算G13与G16之间的距离,可得一个新的22阶距离 矩阵 (9)将G13与G16归并为一类。此时,所 有分类对象均被归并为一类。综合上述聚类过程,可以作出最短距 离聚类谱系图(图3.4.2)。 图3.4.2 最短距离聚类谱系图五、最远距离聚类法 最远距离聚类法与最短距离聚类法的 区别在于计算原来的类与新类距离时采用 的公式不同。最远距离聚类法的计算公式是(3.4.11) 例题:对于前面的例子,最远距离聚类法的聚 类过程如下: (1) 在99阶距离矩阵中,非对角元素中 最小者是d94=0.51,将第4区与第9区并为一类 ,记为G10,即G10=G4,G9。按照公式( 3.4.11)分别计算G1,G2,G3,G5,G6,G7 ,G8与G10之间的距离,得到一个新的88阶距离矩阵(2) 在第1步所得到的88阶距离矩阵中, 非对角线元素中最小者为d57=0.83,故将G5与 G7归并为一类,记为G11,即G11=G5,G7 。按照公式(3.4.11)式分别计算G1,G2,G3 ,G6,G8,G10与G11之间的距离,得到一个新 的77阶距离矩阵如下 (3) 在第2步所得到的77阶距离矩阵中, 非对角线元素中最小者为d28=0.88,故将G2与 G8归并为一类,记为G12,即G12=G2,G8 。再按照公式(3.4.11)分别计算G1,G3,G6 ,G10,G11与G12之间的距离,得到一个新的 66阶距离矩阵如下 (4)在第3步所得的66阶距离矩阵中,非对 角元素中最小者为d3,10=1.23,故将G3与G10归 并为一类,记为G13,即G13=G3,G10= G3,(G4,G9)。再按照公式(3.4.11)计 算G1,G6,G11,G12与G13之间的距离,得到一 个新的55阶距离矩阵如下 (5)在第4步所得的55阶距离矩阵中,非对 角线元素中最小者为d1,12=1.52,故将G1与G12 归并为一类,记为G14,即G14=G1,G12= G1,(G2,G8)。再按照公式(3.4.11)分 别计算G6,G11,G13与G14之间的距离,得到一 个新的44阶距离矩阵如下 (6)在第5步所得的44阶距离矩阵中,非 对角线元素中最小者为d6,1
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号