spss分类分析8.doc-－金锄头文库

第八章分类分析第一节 K-Means Cluster过程8.1.1 主要功能调用此过程可完成由用户指定类别数的大样本资料的逐步聚类分析。所谓逐步聚类分析就是先把被聚对象进行初始分类，然后逐步调整，得到最终分类。8.1.2 实例操作例8.1为研究儿童生长发育的分期，调查1253名1月至7岁儿童的身高（cm）、体重（kg）、胸围（cm）和坐高（cm）资料。资料作如下整理：先把1月至7岁划成19个月份段，分月份算出各指标的平均值，将第1月的各指标平均值与出生时的各指标平均值比较，求出月平均增长率（%），然后第2月起的各月份指标平均值均与前一月比较，亦求出月平均增长率（%），结果见下表。欲将儿童生长发育分为四期，故指定聚类的类别数为4，请通过聚类分析确定四个儿童生长发育期的起止区间。月份月平均增长率（%）身高体重胸围坐高1234681012151824303642485460667211.035.473.582.012.132.061.631.171.030.690.770.590.650.510.730.530.360.520.3450.3019.309.854.175.651.742.041.602.341.331.411.251.190.931.130.820.521.030.4911.815.203.141.471.040.171.040.890.530.480.520.300.490.160.350.160.190.300.1811.277.182.111.582.111.571.460.760.890.580.420.140.380.250.550.340.210.550.168.1.2.1 数据准备激活数据管理窗口，定义变量名：虽然月份分组不作分析变量，但为了更直观地了解聚类结果，也将之输入数据库，其变量名为month；身高、体重、胸围和坐高的变量名分别为x1、x2、x3和x4，输入原始数额。8.1.2.2 统计分析激活Statistics菜单选Classify中的K-Means Cluster.项，弹出K-Means Cluster Analysis对话框（如图8.1示）。从对话框左侧的变量列表中选x1、x2、x3、x4，点击钮使之进入Variables框；在Number of Clusters（即聚类分析的类别数）处输入需要聚合的组数，本例为4；在聚类方法上有两种：Iterate and classify指先定初始类别中心点，而后按K-means算法作叠代分类，Classify only指仅按初始类别中心点分类，本例选用前一方法。为在原始数据库中逐一显示分类结果，点击Save.钮弹出K-Means Cluster:Save New Variables对话框，选择Cluster membership项，点击Continue钮返回K-Means Cluster Analysis对话框。本例还要求对聚类结果进行方差分析，故点击Options.钮弹出K-Means Cluster:来Options对话框，在Statistics栏中选择ANOVA table项，点击Continue钮返回K-Means Cluster Analysis对话框，再点击OK钮即完成分析。8.1.2.3 结果解释在结果输出窗口中将看到如下统计数据：首先系统根据用户的指定，按4类聚合确定初始聚类的各变量中心点，未经K-means算法叠代，其类别间距离并非最优；经叠代运算后类别间各变量中心值得到修正。Initial Cluster Centers. Cluster X1 X2 X3 X4 1 11.0300 50.3000 11.8100 11.2700 2 5.4700 19.3000 5.2000 7.1800 3 3.5800 9.8500 3.1400 2.1100 4 .3400 .4900 .1800 .1600Convergence achieved due to no or small distance change.The maximum distance by which any center has changed is .0000Current iteration is 2Minimum distance between initial centers is 10.5200 Iteration Change in Cluster Centers 1 2 3 4 1 .0000 .0000 2.46E+00 1.27E+00 2 .0000 .0000 .0000 .0000Case listing of Cluster membership. Case ID Cluster Distance 1 1 .000 2 2 .000 3 3 2.457 4 4 3.219 5 3 2.457 6 4 1.530 7 4 1.346 8 4 .515 9 4 .915 10 4 .266 11 4 .281 12 4 .668 13 4 .467 14 4 .844 15 4 .415 16 4 .873 17 4 1.215 18 4 .619 19 4 1.269 Final Cluster Centers. Cluster X1 X2 X3 X4 1 11.0300 50.3000 11.8100 11.2700 2 5.4700 19.3000 5.2000 7.1800 3 2.8550 7.7500 2.0900 2.1100 4 .9060 1.4660 .4820 .6560之后对聚类结果的类别间距离进行方差分析，方差分析表明，类别间距离差异的概率值均0.001，即聚类效果好。这样，原有19类（即原有的19个月份分组）聚合成4类，第一类含原有1类，第二类含原有1类，第三类含原有2类，第四类含原有15类。具体结果系统以变量名QCL_1存于原始数据库中。Distances between Final Cluster Centers. Cluster 1 2 3 4 1 .0000 2 32.4397 .0000 3 45.3400 13.2521 .0000 4 52.2325 20.0924 6.9273 .0000 Analysis of Variance. Variable Cluster MS DF Error MS DF F Prob X1 37.5806 3 .369 15.0 101.7853 .000 X2 817.1164 3 1.354 15.0 603.2588 .000 X3 45.4089 3 .281 15.0 161.1145 .000 X4 46.0994 3 .235 15.0 195.4933 .000 Number of Cases in each Cluster. Cluster unweighted cases weighted cases 1 1.0 1.0 2 1.0 1.0 3 2.0 2.0 4 15.0 15.0 Missing 0 Valid cases 19.0 19.0 Variable Saved into Working File. QCL_1 (Cluster Number)在