资源预览内容
第1页 / 共60页
第2页 / 共60页
第3页 / 共60页
第4页 / 共60页
第5页 / 共60页
第6页 / 共60页
第7页 / 共60页
第8页 / 共60页
第9页 / 共60页
第10页 / 共60页
亲,该文档总共60页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第十章 多维标度法,第一节 引 言,第二节 古典多维标度法(Classical MDS),第三节 权重多维标度(WMDS),第四节 实例分析与计算实现,第一节 引 言,在实际中我们会经常遇到这些的问题,给你一组城市,你总能从地图上测出任何一对城市之间的距离。但若给你若干城市的距离,你能否确定这些城市之间的相对位置呢?假定你知道只是哪两个城市最近,哪两个城市次近等等,你是否还能确定它们之间的相对位置呢?假定通过调查了解了10种饮料产品在消费者心中的相似程度,你能否确定这些产品在消费者心理空间中的相对位置呢?在实际中我们常常会遇到类似这样的问题。 多维标度法(Multidimensional Scaling)就是解决这类问题的一种方法,它是一种在低维空间展示“距离”数据结构的多元数据分析技术,简称MDS。 多维标度法起源于心理测度学,用于理解人们判断的相似性。Torgerson拓展了Richardson及Klingberg等人在三、四十年代的研究,具有突破性地提出了多维标度法,后经,Shepard和Kruskal等人进一步加以发展完善。多维标度法现在已经成为一种广泛用于心理学、市场调查、社会学、物理学、政治科学及生物学等领域的数据分析方法。 多维标度法解决的问题是:当n个对象(object)中各对对象之间的相似性(或距离)给定时,确定这些对象在低维空间中的表示(感知图Perceptual Mapping),并使其尽可能与原先的相似性(或距离)“大体匹配”,使得由降维所引起的任何变形达到最小。多维空间中排列的每一个点代表一个对象,因此点间的距离与对象间的相似性高度相关。也就是说,两个相似的对象由多维空间中两个距离相近的点表示,而两个不相似的对象则由多维空间两个距离较远的点表示。多维空间通常为二维或三维的欧氏空间,但也可以是非欧氏三维以上空间。,多维标度法内容丰富、方法较多。按相似性(距离)数据测量尺度的不同MDS可分为:度量MDS和非度量MDS。当利用原始相似性(距离)的实际数值为间隔尺度和比率尺度时称为度量MDS(metric MDS),当利用原始相似性(距离)的等级顺序(即有序尺度)而非实际数值时称为非度量MDS(nonmetric MDS)。按相似性(距离)矩阵的个数和MDS模型的性质MDS可分为:古典多维标度CMDS(一个矩阵,无权重模型)、重复多维标度Replicated MDS(几个矩阵,无权重模型)、权重多维标度WMDS(几个矩阵,权重模型)。本章仅介绍常用的古典多维标度法和权重多维标度法。,首先我们提出这样一个问题,表10.1是美国十城市之间的飞行距离,我们如何在平面坐标上据此标出这10城市之间的相对位置,使之尽可能接近表中的距离数据呢?,表10.1 美国10城市间的飞行距离,一、相似与距离的概念,在解决上述问题之前,我们首先明确与多维标度法相关的数据概念。 1相似数据与不相似数据 相似数据:如果用较大的数据表示非常相似,用较小的数据表示非常不相似,则数据为相似数据。如用10表示两种饮料非常相似,用1表示两种饮料非常不相似。 不相似数据:如果用较大的数值表示非常不相似,较小的数值表示非常相似,则数据为不相似数据,也称距离数据。如用10表示两种饮料非常不相似,用1表示两种饮料非常相似。 2距离阵 定义10.1 一个n n阶的矩阵D=(dij ) n n ,如果满足条件:,在进行多维标度分析时,如果数据是多个分析变量的原始数据,则要根据聚类分析中介绍的方法,计算分析对象间的相似测度;如果数据不是广义距离阵,要通过一定的方法将其转换成广义距离阵才能进行多维标度分析。,二、古典多维标度分析的思想及方 法,这里需要特别注意,并非所有的距离阵都存在一个r维的欧氏空间和n个点,使得n个点之间的距离等于D。因而,并不是所有的距离阵都是欧氏距离阵,还存在非欧氏距离阵。 当距离阵为欧氏时,可求得一个D的构图X,当距离阵不是欧氏时,只能求得D的拟合构图。在实际应用中,即使D为欧氏,一般也只求r =2或3的低维拟合构图。 值得注意的是,由于多维标度法求解的n个点仅仅要求它们的相对欧氏距离与D相近,也就是说,只与相对位置相近而与绝对位置无关,根据欧氏距离在正交变换和平移变换下的不变性,显然所求得解并不唯一。,三、度量MDS的古典解,(4)根据(10.7)式计算 ,得到r维拟合构图(简称古典解)。 这里需要注意,如果i中有负值,表明D是非欧氏型的。 (一)已知距离矩阵的CMDS计算 以前述美国10城市间的飞行距离数据来说明古典度量多维标度法的计算过程。 表10.1美国10城市间的飞行距离为比率测度。数值越大表明距离越远,数值越小表明距离越短,符合广义距离阵的定义,又只涉及一个距离阵,因此为度量CMDS。 根据上述度量古典CMDS的计算方法,首先可求得内积矩阵,结果见表10.2。,表10.2 美国10城市内积矩阵,10个城市的坐标分别为: (-718.759,142.9942),(-382.056,-340.84),(481.602,-25.285),(-161.466,572.77),(1203.738,390.100),(-1133.53,581.907),(1072.24,-519.024),(1420.603,112.589),(1341.723,-579.739),(-979.622,-335.473)。 计算结果表明,较大的特征值有两个,说明在二维平面上表示10城市间的相对位置是合适的。由于有特征值小于零,表明距离阵不是欧氏型,其结果为拟合构图。在此,城市是“对象”,飞行里程是“相似性”。图10.1给出了MDS反映美国10座城市相对位置的感知图。图中的10个点,每个点代表一个城市,相近的点代表飞行距离短的城市,相距较远的点代表飞行距离远的城市。,图10.1 10城市坐标感知图,相关系数的值越大,表示课程越相似,相关系数值越小,表明课程越不相似,显而易见,相关系数矩阵为相似系数矩阵,记为C。,表10.3 6门课程相关系数阵,根据变换(10.8)式可得到距离阵D,见表10.4。在此基础上,根据(10.5)式得到内积矩阵B,具体结果见表10.5。,表10.4 距离阵D,表10.5 内积矩阵,从结果知距离阵D不是欧氏型,我们取r=2,由(10.7)式求得D的古典解,结果如下: 图10.2大体反映了这六门课程的基本结构,从图中可以直观的看出,算术、代数、几何较为相近,英语和盖尔语较为相近,而历史课程与其他课程的差异性较大。,图10.2 六门课程的古典解感知图,四、非度量MDS的古典解 (nonmetric MDS),在实际问题中,我们涉及更多的是不易量化的相似性测度,如两种颜色的相似性,虽然我们可以用1表示颜色非常相似,10表示颜色非常不相似,但是这里的数字只表示颜色之间的相似或不相似程度,并不表示实际的数值大小,因而是定序尺度,这时是由两两颜色间的不相似数据 ij形成“距离”矩阵。对于非度量的不相似性矩阵,我们如何进行多维标度分析呢?假定有一个n个对象的不相似矩阵( ij)n n ,要寻找n个对象的一个r维拟合构造点X。下面介绍Kruskal的非度量MDS分析方法。 为了寻找一个较好的拟合构造点,我们可以从某一个拟合构造点开始,即先将n个对象随意放置在r维空间,形成一个感知图,用Xi =(Xi 1,Xi 2,Xir) 表示i对象在r维空间的坐标,对象i与j在r维空间的距离为 :,也就是说,S应力是将(10.9)式中的dij和 用它们的平方代 表后所得到的量度。S应力的值介于0和1之间。典型的情况是:此值小于0.1意味着感知图是n个对象的一个好的几何表示。 在非度量MDS分析过程中,另一个需要解决的问题是感知图 空间维数r的确定。我们可以制作应力-r图确定感知图的维数 r 。从前述可知,对每一个r ,可以找到使应力达到最小的点 结构。随着r的增加,最小应力将在运算误差的范围内逐渐下 降,且当r =n-1时达到零。从r 1开始,可将应力S( r )对 r作图。这些点随r的增加而呈下降排列。若找到一个r ,上述 下降趋势到这一点开始接近水平状态,即形成一个“肘”形曲 线,这个r便是“最佳”维数。 非度量MDS虽然是基于非度量尺度数据的分析方法,但是,当定量尺度的距离阵中的数据不可靠,而距离大小的顺序可靠时,采用非度量MDS比度量MDS得到的结果更接近与实际。,第三节 权重多维标度(WMDS),以上我们的讨论都是以单个“距离”阵数据出发进行的,但在实践中,往往需要确定多个距离阵数据的感知图,比如由10个人分别对5种饮料进行两两相似评测,结果就会得到10个相似性矩阵,那么,我们如何根据这10个人的评测结构得出5种饮料的相似性感知图呢?显然,按照古典多维的方法,我们只能是每一个相似性矩阵确定一个感知图,10个人分别确定10个感知图。但是,往往我们想要得到的是这10个人共同的一个感知图而非10个。这一节将介绍由Carroll和Chang提出的解决这类问题的多维标度方法权重多维标度法(WMDS)。基础权重多维标度法也称权重个体差异欧氏距离模型。,第四节 实例分析与计算实现,一 多维标度法在SPSS中的实现,二 利用SPSS对本章美国十城市的例子 进行多维标度,一、多维标度法在SPSS中的实现 实例1,以SPSS自带文件World95.sav为例,对亚洲国家和地区的17个国家的人口寿命情况进行分析。 (一)操作步骤: 1. 在DataSelect case对话框的If过滤条件中输入过滤条件 “region=3”。得到17个国家和地区。 2. 主菜单中选择AnalyzeScaleMultidimensional Scaling (ALSCAL) 。就进入多维标度法的主对话框(图10.3)。在左上方是变量列表选择以下变量:urban(城市人口比例),lifeexpf(女性平均寿命),lifeexpm(男性平均寿命),gdp_cap(人均GDP),death_rt(千人死亡率),birth_rt(千人出生率),literacy(受教育人口比例)。由于原始数据不是距离阵,因此需要在下方Distances单选项中选择Create distances from data,这时Measure子对话框被激活,默认计算Euclidean distance,即欧氏距离。,图10.3 多维标度法的主对话框,3. 点击进入Measure子对话框,对距离阵进行设定,(图10.4)。由于我们的变量都是连续数值型的,所以应在Measure单选项中选择Interval。并在其下方的Transform Values栏中选择变量标准化变换的方式,这里我们选择Z scores和By variable,表示对变量进行正态标准化。然后在Create Distance Matrix单选项中选择Between cases,表示计算样品之间的距离阵。设置完毕后,点击Continue回到主对话框。,图10.4 Measure子对话框,4. 在主对话框中点击进入Model子对话框,如图10.5。这里可以设定变量取值的类型。在Level of Measurement中选择Interval,即连续取值的数值型变量。其他设置无需改变,点击Continue返回主对话框。,图10.5 Model子对话框,5. 点击进入Options子对话框(图10.6),该对话框中提供了一些结果显示的选择。Display栏中默认不输出任何图表。选择Group plots项可得到多维标度图,这里图表的维度由Model中的Dimensions中填入最小维度Minimum和最大维度Maximum决定;择选Data matrix项可得到距离阵和拟合构造点的坐标;而Model and options summary是显示出多维标度法中的参数设置,计算方法等。这里我们选择Group p
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号