资源预览内容
第1页 / 共24页
第2页 / 共24页
第3页 / 共24页
第4页 / 共24页
第5页 / 共24页
第6页 / 共24页
第7页 / 共24页
第8页 / 共24页
第9页 / 共24页
第10页 / 共24页
亲,该文档总共24页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
对应分析行和列变量的相关问题 在因子分析中,或者对变量(列中的变量 )进行分析,或者对样品(观测值或行中 的变量)进行分析;而且常常把每一种分 析结果画出载荷图来看各个变量之间的接 近程度。 典型相关分析也只研究列中两组变量之间 的关系。 然而,在很多情况下,所关心的不仅仅是 行或列本身变量之间的关系,而是行变量 和列变量的相互关系;这就是因子分析等 方法所没有说明的了。先看一个例子。例子(数据ChMath.sav ) 在研究读写汉字能力与数学的关系的研究 时,人们取得了232个美国亚裔学生的数学 成绩和汉字读写能力的数据。 关于汉字读写能力的变量有三个水平:“ 纯汉字”意味着可以完全自由使用纯汉字 读写,“半汉字”意味着读写中只有部分 汉字(比如日文),而“纯英文”意味着 只能够读写英文而不会汉字。而数学成绩 有4个水平(A、B、C、D)。 这项研究是为了考察汉字具有的抽象图形 符号的特性能否会促进儿童空间和抽象思 维能力。该数据以列联表形式展示在表中 : 人们可以对这个列联表进行前面所说的c2检验来考 察行变量和列变量是否独立。结果在下面表中(通 过AnalyzeDescriptive StatisticsCrosstabs) 例子(数据ChMath.sav) 由于所有的检验都很显著,看来两个变量 的确不独立。 但是如何用象因子分析的载荷图那样的直 观方法来展示这两个变量各个水平之间的 关系呢?这就是本章要介绍的对应分析( correspondence analysis)方法。 对应分析方法被普遍认为是探索性数据分 析的内容,因此,读者只要能够会用数据 画出描述性的点图,并能够理解图中包含 的信息即可。 对应分析 处理列联表的问题仅仅是对应分析的 一个特例。一般地, 对应分析常规地处理连续变量的数据 矩阵;这些数据具有如在主成分分析 、因子分析、聚类分析等时所处理的 数据形式。 在因子分析中,根据各行变量的因子 载荷和各列变量的因子载荷之间的关 系,行因子载荷和列因子载荷之间可 以两两配对。对应分析 如果对每组变量选择前两列因子载荷,那么两组 变量就可以画出两个因子载荷的散点图。 由于这两个图所表示的载荷可以配对,于是就可 以把这两个因子载荷的两个散点图画到同一张图 中,并以此来直观地显示各行变量和各列变量之 间的关系。 由于列联表数据形式和一般的连续变量的数据形 式类似,所以也可以用对应分析的数学方法来研 究行变量各个水平和列变量各个水平之间的关系 ; 虽然对不同数据类型所产生结果的解释有所不同 ,数学的原理是一样的。下面通过对 ChMath.sav数据的计算和结果分析来介绍对应 分析。 首先看对应分析结果的一个主要SPSS展示,然后 再解释该图的来源和解释。 运用纯汉字的点和最好的数学成绩A最接近,而不会汉字 只会英文的点与最差的数学成绩F(或者D,虽然在纵坐 标稍有差距)最接近,而用部分汉字的和数学成绩B接近 。结果解释 根据SPSS对数据ChMath.sav的计算,得到一些表格 。 其中第一个就是下面的各维的汇总表。这里所涉及 的是行与列因子载荷之间的关系;选择行和列变量 的显著的因子载荷的标准是一样的。选择多少就涉 及几维。为了画出散点图,就至少要选择两维了。 表中的术语 Inertia惯量, 为每一维到其重心的加权距离的平方 。它度量行列关系的强度。 Singular Value奇异值(是惯量的平方根),反映 了是行与列各水平在二维图中分量的相关程度,是 对行与列进行因子分析产生的新的综合变量的典型 相关系数。 Chi Square就是关于列联表行列独立性c2检验的c2 统计量的值,和前面表中的相同。其后面的Sig为在 行列独立的零假设下的p-值,注释表明自由度为(4- 1)(3-1)=6,Sig.值很小说明列联表的行与列之间有 较强的相关性。 Proportion of Inertia惯量比例,是各维度(公因 子)分别解释总惯量的比例及累计百分比,类似于 因子分析中公因子解释能力的说明。 解释 从该表可以看出,由于第一维的 惯量比例占了总比例的93.9%, 因此,其他维的重要性可以忽略 (虽然画图时需要两维,但主要 看第一维横坐标)。 在SPSS的输出中还有另外两个表 分别给出了画图中两套散点图所 需要的两套坐标。解释 该表给出了图中三个汉字使用点的坐 标:纯汉字(-.897,-.240),半汉字 (.102,.491),纯英文(.970,-.338), 以及四个数学成绩点的坐标:数学A(- .693,-.345),数学B(-.340,.438),数学 C(.928,.203),数学C(1.140,-.479)。 两表中的概念不必记;其中Mass为行 与列的边缘概率;Score in Dimension 是各维度的分值 (二维图中的坐标); Inertia:就是前面所提到的惯量,为每 一行/列到其重心的加权距离的平方。 SPSS的实现 打开ChMath.sav数据,其形式和本章开始 的列联表有些不同。其中ch列代表汉字使 用的三个水平;而math列代表数学成绩的 四个水平;第一列count实际上是ch和math 两个变量各个水平组合的出现数目,也就 是列联表中间的数目。 由于count把很大的本应有232行的原始数 据简化成只有12行的汇总数据,在进行计 算之前必须进行加权。也就是点击图标中 的小天平,再按照count加权即可。SPSS的实现 加权之后,选择AnalyzeData Reduction Correspondence Analysis, 然后把“汉字使用”选入Row(行),再点 击Define Range来定义其范围为 1(Minimum value)到3(Maximum value), 之后点击Update。 类似地,点击Continue之后,把“数学成绩 ”选入Column (列),并以同样方式定义其 范围为1到4。 由于其他选项可以用默认值,就可以直接 点击OK来运行了。这样就得到上述表格和 点图。 对应分析 (Correspondence Analysis) (SPSS Data Reduction) 因子分析对变量和对样品要分别对待. 对应分 析把变量和样本同时反映到相同坐标轴(因子 轴)的一张图形上. 数学上, 令A=aij为np矩阵, x=xi 为n-(列) 向量, y=yj 为p-(列)向量. 那么(r,x,y)称为对 应分析问题C0(A)的解, 如果行记分(row score) xi和列记分yj的加权均值成 比例, 而列记分yj和行记分xi的加权均值成比 例. 数值r为行列记分的相关(在典型相关的意 义上). 记R=diag(ai.), C=diag(a.i), R1/2= diag(a.i1/2), 则上面式子为 rx=R-1Ay; ry=C-1Ax 或 rR1/2x=(R-1/2AC-1/2)C1/2y; rC1/2y=(C-1/2A R-1/2)R1/2x= (R-1/2 A C-1/2 )R1/2x X为一个解的条件是下面特征值问题有解(最 大特征值为1是平凡解, 两组非零特征值相同 !)令前面的特征值问题可以写成(这和于秀林的书上一样).两个特征值问题有同样的非零特征值. 如U是ZZ的特征向量, 则ZU是ZZ的特征向 量. ZZ的特征根为l1l2lp; ZZ相应的特征 向量为u1,u2,up. ZZ相应的特征向量为 v1,v2,vn.对最大的m个特征值得因子载荷阵可以对变量和样品作两两因子载荷图. 吸烟和位子的关系 (列变量为:高级经理,低级经理,高级职员,低级职员,秘书 行变量为吸烟程度) smag imag semp iemp sec no 4 4 25 18 10 light 2 3 10 24 6med 3 0 10 33 0 heavy 2 4 4 13 2 x_read.table(“F:2002pkusmoke.dat“,header=T)biplot(corresp(x, nf=2)Row scores: Column scores: ,1 ,2 ,1 ,2no 1.1724 0.583 smag 0.00404 -0.2042 light -0.0522 -0.369 imag 1.01069 -3.3951 med -1.4173 0.787 semp 0.81381 0.9957 heavy -0.1589 -2.206 iemp -0.93957 -0.0599sec 1.75794 -0.2180不同特征值的解x和z有下面意义的正交性:平凡解正交性的充要条件为 Siai.xi= Sia.iyj=0 这在列联表中意味着x和y要中心化(零均值条 件)
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号