资源预览内容
第1页 / 共25页
第2页 / 共25页
第3页 / 共25页
第4页 / 共25页
第5页 / 共25页
第6页 / 共25页
第7页 / 共25页
第8页 / 共25页
第9页 / 共25页
第10页 / 共25页
亲,该文档总共25页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
对应分析行和列变量的相关问题行和列变量的相关问题 在在因因子子分分析析中中,或或者者对对变变量量(列列中中的的变变量量)进进行行分分析析,或或者者对对样样品品(观观测测值值或或行行中中的的变变量量)进进行行分分析析;而而且且常常常常把把每每一一种种分分析析结结果果画画出出载载荷荷图图来来看看各各个个变变量量之之间间的的接接近近程度。程度。典典型型相相关关分分析析也也只只研研究究列列中中两两组组变变量量之之间间的关系。的关系。然然而而,在在很很多多情情况况下下,所所关关心心的的不不仅仅仅仅是是行行或或列列本本身身变变量量之之间间的的关关系系,而而是是行行变变量量和和列列变变量量的的相相互互关关系系;这这就就是是因因子子分分析析等等方法所没有说明的了。先看一个例子。方法所没有说明的了。先看一个例子。例子(数据例子(数据ChMath.sav)在研究读写汉字能力与数学的关系的研究在研究读写汉字能力与数学的关系的研究时,人们取得了时,人们取得了232个美国亚裔学生的数学个美国亚裔学生的数学成绩和汉字读写能力的数据。成绩和汉字读写能力的数据。关于汉字读写能力的变量有三个水平:关于汉字读写能力的变量有三个水平:“纯汉字纯汉字”意味着可以完全自由使用纯汉字意味着可以完全自由使用纯汉字读写,读写,“半汉字半汉字”意味着读写中只有部分意味着读写中只有部分汉字(比如日文),而汉字(比如日文),而“纯英文纯英文”意味着意味着只能够读写英文而不会汉字。而数学成绩只能够读写英文而不会汉字。而数学成绩有有4 4个水平(个水平(A A、B B、C C、D D)。)。 这项研究是为了考察汉字具有的抽象图形这项研究是为了考察汉字具有的抽象图形符号的特性能否会促进儿童空间和抽象思符号的特性能否会促进儿童空间和抽象思维能力。该数据以列联表形式展示在表中:维能力。该数据以列联表形式展示在表中:人们可以对这个列联表进行前面所说的人们可以对这个列联表进行前面所说的c c2检验来考检验来考察行变量和列变量是否独立。结果在下面表中(通察行变量和列变量是否独立。结果在下面表中(通过过AnalyzeDescriptiveStatisticsCrosstabs)例子(数据例子(数据ChMath.sav) 由于所有的检验都很显著,看来两个变量由于所有的检验都很显著,看来两个变量的确不独立。的确不独立。但是如何用象因子分析的载荷图那样的直但是如何用象因子分析的载荷图那样的直观方法来展示这两个变量各个水平之间的观方法来展示这两个变量各个水平之间的关系呢?这就是本章要介绍的对应分析关系呢?这就是本章要介绍的对应分析(correspondenceanalysis)方法。方法。对应分析方法被普遍认为是探索性数据分对应分析方法被普遍认为是探索性数据分析的内容,因此,读者只要能够会用数据析的内容,因此,读者只要能够会用数据画出描述性的点图,并能够理解图中包含画出描述性的点图,并能够理解图中包含的信息即可。的信息即可。对应分析对应分析 处理列联表的问题仅仅是对应分析的处理列联表的问题仅仅是对应分析的一个特例。一般地,一个特例。一般地,对应分析常规地处理连续变量的数据对应分析常规地处理连续变量的数据矩阵;这些数据具有如在主成分分析、矩阵;这些数据具有如在主成分分析、因子分析、聚类分析等时所处理的数因子分析、聚类分析等时所处理的数据形式。据形式。在因子分析中,根据各行变量的因子在因子分析中,根据各行变量的因子载荷和各列变量的因子载荷之间的关载荷和各列变量的因子载荷之间的关系,行因子载荷和列因子载荷之间可系,行因子载荷和列因子载荷之间可以两两配对。以两两配对。对应分析对应分析 如果对每组变量选择前两列因子载荷,那么两组如果对每组变量选择前两列因子载荷,那么两组变量就可以画出两个因子载荷的散点图。变量就可以画出两个因子载荷的散点图。由于这两个图所表示的载荷可以配对,于是就可由于这两个图所表示的载荷可以配对,于是就可以把这两个因子载荷的两个散点图画到同一张图以把这两个因子载荷的两个散点图画到同一张图中,并以此来直观地显示各行变量和各列变量之中,并以此来直观地显示各行变量和各列变量之间的关系。间的关系。由于列联表数据形式和一般的连续变量的数据形由于列联表数据形式和一般的连续变量的数据形式类似,所以也可以用对应分析的数学方法来研式类似,所以也可以用对应分析的数学方法来研究行变量各个水平和列变量各个水平之间的关系;究行变量各个水平和列变量各个水平之间的关系;虽然对不同数据类型所产生结果的解释有所不同,虽然对不同数据类型所产生结果的解释有所不同,数学的原理是一样的。下面通过对数学的原理是一样的。下面通过对ChMath.sav数据的计算和结果分析来介绍对应分析。数据的计算和结果分析来介绍对应分析。首先看对应分析结果的一个主要首先看对应分析结果的一个主要SPSS展示,然后展示,然后再解释该图的来源和解释。再解释该图的来源和解释。运用纯汉字的点和最好的数学成绩运用纯汉字的点和最好的数学成绩A最接近,而不会汉字最接近,而不会汉字只会英文的点与最差的数学成绩只会英文的点与最差的数学成绩F(或者或者D,虽然在纵坐虽然在纵坐标稍有差距)最接近,而用部分汉字的和数学成绩标稍有差距)最接近,而用部分汉字的和数学成绩B接近。接近。对应分析的数学原理是什么?结果解释结果解释根据根据SPSS对数据对数据ChMath.sav的计算,得到一些表格。的计算,得到一些表格。其其中中第第一一个个就就是是下下面面的的各各维维的的汇汇总总表表。这这里里所所涉涉及及的的是是行行与与列列因因子子载载荷荷之之间间的的关关系系;选选择择行行和和列列变变量量的的显显著著的的因因子子载载荷荷的的标标准准是是一一样样的的。选选择择多多少少就就涉涉及几维。为了画出散点图,就至少要选择两维了。及几维。为了画出散点图,就至少要选择两维了。表中的术语表中的术语 Inertia惯惯量量,为为每每一一维维到到其其重重心心的的加加权权距距离离的的平平方。它度量行列关系的强度。方。它度量行列关系的强度。SingularValue奇奇异异值值(是是惯惯量量的的平平方方根根),反反映映了了是是行行与与列列各各水水平平在在二二维维图图中中分分量量的的相相关关程程度度,是是对对行行与与列列进进行行因因子子分分析析产产生生的的新新的的综综合合变变量量的的典典型型相关系数。相关系数。ChiSquare就就是是关关于于列列联联表表行行列列独独立立性性c c2检检验验的的c c2统统计计量量的的值值,和和前前面面表表中中的的相相同同。其其后后面面的的Sig为为在在行行列列独独立立的的零零假假设设下下的的p-值值,注注释释表表明明自自由由度度为为(4-1)(3-1)=6,Sig.值值很很小小说说明明列列联联表表的的行行与与列列之之间间有有较强的相关性。较强的相关性。ProportionofInertia惯惯量量比比例例,是是各各维维度度(公公因因子子)分分别别解解释释总总惯惯量量的的比比例例及及累累计计百百分分比比,类类似似于于因子分析中公因子解释能力的说明。因子分析中公因子解释能力的说明。解释解释 从从该该表表可可以以看看出出,由由于于第第一一维维的的惯惯量量比比例例占占了了总总比比例例的的93.9%93.9%,因因此此,其其他他维维的的重重要要性性可可以以忽忽略略(虽虽然然画画图图时时需需要要两两维维,但但主主要要看第一维横坐标)。看第一维横坐标)。在在SPSSSPSS的的输输出出中中还还有有另另外外两两个个表表分分别别给给出出了了画画图图中中两两套套散散点点图图所所需要的两套坐标。需要的两套坐标。解释解释 该表给出了图该表给出了图中中三个汉字使用点的坐三个汉字使用点的坐标:纯汉字标:纯汉字(-.897,-.240)(-.897,-.240),半汉字,半汉字(.102,.491)(.102,.491),纯英文,纯英文(.970,-.338)(.970,-.338),以及以及四个数学成绩点的坐标:数学四个数学成绩点的坐标:数学A(-.693,-.345),数学数学B(-.340,.438),数学数学C(.928,.203),数学数学C(1.140,-.479)。两表中的概念不必记;其中两表中的概念不必记;其中Mass为行为行与列的边缘概率;与列的边缘概率;ScoreinDimension是各维度的分值是各维度的分值(二维图中的坐标二维图中的坐标);Inertia:就是前面所提到的惯量,为每就是前面所提到的惯量,为每一行一行/列到其重心的加权距离的平方。列到其重心的加权距离的平方。SPSS的的实现实现打打开开ChMath.sav数数据据,其其形形式式和和本本章章开开始始的的列列联联表表有有些些不不同同。其其中中ch列列代代表表汉汉字字使使用用的的三三个个水水平平;而而math列列代代表表数数学学成成绩绩的的四四个个水水平平;第第一一列列count实实际际上上是是ch和和math两两个个变变量量各各个个水水平平组组合合的的出出现现数数目目,也也就就是列联表中间的数目。是列联表中间的数目。由由于于count把把很很大大的的本本应应有有232行行的的原原始始数数据据简简化化成成只只有有12行行的的汇汇总总数数据据,在在进进行行计计算算之之前前必必须须进进行行加加权权。也也就就是是点点击击图图标标中中的小天平,再按照的小天平,再按照count加权即可。加权即可。SPSS的的实现实现加权之后,选择加权之后,选择AnalyzeDataReductionCorrespondenceAnalysis,然后把然后把“汉字使用汉字使用”选入选入Row(行),再行),再点击点击DefineRange来定义其范围为来定义其范围为1(Minimumvalue)到到3(Maximumvalue),之后点击之后点击Update。类似地,点击类似地,点击Continue之后,把之后,把“数学成数学成绩绩”选入选入Column(列列),并以同样方式定义,并以同样方式定义其范围为其范围为1到到4。由于其他选项可以用默认值,就可以直接由于其他选项可以用默认值,就可以直接点击点击OK来运行了。这样就得到上述表格和来运行了。这样就得到上述表格和点图。点图。对应分析的数学对应分析的数学(CorrespondenceAnalysis)(SPSSDataReduction)因子分析对变量和对样品要分别对待因子分析对变量和对样品要分别对待.对应对应分析把变量和样本同时反映到相同坐标轴分析把变量和样本同时反映到相同坐标轴(因因子轴子轴)的一张图形上的一张图形上.数学上数学上,令令A=aij为为np矩阵矩阵,x=xi为为n-(列列)向量向量,y=yj为为p-(列列)向量向量.那么那么(r,x,y)称称为对应分析问题为对应分析问题C0(A)的解的解,如果如果行记分行记分(rowscore)xi和列记分和列记分yj的的加权均值成加权均值成比例比例,而列记分而列记分yj和和行记分行记分xi的加权均值成比的加权均值成比例例.数值数值r为行列记分的相关为行列记分的相关(在典型相关的在典型相关的意义上意义上).记记R=diag(ai.),C=diag(a.i),R1/2=diag(a.i1/2),则上面式子为则上面式子为rx=R-1Ay;ry=C-1Ax或或rR1/2x=(R-1/2AC-1/2)C1/2y;rC1/2y=(C-1/2AR-1/2)R1/2x=(R-1/2AC-1/2)R1/2xX为一个解的条件是下面特征值问题有解为一个解的条件是下面特征值问题有解(最最大特征值为大特征值为1是平凡解是平凡解,两组非零特征值相同两组非零特征值相同!)令令前面的特征值问题可以写成前面的特征值问题可以写成两个特征值问题有同样的非零特征值两个特征值问题有同样的非零特征值.如如U是是ZZ的特征向量的特征向量,则则ZU是是ZZ的特征向的特征向量量.ZZ的特征根为的特征根为l l1l l2l lp;ZZ相应的特征相应的特征向量为向量为u1,u2,up.ZZ相应的特征向量为相应的特征向量为v1,v2,vn.对最大的对最大的m个特征值得因子载荷个特征值得因子载荷阵阵可以对可以对变量变量和和样品样品作作两两因子载荷图两两因子载荷图.下面再看另一个例子。下面再看另一个例子。吸烟和位子的关系吸烟和位子的关系(列变量为列变量为:高级经理高级经理,低级经理低级经理,高级职员高级职员,低级职员低级职员,秘书秘书行变量为行变量为吸烟程度吸烟程度)smagimagsempiempsecno44251810light2310246med3010330heavy244132x_read.table(F:2002pkusmoke.dat,header=T)biplot(corresp(x,nf=2)Rowscores:Columnscores:,1,2,1,2no1.17240.583smag0.00404-0.2042light-0.0522-0.369imag1.01069-3.3951med-1.41730.787semp0.813810.9957heavy-0.1589-2.206iemp-0.93957-0.0599sec1.75794-0.2180不同特征值的解不同特征值的解x和和z有下面意义的正交性有下面意义的正交性:平凡解正交性的充要条件为平凡解正交性的充要条件为S Siai.xi=S Sia.iyj=0这在列联表中意味着这在列联表中意味着x和和y要中心化要中心化(零均值条零均值条件件)
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号