资源预览内容
第1页 / 共32页
第2页 / 共32页
第3页 / 共32页
第4页 / 共32页
第5页 / 共32页
第6页 / 共32页
第7页 / 共32页
第8页 / 共32页
第9页 / 共32页
第10页 / 共32页
亲,该文档总共32页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
主成份分析常常遇到的问题指标过多,对现象(或事物)解释带来困难指标过多,对现象(或事物)解释带来困难-需需要降维;要降维;指标往往存在相关性,使指标往往存在相关性,使“关系关系”复杂化,特别是复杂化,特别是在回归分析中出现共线性在回归分析中出现共线性-需消除共线性;需消除共线性;用多指标从多个维度对医学现象(或事物)进行考用多指标从多个维度对医学现象(或事物)进行考核核-需综合评价;需综合评价;揭示事物的不同属性与多个维度体征揭示事物的不同属性与多个维度体征-判别归类。判别归类。 解决诸如此类问题方法:主成份分析与因子分析解决诸如此类问题方法:主成份分析与因子分析!何为主成份?n主成份分析:对数据和变量结构进行分析处理的一种行之有效的多元统计分析方法,它可在不损失或尽量少损失原有指标信息的情况下,将多个具有相关性的指标转换成少数几个互相独立的综合指标,即主成份.如何去寻找主成份呢?n这可从“点集”的角度来讨论: 在有P(2)个指标的P维空间中,抽取了n个点(即n个观察对象),我们希望弄清这n个点间的关系,显然在高维空间中点的关系不直观,若把这些点“近似地”在较低维(如m维,mP)空间中表示出来,无疑对我们的研究有帮助。这也就是主成分分析的基本思想和目的。Y1X1X2如何达到这个目的呢? Y(Y1,Y2,YP) 是由 X(X1,X2,XP) 经正交变换正交变换得来的,即存在一个正交矩阵U,有: YUX 正交变换正交变换n在所有形如上面的线性变换中,选取这样的线性变换,它使Y1具有最大方差, Y2次之, ,依此类推,即方差的大小顺序是V(Y1)V(Y2)V(YP),且Y1,Y2,YP彼此独立(互不相关)。 这样得到的Y1,Y2,YP分别叫做指标变量X X的第一,第二,第P主成分(principel component)。n有P个原指标变量,相应的就应该有P个主成分,但只有前面的m个主成分具有实际的解释意义,将具体讨论m的确是方法。n由于Y Y是X X的线性变换(即线性组合),所以Yi (i1,2,P)都是X X的一个综合指标。Lagrange 条件极值:条件极值: V(Y k)= k -R的第的第k个特征根个特征根 - j 对应的特征向量对应的特征向量 主成分分析的计算步骤 n(1)计算各变量的相关系数矩阵R(rij);n(2) 计算相关矩阵R的特征值,并按由大到小的顺序排列:1 2 p;n(3) 计算贡献率i 和累积贡献率 m,确定m的值(即主成分的个数);n(4) 求出前k个特征值1 , 2 , ,m所对应的单位特征向量 。主成分的贡献率与主成分的个数 n 1. 主成分的贡献率 第i个主成分提取的信息占全部P个变量总信息的比,称为该主成分的贡献率,即: i为第i个主成分Yi的贡献率贡献率。 如果是通过相关矩阵R求主成分,则主成分的贡献率的计算尤为简单: i =i / p 显然有 = 1,即全部主成分对X “总方差”的贡献率率为100。 2. 累积贡献率 把多个主成分的贡献率由大到小累加起来,就得到各主成分的累积贡献率 m : m 这就是前m个主成分Y1,Y2,Ym对X “总方差”的累积贡献率。 m 愈大,表明前m个主成分的方差占全部总方差的比率愈大,反映X的总信息就越多。当 m 接近于1时,表明前m个主成分已基本上综合了原指标X的总信息。 3. 主成分个数m的确定 一般可有如下两种方法来确定主成分的个数(即m取值): 确定某个m使得 m 70。 取m所有i中大于或近似于1的个数。(其中i为相关阵R的特征值)。因子分析因子分析 factor analysis 1. 因子因子(factor) : 进行多指标变量(因素)研究时,尽管各指标之间的关系错综复杂,但都可以概括为两个方面。一方面是所有指标(变量)各自都表现出一定的相对独立性;另一方面,它们又表现出一定的相互关联性。对于前者,可以看作为事物“个体特性个体特性”的反映;对于后者,则可认为是构成该事物的所有特征的共性共性反映。共性的背后有一个共同的东西在支配这些指标,使之表现为不同的方式组合,体现出共同的作用。 因子分析的概念因子分析的概念n例如,人的收缩血压和舒张血压这两个指标一方面表现出各自的独立性,各自的测量值不同,意义不同。然而,收缩压与舒张压又总是密切相关的,其根本原因在于收缩压和舒张压二者都是受心脏血管系统支配的。心血管系统既要求收缩压和舒张压对心血管的正常活动分担不同的任务,同时又要求二者密切配合,共同为心血管系统的正常功能服务。反过来,假设我们还不知道收缩压和舒张压是受心血管系统的控制。现在,通过医学研究,测得n个个体的收缩压和舒张压,得到了一系列研究数据。问题在于可否通过对这些数据的统计学分析,找出影响这两个血压的“共性”来,即我们称之为因子因子的东西。2. 2. 因子分析因子分析 因子分析就是寻找隐含在多变量数据中的、无法直接观察到的公共因子的一种多元统计分析方法。 其目的就是要通过对多变量观察数据的分析,找出支配多个指标间相互关系的少数几个(小于原指标个数)共性因子(有时也称公共因子,下同),而且要求这些找出的公共因子彼此互相独立。尽管这些公共因子往往不能直接测定,但若以这些共性因子(新指标变量)代替原来观察测量的变量,却能够使原指标所包含信息总量损失很小。 因子分析的数学模型设对于某一研究问题,观察了P个变量(X1,X2,XP),记为X=(X1,X2,XP)。 变量Xi Xi的独立成分Xi 的共性成分若Xi 与其他的Xi 无任何相关性(即没有共性部分),则等式右边的公共成分部分就为零。由于支配(或影响)P个变量的共性因子往往不止一个,记为m个:f1,f2,fm(mp),则有: XAFCU 其中 A(aij)pxm F(f1,f2,fm) CU=(C1U1,C2U2,CPUP) 若记Xi*ai1f1ai2f2aimfm,则Xi*为Xi的共性部分,系数aij则表示Xi在因子fj上的载荷(负荷),又叫做因子载荷。也有人把aij叫权重系数,其大小表明Xi依赖fj的程度。而矩阵A(aij)pxm则称为因子载荷矩阵。Ui表示Xi的独立部分,又称为独立因子。Ci为Xi在Ui上的负荷。因子载荷因子载荷所谓因子分析,就是从可以测量的变量(X1,X2,XP)的样本观察值,即研究获得的数据资料中,求出因子载荷矩阵A A;再运用求出的因子和因子载荷矩阵来预测公因子(f1,f2,fm)。n在进行因子分析时,为了消去变量量纲的影响,常常将变量观察结果首先进行标准化处理。如果把标准化处理后的结果仍然记为(X1,X2,XP),则有E(Xi)0,V(Xi)1。如果运用标准化的数据进行分析,所得的结果包括共性因子和独立因子也都是标准化的了,即有E(fj)0,V(fj)=1,E(Ui)0,V(Ui)=1。 n 进行因子分析有四个任务:估计出载荷矩阵A;确定共性因子个数m;确定有实际意义的载荷矩阵B;计算因子得分。 1. 因子载荷aij的意义 Xiai1f1ai2f2aimfm CiUi 那么,第i个变量Xi与第j个因子fj的协方差便为: r xifiaij因子f1,f2,fm的系数ai1,ai2,aim是用来度量变量Xi可用f1,f2,fm线性组合表达的程度的。也就是说,因子载荷aij反映了Xi依赖fj 的程度,常常把aij叫做权重。几个统计量的意义几个统计量的意义2. 变量共同度的统计意义 V(Xi)V(ai1f1ai2f2aimfm CiUi) V(fi)+V( CiUi) 令Hi 2 V(ai1f1ai2f2aimfm ), 则有: V(Xi) Hi 2 Ci 2 又由于V(Xi) 1,故有Hi 2 Ci 2 = 1 为此,称Hi 2为指标变量Xi的共同度共同度(communality)或共性方差共性方差(common vriance)。第i个变量的共同度实质上是载荷矩阵A的第i 行元素的平方和。n V(Xi)=共性方差Hi 2 剩余方差 Ci 2 n 显然Hi 2大则Ci 2必减少,故Hi 2的大小表明了Xi对于f1,f2,fm的共同依赖程度之大小,这是为什么我们称Hi 2为Xi的共同度的原因。3. 公因子fj方差贡献的统计意义n 在因子载荷阵A中,对A的各列元素求平方和,记为gj2 ngj2与Hi 2统计意义恰好相反。 gj2表示的是第j个公因子fj对于(X1,X2,XP)的总影响,即gj2是同一公因子fj对于所有变量X所提供的方差的总和。显然gj2是衡量公因子间相对重要性的关键指标。 gj2愈大,表明第j个因子fj对X的“贡献”也愈大。若把因子载荷矩阵A的各列元素的平方和都计算出来,并按照计算结果的大小排序,即所有m个因子的相应的“贡献”满足 g12g22gm2,则可以以此为依据,提炼出相对影响较大的一些公因子,这是在因子分析时确定因子个数m的立足点。确定了因子的个数,那么,与g12 、g2、gm2相应的公因子f1,f2,fm便称为第一公因子,第二公因子,第m公因子。因子载荷矩阵A A的求法n 从上面一节的介绍不难看出,因子分析的关键内容之一就是载荷矩阵A的估计。只有估计出了A,其他的计算才可能进行。 1. 矩阵A的求法 RAA 若不考虑独立因子部分,即取 R*AAR (rij*) 则R*与相关阵R的区别仅在于主对角线上的元素。R*的主对角线上的元素依次为变量共同度Hi 2 (i1,2,p),而相关阵R的主对角线上的元素均为1,为此通常称R*为约相关矩阵。公因子个数m的估计n方法一:如果约相关矩阵R*非负定(即R*的特征根均是非负实数.m的确定与主成分分析相似。如果前m个特征根之和占全部特征根之和的70(或75)以上,那么,只须选取这前m个公因子就够了。n方法二:公因子的个数m应该等于R*的特征根中“明显”(由研究的需要自己确定标准)大于零的个数,即此时mR*的所有特征根中“明显”大于零的个数。方差最大正交旋转 首先要明确这里的“理想”是指什么意义?目前经典的理解是要使因子载荷系数(载荷矩阵)满足所谓“简单结构”原则:即要找一个这样的正交矩阵Q,以使矩阵AQ的每一列的所有元素的绝对值都向0或1两极分化(即其绝对值要么趋于0,要么趋于1)。实施这种“简单结构”原则后,新的因子负荷系数的绝对值大小,能够明确地表明某个变量主要受哪些因子的支配。 因子得分的估计 n FX B 因子分析的应用 n结构效度分析结构效度分析
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号