四种指标筛选方法-－金锄头文库

1主成分分析法主成分分析是设法将原来具有一定相关性的众多指标比如 p 个指标重新组合成一组新的、互相无关的综合指标来代替原来指标的方法。通常数学上的处理就是将原来的 p个指标作线性组合作为新的综合指标。如用F1 主成分分析法的主要原理是利用将维的思想通过研究指标体系的内在结构关系把多指标转化成少数几个相互独立而且包含原有指标大部分信息(85%)的综合指标的多元统计方法。其优点是它确定的权数是基于数据分析而得到的指标之间的内在结构关系不受主观因素的影响而得到的综合指标即主成分之间彼此独立减少信息的交叉使得分析评价结果具有客观性和准确性。基本原理主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标 X1X2XP比如p个指标重新组合成一组较少个数的互不相关的综合指标Fm来代替原来指标。那么综合指标应该如何去提取使其既能最大程度的反映原变量Xp所代表的信息又能保证新指标之间保持相互无关信息不重叠。设F1表示原变量的第一个线性组合所形成的主成分指标即11112121.ppFa Xa Xa X,由数学知识可知每一个主成分所提取的信息量可用其方差来度量其方差 Var(Z1)越大表示 F1包含的信息越多。常常希望第一主成分 F1所含的信息量最大因此在所有的线性组合中选取的 F1应该是 X1X2XP的所有线性组合中方差最大的故称 F1为第一主成分。如果第一主成分不足以代表原来 p 个指标的信息再考虑选取第二个主成分指标 F1为有效地反映原信息F1已有的信息就不需要再出现在 F2中即 F2与 F1要保持独立、不相关用数学语言表达就是其协方差 Cov(F1, F2)=0所以 F2是与F1不相关的 X1X2XP的所有线性组合中方差最大的故称 Z2为第二主成分依此类推构造出的 F1、F2、Fm为原变量指标 X1X2XP第一、第二、第 m 个主成分。 11111221221122221122. . . .ppppmmmmppFa Xa Xa X Fa Xa XaXFa XaXaX 根据以上分析得知 (1) Fi与 Fj互不相关即 Cov(FiFj) = 0,并有 Var(Fi)= aiT a i其中为 X 的协方差阵 (2) F1是 X1X2XP的一切线性组合系数满足上述要求中方差最大的,即Fm是与 F1F2Fm-1都不相关的 X1X2XP的所有线性组合中方差最大者。 F1F2Fmmp为构造的新变量指标即原变量指标的第一、第二、第m 个主成分。由以上分析可见主成分分析法的关键就是确定原来变量 Xjj=12 p在诸主成分 Fii=12m上的荷载ija i=12m j=12 p 。从数学上可以证明原变量协方差矩阵的特征根是主成分的方差所以前 m 个较大特征根就代表前 m个较大的主成分方差值原变量协方差矩阵前 m 个较大的特征值i这样取才能保证主成分的方差依次最大所对应的特征向量就是相应原变量在主成分 Fi上的载荷ia为了加以限制载荷系数ia启用的是i对应的单位化的特征向量即有ai ai= 1。 2. 条件广义方差极小法从统计分析的眼光来看,给定 P 个指标 X1,XP,的 n 组观察数据,就称为给了 n 个样本,相应的全部数据用 X 表示,即 X=npnnppxxxxxxxxx212222111211每一行代表一个样本的观察值,X 是 np 矩阵,利用 X 的数据,可以算出变量 xi 的均值、方差与 xi,xj 之间的协方差,相应的表达式是: 均值 iX= naaix1n1i=1,2p 方差 iS=21)(1 naiaXxnii=1,2p 协方差 )( )(11ij janaiaXxXxnS iiij i,j=1,2p 由iiS,ijS形成的矩阵 S = (ijS)pp(1) 称为 X1XP 这些指标的方差、协方差矩阵,或简称为样本的协差阵.用 S 的行列式值| S|反映这 P 个指标变化的状况,称它为广义方差,因为 p =1 时| S |=| S11|=变量 X1 的方差,所以它可以看成是方差的推广.可以证明,当X1,XP相互独立,广义方差| S |达到最大值;当X1,XP线性相关时,广义方差| S |的值是 0.因此,当X1,XP既不相互独立时,又不线性相关时,广义方差| S |的大小反映了它们内部的相关性.下面来考虑条件广义方差,将(1)式分块表示也就是将X1XP 这 P 个指标分成两部分(X1,XP1)和 XP1XP),分别记为 X(1)与 X(2),即这样表示后,S11,S12,表示 X(1),X(2)的协差阵.给定 X(1)之后,X(2)对 X(1)的条件协差阵,从数学上可以推导得到(在正态分布的前提下) S(X(2)| X(1) = S22- S21S11-1S12 (2) (2)式表示当已知X(1)时,X(2)的变化状况.可以想到,若已知X(1)后,X(2)的变化很小.,那么X(2)这部分指标就可以删去.即 X(2)所能反映的信息,在 X(1)中几乎都可得到,因此就产生条件广义方差最小的删去方法.方法如下: 将X1,XP分成两部分(X1,XP-1)看成X(1),XP看成X(2),用(2)就可算出S(X(2)| X(1), 此时是一个数值,它是识别XP是否应删去的量,记为tp.类似地,对X1,可以将X1看成X(2),余下 P-1 个看成 X(1),用(2-2)就可以算出一个数值,记为 ti.于是得到 t1,t2,tp 这 P 个值,比较他们的大小,最小的一个可以考虑是删去的,这与所选的临界值 C 有关,C 是自己选的,认为小于 C就可删去,大于 C不宜删去.给定 C 之后,逐个检查ti D 时,就可以删去 Xi. 4. 选取典型指标法如果开始考虑的指标过多,可以将这些指标先进性聚类,而后在每一类中选取若干典型指标.典型指标的选取,可用上述2,3所述方法,但这两种方法计算量都比较大.用单相关系数选取典型指标计算简单,在实际中可依据具体情况选用.假设聚为同一类的指标有 N 个,分别为 a1,a2,an.第一步计算 N 个指标之间的相关系数矩阵 R 第二步计算每一指标与其它 n -1 个指标的相关系数的平方 ri. 则 ri-2 粗略的反映了 ai与其它 n-1 个指标的相程度.第三步比较 ri-2 的大小,若有 rk-2= max1inri-2 则可选取 ak 作为 a1,a2an 的典型指标,需要的话,还可以在余下的指标中继续选取.