资源预览内容
第1页 / 共24页
第2页 / 共24页
第3页 / 共24页
第4页 / 共24页
第5页 / 共24页
第6页 / 共24页
第7页 / 共24页
第8页 / 共24页
第9页 / 共24页
第10页 / 共24页
亲,该文档总共24页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
1、简述多元统计分析中协差阵检验的步骤第一,提出待检验的假设H0和H1; 第二,给出检验的统计量及其服从的分布;第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域;第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假 设做出决策(拒绝或接受)。协差阵的检验检验 = 0H0: = I人=exp 一 2 trS |S(e np/2 I n i1 trs*2n / 2检验 = = . = H : = = 2kS |n/2 Hnyi=1统计量人=nnp/2 H |S.k/2i=12.针对一个总体均值向量的检验而言,在协差阵已知和未知的两种情形下,如何分别构造 的统计量?罗 5 (又-JI。庄-1 (又 - % 尸(p);在协差阵未知时,构造如下统计量:”艺)? TF(p,-p),其中产=伽-1)(又-p。)fS- V(X-Mo)3. 作多元线性回归分析时,自变量与因变量之间的影响关系一定是线性形式的 吗?多元线性回归分析中的线性关系是指什么变量之间存在线性关系?答:作多元线性回归分析时,自变量与因变量之间的影响关系不一定是线性形式。 当自变量与因变量是非线性关系时可以通过某种变量代换,将其变为线性关系, 然后再做回归分析。多元线性回归分析的线性关系指的是随机变量间的关系,因变量y与回归系数。 i间存在线性关系。多元线性回归的条件是:(1)各自变量间不存在多重共线性;(2)各自变量与残差独立;(3)各残差间相互独立并服从正态分布;(4)Y与每一自变量X有线性关系。4. 回归分析的基本思想与步骤基本思想:所谓回归分析,是在掌握大量观察数据的基础上,利用数理统计方法建立因变量 与自变量之间的回归关系函数表达式(称回归方程式)。回归分析中,当研究的 因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系 涉及因变量和两个或两个以上自变量时,叫做多元回归分析。此外,回归分析中, 又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的, 分为线性回归分析和非线性回归分析。通常线性回归分析法是最基本的分析方 法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理。步骤:1)确定回归方程中的解释变量和被解释变量。2)确定回归模型根据函数拟合方式,通过观察散点图确定应通过哪种数学模型来描述回归 线。如果被解释变量和解释变量之间存在线性关系,则应进行线性回归分析,建 立线性回归模型;如果被解释变量和解释变量之间存在非线性关系,则应进行非 线性回归分析,建立非线性回归模型。3)建立回归方程根据收集到的样本数据以及前步所确定的回归模型,在一定的统计拟合准 则下估计出模型中的各个参数,得到一个确定的回归方程。4)对回归方程进行各种检验由于回归方程是在样本数据基础上得到的,回归方程是否真实地反映了事 物总体间的统计关系,以及回归方程能否用于预测等都需要进行检验。5)利用回归方程进行预测5. 多重共线性问题、不良后果、解决方法多重共线性是指线性回归模型中的自变量之间由于存在精确相关关系或高度相 关关系而使模型估计失真或难以估计准确。常见的是近似的多重共线性关系,即 存在不全为0的p个常数C1,C2,Cp使得C1Xi1+C2Xi2+CpXipR0,i=1,2, n不良后果:模型存在完全的多重共线性,则资料阵X的秩p+1,从而无法得到 回归参数的估计量。对于近似多重共线性情况,虽有r(X)=p+1,但IXTX|R0,从 而矩阵(XTX) -1的主对角线上的元素很大,使得估计的参数向量的协方差阵的 对角线上的元素也很大,导致普通最小二乘参数估计量并非有效。检验方法:方差扩大因子(VIF )法和特征根判定法方差扩大因子表达式为:VIF.=1/(1-R.2),其中R.为自变量xi对其余自变量作回 归分析的复相关系数。当VlF.很大时,表明自变量间存在多重共线性。解决方法:当发现自变量存在严重的多重共线性时,可以通过剔除一些不重要的 自变量、增大样本容量、对回归系数做有偏估计(如采用岭回归法、主成分法、 偏最小二乘法等)等方法来克服多重共线性。6. 为什么要进行回归方程的显著性检验?答:对于任意给定的一组观测数据(xi1,xi2,.,xip;yi),(i=1,2,.,n),我们都可以建立 回归方程。但实际问题很可能y与自变量x1,x2,.,xp之间根本不存在线性关系, 这时建立起来的回归方程的效果一定很差,即回归值yi实际上不能拟合真实的 值yi。即使整个回归方程的效果是显著的,在多元的情况下,是否每个变量都起 着显著的作用呢?因此还需要对各个回归系数进行显著性检验,对于回归效果不 显著的自变量,我们可以从回归方程中剔除,而只保留起重要作用的自变量,这 样可以使回归方程更简练。7. 统计性的依据是什么?给出一个回归方程如何做显著性检验?统计性的依据是方差分析。对于多元线性回归方程作显著性检验就是要看自变量x1,x2,.xp从整体上对随机 变量y是否有明显的影响,即检验假设H0: p 1=p 2=.邛p=0 H1:至少有某 个6 i尹0, 1=i=p如果H0被接受,则表明y与x1,x2,.xp之间不存在线性关系,为了说明如何进 行检验,我们首先要建立方差分析表。在进行显著性检验中,我们可以用F统计量来检验回归方程的显著性,也可以用P 值法做检验。F 统计量是:F=MSR/MSE=SSR/p/SSE/(n-p-1)当H0为真时,FF(p,n-p-1)。给定显著性水平。,查F分布表得临界值F1-a (p,n-p-1),计算F的观测值,若F0F0),定显著性水平。, 若pta /2(n-p-1 )时,拒绝H0。反之,则接受H0。数据的中心化和标准化目的:解决利用回归方程分析实际问题时遇到的诸多自变量量纲不一致的问题。 数据中心化处理的几何意义:相当于将坐标原点移至样本中心,而坐标系的平移 并不改变直线的斜率,只改变了截距。通过对残差进行分析,可以在一定程度上回答下列问题:1) 回归函数线性假定的可行性;2) 误差项的等方差假设的合理性;3) 误差项独立性假设的合理性;4) 误差项是否符合正态分布;5) 观测值中是否存在异常值;6) 是否在模型中遗漏了某些重要的自变量。8. 标准化回归方程与非标准化回归方程有何不同?在怎样的情况下需要将变量 标准化?标准化回归方程就是将自变量因变量都标准化后的方程。在spss输出的回 归系数中有一列是标准化的回归系数,由于都标准化了,因此标准化方程中没有 常数项了。对数据标准化,即将原始数据减去相应变量的均数后再除以该变量的标准 差,计算得到的回归方程称为标准化回归方程,相应的回归系数为标准化回归系 数。一般情况下的回归,并不必须标准化,直接回归即可。在做主成分分析包括 因子分析时,则必须标准化。9. 回归分析和相关分析的区别和联系相关分析和回归分析都是对客观事物数量依存关系的分析,均有一元和多元,线 性与非线性之分,在应用中相互结合渗透,但仍有差别,主要是:(1)相关分析主要刻画两类变量间线性相关的密切程度,而回归分析则是揭示 一个变量如何与其他变量相联系,并可由回归方程进行控制和预测(2)在相关分析中,变量y与x处于平等的地位,在回归分析中,因变量y处 于被解释的特殊地位(3)在相关分析中所涉及的变量y与x完全是随机变量;而在回归分析中因变 量y是随机变量,自变量可以是随机变量也可以是非随机变量。一般来说,只有 存在相关关系才可以进行回归分析,相关程度越高,回归分析的结果就越可靠。10. 回归方程的基本假定?(1)回归函数的线性假设(2)误差项的等方差假设(3)误差项的独立性假设(4)误差项的正态分布假设11运用回归分析解决问题时,回归变量的选择理论依据的什么?选择回归变量 时应注意哪些问题?(1)从拟合角度考虑,可以采用修正的复相关系数达到最大的准则准则1:修正的复相关系数Ra2达到最大。因为:R2=1-MSE/(SST/(n-1)从这个关系式容易看出,R2达到最大时,MSE达到最小。(2)从预测的角度考虑,可以采用预测平方和达到最小的准则及C准则准则2:预测平方和PRESSp达到最小准则3:(C准则)(3)从极大似然估计角度考虑,可以采用赤池信息量化准则(AIC准则)准则4:赤池信息量达到最小AIC=nln(SSEp)+2p选择AIC值最小的回归方程为最优回归方程自变量的选择问题可以看成是应该采用全模型还是选模型的问题全模型正确误用选模型:全模型相应参数为有偏估计,选模型预测也是有偏的。 选模型的参数估计和预测残差以及均方差都有较小的方差。选模型正确误用全模型,全模型参数估计和预测是有偏估计,而全模型预测值的 方差和均方差大于选模型相应的方差。上述结论说明丢掉那些对应变量影响不大 的,或虽有影响,但难于观测的自变量是有利的。12. 逐步回归方法的基本思想与步骤基本思想:有进有出。具体做法是将变量一个一个引入,引入变量的条件是通过 了偏F统计量的检验,同时,每引入一个新变量后,对已入选方程的老变量进行 检测,将经检验认为不显著的变量剔除,此过程经过若干步,直到既不能引入新 变量又不能剔除老变量为止。基本步骤:(1) 对于每个自变量Xj(lWiWm),拟合m个一元线性回归模型,若F(i)F,则 所选择含有自变量xii的回归模型为当前模型,否则,没有变量引入模1型,选择 过程结束,即认为所有自变量对y的影响均不显著。(2) 在第一步的基础上,再将其余的m-1个自变量分别加入此模型中,得到m-1个二元回归方程,若若FF则将自变量x引入模型,进一步考察x引入模 型后,x对y的影响是否仍显著,若FWF2,则剔除x。i2(3) 在第二步的基础上再将其余的m-21个自变量分别加入此模型中,拟合各个 模型并计算偏F统计量值,与F比较决定是否又新变量引入,如果有新的变量 引入,还需要检验原模型中的老变量是否因为这个新变量的引入而不再显著,那 样就应该被剔除。重复以上步骤,直到没有新的变量进入模型,同时在模型中的老变量都不能被剔 除,则结束选择过程。13. 在作判别分析时,如何检验判别效果的优良性?当一个判别准则提出以后,还要研究其优良性,即要考察误判概率。一般使用以 训练样本为基础的回代估计法与交叉确认估计法。(1) 误判率回代估计法回判过程中,用n12表示将本属于G1的样本误判为G2的个数,n21表示将本属 于G2的样本误判为G1的个数,总的误判个数是n12+n21,误判率的回代估计为 (n12+n21)/(n1+n2),但往往比真实的误判率要小。(2) 误判率的交叉确认估计每次剔除训练样本中
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号