资源预览内容
第1页 / 共75页
第2页 / 共75页
第3页 / 共75页
第4页 / 共75页
第5页 / 共75页
第6页 / 共75页
第7页 / 共75页
第8页 / 共75页
第9页 / 共75页
第10页 / 共75页
亲,该文档总共75页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第10章 多元线性回归与相 关学习目标v熟悉多元线性回归模型矩阵形式;v掌握多元线性回归模型、参数估计过程及参 数的解释, 标准化参数估计值;v了解多元线性回归共线性的诊断问题;v理解复相关系数与偏相关系数;v掌握多元线性回归的SAS程序(REG过程 以及选项)。v熟悉计算偏相关系数的SAS程序。多元线性回归与相关的基础理 论v在许多实际问题中,还会遇到一个随机变量与多 个变量的相关关系问题,需要用多元回归分析的 方法来解决。前面介绍的一元回归分析是其特殊 情形。但由于多元回归分析比较复杂,在此仅简 要介绍多元线性回归分析。 v由于经济现象的复杂性,一个被解释变量往往受 多个解释变量的影响。多元回归模型就是在方程 式中有两个或两个以上自变量的线性回归模型。 多元线性回归预测是用多元线性回归模型,对具 有线性趋势的税收问题,使用多个影响因素所作 的预测。多元线性回归 v多元线性回归分析也称为复线性回归分析, 它是一元线性回归分析或简单线性回归分析 的推广,它研究的是一组自变量如何直接影 响一个因变量。这里的自变量指的是能独立 自由变化的变量,一般用x表示;因变量y指 的是非独立的、受其它变量影响的变量,一 般用y表示。由于多元线性回归分析(包括 一元线性回归分析)仅涉及到一个因变量, 所以有时也称为单变量线性回归分析。回归变量的选择与逐步回归 v在实际问题中, 人们总是希望从对因变量有影响的诸多变 量中选择一些变量作为自变量, 应用多元回归分析的方法 建立“最优”回归方程以便对因变量进行预报或控制,这就 涉及到自变量选择的问题。所谓“最优”回归方程, 主要是指 希望在回归方程中包含所有对因变量影响显著的自变量而 不包含对影响不显著的自变量的回归方程。v在回归方程中若漏掉对Y影响显著的自变量,那么建立的 回归式用于预测时将会产生较大的偏差。但回归方程若包 含的变量太多,且其中有些对Y影响不大,显然这样的回 归式不仅使用不方便,而且反而会影响预测的精度。因而 选择合适的变量用于建立一个“最优”的回归方程是十分重 要的问题。 回归变量的选择与逐步回归v选择“最优”回归方程的变量筛选法包括逐步回归法 ,向前引入法和向后剔除法。v向前引入法是从回归方程仅包括常数项开始,把 自变量逐个引入回归方程。具体地说,先在m个 自变量中选择一个与因变量线性关系最密切的变 量,记为,然后在剩余的m-1个自变量中,再选一 个,使得 联合起来二元回归效果最好,第三 步在剩下的m-2个自变量中选择一个变量,使得 联合起来回归效果最好,.如此下去,直至得到“ 最优”回归方程为止。 回归变量的选择与逐步回归v向前引入法中的终止条件为,给定显著性水 平,当某一个对将被引入变量的回归系数作 显著性检查时,若p-value,则引入变量的 过程结束,所得方程即为“最优”回归方程。 v向前引入法有一个明显的缺点,就是由于各 自变量可能存在着相互关系,因此后续变量 的选入可能会使前面已选入的自变量变得不 重要。这样最后得到的“最优”回归方程可包 含一些对Y影响不大的自变量。 回归变量的选择与逐步回归v向后剔除法与向前引入法正好相反,首先将全部m个自变 量引入回归方程,然后逐个剔除对因变量Y作用不显著的 自变量。具体地说,从回归式m个自变量中选择一个对Y 贡献最小的自变量,比如,将它从回归方程中剔除;然后 重新计算Y与剩下的m-1个自变量回归方程,再剔除一个贡 献最小的自变量,比如,依次下去,直到得到“最优”回归 方程为止。向后剔除法中终止条件与向前引入法类似。 v向后剔除法的缺点在于,前面剔除的变量有可能因以后变 量的剔除,变为相对重要的变量,这样最后得到的“最优” 回归方程中有可能漏掉相对重要的变量。 回归变量的选择与逐步回归v逐步回归法是上述两个方法的综合。向前引入中 被选入的变量,将一直保留在方程中。向后剔除 法中被剔除的变量,将一直排除在外。这两种方 程在某些情况下会得到不合理的结果。于是,可 以考虑到,被选入的的变量,当它的作用在新变 量引入后变得微不足道时,可以将它删除;被剔 除的变量,当它的作用在新变量引入情况下变得 重要时,也可将它重新选入回归方程。这样一种 以向前引入法为主,变量可进可出的筛选变量方 法,称为逐步回归法。 回归变量的选择与逐步回归v它的主要思路是在考虑的全部自变量中按其对的作用大小 ,显著程度大小或者说贡献大小,由大到小地逐个引入回 归方程,而对那些对作用不显著的变量可能始终不被引人 回归方程。另外,己被引人回归方程的变量在引入新变量 后也可能失去重要性,而需要从回归方程中剔除出去。引 人一个变量或者从回归方程中剔除一个变量都称为逐步回 归的一步,每一步都要进行检验,以保证在引人新变量前 回归方程中只含有对影响显著的变量,而不显著的变量已 被剔除。v首先给出引入变量的显著性水平和剔除变量的显著性水平 ,然后筛选变量。回归变量的选择与逐步回归回归变量的选择与逐步回归v逐步回归分析的实施过程是每一步都要对已引入回归方程 的变量计算其偏回归平方和(即贡献),然后选一个偏回 归平方和最小的变量,在预先给定的水平下进行显著性检 验,如果显著则该变量不必从回归方程中剔除,这时方程 中其它的几个变量也都不需要剔除(因为其它的几个变量 的偏回归平方和都大于最小的一个更不需要剔除)。相反 ,如果不显著,则该变量要剔除,然后按偏回归平方和由 小到大地依次对方程中其它变量进行检验。将对影响不显 著的变量全部剔除,保留的都是显著的。接着再对未引人 回归方程中的变量分别计算其偏回归平方和,并选其中偏 回归平方和最大的一个变量,同样在给定水平下作显著性 检验,如果显著则将该变量引入回归方程,这一过程一直 继续下去,直到在回归方程中的变量都不能剔除而又无新 变量可以引入时为止,这时逐步回归过程结束。多重共线性 v回归分析是一种比较成熟的预测模型,也是 在预测过程中使用较多的模型,在自然科学 管理科学和社会经济中有着非常广泛的应用 ,但是经典的最小二乘估计,必需满足一些 假设条件,多重共线性就是其中的一种。实 际上,解释变量间完全不相关的情形是非常 少见的,大多数变量都在某种程度上存在着 一定的共线性,而存在着共线性会给模型带 来许多不确定性的结果。多重共线性v设回归模型 如果矩阵X 的列向量存在一组不全为零的数,vI =1,2,n,则称其存在完全共线性,如果,vI =1,2,n,则称其存在近似的多重共线性 。多重共线性v当存在严重的多重共线性时,会给回归系数的统 计检验造成一定的困难,可能造成F检验获得通过 ,T检验却不能够通过。在自变量高度相关的情况 下,估计系数的含义有可能与常识相反。在进行 预测时,因为回归模型的建立是基于样本数据的 ,多重共线性也是指抽样的数据。如果把建立的 回归模型用于预测,而多重共线性问题在预测区 间仍然存在,则共线性问题对预测结果不会产生 特别严重的影响,但是如果样本数据中的多重共 线性发生了变化则预测的结果就不能完全的确定 了。多重共线性检验v检查和解决自变量之间的多重共线性,多多 元线性回归分析来说是很必要和重要的一个 步骤,常用的共线性诊断方法包括:v直观的判断方法v方差扩大因子法(VIF) v特征根判定法直观的判断方法v在自变量 的相关系数矩阵中,有某些自变 量的相关系数值比较大。v回归系数的符号与专业知识或一般经验相反v对重要的自变量的回归系数进行t检验,其 结果不显著,但是F检验确得到了显著 的通 过v如果增加一个变量或删除一个变量,回归系 数的估计值发生了很大的变化v重要变量的回归系数置信区间明显过大方差扩大因子法(VIF) v一般认为如果最大的 超过10,常常表示 存在多重共线性。事实上 10这说明 0.9。特征根判定法v根据矩阵行列式性质,矩阵行列式的值等于 其特征根的连乘积。因此,当行列式| |0 时,至少有一个特征根为零,反过来,可以 证明矩阵至少有一个特征根近似为零时,X 的列向量必存在多重共线性,同样也可证明 有多少个特征根近似为零矩阵X就有多少个 多重共线性。根据条件数 , 其中 为 最大的特征根. 为其他的特征根,通常认 为010存在着多 重共线性。多重共线性的处理方法 v增加样本容量,当线性重合是由于测量误差 引起的以及他仅是偶然存在于原始样本,而 不存在于总体时,通过增加样本容量可以减 少或是避免线性重合,但是在现实的生活中 ,由于受到各种条件的限制增加样本容量有 时又是不现实的v剔除一些不重要的解释变量,主要有向前法 和后退法,逐步回归法。多重共线性的处理方法v前进法的主要思想是变量由少到多的,每次增加一个,直 至没有可引入的变量为止。具体做法是首先对一个因变量 y和m个自变量分别建立回归方程,并分别计算这m个回归 方程的F值,选其最大者,记为Fj,,给定显著性水平F,如 果FjF,则变量引入该方程,再分别对 (Xj,X1),(Xj,X2)(Xj,Xm)做回归方程,并对他们进行F检验 ,选择最大的Fi值,如果Fi.F,则该变量引入方程,重复上 述步骤,直到没有变量引入为止。v后退法,是先用m个因变量建立回归方程,然后在这m个 变量中选择一个最不显著的变量将它从方程中剔除,对m 个回归系数进行F检验,记所求得的最小的一个记为Fj,给 定一个显著性的水平,如果FjF则将Xj从方程中删除,重 复上述步骤直到所有不显著的变量被剔除为止。多重共线性的处理方法v逐步回归法,前进法存在着这样的缺点当一个变 量被引入方程时,这个变量就被保留在这个方程 中了,当引入的变量导致其不显著时,它也不会 被删除掉,后退法同样存在着这样的缺点,当一 个变量被剔除时就永远的被排斥在方程以外了, 而逐步回归法克除了两者的缺点。逐步回归的思 想是有进有出。将变量一个一个的引入,每引入 一个变量对后面的变量进行逐个检验,当变量由 于后面变量的引入而不变的不显著时将其剔除, 进行每一步都要进行显著性的检验,以保证每一 个变量都是显著的。多重共线性的处理方法v主成分法。当自变量间有较强的线性相关性 时,利用P个变量的主成分,所具有的性质 ,如果他们是互不相关的,可由前 m个主 成来建立回归模型。v由原始变量的观测数据计算前m个主成分的 的得分值,将其作为主成分的观测值,建立 Y与主成分的回归模型即得回归方程。这时 P元降为 m元,这样既简化了回归方程的结构 ,且消除了变量间相关性带来的影响。复相关系数与偏相关系数 v在学习一元线性回归分析时,讨论了与之紧 密联系的一元相关分析或简单相关分析。将 这个概念扩展到多元,就是多元相关分析或 复相关分析。简单相关分析研究两个变量之 间的关联性,复相关研究多个变量之间的关 联性。复相关系数v复相关系数是指在具有多元相关关系的变量 中,用来测定因变量y与一组自变量之间相 关程度的指标。v 复相关系数的计算公式为:偏向关系数v偏相关系数度量了当其它变量固定不变时,或者 说,消除了其它变量的影响之后,两个变量之间 线性关联的强度。v设有三个变量 ,如果在三个变量中,剔除 的影响,可计算 对 偏向关系数,记作 , 其计算公式为:v 偏向关系数v如果在这三个变量中,剔除 的影响,可计 算 、 对 偏向关系数,记作 ,其计算公 式为:偏向关系数偏向关系数v如果在这三个变量中,剔除 的影响,可计 算 、 对 偏向关系数,记作 ,其计算公 式为:多元相关分析与多元回归分析的 区别v比较多元相关分析与多元回归分析,它们的 相同点是都讨论了变量之间的关联性。区别 是:多元回归分析给出了变量之间的依存 关系,而多元相关分析却没有给出依存关系 ;多元回归分析要求将变量分为自变量和 因变量,而多元相关分析不要求将变量分为
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号