资源预览内容
第1页 / 共43页
第2页 / 共43页
第3页 / 共43页
第4页 / 共43页
第5页 / 共43页
第6页 / 共43页
第7页 / 共43页
第8页 / 共43页
第9页 / 共43页
第10页 / 共43页
亲,该文档总共43页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第13章 多重线性回归与相 关 (multiple linear regression & multiple correlation)content第一节 多重线性回归的概念与统计推断 第二节 假设检验及其评价 第三节 复相关系数与偏相关系数 第四节 自变量筛选第五节 多元线性回归的应用与注意事项目的:作出以多个自变量估计应变量的多 元线性回归方程。 资料:应变量为定量指标;自变量全部或 大部分为定量指标,若有少量定性或等级 指标需作转换。 用途:解释和预报。更精确 意义:由于事物间的联系常常是多方面的 ,一个应变量的变化可能受到其它多个自 变量的影响,如糖尿病人的血糖变化可能 受胰岛素、糖化血红蛋白、血清总胆固醇 、甘油三脂等多种生化指标的影响。第一节 多重线性回归的概念 与统计推断 变量:应变量 1 个,自变量k 个,共 k+1 个。 样本含量:n 数据格式见表13-1 回归模型一般形式:一、数据与多元线性回归模型多元回归分析数据格式 条件车 流 (X1 )气 温 (X2 )气 湿 (X3 )风 速 (X4 )一 氧 化 氮 ( Y )车 流 (X1 )气 温 (X2 )气 湿 (X3 )风 速 (X4 )一 氧 化 氮 ( Y ) 130 020. 0800.4 50.0 6 694822. 5692.0 00.0 0 5 144 423. 0570.5 00.0 7 6144 021. 5792.4 00.0 1 178626. 5641.5 00.0 0 1108 428. 5593.0 00.0 0 3 165 223. 0840.4 00.1 7 0184 426. 0731.0 00.1 4 0 175 629. 5720.9 00.1 5 6111 635. 0922.8 00.0 3 9 175 430. 0760.8 00.1 2 0165 620. 0831.4 50.0 5 9 120 022. 5691.8 00.0 4 0153 623. 0571.5 00.0 8 7 150 021. 8770.6 00.1 2 096024. 8671.5 00.0 3 9 120 027. 0581.7 00.1 0 0178 423. 3830.9 00.2 2 2 147 627. 0650.6 50.1 2 9149 627. 0650.6 50.1 4 5 182 022. 0830.4 00.1 3 5106 026. 0581.8 30.0 2 9 143 628. 0682.0 00.0 9 9143 628. 0682.0 00.0 9 9一般步骤建立回归方程(样本)(2)检验并评价回归方程 及各自变量的作用大小二、多元线性回归方程的建立样本估计而得的多重线性回归方程bj为自变量Xj 的偏回归系数(partial regression coefficient),是j的估计值,表示当方程中其他自变量保持常量时,自变量Xj变化一个计量单位,反应变量Y的平均值变化的单位数。 求偏导数(一阶)原 理 最小二乘法统计软件包第二节 假设检验及其评价 1. 方差分析法:(一)对回归方程多元线性回归方差分析表变异来源自由度SSMSFP回归模型40.063960.0159917.59.0001残差190.017270.00090903总变 异230.08123表13-2显示,P 0.0001,拒绝H0。说明从整体 上而言,用这四个自变量构成的回归方程解释 空气中NO浓度的变化是有统计学意义的。偏回归系数的t检验偏回归系数的t检验是在回归方程 具有统计学意义的情况下,检验某个总 体偏回归系数等于零的假设,以判断是否 相应的那个自变量对回归确有贡献 利用SAS对例13-1的四个偏回归系数进行t检验 与标准化偏回归系数的结果如表13-3所示。变量自由度回归系数标准误t值P值标准化偏回归 系数截距1-0.141660.06916-2.050.05460X110.000116190.000027484.230.00050.59249X210.004490.001902.360.02890.27274X31-0.000006550.00069083-0.010.9925-0.00110X41-0.034680.01081-3.210.0046-0.44770第三节 复相关系数与偏相关系数 确定系数、复相关系数与调整确定系数复相关系数的平方称为确定系数(coefficient of determination), 或决定系数,记为R2,用以反映线性回 归模型能在多大程度上解释反应变量Y的变异性。其定义 为 复相关系数:确定系数的算术平方根 对例13-1,由方差分析表可得:SSR=0.06396 SSE=0.01727 SST=0.08123表示变量Y与k个自变量(X1,X2,Xk)的线性相关的密 切程度。说明,用包含气车流量、气温、气湿与风速这四个自变量的回 归方程可解释交通点空气NO浓度变异性的78.74%。表示交通点空气NO浓度与气车流量、气温 、气湿与风速等四个变量的复相关系数为 0.8703 调整的R2(Adjusted R-Square) 当回归 方程中包含有很多自变量,即使其中有 一些自变量(如本例中的X3 )对解释反 应变量变异的贡献极小,随着回归方程 的自变量的增加,R2 值表现为只增不减 ,这是复相关系数R2的缺点。调整的R2 定义为 偏相关系数冷饮销 售量(元) X1游泳人数(人) X2气温 (oC) X3 26772229 39781430 45192431 528106632 618125333 655136934 690159335 740176136 780193137 889223138 996274939 偏相关系数(partial correlation coefficient ):一般地,扣除其他变量的 影响后,变量Y与X的相关.表13-5 空气中NO浓度与各自变量的相关系数和偏相关系数自变量相关系 数偏相关系数偏相关 系数P值车流X10.808000.696200.0005气温X20.017240.476700.0289气湿X30.27854-0.002180.9925风速X4- 0.67957-0.592750.0046(二)对各自变量 指明方程中的每一个自变量对Y的影响( 即方差分析和决定系数检验整体)。1. 偏回归平方和 各自变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到结 果2. t 检验法 是一种与偏回归平方和检验完全等 价的一种方法。计算公式为结 论标准化回归系数 变量标准化是将原始数据减去相应变量 的均数,然后再除以该变量的标准差。计算得到的回归方程称作标准化回归方程 ,相应的回归系数即为标准化回归系数。 注意:一般回归系数有单位,用来解释各 自变量对应变量的影响,表示在其它自 变量保持不变时, 增加或减少一个单 位时Y的平均变化量 。不能用各 来比 较各 对 的影响大小。标准化回归系数无单位,用来比较 各自变量对应变量的影响大小, 越大, 对 的影响越大。第四节 自变量筛选目的:使得预报和(或)解释效果好自变量筛选的标准与原则 1.残差平方和(SSE)缩小与确定系数(R2)增 大2.残差均方( SSE )缩小与调整确定系数增大3. CP统计量选择既具有较小CP值,在图中又接近于CP =q 直线的模型作为“最优”的准则 全局择优法目的:预报效果好意义:对自变量各种不同的组合所建立的回归方程进行比较 择优。选择方法:逐步选择法1. 1.前进法,回归方程中的自变量从无到有、从少到多逐个引入回归方程。这种选择自变量的方法基于残差均方 缩小的准则,不一定能保证“最优” . 此法已基本淘汰。2. 后退法,先将全部自变量选入方程,然后逐步剔除无统计学意义的自变量。剔除自变量的方法是在方程中选一个偏回归平方和最小的变量, 作F检验决定它是否剔除,若无统计学意义则将其剔除,然后对剩余的自变量建立新的回归方程。重复这一过程,直至方程中所有的自变 量都不能剔除为止。理论上最好,建议使用采用此法。3.逐步回归法,逐步回归法是在前述两种方法的基础上,进行双向 筛选的一种方法。该方法本质上是前进法。 第五节 多元线性回归的应用与注意事项多元线性回归的应用多元线性回归应用的注意事项1、非同质资料的合并问题 斜率相同(同质):可以利用男、女合并 的资料拟合共同的回归模型;不同质:此时应按不同性别分别拟合回归 模型。 2、指标的数量化 3、样本含量: n =(510)m。4、关于逐步回归: 对逐步回归得到的结果不要 盲目的信任,所谓的“最优”回归方程并不一定是最好的,没有选入方程的变量也未必没有统 计学意义。例如,例15-3中若将选入标准和剔除标准定为 和 ,选入的变量 是 ,而不是 ,结果发生了 改变。 不同回归方程适应于不同用途,依专业知识定。5、多重共线性 即指一些自变量之间存在较强的线性关系。如高血压与年龄、吸烟年限、饮白酒年限等,这些自 变量通常是高度相关的,有可能使通过最小二乘法建立 回归方程失效,引起下列一些不良后果:(1)参数估计值的标准误变得很大,从而t值变得很小。(2)回归方程不稳定,增加或减少某几个观察值,估计值可能会发生很大的变化。(3)t检验不准确,误将应保留在模型中的重要变量舍弃。(4)估计值的正负符号与客观实际不一致。消除多重共线性:剔除某个造成共线性的自变量,重建 回归方程;合并自变量,采用逐步回归方法。
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号