资源预览内容
第1页 / 共65页
第2页 / 共65页
第3页 / 共65页
第4页 / 共65页
第5页 / 共65页
第6页 / 共65页
第7页 / 共65页
第8页 / 共65页
第9页 / 共65页
第10页 / 共65页
亲,该文档总共65页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
多重线性回归 (Multiple Linear Regression)一、概述二、参数估计与假设检验三、回归方程评价与共线性诊断四、MLR分析策略五、进一步讨论的问题提纲 多重线性回归是简单线性回归的推广, 是多变量统计分析中的常用方法之一。多变量统计分析是研究客观事物中多种 因素间相互依赖和作用统计规律性的一个数 理统计学分支。一、多重线性回归概述一个结果变量Y和多个自变量(X1, X2 , , Xk)间的线性回归称为多重线性回归 (MLR)。应用: 探索疾病发生的危险因素; 确定自变量对因变量影响相对重要性; 用回归方程进行预测。例1:某地13岁男童身高、体重、肺活量的实测数据(部分)编号身高(cm),x1体重(kg), x2肺活量(L), y 1135.132.01.75 3163.646.22.75 5156.237.12.75 7167.841.52.75 9145.033.02.50 11165.549.53.00 13153.341.02.75 15160.547.22.25 17147.640.52.00 19155.144.72.75 21143.031.51.75 23160.840.42.75 25158.237.52.00 27144.534.72.25 29 :156.5 :32.0 :1.75 :问题: 身高、体重与肺活量有无线性关系? 用身高和体重预测肺活量有多高的精度? 单独用身高或体重是否也能达到同样效果? 身高对肺活量的贡献大,还是体重的贡献大?回归方程:Y:结果变量/应变量/因变量 outcome variable response variable dependent variable X:自变量/解释变量 independent variable explanatory variablea为截距(intercept),又称常数项(constant),表示 各自变量均为0时y的平均估计值。bi 称为偏回归系数(partial regression coefficient), 简称为回归系数。 称为 y 的估计值或预测值(predicted value)。 例:根据某地29名13岁男童的身高x1(cm),体重x2(kg)和肺 活量y(L)建立的回归方程为: 当x1=150,x2=32时, =1.9168,表示对所有身高为150cm,体重为32kg的13岁男童, 肺活量平均估计值为1.9168(L)。 1.MLR的参数估计 最小二乘法 (least square, LS) 基本思想 残差平方和 (sum of squares for residuals)最小二、MLR的参数估计与假设检验估计值与残差 编编号ye编编号ye11.751.8420-0.092022.001.77960.2204 32.752.7527-0.002742.501.98030.519752.752.22360.526462.002.1381-0.1381 72.752.51960.230481.501.8612-0.3612 92.501.94580.5542102.252.19040.0596 113.002.94060.0594121.251.6037-0.3537 132.752.41990.3301141.751.9268-0.1768 152.252.7912-0.5412161.751.9318-0.1818 172.002.3643-0.3643182.252.5653-0.3153 192.752.62890.1211202.002.2668-0.2668 211.751.8546-0.1046222.252.01650.2335 232.752.42510.3249242.502.31330.1867 252.002.2552-0.2552261.752.1330-0.3830 272.252.03510.2149282.502.34530.1547 291.751.9494-0.1994估计值与残差有下列性质:为最小。Y的总变异分解: 未引进回归时的总变异: (sum of squares about the mean of Y) 引进回归以后的变异(剩余): (sum of squares about regression) 回归的贡献,回归平方和: (sum of squares due to regression)2. 方程的假设检验Y的总变异分解为两部分: 回归贡献U 剩余变异Q整个方程是否有意义,就看回归所能解释的变 异U比剩余Q大多少而定。假设检验为:各总体偏回归系数j均为0;:各总体偏回归系数j不全为0。回归方程的方差分析表 变变异来源SS自由度MSF总总lyyn-1回归归UmU/m 剩余Qn-m-1Q/(n-m-1)例1资料方差分析表 变异来源SS自由度MSFP总5.6336228回归3.0757321.5378715.63。解决办法: 剔除自变量 主成分回归 岭回归2. 2. 应用条件应用条件(LINE) 线性 (Linearity) 独立性 (Independence) 正态性 (Normality) 方差齐性 (Equal variance/Homogeneity) Linearity:自变量与因变量为线性关系。检验方法:散点图判断。 Independent: 因变量y取值之间相互独立,即 残差相互独立,不存在自相关。 检验方法:用专业知识判断;残差间相互独 立的检验方法,使用线性回归过程中的DW检 验。 DW统计量检验是否存在自相关。 公式: DW值在0-4之间。 Normal distribution: 自变量的任何一个线性组合,因 变量y均服从正态分布,即要求残差服从正态分布。 检验方法:绘制标准化残差的直方图、茎叶图、PP图 和QQ图)。 Model ; output out=aaa predicted=pred residual=resistdr=standarizedresi; plot residual. *(npp. nqq.); Run; Equal variance/Homogeneity:在自变量X的取值范 围内,不论X取什么值,Y都有相同的方差。即标准化 残差的大小不随变量取值的改变而改变。检验方法:标准化残差图,绘制y的估计值(预测值) 和标准化残差之间的散点图。图a-图f。 Sample size: 样本量应是分析的变量数20倍以上,太 小的样本量造成检验效能不足。 Collinearity diagnostics: 自变量之间不存在共线性。例如根据血液流变学指标,建立心肌梗塞或脑卒中的预测方程;根据流脑流行与历年的气温、湿度、降水量、日照时间、 平均风速等建立预测方程。 预测预报预测预报 危险危险 因素分析:因素分析:在众多因素中筛选主要的影响因素,并可 控制混杂因素和分析交互作用。3. 3. 多重线性回归的应用多重线性回归的应用
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号