资源预览内容
第1页 / 共153页
第2页 / 共153页
第3页 / 共153页
第4页 / 共153页
第5页 / 共153页
第6页 / 共153页
第7页 / 共153页
第8页 / 共153页
第9页 / 共153页
第10页 / 共153页
亲,该文档总共153页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
多重线性回归分析例:由于改革开放政策,深圳特区中外来人口大幅度增加 ,为了考察特区中外来人口对本地经济发展的贡献,深圳 特区统计局收集了所属的宝安县在1987年末18个镇的人口 与工农业总产值数据(见数据文件reg.sav)。此处把工 农业总产值当作因变量(W),而把外地及本地人口数当 作两个自变量(Z1,Z2)。(有关统计方法的原理及计算参见孙尚拱,医学多变 量统计与统计软件,北京医科大学出版社,2000)数据文件reg.sav1.如何估计自变量与因变量之间的相互关系?(估计回归方程)2.哪些自变量对因变量有影响?(影响因素分析)3.哪一个自变量对因变量的影响更重要?(自变量的相对重要性 分析)4.如何用自变量预测因变量?(预测分析)(一)多重回归分析的任务(二)多重回归分析的适用条件1.自变量与因变量之间存在线性关系2.残差的正态性3.残差的等方差性4.剔除强影响点(突出点,outliers)5.自变量之间不应存在共线性 6.独立性 残差:实际测量值和预测值之间的差异关于独立性:所有的观测值是相互独立的。如果受试对象仅被随机 观测一次,那么一般都会满足独立性的假定。但是出 现下列情况时,观测值不是相互独立的:时间序列、 重复测量(某种药物使用后1个月两个月三个月的疗效)等情况 。SPSS软件在“Linear Regression:Statistics”对话 框中,提供了Durbin-Watson统计量d,以检验自相 关系数是否为0。当d值接近于2,则残差之间是不相 关的(此指标仅作参考。是否可使用多元分析主要依 据实验设计)。1.如何估计自变量与因变量之间的相互关系?(估计回归方程)其中y为实测值, 为预测值(predicted value)估计模型中系数的方法:最小二乘方法(Least Square, LS),即残差平方和最小。b1, b2. bm称为偏回归系数(partial regression coefficient) :当固定其他变量时(扣除其他自变量的影响,即Bm就是已经调整了其他影响因素后的回归系数,故名偏),xm每增加一 个单位,y的增加值都是bm。 (一)多重回归分析的任务模型拟和的优良性指标R:复相关系数,反映了Y与M个自变量的总体相关系数;R2:决定系数(R Square)R2c:调整决定系数(Adjusted R square ),是对决定系 数的修正,是更客观的指标。 (若要做预测分析的话,R值的要求 较高,应0.75。0.6凑活,0.3.,0.4预测效果很差。若只是做影响因素分析的 话0.5之类都还好)这些指标越接近于1,说明回归模型拟合越好。 2.哪些自变量对因变量有影响?(影响因素分析)对回归模型的统计检验当P0.05,则认为此回归模型有显著性。对自变量的统计检验当P0.05,则认为此自变量对因变量有影响。自变量的筛选实际应用中,通常从专业知识出发,建立一个简约( parsimonious)的回归模型,即用尽可能少的自变量拟合 模型。 常用方法(最常用的是2和3,1仍然是单变量思想。注意,选入标准0.05,剔除标准宽些0.10)1.前进法(Forward):逐步增加变量到模型中(由少到多 ),对已经进入的变量不再剔除;SPSS中默认的选入自变 量的检验水准为0.05。2.后退法(Backward):从模型中逐步剔除变量(由多到 少),对已经剔除的变量不再进入;SPSS中默认的剔除自 变量的检验水准为0.10。 3.逐步法(Stepwise):结合了前进法和后退法,变量边进 入边剔除。3.哪一个自变量对因变量的影响更重要?(自变量的相对重要性 分析)当自变量的量纲相同时,衡量自变量相对重要性的指标:偏回归系数;若偏回归系数的绝对值越大,则相应自变量 对因变量的影响就越大。当自变量的量纲不同时,衡量自变量相对重要性的指标:(偏回归系数有量纲,以下指标无,故可用来衡量)标准化偏回归系数(Standardized regression coefficient)、 偏相关系数(Partial Correlation)和部分相关系数(Part Correlation)。上述指标的绝对值越大,则相应自变量对因变 量的影响就越大。 标准化偏回归系数:对自变量、因变量作标准化处理后计算 的回归系数。偏相关系数:因变量与自变量均扣除其他自变量影响之后, 二者之间的相关系数。与简单相关系数(Pearson相关系数 )不同;例如:考察因变量Y与自变量X1 、X2的多元回归分 析,Y与X1的偏相关系数为扣除X2影响后的Y与X1的相关性 。 Y与X1的简单相关系数为忽略X2影响后的Y与X1的相关性 。部分相关系数:自变量扣除其他自变量影响之后,因变量与 自变量之间的相关系数。与偏相关系数不同,部分相关系数 中因变量未扣除其他自变量的影响。 4.如何用自变量预测因变量?(预测分析)当自变量取某个数值时,y的预测值为Y的均数的95置信区间个体Y值的95容许区间预测分析时,(x10,x20 xm0)应该在样本的自变 量取值范围内。 1.自变量与因变量之间存在线性关系通过绘制y与每个自变量的偏相关散点图,可以判断y与 自变量之间是否存在线性关系。 2.残差的正态性 通过绘制标准化残差的直方图以及正态概率图(P-P图),可以 判断是否服从正态分布。此条件可以放宽,只要不是严重偏离正 态即可。3.残差的等方差性 通过绘制标准化残差与预测值的散点图,若标准化残差在零水 平线上下波动,无明显的规律性,则可以判断满足等方差的假 定。 (二)多重回归分析的适用条件通过标准化残差(Standardized Residuals) (服从T分布)、 学生氏残差(Studentlized Residuals) (服从Z分布)来判断 强影响点 。当指标的绝对值大于3时,可以认为样本存在 强影响点。删除强影响点应该慎重,需要结合专业知识。以下两种情 况可以考虑删除强影响点:1.强影响点是由于数据记录错 误造成的;2.强影响点来自不同的总体。4.剔除强影响点(Influential cases;或称为突出点, outliers)5.自变量之间不应存在共线性(Collinear) (可以有一定的相关性,因为如果完全不相关,相关系数为0,那么就和单变量分析一样。)当一个(或几个)自变量可以由其他自变量线性表示时,称 该自变量与其他自变量间存在共线性关系。常见于:1.一个 变量是由其他变量派生出来的,如:BMI由身高和体重计算 得出 ;2.一个变量与其他变量存在很强的相关性。当自变量之间存在共线性时,会使回归系数的估计不确定、 预测值的精度降低以及对y有影响的重要自变量不能选入模型 。共线性诊断方法:1.TOL(容许度,Tolerance)法:TOL越接近零,共线性越 大。2.VIF(方差膨胀因子,Variance Inflation Factor,VIF )法 :VIF越大,共线性越大。3.特征根(Eigenvalue)法:如果自变量相关矩阵的特征根近 似于零,则自变量之间存在共线性。4.CI(条件指数,Condition Index)法:CI越大,共线性越 大。1. 数据预处理:根据经济学专业知识,需要先对Z1、Z2、 W作对数变换,分别记为X1、X2、Y。(三)多重线性回归:实例分析变换后的数据回归线性2.多重回归分析因变量自变量Statistics对话框回归系数 的估计模型拟和共线性诊断部分相关与偏相关系数统计描述Plots对话框标准化 残差图 直方图正态概率图,P-P图绘制所有的 偏相关图 Save对话框分别给出Y、X1 、X2的均数与 标准差相关系数阵 简单相关系数 (Pearson相关 )P值从简单相关系数可见:Y与X1、X2存在较强相关性,X1、X2存 在中等相关性。3.输出结果解释复相关系数 决定系数调整决定系数F值P值此模型的复相关系数为0.857,调整决定系数为0.699,反映此模型拟 和较好;模型经统计学检验,F=20.738,P0.05,说明此多元回归模 型有显著性。非标准化系数 标准化系数 t值 P值简单相关 偏相关 部分相关TolVIF经统计学检验,X1与X2均有显著性,因此回归模型为 ;根据偏回归系数的大小, 可以认为X2对Y的影响比X1大。特征根条件指数, CI方差比例共线性诊断共线性诊断:两个自变量之间不存在共线性。因为标准化残差、学生化残差的绝对值小于3,所以从统计学上 认为样本不存在强影响点。残差统计量学生化残差标准化残差直方图及P-P图从残差直方图及P-P图可见:残差正态性不太好 ,可能与样本量太小有关。通过绘制y与X1的偏相关散点图,可以判断y与X1之间存 在线性关系。 通过绘制y与X2的偏相关散点图,可以判断y与X1之间存 在线性关系。 检查残差的等方差性:由图可见:残差满足等方差性。提示:多重线性回归分析允许自变量为分类变量,但当自变量为 多分类变量时,需要以“哑变量(dummy variables)”的方 式引入模型。如:某个自变量为“文化程度”:1=文盲,2=小学,3=中 学,4=大学及以上。若以“大学及以上”为参照,关心文盲、 小学、中学分别与大学及以上的比较,则进行回归分析时, 此自变量须用3个哑变量表达:x1: 1=文盲,0=其他;x2: 1= 小学,0=其他;x3: 1=中学,0=其他。练习1以下实例摘自Hosmer, David W . (2000). Applied logistic regression . John Wiley, New York.研究目的是考察与婴儿低出生体重有关的可能危险因素(当体重低于2500g时,认为是低出生体重婴儿)。研究收集了189例妇女的数据,其中59例分娩低出生体重婴儿,130例分娩正常体重婴儿(数据见文件data1.sav)。(一)Logistic回归分析的任务影响因素分析logistic回归常用于疾病的危险因素分析,logistic回归 分析可以提供一个重要的指标:OR。(二)Logistic回归分析的基本原理1.变量特点因变量:二分类变量,若令因变量为y,则常用y1表 示“发病”,y0表示“不发病”(在病例对照研究中,分 别表示病例组和对照组)。自变量:可以为分类变量,也可以为连续变量。Logistic回归分析2.Logistic模型P=P(y=1|x),为发病概率;1-P=P(y=0|x),为不发病概率。0为常数项, 1 , 2 . m分别为m个自变量的回归系数。g(x)是对P的变换,称为logit变换:可以得到:模型估计方法:最大似然法(Maximum Likelihood Method):构造似然函数( Likelihood function )L= P(y=1|x) P(y=0|x),通过迭代法(默认20次以内)估计一组参数(0, 1 , 2 . m)使L达到最大。3.模型及自变量的统计检验模型检验:H0:12imH1:至少有一个i0采用似然比检验(the likelihood ratio test),当P0.05时,拒绝H0,认为模型有统计学意义。自变量检验:H0:i0H1:i0采用Wald检验,当P0.05时,拒绝H0,认为i不为0。4.自变量的筛选与多元线性回归分析类似,有Forward法(实际上是逐步向 前法)、Backward法。默认方法为Enter,即所有自变量一 次全部进入方程。注:不同自变量的筛选方法,当结果差别较大时,应该结合 专业知识,用尽可能少的变量拟合一个最佳模型。依据 Wald统计量(Wald statistic) 、似然比统计量( Likelihood ratio)或者条件统计量(Conditional statistic)剔除变量时,似然比统计量是决定哪个变量应该 被剔除的最好方法。5.模型拟合的优良性指标(1)拟合分类表(Classification Table)根据Logi
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号