资源预览内容
第1页 / 共22页
第2页 / 共22页
第3页 / 共22页
第4页 / 共22页
第5页 / 共22页
第6页 / 共22页
第7页 / 共22页
第8页 / 共22页
第9页 / 共22页
第10页 / 共22页
亲,该文档总共22页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
回归分析中SAS的使用1授课:XXX1、回归分析计算PROC REG DATA=数据集名; MODEL 应变量=自变量;RUN;PROC REG DATA=数据集名; MODEL 应变量=自变量名列/ p cli clm RUN;22、回归线作图PROC REG DATA=数据集名; MODEL 应变量=自变量/p cli clm r; PLOT y变量*x变量/选项;RUN;利用plot语句可以绘制与拟合数据有关散点图、回归线和置信曲线、预测区间曲线3回归线作图PROC REG DATA=数据集名; MODEL 应变量=自变量/p cli clm r; PLOT y变量*x变量/选项;RUN;y变量和x变量可以是应变量、自变量和其它与回归分析有关的变量:p.(predicted) 预测值r. (residual) 余差U95., L95. 预测值置信限U95M.,L95M.预测均值置信限选项:conf 95作预测均值置信曲线pred95作预测值置信曲线overlay将语句中规定的图迭置在一幅图上AIC CP MSE SSE在图上显示相应的统计量43、逐步回归分析计算-变量选择PROC REG DATA=数据集名; MODEL 应变量=自变量名列/p cli clm r selection=stepwise slentry=0.05 slstay=0.05 details;RUN;54、回归诊断例外值(outliers)或异常作用点的检查从已拟合回归的数据中分析线性模型的假定是否被破坏:应变量的均值是否是独立变量的线性函数,是否需要对变量进行变换或拟合曲线回归余差(residuals)是否同方差,不相关,正态分布独立变量间是否存在线性关系(仅多元有)考察余差散点图是进行回归诊断的必要步骤6回归诊断7回归诊断回归分析的余差值是回归诊断的重要工具利用余差可以考察余差和预测值的散点图也可以检验余差分布的正态性8回归诊断模型合适模型合适应改曲线模型应改曲线模型不等方差不等方差观测值不独立观测值不独立9回归诊断生成余差在PROC REG的model语句加上选项 p,就会输出预测值和相应的余差PROC REG DATA=数据集名; MODEL 应变量=自变量/p; PLOT y变量*x变量/选项;RUN;利用plot语句 plot r.*p. ; 就可得到余差-预测散点图,其中可以把p值换成自变量x,就得到相应的散点图。10回归诊断识别异常观测值在PROC REG的model语句加上选项 r,就会输出与预测值和余差有关的一些统计量。他们可用于识别异常数据(outlier)及其影响PROC REG DATA=数据集名 ; MODEL 应变量=自变量/r;RUN;Predict Value 预测值Std Err Predict 预测值标准差Residual 余差Std Err Predict 余差标准差Student Residual student化的余差-2 -1 0 1 2 余差显著性图Cooks D Cooks D统计量其中D是距离的缩写。11回归诊断余差分布正态性有了余差的数据,就可对其运用图形方法或正式的分布正态性的检验在INSIGHT中可直接对数据表中的预测余差变量进行分析在PROC REG可利用下列语句用图形分析余差分布正态性PROC REG DATA=数据集名 graphics ; MODEL 应变量=自变量; PLOT nqq.*student.(nqq.*r.);RUN;12回归诊断识别有影响的观测Cook D统计量度量一个观测从分析中剔除时参数估计值的变化对一个观测值其 Cook D 统计量的值超过 4/n 时(n为样本容量),这个观测存在反常效应, 其中4/n只是经验,没有统一的标准。13回归诊断识别有影响的观测Dffitsi 度量第i 个观测对预测值的影响第i个观测的预测值 用排除第i个观测的回归对第i个观测的预测值 第i个观测的预测值的标准差,是为了把数据标准化。其中Dffits越大越好,D是different和fit的缩写说明,p 为模型中参数的个数, n 为样本容量其中14回归诊断识别有影响的观测Proc REG 的 Model语句加选项 r 可获得 Cook D 统计量Proc REG 的 Model语句加选项 influence 可获得 Dffits 等反映观测值影响的统计量PROC REG DATA=数据集名 ; MODEL 应变量=自变量/r influence;RUN;15选项 influence 生成的统计量 Hat diag:帽子矩阵,可以把杠杆点找出来,用的较多。Dbet:表示某个点删除前后统计量的变化。16五、影响点诊断proc reg data=e4;model y1=x1-x4/influence r;run;其中选项influence 同上一页。R主要给出Cook-distance.前面已有。17六、共线性诊断共线性(collinearity, multicollinearity)问题是指独立变量间存在线性关系1.变量间的线性关系会隐蔽变量的显著性2.也会增加参数估计的方差3.产生不稳定的模型只有拟合多元回归才会发生这一问题共线性的诊断可使用方差膨胀因子、条件指数和方差比例18回归诊断共线性诊断-VIF方差膨胀因子(VIF)是对由于共线性而引起的参数估计量的方差增加的一个相对度量Rr2 是Xr关于模型中其它独立变量回归的R2一般采用 VIF 10 表明存在共线性问题Proc REG 的Model语句加选项 VIF19回归诊断共线性诊断-条件指数和方差比例条件指数(condition index)和方差比例(variance proportion)联合使用可确认存在线性关系的变量组条件指数(hi=(lmax/li)1/2)在10-30间为弱相关在30-100间为中度相关大于100表明有强相关大的条件指数伴随方差比例 0.5 可确认有共线性的独立变量子集Proc REG: Model语句加选项collin 或 collinoint20回归分析计算PROC REG DATA=数据集名; MODEL 应变量=自变量名列/p cli clm r vif influence collin; PLOT y变量*x变量/选项 . . .;RUN;作图变量:r., student., nqq., .21Thank you!22
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号