资源预览内容
第1页 / 共22页
第2页 / 共22页
第3页 / 共22页
第4页 / 共22页
第5页 / 共22页
第6页 / 共22页
第7页 / 共22页
第8页 / 共22页
第9页 / 共22页
第10页 / 共22页
亲,该文档总共22页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
Slide 1彭斌直线相关与回归分析直线相关与回归分析Linear Correlation and RegressionSlide 2彭斌相关分析和回归分析是研究变量与变量间相互关系的重要方法。为此,SAS系统提供了强大的相关分析与回归分析手段。相关分析可用CORR过程来处理,而回归分析则可用REG过程来完成。当然,特殊的回归分析SAS提供了专用的过程。这里,仅仅讨论CORR过程和REG过程的常规用法。Slide 3彭斌PROCCORR;VARvariables;一、直线相关分析一、直线相关分析SAS提供的相关分析过程是提供的相关分析过程是CORR过程过程,它位于,它位于BASE模块中,可模块中,可以计算的相关系数有:以计算的相关系数有:PearsonPearson积差相关系数、积差相关系数、SpearmanSpearman等级相关等级相关系数、系数、KendallKendalls tau-bs tau-b统计量、统计量、HoeffdingHoeffdings s独立性分析统计独立性分析统计量量D D。此外,还可以计算偏相关系数等。此外,还可以计算偏相关系数等。CORR过程只有第一条语句(下划线部份)是必需的,其它过程只有第一条语句(下划线部份)是必需的,其它语句都是可选的。语句都是可选的。常用语句及格式:Slide 4彭斌语句说明1、PROCCORRoptions;这里的选项有20多项。我们现在只介绍最简单的两个选项:缺省值:即第一条语句只有两个单词加上分号,即Proccorr;这时,SAS系统计算Pearson积差相关系数(普通相关系数)和进行显著性检验,以及简单统计量。Spearman:即Proccorrspearman;此时,SAS系统计算Spearman等级相关系数。2、VARvariables;指明要计算相关系数的变量。Slide 5彭斌例7-1为了了解年龄与总胆固醇之间的关系,随机抽查了20高血脂病人治疗前的总胆固醇水平(mmol/L)与年龄,资料见下表。试问年龄与胆固醇之间是否存在相关关系?Slide 6彭斌首先建立首先建立SAS数据集数据集dataex71;inputagechol;cards;245.436010.27287.49.519.72345.72377.12317.54;run;由于数据太长,此处以省略号代之Slide 7彭斌调用调用CORR过程过程PROCCORRdata=ex71;RUN;程序中只有两条语句,第一条语句调用程序中只有两条语句,第一条语句调用CORR过程,过程,并指明分析数据集;第二条词句就是程序结束语并指明分析数据集;第二条词句就是程序结束语句句RUN。程序中没有程序中没有VAR语句,则语句,则SAS系统对数据集中所有系统对数据集中所有数值型变量进行相关分析。数值型变量进行相关分析。Slide 8彭斌分析结果分析结果The CORR Procedure2 Variables:age chol Simple StatisticsVariableNMeanStd DevSumMinimumMaximumage2039.4500013.01204789.0000020.0000060.00000chol208.205502.17555164.110004.7100011.73000 Pearson Correlation Coefficients, N = 20 Prob |r| under H0: Rho=0agecholage1.000000.84993.0001chol0.84993.00011.00000第一行为相关第一行为相关系数系数第二行为假设第二行为假设检验检验P值值Slide 9彭斌CORR过程的默认输出结果主要包括各个变量的简单统过程的默认输出结果主要包括各个变量的简单统计描述和一个相关系数矩阵。计描述和一个相关系数矩阵。简单统计描述:包括变量名、例数、均数、标准差等,简单统计描述:包括变量名、例数、均数、标准差等,这些都是前面的统计过程经常出现的。这些都是前面的统计过程经常出现的。相关系数矩阵:相关系数矩阵:在相关系数矩阵的上方指明了相关系数的类型,如本在相关系数矩阵的上方指明了相关系数的类型,如本例是例是”PearsonCorrelationCoefficients”,接下来就是对接下来就是对相关系数矩阵的说明,矩阵中每一个格子有两个数据,相关系数矩阵的说明,矩阵中每一个格子有两个数据,上方的数据是对应变量的相关系数,其下方的数据是上方的数据是对应变量的相关系数,其下方的数据是该相关系数的显著性检验。该相关系数的显著性检验。本例中,本例中,age与与chol的相关系数的相关系数r=0.84993,p |r| under H0: Rho=0agecholage1.000000.84456.0001chol0.84456.00011.00000本例计算的本例计算的age与与chol的的等级相关系数等级相关系数rs=0.84456,pFModel164.9613664.9613646.84|t|Intercept12.599510.860443.020.0073age10.142100.020766.84.0001模型的显著性检验一些统计量参数估计及检验Slide 17彭斌结果的解释结果的解释结果主要分为三部份:回归模型的显著性检验、一些统计量、回归参数的估计及检验。对回归模型的显著性检验:F=46.84,p.0001,可以认为回归模型是成立的。一些统计量包括:RootMSE(均方根),即误差均方的平方根;R-Square(R2),即决定系数;AdjR-Sq(校正R平方);CoeffVar(应变量的变异系数)。参数估计及检验:回归方程的截距intercept=2.59951,自变量age的回归系数为0.14210,因此回归方程为:chol=2.59951+0.14210age对回归系数的假设检验得t=6.84,p|t|StandardizedEstimateIntercept12.599510.860443.020.00730age10.142100.020766.84.00010.84993标准化回归系数散点图,并配合回归直线Slide 20彭斌回归线的置信区间带加入选项:PLOTchol*age/conf;Slide 21彭斌个体值容许区间带加入选项:PLOTchol*age/pred;Slide 22彭斌谢谢!谢谢!
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号