资源预览内容
第1页 / 共91页
第2页 / 共91页
第3页 / 共91页
第4页 / 共91页
第5页 / 共91页
第6页 / 共91页
第7页 / 共91页
第8页 / 共91页
第9页 / 共91页
第10页 / 共91页
亲,该文档总共91页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
2019/6/26,宇传华 制作(http:/statdtedm.6to23.com),第十四章 双变量回归与相关 simple linear regression and correlation,2019/6/26,http:/statdtedm.6to23.com,回归分析与相关分析,变量间关系问题:年龄身高、肺活量体重、药物剂量与动物死亡率等。,两个关系: 依存关系:应变量(dependent variable)Y随自变量(independent variable)X变化而变化。 回归分析 互依关系: 应变量Y与自变量 X间的彼此关系 相关分析,2019/6/26,http:/statdtedm.6to23.com,本章内容,第一节 直线回归 第二节 直线相关 第三节 Spearman等级相关 (秩相关) 第四节 秩回归 第五节 加权直线回归 第六节 两条回归直线的比较 第七节 曲线回归,2019/6/26,http:/statdtedm.6to23.com,实 例,例14-1 某地方病研究所调查了 8名正常儿童的尿肌酐含量(mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年龄(X)的回归方程。 表14-1 8名正常儿童的年龄 X(岁)与尿肌酐含量 Y(mmol/24h),2019/6/26,http:/statdtedm.6to23.com,2019/6/26,http:/statdtedm.6to23.com,第一节 直线回归,函数关系: 确定。例如 园周长与半径: y=2r,回归关系:不确定。例如血压和年龄的关系,称为直线回归(linear regression)。,目的: 建立直线回归方程 ( linear regression equation),2019/6/26,http:/statdtedm.6to23.com,“回归”名称的由来,英国统计学家FGalton(18221911 年)和他的学生、现代统计学的奠基者之一KPearson(18561936 年)在研究父母身高与其子女身高的遗传问题时,观察了1078 对夫妇,以每对夫妇中父亲的身高作为解释变量X,而取他们的一个成年儿子的身高作为被解释变量Y(应变量),将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条直线。计算出的回归直线方程为 :,2019/6/26,http:/statdtedm.6to23.com,Galton数据散点图(英寸),2019/6/26,http:/statdtedm.6to23.com,其他类型的散点图,2019/6/26,http:/statdtedm.6to23.com,一、 直线回归方程,一般表达式: 或,a:截距(intercept),直线与Y轴交点的纵坐标(X0)。,b:斜率(slope),回归系数(regression coefficient)。 意义:X每改变一个单位,Y平均改变b个单位。 b0,Y随X的增大而增大(减少 而减少) 斜上; b0,Y随X的增大而减小(减少 而增加) 斜下; b=0,Y与X无直线关系 水平。 b越大,表示Y随X变化越快,直线越陡峭。,2019/6/26,http:/statdtedm.6to23.com,Simple Linear Regression Model,Intercept总体截距,Slope总体斜率,2019/6/26,http:/statdtedm.6to23.com,标准差相等 EQUAL STANDARD DEVIATION 对于任何X值,随机变量Y的标准差 Y|X相等,独立 INDEPENDENCE 每一观察值之间彼此独立,y|X = + x,线性 LINEARITY 反应变量均数 与X间呈直线关系 Y|X= + X,直线回归模型的四个假定,正态 NORMALITY 对于任何给定的 X, Y 服从正态分布,均数为 Y|X,标准差为 Y|X,2019/6/26,http:/statdtedm.6to23.com,二、回归方程参数的计算,最小二乘法原则 (least square method):使各实际散点(Y)到直线( )的纵向距离的平方和最小。即使 最小。,因为直线一定经过 “均数”点,2019/6/26,http:/statdtedm.6to23.com,最小二乘 (Least squares)法图解,寻找使S(残差i)2 最小的直线,2019/6/26,http:/statdtedm.6to23.com,3,3,Least Squares Method The “best” line is the one that minimizes the sum of squared vertical differences between the points and the line.,w,w,w,w,4,4,(1,2),2,2,(2,4),(3,1.5),Sum of squared differences =,(2 - 1)2 +,(4 - 2)2 +,(1.5 - 3)2 +,(4,3.2),(3.2 - 4)2 = 6.89,2.5,Let us compare two lines,The second line is horizontal,The smaller the sum of squared differences the better the fit of the line to the data.,2019/6/26,http:/statdtedm.6to23.com,回归参数估计值 a、b计算的实例,2019/6/26,http:/statdtedm.6to23.com,回归参数a、b的解释,1. 斜率 (b) 当X每增加1个单位时, Y改变 b个单位 本例b = 0.1392,表明在所研究的年龄范围内,年龄每增加1岁,尿肌酐含量增加0.1392 mmol/24h 2. Y的截距 (a) X = 0时Y的平均值 本例a1.6617,表示年龄为0时,尿肌酐含量的期望值为1.6617mmol/24h(注意有时这种解释无实际意义,如本例),2019/6/26,http:/statdtedm.6to23.com,三、回归参数的假设检验,b0原因: 由于抽样误差引起,总体回归系数 =0 存在回归关系,总体回归系数 0,公式 ,n2,Sb为回归系数的标准误,SY|X为Y的剩余标准差扣除X的影响后Y的变异程度。,(一) t 检验; (二) 方差分析,2019/6/26,http:/statdtedm.6to23.com,剩余(残差)标准差 SY|X,度量了实际散点远离回归直线的离散程度,反映了模型的可靠性。越小模型越好。 tb检验,区间的计算均需要使用这一值。,2019/6/26,http:/statdtedm.6to23.com,2019/6/26,http:/statdtedm.6to23.com,斜率b的假设检验,H0: = 0 H1: 0 .05 自由度 8 - 2 = 6 临界值:,检验统计量: Decision: Conclusion:, = .05水准拒绝 H0,回归系数 b 有统计学意义,-2.4469,+2.4469,2019/6/26,http:/statdtedm.6to23.com,X,2019/6/26,http:/statdtedm.6to23.com,Y的离均差平方和的分解,2019/6/26,http:/statdtedm.6to23.com,几个平方和的意义,2019/6/26,http:/statdtedm.6to23.com,再看公式:,2019/6/26,http:/statdtedm.6to23.com,SS剩的另一种解法,2019/6/26,http:/statdtedm.6to23.com,(二)方差分析,2019/6/26,http:/statdtedm.6to23.com,四、直线回归方程的区间估计,2019/6/26,http:/statdtedm.6to23.com,2019/6/26,http:/statdtedm.6to23.com,(三) 的区间估计,2019/6/26,http:/statdtedm.6to23.com,(四) 个体Y值的预测区间,2019/6/26,http:/statdtedm.6to23.com,95 的置信区间与 个体 Y 的预测区间有关数据,2019/6/26,http:/statdtedm.6to23.com,95 的可信区间与 个体 Y 的预测区间图,2019/6/26,http:/statdtedm.6to23.com,第二节 直线相关,回归 - 变量间的依存关系,相关 - 变量间的互依关系,直线相关(linear correlation):简单相关(simple correlation),用于双变量正态分布资料。,2019/6/26,http:/statdtedm.6to23.com,图96 相关系数示意图,散点呈椭圆形分布, X、Y 同时增减-正相关(positive correlation); X、Y 此增彼减-负相关(negative correlation) 。,散点在一条直线上, X、Y 变化趋势相同-完全正相关; 反向变化-完全负相关。,2019/6/26,http:/statdtedm.6to23.com,图96 相关系数示意图,X、Y 变化互不影响或无直线相关关系-零相关(zero correlation),2019/6/26,http:/statdtedm.6to23.com,一、 相关系数概念,相关系数(correlation coefficient),又称积差相关系数(coefficient of product moment correlation),或 Pearson 相关系数(软件中常用此名称) 说明相关的密切程度和方向的指标。 r 样本相关系数,2019/6/26,http:/statdtedm.6to23.com,r无单位,-1 r 1。r 值为正 正相关, 为负 负相关; (与回归系数b的符号相同) |r|=1 - 完全相关, |r|=0 - 零相关。,二、相关系数的意义,2019/6/26,http:/statdtedm.6to23.com,三、 相关系数的计算 实例,2019/6/26,http:/statdtedm.6to23.com,四、相关系数的假设检验,r0原因: 由于抽样误差引起,=0 存在相关关系, 0,公式,,n-2,Sr- 相关系数的标准误,2019/6/26,http:/statdtedm.6to23.com,注意:对于同一资料, tbtr,检验完全等价,2019/6/26,http:/statdtedm.6to23.com,五、总体相关系数的区间估计,2019/6/26,http:/statdtedm.6to23.com,2019/6/26,http:/statdtedm.6to23.com,Y,X,r2=0,SSE,
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号