资源预览内容
第1页 / 共48页
第2页 / 共48页
第3页 / 共48页
第4页 / 共48页
第5页 / 共48页
第6页 / 共48页
第7页 / 共48页
第8页 / 共48页
第9页 / 共48页
第10页 / 共48页
亲,该文档总共48页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第七章 回归与相关,Linear Regression and Correlation,引言,医学工作科研研究的目的: 1.研究某指标的特征(平均水平、发生率等)并比较该指标组间均数(率)的差别。 2.了解两个、或多个指标之间是否有相关关系,以解释和预测(用一个指标预测另一指标的高低)。,表2-1 108例高血压患者治疗后临床记录,编号 年龄 性别 治疗组 舒张压 体温 疗效 X1 X2 X3 X4 X5 X6 1 37 男 A 11.27 37.5 显效 2 45 女 B 12.53 37.0 有效 3 43 男 A 10.93 36.5 有效 4 59 女 B 14.67 37.8 无效 。 100 54 男 B 16.80 37.6 无效,8名健康成人血清胆固醇(mmol/l)与低密度脂蛋白(g/l)结果,编号 胆固醇(X) 脂蛋白(Y) 1 4.27 0.8 2 5.17 1.23 3 5.69 1.31 4 5.17 1.33 5 3.77 0.68 6 5.17 1.12 7 5.66 1.29 8 3.31 0.46,母血TSH 脐带血TSH 编号 X Y 1 1.21 3.90 2 1.30 4.50 3 1.39 4.20 4 1.42 4.83 5 1.47 4.16 6 1.56 4.93 7 1.68 4.32 8 1.72 4.99 9 1.98 4.70 10 2.10 5.20,讲义例7-1 研究同一母亲与婴儿的母血TSH 与 脐带血TSH的关系,母血TSH值与脐带血TSH值的关系散点图,(1.2,3.9),二、相关系数的意义,pearson(皮尔逊)相关系数(pearson correlation coefficient): 用 r表示(积差法相关系数) pearson r 系数的意义: 是描述两个计量变量值直线关系的密切程度和方向的统计指标。,相关系数(r)的意义,r系数的值无单位,波动范围为 -11。 |r|=1,表示完全相关,线性函数关系(见讲义图7-3中的(e)和(f)。 |r| 越接近1,表示两变量关系越密切(点子接近一条直线)。 |r|=0,表示两变量无相关关系和直线相关关系(见图c、g、 h)。 系数的符号 r为正,表示正相关关系,即x值的增加,y 也增加,反之为负相关。,两指标(X,Y)数据关系的散点图,图a、c为正相关关系,图a,图b,图c,图d,图b、d为负相关关系,三、相关系数的计算,X和Y的离均差积和,(7-17),母血TSH 脐带血TSH X Y X2 Y2 XY 1.21 3.90 1.46 15.2 4.72 1.30 4.50 1.39 4.20 1.42 4.83 1.47 4.16 1.56 4.93 1.68 4.32 1.72 4.99 1.98 4.70 2.10 5.20 合计15.83 45.73 25.80 210.73 73.14,例表,分别计算下列公式:,=25.80-15.832/10=0.7411,=73.14 -15.8345.73/10=0.7494,=210.73-45.732/10=1.6067,相关系数的计算,r为正值,表示随着母血的TSH的增加,其 脐带血TSH的含量也增加,关系为正相关关系,四、相关系数(r)假设检验,相关系数(r)为样本数据计算,r的大小也存在抽样误差,统计对r做统计检验,推断 两变量的总体是否有相关关系。 检验r的方法: 1.查表法(附表13,243页 ) 2.相关系数(r)的t检验公式计算法,等价,1.查表法,方法与步骤 1)建立假设: H0:=0,即两变量(总体相关系数=0)无相关关系 H1: 0,两变量有相关关系, =0.05 2)查表(243页): 确定自由度(v)=n-2=10-2=8, 本例样本相关系数 r=0.68070.632,P0.05 结论:在=0.05水准上, P0.05,拒绝H0假设,母血TSH 与 脐带血TSH有相关关系存在。,方法2:tr检验,H0:=0,即两变量(总体相关系数=0)无相关关系 H1: 0,两变量有相关关系, =0.05 样本相关系数的t 检验,结论:本例p0.05,即母血TSH 与脐带血TSH有相关关系存在。,相关系数的解释与应用:,1.相关系数(r)描述两个变量的线性协同变化关系,不表示因果关系。 何者做X或Y,计算的r相同。 2.在例数相等时,不同指标相关关系可做比较,r越大,表示两变量关系越密切。 3.应在有统计检验结果的前提下,得出有无相关关系的结论。,例:体重、胸围、呼吸差与肺活量的关系,对象 体重 胸围 身高 肺活量 编号 X1 X2 X3 Y 1 48.5 73.7 166.4 33.8 2 49.5 73.9 167.3 34.1 . 46.4 76.2 160.5 32.9 . . 174 44.9 73.8 158.7 29.70,例:相关分析(Correlation Analysis),体重 胸围 身高 肺活量 X1 X2 X3 Y X1 1 0.1717 0.6409 0.6954 X2 1 0.4522 0.5863 X3 1 0.7288 X4 1,第一节、直线回归,一、“回归”的由来 二、直线回归的概念 直线回归是用数学方程表达出两个变量(X增加,Y也增加)变化的数量关系,称为回归分析。回归方程:,回归关系与函数关系,函数关系:X与Y值为一一对应的确切关系。表达式: 回归关系: X与Y值间关系不为一一对应,回归方程表达非确切关系两变量的数量变化关系,X,Y,回归方程与回归线,三、回归方程的求法,回归方程中符号的意义: X:为自变量(事先确定,常为原因变量) Y:应变量(Y变量,为结果变量) a:截距(当x=0时,y的值) b:回归系数(斜率),其统计意义:X指标增加一个单位,Y平均增加(或减少)b个单位。 a,b均可为负值和有单位。 为当X=X0时,Y的平均预测值。,10名正常孕妇妊娠时间(周,X)与血清载脂蛋白(g/L,Y),编号 X Y X2 Y2 XY 1 4 0.95 2 8 0.98 3 12 1 4 16 1.04 5 20 1.07 6 24 1.1 7 28 1.17 8 32 1.18 9 36 1.2 10 40 1.32 合计 220 11.02 6160 12.2431 254.60,b0,b 0,直线回归方程的计算,回归方程: 回归系数的计算: 截距的计算:,公式7-2,公式7-3,母血TSH 脐带血TSH X Y X2 Y2 XY 1.21 3.90 1.46 15.2 4.72 1.30 4.50 1.39 4.20 1.42 4.83 1.47 4.16 1.56 4.93 1.68 4.32 1.72 4.99 1.98 4.70 2.10 5.20 合计15.83 45.73 25.80 210.73 73.14,母血与脐带血TSH的回归系数计算步骤,1).计算出: 2)计算回归系数(b) 3)计算截距(a),4)表达本例回归方程: 四、在散点图上绘制回归线 方法:在自变量(x)范围内,取两个X值, 例:取X1=1.3,Y的估计值 =4.29 X2=2.0, =4.99 在图上确定(1.3,4.29),(2.0,4.99)两点连线。,母血TSH值与脐带血TSH值的关系散点图,(Mu/L),(Mu/L),血清载脂蛋白(g/l),妊娠时间(周),图12-2 正常孕妇妊娠时间(周,X)与血清载脂蛋白含量,五、回归系数(b)的假设检验,检验的假设: H0:=0,即总体回归系数为0,两变量无相关关系 H1: 0,总体回归系数不为0, =0.05 方法: 1.tb检验方法, 2.查表法(用 r 检验代替 b 的检验,简便) 关系:本例 r=0.6807,P0.05 3.方差分析法做检验,公式12-7,回归系数的假设检验(图7-2, Y的平方和的分解示意),X,Y,Y变量的差异,由于X的增加引起Y变化的部分,回归系数作用,其他因素的作用,H0:=0, H1: 0, 方差分析做检验的实例计算见99页,回归中 Y变量变异的分解,回归系数方差分析的计算,P0.05,回归系数t检验,回归系数的标准误,剩余标准差,回归系数与相关系数假设两者的关系:同一资料的 tb=tr,则二者概率(p1=p2)相等, 方差分析的 F=t2, 本例: F=6.908=2.6282 结论:在=0.05水准上, P0.05,拒绝H0,母血TSH值与脐带血TSH值有直线回归关系,在母血的TSH值1.21-2.10范围内,母血TSH值每增加一单位(ml/l)脐带血TSH值平均增加0.9973 (ml/l) 单位。,四、直线回归的应用,1.反映Y指标依赖X指标变化的平均数量关系 例:正常孕妇妊娠时间(周,X)与血清载脂蛋白(g/L)的回归关系: 结论:正常孕妇妊娠时间每增加一周,其血清载脂蛋白平均增加0.0094(g/L)。 例:母血TSH值与脐带血TSH值有直线回归关系, 母血TSH值每增加一单位(ml/l)脐带血TSH值平均增加0.9973 (ml/l) 单位。,2.预测:通过回归方程,用X值预测。,例:儿童给药根据体表面积,建立儿童体重(X,kg)与体表面积(Y)的回归方程。 当X=XI,代入方程,计算Y为预测值 设回归方程为: 某儿童体重为10kg,其体表面积预测为 Y=2+510=52,3.计算个体值X=X0时,Y值的95%的分布范围,当X=X0时,Y值的标准差,公式见7-15,六、回归与相关的区别和联系(104页),(一)区别 1.回归分析要求确定出 X指标和Y指标,相关分析无要求。 2.回归与相关说明的问题不同。 3.回归系数有单位(单位不同时不能比较) 相关系数无单位(在例数接近,可以比较) 二、联系 1.同一资料有r与b的符号一致。 2.二者的假设检验结果相等, tb=tr3 3.回归系数与相关系数的关系(见讲义),决定系数(r2),反映了在Y的变异中,由于X的变化(回归的作用)在Y变量总的平方和中的比例。或Y的变化能被X的变化所解释的比例。,小结: 计算相关回归的步骤 1.绘制散点图,观察数据是否有直线趋势? 如为直线趋势:可计算直线相关与回归系数 2.计算 r 或回归方程(事先确定X变量) 3.对 r 或 b 做统计检验(可用r系数的检验) 4.结论:如统计检验的P,表示二者有相关关系或回归关系 5.绘制回归线和方程在散点图上。,CASIOfx-100计算器计算相关系数(r)的步骤,步骤: 1. MODE MODE 2 进入回归分析 2. Lin 1 2. SHIFT AC = 清除数据 3.输数据 X Y 1.21 , 3.9 M+ 数据输入 1.30 , 4.5 M+ 1.39 , 4.2 M+ ,3. SHIFT r 显示相关系数(r) SHIFT 7 显示截距 SHIFT 8 显示回归系数 预测:X=1.21, Y=? 1.21 SHIFT 显示预测值 4.19,CASIOf
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号