资源预览内容
第1页 / 共44页
第2页 / 共44页
第3页 / 共44页
第4页 / 共44页
第5页 / 共44页
第6页 / 共44页
第7页 / 共44页
第8页 / 共44页
第9页 / 共44页
第10页 / 共44页
亲,该文档总共44页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第十章第十章 直线相关与直线回归直线相关与直线回归问题的引入问题的引入w变量间关系问题变量间关系问题:身高体重、凝血时间凝血酶浓度、肺活量体重、药物剂量与动物死亡率等。w相关分析相关分析用于研究事物或现象之间有无相关关系(或互依关系)、关系的方向和密切程度。w回归分析回归分析用于研究事物或现象之间的数量依存关系。w相关分析和回归分析都属于双变量分析范畴。第一节第一节 直线相关分析直线相关分析一、直线相关的概念一、直线相关的概念二、相关系数的意义及计算二、相关系数的意义及计算三、相关系数的假设检验三、相关系数的假设检验一、直线相关的概念一、直线相关的概念w直线相关直线相关(linear correlation): 又称简单相关(simple correlation),用于研究两个来自正态分布总体的连续性随机变量X和Y之间的线性关系。w最直观的方法是绘制散点图。实实 例例 编号身高(m)X体重(l )YX2Y2XY(1)(2)(3)(4)(5)(6)11.7424.6503.03521.6238.10021.7184.2782.95218.3017.35031.7144.4202.93819.5367.57641.7124.3792.93119.1767.497161.6923.9112.86315.2966.617合计27.26666.29346.471275.73113.04表12-1 16名1822岁男大学生肺活量及身高测量资料二、相关系数的意义及计算二、相关系数的意义及计算w相关系数相关系数(correlation coefficient):又称积差相关系数,是反映两个变量线性关系的方向和密切程度的指标,用符号r 表示。w相关系数的特点: r 是没有单位的数值,取值范围为 图图7 74 4 相关系数示意图相关系数示意图 图图12-2 相关系数示意图相关系数示意图 应当注意的几点:应当注意的几点:wRr是样本相关系数,是总体相关系数 的估计值。w相关关系并不一定是因果关系,只反映两变量的互依或伴随关系。w相关分析的任务是对相关关系给予定量的描述。相关系数的计算:相关系数的计算: 三、相关系数的假设检验三、相关系数的假设检验 r0原因:原因: 由于抽样误差引起,由于抽样误差引起,=0 存在相关关系,存在相关关系, 0公式:公式:,n-2Sr- - 样本相关系数的标准误样本相关系数的标准误 (一)(一)t 检验法:检验法:(二)查表法:(二)查表法:w根据自由度查相关系数r界值表(附表12)。wK=1,自由度v ,查r0.05 ,r0.01。wR r0.05 , p0,Y随随X的的增大增大而而增大(减少增大(减少而而减少)减少) 斜上斜上; b0,Y随随X的的增大增大而而减小(减少减小(减少而而增加)增加) 斜下斜下; b=0,Y与与X无直线关系无直线关系 水平水平。 b越大,表示越大,表示Y随随X变化越快,直线越陡峭。变化越快,直线越陡峭。散点图散点图截距截距a和斜率和斜率b的估计:的估计: 最最小小二二乘乘法法原原则则(least square method):使使各各散散点点到直线的纵向距离的平方和最小。即使到直线的纵向距离的平方和最小。即使 最小。最小。实实 例例 编号汽车流量XNO2YX2Y2XY(1)(2)(3)(4)(5)(6)113000.06616900000.00435685.8214440.07620851360.005776109.744316520.17027291040.0289280.84417560.15630835360.024336273.936910600.02911236000.00084130.74合计132080.921198923520.1150751445.164 表12-2 汽车流量与大气中二氧化氮浓度资料三、回归系数的假设检验三、回归系数的假设检验b0原因:原因: 由于抽样误差引起,总体回归系数由于抽样误差引起,总体回归系数=0 存在回归关系,总体回归系数存在回归关系,总体回归系数 0公式:公式: ,n2Sb为回归系数的标准误为回归系数的标准误 SY.X为为Y 的剩余标准差的剩余标准差 扣除扣除X的影响后的影响后Y 的变异程度。的变异程度。 X XYSS总总=SS回回+SS残残四、直线回归的图示法四、直线回归的图示法回归线回归线五、回归方程的应用五、回归方程的应用1.描述两变量间的数量上的依存关系描述两变量间的数量上的依存关系2.利用回归方程进行统计预测利用回归方程进行统计预测3.利用回归方程进行统计控制利用回归方程进行统计控制年龄(岁)年龄(岁)X尿尿肌肌酐酐含含量量Y(mmol/24h)yx二、直线回归方程的求法二、直线回归方程的求法年龄(岁)年龄(岁)X尿尿肌肌酐酐含含量量Y(mmol/24h)三、直线回归方程中的统计推断三、直线回归方程中的统计推断(一)回归方程的假设检验(一)回归方程的假设检验1.方差分析方差分析(1)建立检验假设并确定检验水准)建立检验假设并确定检验水准 H0:=0 H1: 00 =0.05 =0.05 SSSS总总=SS=SS回回+SS+SS残残 (3)计算检验统计量计算检验统计量F值值SSSS总总= =l lYYYY =1.0462=1.0462 SSSS回回= =blblXYXY=l=l2 2XYXY/l/lXXXX=5.845=5.8452 2/42=0.8134/42=0.8134SSSS残残= = SSSS总总- - SSSS回回=1.0462-0.8134=0.2328=1.0462-0.8134=0.2328v v总总=v=v回回+v+v剩剩v v总总=n-1,v=n-1,v回回=1, v=1, v残残=n-2=n-22.t 2.t 检验检验(2)计算检验统计量)计算检验统计量t值值(1)建立检验假设并确定检验水准)建立检验假设并确定检验水准(3)确定)确定P值下结论值下结论 (二)总体回归系数(二)总体回归系数 的可信区间的可信区间此区间不包括此区间不包括0 (三)利用回归方程进行估计与预测(三)利用回归方程进行估计与预测1.总体均数总体均数 的可信区间的可信区间平均有平均有100(1- )个可信区间包括总体均数)个可信区间包括总体均数2.个体个体Y值的预测区间值的预测区间平均将有平均将有100(1- )个个体值在求出的范围内)个个体值在求出的范围内表2 温度与蛙的心率w对象 温度(cm) (X) 心率(kg) (Y)w1 2 5w2 4 11w3 6 11w4 8 14w5 10 22w6 12 23w7 14 32w8 16 29w9 18 32wY=2.14+1.775x第三节第三节 回归和相关分析的区别回归和相关分析的区别与联系及应用注意事项与联系及应用注意事项一、应用注意事项:一、应用注意事项:1.作相关和回归分析要有实际意义。2.有相关关系不一定有因果关系;但若有因果关系,必然有相关关系。3.相关或回归关系不能任意“外延”。4.绘制散点图。5.相关系数和回归系数都必须作假设检验。区别:区别: 1. 资料:资料: X、Y 均为随机变量,服从均为随机变量,服从 双变量正态分布双变量正态分布 Y正态随机变量,正态随机变量,X为选定变量为选定变量 回归回归2. 2. 应用应用 :回归回归 由一个变量值推算另一个变量值由一个变量值推算另一个变量值 相关相关 只反映两变量间互依关系只反映两变量间互依关系 相关相关3. 3. 回归系数有单位回归系数有单位, ,相关系数无单位相关系数无单位二、相关和回归的区别与联系二、相关和回归的区别与联系联系:联系:
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号