资源预览内容
第1页 / 共36页
第2页 / 共36页
第3页 / 共36页
第4页 / 共36页
第5页 / 共36页
第6页 / 共36页
第7页 / 共36页
第8页 / 共36页
第9页 / 共36页
第10页 / 共36页
亲,该文档总共36页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
直线相关与回归,钟崇洲 zcz5460wzmc.edu.cn,英国人类学家 F.Galton首次在自然遗传一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家 Karl Pearson对上千个家庭的身高、臂长、(伸开大拇指与中指两端的最大长度)做了测量,发现:,历史背景:,儿子身高(Y,英寸)与父亲身高(X)存在线性关系:,回归与相关 regression and correlation,变量间关系问题:年龄身高、肺活量体重、药物剂量与动物死亡率等。,第一节 直线回归 第二节 直线相关 第三节 Spearman等级相关,两个关系: 依存关系:应变量(dependent variable)Y随自变量(independent variable)X变化而变化。 回归分析 互依关系: 应变量Y与自变量 X间的彼此关系 相关分析,实 例,散点图,第一节 直线回归,回归关系:例如血压和年龄的关系,称为直线回归(linear regression)。,目的: 建立直线回归方程( linear regression equation),一、 直线回归方程,一般表达式:,a:截距(intercept),直线与Y轴交点的纵坐标。,b:斜率(slope),回归系数(regression coefficient)。 意义:X每改变一个单位,Y平均改变b个单位。 b0,Y随X的增大而增大(减少而减少) 斜上; b0,Y随X的增大而减小(减少而增加) 斜下; b=0,Y与X无直线关系 水平。 b越大,表示Y随X变化越快,直线越陡峭。,二、回归方程参数的计算,最小二乘法原则(least square method):使各散点到直线的纵向距离的平方和最小。即使 最小。,散点图,回归参数计算的实例,三、回归系数的假设检验,b0原因: 由于抽样误差引起,总体回归系数=0 存在回归关系,总体回归系数 0,公式 ,n2,Sb为回归系数的标准误,SY.X为Y的剩余标准差扣除X的影响后Y的变异程度。,(一) t 检验;,任一点P(X,Y)的纵坐标被回归直线与均数截成3段:,图 应变量Y的平方和划分示意图,SS总SS回归SS残差,(二) 方差分析,SS残差越小,SS回归越大,表明回归模型的预测效果越好。,四、直线回归方程的区间估计,五、回归方程的应用,1. 预测(forecast) (给定X值,估计Y) 2. 控制 (给定Y值范围,求X值范围),第二节 直线相关,回归 - 变量间的依存关系,相关 - 变量间的互依关系,直线相关(linear correlation):简单相关(simple correlation),用于双变量正态分布资料。,图74 相关系数示意图,散点呈椭圆形分布, X、Y 同时增减-正相关(positive correlation); X、Y 此增彼减-负相关(negative correlation) 。,散点在一条直线上, X、Y 变化趋势相同-完全正相关; 反向变化-完全负相关。,图75 相关系数示意图,X、Y 变化互不影响-零相关(zero correlation),一、 相关系数概念,相关系数(correlation coefficient),又称积差相关系数(coefficient of product moment correlation),或 Pearson 相关系数(软件中常用此名称) 说明相关的密切程度和方向的指标。 r 样本相关系数,r无单位,-1 r 1。r 值为正 正相关, 为负 负相关; (与回归系数b的符号相同) |r|=1 - 完全相关, |r|=0 - 零相关。,二、相关系数的意义,三、 相关系数的计算,四、相关系数的假设检验,r0原因: 由于抽样误差引起 存在相关关系,公式,,n-2,Sr- 相关系数的标准误,注意:对于同一资料,tbtr,检验完全等价,习惯上,相关系数的绝对值|r|在: 0.3以下,称为微弱线性相关; 0.3-0.5,称为低度线性相关; 0.5-0.8,称为显著线性相关; 0.8以上,称为高度线性相关。,区别:,六、直线回归与相关的区别与联系,1. 资料:, X、Y服从双变量正态分布,Y正态随机变量,X为选定变量,2. 应用 :,回归 由一个变量值推算另一个变量值,相关 只反映两变量间互依关系,3. 回归系数有单位,相关系数无单位,联系:,七、直线回归与相关的 应用注意事项, 要有实际意义 不能任意“外延” 绘制散点图,第三节 等级相关 rank correlation,适用资料: 不服从双变量正态分布 总体分布类型未知 原始数据用等级表示,等级相关系数 rs(即Spearman Correlation Coefficient)反映两变量间相关的密切程度与方向 。,表7-3 等级相关系数计算表,注意:相同秩次较多时应校正rs。,1、两变量X,Y间存在直线回归关系,即基本上可以确定两者有因果关系。( ) 2、回归系数越小,两变量相关关系也越不密切。( ) 3、n=10, r=0.90,可认为两变量呈中高度相关。( ) 4、直线回归中,b的假设检验结果P0.05,说明该回归方程有应用价值。( ),1、相关系数r的意义是 ( ) A. X与Y的从属关系 B. 两总体之间的直线相关关系 C. 表示两变量的相关方向和关系的密切程度 D. 表示X与Y之间的直线相关关系的密切程度和方向 E. 以上都不是,2、在相关分析中,相关系数假设检验时,P值越小,则: A. 两变量相关性越好 B. 结论可信度越大 C. 认为总体具有线性相关的理由越充分 D. 抽样误差越小E. Y随X变化的变化率越大 3. 对两个变量进行直线相关分析,r0.39,P0.05,则说明两个变量之间 ( ) A. 有伴随关系 B. 有数量关系 C. 有因果关系 D. 有直线相关关系 E. 无直线相关关系 4.分析肺活量和身高之间的数量关系,拟用身高值预测肺活量值,则应采用( ) A. 秩相关分析 B. 相关分析 C. 直线回归分析 D. t检验 E. 以上都不是,5、关于相关与回归的联系,下列说法中不正确的是( ) A. 对同一组数据若同时计算b和r,它们的正负号是一致的 B. 对同一组数据, b和r的假设检验是等价的 C. 用回归可以解释相关 D.决定系数r2越接近1,说明引入回归的效果越好 E. 对同一组数据,b与r是相等的 6、用最小二乘法确定的直线回归方程,可保证各观察点( ) A. 距直线的纵向距离相等 B. 距直线的纵向距离的平方和最小 C. 与直线的垂直距离相等 D. 与直线的垂直距离的平方和最小 E. 与横轴的纵向距离的平方和最小,7、在双变量(X,Y)的相关与回归分析中有( ) A. r值增加,b值增加 B. |r|值增加,|b|值增加 C. r0时b0 D. r0时b 0 E. r = 0时b = 0 8、对直线回归系数进行假设检验,其无效假设H0是( ) A. = 0 B. = 1 C. 0 D. t0.05,按=0.05 水准,可认为( ) A. 肺活量与体重大小无关 B. 肺活量随体重增加而增加 C. 体重与肺活量间有函数关系存在 D. 体重与肺活量均值有差别 E. 体重与肺活量间无线性相关关系存在,
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号