资源预览内容
第1页 / 共27页
第2页 / 共27页
第3页 / 共27页
第4页 / 共27页
第5页 / 共27页
第6页 / 共27页
第7页 / 共27页
第8页 / 共27页
第9页 / 共27页
第10页 / 共27页
亲,该文档总共27页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第七章 简单相关与回归卫生统计学教研室卫生统计学教研室2024/8/12024/8/1n直线相关:又称简单相关直线相关:又称简单相关(simple correlation),用,用于描述两个变量之间的线性相关程度。于描述两个变量之间的线性相关程度。n经典相关分析要求经典相关分析要求X与与Y都是随机变量,而且服从双都是随机变量,而且服从双变量正态分布变量正态分布。n相关关系的统计量使人们对变量间的相关关系是否相关关系的统计量使人们对变量间的相关关系是否成立、相关的性质和强弱等有了成立、相关的性质和强弱等有了量化依据量化依据。一、线性相关( linear correlation )n相相关关系系数数(correlation coefficient),又又称称积差差相相关关系系数数或或 Pearson 相相关关系系数数(软件件中中常常用用此此名名称称)以以及及spearman相关系数;相关系数;n定定量量描描述述线性性相相关关程程度度的的一一个个常常用用指指标,说明明相相关关的的密密切程度和方向。切程度和方向。2024/8/1线性相关( linear correlation )计算公式计算公式相关系数的特点:相关系数的特点:n相关系数相关系数r是表示两个随机是表示两个随机变量之量之间直直线相关相关强强度和方向的度和方向的统计量量,是一个无量是一个无量纲的数的数值,取,取值范范围-1 r 1;nr的正的正负值表示两表示两变量之量之间直直线相关的方向,即相关的方向,即 r0为正相关,正相关,r0为负相关,相关,r=0为零相关;零相关;r与回与回归系数系数b的符号相同;的符号相同;nr的的绝对值大小表示两大小表示两变量之量之间直直线相关的密切程度相关的密切程度,r 越接近于越接近于1,说明密切程度越高,明密切程度越高,r越接近于越接近于0,说明密切程度明密切程度越低。越低。2024/8/1线性相关( linear correlation ) 相关系数的假设检验: r0原因:原因: 由于抽样误差引起,由于抽样误差引起,=0 存在相关关系,存在相关关系, 0检验方法:检验方法: 直接查表法(直接查表法(r界值表),界值表), t 检验;检验;2024/8/1公式公式 Sr- - 相关系数的标准误相关系数的标准误 线性相关( linear correlation )二、线性回归(linear regression)定义定义 用直线方程表达用直线方程表达X(自变量,(自变量,independent variable) 和和Y(应变量(应变量, dependent variables)之间的数量关系。)之间的数量关系。 是是Y(实测值)的预测值(实测值)的预测值(predictive value),),b是直是直 线的斜率,即线的斜率,即X每变化一单位,每变化一单位,Y相应的变化相应的变化b个单位。个单位。a为截距,即为截距,即X为为0时时Y值的大小。值的大小。2024/8/1二、线性回归(linear regression)直线回归的前提假设直线回归的前提假设( (LINELINE) )线性性 Linearity 反应变量均数 与X间呈线性关系:Y|X= + X独立独立 Independence每一观察值之间彼此独立正正态 Normality 对于任何给定的 X:Y均服从正态分布等方差等方差 Equal variance 对于任何X值,随机变量Y的标准差 Y|X相等2024/8/1线性回归(linear regression)回归直线的建立主要是基于回归直线的建立主要是基于最小二乘法最小二乘法(least-squares ,LS),即各实测点与拟合直线之间纵,即各实测点与拟合直线之间纵向距离的平方和最小。向距离的平方和最小。线性回归的主要运用:线性回归的主要运用:统计预测与统计控制统计预测与统计控制 统计预测:给定X值,估计Y; 统计控制(逆估控制(逆估计):):要求Y在一定范围内波动,可通过X的取值来实现。2024/8/1二、线性回归(linear regression)注意:注意:做直做直线回回归之前,之前,先做散点先做散点图,是确定两,是确定两变量之量之间是否有关系的最是否有关系的最简单的好方法。的好方法。回回归系数(系数(b)的假)的假设检验 判断直判断直线回回归方程是否成立,需要方程是否成立,需要检验总体回体回归系数系数是否是否为0。 方法一:方法一:t检验 两种方法等价,两种方法等价, 方法二:方法二:F检验 只有当只有当 0,才能,才能认为直直线回回归方程成立(具有方程成立(具有统计学意学意义)。 2024/8/12024/8/11. 资料: 相关 X、Y均为随机变量,且服从双变量正态分布 回归 Y为正态随机变量,X为固定的非随机变量 2.意义与应用:回归 反映两变量间的依存关系 相关 反映两变量间的相互关系 3.回归系数与原度量单位有关,而相关系数无关n 区别三、相关与回归的区别和联系2024/8/1n 联系相关与回归的区别和联系1. 根据分析目的选择变量及统计方法根据分析目的选择变量及统计方法2024/8/1n直线相关用于说明两变量之间直线关系的方向和密切程度,X与Y 没有主次之分n直线回归则进一步用于定量刻画应变量Y 对自变量X 在数值上的依存关系,其中应变量的定夺主要依专业要求而定,可以考虑把易于精确测量的变量作为X,另一个随机变量作Y例如用身高估计体表面积n两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归或相关分析四、相关与回归应用的注意事项2. 进行相关、回归分析前应绘制散点图进行相关、回归分析前应绘制散点图第一步第一步2024/8/1n散点图可考察两变量是否有直线趋势n可发现异常点(outlier) 散点图对异常点的识别与处理需要从专业知识和现有数据两方面来考虑,结果可能是现有回归模型的假设错误需要改变模型形式,也可能是抽样误差造成的一次偶然结果甚至过失误差。需要认真核对原始数据并检查其产生过程认定是过失误差,或者通过重复测定确定是抽样误差造成的偶然结果,才可以谨慎地剔除或采用其它估计方法。相关与回归应用的注意事项3. 资料的要求资料的要求2024/8/1n直线相关分析要求 X与Y 服从双变量正态分布n直线回归要求至少对于每个 X 相应的 Y 要服从正态分布,X可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量n对于双变量正态分布资料,根据研究目的可选择由 X 估计 Y 或者由 Y 估计 X ,一般情况下两个回归方程不相同相关与回归应用的注意事项4. 结果解释及正确应用结果解释及正确应用2024/8/1n反应两变量关系密切程度或数量上影响大小的统计量应该是回归系数或相关系数的绝对值,而不是假设检验的P值nP值越小只能说越有理由认为变量间的直线关系存在,而不能说关系越密切或越“显著”n不能任意“外延”;直线回归用于预测时,其适用范围一般不应超出样本中自变量的取值范围相关与回归应用的注意事项例题(相关与回归)例例题7.1 在某克山病区测量12名健康儿童头发中的硒含量与血液中的硒含量,其结果如表1所示。问儿童头发中的硒含量与血液中的硒含量是否相关,是否能求出以血液中的硒含量为因变量的回归方程。2024/8/1表1 12名健康儿童的发硒与血硒的测量值(单位:1000ppm)编号发硒值血硒值174.2 13.5 266.6 10.5 388.8 13.8 469.5 11.0 591.0 16.6 673.5 9.8 766.6 7.8 896.0 14.0 958.8 5.8 1073.5 10.0 1164.8 7.6 1278.6 11.5 相关SPSS操作步骤2024/8/1 一、一、绘制绘制散点散点图图 二、二、对对X/Y变变量做量做正态正态性检性检验验 三、三、相关相关spss步骤步骤有线性趋势有线性趋势X/Y变量均成正态分布变量均成正态分布1.相关SPSS操作步骤散点图结果散点图结果 有线性趋势有线性趋势2024/8/1正正态性性检验结果果 发硒硒值(X)、)、血硒血硒值(Y)的)的P0.05,均成正,均成正态分布。分布。1.相关SPSS操作步骤相关过程步相关过程步 Analyze Correlate Bivariate Correlations 2024/8/1等级相关系数等级相关系数非参数方法非参数方法积矩相关积矩相关系数系数参数方法参数方法Kendalls 相关系数:用于反映分相关系数:用于反映分类变量一致性的指量一致性的指标, 只能在两个只能在两个变量均量均为有序分有序分类时使用。使用。1.相关SPSS结果2024/8/1结果解果解释: 相关系数相关系数r=0.880,双,双侧Pearson检验p0.001,有,有统计学意学意义,可,可认为血硒血硒值与与发硒硒值呈正相关关系。呈正相关关系。问题:问题:是否能求出以血液中的硒含量为因变量的回归方程?2024/8/12、回归SPSS操作回归过程步回归过程步正态性、散点图正态性、散点图 Analyze Regression Linear2024/8/12、回归SPSS操作2024/8/1检验残差序列是否存在相关关系2、回归SPSS结果结果解释结果解释 相关系数相关系数R=0.880,R2=0.774,表示血硒值(因变量)的变异,表示血硒值(因变量)的变异中中77.4%可由发硒值(自变量)来解释,说明血硒值的变化能较好的可由发硒值(自变量)来解释,说明血硒值的变化能较好的运用发硒值的变化来解释。运用发硒值的变化来解释。2024/8/12、回归SPSS结果结果解释结果解释 经经F检验,检验,F=34.156,P0.001,差异有统计学意义,即此回归方差异有统计学意义,即此回归方程有意义程有意义.2024/8/12、回归SPSS结果2024/8/12、回归SPSS结果学生化残差散点图 以血硒值为纵轴,学生化残差为横轴的散点图显示: 可认为散点图无明显变化趋势,且各学生化残差的绝对值都不大于2,未发现极端值; 可用回归方程描述发硒值和血硒值之间的关系。2024/8/1
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号