资源预览内容
第1页 / 共102页
第2页 / 共102页
第3页 / 共102页
第4页 / 共102页
第5页 / 共102页
第6页 / 共102页
第7页 / 共102页
第8页 / 共102页
第9页 / 共102页
第10页 / 共102页
亲,该文档总共102页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第九章双变量回归与相关本章内容: 第一节 直线回归第二节 直线相关第三节 秩相关第四节 加权直线回归(不讲)第五节 两条回归直线的比较(不讲 )第六节 曲线拟合(简单介绍)双变量计量资料:每个个体有两个变量值总体:无限或有限对变量值样本:从总体随机抽取的n对变量值(X1,Y1), (X2,Y2), , (Xn,Yn)目的:研究X和Y的数量关系方法:回归与相关简单、基本直线回归、直线相关第一节 直线回归一、直线回归的概念 目的:研究应变量Y对自变量X的数量依 存关系。特点:统计关系。 X值和Y的均数的关系,不同于一般数学上的X 和Y的函数 关系。为了直观地说明直线回归的概念,以8名儿童的年龄(岁)与其尿肌酐含量(mmol/24h)数据(见例9-1)在坐标纸上描点,得到图9-1所示散点图(scatter plot)。 在定量描述儿童年龄与其尿肌酐含量数量上的依存关系时,将年龄称为自变量(independent variable),用 X 表示;尿肌酐含量称为应变量(dependent variable),用 Y 表示。由图9-1可见,尿肌酐含量 Y 随年龄 X 增加而增大且呈直线趋势,但并非8个点子恰好全都在一直线上,此与两变量间严格的直线函数关系不同,称为直线回归(linear regression),其方程叫直线回归方程,以区别严格意义的直线方程。回归是回归分析中最基本、最简单的一种,故又称简单回归。直线回归方程的一般表达式为 为各X处Y的总体均数的估计。1a 为回归直线在 Y 轴上的截距 。a 0,表示直线与纵轴的交点在原点的上方;a 0,直线从左下方走向右上方,Y 随 X 增大而增大 ; b0,直线从左上方走向右下方,Y 随 X 增大而减小 ; b=0,表示直线与 X 轴平行,X 与Y 无直线关系。 b 的统计学意义是:X 每增加(减)一个 单位,Y 平均改变b个单位。 英国人类学家 F.Galton首次在自然遗传一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家 Karl Pearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量,发现:历史背景:儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系:也即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”。目前,“回归”已成为表示变量之间某种数量依存关系的统计学术语,并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。残差(residual)或剩余值,即实测值Y与假定回归线上的估计值 的纵向距离 。求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。原则:最小二乘法(least sum of squares),即可 保证各实测点至直线的纵向距离的平方和最小二、直线回归方程的求法 例9-1 某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年龄(X)的回归方程。表9-1 8名正常儿童的年龄 (岁)与尿肌酐含量 (mmol/24h) 解题步骤此直线必然通过点( , )且与纵坐标轴相 交于截距 。如果散点图没有从坐标系原 点开始,可在自变量实测范围内远端取易 于读数的 值代入回归方程得到一个点的 坐标,连接此点与点( , )也可绘出回 归直线。 三、直线回归中的统计推断(一)回归方程的假设检验 建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否对总体有 ?1方差分析 数理统计可证明:上式用符号表示为 式中 上述三个平方和,各有其相应的自由度 ,并有如下的关系: 如果两变量间总体回归关系确实存在,回归的贡献就要大于随机误差,大到何种程度时可以认为具有统计意义,可计算统计量F:式中2. t 检验例9-2 检验例9-1数据得到的直线回归方程是否成立? (1)方差分析表9-2 方差分析表 列出方差分析表如表9-2。(2)t 检验注意:(二)总体回归系数 的可信区间利用上述对回归系数的t检验,可以得到的1双侧可信区间为例9-3 根据例9-1中所得b=0.1392,估计其总体回归系数的双侧95%可信区间。(0.1392-2.4470.0304,0.1392+2.4470.0304)=(0.0648,0.2136)(三)利用回归方程进行估计和预测 (9-15) (9-14) 反映其抽样误差大小的标准误为(9-16) (9-17) 例9-4 用例9-1所得直线回归方程,计算当X0=12时, 的95%可信区间和相应个体值的95%预测区间。计算步骤例9-1、例9-2已计算出 第二节 直线相关直线相关(linear correlation)又称简单相关(simple correlation),用于双变量正态分布(bivariate normal distribution)资料。其性质可由图9-6散点图直观的说明。目的:研究 两个变量X,Y数量上的依存(或相关) 关系。特点:统计关系一、直线相关的概念二、相关系数的意义与计算1. 意义:相关系数(correlation coefficient)又 称Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。相关系数没有单位,其值为-1 r 1。r值为正 表示正相关,r值为负表示负相关,r的绝对值等 于1为完全相关,r=0为零相关。 2. 计算:样本相关系数的计算公 式为(9-18) 由例9-1算得,按公式(9-18) 例9-5 对例9-1数据(见表9-1),计算8名 儿童的尿肌酐含量与其年龄的相关系数。三、相关系数的统计推断(一)相关系数的假设检验(9-19)例9-6 对例9-5所得 r 值,检验尿肌酐含量与年龄是否有直线相关关系?检验步骤本例n=8,r=0.8818,按公式(9-19)(二)总体相关系数的可信区间 具体步骤如下例9-7 对例9-5所得r值,估计总体相关系数的95%可信区间。 再按公式(9-22)将z作反变换,得到年龄与尿肌酐含 量的总体相关系数95%可信区间为(0.4678,0.9971)。 四、决定系数(coefficient of determination) 定义为回归平方和与总平方和之比,计 算公式为:(9-23 ) 取值在0到1之间且无单位,其数值大 小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。 五、直线回归与相关应用的注意事项1根据分析目的选择变量及统计方法 直线相关用于说明两变量之间直线关系的方向和密切程度,X与Y没有主次之分; 直线回归则进一步地用于定量刻画应变量Y对自变量X在数值上的依存关系,其中应变量的定夺主要依专业要求而定,可以考虑把易于精确测量的变量作为X,另一个随机变量作Y,例如用身高估计体表面积。 两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归或相关分析。2进行相关、回归分析前应绘制散点图第一步(1) 散点图可考察两变量是否有直线趋势; (2) 可发现离群点(outlier)。散点图对离群点的识别与处理需要从专业知识和现有数据两方面来考虑,结果可能是现有回归模型的假设错误需要改变模型形式,也可能是抽样误差造成的一次偶然结果甚至过失误差。需要认真核对原始数据并检查其产生过程认定是过失误差,或者通过重复测定确定是抽样误差造成的偶然结果,才可以谨慎地剔除或采用其它估计方法。3资料的要求 直线相关分析要求 X与Y 服从双变量正态分布;直线回归要求至少对于每个 X 相应的 Y 要服从正态分布,X可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量;* 对于双变量正态分布资料,根据研究目的可选择由 X 估计 Y 或者由 Y 估计 X ,一般情况下两个回归方程不相同)。 反应两变量关系密切程度或数量上影响大小的统计量应该是回归系数或相关系数的绝对值,而不是假设检验的P值。 P值越小只能说越有理由认为变量间的直线关系存在,而不能说关系越密切或越“显著”。另外,直线回归用于预测时,其适用范围一般不应超出样本中自变量的取值范围。4结果解释及正确应用 第三节 秩相关(非参数统计方法) 适用条件: 双变量计量资料:资料不服从双变量态分布;总体分布型未知,一端或两端是不确定数 值(如10岁,65岁)的资料;原始数据(一个或两个变量值)用等级表 示的资料。一、Spearman秩相关1. 意义:等级相关系数rs用来说明两个 变 量间直线相关关系的密切程度与相关方向。3. 计算公式 (9-25) (9-26) 表9-3 某省1995年到1999年居民死因构成与WYPLL构成检验步骤二、相同秩较多时rs的校正公式中Tx(或TY)(t3t)/12,t为X(或Y)中相同秩的个数。 显然当TxTY0时,公式(9-27)与公式(9-25)相等。 (9-27) 、 (9-18)第六节 曲线拟合(curve fitting)医学现象中并非所有的两变量间关系都表现为前面所述的直线形式,其较为典型的 是服药后血药浓度时间曲线或毒理学动物实验中动物死亡率与给药剂量的关系就非直线形式。当发现散点图中应变量Y和自变量X间表现出非线性趋势时,可以通过曲线拟合方法来刻画两变量间数量上的依存关系。 一、曲线拟合的一般步骤此处决定系数R2定义为(9-51)例9-13 以不同剂量的标准促肾上腺皮质激素释放因子CRF(nmol/L)刺激离体培养的大鼠垂体前叶细胞,监测 其垂体合成分泌肾上腺皮质激素ACTH的量(pmol/L)。根据表9-10中测得的5对数据建立CRF-ACTH工作曲线。三、常见的几种曲线拟合对数曲线 指数曲线 抛物线 S型曲线 练习题:P215 三、计算分析题 1,2,3
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号