资源预览内容
第1页 / 共39页
第2页 / 共39页
第3页 / 共39页
第4页 / 共39页
第5页 / 共39页
第6页 / 共39页
第7页 / 共39页
第8页 / 共39页
第9页 / 共39页
第10页 / 共39页
亲,该文档总共39页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第十一章第十一章多元线性回归多元线性回归( (简介简介) )当研究两个变量间的线性关系时,直当研究两个变量间的线性关系时,直线回归是回归分析中最简单的一种。线回归是回归分析中最简单的一种。直线回归主要研究一个应变量直线回归主要研究一个应变量( (dependent variable)dependent variable)与一个自变量与一个自变量( (independent variable)independent variable)间的线性趋间的线性趋势的数量关系。生物医学研究中,常势的数量关系。生物医学研究中,常遇到一个应变量与多个自变量数量关遇到一个应变量与多个自变量数量关系的问题。系的问题。收缩压与年龄和体重的关系、血糖的变化与收缩压与年龄和体重的关系、血糖的变化与胰岛素、生长素等因素有关。胰岛素、生长素等因素有关。肺活量与身高、体重、胸围的关系;肺活量与身高、体重、胸围的关系;胃癌术后效果与癌组织类型、浸润程度、肉胃癌术后效果与癌组织类型、浸润程度、肉芽反应、有无淋巴转移等因素有关;芽反应、有无淋巴转移等因素有关;例如:例如:用线性方程表达一个应变量与一组自变量的数用线性方程表达一个应变量与一组自变量的数量关系,就是多元线性回归量关系,就是多元线性回归( (multiple linear multiple linear regression)regression),常简称为多元回归常简称为多元回归( (multiple multiple regression)regression)。设应变量为设应变量为Y Y,自变量为:自变量为:X X1 1,X,X2 2,X Xk k,Y Y与自变量与自变量X X1 1,X,X2 2,X Xk k 的多元回归,的多元回归,就是指就是指 Y Y与与 k k 个自变量个自变量X X1 1,X,X2 2,X Xk k 有如下线性关系:有如下线性关系:多元线性回归方程多元线性回归方程:式中式中 是为是为Y Y的估计值或预测值的估计值或预测值( (predicted predicted value)value),表示当给定各自变量的值时,因变表示当给定各自变量的值时,因变量量Y Y 的估计值;的估计值;b b0 0 为截距,在回归方程中又称为常数项,为截距,在回归方程中又称为常数项,表示各自变量均为表示各自变量均为0 0 时时Y Y 的估计值;的估计值;b bi i 称为偏回归系数称为偏回归系数( (partial regression partial regression coefficient)coefficient),简称为回归系数,表示其它简称为回归系数,表示其它自变量不变时,自变量不变时,X Xi i 每改变一个单位,每改变一个单位,Y Y 的的平均变化量。平均变化量。原始资料作多元线性回归分析,原始资料作多元线性回归分析,理论上应满足的条件有:理论上应满足的条件有:1)1)线性线性( (linear)linear),因变量与自变量的关系因变量与自变量的关系是线性的是线性的;2)2)独立性独立性(independence),随机误差项在随机误差项在不同样本点之间是独立的,无自相关;不同样本点之间是独立的,无自相关;3)3)正态性正态性(normality),随机误差项服从均随机误差项服从均数为零、方差为数为零、方差为2 2的正态分布的正态分布;4) 4) 方差齐性方差齐性( (equal variance equal variance ,or or homogeneity)homogeneity),随机误差项在不同样随机误差项在不同样本点的方差相等。本点的方差相等。 以上四个条件缩写为以上四个条件缩写为LINELINE,与直线回归中与直线回归中的条件是相同的。的条件是相同的。如果目的是建立多元回归方程,探讨自变如果目的是建立多元回归方程,探讨自变量与因变量间的数量关系,而无需根据自量与因变量间的数量关系,而无需根据自变量的取值预测因变量的容许区间、可信变量的取值预测因变量的容许区间、可信区间等,则后两个条件可以适当放宽。区间等,则后两个条件可以适当放宽。 多元回归方程的资料格式多元回归方程的资料格式例号例号y x1 x2 xk 1 y1 x11 x21 x1k 2 y2 x12 x22 x2k n yn xn1 xn2 xnk例例11.1同样身高的同样身高的20名健康男子的收缩压、年名健康男子的收缩压、年龄和体重的测量结果见表。试建立收缩压与年龄和体重的测量结果见表。试建立收缩压与年龄和体重之间的多元线性回归方程。龄和体重之间的多元线性回归方程。偏偏回归系数的估计回归系数的估计回归分析的目的之一就是要建立一个回归分析的目的之一就是要建立一个回归方程,以使研究人员能够根据已回归方程,以使研究人员能够根据已知的自变量去预测因变量的取值。知的自变量去预测因变量的取值。 回归系数的估计仍然用最小二乘法回归系数的估计仍然用最小二乘法(LSMLSM)。 (计算方法略)计算方法略)20名建康男子的收缩压、年龄和体征的测定值名建康男子的收缩压、年龄和体征的测定值编号编号 收缩压收缩压y 年龄年龄x1体重体重x2 1 15.60 50 76.0 2 18.80 20 91.5 . . . . 20 19.19 43 85.5 用最小二乘法用最小二乘法(method of least square)求解求解b1、b2 、b0得:得: 在该方程中,在该方程中,b b1 1=0.0546=0.0546,表示在体重表示在体重不变的前提下,年龄每增加不变的前提下,年龄每增加1 1岁岁,收收缩压平均增加缩压平均增加0.0546(0.0546(kPa)kPa);b b2 2=0.1944(kg)=0.1944(kg),表示在年龄不变的情表示在年龄不变的情况下,体重每增加况下,体重每增加1 1kgkg,收缩压平均收缩压平均增加增加0.1944(0.1944(kPakPa) )。 截距截距b b0 0= -0.6815= -0.6815,表示表示X X1 1,X X2 2 都为都为0 0 时,时,Y Y 的估计值,在这里没有实际意义,是的估计值,在这里没有实际意义,是根据方程估算出来的值。根据方程估算出来的值。 例如,当例如,当X X1 1=50=50,X X2 2=80 =80 时,时, =17.60 =17.60,表示对所有年龄为表示对所有年龄为5050岁岁,体重为体重为8080kg kg 的的男子,估计平均收缩压为男子,估计平均收缩压为17.60(17.60(kPakPa) )。二、多元回归方程统计学意义的假设检验二、多元回归方程统计学意义的假设检验假设检验包括多元回归方程的假设检验与偏回归系数假设检验包括多元回归方程的假设检验与偏回归系数的假设检验。的假设检验。多元回归方程的假设检验常用方差分析:多元回归方程的假设检验常用方差分析: ANOVA(方差分析表)方差分析表)变异来源变异来源 Sum of squares df Mean Square F PRegression 33.65 2 16.82 11.31 0.0008Residual 25.28 17 1.49 Total 58.93 19偏回归系数的假设检验用偏回归系数的假设检验用t检验:检验: Coefficients(参数估计)参数估计)Unstandardized Standardized Coefficients Coefficients Bota b std. Error b t P 偏回归系数偏回归系数b的标准误标准化偏回归系数的标准误标准化偏回归系数Constant -0.6815 3.9017 -0.175 0.8634 X1 0.0546 0.0241 0.3667 2.268 0.0366 X2 0.1944 0.0429 0.7323 4.530 0.0003三、标准化偏回归系数三、标准化偏回归系数由公式求出的偏回归系数的绝对值大小与自由公式求出的偏回归系数的绝对值大小与自变量的度量单位有关,变量的度量单位有关,因而偏回归系数大的因而偏回归系数大的应变量未必对应变量应变量未必对应变量y y的线性影响也大。的线性影响也大。当自变量之间不存在较强的相关关系时,可当自变量之间不存在较强的相关关系时,可以计算每一个自变量的标准化偏回归系数。以计算每一个自变量的标准化偏回归系数。具有较大标准化偏回归系数的自变量对应变具有较大标准化偏回归系数的自变量对应变量量y y的影响相对较大。的影响相对较大。四、复相关系数四、复相关系数在多元线性回归分析中,直接建立在多元线性回归分析中,直接建立Y Y 与与全部自变量之间的线性回归模型通常是全部自变量之间的线性回归模型通常是不可取的,因为不能说这些自变量对建不可取的,因为不能说这些自变量对建立回归模型都是必要的。因此,在建立立回归模型都是必要的。因此,在建立回归方程的过程中有必要考虑对变量进回归方程的过程中有必要考虑对变量进行筛选,从许多自变量中挑选出对行筛选,从许多自变量中挑选出对Y Y 有有影响的自变量,有利于提高回归方程的影响的自变量,有利于提高回归方程的质量。质量。一般来说,当回归方程中自变量个数增加,一般来说,当回归方程中自变量个数增加,或多或少总能减少剩余误差,提高模型的或多或少总能减少剩余误差,提高模型的拟合精度,但势必导致模型的复杂性。拟合精度,但势必导致模型的复杂性。因此,在建立回归方程时,要遵循一个原因此,在建立回归方程时,要遵循一个原则,即则,即“少而精少而精”。具体地说:既要尽可。具体地说:既要尽可能地提高拟合的精度,又要尽可能地使模能地提高拟合的精度,又要尽可能地使模型简单。这就需要有一些量化的标准来衡型简单。这就需要有一些量化的标准来衡量所得模型的量所得模型的“优劣优劣”。目前,常用的衡量方程目前,常用的衡量方程“优劣优劣”的标准有的标准有复相关系数。复相关系数。 复相关系数复相关系数(multiple correlation multiple correlation coefficient)coefficient)用用R R表示,取值在表示,取值在0 01 1之间。表之间。表示示m m个自变量共同对应变量个自变量共同对应变量y y的相关密切程度。的相关密切程度。复相关系数的平方复相关系数的平方R2称为决定系数称为决定系数(coefficient of determination),R2表示回归平方和在表示回归平方和在y的的总变异中所占的比重。用总变异中所占的比重。用R2可定量评价可定量评价y的总的总变异能被变异能被x1、x2、xm解释的比重。解释的比重。如本例如本例R2=0.5709,可知由年龄和体重可解释该组观察可知由年龄和体重可解释该组观察对象收缩压变异的对象收缩压变异的57.09%。第二节多元逐步回归第二节多元逐步回归一、多元逐步回归的基本思想一、多元逐步回归的基本思想逐步回归逐步回归( (stepwise regression)stepwise regression)是从众多的回是从众多的回归模型中快速地选出归模型中快速地选出“最优最优”模型而提出的一模型而提出的一种策略算法。种策略算法。它是将自变量一个一个引入方程,引入变量的它是将自变量一个一个引入方程,引入变量的条件是该自变量对应变量的影响经检验是有统条件是该自变量对应变量的影响经检验是有统计学意义的。用该方法建立的回归方程一般具计学意义的。用该方法建立的回归方程一般具有较少的自变量,且变量之间具有较强的相关有较少的自变量,且变量之间具有较强的相关关系的可能性较少。关系的可能性较少。当人们应用回归分析去处理实际问题时,当人们应用回归分析去处理实际问题时,经常碰到的重要问题就是选择自变量。经常碰到的重要问题就是选择自变量。一般说来,研究人员在设计、搜集资料一般说来,研究人员在设计、搜集资料时,常尽可能多地罗列出一切可能与因时,常尽可能多地罗列出一切可能与因变量有关的自变量,生怕遗漏。事实上,变量有关的自变量,生怕遗漏。事实上,其中有一些变量对应变量根本没有影响其中有一些变量对应变量根本没有影响或影响很小,如果这些变量都进入回归或影响很小,如果这些变量都进入回归方程,不但计算量大,而且模型参数的方程,不但计算量大,而且模型参数的估计估计( (偏回归系数偏回归系数) )和预测的精度也会下和预测的精度也会下降。因而在应用回归分析时,有必要对降。因而在应用回归分析时,有必要对进入模型的自变量作精心选择。进入模型的自变量作精心选择。前进法前进法( (step-up, forward-entry step-up, forward-entry procedure)procedure) 事先给定一个挑选自变量进入方程的标准。开事先给定一个挑选自变量进入方程的标准。开始时,方程中除常数项外没有自变量,按各自始时,方程中除常数项外没有自变量,按各自变量对变量对Y Y 的贡献大小由大到小依次挑选进入方的贡献大小由大到小依次挑选进入方程。每选入一个变量进入方程,再重新计算方程。每选入一个变量进入方程,再重新计算方程外各自变量程外各自变量( (扣除已进入方程的自变量影响扣除已进入方程的自变量影响) )对对Y Y 的贡献。直到方程外变量均达不到入选标的贡献。直到方程外变量均达不到入选标准,没有自变量可被引入方程为止。准,没有自变量可被引入方程为止。 该法只考虑选入变量,不考虑剔除。该法只考虑选入变量,不考虑剔除。对对Y Y 贡献大者入选贡献大者入选计算方程外计算方程外X X对对Y Y 的贡献的贡献对对Y Y 贡献大者入选贡献大者入选给定入选标准给定入选标准直到方程外变量没有自变量可被引入直到方程外变量没有自变量可被引入方程内方程内无自变无自变量量 后退法后退法( (step-down, backward-step-down, backward-elimination procedure)elimination procedure)与前进法相反,后退法是事先给定一个与前进法相反,后退法是事先给定一个剔除自变量的标准。开始全部自变量都剔除自变量的标准。开始全部自变量都在方程之中,按自变量对在方程之中,按自变量对Y Y 的贡献大小的贡献大小由小到大依次剔除。每剔除一个自变量由小到大依次剔除。每剔除一个自变量后,重新计算未被剔除的各自变量对后,重新计算未被剔除的各自变量对Y Y 的贡献。直到方程中没有自变量可被剔的贡献。直到方程中没有自变量可被剔除为止。除为止。 该法只考虑剔除自变量,不考虑进入。该法只考虑剔除自变量,不考虑进入。对对Y Y 贡献小者剔出贡献小者剔出计算方程内计算方程内X X对对Y Y 的贡献的贡献对对Y Y 贡献小者剔出贡献小者剔出给定剔出标准给定剔出标准直到方程内无变量可剔出直到方程内无变量可剔出全部自全部自量都在量都在方程内方程内逐步向前法逐步向前法( (forward stepwise)forward stepwise) 本法事先给定一个剔选变量的标准。它本法事先给定一个剔选变量的标准。它不同于前进法,每选入一个自变量,都不同于前进法,每选入一个自变量,都要对已在模型中的自变量进行检验,对要对已在模型中的自变量进行检验,对低于剔除标准的变量要逐一剔除。低于剔除标准的变量要逐一剔除。 具体做法是,按自变量对具体做法是,按自变量对Y Y 的贡献大小由大到的贡献大小由大到小依次挑选进入方程;每选一个变量进入方程,小依次挑选进入方程;每选一个变量进入方程,则重新计算各自变量对则重新计算各自变量对Y Y 的贡献。并考察已在的贡献。并考察已在方程中的变量是否由于新变量的引入,其作用方程中的变量是否由于新变量的引入,其作用被新变量代替或部分代替,抑制了它的作用并被新变量代替或部分代替,抑制了它的作用并退化为无意义。如果有,将它剔除并重新计算退化为无意义。如果有,将它剔除并重新计算各自变量对各自变量对Y Y 的贡献。如仍有变量低于入选标的贡献。如仍有变量低于入选标准,则继续考虑剔除,直到方程内变量均符合准,则继续考虑剔除,直到方程内变量均符合入选标准,没有自变量可被剔除,方程外没有入选标准,没有自变量可被剔除,方程外没有自变量可被引进为止。自变量可被引进为止。选入方程外对选入方程外对Y Y 贡献大者贡献大者剔出方程内对剔出方程内对Y Y 贡献小者贡献小者计算方程内、外计算方程内、外X X对对Y Y 的贡献的贡献对对Y Y 贡献大者入选贡献大者入选给定入选及剔出标准给定入选及剔出标准直到方程内无变量可被剔出直到方程内无变量可被剔出方程外无变量可被引入为止方程外无变量可被引入为止方程内方程内无自变无自变量量 逐步向后法逐步向后法( (backward stepwise)backward stepwise) 本法亦事先给定一个剔选变量的标准,本法亦事先给定一个剔选变量的标准,但思路与逐步向前法的方向正好相反。但思路与逐步向前法的方向正好相反。每剔除一个自变量,都要对方程外的自每剔除一个自变量,都要对方程外的自变量进行检验,对符合入选标准的变量变量进行检验,对符合入选标准的变量要重新考虑选入。要重新考虑选入。 具体做法是,开始时所有变量均在方程中,计具体做法是,开始时所有变量均在方程中,计算自变量对算自变量对Y Y 的贡献,并将贡献最小者剔除;的贡献,并将贡献最小者剔除;每剔除一个变量,则重新计算各自变量对每剔除一个变量,则重新计算各自变量对Y Y 的的贡献,并考察方程外的变量;如符合入选标准,贡献,并考察方程外的变量;如符合入选标准,则将贡献最大的自变量选入,并重新计算各自则将贡献最大的自变量选入,并重新计算各自变量对变量对Y Y 的贡献;如仍有变量符合入选标准,的贡献;如仍有变量符合入选标准,则继续考虑选入,直到方程外变量均不符合入则继续考虑选入,直到方程外变量均不符合入选标准,没有自变量可被引入,再考虑剔除。选标准,没有自变量可被引入,再考虑剔除。直到方程内没有变量可被剔除,方程外没有变直到方程内没有变量可被剔除,方程外没有变量可被引进为止。量可被引进为止。剔出方程内对剔出方程内对Y Y 贡献小者贡献小者选入方程外对选入方程外对Y Y 贡献大者贡献大者计算方程内、外计算方程内、外X X对对Y Y 的贡献的贡献对对Y Y 贡献小者剔出贡献小者剔出给定剔出给定剔出及入选及入选标准标准直到方程内无变量可剔出直到方程内无变量可剔出方程外无变量可引入为止方程外无变量可引入为止全部自量全部自量都在方程都在方程内内常采用的剔选变量的标准有两种。常采用的剔选变量的标准有两种。一是假设检验的一是假设检验的P P 值,即对偏回归系数进行假值,即对偏回归系数进行假设检验,设检验,P P 值越小则贡献越大,反之亦然。若值越小则贡献越大,反之亦然。若自变量的自变量的P P值小于事先给定的标准值小于事先给定的标准P P 选选( (如如0.05)0.05),则称符合入选标准,反之,如大于事先给定,则称符合入选标准,反之,如大于事先给定的标准,则不符合入选标准。的标准,则不符合入选标准。二是偏回归平方和的检验统计量二是偏回归平方和的检验统计量F F,F F 值越大值越大则贡献越大,反之亦然。则贡献越大,反之亦然。 理论上,剔除变量和选择变量是同一个理论上,剔除变量和选择变量是同一个界值。但实际分析时,可能会出现刚被界值。但实际分析时,可能会出现刚被剔除的变量,马上又被选入,从而使计剔除的变量,马上又被选入,从而使计算机进入算机进入“死循环死循环”,特别是在界值附,特别是在界值附近时。为了避免这种情况的出现,总是近时。为了避免这种情况的出现,总是选两个界值,一个用于剔除变量选两个界值,一个用于剔除变量( (P P剔剔) ),一个用于选入变量一个用于选入变量( (P P选选) )。且且P P剔剔略大于略大于P P选选,尤其是编写计算机程序时。,尤其是编写计算机程序时。 不同的逐步回归方法所得结果不尽相同;不同的逐步回归方法所得结果不尽相同;不同的界值所得结果不同;不同的界值所得结果不同;方程的优劣与界值方程的优劣与界值F F 的大小无必然联系;的大小无必然联系;应当注意应当注意: :逐步回归所得方程不一定是真正最优的,逐步回归所得方程不一定是真正最优的,而是局部的、相对的最优。因此,从寻而是局部的、相对的最优。因此,从寻求最优方程的角度说,界值要多取几个,求最优方程的角度说,界值要多取几个,以便得到多种不同组合的方程,从中找以便得到多种不同组合的方程,从中找出出“最优最优”,免得遗漏;从因素分析的,免得遗漏;从因素分析的角度看,多取几个界值,可以得到多组角度看,多取几个界值,可以得到多组对因变量有统计学意义的变量组合,再对因变量有统计学意义的变量组合,再结合逐步向前法和逐步向后法剔选变量结合逐步向前法和逐步向后法剔选变量的过程,可以得到更多的信息,找到最的过程,可以得到更多的信息,找到最优方程的可能性也就大一些。优方程的可能性也就大一些。 一般的做法是,先选择一般的做法是,先选择F F = 0= 0,用逐步向前法剔用逐步向前法剔选变量,看哪个变量先进入方程、每个变量进选变量,看哪个变量先进入方程、每个变量进入方程时的入方程时的F F 值以及哪个变量先进入方程后又值以及哪个变量先进入方程后又被剔除。再用逐步向后法逐个剔除变量,看哪被剔除。再用逐步向后法逐个剔除变量,看哪个变量先被剔除方程、每个变量被剔除时的个变量先被剔除方程、每个变量被剔除时的F F 值以及哪个变量先被剔除后又被选入。然后,值以及哪个变量先被剔除后又被选入。然后,根据上述结果选择几个不同的界值,再用逐步根据上述结果选择几个不同的界值,再用逐步向前法和逐步向后法分别观察变量进出方程的向前法和逐步向后法分别观察变量进出方程的情况。直至所得方程在专业上能得到较为合理情况。直至所得方程在专业上能得到较为合理的解释为止。的解释为止。第三节多元回归分析的注意事项第三节多元回归分析的注意事项一、多元回归的基本假定一、多元回归的基本假定1. y,x1,x2,xm是正态分布的随机变量;是正态分布的随机变量;2. 自变量自变量x1,x2,xm之间相互独立;之间相互独立;3. mn。二、样本含量二、样本含量样本含量样本含量n是自变量是自变量m的的310倍。倍。三、变量筛选三、变量筛选1. 因变量与自变量呈线性关系;因变量与自变量呈线性关系;2. 选择适当的选择适当的值值(选入变量的选入变量的entry值剔除变量值剔除变量的的removal值值);3. 选择适当的变量筛选方法选择适当的变量筛选方法(逐步法、前进法、逐步法、前进法、后退法后退法)。四、自变量的联合作用分析四、自变量的联合作用分析主要靠医学专业知识或根据决定系数主要靠医学专业知识或根据决定系数R2的大小判的大小判断。断。 五、自变量的共线性五、自变量的共线性自变量之间存在较强的相关关系时,就称它们自变量之间存在较强的相关关系时,就称它们之间存在多重共线性。对存在多重共线性的一之间存在多重共线性。对存在多重共线性的一组自变量进行多元回归分析时,偏回归系数的组自变量进行多元回归分析时,偏回归系数的估计值容易失真且稳定性差。估计值容易失真且稳定性差。1. 在某个检验水准在某个检验水准下,整个回归方程有统计学下,整个回归方程有统计学意义,但是每个偏回归系数的检验均无统计学意义,但是每个偏回归系数的检验均无统计学意义。意义。2. 偏回归系数的符号与医学专业知识不一致。偏回归系数的符号与医学专业知识不一致。但但是也不排除因医学专业知识不全面而不能接受是也不排除因医学专业知识不全面而不能接受的情况。的情况。1. 应变量的变异可由自变量解释的比例;应变量的变异可由自变量解释的比例;2. 正确分析入选方程的自变量与应变量之正确分析入选方程的自变量与应变量之间的关系;间的关系;3. 正确分析未入选方程的自变量与应变量正确分析未入选方程的自变量与应变量之间的关系。之间的关系。六、结果分析应注意的问题六、结果分析应注意的问题
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号