资源预览内容
第1页 / 共21页
第2页 / 共21页
第3页 / 共21页
第4页 / 共21页
第5页 / 共21页
第6页 / 共21页
第7页 / 共21页
第8页 / 共21页
第9页 / 共21页
第10页 / 共21页
亲,该文档总共21页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第10章 回归分析引见:引见: 1、回归分析的概念和模型、回归分析的概念和模型 2、回归分析的过程、回归分析的过程回归分析的概念寻求有关联相关的变量之间的关系寻求有关联相关的变量之间的关系主要内容:主要内容:从一组样本数据出发,确定这些变量间的从一组样本数据出发,确定这些变量间的定量关系式定量关系式对这些关系式的可信度进展各种统计检验对这些关系式的可信度进展各种统计检验从影响某一变量的诸多变量中,判别哪些从影响某一变量的诸多变量中,判别哪些变量的影响显著,哪些不显著变量的影响显著,哪些不显著利用求得的关系式进展预测和控制利用求得的关系式进展预测和控制回归分析的模型按能否线性分:线性回归模型和非线性回归模型按能否线性分:线性回归模型和非线性回归模型按自变量个数分:简单的一元回归,多元回归按自变量个数分:简单的一元回归,多元回归根本的步骤:利用根本的步骤:利用SPSS得到模型关系式,能否得到模型关系式,能否是我们所要的,要看回归方程的显著性检验是我们所要的,要看回归方程的显著性检验F检验和回归系数检验和回归系数b的显著性检验的显著性检验(T检验检验),还要,还要看拟合程度看拟合程度R2 (相关系数的平方相关系数的平方,一元回归用一元回归用R Square,多元回归用,多元回归用Adjusted R Square)回归分析的过程在回归过程中包括:在回归过程中包括:Liner:线性回归:线性回归Curve Estimation:曲线估计:曲线估计Binary Logistic: 二分变量逻辑回归二分变量逻辑回归Multinomial Logistic:多分变量逻辑回归:多分变量逻辑回归Ordinal 序回归序回归Probit:概率单位回归:概率单位回归Nonlinear:非线性回归:非线性回归Weight Estimation:加权估计:加权估计2-Stage Least squares:二段最小平方法:二段最小平方法Optimal Scaling 最优编码回归最优编码回归我们只讲前面我们只讲前面3个简单的普通教科书的讲法个简单的普通教科书的讲法10.1 线性回归(Liner)一元一元线性回性回归方程方程: y=a+bxa称称为截距截距b为回回归直直线的斜率的斜率用用R2断定系数断定一个断定系数断定一个线性回性回归直直线的的拟合程度:用来合程度:用来阐明用自明用自变量解量解释因因变量量变异的程度所占比例异的程度所占比例多元多元线性回性回归方程方程: y=b0+b1x1+b2x2+bnxnb0为常数常数项b1、b2、bn称称为y对应于于x1、x2、xn的偏回的偏回归系数系数用用Adjusted R2调整断定系数断定一个多元整断定系数断定一个多元线性回性回归方程的方程的拟合合程度:用来程度:用来阐明用自明用自变量解量解释因因变量量变异的程度所占比例异的程度所占比例一元一元线性回性回归模型确模型确实定定:普通先做散点普通先做散点图(Graphs -Scatter-Simple),以便以便进展展简单地地观测如:如:Salary与与Salbegin的关系的关系)假假设散点散点图的的趋势大大约呈呈线性关系,可以建立性关系,可以建立线性方程,假性方程,假设不不呈呈线性分布,可建立其它方程模型,并比性分布,可建立其它方程模型,并比较R2 (-1)来确定一来确定一种最正确方程式曲种最正确方程式曲线估估计多元多元线性回性回归普通采用逐普通采用逐渐回回归方法方法-Stepwise 逐渐回归方法的根本思想对全部的自变量对全部的自变量x1,x2,.,xp,按它们对按它们对Y奉献的大小进奉献的大小进展比较,并经过展比较,并经过F检验法,选择偏回归平方和显著的变检验法,选择偏回归平方和显著的变量进入回归方程,每一步只引入一个变量,同时建立一量进入回归方程,每一步只引入一个变量,同时建立一个偏回归方程。当一个变量被引入后,对原已引入回归个偏回归方程。当一个变量被引入后,对原已引入回归方程的变量,逐个检验他们的偏回归平方和。假设由于方程的变量,逐个检验他们的偏回归平方和。假设由于引入新的变量而使得已进入方程的变量变为不显著时,引入新的变量而使得已进入方程的变量变为不显著时,那么及时从偏回归方程中剔除。在引入了两个自变量以那么及时从偏回归方程中剔除。在引入了两个自变量以后,便开场思索能否有需求剔除的变量。只需当回归方后,便开场思索能否有需求剔除的变量。只需当回归方程中的一切自变量对程中的一切自变量对Y都有显著影响而不需求剔除时,都有显著影响而不需求剔除时,在思索从未选入方程的自变量中,挑选对在思索从未选入方程的自变量中,挑选对Y有显著影响有显著影响的新的变量进入方程。不论引入还是剔除一个变量都称的新的变量进入方程。不论引入还是剔除一个变量都称为一步。不断反复这一过程,直至无法剔除已引入的变为一步。不断反复这一过程,直至无法剔除已引入的变量,也无法再引入新的自变量时,逐渐回归过程终了。量,也无法再引入新的自变量时,逐渐回归过程终了。10.1.6 线性回归分析实例p240实例:实例:P240Data07-03 建立一个以初始工资建立一个以初始工资Salbegin 、任务、任务阅历阅历prevexp 、任务时间、任务时间jobtime 、任务种类、任务种类jobcat 、受教育、受教育年限年限edcu等为自变量,当前工资等为自变量,当前工资Salary为因变量的回归模型。为因变量的回归模型。先做数据散点图先做数据散点图,观测因变量观测因变量Salary与自变量与自变量Salbegin之间关系之间关系能否有线性特点能否有线性特点Graphs -Scatter-SimpleX Axis: SalbeginY Axis: Salary假设散点图的趋势大约呈线性关系,可以建立线性回归模型假设散点图的趋势大约呈线性关系,可以建立线性回归模型Analyze-Regression-LinearDependent: SalaryIndependents: Salbegin,prevexp,jobtime,jobcat,edcu等等变量变量Method: Stepwise比较有用的结果:比较有用的结果:拟合程度拟合程度Adjusted R2: 越接近越接近1拟合程度越好拟合程度越好回归方程的显著性检验回归方程的显著性检验Sig回归系数表回归系数表Coefficients的的Model最后一个中的回归系数最后一个中的回归系数B和显和显著性检验著性检验Sig得模型:得模型: Salary=-15038.6+1.37Salbegin+5859.59jobcat- 19.55prevexp+154.698jobtime+539.64edcu10.2 曲线估计(Curve Estimation)对于一元回归,对于一元回归,假设散点图的假设散点图的趋势不呈线性趋势不呈线性分布,可以利分布,可以利用曲线估计方用曲线估计方便地进展线性便地进展线性拟合拟合(liner)、二次拟合二次拟合(Quadratic)、三次拟合三次拟合(Cubic)等。等。采用哪种拟合采用哪种拟合方式主要取决方式主要取决于各种拟合模于各种拟合模型对数据的充型对数据的充分描画分描画(看修看修正正Adjusted R2 -1)不同模型的表示不同模型的表示模型称号模型称号回归方程回归方程相应的线性回归方程相应的线性回归方程Linear(线性线性)Y=b0+b1tQuadratic(二次二次)Y=b0+b1t+b2t2Compound(复合复合)Y=b0(b1t)Ln(Y)=ln(b0)+ln(b1)tGrowth(生长生长)Y=eb0+b1tLn(Y)=b0+b1tLogarithmic(对数对数)Y=b0+b1ln(t)Cubic(三次三次)Y=b0+b1t+b2t2+b3t3SY=eb0+b1/tLn(Y)=b0+b1 / tExponential(指数指数)Y=b0 * eb1*tLn(Y)=ln(b0)+b1tInverse(逆逆)Y=b0+b1/tPower(幂幂)Y=b0(tb1 )Ln(Y)=ln(b0)+b1ln(t)Logistic(逻辑逻辑)Y=1/(1/u+b0b1t)Ln(1/Y-1/u)=ln(b0+ln(b1)t)10.2.3 曲线估计(Curve Estimation)分析实例实例实例P247 Data11-01 :有关汽车数据,看:有关汽车数据,看mpg(每加每加仑汽油行驶里程仑汽油行驶里程)与与weight(车重车重)的关系的关系先做散点图先做散点图(Graphs -Scatter-Simple):weight(X)、mpg(Y),看每加仑汽油行驶里程数,看每加仑汽油行驶里程数mpg(Y)随着汽车自随着汽车自重重weight(X)的添加而减少的关系,也发现是曲线关系的添加而减少的关系,也发现是曲线关系建立假设干曲线模型可试着选用一切模型建立假设干曲线模型可试着选用一切模型Models)Analyze-Regression- Curve EstimationDependent: mpgIndependent: weightModels: 全选全选(除了最后一个逻辑回归除了最后一个逻辑回归)选选Plot models:输出模型图形:输出模型图形比较有用的结果:各种模型的比较有用的结果:各种模型的Adjusted R2,并比较哪,并比较哪个大,结果是指数模型个大,结果是指数模型Compound的的Adjusted R2=0.70678最好拟合情况可见图形窗口最好拟合情况可见图形窗口, 结果方结果方程为:程为:mpg=60.15*0.999664weight阐明:阐明:Growth和和Exponential的结果也一样,也一样。的结果也一样,也一样。10.3二项逻辑回归(Binary Logistic)在在现实中,中,经常需求判常需求判别一些事情能否将要一些事情能否将要发生,候生,候选人能否会中人能否会中选?为什么一些人易患冠心病?什么一些人易患冠心病?为什么一些人的生意会什么一些人的生意会获得得胜利?此利?此问题的特点是因的特点是因变量只需两个量只需两个值,不,不发生生(0)和和发生生(1)。这就要求建立的就要求建立的模型必需因模型必需因变量的取量的取值范范围在在01之之间。Logistic回回归模型模型Logistic模型:在模型:在逻辑回回归中,可以直接中,可以直接预测观丈量相丈量相对于某一事件于某一事件的的发生概率。包含一个自生概率。包含一个自变量的回量的回归模型和多个自模型和多个自变量的回量的回归模型公模型公式:式: 其中:其中: z=B0+B1X1+BpXp(P为自自变量个数。某一事件不量个数。某一事件不发生生的概率的概率为Prob(no event)1-Prob(event) 。因此最主要的是求。因此最主要的是求B0,B1,Bp(常数和系数常数和系数)数据要求:因数据要求:因变量量应具有二分特点。自具有二分特点。自变量可以是分量可以是分类变量和定距量和定距变量。假量。假设自自变量是分量是分类变量量应为二分二分变量或被重新量或被重新编码为指示指示变量。量。指示指示变量有两种量有两种编码方式。方式。回回归系数:几率和概率的区系数:几率和概率的区别。几率。几率=发生的概率生的概率/不不发生的概率。如生的概率。如从从52张桥牌中抽出一牌中抽出一张A的几率的几率为(4/52)/(48/52)=1/12,而其概率,而其概率值为4/52=1/13 根据回根据回归系数表,可以写出回系数表,可以写出回归模型公式中的模型公式中的z。然后根据回。然后根据回归模模型公式型公式Prob(event) 进展展预测。10.3.3二项逻辑回归(Binary Logistic)实例实例例P255 Data11-02 :乳腺癌患者的数据:乳腺癌患者的数据进展分析,展分析,变量量为:年:年龄age,患病患病时间time,肿瘤分散等瘤分散等级pathscat3种种, 肿瘤大小瘤大小pathsize, 肿瘤史瘤史histgrad3种和癌种和癌变部位的淋巴部位的淋巴结能否含有癌能否含有癌细胞胞ln_yesno,建立一个模型,建立一个模型,对癌癌变部位的淋巴部位的淋巴结能否含有癌能否含有癌细胞胞ln_yesno的情况的情况进展展预测。Analyze-Regression- Binary LogisticDependent: ln_yesnoCovariates: age, time,pathscat,pathsize, histgrad比比较有用的有用的结果:在果:在Variables in Equation表中的各表中的各变量的系数量的系数B,可以写出,可以写出z=-0.86-0.331pathscat+0.415pathsize 0.023age+0.311histgrad。 根据回根据回归模型公式模型公式Prob(event)=1/(1+e-z),就可,就可以以计算一名年算一名年龄为60岁、pathsize为1、histgrad为1、pathscat为1的患者,其淋巴的患者,其淋巴结中中发现癌癌细胞的概率胞的概率为1/(1+e-(-1.845)=0.(Prob(event) 0.5 预测事件将会事件将会发生生补充:回归分析补充:回归分析以下的讲义是吴喜之教授有关回归分析的讲义,很简单,但很适用定量变量的线性回归分析定量变量的线性回归分析 对例1(highschoo.sav)的两个变量的数据进展线性回归,就是要找到一条直线来最好地代表散点图中的那些点。 检验问题等检验问题等对于系数b1=0的检验对于拟合的F检验R2(决议系数)及修正的R2.多个自变量的回归多个自变量的回归如何解如何解释拟合直合直线? ?什么是逐渐回归方法? 自变量中有定性变量的回归自变量中有定性变量的回归 例1(highschoo.sav)的数据中,还有一个自变量是定性变量“收入,以虚拟变量或哑元(dummy variable)的方式出现;这里收入的“低,“中,“高,用1,2,3来代表.所以,假设要用这种哑元进展前面回归就没有道理了. 以例1数据为例,可以用下面的模型来描画:自变量中有定性变量的回归自变量中有定性变量的回归 如今只需估计b0, b1,和a1, a2, a3即可。哑元的各个参数a1, a2, a3本身只需相对意义,无法三个都估计,只可以在有约束条件下才可以得到估计。约束条件可以有很多项选择择,一种默许的条件是把一个参数设为0,比如a3=0,这样和它有相对意义的a1和a2就可以估计出来了。对于例1,对b0, b1, a1, a2, a3的估计分别为28.708, 0.688, -11.066, -4.679, 0。这时的拟合直线有三条,对三种家庭收入各有一条: SPSS实现实现(hischool.sav)AnalizeGeneral linear modelUnivariate,在Options中选择Parameter Estimates,再在主对话框中把因变量s1选入Dependent Variable,把定量自变量(j3)选入Covariate,把定量因变量income选入Factor中。然后再点击Model,在Specify Model中选Custom,再把两个有关的自变量选入右边,再在下面Building Term中选Main effect。Continue-OK,就得到结果了。输出的结果有回归系数和一些检验结果。留意留意 这里里进展的展的线性回性回归,仅仅是回是回归的的一种,也是一种,也是历史最悠久的一种。史最悠久的一种。但是,任何模型都是某种近似;但是,任何模型都是某种近似;线性回性回归当然也不另外。当然也不另外。它被它被长期广泛深化地研期广泛深化地研讨主要是由于主要是由于数学上相数学上相对简单。它曾它曾经成成为其他回其他回归的一个根底。的一个根底。总应该用批判的目光看用批判的目光看这些模型。些模型。SPSS的回归分析的回归分析自变量和因变量都是定量变量时的线性回归分析:菜单:AnalizeRegressionLinear把 有 关 的 自 变 量 选 入Independent, 把 因 变 量 选 入Dependent,然后OK即可。假设自变量有多个多元回归模型,选Method: Stepwise ,只需都选入就行。SPSS的回归分析的回归分析自变量中有定性变量哑元和定量变量而因变量为定量变量时的线性回归分析 (hischool.sav) 菜 单 : Analize General linear modelUnivariate,在Options中选择Parameter Estimates,再在主对话框中把因变量s1选入Dependent Variable,把定量自变量(j3)选入Covariate,把定性因变量income选入Factor中。点击Model,在Specify Model中选Custom,再把两个有关的自变量选入右边,再在下面Building Term中选Main effect。然后就Continue-OK。
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号