资源预览内容
第1页 / 共530页
第2页 / 共530页
第3页 / 共530页
第4页 / 共530页
第5页 / 共530页
第6页 / 共530页
第7页 / 共530页
第8页 / 共530页
第9页 / 共530页
第10页 / 共530页
亲,该文档总共530页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
应用回归分析Applied Regression Analysis教材何晓群,刘文卿:应用回归分析第二版,中国人民大学出版社,2007年 统计软件SPSS 13.0Statistical Package for the Social Science 章 节 目 录第1章 回归分析概述 第2章 一元线性回归 第3章 多元线性回归第4章 违背基本假定的情况 第5章 自变量选择与逐步回归 第6章 多重共线性的情形及其处理 第7章 岭回归 第8章 非线性回归第9章 含定性变量的回归模型 第1章 回归分析概述1 .1 变量间的统计关系 1 .2 回归方程与回归名称的由来1 .3 回归分析的主要内容及其一般模型 1 .4 建立实际问题回归模型的过程1 .5 回归分析应用与发展述评 思考与练习1 .1 变量间的统计关系函数关系商品的销售额与销售量之间的关系 y = px圆的面积与半径之间的关系 S= R2 原材料消耗额与产量(x1) 、单位产量消耗(x2) 、原材料价格(x3)之间的关系 y = x1 x2 x3 1 .1 变量间的统计关系1 .1 变量间的统计关系相关关系的例子相关关系的例子子女身高 (y)与父亲身高(x)之间的关系收入水平(y)与受教育程度(x)之间的关系粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之间的关系商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系1 .1 变量间的统计关系对变量间对变量间统计依赖关系统计依赖关系的考察主要是通过的考察主要是通过相关相关分析分析(correlation analysis)或或回归分析回归分析(regression analysis)来完成的来完成的注意注意不线性相关并不意味着不相关。有相关关系并不意味着一定有因果关系。回归分析回归分析/相关分析相关分析研究一个变量对另一个(些)变量的统计依赖关系,但它们并不意味着一定有因果关系。相关分析相关分析对称地对待任何(两个)变量,两个变量都被看作是随机的。回归分析回归分析对变量的处理方法存在不对称性,即区分应变量(被解释变量)和自变量(解释变量):前者是随机变量,后者不是。回归分析构成计量经济学的方法论基础,回归分析构成计量经济学的方法论基础,其主要内容包括:其主要内容包括:(1)根据样本观察值对经济计量模型参数进行估计,求得回归方程;(2)对回归方程、参数估计值进行显著性检验;(3)利用回归方程进行分析、评价及预测。1 .2 回归方程与回归名称的由来成年儿子身高父母平均身高英国统计学家F.Galton(1822-1911年)。F.Galton和他的学生、现代统计学的奠基者之一K.Pearson(18561936年)在研究父母身高与其子女身高的遗传问题时,观察了1 078对夫妇, 1 .3 回归分析的主要内容及其一般模型回归分析的一般形式:随机误差项主要包括下列因素:随机误差项主要包括下列因素:在解释变量中被忽略的因素的影响;变量观测值的观测误差的影响;模型关系的设定误差的影响;其他随机因素的影响。回归模型研究的问题?1 .4 建立实际问题回归模型的过程设置指标变量收集整理数据构造理论模型估计模型参数修改 N 模型运用Y经济因素分析经济变量控制 经济决策预测实 际 问 题模型检验1 .5 回归分析应用与发展述评 从高斯提出最小二乘法算起,回归分析已经有200年的历史。 从1969年设立诺贝尔经济学奖以来,已有近50位学者获奖,其中绝大部分获奖者是统计学家、计量经济学家、数学家。他们对统计学及回归分析方法的应用都有娴熟的技巧。第2章 一元线性回归2 .1 一元线性回归模型2 .2 参数0、1的估计2 .3 最小二乘估计的性质2 .4 回归方程的显著性检验2 .5 残差分析2 .6 回归系数的区间估计2 .7 预测和控制2 .8 本章小结与评注2 .1 一元线性回归模型例例2 .1 表2.1列出了15起火灾事故的损失及火灾发生地与最近的消防站的距离。 表表2.1火灾损失表火灾损失表2 .1 一元线性回归模型例例2.2 全国人均消费金额记作y(元); 人均国民收入记为x(元) 表表2.2 人均国民收入表人均国民收入表2 .1 一元线性回归模型一元线性回归模型 y=0+1x+回归方程 E(y|x)=0+1x2 .1 一元线性回归模型样本模型 yi=0+1xi+i, i=1,2,n回归方程 E(yi)=0+1xi ,var(yi)=2,样本观测值(x1,y1),(x2,y2),(xn,yn)经验回归方程 2 .2 参数0、1的估计一、普通最小二乘估计 (Ordinary Least Square Estimation,简记为OLSE) 最小二乘法就是寻找参数0、1的估计值使离差平方和达极小称为yi的回归拟合值,简称回归值或拟合值 称为yi的残差 2 .2 参数0、1的估计2 .2 参数0、1的估计经整理后,得正规方程组2 .2 参数0、1的估计得OLSE 为记2 .2 参数0、1的估计续例2.1回归方程回归方程2 .2 参数0、1的估计二、最大似然估计二、最大似然估计 连续型:是样本的联合密度函数:离散型:是样本的联合概率函数。似然函数并不局限于独立同分布的样本。 似然函数在假设iN(0,2)时,由(2.10)式知yi服从如下正态分布:2 .2 参数0、1的估计二、最大似然估计二、最大似然估计 y1,y2,yn的似然函数为:对数似然函数为:与最小二乘原理完全相同 2 .3 最小二乘估计的性质一、线性一、线性 是y1,y2,yn的线性函数 :其中用到 2 .3 最小二乘估计的性质二、无偏性二、无偏性 2 .3 最小二乘估计的性质三、三、 的方差的方差 2 .3 最小二乘估计的性质三、三、 的方差的方差 在正态假设下GaussMarkov条件 2.4 回归方程的显著性检验 一、一、t 检验检验 原假设: H0 :1=0对立假设: H1 :10 由当原假设H0 :1=0成立时有: 2.4 回归方程的显著性检验 一、一、t 检验检验 构造t 统计量 其中2.4 回归方程的显著性检验 二、用统计软件计算二、用统计软件计算 1例2.1 用Excel软件计算 什么是P 值?(P-value)P 值即显著性概率值 Significence Probability Value是当原假设为真时得到比目前的 样本更极端的样本的 概率,所谓极端就是与原假设相背离它是用此样本拒绝原假设所犯弃真错误的 真实概率,被称为观察到的(或实测的)显著性水平双侧检验的P 值 / / 2 2 / 2 t t拒绝拒绝拒绝拒绝拒绝拒绝拒绝拒绝H HH0 00值值值临界值临界值临界值计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量临界值临界值临界值1/2 1/2 1/2 P P P 值值值1/2 1/2 1/2 P P P 值值值左侧检验的P 值H HH0 00值值值临界值临界值临界值临界值临界值临界值 样本统计量样本统计量样本统计量样本统计量样本统计量样本统计量拒绝域拒绝域拒绝域拒绝域拒绝域拒绝域抽样分布抽样分布抽样分布抽样分布1 - 1 - 1 - 置信水平置信水平置信水平置信水平计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量P P P 值值值右侧检验的P 值H HH0 00值值值临界值临界值临界值临界值临界值临界值 拒绝域拒绝域拒绝域拒绝域拒绝域拒绝域抽样分布抽样分布抽样分布抽样分布抽样分布抽样分布1 - 1 - 1 - 置信水平置信水平置信水平置信水平置信水平置信水平计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量计算出的样本统计量P P P 值值值利用 P 值进行检验的决策准则若p-值 ,不能拒绝 H0若p-值 , 拒绝 H0双侧检验p-值 =2单侧检验p-值2.4 回归方程的显著性检验 二、用统计软件计算二、用统计软件计算2. 例2.1用SPSS软件计算2.4 回归方程的显著性检验 二、用统计软件计算二、用统计软件计算2.用SPSS软件计算2.4 回归方程的显著性检验 三、三、F检验检验平方和分解式 SST = SSR + SSE构造F检验统计量 2.4 回归方程的显著性检验 三、三、F检验检验一元线性回归方差分析表一元线性回归方差分析表方差来源自由度平方和均方F值P值回归残差总和1n-2n-1SSRSSESSTSSR/1SSE/(n-2)P(FF值)=P值2.4 回归方程的显著性检验 四、相关系数的显著性检验四、相关系数的显著性检验 2.4 回归方程的显著性检验 四、相关系数的显著性检验四、相关系数的显著性检验 2.4 回归方程的显著性检验 四、相关系数的显著性检验四、相关系数的显著性检验 附表附表1 相关系数相关系数=0的临界值表的临界值表n-25%1%n-25%1%n-25%1%10.9971.000160.4680.590350.3250.41820.9500.990170.4560.575400.3040.39330.8780.959180.4440.561450.2880.37240.8110.947190.4330.549500.2730.35450.7540.874200.4230.537600.2500.32560.7070.834210.4130.526700.2320.30270.6660.798220.4040.515800.2170.28380.6320.765230.3960.505900.2050.26790.6020.735240.3880.4961000.1950.254100.5760.708250.3810.4871250.1740.228110.5530.684260.3740.4781500.1590.208120.5320.661270.3670.4702000.1380.181130.5140.641280.3610.4633000.1130.148140.4970.623290.3550.4564000.0980.128150.4820.606300.3490.44910000.0620.0812.4 回归方程的显著性检验 四、相关系数的显著性检验四、相关系数的显著性检验 用用SPSS软件做相关系数的显著性检验软件做相关系数的显著性检验 2.4 回归方程的显著性检验 四、相关系数的显著性检验四、相关系数的显著性检验 两变量间相关程度的强弱分为以下几个等级:两变量间相关程度的强弱分为以下几个等级:当当|r|0.8时,视为高度相关;时,视为高度相关;当当0.5|r| 0.8时,视为中度相关;时,视为中度相关;当当0.3|r| 0.5时,视为低度相关;时,视为低度相关;当当|r| 0.3时,表明两个变量之间的相关程度极弱,时,表明两个变量之间的相关程度极弱, 在实际应用中可视为不相关。在实际应用中可视为不相关。2.4 回归方程的显著性检验 五、三种检验的关系五、三种检验的关系H0: b=0H0: r=0H0: 回归无效2.4 回归方程的显著性检验 六、样本决定系数六、样本决定系数 可以证明2.5 残差分析残差分析 一、残差概念与残差图一、残差概念与残差图 残差 误差项 残差ei是误差项ei的估计值。 2.5 残差分析残差分析 一、残差概念与残差图一、残差概念与残差图 2.5 残差分析残差分析 一、残差概念与残差图一、残差概念与残差图 图图 2.6 火灾损失数据残差图火灾损失数据残差图2.5 残差分析残差分析 二、残差的性质二、残差的性质 性质性质1 E (ei)=0 证明:2.5 残差分析残差分析 二、残差的性质二、残差的性质 性质性质2其中其中称称为杠杆杠杆值 2.5 残差分析残差分析 二、残差的性质二、残差的性质 2.5 残差分析残差分析 二、残差的性质二、残差的性质 性质性质3. 残差满足约束条件: 2.5 残差分析残差分析 三、改进的残差三、改进的残差 标准化残差学生化残差2.6 回归系数的区间估计回归系数的区间估计 等价于1的的1-置信区间置信区间 2.7 预测和控制预测和控制 一、单值预测一、单值预测 2.7 预测和控制预测和控制 二、区间预测二、区间预测找一个区间(找一个区间(T1,T2),使得),使得 需要首先求出其估需要首先求出其估计值的分布 1因变量新值的区间预测因变量新值的区间预测二、区间预测二、区间预测 1 因变量新值的区间预测因变量新值的区间预测以下计算以下计算的方差的方差从而得二、区间预测二、区间预测 1 因变量新值的区间预测因变量新值的区间预测记记于是有 则二、区间预测二、区间预测 1 因变量新值的区间预测因变量新值的区间预测y0的置信概率为1-的置信区间为 y0的置信度为95%的置信区间近似为 二、区间预测二、区间预测 2 因变量平均值的区间估计因变量平均值的区间估计得E(y0)的1-的置信区间为 E(y0)=0+1x0是常数二、区间预测二、区间预测 计算计算 对例2.1的火灾损失数据,假设保险公司希望预测一个距最近的消防队x0=3.5公里的居民住宅失火的损失 点估计值95%区间估计 单个新值: (22.32,32.67) 平均值E(y0):(26.19,28.80) 的95%的近似置信区间为 =(27.50-22.316,27.50+22.316)=(22.87,32.13) 三、控制问题三、控制问题 给定y的预期范围(T1, T2),如何控制自变量x的值才能以1-的概率保证 用近似的预测区间来确定x。如果=0.05,则要求 把带入2.8 本章小结与评注本章小结与评注 一、一元线性回归模型从建模到应用的全过一、一元线性回归模型从建模到应用的全过程程例例2.2 全国人均消费金额记作y(元); 人均国民收入记为x(元)表表2.2 人均国民收入表人均国民收入表2.8 本章小结与评注本章小结与评注 二、有关回归假设检验问题二、有关回归假设检验问题 1973年年Anscombe构造了四组数据构造了四组数据, 这四组数据所建的这四组数据所建的回归方程是相同的回归方程是相同的,决定系数决定系数,F统计量也都相同统计量也都相同,且均通过显且均通过显著性检验。著性检验。 2.8 本章小结与评注本章小结与评注 第三章第三章 多元线性回归多元线性回归 3.1 多元线性回归模型3.2 回归参数的估计3.3 参数估计量的性质3.4 回归方程的显著性检验3.5 中心化和标准化3.6 相关阵与偏相关系数3.7 本章小结与评注 3.1 多元线性回归模型一、多元线性回归模型的一般形式一、多元线性回归模型的一般形式 y=0+1x1+2x2+pxp+3.1 多元线性回归模型一、多元线性回归模型的一般形式一、多元线性回归模型的一般形式 对n组观测数据 (xi1, xi2,xip; yi), i=1,2,n,线性回归模型表示为:3.1 多元线性回归模型一、多元线性回归模型的一般形式一、多元线性回归模型的一般形式 写成矩阵形式为: y y= =XX+ +, , 其中,3.1 多元线性回归模型二、多元线性回归模型的基本假定二、多元线性回归模型的基本假定 1. 解释变量x1,x2,xp是确定性变量,不是随机变量,且要求rk(X)=p+1n。表明设计矩阵X中的自变量列之间不相关,X是一满秩矩阵。3.1 多元线性回归模型二、多元线性回归模型的基本假定二、多元线性回归模型的基本假定 2 .随机误差项具有0均值和等方差,即 这个假定称为Gauss-Markov条件 3.1 多元线性回归模型二、多元线性回归模型的基本假定二、多元线性回归模型的基本假定 3. 正态分布的假定条件为: 用矩阵形式(3.5)式表示为: N(0, s2In)3.1 多元线性回归模型二、多元线性回归模型的基本假定二、多元线性回归模型的基本假定 在正态假定下: yN(X, s2In)E(y y)=XXvar(y)= s2In 3.1 多元线性回归模型三、多元线性回归方程的解释三、多元线性回归方程的解释 y表示空调机的销售量,x1表示空调机的价格,x2表示消费者可用于支配的收入。y=0+1x1+2x2+E(y)=0+1x1+2x2在x2保持不变时,有在x1保持不变时,有3.1 多元线性回归模型三、多元线性回归方程的解释三、多元线性回归方程的解释 考虑国内生产总值GDP和三次产业增加值的关系, GDP=x1 + x2+ x3现在做GDP对第二产业增加值x2的一元线性回归,得回归方程3.1 多元线性回归模型年份GDP第一产业增加值x1第二产业增加值x2第三第三产业增加增加值x3199018 547.9 5 017.0 7 717.4 5 813.5 199121 617.8 5 288.6 9 102.2 7 227.0 199226 638.1 5 800.0 11 699.5 9 138.6 199334 634.4 6 882.1 16 428.5 11 323.8 199446 759.4 9 457.2 22 372.2 14 930.0 199558 478.1 11 993.0 28 537.9 17 947.2 199667 884.6 13 844.2 33 612.9 20 427.5 199774 462.6 14 211.2 37 222.7 23 028.7 199878 345.2 14 552.4 38 619.3 25 173.5 199982 067.5 14 472.0 40 557.8 27 037.7 200089 468.1 14 628.2 44 935.3 29 904.6 200197 314.8 15 411.8 48 750.0 33 153.0 2002105 172.3 16 117.3 52 980.2 36 074.8 2003117 390.2 16 928.1 61 274.1 39 188.0 2004136 875.9 20 768.1 72 387.2 43 720.63.1 多元线性回归模型三、多元线性回归方程的解释三、多元线性回归方程的解释 建立GDP对x1和x2的回归,得二元回归方程=2 914.6+0.607 x1+1.709 x2你能够合理地解释两个回归系数吗 ?3.2 回归参数的估计回归参数的估计 一、回归参数的普通最小二乘估计一、回归参数的普通最小二乘估计 最小二乘估计要寻找3.2 回归参数的估计回归参数的估计 一、回归参数的普通最小二乘估计一、回归参数的普通最小二乘估计 3.2 回归参数的估计回归参数的估计 一、回归参数的普通最小二乘估计一、回归参数的普通最小二乘估计 经整理后得用矩阵形式表示的正规方程组 移项得存在时,即得回归参数的最小二乘估计为:3.2 回归参数的估计回归参数的估计 二、回归值与残差二、回归值与残差为回归值 称为帽子矩阵,其主对角线元素记为hii ,则3.2 回归参数的估计回归参数的估计 二、回归值与残差二、回归值与残差 此式的证明只需根据迹的性质tr(ABAB)=tr(BABA),因而3.2 回归参数的估计回归参数的估计 二、回归值与残差二、回归值与残差 cov(e,e)=cov(cov(e,e)=cov((I-HI-H)Y,Y,(I-HI-H)Y)Y) = =(I-HI-H)cov(Y,Y)cov(Y,Y)(I-HI-H) = =2 2(I-HI-H)I In n(I-HI-H)=2 2(I-HI-H)得 D(ei)=(1-hii)2,i=1,2,n3.2 回归参数的估计回归参数的估计 二、回归值与残差二、回归值与残差 是2的无偏估计 3.2 回归参数的估计回归参数的估计 三三 、回归参数的最大似然估计、回归参数的最大似然估计 y yN(X,X,2I In)似然函数为 等价于使(y y-XX)(y y-XX)达到最小,这又完全与OLSE一样3.2 回归参数的估计回归参数的估计 例例3.13.1国际旅游外汇收入是国民经济发展的重要组成部分,影响一个国家或地区旅游收入的因素包括自然、文化、社会、经济、交通等多方面的因素,本例研究第三产业对旅游外汇收入的影响。中国统计年鉴把第三产业划分为12个组成部分,分别为x1农林牧渔服务业,x2地质勘查水利管理业,x3交通运输仓储和邮电通信业,x4批发零售贸易和餐饮业,x5金融保险业,x6房地产业,x7社会服务业,x8卫生体育和社会福利业,x9教育文化艺术和广播,x10科学研究和综合艺术,x11党政机关,x12其他行业。采用1998年我国31 个省、市、自治区的数据,以国际旅游外汇收入(百万美元)为因变量y,以如上12 个行业为自变量做多元线性回归,数据见表3.1,其中自变量单位为亿元人民币。3.2 回归参数的估计回归参数的估计 3.3 参数估计量的性质参数估计量的性质 性质性质1 是随机向量y的一个线性变换。性性质2 是是的无偏估的无偏估计。 3.3 参数估计量的性质参数估计量的性质 3.3 参数估计量的性质参数估计量的性质 当p=1时 3.3 参数估计量的性质参数估计量的性质 性质性质4 Gauss-Markov定理预测函数 是 的线性函数 Gauss-Markov定理定理 在假定E(y)=X, D(y)=2In时,的任一线性函数 的最小方差线性无偏估计(Best Lnear Unbiased Estimator简记为BLUE)为c,其中c是任一p+1维向量, 是的最小二乘估计。3.3 参数估计量的性质参数估计量的性质 第一,取常数向量c的第j(j=0,1,n)个分量为1,其余分量为0,这时G-M定理表明最小二乘估计是j的最小方差线性无偏估计。 第二,可能存在y1, y2 , , yn的非线性函数,作为 的无偏估计,比最小二乘估计 的方差更小。 第三,可能存在 的有偏估计量,在某种意义(例如均方误差最小)下比最小二乘估计 更好。 第四,在正态假定下, 是 的最小方差无偏估计。也就是说,既不可能存在y1, y2 , , yn的非线性函数,也不可能存在y1, y2 , , yn的其它线性函数,作为 的无偏估计,比最小二乘估计 方差更小。3.3 参数估计量的性质参数估计量的性质 性性质5 cov(,e)=0此性质说明 与e e不相关,在正态假定下等价于与e e独立,从而与 独立。性质性质6 在正态假设(1)(2)3.4 回归方程的显著性检验回归方程的显著性检验 一、一、F检验检验 H0:1=2=p=0SST = SSR + SSE 当H0成立时服从3.4 回归方程的显著性检验回归方程的显著性检验 一、一、F检验检验 方差来源自由度平方和均方F值P值回归残差总和pn-p-1n-1SSRSSESSTSSR/pSSE/(n-p-1)P(FF值)=P值3.4 回归方程的显著性检验回归方程的显著性检验 二、回归系数的显著性检验二、回归系数的显著性检验 H0j:j=0, j=1,2,p(,(X)-1)记 (X)-1=(cij) i,j=0,1,2, ,p构造t统计量 其中3.4 回归方程的显著性检验回归方程的显著性检验 二、回归系数的显著性检验二、回归系数的显著性检验 (剔除x1)3.4 回归方程的显著性检验回归方程的显著性检验 二、回归系数的显著性检验二、回归系数的显著性检验 3.4 回归方程的显著性检验回归方程的显著性检验 二、回归系数的显著性检验二、回归系数的显著性检验 从另外一个角度考虑自变量xj的显著性。y对自变量x1,x2,xp线性回归的残差平方和为SSE,回归平方和为SSR,在剔除掉xj后,用y对其余的p-1个自变量做回归,记所得的残差平方和为SSE(j),回归平方和为SSR(j),则 自变量xj对回归的贡献为SSR(j)=SSR-SSR(j),称为xj的偏回归平方和。由此构造偏F统计量3.4 回归方程的显著性检验回归方程的显著性检验 二、回归系数的显著性检验二、回归系数的显著性检验 当原假设H0j :j=0成立时,(3.42)式的偏F统计量Fj服从自由度为(1,n-p-1)的F分布,此F检验与(3.40)式的t检验是一致的,可以证明Fj=tj23.4 回归方程的显著性检验回归方程的显著性检验 三、回归系数的置信区间三、回归系数的置信区间可得j的置信度为1-的置信区间为:3.4 回归方程的显著性检验回归方程的显著性检验四、拟合优度四、拟合优度 决定系数为: y关于x1,x2,xp的样本复相关系数3.5 中心化和标准化中心化和标准化 一、中心化一、中心化 经验回归方程 经过样本中心 将坐标原点移至样本中心,即做坐标变换: 回归方程转变为:回归常数项为3.5 中心化和标准化中心化和标准化 二、标准化回归系数二、标准化回归系数 当自变量的单位不同时普通最小二乘估计的回归系数不具有可比性,例如有一回归方程为:其中x1的单位是吨, x2的单位是公斤3.5 中心化和标准化中心化和标准化 二、标准化回归系数二、标准化回归系数 样本数据的标准化公式为: 得标准化的回归方程 3.5 中心化和标准化中心化和标准化 二、标准化回归系数二、标准化回归系数 标准化标准化回归系数回归系数3.6 相关阵与偏相关系数相关阵与偏相关系数 一、样本相关阵一、样本相关阵自变量样本相关阵 增广的样本相关阵为: 3.6 相关阵与偏相关系数相关阵与偏相关系数 一、样本相关阵一、样本相关阵YX1X2X3X4X5X6X7X8X9X10X11X12Y1.0000.2600.3420.5800.4790.5180.5300.7410.3790.5750.6730.2570.038X10.2601.0000.6400.6910.7380.5820.5190.6630.6910.7190.1500.7580.301X20.3420.6401.0000.7730.6580.5020.4640.6020.6600.6860.1180.7600.337X30.5800.6910.7731.0000.9340.7420.7100.8850.8670.8890.3140.8550.457X40.4790.7380.6580.9341.0000.7800.7430.8870.9260.8920.3480.8490.437X50.5180.5820.5020.7420.7801.0000.9890.7400.7900.8500.6300.7050.515X60.5300.5190.4640.7100.7430.9891.0000.7030.7530.8210.6460.6660.493X70.7410.6630.6020.8850.8870.7400.7031.0000.7810.8340.5410.6490.190X80.3790.6910.6600.8670.9260.7900.7530.7811.0000.9310.4040.9060.548X90.5750.7190.6860.8890.8920.8500.8210.8340.9311.0000.5690.8950.533X100.6730.1500.1180.3140.3480.6300.6460.5410.4040.5691.0000.2410.155X110.2570.7580.7600.8550.8490.7050.6660.6490.9060.8950.2411.0000.613X120.0380.3010.3370.4570.4370.5150.4930.1900.5480.5330.1550.6131.0003.6 相关阵与偏相关系数相关阵与偏相关系数 二、偏判定系数二、偏判定系数 当其他变量被固定后,给定的任两个变量之间的相关系数,叫偏相关系数。 偏相关系数可以度量p+1个变量y,x1,x2, xp之中任意两个变量的线性相关程度,而这种相关程度是在固定其余p-1个变量的影响下的线性相关。 3.6 相关阵与偏相关系数相关阵与偏相关系数 二、偏判定系数二、偏判定系数 偏判定系数测量在回归方程中已包含若干个自变量时,再引入某一个新的自变量后y的剩余变差的相对减少量,它衡量y的变差减少的边际贡献。3.6 相关阵与偏相关系数相关阵与偏相关系数 二、偏判定系数二、偏判定系数 以x1表示某种商品的销售量, x2表示消费者人均可支配收入, x3表示商品价格。从经验上看,销售量x1与消费者人均可支配收入x2之间应该有正相关,简单相关系数r12应该是正的。但是如果你计算出的r12是个负数也不要感到惊讶,这是因为还有其它没有被固定的变量在发挥影响,例如商品价格x3在这期间大幅提高了。反映固定x3后x1与x2相关程度的偏相关系数r12;3会是个正数。3.6 相关阵与偏相关系数相关阵与偏相关系数 1两个自变量的偏判定系数两个自变量的偏判定系数二元线性回归模型为:yi=0+1xi1+2xi2+i记SSE(x2)是模型中只含有自变量x2时y的残差平方和,SSE(x1,x2)是模型中同时含有自变量x1和x2时y的残差平方和。因此模型中已含有x2时再加入x1使y的剩余变差的相对减小量为:此即模型中已含有x2时,y与x1的偏判定系数。3.6 相关阵与偏相关系数相关阵与偏相关系数 1两个自变量的偏判定系数两个自变量的偏判定系数同样地,模型中已含有x1时,y与x2的偏判定系数为:3.6 相关阵与偏相关系数相关阵与偏相关系数 2.一般情况一般情况在模型中已含有x2,xp时,y与x1的偏判定系数为:3.6 相关阵与偏相关系数相关阵与偏相关系数 三、偏相关系数三、偏相关系数 偏判定系数的平方根称为偏相关系数,其符号与相应的回归系数的符号相同。 例例3.2 研究北京市各经济开发区经济发展与招商投资的关系,因变量y为各开发区的销售收入(百万元),选取两个自变量, x1为截至1998年底各开发区累计招商数目, x2为招商企业注册资本(百万元)。表中列出了至1998年底招商企业注册资本x2在5亿至50亿元的15个开发区的数据。3.6 相关阵与偏相关系数相关阵与偏相关系数 三、偏相关系数三、偏相关系数 北京开北京开发区数据区数据x1x2yx1x2y253547.79553.967671.13122.2420896.34208.555322863.3214006750.323.175116046410012087.052815.440862.757.55251639.311052.12187672.99224.188253357.73427122901.76538.94120808.47442.82743546.182442.7928520.2770.123.6 相关阵与偏相关系数相关阵与偏相关系数 三、偏相关系数三、偏相关系数 偏相关系数表偏相关系数表3.6 相关阵与偏相关系数相关阵与偏相关系数 三、偏相关系数三、偏相关系数 用y与x1做一元线性回归时,x1能消除y的变差SST的比例为再引入x2时,x2能消除剩余变差SSE(X1)的比例为因而自变量x1和x2消除y变差的总比例为=1-(1-0.651)(1-0.546)=0.842=84.2%。这个值84.2%恰好是y对x1和x2二元线性回归的判定系数R23.6 相关阵与偏相关系数相关阵与偏相关系数 三、偏相关系数三、偏相关系数 对任意p个变量x1,x2,xp定义它们之间的偏相关系数其中符号ij表示相关阵第i行第j列元素的代数余子式验证3.7 本章小结与评注本章小结与评注 例3.3 中国民航客运量的回归模型。y民航客运量(万人),x1国民收入(亿元),x2消费额(亿元),x3铁路客运量(万人),x4民航航线里程(万公里),x5来华旅游入境人数(万人)。根据1994年统计摘要获得1978-1993年统计数据 3.7 本章小结与评注本章小结与评注 年份yx1x2x3x4x51978231301018888149114.89180.921979298335021958638916.00420.391980343368825319220419.53570.251981401394127999530021.82776.711982445425830549992223.27792.4319833914736335810604422.91947.7019845545652390511035326.021285.2219857447020487911211027.721783.3019869977859555210857932.432281.95198713109313638611242938.912690.231988144211738803812264537.383169.481989128313176900511380747.192450.14199016601438496639571250.682746.201991217816557109699508155.913335.651992288620223129859969383.663311.5019933383248821594910545896.084152.703.7 本章小结与评注本章小结与评注 3.7 本章小结与评注本章小结与评注 3.7 本章小结与评注本章小结与评注 第四章第四章 违背基本假设的情况违背基本假设的情况 4.1 异方差性产生的背景和原因 4.2 一元加权最小二乘估计4.3 多元加权最小二乘估计4.4 自相关性问题及其处理 4.5 异常值与强影响点 4.6 本章小结与评注 第四章第四章 违背基本假设的情况违背基本假设的情况 Gauss-Markov条件 4.1 异方差性产生的背景和原因异方差性产生的背景和原因 一、异方差产生的原因一、异方差产生的原因 例例4.1 4.1 居民收入与消费水平有着密切的关系。用xi表示第i户的收入量,yi表示第i户的消费额,一个简单的消费模型为:yi=0+1xi+i,i=1,2,n低收入的家庭购买差异性比较小,高收入的家庭购买行为差异就很大。导致消费模型的随机项i具有不同的方差。4.1 异方差性产生的背景和原因异方差性产生的背景和原因 二、异方差性带来的问题二、异方差性带来的问题 当存在异方差时,普通最小二乘估计存在以下问题:(1)参数估计值虽是无偏的,但不是最小方差线性无偏估计;(2)参数的显著性检验失效;(3)回归方程的应用效果极不理想。4.2 一元加权最小二乘估计一元加权最小二乘估计 一、异方差性的检验一、异方差性的检验(一)残差图分析法(一)残差图分析法 图2.5(b)存在异方差4.2 一元加权最小二乘估计一元加权最小二乘估计 一、异方差性的检验一、异方差性的检验(二)等级相关系数法(二)等级相关系数法 等级相关系数检验法又称斯皮尔曼(Spearman)检验,是一种应用较广泛的方法。这种检验方法既可用于大样本,也可用于小样本。进行等级相关系数检验通常有三个步骤。 第一步,作y关于x的普通最小二乘回归,求出ei的估计值,即ei的值。4.2 一元加权最小二乘估计一元加权最小二乘估计 (二)等级相关系数法(二)等级相关系数法 第二步,取ei的绝对值,分别把xi和|ei|按递增(或递减)的次序分成等级,按下式计算出等级相关系数:其中,n为样本容量,di为对应于xi和|ei|的等级的差数。4.2 一元加权最小二乘估计一元加权最小二乘估计 (二)等级相关系数法(二)等级相关系数法 第三步,做等级相关系数的显著性检验。在n8的情况下,用下式对样本等级相关系数rs进行t检验。检验统计量为:如果tt/2(n-2)可认为异方差性问题不存在,如果tt/2(n-2),说明xi与|ei|之间存在系统关系,异方差性问题存在。4.2 一元加权最小二乘估计一元加权最小二乘估计 例例4.3 4.3 设某地区的居民收入与储蓄额的历史统计数据如表4.1。(1)用普通最小二乘法建立储蓄y与居民收入x的回归方程,并画出残差散点图;(2)诊断该问题是否存在异方差;序号 储蓄y(万元) 居民收入x(万元) 1 2 3 3126410590230087779210995438200 4.2 一元加权最小二乘估计一元加权最小二乘估计 序号储蓄y居民收入xxi等级残差ei|ei|ei|等级di126487771169.0169.016-15225210592102-26.626.63-1139099543-104.6104.67-4164131105084-110.5110.58-4165122109795-159.4159.415-101006107119126-253.4253.423-172897406127477-25.125.1252585031349988.28.217499431142699-129.0129.0900105881552210-78.078.04636118981673011129.7129.71011129501766312102.7102.76636137791857513-145.5145.514-11148191963514-195.3195.319-525151222211631578.478.45101003123003820031-286.1286.1247494.2 一元加权最小二乘估计一元加权最小二乘估计 图图4.1 残差图残差图4.2 一元加权最小二乘估计一元加权最小二乘估计 用用SPSSSPSS计算等级相关系数。计算等级相关系数。 4.2 一元加权最小二乘估计一元加权最小二乘估计 (2 2)计算等级相关系数。)计算等级相关系数。 4.2 一元加权最小二乘估计一元加权最小二乘估计 Spearman等级相关系数可以反映非线性相关的情况,Pearson简单相关系数不能反映非线性相关的情况。例如x与y的取值如下,序号1 2 3 4 5 6 7 8 9 10x1 2 3 4 5 6 7 8 9 10y1 4 9 16 25 36 49 64 81 100容易计算出y与x的简单相关系数r=0.9746,而y与x的等级相关系数rs=1具有完全的曲线相关。4.2 一元加权最小二乘估计一元加权最小二乘估计 二、一元加权最小二乘估计二、一元加权最小二乘估计消除异方差性的方法通常有:l 加权最小二乘法,l Box-Cox变换法,l 方差稳定性变换法加权最小二乘法(Weighted Least Square,简记为WLS)是一种最常用的消除异方差性的方法。 4.2 一元加权最小二乘估计一元加权最小二乘估计 二、一元加权最小二乘估计二、一元加权最小二乘估计一元线性回归普通最小二乘法的残差平方和为: 一元线性回归的加权最小二乘的离差平方和为: 4.2 一元加权最小二乘估计一元加权最小二乘估计 加权最小二乘估计为: 其中, 是自变量的加权平均; 是因变量的加权平均。 4.2 一元加权最小二乘估计一元加权最小二乘估计 观测值的权数应该是观测值误差项方差的倒数,即在实际问题中,误差项的方差是未知的,常与自变量x的幂函数xm成比例,其中m是待定的未知参数。此时权函数为4.2 一元加权最小二乘估计一元加权最小二乘估计 三、寻找最优权函数三、寻找最优权函数利用SPSS软件可以确定幂指数m的最优取值。依次点选Analyze-Regression-Weight Estimation进入估计权函数对话框,默认的幂指数m的取值为m=-2.0,-1.5,-1.0,-0.5,0,0.5,1.0,1.5,2.0。先将因变量y与自变量x选入各自的变量框,再把x选入Weight变量框,幂指数(Power)取默认值,计算结果如下(格式略有变动):4.2 一元加权最小二乘估计一元加权最小二乘估计 Log-likelihood Function = -224.258830 POWER value = -2.000Log-likelihood Function = -221.515008 POWER value = -1.500Log-likelihood Function = -218.832193 POWER value = -1.000Log-likelihood Function = -216.252339 POWER value = -.500Log-likelihood Function = -213.856272 POWER value = .000Log-likelihood Function = -211.773375 POWER value = .500Log-likelihood Function = -210.185972 POWER value = 1.000Log-likelihood Function = -209.316127 POWER value = 1.500Log-likelihood Function = -209.379714 POWER value = 2.000The Value of POWER Maximizing Log-likelihood Function = 1.500Log-likelihood Function = -209.316127 4.2 一元加权最小二乘估计一元加权最小二乘估计 Multiple R .96744R Square .93595Adjusted R Square .93374Standard Error .12532 DF Sum of Squares Mean Square F SigRegression 1 6.6548981 6.6548981 423.741 0.000Residuals 29 .4554477 .0157051Analysis of Variance:Variable B SE B Beta T Sig TX .08793 .004272 .967443 20.585 .0000(Constant) -719.12 78.316 -9.182 .0000Variables in the Equation4.2 一元加权最小二乘估计一元加权最小二乘估计 幂指数m的最优取值为m=1.5。加权最小二乘的r2=0.9360,F值=423.741;普通最小二乘的r2=0.912,F值=300.732。说明加权最小二乘估计的效果好于普通最小二乘的效果。4.2 一元加权最小二乘估计一元加权最小二乘估计 图图4.2 加权最小二乘残差图残差图加权最小二乘残差图残差图4.2 一元加权最小二乘估计一元加权最小二乘估计 序号小方差组126487771.2161E-06169211210592101.1314E-06-271439099541.0069E-06-105-664131105089.2837E-07-111-745122109798.6927E-07-159-1246107119127.6917E-07-253-2217406127476.9485E-07-2548503134996.3760E-078359431142695.8669E-07-129-10510588155225.1710E-07-78-584.2 一元加权最小二乘估计一元加权最小二乘估计 序号中等方差组11898167304.6212E-0713014612950176634.2599E-0710311613779185753.9501E-07-146-13514819196353.6346E-07-195-188151222211633.2481E-077880161702228802.8895E-07413409171578241272.6684E-07183176181654256042.4408E-07134122191400265002.3181E-07-195-211201829276702.1726E-07134115212200283002.1005E-074524314.2 一元加权最小二乘估计一元加权最小二乘估计 序号大方差组222017274302.2012E-07343324232105295601.9676E-07250225241600281502.1173E-07-135-156252250321001.7388E-07180147262420325001.7068E-07317281272570352501.5110E-07234190281720335001.6309E-07-468-507291900360001.4640E-07-500-546302100362001.4519E-07-317-364312300382001.3394E-07-286-3404.3 多元加权最小二乘多元加权最小二乘 当误差项i存在异方差时,加权离差平方和为记 加权最小二乘估计WLS的矩阵表达4.3 多元加权最小二乘估计多元加权最小二乘估计 通常取权函数W为某个自变量xj(j=1,2,,p)的幂函数,即, 在x1,x2,xp这p个自变量中取哪一个? 这只需计算每个自变量xj与普通残差的等级相关系数,选取等级相关系数最大的自变量构造权函数。4.3 多元加权最小二乘估计多元加权最小二乘估计 例例4.4 4.4 续例3.2,研究北京市各经济开发区经济发展与招商投资的关系。 因变量y为各开发区的销售收入(百万元), x1为截至1998年底各开发区累计招商数目, x2为招商企业注册资本(百万元)。 计算出普通残差的绝对值abse=|ei|与x1、x2的等级相关系数,re1=0.443,re2=0.721,因而选取x2构造权函数。4.3 多元加权最小二乘估计多元加权最小二乘估计 4.3 多元加权最小二乘估计多元加权最小二乘估计 仿照例4.3,用Weight Estimate估计幂指数m,得m的最优值为m=2。 由于m=2是在默认范围-2,2的边界,因而应该扩大范围重新计算。取m从1到5,步长仍为0.5,得m的最优值为m=2.54.3 多元加权最小二乘估计多元加权最小二乘估计 Multiple R .92163R Square .84941Adjusted R Square .82431Standard Error .03238 DF Sum of Squares Mean Square F SigRegression 2 .07096521 .03548261 33.84 0.000Residuals 12 .01258145 .00104845Variable B SE B Beta T Sig TX1 1.696439 .404370 .587146 4.195 .0012X2 .470312 .149306 .440853 3.150 .0084(Constant) -266.9621 106.742 -2.501 .02794.3 多元加权最小二乘估计多元加权最小二乘估计 加权最小二乘的R2=0.84941,F值=33.84;普通最小二乘的R2=0.842,F值=31.96。加权最小二乘估计的拟合效果略好于普通最小二乘。加权最小二乘的回归方程为: =-266.96+1.696x1+0.4703x2普通最小二乘的回归方程为: =-327.039+2.036x1+0.468x24.3 多元加权最小二乘估计多元加权最小二乘估计 方差稳定变换 4.3 多元加权最小二乘估计多元加权最小二乘估计 Box-Cox变换 4.4 自相关性问题及其处理自相关性问题及其处理 如果一个回归模型的随机误差项cov(i ,j)0则称随机误差项之间存在着自相关现象。 这里的自相关现象不是指两个或两个以上的变量之间的相关,而指的是一个变量前后期数值之间存在的相关关系。4.4 自相关性问题及其处理自相关性问题及其处理 一、自相关性产生的背景和原因一、自相关性产生的背景和原因 1.遗漏关键变量时会产生序列的自相关性。 2.经济变量的滞后性会给序列带来自相关性。 3.采用错误的回归函数形式也可能引起自相关性。 4.蛛网现象(Cobweb phenomenon)可能带来序列的自相关性。 5.因对数据加工整理而导致误差项之间产生自相关性。 4.4 自相关性问题及其处理自相关性问题及其处理二、自相关性带来的问题二、自相关性带来的问题 1.参数的估计值不再具有最小方差线性无偏性。2.均方误差MSE可能严重低估误差项的方差。3.容易导致对t值评价过高,常用的F检验和t检验失效。如果忽视这一点,可能导致得出回归参数统计检验为显著,但实际上并不显著的严重错误结论。 4.当存在序列相关时,仍然是的无偏估计量,但在任一特定的样本中, 可能严重歪曲的真实情况,即最小二乘估计量对抽样波动变得非常敏感。 5.如果不加处理地运用普通最小二乘法估计模型参数,用此模型进行预测和结构分析将会带来较大的方差甚至错误的解释。4.4 自相关性问题及其处理自相关性问题及其处理 三、自相关性的诊断三、自相关性的诊断 (一)图示检验法 1. 绘制(et,et-1)的散点图。4.4 自相关性问题及其处理自相关性问题及其处理 三、自相关性的诊断三、自相关性的诊断 (一)图示检验法 2.按照时间顺序绘制回归残差项et的图形。4.4 自相关性问题及其处理自相关性问题及其处理 三、自相关性的诊断三、自相关性的诊断 (二)自相关系数法误差序列1,2,n的自相关系数定义为自相关系数的估计值为 4.4 自相关性问题及其处理自相关性问题及其处理 三、自相关性的诊断三、自相关性的诊断 (三)D.W检验 D.W检验是J.Durbin和G.S.Watson于1951年提出的一种适用于小样本的一种检验方法。 D.W检验验只能用于检验随机扰动项具有一阶自回归形式的序列相关问题。 这种检验方法是建立计量经济学模型中最常用的方法,一般的计算机软件都可自动产生出D.W值。4.4 自相关性问题及其处理自相关性问题及其处理 (三)D.W检验 随机扰动项的一阶自回归形式为: t=t-1+ut 其中ut是不相关序列。 为了检验序列的相关性,构造的假设是H0:=04.4 自相关性问题及其处理自相关性问题及其处理 (三)D.W检验 定义D.W统计量为:4.4 自相关性问题及其处理自相关性问题及其处理 (三)D.W检验 得D.W的取值范围为:0D.W44.4 自相关性问题及其处理自相关性问题及其处理(三)D.W检验 因而D.W值与 的对应关系为D.W误差项的自相关性-14完全负自相关(-1,0)(2,4)负自相关02无自相关(0,1)(0,2)正自相关10完全正自相关4.4 自相关性问题及其处理自相关性问题及其处理(三)D.W检验 根据样本容量n和解释变量的数目k(这里包括常数项),查D.W分布表,得临界值dL和dU,然后依下列准则考察计算得到的DW值,以决定模型的自相关状态:0D.WdL,误差项1,2,n间存在正相关; dLD.WdU,不能判定是否有自相关;dUD.W4-dU,误差项1,2,n间无自相关;4-dUD.W4-dL,不能判定是否有自相关;4-dLD.W4,误差项1,2,n间存在负相关。4.4 自相关性问题及其处理自相关性问题及其处理(三)D.W检验 4.4 自相关性问题及其处理自相关性问题及其处理 4.4 自相关性问题及其处理自相关性问题及其处理(三)D.W检验 D.W检验尽管有着广泛的应用,但也有明显的缺点和局限性。 1. D.W检验有一个不能确定的区域,一旦D.W值落在这个区域,就无法判断。这时,只有增大样本容量或选取其他方法。 2. D.W统计量的上、下界表要求n15,这是因为样本如果再小,利用残差就很难对自相关的存在性作出比较正确的诊断。 3. D.W检验不适应随机项具有高阶序列相关的检验。4.4 自相关性问题及其处理自相关性问题及其处理四、自相关问题的处理方法四、自相关问题的处理方法 (一)迭代法 以一元线性回归模型为例,设一元线性回归模型的误差项存在一阶自相关 yt=0+1xt+tt=t-1+ut4.4 自相关性问题及其处理自相关性问题及其处理(一)迭代法 根据回归模型 yt=0+1xt+t有 yt-1=0+1xt-1+t-1则有 (yt-yt-1)=(0-0)+1(xt-xt-1)+(t-t-1)令 得4.4 自相关性问题及其处理自相关性问题及其处理四、自相关问题的处理方法四、自相关问题的处理方法 (一)迭代法 其中自相关系数用公式 估计。用变换因变量与变换自变量作普通最小二乘回归。如果误差项确实是一阶自相关,通过以上变换,回归模型已经消除自相关。4.4 自相关性问题及其处理自相关性问题及其处理(一)迭代法 实际问题中,有时误差项并不是简单的一阶自相关,而是更复杂的自相关形式,(4.24)式的误差项ut可能仍然存在自相关,这就需要进一步对(4.24)式的误差项ut做D.W检验,以判断ut是否存在自相关,如果检验表明误差项ut不存在自相关,迭代法到此结束。如果检验表明误差项ut存在自相关,那末对回归模型(4.24)式重复用迭代法,这个过程可能要重复几次,直至最终消除误差项自相关。这种迭代消除自相关的过程正是迭代法名称的由来。4.4 自相关性问题及其处理自相关性问题及其处理(二)差分法一阶差分法通常适用于原模型存在较高程度的一阶自相关的情况。在迭代法(4.24)式中,当=1时,得 (yt-yt-1)=1(xt-xt-1)+(t-t-1) 以yt=yt-yt-1,xt=xt-xt-1代之,得yt=1xt+ut是不带有常数项的回归方程 4.4 自相关性问题及其处理自相关性问题及其处理(二)差分法 一阶差分法的应用条件是自相关系数=1,在实际应用中,接近1时我们就采用差分法而不用迭代法,这有两个原因。 第一,迭代法需要用样本估计自相关系数,对的估计误差会影响迭代法的使用效率; 第二,差分法比迭代法简单,人们在建立时序数据的回归模型时,更习惯于用差分法。 4.4 自相关性问题及其处理自相关性问题及其处理(三)科克伦奥克特(Cochrane-Orcutt)迭代 方法(一)中的迭代法近似取可以使用其他迭代法给出的更精确的估计,最常用的是科克伦奥克特迭代法。 以一元线性回归为例,方法(一)的迭代是1步迭代,根据1步迭代计算出的 和回归系数,由(4.18)式的回归方程重新计算残差,得到新的残差序列后就可以计算出新的DW值,新的 和回归系数,如果新的 与前一次迭代的相差很小,低于给定的界限,就停止迭代,否则继续下一步迭代。4.4 自相关性问题及其处理自相关性问题及其处理(三)科克伦奥克特(Cochrane-Orcutt)迭代 有一点需要说明的是,迭代的起始步骤认为是从第0步开始的,就是用(4.18)式做普通最小二乘回归,相当于认为r =0。这样方法(一)中的迭代实际上包括第0步和第1步共两步迭代过程,也称为科克伦奥克特两步法。通常情况下,科克伦奥克特多步迭代与两步迭代相差不大。4.4 自相关性问题及其处理自相关性问题及其处理(四)普莱斯温斯登(Prais-Winsten)迭代法 采用迭代法用(4.23)式计算迭代值时不能计算第1期的迭代值,因此样本量从n减少到n-1。对大样本量时这无足轻重,但是当样本量较小时每一个样本值都是宝贵的。为此可以使用普莱斯温斯登变换,对t=1,令, 经过普莱斯温斯登变换的迭代法就称为普莱斯温斯登迭代法。4.4 自相关性问题及其处理自相关性问题及其处理五、五、 自相关实例分析自相关实例分析【例4.5】 续例2.24.4 自相关性问题及其处理自相关性问题及其处理年份序号xtytet198019811982198319841985198619871988198919901991199219931994199519961997199812345678910111213141516171819460489525580692853956110413551512163418792287293939234854557660536392234.75259.26280.58305.97347.15433.53481.36545.40687.51756.27797.08890.661063.391323.221736.322224.592627.062819.362958.18-12.11-.814.134.47-5.337.758.695.3533.1830.4715.73-2.22-15.24-52.24-87.12-22.7051.0726.2110.70229.56249.20283.90364.88462.71474.91564.82732.34747.78781.23957.421227.241649.132265.402641.432838.342908.142978.11126.86134.36147.72174.59237.74236.85273.91379.90368.52370.54441.11561.05723.47990.021245.311372.391337.701368.075.924.462.00-8.0810.454.00.0429.6211.19-2.05-11.85-14.98-45.02-59.5824.1861.43-5.09-6.644.4 自相关性问题及其处理自相关性问题及其处理4. 方法比较自回归方法DW迭代法0.56437.20216.2200.4561.37226.96差分法00.4651.59629.34精确最大似然0.54433.53215.2910.45727.055科克伦奥克特0.56337.21416.2630.4561.38127.840普莱斯温斯登0.57033.11014.2370.4571.38527.0394.4 自相关性问题及其处理自相关性问题及其处理对回归模型 yt=0+1xt+t做变换得其中问题:为什么变换后的回归模型参数估计性质好4.4 自相关性问题及其处理自相关性问题及其处理自相关的危害tutet=et-1+uty=2+0.5t+et03510.53.562-0.72.85.830.33.16.6403.17.15-2.30.85.36-1.9-1.13.970.2-0.94.68-0.3-1.24.890.2-15.510-0.1-1.15.94.4 自相关性问题及其处理自相关性问题及其处理自相关的危害4.4 自相关性问题及其处理自相关性问题及其处理5 预测以迭代法为例说明回归预测值和残差的计算方法。 4.4 自相关性问题及其处理自相关性问题及其处理5 预测注意:在自相关回归中,回归预测值不是用其一般性的公式为 SPSS软件提供的3种方法可以直接保存回归预测值和残差 计算4.4 自相关性问题及其处理自相关性问题及其处理4.4 自相关性问题及其处理自相关性问题及其处理例如,取x20=6600,则第二种方法4.5 异常值与强影响值异常值与强影响值 异常值分为两种情况: 一种是关于因变量y异常; 另一种是关于自变量x异常。4.5 异常值与强影响值异常值与强影响值 一、关于因变量一、关于因变量y的异常值的异常值标准化残差学生化残差4.5 异常值与强影响值异常值与强影响值 4.5 异常值与强影响值异常值与强影响值 可以证明: 4.5 异常值与强影响值异常值与强影响值 4.5 异常值与强影响值异常值与强影响值 二、关于自变量二、关于自变量x的异常值的异常值4.5 异常值与强影响值异常值与强影响值 二、关于自变量二、关于自变量x的异常值的异常值4.5 异常值与强影响值异常值与强影响值 二、关于自变量二、关于自变量x的异常值的异常值4.5 异常值与强影响值异常值与强影响值 二、关于自变量二、关于自变量x的异常值的异常值 虽然强影响点并不总是y的异常值点,不能单纯根据杠杆值hii的大小判断强影响点是否异常,但是我们对强影响点应该有足够的重视。为此引入库克距离,用来判断强影响点是否为y的异常值点。库克距离的计算公式为: 4.5 异常值与强影响值异常值与强影响值 二、关于自变量二、关于自变量x的异常值的异常值 对于库克距离,判断其大小的方法比较复杂,一个粗略的标准是 当Di1时, 认为是异常值点。4.5 异常值与强影响值异常值与强影响值 三、异常值实例分析三、异常值实例分析 以例3.2的北京开发区的数据为例,做异常值的诊断分析。分别计算普通残差ei,学生化残差SREi,删除残差e(i),删除学生化残差SRE(i),杠杆值chii,库克距离Di,见表4.104.5 异常值与强影响值异常值与强影响值 4.5 异常值与强影响值异常值与强影响值 绝对值最大的学生化残差为SRE15=2.613,小于3。 绝对值最大的删除学生化残差为SRE(15)=3.810,因而根据学生化残差诊断认为第15个数据为异常值。其中心化杠杆值chii=0.339位于第3大,库克距离 Di=1.555位于第一大。由于4.5 异常值与强影响值异常值与强影响值 异常值原因异常值消除方法1.数据登记误差,存在抄写或录入的错误重新核实数据2.数据测量误差重新测量数据3.数据随机误差删除或重新观测异常值数据4.缺少重要自变量增加必要的自变量5.缺少观测数据增加观测数据,适当扩大自变量取值范围6.存在异方差采用加权线性回归7.模型选用错误,线性模型不适用改用非线性回归模型4.5 异常值与强影响值异常值与强影响值 4.5 异常值与强影响值异常值与强影响值 序号x1x2yeiSREie(i)SRE(i)chiiDi1253547.79553.96-890-1.149-1165-1.16580.23410.1360220896.34208.55200.135230.12930.06040.000936750.323.10-93-0.795-110-0.78240.05010.0385410012087.052815.404031.1757161.19630.42940.358155251639.311052.12-343-1.135-429-1.14980.18640.108168253357.703427.007150.9378410.93200.14710.05157120808.47442.821260.9491390.94480.00930.0318828520.2770.12450.717740.70150.13390.111597671.13122.24620.617760.60080.04630.0287105322863.321400.00-582-0.926-677-0.91990.13660.046611751160.00464.00580.281650.27020.07480.00331240862.757.50-199-1.391-223-1.45440.03240.076513187672.99224.18-143-1.611-224-1.74240.22720.495114122901.76538.941751.1371891.15280.01120.036015743546.182442.799161.17311791.19390.22090.13174.5 异常值与强影响值异常值与强影响值 采用加权最小二乘回归后,删除学生化残差SRE(i)的绝对值最大者为|SRE(13)|=1.7424,库克距离都在0.5至1.0之间,说明数据没有异常值。这个例子也说明了用加权最小二乘法处理异方差性问题的有效性。第五章第五章 自变量的选择与逐步回归自变量的选择与逐步回归 5.1 自变量选择对估计和预测的影响5.2 所有子集回归5.3 逐步回归5.4 本章小结与评注 第第5章章 自变量选择与逐步回归自变量选择与逐步回归 从20世纪60年代开始,关于回归自变量的选择成为统计学中研究的热点问题。统计学家们提出了许多回归选元的准则,并提出了许多行之有效的选元方法。 本章从回归选元对回归参数估计和预测的影响开始,介绍自变量选择常用的几个准则;扼要介绍所有子集回归选元的几个方法;详细讨论逐步回归方法及其应用。5.1 自变量选择对估计和预测的影响自变量选择对估计和预测的影响 一、全模型和选模型一、全模型和选模型 设研究某一实际问题涉及到对因变量有影响的因素共有m个,回归模型为:y=0+1x1+2x2+mxm+ (5.1)称为全回归模型。 如果我们从所有可供选择的m个变量中挑选出p个,记为x1,x2,,xp,构成的回归模型为:y=0p+1px1+2px2+ppxp+p (5.2) 称模型(5.2)式为选模型。5.1 自变量选择对估计和预测的影响自变量选择对估计和预测的影响 一、全模型和选模型一、全模型和选模型 模型选择不当会给参数估计和预测带来什么影响?下面我们将分别给予讨论。 为了方便,我们把模型(5.1)式的参数估计向量 和2的估计记为:把模型(5.2)式的参数估计向量记为5.1 自变量选择对估计和预测的影响自变量选择对估计和预测的影响 二、自变量选择对预测的影响二、自变量选择对预测的影响 关于自变量选择对预测的影响可以分成两种情况:第一种情况是全模型正确而误用了选模型;第二种情况是选模型正确而误用了全模型式。 5.1 自变量选择对估计和预测的影响自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况(一)全模型正确而误用选模型的情况5.1 自变量选择对估计和预测的影响自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况(一)全模型正确而误用选模型的情况5.1 自变量选择对估计和预测的影响自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况(一)全模型正确而误用选模型的情况5.1 自变量选择对估计和预测的影响自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况(一)全模型正确而误用选模型的情况5.1 自变量选择对估计和预测的影响自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况(一)全模型正确而误用选模型的情况5.1 自变量选择对估计和预测的影响自变量选择对估计和预测的影响 (二)选模型正确而误用全模型的情况(二)选模型正确而误用全模型的情况5.1 自变量选择对估计和预测的影响自变量选择对估计和预测的影响 (二)选模型正确而误用全模型的情况(二)选模型正确而误用全模型的情况5.1 自变量选择对估计和预测的影响自变量选择对估计和预测的影响 (二)选模型正确而误用全模型的情况(二)选模型正确而误用全模型的情况 上述结论告诉我们,一个好的回归模型,并不是考虑的自变量越多越好。在建立回归模型时,选择自变量的基本指导思想是“少而精”。哪怕我们丢掉了一些对因变量y还有些影响的自变量,由选模型估计的保留变量的回归系数的方差,要比由全模型所估计的相应变量的回归系数的方差小。而且,对于所预测的因变量的方差来说也是如此。丢掉了一些对因变量y有影响的自变量后,所付出的代价是估计量产生了有偏性。然而,尽管估计量是有偏的,但预测偏差的方差会下降。另外,如果保留下来的自变量有些对因变量无关紧要,那么,方程中包括这些变量会导致参数估计和预测的有偏性和精度降低。5.2 所有子集回归所有子集回归 一、所有子集的数目一、所有子集的数目 有m个可供选择的变量x1,x2,,xm,由于每个自变量都有入选和不入选两种情况,这样y关于这些自变量的所有可能的回归方程就有2m-1个。 从另一个角度看 5.2 所有子集回归所有子集回归 二、关于自变量选择的几个准则二、关于自变量选择的几个准则 从数据与模型拟合优劣的直观考虑出发,认为残差平方和SSE最小的回归方程就是最好的。还曾用复相关系数R来衡量回归拟合的好坏。然而这两种方法都有明显的不足,这是因为: 5.2 所有子集回归所有子集回归 准则准则1 自由度调整复相关系数达到最大自由度调整复相关系数达到最大 5.2 所有子集回归所有子集回归 准则准则1 自由度调整复相关系数达到最大自由度调整复相关系数达到最大 从另外一个角度考虑回归的拟合效果,回归误差项方差2的无偏估计为:此无偏估计式中也加入了惩罚因子n-p-15.2 所有子集回归所有子集回归 准则准则1 自由度调整复相关系数达到最大自由度调整复相关系数达到最大5.2 所有子集回归所有子集回归 准则准则2 赤池信息量赤池信息量AIC达到最小达到最小 AIC准则是日本统计学家赤池(Akaike)1974年根据极大似然估计原理提出的一种较为一般的模型选择准则,人们称它为Akaike信息量准则 (Akaike Information Criterion,简记为AIC)。AIC准则既可用来作回归方程自变量的选择,又可用于时间序列分析中自回归模型的定阶上。由于该方法的广泛应用,使得赤池乃至日本统计学家在世界的声誉大增。5.2 所有子集回归所有子集回归 准则准则2 赤池信息量赤池信息量AIC达到最小达到最小 设回归模型的似然函数为L(,x), 的维数为p,x为样本,在回归分析中样本为y=(y1,y2,yn),则AIC定义为:5.2 所有子集回归所有子集回归 准则准则2 赤池信息量赤池信息量AIC达到最小达到最小 假定回归模型的随机误差项遵从正态分布,即 N(0,2)对数似然函数为5.2 所有子集回归所有子集回归 准则准则2 赤池信息量赤池信息量AIC达到最小达到最小 带入公式中 这里似然函数中的未知参数个数为p+2,略去与p无关的常数,得回归模型的AIC公式为AIC=nln(SSE)+2p 对每一个回归子集计算AIC,其中AIC最小者所对应的模型是“最优”回归模型5.2 所有子集回归所有子集回归 准则准则4 Cp统计量达到最小统计量达到最小 1964年马勒斯 (Mallows)从预测的角度提出一个可以用来选择自变量的统计量Cp统计量。根据性质5,即使全模型正确,但仍有可能选模型有更小的预测误差。Cp正是根据这一原理提出来的。5.2 所有子集回归所有子集回归 准则准则4 Cp统计量达到最小统计量达到最小 考虑在n个样本点上,用选模型(5.2)式作回报预测时,预测值与期望值的相对偏差平方和为:5.2 所有子集回归所有子集回归 准则准则4 Cp统计量达到最小统计量达到最小 可以证明,Jp的期望值是略去无关的常数2,据此构造出Cp统计量为5.2 所有子集回归所有子集回归 准则准则4 Cp统计量达到最小 5.2 所有子集回归所有子集回归 例例5.1 y表示某种消费品的销售额,x1表示居民可支配收入,x2表示该类消费品的价格指数,x3表示其他消费品平均价格指数。表5.1给出了某地区18年某种消费品销售情况资料,试建立该地区该消费品销售额预测方程。5.2 所有子集回归所有子集回归 序号序号x1(元)(元)x2(%)x3(%)(百万元)(百万元)181.285.087.07.8282.992.094.08.4383.291.595.08.7485.992.995.59.0588.093.096.09.6699.996.097.010.37102.095.097.510.68105.395.697.010.99117.798.998.011.310126.4101.5101.212.311131.2102.0102.513.512148.0105.0104.014.213153.0106.0105.914.914161.0109.0109.515.915170.0112.0111.018.516174.0112.5112.019.517185.0113.0112.319.918189.0114.0113.020.5表表5.15.2 所有子集回归所有子集回归 这个例子中,n=18,m=3,所有的自变量子集有2m-1=7个,即有7个回归子集。自变量子集R2AICCpx10.97280.971140.064.134x20.95660.953948.4816.151x30.95080.947750.7420.452x1,x20.97470.971440.764.734x1,x30.97840.975537.932.005x2,x30.95760.951950.0917.461x1,x2,x30.98110.977137.522.000表5.25.2 所有子集回归所有子集回归 由表5.2的3项指标均可看到x1,x2,x3是“最优”子集,x1,x3是“次优”子集。回归方程分别为5.2 所有子集回归所有子集回归 三、用三、用SAS软件寻找最优子集软件寻找最优子集 SAS软件共有三个基本窗口,分别为:(1)程序编辑窗(PROGRAM EDITOR),用来编辑程序。(2)日志窗(LOG),显示已执行的语句和系统信息,包括错误信息。(3)输出窗(OUTPUT)显示程序运行结果。 用主菜单的Window命令可以实现在三个窗口间的转换。 5.2 所有子集回归所有子集回归 data data1;input x1-x12 y;cards;1.94 4.5 154.45 207.33 246.87 277.64 135.79 30.58 110.67 80.83 51.83 14.09 23840.33 6.49 133.16 127.29 120.17 114.88 81.21 14.05 35.7 16 27.1 2.93 202;proc reg;model y=x1-x12/selection=adjrsq;run;5.2 所有子集回归所有子集回归 以下是部分输出结果: Adjusted R-square Variables in ModelAdjusted R-square Variables in Model R-square In R-square In 0.82985517 0.86388414 6 X3 X5 X8 X9 X10 X11 0.82985517 0.86388414 6 X3 X5 X8 X9 X10 X11 0.82692850 0.86731185 7 X3 X5 X6 X8 X9 X10 X11 0.82692850 0.86731185 7 X3 X5 X6 X8 X9 X10 X11 0.82487399 0.85989919 6 X3 X6 X8 X9 X10 X11 0.82487399 0.85989919 6 X3 X6 X8 X9 X10 X11 0.82366778 0.86481197 7 X3 X4 X5 X8 X9 X10 X11 0.82366778 0.86481197 7 X3 X4 X5 X8 X9 X10 X11 0.82343275 0.86463178 7 X3 X5 X8 X9 X10 X11 X12 0.82343275 0.86463178 7 X3 X5 X8 X9 X10 X11 X12 0.82311828 0.86439068 7 X3 X5 X7 X8 X9 X10 X11 0.82311828 0.86439068 7 X3 X5 X7 X8 X9 X10 X115.3 逐步回归逐步回归 一、问题的提出及逐步回归的思想一、问题的提出及逐步回归的思想 自变量的所有可能子集构成2m-1个回归方程,当可供选择的自变量不太多时,用前边的方法可以求出一切可能的回归方程,然后用几个选元准则去挑出“最好”的方程,但是当自变量的个数较多时,要求出所有可能的回归方程是非常困难的。为此,人们提出了一些较为简便、实用、快速的选择“最优”方程的方法。人们所给出的方法各有优缺点,至今还没有绝对最优的方法,目前常用的方法有“前进法”、“后退法”、“逐步回归法”,而逐步回归法最受推崇。5.3 逐步回归逐步回归 一、问题的提出及逐步回归的思想一、问题的提出及逐步回归的思想 在后边的讨论中,无论我们从回归方程中剔除某个自变量,还是给回归方程增加某个自变量都要利用(3.42)式的偏F检验,这个偏F检验与(3.40)式的t检验是等价的,F检验的定义式的统计意义更为明了,并且容易推广到对多个自变量的显著性检验,因而采用F检验。5.3 逐步回归逐步回归 一、前进法一、前进法 5.3 逐步回归逐步回归 一、问题的提出及逐步回归的思想一、问题的提出及逐步回归的思想5.3 逐步回归逐步回归 一、问题的提出及逐步回归的思想一、问题的提出及逐步回归的思想 依上述方法接着做下去。直至所有未被引入方程的自变量的F值均小于F(1,n-p-1)时为止。这时,得到的回归方程就是最终确定的方程。 每步检验中的临界值F(1,n-p-1)与自变量数目p有关,在用软件计算时,我们实际使用的是显著性P值(或记为sig)做检验。5.3 逐步回归逐步回归 一、问题的提出及逐步回归的思想一、问题的提出及逐步回归的思想 例例5.4 5.4 对例3.1国际旅游外汇收入y对第三产业的12个变量做回归的数据,用前进法做变量选择,取显著性水平进=0.05。 首先进入线性回归对话框,将y与x1至x12分别选入各自的变量框,然后在Method对话框中点选前进法Forward,点选Options选项看到默认的显著性水平进正是0.05。部分运行结果如下:5.3 逐步回归逐步回归 5.3 逐步回归逐步回归 5.3 逐步回归逐步回归 5.3 逐步回归逐步回归 一、问题的提出及逐步回归的思想一、问题的提出及逐步回归的思想5.3 逐步回归逐步回归 二、后退法二、后退法5.3 逐步回归逐步回归 二、后退法二、后退法5.3 逐步回归逐步回归 二、后退法二、后退法 续例续例5.4 对例3.1国际旅游外汇收入y对第三产业的12个变量做回归的数据,用后退法做变量选择,取显著性水平出=0.10。 首先进入线性回归对话框,将y与x1至x12分别选入各自的变量框,然后在Method对话框中点选后退法Backward,点选Options选项看到默认的显著性水平出正是0.10。部分运行结果见表5.4:5.3 逐步回归逐步回归 二、后退法二、后退法5.3 逐步回归逐步回归 二、后退法二、后退法5.3 逐步回归逐步回归 二、后退法二、后退法5.3 逐步回归逐步回归 三、逐步回归法三、逐步回归法 逐步回归的基本思想是“有进有出”。具体做法是将变量一个一个引入,当每引入一个自变量后,对已选入的变量要进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除。这个过程反复进行,直到既无显著的自变量选入回归方程,也无不显著自变量从回归方程中剔除为止。这样就避免了前进法和后退法各自的缺陷,保证了最后所得的回归子集是“最优”回归子集。5.3 逐步回归逐步回归 三、逐步回归法三、逐步回归法 在逐步回归中需要注意的一个问题是引入自变量和剔除自变量的显著性水平值是不相同的,要求进出否则可能产生“死循环”。也就是当进出时,如果某个自变量的显著性P值在进与出之间,那末这个自变量将被引入、剔除、再引入、再剔除、,循环往复,以至无穷。5.3 逐步回归逐步回归 三、逐步回归法三、逐步回归法 续例续例5.4 对例3.1国际旅游外汇收入y对第三产业的12个变量做回归的数据,用逐步回归法做变量选择,取显著性水平进=0.05,出=0.10。 首先进入线性回归对话框,将y与x1至x12分别选入各自的变量框,然后在Method对话框中点选逐步回归法Stepwise,点选Options选项看到默认的显著性水平正是进=0.05,出=0.10。部分运行结果见表5.5: 5.3 逐步回归逐步回归 三、逐步回归法三、逐步回归法5.3 逐步回归逐步回归 5.4 本章小结与评注本章小结与评注 一、逐步回归实例分析一、逐步回归实例分析 例例5.5 为了研究香港股市的变化规律,此例以恒生指数为例,建立回归方程,分析影响股票价格趋势变动的因素。这里我们选了6个影响股票价格指数的经济变量: x1(百万$) 成交额, x2九九金价($/两), x3港汇指数, x4人均生产总值(现价$), x5建筑业总开支(现价百万$), x6房地产买卖金额(百万$), x7优惠利率(最低%)。 y为恒生指数。 5.3 逐步回归逐步回归 年份yx1x2x3x4x5x6x71974172.911246681105.91018341101124291975352.9410335791107.4104143996126936.51976447.6713156607114.41313446891668161977404.026127714110.8150336876221314.751978409.512741991199.4173898636313534.751979619.7125633123191.42171512339435289.519801121.1795684276090.82707516623707521019811506.94105987265186.331827199371259891619821105.79462302105125.335393247879946810.51983933.03371653030107.438823251128247810.519841008.54487872810106.64607924414549368.519851567.56758082649115.7478712297087135619861960.061231283031110.154372244031298846.519872884.883714063644105.86560230531153044519882556.721985693690101.674917378612150335.255.3 逐步回归逐步回归 YX1X2X3X4X5X6X7Y1.00000.91710.8841-0.04250.93820.87860.9372-0.0955X10.91711.00000.7375-0.12930.78420.69730.7817-0.1732X20.88410.73751.0000-0.10830.91950.94770.87470.1517X3-0.0425-0.1293-0.10831.00000.07250.0469-0.0952-0.4164X40.93820.78420.91950.07251.00000.96010.9137-0.1409X50.87860.69730.94770.04690.96011.00000.91670.0666X60.93720.78170.8747-0.09520.91370.91671.00000.0617X7-0.0955-0.17320.1517-0.4164-0.14090.06660.06171.00005.3 逐步回归逐步回归 5.3 逐步回归逐步回归 5.3 逐步回归逐步回归 第六章第六章 多重共线性的情形及其处理多重共线性的情形及其处理6 .1 多重共线性产生的背景和原因6 .2 多重共线性对回归模型的影响6 .3 多重共线性的诊断6 .4 消除多重共线性的方法6 .5 主成分回归6 .6 本章小结与评注第六章第六章 多重共线性的情形及其处理多重共线性的情形及其处理 如果存在不全为0的p+1个数c0,c1,c2,cp ,使得c0+c1xi1+c2xi2+cpxip=0 , i=1,2,n (6.1) 则称自变量x1,x2,xp之间存在着完全多重共线性。 在实际经济问题中完全的多重共线性并不多见,常见的是(6.1)式近似成立的情况,即存在不全为0的p+1个数c0,c1,c2,cp ,使得c0+c1xi1+c2xi2+cpxip0 , i=1,2,n(6.2) 称自变量x1,x2,xp之间存在着多重共线性(Multi-collinearity),也称为复共线性。6.1多重共线性产生的经济背景和原因多重共线性产生的经济背景和原因 当我们所研究的经济问题涉及到时间序列资料时,由于经济变量随时间往往存在共同的变化趋势,使得它们之间就容易出现共线性。 例如, 我们要研究我国居民消费状况,影响居民消费的因素很多,一般有职工平均工资、农民平均收入、银行利率、全国零售物价指数、国债利率、货币发行量、储蓄额、前期消费额等,这些因素显然既对居民消费产生重要影响,它们之间又有着很强的相关性。 6.1多重共线性产生的经济背景和原因多重共线性产生的经济背景和原因 许多利用截面数据建立回归方程的问题常常也存在自变量高度相关的情形。 例如,我们以企业的截面数据为样本估计生产函数,由于投入要素资本K,劳动力投入L,科技投入S,能源供应E等都与企业的生产规模有关,所以它们之间存在较强的相关性。6.2 多重共线性对回归模型的影响多重共线性对回归模型的影响 设回归模型y=0+1x1+2x2+pxp+存在完全的多重共线性,即对设计矩阵X的列向量存在不全为零的一组数c0,c1,c2,cp ,使得c0+c1xi1+c2xi2+cpxip=0 , i=1,2,n 设计矩阵X的秩rank(X) p+1,此时|xx|=0,正规方程组的解不唯一,(xx)-1不存在,回归参数的最小二乘估计表达式 不成立。6.2 多重共线性对回归模型的影响多重共线性对回归模型的影响 对非完全共线性, 存在不全为零的一组数c0,c1,c2,cp ,使得c0+c1xi1+c2xi2+cpxip0 , i=1,2,n6.2 多重共线性对回归模型的影响多重共线性对回归模型的影响 我们做y对两个自变量x1,x2的线性回归,假定y与x1,x2都已经中心化,此时回归常数项为零,回归方程为6.2 多重共线性对回归模型的影响多重共线性对回归模型的影响 6.2 多重共线性对回归模型的影响多重共线性对回归模型的影响 6.2 多重共线性对回归模型的影响多重共线性对回归模型的影响 当给不同的r12值时,由表6.1可看出方差增大的速度。 为了方便,我们假设2/L11=1,相关系数从0.5变为0.9时,回归系数的方差增加了295%,相关系数从0.5变为0.95时,回归系数的方差增加了670%。6.2 多重共线性对回归模型的影响多重共线性对回归模型的影响 在例3.3中,我们建立的中国民航客运量回归方程为: =450.9+0.354x1-0.561x2-0.0073x3+21.578x4+0.435x5其中:y民航客运量(万人), x1国民收入(亿元), x2消费额(亿元), x3铁路客运量(万人), x4民航航线里程(万公里), x5来华旅游入境人数(万人)。 5个自变量都通过了t检验,但是x2的回归系数是负值,x2是消费额,从经济学的定性分析看,消费额与民航客运量应该是正相关,负的回归系数无法解释。问题出在哪里?这正是由于自变量之间的复共线性造成的。6.3 多重共线性的诊断多重共线性的诊断 一、方差扩大因子法一、方差扩大因子法 对自变量做中心标准化,则X*X*=(rij)为自变量的相关阵。记C=(cij)=(X*X*)-1(6.5)称其主对角线元素VIFj=cjj为自变量xj的方差扩大因子(Variance Inflation Factor,简记为VIF)。根据(3.31)式可知,其中Ljj是xj的离差平方和,由(6.6)式可知用cjj做为衡量自变量xj的方差扩大程度的因子是恰如其分的。6.3 多重共线性的诊断多重共线性的诊断 6.3 多重共线性的诊断多重共线性的诊断 6.3 多重共线性的诊断多重共线性的诊断 6.3 多重共线性的诊断多重共线性的诊断 经验表明,当VIFj10时,就说明自变量xj与其余自变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计值。 还可用p个自变量所对应的方差扩大因子的平均数来度量多重共线性。当远远大于1时就表示存在严重的多重共线性问题。 6.3 多重共线性的诊断多重共线性的诊断6.3 多重共线性的诊断多重共线性的诊断以下用SPSS软件诊断例3.2中国民航客运量一例中的多重共线性问题。 6.3 多重共线性的诊断多重共线性的诊断二、特征根判定法二、特征根判定法(一)特征根分析 根据矩阵行列式的性质,矩阵的行列式等于其特征根的连乘积。因而,当行列式|X XX X|0时, 矩阵X XX X至少有一个特征根近似为零。反之可以证明,当矩阵X XX X至少有一个特征根近似为零时,X X 的列向量间必存在复共线性,证明如下:6.3 多重共线性的诊断多重共线性的诊断 记X X =(X X0 ,X X1,X Xp),其中 X Xi为X X 的列向量, X X0 =(1,1,1)是元素全为1的n维列向量。是矩阵X XX X的一个近似为零的特征根,0c c=(c0,c1, ,cp)是对应于特征根的单位特征向量,则X XX X c c=c c0 06.3 多重共线性的诊断多重共线性的诊断 上式两边左乘c c,得 c cX XX X c c0 0从而有 X X c c0 0即 c0X X0 +c1X X1+cp X Xp0 0写成分量形式即为 c0+c1xi1+c2xi2+cpxip0 , i=1,2,n这正是(6.2)式定义的多重共线性关系。6.3 多重共线性的诊断多重共线性的诊断(二)条件数 特征根分析表明,当矩阵XX有一个特征根近似为零时,设计矩阵X 的列向量间必存在复共线性。那么特征根近似为零的标准如何确定哪?这可以用下面介绍的条件数确定。记XX的最大特征根为m,称为特征根i的条件数(Condition Index)。6.3 多重共线性的诊断多重共线性的诊断 0k10时,设计矩阵X没有多重共线性;10k100时,认为X存在较强的多重共线性;当k100时,则认为存在严重的多重共线性。 用条件数判断多重共线性的准则 6.3 多重共线性的诊断多重共线性的诊断 对例3.2中国民航客运量的例子,用SPSS软件计算出特征根与条件数如下: 6.3 多重共线性的诊断多重共线性的诊断 方差比例是用于判断哪几个自变量之间存在共线性的。实际上共线性关系可以根据(6.9)式直接从特征向量看出来,只是SPSS软件在线性回归模块中没有输出特征向量阵。 把特征向量按照特征值由大到小排成行向量,每个数值平方后再除以特征值,然后再把每列数据除以列数据之和,使得每列数据之和为1,这样就得到了输出结果6.2的方差比。 再次强调的是线性回归分析共线性诊断中设计阵X包含代表常数项的一列1,而因子分析模块中给出的特征向量是对标准化的设计阵给出的,两者之间有一些差异。 6.3 多重共线性的诊断多重共线性的诊断 (三)直观判定法 1.当增加或剔除一个自变量,或者改变一个观测值时,回归系数的估计值发生较大变化。 2.从定性分析认为,一些重要的自变量在回归方程中没有通过显著性检验。 3.有些自变量的回归系数所带正负号与定性分析结果违背。 4.自变量的相关矩阵中,自变量间的相关系数较大。 5.一些重要的自变量的回归系数的标准误差较大。 6.4 消除多重共线性的方法消除多重共线性的方法 一、剔除一些不重要的解释变量一、剔除一些不重要的解释变量 在剔除自变量时,可以将回归系数的显著性检验、方差扩大因子VIF以及自变量的经济含义结合起来考虑,以引进或剔除变量。 6.4 消除多重共线性的方法消除多重共线性的方法 6.4 消除多重共线性的方法消除多重共线性的方法 6.4 消除多重共线性的方法消除多重共线性的方法 6.4 消除多重共线性的方法消除多重共线性的方法二、增大样本容量二、增大样本容量例如, 由(6.3)式和(6.4)式 可以看到,在r12固定不变时,当样本容量n增大时,L11和L22都会增大,两个方差均可减小,从而减弱了多重共线性对回归方程的影响。6.4 消除多重共线性的方法消除多重共线性的方法 三、回归系数的有偏估计三、回归系数的有偏估计 消除多重共线性对回归模型的影响是近30年来统计学家们关注的热点课题之一,除以上方法被人们应用外,统计学家还致力于改进古典的最小二乘法,提出以采用有偏估计为代价来提高估计量稳定性的方法,如: 岭回归法 主成分回归法 偏最小二乘法等。6.5 主成分回归主成分回归 主成分分析(Principal Components Analysis,简记为PCA)是多元统计分析的一个基本方法,是对数据做一个正交旋转变换,也就是对原有变量做一些线性变换,变换后的变量是正交的。为了避免变量的量纲不同所产生的影响,要求先把数据做中心标准化,中心标准化后的自变量样本观测数据矩阵(即设计阵)就是n行p列的矩阵, 就是相关阵。6.5 主成分回归主成分回归 以例3.3民航客运量的数据为例 6.5 主成分回归主成分回归 6.5 主成分回归主成分回归 现在用y对前两个主成分Factor1和Factor2做普通最小二乘回归,得主成分回归回归方程: 不过以上回归方程的自变量是用两个主成分Factor1和Factor2表示的,应该转换回到用原始自变量表示的回归方程。 6.5 主成分回归主成分回归 分别用两个主成分Factor1和Factor2做因变量,以5个原始自变量做自变量做线性回归,所得的回归系数就是所需要的线性组合的系数。得到6.5 主成分回归主成分回归 还原后的主成分回归方程为:每个回归系数的解释也都合理。6.5 主成分回归主成分回归 载荷矩阵 6. 6 本章小结与评注本章小结与评注 当解释变量之间的简单相关系数很大时,可以断定自变量间存在着严重的多重共线性;但是一个回归方程存在严重的多重共线性时,解释变量之间的简单相关系数不一定很大。例如假定3个自变量之间有完全确定的关系 再假定x2与x3的简单相关系数r23=-0.5,x2与x3的离差平方和L22=L33=1,此时 6. 6 本章小结与评注本章小结与评注同理 r13=0.5第七章第七章 岭回归岭回归 7.1岭回归估计的定义 7.2 岭回归估计的性质 7.3 岭迹分析7.4 岭参数k的选择7.5 用岭回归选择变量7.6 本章小结与评注7.1 岭回归估计的定义岭回归估计的定义一、普通最小二乘估计带来的问题一、普通最小二乘估计带来的问题 当自变量间存在复共线性时,回归系数估计的方差就很大, 估计值就很不稳定,下面进一步用一个模拟的例子来说明这一点。例例7.17.1 假设已知x1,x2与y的关系服从线性回归模型y=10+2x1+3x2+7.1岭回归估计的定义岭回归估计的定义7.1岭回归估计的定义岭回归估计的定义7.1岭回归估计的定义岭回归估计的定义二、岭回归的定义二、岭回归的定义 岭回归(Ridge Regression,简记为RR)提出的想法是很自然的。 当自变量间存在复共线性时,XX0,我们设想给XX加上一个正常数矩阵kI,(k0),那么XX+kI接近奇异的程度就会比XX接近奇异的程度小得多。 考虑到变量的量纲问题,我们先对数据做标准化,为了记号方便,标准化后的设计阵仍然用X表示7.1岭回归估计的定义岭回归估计的定义我们称 为的岭回归估计,其中k称为岭参数。 由于假设X已经标准化,所以XX就是自变量样本相关阵,(7.2)式计算的实际是标准化岭回归估计。 (7.2)式中因变量观测向量y可以经过标准化也可以未经标准化。显然,岭回归做为的估计应比最小二乘估计稳定,当k=0时的岭回归估计就是普通的最小二乘估计。(7.2)7.1岭回归估计的定义岭回归估计的定义表表7.27.1岭回归估计的定义岭回归估计的定义7.2 岭回归估计的性质岭回归估计的性质 在本节岭回归估计的性质的讨论中,假定(7.2)式中因变量观测向量y未经标准化。 7.2 岭回归估计的性质岭回归估计的性质 7.2 岭回归估计的性质岭回归估计的性质 7.2 岭回归估计的性质岭回归估计的性质 7.3 岭迹分析岭迹分析 7.3岭迹岭迹分析分析 7.4 岭参数岭参数k的选择的选择 一、岭迹法一、岭迹法 岭迹法选择k值的一般原则是: (1)各回归系数的岭估计基本稳定;(2)用最小二乘估计时符号不合理的回归系数,其岭估计的符号变得合理;(3)回归系数没有不合乎经济意义的绝对值;(4)残差平方和增大不太多。 7.4 岭参数岭参数k的选择的选择 7.4 岭参数岭参数k的选择的选择 二、方差扩大因子法二、方差扩大因子法 7.4 岭参数岭参数k的选择的选择 三、由残差平方和来确定三、由残差平方和来确定k值值 岭估计在减小均方误差的同时增大了残差平方和,我们希望岭回归的残差平方和SSE(k)的增加幅度控制在一定的限度以内,可以给定一个大于1的c值,要求:SSE(k)cSSE (7.3)寻找使(7.3)式成立的最大的k值。在后边的例子中我们将会看到对该方法的应用。7.5 用岭回归选择变量用岭回归选择变量岭回归选择变量的原则: (1)在岭回归中设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。 (2)随着k的增加,回归系数不稳定,震动趋于零的自变量也可以剔除。(3)如果依照上述去掉变量的原则,有若干个回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。 7.5 用岭回归选择变量用岭回归选择变量例例7.2 空气污染问题。Mcdonald和Schwing在参考文献18中曾研究死亡率与空气污染、气候以及社会经济状况等因素的关系。考虑了15个解释变量,收集了60组样本数据。x1Average annual precipitation in inches 平均年降雨量x2Average January temperature in degrees F 1月份平均气温x3Same for July 7月份平均气温x4Percent of 1960 SMSA population aged 65 or older 年龄65岁以上的人口占总人口的百分比x5Average household size 每家人口数x6Median school years completed by those over 22 年龄在22岁以上的人受教育年限的中位数7.5 用岭回归选择变量用岭回归选择变量x7Percent of housing units which are sound & with all facilities 住房符合标准的家庭比例数x8Population per sq. mile in urbanized areas, 1960 每平方公里人口数x9Percent non-white population in urbanized areas, 1960 非白种人占总人口的比例x10Percent employed in white collar occupations 白领阶层人口比例x11Percent of families with income 0, b0)8.1 可化为线性回归的曲线回归2. S型曲线 此S型曲线当a0,b0时,是x的增函数。 当x+时,y1/a ; x-时,y0。 y=0与y=1/a是这条曲线的两条渐进线。 S型曲线有多种,其共同特点是曲线首先是缓慢增长,在达到某点后迅速增长,在超过某点后又变为缓慢增长,并且趋于一个稳定值。 S型曲线在社会经济等很多领域都有应用,例如某种产品的销售量与时间的关系,树木、农作物的生长与时间的关系等。8.1 可化为线性回归的曲线回归8.1 可化为线性回归的曲线回归 SPSS软件中的S型曲线y=exp(b0+b1/t): 当b10时,曲线在t的正实轴上是t的减函数,不是通常意义下的S型曲线。 SPSS软件中的逻辑函数在0b11时也是S型曲线。8.1 可化为线性回归的曲线回归 例例8.1对GDP(国内生产总值)的拟合。我们选取GDP指标为因变量,单位为万亿元,拟合GDP关于时间t的趋势曲线。以1981年为基准年,取值为t=1,1998 年t=18,1981年至1998年的数据如表8.1。8.1 可化为线性回归的曲线回归年份tyeiy=lny198114862.44296.35566.058.489198225294.75123.04171.668.574198335934.56108.80-174.308.689198447171.07284.24-113.248.878198558964.48685.86278.549.1011986610202.210357.16-154.969.2301987711962.512350.06-387.569.3901988814928.314726.42201.889.6111989916909.217560.04-650.849.73619901018547.920938.89-2390.999.82819911121617.824967.89-3350.099.98119921226638.129772.14-3134.0410.19019931334634.435500.81-866.4110.45319941446759.442331.774427.6310.75319951558478.150477.138000.9710.97619961667884.660189.807694.8011.12619971774462.671771.352691.2511.21819981879395.785581.38-6185.6811.2828.1 可化为线性回归的曲线回归 1. 直接用SPSS软件的Curve Estimation命令计算。首先画出GDP对时间的散点图,见图8.2。 8.1 可化为线性回归的曲线回归8.1 可化为线性回归的曲线回归8.1 可化为线性回归的曲线回归8.1 可化为线性回归的曲线回归 为了与线性回归的拟合效果直接相比,可以先储存复合函数回归的残差序列,然后计算出 复合函数回归的 SSE =262467769=2.625108, R2=1-262467769/11043353279=0.97623,拟合效果明显优于线性回归,当然应该采用复合函数回归。8.1 可化为线性回归的曲线回归复合函数回归b0=3603.06,等比系数b1=1.192417,回归方程为 其中b1=1.192417=119.2417%表示GDP的平均发展速度,平均增长速度为19.2417% 。 这里GDP是用的当年现价,在实际工作中可以用不变价格代替现价;对误差项的自相关做相应的处理;考虑到GDP的年增长速度会有减缓趋势,可以对回归函数增加适当的阻尼因子等改进方法。8.1 可化为线性回归的曲线回归2.线性化求解法。 对复合函数y=b0两端取自然对数,得lny=lnb0+ln(b1) t令y=lny, 0=lnb0,1=ln(b1),于是得到y关于t的线性回归方程y=0+1t计算出y=lny的值列在表8.4中,用y对t做一元线性回归,输出结果为:8.1 可化为线性回归的曲线回归8.1 可化为线性回归的曲线回归8.2 多项式回归多项式回归 一、几种常见的多项式回归模型一、几种常见的多项式回归模型 一元二次多项式模型yi=0+1xi+11+i的回归函数yi=0+1xi+11是一条抛物线方程,通常称为二项式回归函数。回归系数1为线性效应系数,11为二次效应系数。 相应地,回归模型 yi=0+1xi+11+111+i称为一元三次多项式模型。8.2 多项式回归多项式回归 8.2 多项式回归多项式回归 二、一个应用例子二、一个应用例子 例例8.2 表8.5列出的数据是关于18个35岁44岁经理的: 前两年平均年收入 x1(千美元) 风险反感度 x2 人寿保险额 y(千美元) 风险反感度是根据发给每个经理的标准调查表估算得到的;它的数值越大,风险反感就越厉害。8.2 多项式回归多项式回归 研究人员想研究给定年龄组内的经理年平均收入,风险反感度和人寿保险的关系。研究者预计,在经理的收入和人寿保险额之间成立着二次关系,并有把握认为风险反感度对人寿保险额只有线性效应,而没有二次效应。但是,研究者对两个自变量是否对人寿保险额有交互效应,心中没底。因此,研究者拟合了一个二阶多项式回归模型 并打算先检验是否有交互效应,然后检验风险反感的二次效应。8.2 多项式回归多项式回归 序号xi1xi2yi12345678910111213141516171866.29040.96472.99645.01057.20426.85238.12235.84075.79637.40854.37646.18646.13030.36639.06079.38052.76655.9167510645469527435186196632528412614494926649105987714562451331338.2 多项式回归多项式回归 8.2 多项式回归多项式回归 8.2 多项式回归多项式回归 8.2 多项式回归多项式回归 表表8.68.2 多项式回归多项式回归 得最终的回归方程为: 括号中的数值是标准化回归系数。 这样,研究者就可用这个回归方程来进一步研究经理的年平均收入和风险反感对人寿保险额的效应。从标准化回归系数看到,年平均收入的二次效应对人寿保险额的影响程度最大。 8.2 多项式回归多项式回归 【例例8.3】 维生素C注射液因长期放置会渐变成微黄色,中国药典规定可以用焦亚硫酸钠等作为抗氧剂。本实验考虑3个因素,分别是EDTA(X1)无水碳酸钠(X2)焦亚硫酸钠(X3) 每个因素各取7个水平,选用U7(74)均匀设计表,取其中的第1、2、3列,实验安排与结果见表6.9。 8.2 多项式回归多项式回归表表6.9 实验设计与结果实验设计与结果8.2 多项式回归多项式回归首先做线性回归,回归的计算程序参照例6.1,得回归方程y = 2.63 + 0.77 X1 - 0.0524 X2 - 0.087 X3回归模型的P值=0.1040;决定系数(R-square)= 83.9% ;调整的决定系数(AdjR-sq)= 67.8%。可见线性回归的效果不够好,以下使用二次多项式回归。 8.2 多项式回归多项式回归 使用逐步回归,回归方程的具体形式是: 做变量替换转化为9个自变量的线性回归。8.2 多项式回归多项式回归表表6.10 回归变量表回归变量表 8.2 多项式回归多项式回归 这个线性回归只有7组观测数据却有10个未知参数,需要使用逐步回归逐个引入变量。 在SPSS软件逐步回归模块默认的进入变量P值=0.05,剔除变量P值=0.10的条件下,逐步回归只进行了一步就结束了,只选入了自变量x2。为了更全面地了解回归的效果,可以把进入变量的条件放宽一些。 用Option选项把进入变量P值改为0.30,剔除变量P值改为0.50,重新做逐步回归。8.2 多项式回归多项式回归表表6.12 逐步回归的输出结果(逐步回归的输出结果(2) 8.2 多项式回归多项式回归 此时的逐步回归共进行了5步,依次选入了X2, X22= ,X3,X23=X2 X3,X13= X1 X3共5个变量,共计算出5个回归模型: 第一个回归模型最先选入的是X2,说明无水碳酸钠的含量是最重要的影响因素; 第二个回归模型再选入的是X22= ,进一步说明无水碳酸钠的含量是最重要的影响因素,并且说明y与X2的关系是非线性的 容易求出此方程在X2=48.548时达极小值y=0.197,比第6号实验值y=0.147略高。 8.2 多项式回归多项式回归再看第三个回归方程: 为使y值最小,X3应该最大,取X3=1.4,X2的取值与X3无关,容易求出此方程在X2=45.145,X3=1.4时达极小值y=0.074,低于第6号实验值y=0.147。8.2 多项式回归多项式回归第四个回归方程是: 在回归方程含有X3的两项1.115 X3+0.0206 X2X3中,当X254时是X3的减函数,根据对第二和第三两个回归方程的分析,两个方程中X2的最优解分别是48和45,所以有理由认为X254,y是X3的减函数,X3越大y越小,因此取X3=1.4。 把X3=1.4代入以上方程中,解得X2的极小值是X2=43.944,所以第四个回归方程的最优组合是X2=44,X3=1.4,此时最优预测值y=0.080,与第三个回归方程的最优解基本相同。 8.2 多项式回归多项式回归第五个方程是: 其中包含了变量X1,并且是作为与X3的交互作用形式出现,说明EDTA对实验指标本身没有影响,只是通过焦亚硫酸钠对实验产生弱的影响。仿照对第四个回归方程求最优解的方法,首先确定X1和X3是y的减函数,分别取最大值X1=0.12和X3=1.4,然后再解得X2=41.241。最优预测值y= 0.1280 ,可以视为接近0。8.2 多项式回归多项式回归 比较第三、四、五这3个回归模型,回归方程的决定系数分别是: 97.11、98.73、99.99%, 从回归的效果看第五个回归的效果最好,但是有6个估计参数,而y的数据只有7个,所以估计的误差会较大。 第三、四两个回归模型的实验条件基本相同,预测值也很接近,约为0.080,明显小于第6号实验的吸收度y=0.147,是一组稳定的好条件,见表6.13。8.2 多项式回归多项式回归表表6.13 6.13 吸收度的最优实验条件吸收度的最优实验条件8.2 多项式回归多项式回归 本例的文献17对吸收度y值先取了倒数作为实验指标,其数值越大越好,然后建立回归方程。这样做的一个好处是避免了本例回归模型五预测值为负值的情况,但是回归方程的效果不好。文献中得到的最优条件是X1=0.12、X2=38、X3=1.4,和本例第五个模型相差不大。 8.3 非线性模型非线性模型 一、非线性最小二乘一、非线性最小二乘非线性回归模型一般可记为:yi = f (xi,)+i , i=1,2,n (8.9)其中,yi是因变量, 非随机向量xi=(xi1,xi2,,xik) 是自变量, =(0,1,,p )是未知参数向量, i是随机误差项并且满足独立同分布假定,即8.3 非线性模型非线性模型 对非线性回归模型 我们仍使用最小二乘法估计参数,即求使得 8.3 非线性模型非线性模型 称为非线性最小二乘估计的正规方程组 8.3 非线性模型非线性模型 在非线性回归中,平方和分解式SST=SSR+SSE不再成立。类似于线性回归中的复判定系数,定义非线性回归的相关比为: 相关比也称为相关指数。 8.3 非线性模型非线性模型 二、非线性回归模型的应用二、非线性回归模型的应用 例例8.4 一位药物学家使用下面的非线性模型对药物反应拟合回归模型: 自变量x是药剂量,用级别表示; 因变量y是药物反应程度,用百分数表示。 3个参数c0、c1、c2都是非负的,根据专业知识,c0的上限是100%, 3个参数的初始值取为c0=100,c1=5,c2=4.8。测得9个反应数据如下:8.3 非线性模型非线性模型 x 1 2 3 4 5 6 7 8 9y(%)0.5 2.3 3.4 24.0 54.7 82.1 94.8 96.2 96.4图图8.3 药物反应程度散点图药物反应程度散点图8.3 非线性模型非线性模型 在SPSS的Regression菜单下点选Nonlinear,进入非线性回归对话框,将y点入因变量框,在model Expression框中输入回归函数c0-c0/(1+(x/c2)*c1),然后点Parameters进入参数设置框赋给未知参数初值。8.3 非线性模型非线性模型 Iteration Residual SS C0 C1 C2 1 172.7877170 100.000000 5.00000000 4.80000000 1.1 32.60704344 97.7943996 6.57938197 4.74460195 2 32.60704344 97.7943996 6.57938197 4.74460195 2.1 20.20240372 99.5785656 6.73691756 4.80074972 3 20.20240372 99.5785656 6.73691756 4.80074972 3.1 20.18814307 99.5334852 6.76307026 4.79941696 4 20.18814307 99.5334852 6.76307026 4.79941696 4.1 20.18803580 99.5411768 6.76104089 4.79966204 5 20.18803580 99.5411768 6.76104089 4.79966204 5.1 20.18803473 99.5404448 6.76127044 4.79964160 6 20.18803473 99.5404448 6.76127044 4.79964160 6.1 20.18803472 99.5405197 6.76124802 4.799643828.3 非线性模型非线性模型 8.3 非线性模型非线性模型 8.3 非线性模型非线性模型 序号xye110.500.5-50.48889222.30.272.03-50.21889333.43.98-0.58-46.50889442422.481.52-28.008895554.756.61-1.916.121116682.181.520.5831.031117794.892.342.4641.851118896.296.49-0.2946.001119996.498.14-1.7447.65111均值550.4888950.203330.285556-0.28556离差平方和6014917.8915156.5519.4316215156.55平方和28537860.0437839.8520.1880315157.288.3 非线性模型非线性模型 本例回归离差平方和SSR=15156.55,而总离差平方和SST=14917.89116的限制回归迭代就收敛了。8.3 非线性模型非线性模型 龚珀兹模型和几种常见的非线性回归模型可以用三和值法求解,见参考文献15第13章。 在正态误差假定下,非线性回归的最小二乘估计与极大似然估计是相同的,而极大似然估计具有好的大样本性质,例如渐近无偏性、渐近正态性、一致性等。因而非线性最小二乘估计值比三和值更精确,可以把三和值法的参数估计值作为求解非线性最小二乘的初值。8.3 非线性模型非线性模型 【例例8.6】 下表8.9是我国从19502005年历年大陆总人口数,试用威布尔(Weibull)曲线拟合数据并做预测。威布尔曲线如下:其中参数k是变量发展的上限,参数a 0, 0 b 0。8.3 非线性模型非线性模型 表表8.9 我国历年大陆总人口数我国历年大陆总人口数 单位:亿人单位:亿人年份ty年份ty195015.51961978299.6259195125.631979309.7542195235.74821980319.8705195345.879619813210.00721975269.24220035412.92271976279.371720045512.99881977289.497420055613.07568.3 非线性模型非线性模型 根据人口学的专业预测,我国人口上限为16亿人,因此取k的初值=16,取b的初值=0.5,取c的初值=1。 对以上初值把t=1时(即1950年)=5.5196代入,得, 用以上初值做非线性最小二乘,得下面的输出结果8.7。从中看到,人口上限为k=15.76亿人,这与人口学预测的人口上限16亿人完全一致。图8.5是用Excel绘制的人口趋势预测图,其中粗实线是观测值,虚细线是预测值。8.3 非线性模型非线性模型 8.3 非线性模型非线性模型 8.3 非线性模型非线性模型 图图8.5 威布尔模型预测我国人口趋势图威布尔模型预测我国人口趋势图8.3 非线性模型非线性模型 【例例8.6】 柯布道格拉斯生产函数研究。在计量经济学中有一种熟知的C-D(CobbDouglas)生产函数 其中,y为产出,K(资本)、L(劳力)为两个投入要素,A0为效率系数、a和b为K和L的产出弹性,A、a、b 均为待估参数。8.3 非线性模型非线性模型 a是产出对资本投入的弹性系数,度量在劳动投入保持不变时资本投入增加1%时产出增加的百分比。 b是产出对劳动投入的弹性系数,度量在资本投入保持不变时劳动投入增加1%时产出增加的百分比。 两个弹性系数之和 a+b 表示规模报酬(returns to scale)。a+b =1表示规模报酬不变,即1倍的投入带来1倍的产出;a+b 1表示规模报酬递减,即1倍的投入带来少于1倍的产出;a+b 1表示规模报酬递增,即1倍的投入带来大于1倍的产出。8.3 非线性模型非线性模型 8.3 非线性非线性模型模型 年份tGDPKL lnGDPlnKlnL197813624.1 1377.9 401528.1953617.22831610.60043197924038.2 1474.2 410248.3035547.29587110.62191198034517.8 1590.0 423618.4157807.37148910.65398198144862.4 1581.0 437258.4892877.36581310.68568198255294.7 1760.2 452958.5744627.47318310.72095198365934.5 2005.0 464368.6885387.60339910.74583198477171.0 2468.6 481978.8778007.81140610.78305198588964.4 3386.0 498739.1010168.12740510.817241986910202.2 3846.0 512829.2303598.25478910.8451019871011962.5 4322.0 527839.3895328.37147410.8739419881114928.3 5495.0 543349.6110148.61159410.9029119891216909.2 6095.0 553299.7356138.71522410.9210519901318547.9 6444.0 647499.8281128.77090511.0782719911421617.8 7517.0 654919.9812728.92492211.0896719921526638.1 9636.0 6615210.190109.17326111.0997119931634634.4 14998.0 6680810.452609.61567211.1095819941746759.4 19260.6 6745510.752779.86581711.1192219951858478.1 23877.0 6806510.9764110.0806711.1282219961967884.6 26867.2 6895011.1255610.1986611.1411419972074462.6 28457.6 6982011.2180510.2561711.1536819982178345.2 29545.9 7063711.2688810.293711.1653119992282067.5 30701.6 7139411.3153010.3320711.1759720002389468.1 32611.4 7208511.4016410.3924211.1856020012497314.8 37460.8 7302511.4857110.5310511.19856200225105172.3 42355.4 7374011.5633610.6538511.208308.3 非线性模型非线性模型 其中,y是国内生产总值GDP (单位:亿元), K是资金投入,包括固定资产投资和库存占用资 金(单位:亿元), L是就业总人数(单位:万人)。 (1)假设随机误差项为相乘的,我们可以用两边取对数的办法,按照(8.15)式将模型转化线性形式,对数变换后的数据见表8.14,用SPSS作线性回归得如下结果: 8.3 非线性模型非线性模型 8.3 非线性模型非线性模型 得两个弹性系数为a=0.902,b =0.361,资金的贡献率大于劳动力的贡献率。规模报酬a+b =0.902+0.361=1.2631表示规模报酬递增。效率系数A=0.1242。其中系数b 的显著性概率P值=0.087,显著性较弱。得乘性误差项的C-D生产函数为:8.3 非线性模型非线性模型 对加性误差项模型,不能通过变量变换数转化成线性模型,只能用非线性最小二乘法求解未知参数。以上面乘性误差项的参数为初值做非线性最小二乘,经过81步迭代得下面的输出结果8.。其中参数的置信度为95%的置信区间为(-0.555 ,1.565),包含0在内,因而不能认为非0,显著性较弱。得乘性误差项的C-D生产函数为:8.3 非线性模型非线性模型 8.3 非线性模型非线性模型 8.3 非线性模型非线性模型 使用线性化的乘性误差项模型,由共线性检验得方差扩大因子VIF=15.5。使用岭回归,选取岭参数k=0.20,这时R2从原来的0.998 14下降为0.980 58,得岭回归如下:* Ridge Regression with k = 0.20 * B SE(B) Beta B/SE(B)lnK .49700385 .02048319 .51558506 24.26398868lnL 2.18274631 .11798929 .39309616 18.49952910Constant -18.43784255 1.27336521 .00000000 -14.47961853 8.3 非线性模型非线性模型 其中a=0.4970,b =2.183,A= 表明劳动力的贡献率远大于资金的贡献率,与普通最小二乘的结果完全相反。并且b =2.183也不符合经济意义。 从统计方法看,岭回归的结果是可信的,但是我们对其计算结果却无法给出合理的解释。8.3 非线性模型非线性模型 三、其他形式的非线性回归三、其他形式的非线性回归 非线性最小二乘是使残差平方和达极小的方法,其最大的缺点是缺乏稳健性。当数据存在异常值时,参数的估计效果变得很差。因而在一些场合,我们希望用一些更稳健的残差损失函数代替平方损失函数8.3 非线性模型非线性模型 绝对值残差损失函数 利用SPSS的非线性回归程序,可以用数值计算法求解多种损失函数的回归估计值。以下以例3.2北京经济开发区数据为例,说明用SPSS软件的最小绝对值法求解方法。8.3 非线性模型非线性模型 1进入非线性回归对话框,在因变量框中点入y,在Model Expressions框中输入回归方程表达式b0+b1*x1+b2*x2; 2.给参数赋初值,以普通最小二乘估计值为初始值,初始值为b0=-213.7,b1=2.185,b2=0.368,点Continue返回非线性回归对话框; 3.点选Options选项,进入Options选项框选择数值计算方法,默认的计算方法是Levenberg-Marquardt方法,将其改为Sequential quadratic program方法,点Continue返回非线性回归对话框。用自定义损失函数计算时必须做这个改动; 4点Loss进入Loss Function对话框给出损失函数,默认的损失函数是Sum of squared residuals,将其改为User-defiend loss function,然后输入ABS(y-b0-b1*x1-b2*x2),点Continue返回非线性回归对话框; 5点Save保存残差变量和预测值:8.3 非线性模型非线性模型 Iteration Loss funct B0 B1 B2 0.1 4511.684440 -213.70000 2.18500000 .368000000 1.1 4393.393596 -213.69997 2.19431077 .403145685 2.1 4362.671030 -213.69984 2.13568898 .431261430 3.1 4354.739136 -213.78915 2.12883998 .429074345 4.1 4352.083704 -213.78515 2.13523424 .427309206普通最小二乘经验回归方程为: 8.3 非线性非线性模型模型 第九章第九章 含定性变量的回归模型含定性变量的回归模型 9.1 自变量中含有定性变量的回归模型9.2 自变量定性变量回归模型的应用9.3 因变量是定性变量的回归模型9.4 Logistic(逻辑斯蒂)回归9.5 多类别Logistic回归9.6 因变量是顺序变量的回归9.7 本章小结与评注9.1 自变量中含有定性变量的回归模型一、简单情况一、简单情况 首先讨论定性变量只取两类可能值的情况,例如研究粮食产量问题,y为粮食产量,x为施肥量,另外再考虑气候问题,分为正常年份和干旱年份两种情况,对这个问题的数量化方法是引入一个0-1型变量D,令:Di=1表示正常年份Di=0表示干旱年份9.1 自变量中含有定性变量的回归模型粮食产量的回归模型为: yi=0+1xi+2Di+i其中干旱年份的粮食平均产量为:E(yi|Di=0)=0+1xi正常年份的粮食平均产量为: E(yi|Di=1)=(0+2)+1xi9.1 自变量中含有定性变量的回归模型 例例9.19.1 某经济学家想调查文化程度对家庭储蓄的影响,在一个中等收入的样本框中,随机调查了13户高学历家庭与14户中低学历的家庭,因变量y为上一年家庭储蓄增加额,自变量x1为上一年家庭总收入,自变量x2表示家庭学历,高学历家庭x2=1,低学历家庭x2=0,调查数据见表9.1:9.1 自变量中含有定性变量的回归模型序号y(元)x1(万元)x212352.3023463.2133652.8044683.5156582.6068673.21710852.602389503.902498654.802598664.6026102354.8027101404.20表表9.19.1 自变量中含有定性变量的回归模型建立y对x1、x2的线性回归9.1 自变量中含有定性变量的回归模型 两个自变量x1与x2的系数都是显著的,判定系数R2=0.879,回归方程为:=-7976+3826x1-3700x29.1 自变量中含有定性变量的回归模型 这个结果表明,中等收入的家庭每增加1万元收入,平均拿出3826元作为储蓄。高学历家庭每年的平均储蓄额少于低学历的家庭,平均少3700元。 如果不引入家庭学历定性变量x2,仅用y对家庭年收入x1做一元线性回归,得判定系数R2=0.618,拟合效果不好。9.1 自变量中含有定性变量的回归模型 家庭年收入x1是连续型变量,它对回归的贡献也是不可缺少的。如果不考虑家庭年收入这个自变量,13户高学历家庭的平均年储蓄增加额为3009.31元,14户低学历家庭的平均年储蓄增加额为5059.36元,这样会认为高学历家庭每年的储蓄额比低学历的家庭平均少5059.36-3009.31=2050.05元,而用回归法算出的数值是3824元,两者并不相等。9.1 自变量中含有定性变量的回归模型 用回归法算出的高学历家庭每年的平均储蓄额比低学历的家庭平均少3824元,这是在假设两者的家庭年收入相等的基础上的储蓄差值,或者说是消除了家庭年收入的影响后的差值,因而反映了两者储蓄额的真实差异。而直接由样本计算的差值2050.05元是包含有家庭年收入影响在内的差值,是虚假的差值。所调查的13户高学历家庭的平均年收入额为3.8385万元,14户低学历家庭的平均年收入额为3.4071万元,两者并不相等。9.1 自变量中含有定性变量的回归模型二、复杂情况二、复杂情况某些场合定性自变量可能取多类值,例如某商厦策划营销方案,需要考虑销售额的季节性影响,季节因素分为春、夏、秋、冬4种情况。为了用定性自变量反应春、夏、秋、冬四季,我们初步设想引入如下4个0-1自变量:9.1 自变量中含有定性变量的回归模型 可是这样做却产生了一个新的问题,即x1+x2+x3+x4=1,构成完全多重共线性。 解决这个问题的方法很简单,我们只需去掉一个0-1型变量,只保留3个0-1型自变量即可。例如去掉x4,只保留x1、x2、x3。对一般情况,一个定性变量有k类可能的取值时,需要引入k-1个0-1型自变量。当k=2时,只需要引入一个0-1型自变量即可。9.1 自变量中含有定性变量的回归模型三、单因素方差分析 设yij是正态总体N(j,2),的样本 j=1,c,i=1,2,nj原假设为:H0: 1=2=c记ij= yij-j,则有ijN(0,2),进而有 yij=j+ij ,i=1,2,nj,j=1,c, (9.39) 记,aj=j-,则(9.39)式改写为: yij=+ai+ij ,i=1,2,ni,j=1,c, (9.39) 9.1 自变量中含有定性变量的回归模型引入0-1型自变量xij,将(9.40)式表示为yij=+a1xi1+a2xi2+acxic +ij 其中 9.1 自变量中含有定性变量的回归模型 其中还存在一个问题,就是c个自变量x1,x2, ,xc之和恒等于1,存在完全的复共线性。为此,剔除xc,建立回归模型yij=+a1xi1+a2xi2+ac-1xic-1 +ij i=1,2,nj,j=1,c,回归方程显著性检验的原假设为:H0: a1=a2=ac-1=09.1 自变量中含有定性变量的回归模型 由aj=j-=j- 可知H0: a1=a2=ac-1=0 与H0: 1=2=c是等价的线性回归的F检验与单因素方差分析的F检验是等价的。9.2 自变量定性变量回归模型的应用一、分段回归一、分段回归 例例9.2 表9.3给出某工厂生产批量xi与单位成本yi(美元)的数据。试用分段回归建立回归模型。序号yX(= x1)x212.5765015024.4340034.52400041.3980030054.75300063.555707072.4972022083.7748009.2 自变量定性变量回归模型的应用图图9.1 单位成本对批量散点图单位成本对批量散点图9.2 自变量定性变量回归模型的应用 由图9.1可看出数据在生产批量xp=500时发生较大变化,即批量大于500时成本明显下降。我们考虑由两段构成的分段线性回归,这可以通过引入一个0-1型虚拟自变量实现。假定回归直线的斜率在xp=500处改变,建立回归模型 yi=0+1xi+2(xi-5)Di+i来拟合,其中9.2 自变量定性变量回归模型的应用引入两个新的自变量 xi1=xi xi2=(xi-5)Di这样回归模型转化为标准形式的二元线性回归模型:yi=0+1xi1+2xi2+i (9.3)(9.3)式可以分解为两个线性回归方程:当x1500时,E(y)=0+1x1当x1500时,E(y)=(0-5002)+(1+2)x19.2 自变量定性变量回归模型的应用9.2 自变量定性变量回归模型的应用 用普通最小二乘法拟合模型(9.3)式得回归方程为: =5.895-0.00395x1-0.00389x2 利用此模型可说明生产批量小于500时,每增加1个单位批量,单位成本降低0.00395美元;当生产批量大于500时,每增加1个单位批量,估计单位成本降低0.00395+0.00389=0.00784(美元)。9.2 自变量定性变量回归模型的应用 以上只是根据散点图从直观上判断本例数据应该用折线回归拟合,这一点还需要做统计的显著性检验,这只需对(9.2)式的回归系数2做显著性检验。9.2 自变量定性变量回归模型的应用 对2的显著性检验的显著性概率Sig=0.153,2没有通过显著性检验,不能认为2非零。用y对x做一元线性回归,计算结果为:9.2 自变量定性变量回归模型的应用二、回归系数相等的检验二、回归系数相等的检验 例例9.39.3 回到例9.1的问题,例9.1引入0-1型自变量的方法是假定储蓄增加额y对家庭收入的回归斜率1与家庭年收入无关,家庭年收入只影响回归常数项0,这个假设是否合理,还需要做统计检验。检验方法是引入如下含有交互效应的回归模型:yi=0+1xi1+2xi2+3xi1xi2+i(9.8)其中y为上一年家庭储蓄增加额, x1为上一年家庭总收入, x2表示家庭学历,高学历家庭x2=1,低学历家庭x2=0。9.2 自变量定性变量回归模型的应用 回归模型(9.8)式可以分解为对高学历和对低学历家庭的两个线性回归模型,分别为:高学历家庭x2=1, yi=0+1xi1+2+3xi1+i =(0+2)+(1+3)xi1+i低学历家庭x2=0, yi=0+1xi1+i9.2 自变量定性变量回归模型的应用 要检验两个回归方程的回归系数(斜率)相等,等价于检验H0:3=0,当拒绝H0时,认为30,这时高学历与低学历家庭的储蓄回归模型实际上被拆分为两个不同的回归模型。当接受H0时,认为3=0,这时高学历与低学历家庭的储蓄回归模型是如下形式的联合回归模型:yi=0+1xi1+2xi2+i9.2 自变量定性变量回归模型的应用9.3 因变量是定性变量的回归模型 在许多社会经济问题中,所研究的因变量往往只有两个可能结果,这样的因变量也可用虚拟变量来表示,虚拟变量的取值可取0或1。 一、定性因变量的回归方程的意义一、定性因变量的回归方程的意义 设因变量y是只取0,1两个值的定性变量,考虑简单线性回归模型yi=0+1xi+i (9.12) 在这种y只取0,1两个值的情况下,因变量均值E(yi)=0+1xi有着特殊的意义。9.3 因变量是定性变量的回归模型由于yi是0-1型贝努利随机变量,则得如下概率分布: P(yi=1)=i P(yi=0)=1-i根据离散型随机变量期望值的定义,可得E(yi)=1(i)+0(1-i)=i (9.13) 得到 E(yi)=i=0+1xi9.3 因变量是定性变量的回归模型二、定性因变量回归的特殊问题二、定性因变量回归的特殊问题 1. 离散非正态误差项。 对一个取值为0和1的因变量,误差项i=yi-(0+1xi)只能取两个值: 当yi=1时, i=1-0-1xi=i 当yi=0时, i=-0-1xi=1-i 显然,误差项i是两点型离散分布,当然正态误差回归模型的假定就不适用了。9.3 因变量是定性变量的回归模型2. 零均值异方差性。 当因变量是定性变量时,误差项i仍然保持零均值,这时出现的另一个问题是误差项i的方差不相等。0-1型随机变量i的方差为 D(i)=D(yi) =i(1-i) =(0+1xi)(1-0-1xi) (9.14) i的方差依赖于xi,是异方差,不满足线性回归方程的基本假定。9.3 因变量是定性变量的回归模型3.回归方程的限制 当因变量为0、1虚拟变量时,回归方程代表概率分布,所以因变量均值受到如下限制:E(yi)=i1 对一般的回归方程本身并不具有这种限制,线性回归方程yi=0+1xi将会超出这个限制范围。9.4Logistic回归模型回归模型 一、分组数据的一、分组数据的Logistic回归模型回归模型 针对0-1型因变量产生的问题,我们对回归模型应该做两个方面的改进。 第一,回归函数应该改用限制在0,1区间内的连续曲线,而不能再沿用直线回归方程。9.4Logistic回归模型回归模型 限制在0,1区间内的连续曲线有很多,例如所有连续型随机变量的分布函数都符合要求,我们常用的是Logistic函数与正态分布函数。Logistic函数的形式为 Logistic函数的中文名称是逻辑斯谛函数,或简称逻辑函数。9.4Logistic回归模型回归模型 第二,因变量yi本身只取0、1两个离散值,不适于直接作为回归模型中的因变量。 由于回归函数E(yi)=i=0+1xi表示在自变量为xi的条件下yi的平均值,而yi是0-1型随机变量,因而E(yi)=i就是在自变量为xi的条件下yi等于1的比例。这提示我们可以用yi等于1的比例代替yi本身作为因变量。下面通过一个例子来说明Logistic回归模型的应用。9.4Logistic回归模型回归模型 例例9.4 在一次住房展销会上,与房地产商签定初步购房意向书的共有n=325名顾客中,在随后的3个月的时间内,只有一部分顾客确实购买了房屋。购买了房屋的顾客记为1,没有购买房屋的顾客记为0。以顾客的年家庭收入(万元)为自变量x,对如下的数据,建立Logistic回归模型 9.4Logistic回归模型回归模型 9.4Logistic回归模型回归模型 Logistic回归方程为 其中c为分组数据的组数,本例c=9。做线性化变换,令 上式的变换称为逻辑(Logit)变换,得 pi=0+1xi+i(9.16)(9.18) (9.17) 9.4Logistic回归模型回归模型 计算出经验回归方程为-0.886+0.156x (9.19)判定系数r2=0.9243,显著性检验P值0,高度显著。还原为(9.16)式的Logistic回归方程为利用(9.20)式可以对购房比例做预测,例如对x0=8,9.4Logistic回归模型回归模型 我们用Logistic回归模型成功地拟合了因变量为定性变量的回归模型,但是仍然存在一个不足之处,就是异方差性并没有解决,(9.18)式的回归模型不是等方差的,应该对(9.18)式用加权最小二乘估计。当ni较大时,pi的近似方差为:其中i=E(yi),因而选取权数为:wi=nipi(1-pi)9.4Logistic回归模型回归模型 用加权最小二乘法得到的Logistic回归方程为 对x0=8时的购房比例做预测9.4Logistic回归模型回归模型 二、未分组数据的二、未分组数据的Logistic回归模型回归模型 设y是0-1型变量,x1,x2,xp是与y相关的确定性变量, n组观测数据为(xi1 ,xi2 ,xip ;yi),i=1,2,n, yi与xi1 ,xi2 ,xip的关系为:E(yi)=i=f(0+1xi1+2xi2+pxip) 其中函数f(x)是值域在0,1区间内的单调增函数。对于Logistic回归9.4Logistic回归模型回归模型 于是yi是均值为i=f(0+1xi1+2xi2+pxip)的0-1型分布,概率函数为:P(yi=1)=i P(yi=0)=1-i 可以把yi的概率函数合写为:i=1,2,n于是y1, y2 , , yn的似然函数为:9.4Logistic回归模型回归模型 代入得对数似然函数Logistic回归极大似然估计就是选取0 ,1 ,2 ,p的估计值使上式达极大。9.4Logistic回归模型回归模型 例例9.5 9.5 在一次关于公共交通的社会调查中,一个调查项目是“是乘坐公共汽车上下班,还是骑自行车上下班。”因变量y=1表示主要乘坐公共汽车上下班,y=0表示主要骑自行车上下班。自变量x1是年龄,作为连续型变量;x2是月收入(元);x3是性别,x3=1表示男性,x3=0表示女性。 调查对象为工薪族群体,数据见表9.9,试建立y与自变量间的Logistic回归。9.4Logistic回归模型回归模型 序号性别年龄 月收入y序号性别年龄 月收入y1018850015120100002021120001612512000302385011712713000402395011812815000502812001191309501603185002013210000703615001211331800080421000122133100009046950123138120001004812000241411500011055180012514518001120562100126148100001305818001271521500114118850028156180019.4Logistic回归模型回归模型 以下是SPSS软件部分运行结果: 9.4Logistic回归模型回归模型 X2(月收入)不显著,将其剔除。最终的回归方程为: 9.4Logistic回归模型回归模型 三、三、Probit回归模型回归模型 Probit回归称为单位概率回归,与Logistic回归相似,也是拟合0-1型因变量回归的方法,其回归函数是【例例9.6】 仍然使用例9.4购房数据9.4Logistic回归模型回归模型 9.4Logistic回归模型回归模型 得回归方程: 或等价地表示为:对x0=89.4Logistic回归模型回归模型 SPSS软件提供了对分组数据拟合Probit回归。 得 9.4Logistic回归模型回归模型 在SPSS软件的Probit回归对话框,可以看到一个Logit选项,用这个选项可以对分组数据做Logistic回归。对此例计算出的Logistic回归方程是这也是使用数值计算的最大似然估计,与用最小二乘法所得到的Logistic回归方程很接近。9.5 多类别多类别Logistic回归回归 当定性因变量y取k个类别时,记为1,2,k。因变量y取值于每个类别的概率与一组自变量x1,x2,xp有关,对于样本数据 (xi1,xi2,xip ;yi),i=1,2,n ,多类别Logistic回归模型第i组样本的因变量yi取第j个类别的概率为:(9.34) 9.5 多类别多类别Logistic回归回归 上式中各回归系数不是惟一确定的,每个回归系数同时加减一个常数后的数值保持不变。为此,把分母的第一项中的系数都设为0,得到回归函数的表达式(9.35) 9.5 多类别多类别Logistic回归回归【例例9.7】 本例数据选自SPSS软件自带的数据文件telco.sav. 该文件在 SPSS tutorialsample_files文件夹内。 一个电信商要分析顾客选择服务类别的影响因素,因变量是顾客类别(Customer category),变量名为custcat,共取4个类别: 1=“Basic service”; 2=“E-service”; 3=“Plus service”; 4=“Total service”数据的样本量n=1 000。 可以用Edit菜单中的Options选项的General选项卡选择显示变量标签,可以在显示变量完整的名称。9.5 多类别多类别Logistic回归回归进入多类别Logistic回归对话框。把因变量Customer categorycustcat选入Dependent框条中,这里Customer category是变量标签,custcat是变量名称。把定性自变量 Marital status marital, Level of education ed, Retired retire和Gender gender 选入 factors框条中。把数值型自变量 Age in Years age, Years at current address address, Household income in thousands income, Years with current employer employ,和 Number of people in household reside 选入covariates框条中。 在因变量框条的下面有一个Reference category按钮,点击进入,选择以First category为参照类别,这也就是选择(9.35)式的回归方程。9.5 多类别多类别Logistic回归回归9.5 多类别多类别Logistic回归回归9.5 多类别多类别Logistic回归回归使用逐步回归 9.5 多类别多类别Logistic回归回归9.5 多类别多类别Logistic回归回归9.5 多类别多类别Logistic回归回归输出结果输出结果9.14 Parameter Estimates9.5 多类别多类别Logistic回归回归9.5 多类别多类别Logistic回归回归9.5 多类别多类别Logistic回归回归对每个样品计算出因变量y取第j个类别的 概率,因变量的预测值就是 最大的类别。9.5 多类别多类别Logistic回归回归 可以用Save按钮保存预测概率和预测值,表9.6是前20个样品的预测数值。9.6 因变量是顺序变量的回归因变量是顺序变量的回归 当定性因变量y取k个顺序类别时,记为1,2,k,这里的数字1,2,k仅表示顺序的大小。 因变量y取值于每个类别的概率仍与一组自变量x1,x2,xp有关,对于样本数据 (xi1,xi2,xip ;yi),i=1,2,n ,顺序类别回归模型有两种主要类型, 一种是位置结构(Location component)模型, 另一种是规模结构(Scale component)模型。9.6 因变量是顺序变量的回归因变量是顺序变量的回归位置结构模型:(9.36) 9.6 因变量是顺序变量的回归因变量是顺序变量的回归规模结构模型:其中是x1,x2,xp的一个子集,作为规模结构解释变量,(9.37) 9.6 因变量是顺序变量的回归因变量是顺序变量的回归9.6 因变量是顺序变量的回归因变量是顺序变量的回归 还是使用SPSS软件自带的一个数据文件german_credit.sav说明此方法。 【例例9.8】 一个信贷员想评估信贷业务的风险,选取客户的帐户状态(account status)作为因变量,有5个有序类别值,分别是 1无债务历史, 2目前无债务, 3目前有正在偿还的债务, 4曾拖欠债款, 5危机的帐户。解释变量由多个财务和个人资料变量构成。9.6 因变量是顺序变量的回归因变量是顺序变量的回归进入有序数据回归对话框。把因变量account statuschist选入Dependent框条中。把定性自变量# of existing credits numcred, Other installment debts othnstal和Housing housng 选入 factors框条中。把数值型自变量 Age in Years age和Duration in months duration 选入covariates框条中。 点击Options按钮选择Complementary Log-Log类型的联系函数,这是因为通过对因变量的频数分析发现类别3和5出现的频率很大,属于高层类别出现几率大的分布。9.6 因变量是顺序变量的回归因变量是顺序变量的回归应用回归分析应用回归分析The end
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号