资源预览内容
第1页 / 共37页
第2页 / 共37页
第3页 / 共37页
第4页 / 共37页
第5页 / 共37页
第6页 / 共37页
第7页 / 共37页
第8页 / 共37页
第9页 / 共37页
第10页 / 共37页
亲,该文档总共37页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
1第第3 3章章 多元线性回归模型多元线性回归模型3.1 3.1 模型的建立及其假定条件模型的建立及其假定条件1.基本概念基本概念多元总体线性回归模型:多元总体线性回归模型:Y=Y=0 0+1 1X X1 1+2 2X X2 2+ +k kX Xk k+u+u多元总体线性回归方程:多元总体线性回归方程:E(Y)=E(Y)=0 0+1 1X X1 1+2 2X X2 2+ +k kX Xk k2021/6/412样本数据结构形式的多元总体线性回归模型:样本数据结构形式的多元总体线性回归模型:Y Yi i=0 0+1 1X X1i1i+2 2X X2i2i+ +k kX Xkiki+u+ui i,i=1,2,i=1,2,n,n它是由它是由n n个方程,个方程,k+1k+1个未知参数组成的一个线性方程组,个未知参数组成的一个线性方程组,即即这个模型相应的矩阵表达形式是这个模型相应的矩阵表达形式是 Y=X+U2021/6/423其中其中2021/6/434多元样本线性回归方程:多元样本线性回归方程:估计的回归方程的矩阵表达形式是:估计的回归方程的矩阵表达形式是:其中其中2021/6/4452.模型的假定模型的假定(1 1)E(uE(ui i)=0)=0,i=1,2,i=1,2,n,n(2 2)Var(uVar(ui i)=E(u)=E(ui i2 2)=)=2 2, i=1,2, i=1,2,n,n(3 3)Cov(uCov(ui i,u,uj j)=E(u)=E(ui iu uj j)=0)=0,ij,i,j=1,2,ij,i,j=1,2,n,n(4 4)Cov(XCov(Xijiju uj j)=0(i=1,2,)=0(i=1,2,k,j=1,2,k,j=1,2,n),n)且且 Cov(X Cov(Xk kX Xl l)=0(kl)=0(kl)。(5 5)rank(X)=k+1nrank(X)=k+1n(6 6)u ui iN(0,N(0,2 2) ),i=1,2,i=1,2,n,n2021/6/456 引进向量、矩阵记法后,模型的基本假定引进向量、矩阵记法后,模型的基本假定1 1、2 2、3 3三条,三条,可以综合为误差向量可以综合为误差向量U U的方差的方差协方差矩阵为对角矩阵:协方差矩阵为对角矩阵: 满足这种假定的误差项称为满足这种假定的误差项称为“球形扰动球形扰动”。2021/6/4673.2 3.2 最小二乘法最小二乘法1.1.参数的最小二乘估计参数的最小二乘估计对于含有对于含有k k个解释变量的多元线性回归模型个解释变量的多元线性回归模型 Y Yi i=0 0+1 1X X1i1i+2 2X X2i2i+ +K KX XKiKi+u+ui i,i=1,2,i=1,2,n,n和相应的估计的样本回归方程和相应的估计的样本回归方程根据最小二乘准则,寻找使下式达到最小的参数估计值根据最小二乘准则,寻找使下式达到最小的参数估计值2021/6/478当当Q Q对对 的一阶偏导数都等于的一阶偏导数都等于0 0,即下列方程组,即下列方程组 同时成立时,同时成立时,Q Q有最小值。有最小值。对上述方程组加以整理,可得到对上述方程组加以整理,可得到正规方程组正规方程组,正规方程组正规方程组有有k+1k+1个方程,未知数也是个方程,未知数也是k+1k+1个。只要系数矩阵非奇异个。只要系数矩阵非奇异( (满满足模型假设足模型假设5 5,解释变量之间不存在严格线性关系即可,解释变量之间不存在严格线性关系即可) ),就可以解出就可以解出 的唯一的一组解,就是的唯一的一组解,就是0 0, , 1 1, ,K K的最小二乘估计值。的最小二乘估计值。2021/6/489用向量和矩阵的表示方法和运算,多元线性回归最小二乘估用向量和矩阵的表示方法和运算,多元线性回归最小二乘估计的推导会简洁得多。先引进参数估计量、解释变量回归值计的推导会简洁得多。先引进参数估计量、解释变量回归值和回归残差的下列向量表示:和回归残差的下列向量表示:2021/6/4910写成等价的向量方程,则为写成等价的向量方程,则为再利用向量、矩阵的运算法则,可以得到残差平方和再利用向量、矩阵的运算法则,可以得到残差平方和为为2021/6/41011其中矩阵求导:其中矩阵求导:2021/6/41112整理该向量方程,得到下列形式的正规方程组整理该向量方程,得到下列形式的正规方程组当当 可逆,也就是可逆,也就是X X是满秩矩阵(满足假设是满秩矩阵(满足假设5 5)时,在上述)时,在上述向量方程两端左乘的向量方程两端左乘的 逆矩阵,得到逆矩阵,得到这就是多元线性回归模型最小二乘估计的矩阵一般公式。这就是多元线性回归模型最小二乘估计的矩阵一般公式。2021/6/41213补充:矩阵的运算补充:矩阵的运算(1 1)矩阵乘法)矩阵乘法 按按住住鼠鼠标标左左键键拖拖放放选选定定存存放放结结果果的的单单元元格格区区域域,输输入入计计算公式算公式=MMULT( )=MMULT( )按按Ctrl+Shift+EnterCtrl+Shift+Enter复合键确认。复合键确认。(2 2)矩阵转置)矩阵转置 按按住住鼠鼠标标左左键键拖拖放放选选定定存存放放结结果果的的单单元元格格区区域域,输输入入计计算公式算公式=TRANSPOSE( )=TRANSPOSE( )按按Ctrl+Shift+EnterCtrl+Shift+Enter复合键确认。复合键确认。(3 3)逆矩阵)逆矩阵 按住鼠标左键拖放选定存放结果的单元格区域,输入计按住鼠标左键拖放选定存放结果的单元格区域,输入计算公式算公式=MINVERSE( )=MINVERSE( )按按Ctrl+Shift+EnterCtrl+Shift+Enter复合键确认。复合键确认。2021/6/413143.3 3.3 最小二乘估计量的特性最小二乘估计量的特性1.1.线性性线性性所谓线性性是指最小二乘估计量所谓线性性是指最小二乘估计量 是被解释变量是被解释变量Y的观的观测值的线性函数。测值的线性函数。多元线性回归模型参数的最小二乘估计向量为多元线性回归模型参数的最小二乘估计向量为令令 则则矩阵矩阵A是一个非随机的常数矩阵。线性性得证。是一个非随机的常数矩阵。线性性得证。2021/6/414152.2.无偏性无偏性2021/6/415163.3.最小方差性(有效性)最小方差性(有效性)2021/6/41617证明思路:证明思路: 如果模型参数向量的任意其他线性无偏估计如果模型参数向量的任意其他线性无偏估计量量( (b) )的协方差矩阵的协方差矩阵Var(Var(b) ),与最小二乘估计的协,与最小二乘估计的协方差矩阵方差矩阵Var( )Var( )之间,都满足之间,都满足Var(Var(b)-Var( )-Var( )是是半正定矩阵半正定矩阵(Var(Var(b)-Var( )0)-Var( )0),那么最小二乘,那么最小二乘估计的最小方差性得到证明。估计的最小方差性得到证明。2021/6/41718具体证明:具体证明:因为所设因为所设b是线性无偏估计向量,因此可以表示为是线性无偏估计向量,因此可以表示为 b=BY又因为又因为b是无偏估计,因此是无偏估计,因此 E(b)=E(BY)=EB(X+U)=E(BX+BU) =BX+BE(U)=BX=所以必然有所以必然有BX=I计算计算b的方差,有的方差,有Var(b)=VarB(X+U)=Var(+BU) =Var(BU)=BVar(U)B=BB22021/6/41819 根据矩阵代数知识,任意矩阵与自身转置的乘积都根据矩阵代数知识,任意矩阵与自身转置的乘积都是半正定矩阵,因此是半正定矩阵,因此 这意味着这意味着 为半正定矩阵。这样的协方差矩阵之为半正定矩阵。这样的协方差矩阵之差差 也是半正定矩阵。因此多元线性回归参数的最小二也是半正定矩阵。因此多元线性回归参数的最小二乘估计是最小方差的线性无偏估计。乘估计是最小方差的线性无偏估计。2021/6/41920高斯高斯马尔可夫定理:马尔可夫定理:如果基本假定如果基本假定(1)-(5)(1)-(5)成立,则最小二乘估计量成立,则最小二乘估计量 是是的最优线性无偏估计量的最优线性无偏估计量(Best Linear (Best Linear Unbiased EstimateUnbiased Estimate,简记为,简记为BLUE)BLUE),也就是说在,也就是说在的所有线性无偏估计量中,的所有线性无偏估计量中, 具有最小方差性。具有最小方差性。2021/6/420213.4 3.4 可决系数可决系数1.1.总离差平方和的分解公式总离差平方和的分解公式 TSS=RSS+ESS TSS=RSS+ESS2.2.多元样本可决系数多元样本可决系数不难发现可决系数只与被解释变量的观测值以及不难发现可决系数只与被解释变量的观测值以及回归残差有关,而与解释变量无直接关系。因此回归残差有关,而与解释变量无直接关系。因此可以将它直接推广到多元线性回归分析,作为评可以将它直接推广到多元线性回归分析,作为评价多元线性回归拟合优度的指标。价多元线性回归拟合优度的指标。2021/6/42122 但是需注意:多元线性回归模型解释变量的但是需注意:多元线性回归模型解释变量的数目有多有少,而上述可决系数数目有多有少,而上述可决系数R R2 2又可以证明是解又可以证明是解释变量数目的增函数。这意味着不管增加的解释释变量数目的增函数。这意味着不管增加的解释变量是否对改善模型、拟合程度有意义,解释变变量是否对改善模型、拟合程度有意义,解释变量个数越多,可决系数一定会越大。因此,以这量个数越多,可决系数一定会越大。因此,以这种可决系数衡量多元回归模型的拟合优度是有问种可决系数衡量多元回归模型的拟合优度是有问题的,而且会导致片面追求解释变量数量的错误题的,而且会导致片面追求解释变量数量的错误倾向。正是由于存在这种缺陷,可决系数倾向。正是由于存在这种缺陷,可决系数R R2 2在多元在多元线性回归分析拟合优度评价方面的作用受到很大线性回归分析拟合优度评价方面的作用受到很大的限制。的限制。2021/6/42223克服可决系数克服可决系数R R2 2上述缺陷的方法,是对可决系数进上述缺陷的方法,是对可决系数进行适当的调整,采用如下调整的可决系数:行适当的调整,采用如下调整的可决系数:用这个调整的可决系数作为评价多元回归拟合优用这个调整的可决系数作为评价多元回归拟合优度的评价标准,可以基本消除由于解释变量数目度的评价标准,可以基本消除由于解释变量数目的差异所造成的影响,更加合理和具有可比性。的差异所造成的影响,更加合理和具有可比性。2021/6/42324 与与R R2 2有如下关系:有如下关系:当当n n较大和较大和k k较小时,两者差别不大,但当较小时,两者差别不大,但当n n不不很大而很大而k k又较大时,两者的差别是比较明显的。又较大时,两者的差别是比较明显的。(1)(1)若若k1k1,则,则 R R2 2;(2) (2) 可能出现负值。此情形下,取可能出现负值。此情形下,取 =0 =0。2021/6/424253.5 3.5 显著性检验显著性检验1.1.回归方程的显著性检验(回归方程的显著性检验(F F检验)检验)回归方程的显著性检验,是指在一定的显著性水平下,从回归方程的显著性检验,是指在一定的显著性水平下,从总体上对模型中被解释变量与解释变量之间的线性关系是总体上对模型中被解释变量与解释变量之间的线性关系是否显著成立进行的一种统计检验。否显著成立进行的一种统计检验。2021/6/42526F F检验的步骤:检验的步骤:第一步:提出假设:原假设第一步:提出假设:原假设H H0 0:1 1=2 2= =k k=0=0。 备择假设备择假设H H1 1:至少有一个:至少有一个j j不等于零不等于零(j=1,2,(j=1,2,k),k)。第二步:构造第二步:构造F F统计量:统计量:第三步:给定显著水平第三步:给定显著水平,查查F F分布临界值分布临界值F F(k,n-k-1)(k,n-k-1)2021/6/42627第四步:做出统计决策:第四步:做出统计决策: 若若FFFF(k,n-k-1)(k,n-k-1)时,拒绝时,拒绝H H0 0,接受,接受H H1 1,则认为,则认为在显著性水平在显著性水平下,被解释变量与解释变量之间的线下,被解释变量与解释变量之间的线性相关关系显著即回归方程显著;若性相关关系显著即回归方程显著;若FFFF(k,n-k-1)(k,n-k-1)时,时,接受接受H H0 0,则认为被解释变量与解释变量之间的线性相,则认为被解释变量与解释变量之间的线性相关关系不显著,即回归方程不显著。关关系不显著,即回归方程不显著。2021/6/42728因为因为 ,检验统计量还可以表示为,检验统计量还可以表示为2021/6/428292.2.解释变量的显著性检验(解释变量的显著性检验(t t检验)检验)解释变量的显著性检验,是指在一定的显著性水平下,解释变量的显著性检验,是指在一定的显著性水平下,检验模型的解释变量是否对被解释变量有显著影响的检验模型的解释变量是否对被解释变量有显著影响的一种统计检验。一种统计检验。2021/6/42930t t检验的步骤:检验的步骤:第一步:提出假设:原假设第一步:提出假设:原假设H H0 0:i i=0=0,备择假设,备择假设H H1 1:i i00。其中其中i=1,2,i=1,2,k,k第二步:构造第二步:构造t t统计量:统计量:第三步:给定显著性水平第三步:给定显著性水平,查,查t t分布临界值分布临界值t t/2/2(n-k-1) (n-k-1) 。2021/6/43031第四步:做出统计决策:第四步:做出统计决策: 当当|t|ti i|t|t/2/2(n-k-1)(n-k-1)时,拒绝原假设时,拒绝原假设H H0 0,接受备,接受备择假设择假设H H1 1,认为,认为i i显著不为零,说明解释变量显著不为零,说明解释变量X Xi i对被对被解释变量解释变量Y Y的线性相关关系显著;当的线性相关关系显著;当|t|ti i|t|t/2/2(n-k-1)(n-k-1)时,接受原假设时,接受原假设H H0 0,拒绝备择假设,拒绝备择假设H H1 1,认为,认为i i与零没与零没有显著差异,说明解释变量有显著差异,说明解释变量X Xi i对被解释变量对被解释变量Y Y的线性相的线性相关关系不显著。关关系不显著。2021/6/43132补充:相关系数分析补充:相关系数分析多重样本决定系数定义为多重样本决定系数定义为R R2 2, ,我们可以把我们可以把R R定义为被解释变量定义为被解释变量Y Y关于关于X X1 1,X,X2 2, ,X,Xk k的复相关系数。的复相关系数。很显然,复相关系数很显然,复相关系数R R反映了被解释变量反映了被解释变量Y Y关于一关于一组解释变量组解释变量X X1 1,X,X2 2, ,X,Xk k之间的线性相关程度。之间的线性相关程度。简单相关系数:简单相关系数:解释变量解释变量X Xk k与与X Xl l之间的相关系数称为简单相关系数之间的相关系数称为简单相关系数r rklkl。2021/6/432333.6 3.6 预测预测1.1.点预测点预测求对应解释变量的一组特定值求对应解释变量的一组特定值X X0 0=(1,X=(1,X1010,X,X2020, ,X,Xk0k0) )的被解释的被解释变量值变量值Y Y0 0的估计。得到回归直线以后,点预测是比较简单的,的估计。得到回归直线以后,点预测是比较简单的,只要把只要把X X0 0=(1,X=(1,X1010, ,X,Xk0k0) )代入回归直线,得到代入回归直线,得到就是对就是对Y Y0 0的一个估计,也就是点预测。的一个估计,也就是点预测。2021/6/433342.2.区间预测区间预测(1)Y Y0 0的预测区间的预测区间令令e e0 0=Y=Y0 0- - 且可知且可知e e0 0方差的估计量为方差的估计量为2021/6/434因为因为所以有所以有由于由于2 2未知,用无偏估计量未知,用无偏估计量 代替,则有代替,则有352021/6/435给定显著性水平给定显著性水平,查自由度为查自由度为n-k-1n-k-1的的t t分布表,得临界分布表,得临界值值t t/2/2(n-k-1),t(n-k-1),t值落在值落在(-t(-t/2/2,t,t/2/2) )的概率是的概率是1-1-,即,即P P-t-t/2/2tttt/2/2=1-=1-整理得整理得或者或者最后得在置信度最后得在置信度1-1-下,下,Y Y0 0的预测区间为的预测区间为362021/6/436部分资料从网络收集整理而来,供大家参考,感谢您的关注!
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号