应用线性回归分析第二章课件-

应用线性回归分析第二章课件例例 2.1 燃料消耗燃油消耗数据是燃油消耗数据是Chistopher Binghan 从从1974年的年的美国年鉴上收集的。下面利用这些数据研究燃油消耗与其美国年鉴上收集的。下面利用这些数据研究燃油消耗与其他变量之间的函数关系。他变量之间的函数关系。很明显，燃油消耗受很明显，燃油消耗受很多因素的影响，只用一个很多因素的影响，只用一个解释变量已很难分析燃油消耗数据解释变量已很难分析燃油消耗数据, 还需要寻求有更多还需要寻求有更多个解释变量情况的回归分析方法。个解释变量情况的回归分析方法。数据见书数据见书p36. 2 2.1 2.1 多元线性回归模型多元线性回归模型本节基本内容本节基本内容: : 一、多元线性回归模型的意义一、多元线性回归模型的意义二、多元线性回归模型的矩阵表示二、多元线性回归模型的矩阵表示三、多元线性回归中的基本假定三、多元线性回归中的基本假定 3一般形式：对于有一般形式：对于有p个解释变量的线性回归模型个解释变量的线性回归模型模型中参数模型中参数是偏回归系数，是偏回归系数，样本容量样本容量为为n.偏回归系数：控制其它解释量不变的条件下，第偏回归系数：控制其它解释量不变的条件下，第j 个解释变量的单位变动对应变量平均值的影响个解释变量的单位变动对应变量平均值的影响。4指对各个回归系数而言是指对各个回归系数而言是“线性线性”的，对变量则可的，对变量则可是线性的，也可是非线性的是线性的，也可是非线性的例如：生产函数例如：生产函数取自然对数取自然对数多元线性回归多元线性回归5 的总体条件均值表示为多个解释变量的函数的总体条件均值表示为多个解释变量的函数总体回归函数也可表示为总体回归函数也可表示为: : 多元总体回归函数多元总体回归函数6 的样本条件均值表示为多个解释变量的的样本条件均值表示为多个解释变量的函数函数或或回归剩余（残差）：回归剩余（残差）：多元样本回归函数多元样本回归函数7二、多元线性回归模型的矩阵表二、多元线性回归模型的矩阵表示示个解释变量的多元线性回归模型的个解释变量的多元线性回归模型的个观测个观测样本，可表示为样本，可表示为 8用矩阵表示用矩阵表示9总总体体回回归归函函数数或或样样本本回回归归函函数数或或其其中中：都都是是有有个个元元素素的的列列向向量量是是有有个个元元素素的的列列向向量量是是第第一一列列为为1 1的的阶阶解解释释变变量量数数据据矩矩阵阵 ( (截截距距项项可可视视为为解解释释变变量量取取值值为为1 1) )总体回归函数:E(Y)=X样本回归函数：其中：Y，都是n维列向量，X是n (p+1)矩阵。10三、多元线性回归中的基本假三、多元线性回归中的基本假定定假定假定1 1：零均值假定零均值假定或或假定假定2 2和假定和假定3 3：同方差和无自相关假定：同方差和无自相关假定假定假定4 4：随机扰动项与解释变量不相关：随机扰动项与解释变量不相关 11假定假定5:5:无多重共线性假定无多重共线性假定 ( (多元中多元中) ) 假定各解释变量之间不存在线性关系，或各个假定各解释变量之间不存在线性关系，或各个解释变量观测值之间线性无关。或解释变量观测解释变量观测值之间线性无关。或解释变量观测值矩阵值矩阵列满秩列满秩( ( p+1 p+1 列列) )。即即可逆可逆假定假定6 6：正态性假定正态性假定12 多元线性回归模型的估计多元线性回归模型的估计本节基本内容本节基本内容: : 普通最小二乘法（普通最小二乘法（OLSOLS） OLS OLS估计式的性质估计式的性质 OLS OLS估计的分布性质估计的分布性质随机扰动项方差随机扰动项方差的估计的估计回归系数的区间估计回归系数的区间估计13 一、普通最小二乘法一、普通最小二乘法（OLSOLS）最小二乘原则最小二乘原则剩余平方和最小：剩余平方和最小：求偏导求偏导, ,令其为令其为0:0:14即即注意到注意到15 用矩阵表示用矩阵表示因为样本回归函数为因为样本回归函数为两边乘两边乘 X X 有：有：因为因为，则正规方程为：，则正规方程为：16 由正规方程由正规方程多元回归中多元回归中二元回归中二元回归中注意：注意：和和为为的离差的离差 OLS估计式估计式171819 随机扰动项方差随机扰动项方差的估计的估计20二、二、OLS估计式的性质估计式的性质 OLS估计式 1.1.线性特征线性特征: : 是是的线性函数，因的线性函数，因是非随机是非随机或取固定值的矩阵或取固定值的矩阵 2. 2.无偏特性无偏特性: : 213.最小方差特性最小方差特性在在所有的线性无偏估计中，所有的线性无偏估计中，OLS估计估计具有具有最小方差最小方差结论结论：在古典假定下，多元线性回归的在古典假定下，多元线性回归的OLS估计估计式是最佳线性无偏估计式（式是最佳线性无偏估计式（BLUE）2223三、三、OLS估计的分布性质估计的分布性质基本思想基本思想是是随随机机变变量量，必必须须确确定定其其分分布布性性质质才才可可能进行区间估计和假设检验能进行区间估计和假设检验是是服服从从正正态态分分布布的的随随机机变变量量, ,决决定定了了也也是服从正态分布的随机变量是服从正态分布的随机变量是是的的线线性性函函数数, ,决决定定了了也也是是服服从从正正态态分布的随机变量分布的随机变量24中心化模型回归系数的估计中心化模型为矩阵形式为252627282930 多元回归中多元回归中的无偏估计为：的无偏估计为：或表示为或表示为将将作标准化变换：作标准化变换： 31因因是未知的，可用是未知的，可用代替代替去估计参数去估计参数的标的标准误差准误差:当为大样本时，用估计的参数标准误差对当为大样本时，用估计的参数标准误差对作标作标准化变换，所得准化变换，所得Z统计量仍可视为服从正态分布统计量仍可视为服从正态分布当为小样本时，用估计的参数标准误差对当为小样本时，用估计的参数标准误差对作标作标准化变换，所得的准化变换，所得的t统计量服从统计量服从t分布：分布： 32五、回归系数的区间估计五、回归系数的区间估计由于由于给定给定，查，查t分布表的自由度为分布表的自由度为的临界值的临界值或或: :或表示为或表示为: :33多元线性回归模型的检验多元线性回归模型的检验本节基本内容本节基本内容: : 多元回归的拟合优度检验多元回归的拟合优度检验回归方程的显著性检验（回归方程的显著性检验（F F检验）检验）各回归系数的显著性检验（各回归系数的显著性检验（t t检验）检验）34多重可决系数多重可决系数：一、多元回归的拟合优度检验一、多元回归的拟合优度检验35多重可决系数的矩阵表示多重可决系数的矩阵表示36特点特点：多重可决系数是模型中解释变量个数的多重可决系数是模型中解释变量个数的不减函数不减函数，这给对比不同模型的多重可这给对比不同模型的多重可决系数带来缺陷，所以需要修正。决系数带来缺陷，所以需要修正。3738思想思想可决系数只涉及变差，没有考虑可决系数只涉及变差，没有考虑自由度自由度。如果用。如果用自由度去校正所计算的变差，可纠正解释变量个自由度去校正所计算的变差，可纠正解释变量个数不同引起的对比困难。数不同引起的对比困难。自由度自由度统计量的自由度统计量的自由度指可自由变化的样本观测值个数，指可自由变化的样本观测值个数，它等于所用样本观测值的个数减去对观测值的约它等于所用样本观测值的个数减去对观测值的约束个数。束个数。修正的可决系数修正的可决系数39可决系数的修正方法可决系数的修正方法40 特点特点可决系数可决系数必定非负，但修正的可决系数必定非负，但修正的可决系数可能为负值，这时规定可能为负值，这时规定修正的可决系数修正的可决系数与可决系数与可决系数的关系：的关系：41二、回归方程显著性检验（二、回归方程显著性检验（F F检验检验）基本思想基本思想在多元回归中有多个解释变量，需要说明所有解在多元回归中有多个解释变量，需要说明所有解释变量联合起来对应变量影响的总显著性释变量联合起来对应变量影响的总显著性,或整个或整个方程总的联合显著性。对方程总显著性检验需要方程总的联合显著性。对方程总显著性检验需要在方差分析的基础上进行在方差分析的基础上进行F检验。检验。42回归方程以及回归系数的显著性回归方程以及回归系数的显著性检验检验 434445方差分析表方差分析表自由度 k-1n-k变差来源总变差平方和回归平方和残差平方和46 原假设原假设备择假设备择假设不全为不全为0 0 建立统计量建立统计量( (可以证明可以证明):): 给定显著性水平给定显著性水平，查，查F F分布表得临界值分布表得临界值并通过样本观测值计算并通过样本观测值计算值值F检验检验47如果如果 ( (小概率事件发生了小概率事件发生了) ) 则则拒拒绝绝，说说明明回回归归模模型型有有显著意义，即所有解释变量联合起来对显著意义，即所有解释变量联合起来对有显著影响。有显著影响。如果如果 ( (大概率事件发生了大概率事件发生了) ) 则则接接受受，说说明明回回归归模模型型没有显著意义，即所有解释变量联合起来对没有显著意义，即所有解释变量联合起来对没有显著影响。没有显著影响。48可决系数与可决系数与F检验检验由方差分析可以看出，由方差分析可以看出，F检验与可决系数有密切联系，二者检验与可决系数有密切联系，二者都建立在对应变量变差分解的基础上。都建立在对应变量变差分解的基础上。F统计量也可通过可统计量也可通过可决系数计算：决系数计算：可看出：当可看出：当时，时，越大，越大，值也越大值也越大当当时，时，结结论论：对对方方程程联联合合显显著著性性检检验验的的F检检验验，实实际际上上也也是是对对的的显著性检验显著性检验。 49三、各回归系数的显著性检验三、各回归系数的显著性检验（t t 检验）检验）目的：目的：在在多多元元回回归归中中，分分别别检检验验当当其其他他解解释释变变量量保保持持不不变变时，各个解释变量时，各个解释变量对应变量对应变量是否有显著影响。是否有显著影响。方法：方法：原假设原假设备择假设备择假设统计量为：统计量为： 50t检验的方法检验的方法给给定定显显著著性性水水平平，查查自自由由度度为为时时t分分布布表表的的临界值为临界值为如果如果就不拒绝就不拒绝而拒绝而拒绝即即认认为为所所对对应应的的解解释释变变量量对对应应变变量量的的影影响不显著。响不显著。 51 如果如果就拒绝就拒绝而不拒绝而不拒绝即认为即认为所对应的解释变量所对应的解释变量对应变量对应变量的影响的影响是显著的。是显著的。在多元回归中，可分别对每个回归系数逐个地进在多元回归中，可分别对每个回归系数逐个地进行行t检验。检验。注意注意:在一元回归中在一元回归中F检验与检验与t检验等价检验等价,且且但在多元回归中但在多元回归中F检验与检验与t检验作用不同。检验作用不同。52多元线性回归模型的预测多元线性回归模型的预测本节基本内容本节基本内容: : 应变量平均值预测应变量平均值预测应变量个别值预测应变量个别值预测53一、应变量平均值预测一、应变量平均值预测 1. 1. 平均值的点预测平均值的点预测将解释变量预测值代入估计的方程：将解释变量预测值代入估计的方程：多元回归时：多元回归时：或或注意注意: :预测期的预测期的是第一个元素为是第一个元素为1 1的行向量的行向量, ,不是矩阵不是矩阵, ,也不是列向量也不是列向量 54基本思想：基本思想：由于存在抽样波动，预测的平均值由于存在抽样波动，预测的平均值不一定不一定等于真实平均值等于真实平均值，还需要对，还需要对作区间估计。作区间估计。为对为对作区间预测，必须确定平均值预测值作区间预测，必须确定平均值预测值的抽样分布。必须找出与的抽样分布。必须找出与和和都有都有关的统计量关的统计量。 2. 2. 平均值的区间预测平均值的区间预测55 具体作法具体作法 ( (回顾一元回归回顾一元回归) )当当未知未知时，只得用时，只得用代替，代替，这时这时一元中已知一元中已知56多元回归时多元回归时, ,与与和和都有关的是偏差都有关的是偏差从正态分布从正态分布, ,可证明可证明用用代替代替 , ,可构造可构造t统计量统计量 57 则给定显著性水平则给定显著性水平，查，查t分布表，得自由度分布表，得自由度的临界值的临界值，则，则或或58二、应变量个别值预测二、应变量个别值预测基本思想：基本思想：既是对既是对平均值的点预测，也是对平均值的点预测，也是对个别值个别值的点预测。的点预测。由于存在随机扰动由于存在随机扰动的影响的影响, , 的平均值并不的平均值并不等于等于的个别值的个别值为了对为了对的个别值的个别值作区间预测，需要寻找与作区间预测，需要寻找与预测值预测值和个别值和个别值有关的统计量，并要明确其有关的统计量，并要明确其概率分布概率分布59已知剩余项已知剩余项是与预测值是与预测值和个别值和个别值都有关的都有关的变量，并且已知变量，并且已知服从正态分布，且可证明服从正态分布，且可证明当用当用代替代替时，对时，对标准化的变标准化的变量为：量为：具体作法具体作法60给定显著性水平给定显著性水平，查，查t分布表得自由度为分布表得自由度为的的临界值临界值则则因此，多元回归时因此，多元回归时的个别值的置信度的个别值的置信度的预的预测区间的上下限为：测区间的上下限为：612.4 在简单回归模型上增加一个自变在简单回归模型上增加一个自变量量6263偏相关偏相关64正交性正交性652.5 附加变量图附加变量图66附加变量图的性质附加变量图的性质67（1）由两个自变量来解释因变量，总共被解释的百分比（测定系数）一定超过分别由每个变量所解释的变化的两个值中最大的一个。（2）当两个变量的完全不相关且测量完全不同的东西时，解释的总百分比等于两个分别解释百分比相加。如果两个变量相关，则解释的总的变化一定小于两个之和。增加一个变量的作用68（3）如果两个变量相互作用，知道两者比知道其中之一要有多的多的信息，则总变化可能超过分别解释变化之和。例如，只知道矩形的长或宽是难以确定面积，但如果同时知道长和宽，则能够准确地确定面积。若附加变量图所显示的关系比一般散点图更强的关系，则说明自变量有相互作用，解释变化大于总和；而如果关系减弱，则总共解释的变化小于总和。（4）正是由于无法根据响应变量分别和每个自正是由于无法根据响应变量分别和每个自变量的关系来预测响应变量和自变量的关系，才变量的关系来预测响应变量和自变量的关系，才使得多元回归丰富和复杂。使得多元回归丰富和复杂。69通过原点的回归通过原点的回归70序贯方差分析表序贯方差分析表第二次世界大战时，为军需验收工作的需要，瓦尔德发展了一种一般性的序贯检验方法，叫序贯概率比检验（简称SPRT）。序贯分析，数理统计学的一个分支，其名称源出于A.瓦尔德在1947年发表的一本同名著作，它研究的对象是所谓“序贯抽样方案”，及如何用这种抽样方案得到的样本去作统计推断。71谢谢观赏！2020/11/572