资源预览内容
第1页 / 共70页
第2页 / 共70页
第3页 / 共70页
第4页 / 共70页
第5页 / 共70页
第6页 / 共70页
第7页 / 共70页
第8页 / 共70页
第9页 / 共70页
第10页 / 共70页
亲,该文档总共70页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
数据分析 (方法与案例)作者 贾俊平统计学统 计 学Date10 - 2统计学 STATISTICS (第四版)好的模型选择可遵循一个称为奥 克姆剃刀(Occams Razor)的基本 原理:最好的科学模型往往最简 单,且能解释所观察到的事实。William Navidi统计名言统计名言Date第 10 章 多元线性回归10.1 多元线性回归模型 10.2 拟合优度和显著性检验 10.3 多重共线性及其处理 10.4 利用回归方程进行预测 10.5 哑变量回归Date10 - 4统计学 STATISTICS (第四版)学习目标l多元线性回归模型、回归方程与估计的回 归方程 l回归方程的拟合优度与显著性检验 l多重共线性问题及其处理 l利用回归方程进行预测 l哑变量的回归 l用Excel和SPSS进行回归分析Date10 - 5统计学 STATISTICS (第四版)身高受那些因素影响? 决定身高的因素是什么?父母遗传、生活环境、体育锻 炼,还是以上各因素的共同作用 2004年12月,中国人民大学国民经济管理系02级的两位 学生,对人大在校生进行了问卷调查。问卷采取随机发放 、当面提问当场收回 调查的样本量为98人,男性55人,女性43人。调查内容 包括被调查者的身高(单位:cm)、性别、其父母身高、是 否经常参加体育锻炼、家庭所在地是在南方还是在北方等 等。部分数据如教材中的表所示(1代表男性,0代表女性) 父亲身高、母亲身高、性别是不是影响子女身高的主要 因素呢?如果是,子女身高与这些因素之间能否建立一个 线性关系方程,并根据这一方程对身高做出预测? 这就是本章将要讨论的多元线性回归问题 Date10.1 10.1 多元线性回归模型多元线性回归模型10.1.1 10.1.1 回归模型与回归方程回归模型与回归方程10.1.2 10.1.2 参数的最小二乘估计参数的最小二乘估计第 10 章 多元线性回归Date10.1.1 回归模型与回归方程10.1 10.1 多元多元线线线线性回性回归归归归模型模型Date10 - 8统计学 STATISTICS (第四版)多元回归模型(multiple linear regression model) 一个因变量与两个及两个以上自变量的回归 描述因变量 y 如何依赖于自变量 x1 , x2 , xk 和误差项 的方程,称为多元回归模型 涉及 k 个自变量的多元线性回归模型可表示为 0 0 , 1 1, , k k是参数是参数 是被称为误差项的随机变量是被称为误差项的随机变量 y y 是是x x1, 1,,x x2 2 , ,x xk k的线性函数加上误差项的线性函数加上误差项 包含在包含在y y里面但不能被里面但不能被k k个自变量的线性关系个自变量的线性关系 所解释的变异性所解释的变异性Date10 - 9统计学 STATISTICS (第四版)多元回归模型 (基本假定) 正态性。误差项是一个服从正态分布的 随机变量,且期望值为0,即N(0,2) 方差齐性。对于自变量x1,x2,xk的 所有值, 的方差 2都相同 独立性。对于自变量x1,x2,xk的一 组特定值,它所对应的与任意一组其他 值所对应的不相关Date10 - 10统计学 STATISTICS (第四版)多元线性回归方程(multiple linear regression equation) 描述因变量 y 的平均值或期望值如何依赖 于自变量 x1, x2 ,xk的方程 多元线性回归方程的形式为E( y ) = 0+ 1 x1 + 2 x2 + k xk 1 1, , k k称为偏回归系数称为偏回归系数 i i 表示假定其他变量不变,当表示假定其他变量不变,当 x xi i每每 变动一个单位时,变动一个单位时,y y 的平均变动值的平均变动值Date10 - 11统计学 STATISTICS (第四版)二元回归方程的直观解释二元二元线性回归模型线性回归模型( (观察到的观察到的y y) )回归面回归面 0 0 i ix x1 1y yx x2 2( (x x1 1, ,x x2 2) ) Date10 - 12统计学 STATISTICS (第四版)估计的多元线性回归的方程 (estimated multiple linear regression equation) 是是 估计值估计值 是是 y y 的估计值的估计值 用样本统计量 估计回归方 程中的 参数 时得到的方程 由最小二乘法求得 一般形式为Date10.1.2 参数的最小二乘估计10.1 10.1 多元多元线线线线性回性回归归归归模型模型Date10 - 14统计学 STATISTICS (第四版)参数的最小二乘估计2.2. 求求解解各回归参数的标准方程如下各回归参数的标准方程如下1.1. 使使因变量的观察值与估计值之间的离差平方和因变量的观察值与估计值之间的离差平方和 达到最小来求得达到最小来求得 。即即Date10 - 15统计学 STATISTICS (第四版)参数的最小二乘法 (例题分析)【例例10-110-1】一家商业银行在多个地区设有分行,其业务主要一家商业银行在多个地区设有分行,其业务主要 是进行基础设施建设、国家重点项目建设、固定资产投资是进行基础设施建设、国家重点项目建设、固定资产投资 等项目的贷款。近年来,该银行的贷款额平稳增长,但不等项目的贷款。近年来,该银行的贷款额平稳增长,但不 良贷款额也有较大比例的提高,这给银行业务的发展带来良贷款额也有较大比例的提高,这给银行业务的发展带来 较大压力。为弄清楚不良贷款形成的原因,希望利用银行较大压力。为弄清楚不良贷款形成的原因,希望利用银行 业务的有关数据做些定量分析,以便找出控制不良贷款的业务的有关数据做些定量分析,以便找出控制不良贷款的 办法。试建立不良贷款办法。试建立不良贷款y y与贷款余额与贷款余额x x1 1、累计应收贷款累计应收贷款x x2 2、贷款项目个数贷款项目个数x x3 3和固定资产投资额和固定资产投资额x x4 4的线性回归方程,的线性回归方程, 并解释各回归系数的含义并解释各回归系数的含义 进行回归进行回归进行回归进行回归Date10 - 16统计学 STATISTICS (第四版)参数的最小二乘估计 (Excel输出结果)F F检验检验t t 检验检验偏回归系数偏回归系数Date10 - 17统计学 STATISTICS (第四版)参数的最小二乘估计 (SPSS输出结果)Date10.2 10.2 拟合优度和显著性检验拟合优度和显著性检验10.2.1 10.2.1 回归方程的拟合优度回归方程的拟合优度10.2.2 10.2.2 显著性检验显著性检验第 10 章 多元线性回归Date10.2.1 回归方程的拟合优度10.2 10.2 拟拟拟拟合合优优优优度和度和显显显显著性著性检检检检 验验验验Date10 - 20统计学 STATISTICS (第四版)多重判定系数 (multiple coefficient of determination) 回归平方和占总平方和的比例 计算公式为 因变量取值的变差中,能被估计的多元回 归方程所解释的比例 Date10 - 21统计学 STATISTICS (第四版)修正多重判定系数(adjusted multiple coefficient of determination) 用样本量n和自变量的个数k去修正R2得到 计算公式为 避免增加自变量而高估 R2 意义与 R2类似 数值小于R2输出结果输出结果Date10 - 22统计学 STATISTICS (第四版)多重相关系数(multiple correlation coefficient) 多重判定系数的平方根R 反映因变量y与k个自变量之间的相关程度 实际上R度量的是因变量的观测值 与由 多元回归方程得到的预测值 之间的关系 强度,即多重相关系数R等于因变量的观 测值 与估计值 之间的简单相关系数即 (一元相关系数r也是如此 ,即 。读者自己去验证)Date10 - 23统计学 STATISTICS (第四版)估计标准误差 Se 对误差项的标准差 的一个估计值 衡量多元回归方程的拟合优度 计算公式为输出结果输出结果Date10.2.2 显著性检验10.2 10.2 拟拟拟拟合合优优优优度和度和显显显显著性著性检检检检 验验验验Date10 - 25统计学 STATISTICS (第四版)线性关系检验 检验因变量与所有自变量之间的线性关系是 否显著 也被称为总体的显著性检验 检验方法是将回归均方(MSR)同残差均方 (MSE)加以比较,应用 F 检验来分析二者之 间的差别是否显著n如果是显著的,因变量与自变量之间存在 线性关系 n如果不显著,因变量与自变量之间不存在 线性关系Date10 - 26统计学 STATISTICS (第四版)线性关系检验 提出假设 nH0:12k=0 线性关系不显著nH1:1,2, k至少有一个不等于02. 2. 计算计算检验统计量检验统计量F F3.3. 确定确定显著性水平显著性水平 和分子自由度和分子自由度k k、分母自由度、分母自由度n-kn-k -1-1找出临界值找出临界值F F 4. 4. 作出作出决策:若决策:若F F F F ,拒绝拒绝H H0 0输出结果输出结果Date10 - 27统计学 STATISTICS (第四版)回归系数的检验 线性关系检验通过后,对各个回归系数有 选择地进行一次或多次检验 究竟要对哪几个回归系数进行检验,通常 需要在建立模型之前作出决定 对回归系数检验的个数进行限制,以避免 犯过多的第类错误(弃真错误) 对每一个自变量都要单独进行检验 应用 t 检验统计量Date10 - 28统计学 STATISTICS (第四版)回归系数的检验 (步骤) 提出假设nH0: i = 0 (自变量 xi 与 因变量 y 没有线性 关系) nH1: i 0 (自变量 xi 与 因变量 y有线性关 系) 计算检验的统计量 t3.3. 确定显著性水平确定显著性水平 ,并进行决策,并进行决策 t t t t ,拒绝拒绝H H0 0; t t t t ,不拒绝,不拒绝H H0 0输出结果输出结果Date10 - 29统计学 STATISTICS (第四版)回归系数的推断(置信区间)回归系数在(1-)%置信水平下的置信区间 为
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号