资源预览内容
第1页 / 共48页
第2页 / 共48页
第3页 / 共48页
第4页 / 共48页
第5页 / 共48页
第6页 / 共48页
第7页 / 共48页
第8页 / 共48页
第9页 / 共48页
第10页 / 共48页
亲,该文档总共48页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
【例】假定一保险公司希望确定居民住宅区火灾造成的 损失数额与该住户到最近的消防站的距离之间的相关关 系,以便准确地定出保险金额。下表列出了15起火灾事 故的损失及火灾发生地与最近的消防站的距离。距消防站距离 x(km)3.41.84.62.33.15.50.73.0火灾损损失y(千元 )26.217.831.323.127.536.014.122.3距消防站距离 x(km)2.64.32.11.16.14.83.8火灾损损失y(千元 )19.631.324.017.343.236.426.1v 建立实际问题回归模型的过程具体问题设置指标变量收集整理数据构造理论模型估计模型参数模型检验模型应用修改 N Y回归分析方法v 回归分析用于解决什么问题?要认识和掌握市场的发展规律需要探求现 象之间各个变量的变化规律,变量间的统计 关系是市场发展变化规律的重要特征。 一种极端的情况下一个变量的变化能完全 决定另一个变量的变化。 现实世界中还有不少情况是两事物之间有 着密切的联系,但它们密切的程度并没有到 由一个可以完全确定另一个的程度。长江刀鱼是“长江三鲜”之一,本来 每年春季吃长江刀鱼是一种风俗, 但如今长江刀鱼产量越来越低,已 经成为了奢饰品,据悉市场上已经 卖到八千元一斤。近日在江苏举办 的长江刀鱼王公益拍卖会上,一条 重325克的长江刀鱼王拍出了59000 元的天价,可见如今长江刀鱼已经 稀少的堪比黄金价。 回归分析的基本概念v回归分析研究的主要对象是客观事物变量间的统 计关系,它是建立在对客观事物进行大量试验和 观察的基础上,用来寻找隐藏在那些看上去是不 确定的现象中的统计规律性的统计方法。F 回归分析(regression analysis)是研究 一个变量关于另一个(些)变量的具体依 赖关系的计算方法和理论。 F 其目的在于通过后者的已知或设定值,去 估计和(或)预测前者的(总体)均值。 F 被解释变量(Explained Variable)或应 变量(Dependent Variable)。 F 解释变量(Explanatory Variable)或自 变量(Independent Variable)。一、 回归模型的构建预测对象影响因素 影响因素影响因素关系选择自变量拟定应变量模型基本形式研究基础:大量可靠数据一、 回归模型的构建问题一:我们能否获得所有数据?【例】一个假想的社区有99户家庭组成,要研究该社区每月 家庭消费支出Y与每月家庭可支配收入X的关系。 即如果知 道了家庭的月收入,能否预测该社区家庭的平均月消费支出 水平。v回归分析关心的是根据解释变量的 已知或给定值,考察被解释变量的总 体均值,即当解释变量取某个确定值 时,与之统计相关的被解释变量所有 可能出现的对应值的平均值。| 研究过程:将该99户家庭划分为组内收入差不多的 10组,以分析每一收入组的家庭消费支出。E(Y|X)=f(X )一、 回归模型的构建vv总体回归函数总体回归函数E(Y|X)=f(X )函数的具体函数的具体 形式?形式?05001000150020002500300035005001000150020002500300035004000每月可支配收入X(元)每月消费支出 Y(元)|描出散点图发现:随着收入的增加,消费“平均地说”也在 增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。一、 回归模型的构建vv总体回归函数总体回归函数个别家庭的 情况呢?一、 回归模型的构建v 总体回归模型模型Y=E(Y|X)+随机误差项v 随机误差项可以概括表示由于人们的认识以及其它客观 原因的局限而没有考虑的种种偶然因素。主要包括下列 因素的影响:由于人们认识的局限或时间、费用、数据质量等制约未引 入回归模型但又对被解释变量y有影响的因素。样本数据的采集过程中变量观察值的观测误差的影响。理论模型设定误差的影响。其它随机因素的影响。v问题二:能从一次抽样中获得总体的近似的信息 吗?如果可以,如何从抽样中获得总体近似信息 ?一、 回归模型的构建v样本回归函数v样本回归模型一、 回归模型的构建残差项回归分析的主要目的:根据样本回归函数, 估计总体回归函数。注意:这里总体回归函 数可能永远无法知道。v一元线性回归模型v一元线性回归模型的基本假设一、 回归模型的构建1. 对模型设定的假 设 2. 对解释变量的假设 3. 对随机误差项的假 设假设1:回归模型是正确设定的。(1)模型选择了正确的变量;(2)模型选择了正确的函数形式;假设2:解释变量X是确定性变量,不是随机变量,在重复抽 样中取固定值。假设3:解释变量X在所抽取的样本中具有变异性,而且随着 样本容量的无限增加,解释变量X的样本方差趋于一 个非零的有限常数。假设4:随机误差项具有给给定X条件下的零均值值、同方差以 及不序列相关性。假设5:随机误差项与解释变量之间不相关。假设6:随机误差项服从零均值、同方差的正态分布。一、 回归模型的构建v一元线性回归模型的参数估计普通最小二乘法普通最小二乘法(Ordinary Least Squares, OLS )要求样本回归线上的点与真实观测点的“总体误差 ”尽可能地小。判别标准:一、 回归模型的构建v普通最小二乘估计量【例】某饮料公司发现,饮料的销售量与气温之间存在着相 关关系,即气温越高,人们对饮料的需求量越大。如下表所 示。试预测气温为35时,饮料的销售量。销销售量 (箱)气温 (度) 43030350150940933521-6-45270363225203581401120644584904215110165022552647037109090010047721020-7-1701190493121958-19-185351536119527017-10-1101100100283400358201606445848025-2100-2004361380027098551012【例】某饮料公司发现,饮料的销售量与气温之间存在着相 关关系,即气温越高,人们对饮料的需求量越大。如下表所 示。试预测气温为35时,饮料的销售量。v拟合优度检验检验检验模型模型对样本对样本观测值观测值的的拟合程度拟合程度。检验 方法是构造一个表征拟合程度的统计量。二、 回归模型的检验总离差平方和的分解Y的i个观测值与样本均 值的离差回归直线不能 解释的部分由回归直线 解释的部分 总离差平方和 SST回归平方和 SSR残差平方和 SSE|样本可决系数样本可决系数将回归平方和与总离差平方和之比定义为样本可决系数。|t检验在回归分析中,t检验用于检验回归系数的显著 性。检验的原假设是对立假设是回归系数的显著性检验就是要检验自变量x 对应变量y的影响程度是否显著。如果原假设H0成立, 则应变量y与自变量x之间并没有真正的线性关系,也就 是说自变量x的变化对应变量y并没有影响。二、 回归模型的检验二、 回归模型的检验1.F检验F检验是根据平方和分解式,直接从回归效果检验回归 方程的显著性。总平方和SST中,包括能够由自变量解释的部分SSR,以及 不能由自变量解释的部分SSE。回归平方和SSR越大,回归 的效果就越好。一元线性回归线性回归 多元线性回归多个因变量与多个自变量的回归讨论如何从数据推断回归模型基本假设的合理 性回归诊断 当基本假设不成立时如何对数据进行修正判定回归方程拟合的效果选择回归函数的形式回归分析 回归变量的选择 自变量选择的准则逐步回归分析方法参数估计方法的改进 一元非线性回归非线性回归 分段回归多元非线性回归含有定性变量的回归 自变量含定性变量的情况因变量是定性变量的情况 回归分析的内容多元线性回归分析v多元线性回归模型的一般形式【例】地区城镇居民消费模型被解释变量:地区城镇居民人均消 费Y解释变量:地区城镇居民人均可支配收入X1前一年地区城镇居民人均消费X2样本:2006年,31个地区|对模型中被解释变量与解释变量之间的线性关系 在总体总体上是否显著成立作出推断。| 方程的总体线性关系显著不等于不等于每个解释变量对被解释变 量的影响都是显著的。必须对每个解释变量进行显著性检 验,以决定是否作为解释变量被保留在模型中。v自变量的选择-逐步回归法多元线性回归分析“最优”的回归方程就是包含所有对Y有影响的变量, 而不包 含对Y影响不显著的变量回归方程。选择“最优”的回归方程有以下几种方法:(4)“有进有出”的逐步回归分析。(1)从所有可能的变量组合的回归方程中选择最优者;(2)从包含全部变量的回归方程中逐次剔除不显著变量;(3)从一个变量开始,把变量逐个引入方程;F 从一个自变量开始,视自变量Y作用的显著程度,从大 到地依次逐个引入回归方程。F 当引入的自变量由于后面变量的引入而变得不显著时, 要将其剔除掉。F 引入一个自变量或从回归方程中剔除一个自变量,为逐 步回归的一步。F 对于每一步都要进行检验,以确保每次引入新的变量前 回归方程中只包含对Y作用显著的变量。F 这个过程反复进行,直至既无不显著的变量从回归方程 中剔除,又无显著变量可引入回归方程时为止。q 逐步回归分析法的思想【例】某公司研究企业职员年薪金水平时,认为该指标与职 员的学历、职务级别、任命年份、应聘任期、功绩评分、 年龄等因素有关。公司收集了30位职员的有关资料。试用 逐步回归法来选择自变量。自变变量复相关系数RR2职务级别职务级别 X10.879960.77433应应聘任期X20.902450.814420.04009学 历历X30.903530.816370.00195功绩评绩评 分X40.904890.818830.00246年 龄龄X50.906680.822070.00324任命年份X60.906940.822540.00047第2个自变量(应聘任期)引入后带来的 的变动是否显 著呢?选择5%的显著性水平,查F分布表得临界值为4.21。 由于4.8大于4.21,所以将第2个自变量保留在回归方程中 。将第3个自变量(学历)引入回归方程后,计算:查F分布表得临界值为4.23。无法通过检验。因此, 故将第三个自变量(学历)舍弃。v多元线性回归模型的基本假设 因变量与自变量之间存在显著线性相关关 系; 自变量是确定性变量,且在两个或多个自 变量之间没有精确的线性关系; 随机误差项 具有零均值和同方差; 对于不同观测值,随机误差项是相互独立 的,不存在序列相关(自相关); 随机误差项服从正态分布;多元线性回归模型的基本假设v关于模型假设条件的讨论 p非线性 p异方差性 p自相关 p非正态性 p多重共线性v非线性如果自变量与因变量之间的关系是非线性 的,但是仍采用线性回归模型来分析,将会产 生以下问题: 回归参数的估计量不是有效估计量; 无法准确地估计; 有关回归模型的推断、检验和应用都会失去 准确性。检验方法-散点图法 在直角坐标系上绘制yi与xi的散点图,或yi与 残差ei的散点图,通过观察判断此线性模型是否适宜 。 修正的方法 非线性回归方法; 利用变量转换达到使数据线性化之目的。v异方差性如果样本观测数据存在异方差现象,对它 应用线性回归模型进行分析,会存在以下问题 : 回归系数的最小二乘估计不具有有效性; 无法准确地确定回归参数的置信区间; 假设检验的结论无效。检验方法散点图修正方法变量转换消除异方差性; 加权最小二乘法。v自相关如果随机误差项之间存在着序列相关,则 会产生下列问题: 回归参数的最小二乘估计虽然是无偏的,
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号