资源预览内容
第1页 / 共51页
第2页 / 共51页
第3页 / 共51页
第4页 / 共51页
第5页 / 共51页
第6页 / 共51页
第7页 / 共51页
第8页 / 共51页
第9页 / 共51页
第10页 / 共51页
亲,该文档总共51页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
统 计 学STATISTICS第8章 相关和回归分析学习目的 7.1 相关与回归分析的根本概念 7.2 一元线性回归分析 7.3多元线性回归分析 7.4 非线性回归 7.5 相关分析 统 计 学STATISTICS学习重点1. 相关系数的分析方法相关系数的分析方法2.一元线性回归的根本原理和参数的最小一元线性回归的根本原理和参数的最小二乘估计二乘估计3.回归直线的拟合优度回归直线的拟合优度4.回归方程的显著性检验回归方程的显著性检验5.利用回归方程进展估计和预测利用回归方程进展估计和预测 统 计 学STATISTICS 7.1 相关与回归分析的根本概念函数关系1.是一一对应确实定关系2.设有两个变量 x 和 y ,变量 y 随变量 x 一同变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,那么称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量3.各观测点落在一条线上 统 计 学STATISTICS函数关系(几个例子) 函数关系的例子函数关系的例子某某种种商商品品的的销销售售额额y与与销销售售量量x之之间间的的关关系系可表示为可表示为 y = px (p 为单价为单价)圆圆的的面面积积S与与半半径径之之间间的的关关系系可可表表示示为为S=R2 企企业业的的原原资资料料耗耗费费额额y与与产产量量x1 、单单位位产产量量耗耗费费x2 、原原资资料料价价钱钱x3之之间间的的关关系系可可表示为表示为 y = x1 x2 x3 统 计 学STATISTICS相关关系(correlation)1.变量间关系不能用函数关系准确表达2.2. 一个变量的取值不能由另一个变量独一确定3.3. 当变量 x 取某个值时,变量 y 的取值能够有几个4.4. 各观测点分布在直线周围 统 计 学STATISTICS相关关系(几个例子) 相关关系的例子相关关系的例子父亲身高父亲身高y与子女身高与子女身高x之间的关系之间的关系收入程度收入程度y与受教育程度与受教育程度x之间的关系之间的关系粮粮食食亩亩产产量量y与与施施肥肥量量x1 、降降雨雨量量x2 、温温度度x3之间的关系之间的关系商品的消费量商品的消费量y与居民收入与居民收入x之间的关系之间的关系商品销售额商品销售额y与广告费支出与广告费支出x之间的关系之间的关系 统 计 学STATISTICS相关关系(类型) 按相关程度划分: 完全相关、不完全相关和不相关按相关方向划分: 正相关和负相关按相关方式划分: 线性相关和非线性相关按变量多少划分 单相关、复相关和偏相关按相关性质划分 真实相关和虚伪相关 统 计 学STATISTICS7.2 一元线性回归 7.2.1 规范的一元线性回归模型规范的一元线性回归模型 7.2.2一元线性回归模型的估计一元线性回归模型的估计 7.2.3一元线性回归模型的检验一元线性回归模型的检验 7.2.4一元线性回归模型的预测一元线性回归模型的预测 统 计 学STATISTICS一元线性回归模型1.描画因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型2.一元线性回归模型可表示为3. y = b0 + b1 x + e4.y 是 x 的线性函数(部分)加上误差项5.线性部分反映了由于 x 的变化而引起的 y 的变化6.误差项 是随机变量7.反映了除 x 和 y 之间的线性关系之外的随机要素对 y 的影响8.是不能由 x 和 y 之间的线性关系所解释的变异性9.0 和 1 称为模型的参数 统 计 学STATISTICS一元线性回归模型(根本假定) 1.误差项的期望值为0,即E()=0。对于一个给定的 x 值,y 的期望值为E ( y ) = 0+ 1 x2.对于一切的 x 值,3.误差项之间不存在序列相关关系,即4. 5.自变量是给定的变量,与随机误差项线性无关6.随机误差项服从正态分布,即7. N( 0 ,2 ) 统 计 学STATISTICS总体回归函数1.描画 y 的平均值或期望值如何依赖于 x 的方程称为总体回归函数2.总体回归函数的数学方式如下3. E( y ) = 0+ 1 x函数的图示是一条直线,也称为总体回归直线函数的图示是一条直线,也称为总体回归直线0 0是是回回归归直直线线在在 y y 轴轴上上的的截截距距,是是当当 x=0 x=0 时时 y y 的的期望值期望值1 1是是直直线线的的斜斜率率,称称为为回回归归系系数数,表表示示当当 x x 每每变变动一个单位时,动一个单位时,y y 的平均变动值的平均变动值 统 计 学STATISTICS样本回归函数估计方程1.总总体体回回归归参参数数 和和 是是未未知知的的,必必需需利利用用样样本本数数据去估计据去估计2.用用样样本本统统计计量量 和和 替替代代回回归归方方程程中中的的未未知知参参数数 和和 ,就得到了估计的回归方程,就得到了估计的回归方程3.3.一元线性回归中估计的回归方程为一元线性回归中估计的回归方程为其其中中: 是是估估计计的的回回归归直直线线在在 y y 轴轴上上的的截截距距, 是是直直线线的的斜斜率率,它它表表示示对对于于一一个个给给定定的的 x x 的的值值, 是是 y y 的的估估计值,也表示计值,也表示 x x 每变动一个单位时,每变动一个单位时, y y 的平均变动值的平均变动值 统 计 学STATISTICS7.2.2一元线性回归模型的估计一元线性回归模型的估计1.使因变量的察看值与估计值之间的离差平方和到达最小来求得 和 的方法。即2.用最小二乘法拟合的直线来代表x与y之间的关系与实践数据的误差比其他任何直线都小 统 计 学STATISTICS最小二乘法 ( 和 的计算公式) 根据最小二乘法的要求,可得求解 和 的公式如下 统 计 学STATISTICS估计方程的求法(例题分析)【例【例7-1】估计食品支出的恩格尔函数】估计食品支出的恩格尔函数回归方程为:回归方程为:y = 9.9872 + 0.1802 x回回归归系系数数 =0.1802 表表示示,收收入入每每添添加加1亿元,食品支出平均添加亿元,食品支出平均添加0.1802亿元亿元 统 计 学STATISTICS估计规范误差(standard error of estimate)1.实践察看值与回归估计值离差平方和的均方根2.反映实践察看值在回归直线周围的分散情况3.对误差项的规范差的估计,是在排除了x对y的线性影响后,y随机动摇大小的一个估计量4.反映用估计的回归方程预测y时预测误差的大小 5.计算公式为注:例题的计算结果为注:例题的计算结果为1.82861.8286 统 计 学STATISTICS7.2.3一元线性回归模型的检验一元线性回归模型的检验离差1.因变量 y 的取值是不同的,y 取值的这种动摇称为变差。变差来源于两个方面2.由于自变量 x 的取值不同呵斥的3.除 x 以外的其他要素(如x对y的非线性影响、丈量误差等)的影响4.对一个详细的观测值来说,变差的大小可以经过该实践观测值与其均值之差 来表示 统 计 学STATISTICS离差的分解(图示) x xy yy y 统 计 学STATISTICS离差平方和的分解 (三个平方和的关系) SST = SSR + SSE总平方和总平方和总平方和总平方和(SST)(SST)回归平方和回归平方和回归平方和回归平方和(SSR)(SSR)残差平方和残差平方和残差平方和残差平方和(SSE)(SSE) 统 计 学STATISTICS离差平方和的分解 (三个平方和的意义)1.总平方和总平方和(SST)2.反反映映因因变变量量的的 n 个个察察看看值值与与其其均均值值的的总总离离差差3.回归平方和回归平方和(SSR)4.反反映映自自变变量量 x 的的变变化化对对因因变变量量 y 取取值值变变化化的的影影响响,或或者者说说,是是由由于于 x 与与 y 之之间间的的线线性性关关系系引引起起的的 y 的的取取值值变变化化,也也称称为为可可解解释的平方和释的平方和5.残差平方和残差平方和(SSE)6.反反映映除除 x 以以外外的的其其他他要要素素对对 y 取取值值的的影影响响,也称为不可解释的平方和或剩余平方和也称为不可解释的平方和或剩余平方和 统 计 学STATISTICS可决系数r21.回归平方和占总离差平方和的比例2.反映回归直线的拟合程度反映回归直线的拟合程度3.取值范围在取值范围在 0 , 1 0 , 1 之间之间4. R2 R2 1 1,阐明回归方程拟合的越好;,阐明回归方程拟合的越好;R2R20 0,阐,阐明回归方程拟合的越差明回归方程拟合的越差5.断定系数等于相关系数的平方,即断定系数等于相关系数的平方,即R2R2r2r2 统 计 学STATISTICS可决系数r2 (例题分析) 【例例7-2】计计算算估估计计食食品品支支出出的的恩恩格格尔尔函函数数回回归的可决系数,并解释其意义归的可决系数,并解释其意义 可可决决系系数数的的实实践践意意义义是是:在在食食品品支支出出取取值值的的变变差差中中,有有88.63%可可以以由由食食品品支支出出与与家家庭庭收收入入之之间间的的线线性性关关系系来来解解释释,或或者者说说,在在食食品品支支出出取取值值的的变变动动中中,有有88.63%是是家家庭庭收收入入所所决决议议的的。可可见见食食品品支支出出与与家家庭庭收收入入之之间间有有较较强强的线性关系的线性关系 统 计 学STATISTICS 7.2.3一元线性回归模型的检验一元线性回归模型的检验1.检验 x 与 y 之间能否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响能否显著2.实际根底是回归系数 的抽样分布3.在一元线性回归中,等价于线性关系的显著性检验 统 计 学STATISTICS回归系数的检验(样本统计量 的分布)1. 1.1. 是是是根根根据据据最最最小小小二二二乘乘乘法法法求求求出出出的的的样样样本本本统统统计计计量量量,它它它有有有本本本人的分布人的分布人的分布2. 2.2. 的分布具有如下性质的分布具有如下性质的分布具有如下性质3. 3.3.分布方式:正态分布分布方式:正态分布分布方式:正态分布4. 4.4.数学期望:数学期望:数学期望:5. 5.5.规范差:规范差:规范差:6. 6.6.由由由于于于 未未未知知知,需需需用用用其其其估估估计计计量量量sysysy来来来替替替代代代得得得到到到 的的的估估估计计计的规范差的规范差的规范差 统 计 学STATISTICS回归系数的检验 (检验步骤) 1.提出假设2.H0: b1 = 0 (没有线性关系) 3.H1: b1 0 (有线性关系) 4.计算检验的统计量3. 确定显著性程度确定显著性程度,并进展决策,并进展决策4. t t tt,回绝,回绝H0H0; t t ttt=10.07t=2.160=2.160,回回绝绝H0H0,阐阐明明食食品品支出与家庭收入之间有线性关系支出与家庭收入之间有线性关系 统 计 学STATISTICS 7.2.4一元线性回归模型的预测一元线性回归模型的预测1.根据自变量 x 的取值估计或预测因变量 y的取值2.估计或预测的类型3.点估计4.y 的个别值的点估计或预测5.区间估计6.y 的个别值的预测区间估计 统 计 学STATISTICSy 的个别值的点预测利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计值 ,就是个别值的点估计例如,假设我们只是想知道家庭收入为200元的那些家庭的食品支出是多少,那么属于个别值的点估计 。根据估计的回归方程得 统 计 学STATISTICS区间预测 1.点估计不能给出估计的精度,点估计值与实践值之间是有误差的,因此需求进展区间估计2.对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计区间3.本课程讨论的区间估计类型4.预 测 区 间 估 计 (prediction interval estimate) 统 计 学STATISTICS预测区间估计1.利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间(prediction interval) 2. y0在1-置信程度下的预测区间为 统 计 学STATISTICS影响区间宽度的要素1.置信程度 (1 - )2.区间宽度随置信程度的增大而增大3.数据的离散程度s4.区间宽度随离散程度的增大而增大5.3.样本容量6.区间宽度随样本容量的增大而减小7.4.用于预测的 xp与x的差别程度8.区间宽度随 xp与x 的差别程度的增大而增大 统 计 学STATISTICS置信区间、预测区间、回归方程xpyx x x预测上限置信上限预测下限置信下限 统 计 学STATISTICS7.3多元线性回归分析7.3.1 多元多元线性回性回归模型模型 7.3.2 多元多元线性回性回归模型模型 的估的估计7.3.3 多元多元线性回性回归模型模型 的的检验和和预测 统 计 学STATISTICS7.3.1多元回归模型 1.一个因变量与两个及两个以上自变量的回归2.描画因变量 y 如何依赖于自变量 x1 , x2 , xk 和误差项 的方程,称为多元回归模型3.涉及 p 个自变量的多元回归模型可表示为 b0 b0 ,b1b1,b b ,bkbk是参数是参数 是被称为误差项的随机变量是被称为误差项的随机变量 y y 是是x1,x1,,x x , ,xk xk 的的线线性性函函数数加加上上误误差差项项 包包含含在在y y里里面面但但不不能能被被k k个个自自变变量量的的线线性性关关系系所解释的变异性所解释的变异性 统 计 学STATISTICS多元回归模型(根本假定) 1.误差项是一个期望值为0的随机变量,即E()=02.对于自变量x1,x2,xp的一切值,的方差 2都一样3.误差项是一个服从正态分布的随机变量,即N(0,2),且相互独立 统 计 学STATISTICS多元样本回归函数方程1.用样本统计量 估计回归方程中的 参数 时得到的方程2.由最小二乘法求得3.普通方式为 是是 估计值估计值 是是 y y 的估计值的估计值 统 计 学STATISTICS7.3.2 多元多元线性回性回归模型模型 的估的估计1.使使因因变变量量的的察察看看值值与与估估计计值值之之间间的的离离差差平平方方和和到到达最小来求得达最小来求得 。即。即2.求解各回归参数的规范方程如下求解各回归参数的规范方程如下 统 计 学STATISTICS7.3.3 多元多元线性回性回归模型模型 的的检验和和预测回归方程的拟合优度1.回归平方和占总平方和的比例2.计算公式为3.3.因变量取值的变差中,能被估计的多元回归方程所解释的比例 统 计 学STATISTICS修正多重可决系数1.用样本容量n和自变量的个数p去修正R2得到 2.计算公式为3.防止添加自变量而高估 R24.意义与 R2类似5.数值小于R2 统 计 学STATISTICS 显著性检验回归系数的检验1.提出假设2.H0: bi = 0 (自变量 xi 与 因变量 y 没有线性关系) 3.H1: bi 0 (自变量 xi 与 因变量 y有线性关系) 4.计算检验的统计量 t3. 确定显著性程度,并进展决策4. tt,回绝H0; tF FF ,回绝,回绝H0H0 统 计 学STATISTICS7.4 非线性回归1. 因变量 y 与 x 之间不是线性关系2. 可经过变量代换转换成线性关系用最小二乘法求出参数的估计值并非一切的非线性模型都可以化为线性模型 统 计 学STATISTICS双曲线1.根本方式:2.线性化方法3.令:y = 1/y,x= 1/x, 那么有y = + x 统 计 学STATISTICS指数曲线1.根本方式:2.线性化方法3.两端取对数得:lny = ln + x4.令:y = lny,那么有y = ln + x 统 计 学STATISTICSS 型曲线1.根本方式:2.线性化方法3.令:y = 1/y,x= e-x, 那么有y = + x 统 计 学STATISTICS7.5 相关分析相关系数(correlation coefficient)1.对变量之间关系亲密程度的度量2.对两个变量之间线性相关程度的度量称为简单相关系数3.假设相关系数是根据总体全部数据计算的,称为总体相关系数,记为4.假设是根据样本数据计算的,那么称为样本相关系数,记为 r 统 计 学STATISTICS相关系数 (计算公式) 样本相关系数的计算公式或化简为 统 计 学STATISTICS相关系数(取值及其意义)1. r 的取值范围是 -1,12. |r|=1,为完全相关3.r =1,为完全正相关4.r =-1,为完全负正相关5. r = 0,不存在线性相关关系6. -1r0,为负相关7. 0tt,回绝,回绝H0H0n n 假设假设 t t tt,不能回绝,不能回绝H0H0 统 计 学STATISTICSEnd of Chapter 7
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号