资源预览内容
第1页 / 共78页
第2页 / 共78页
第3页 / 共78页
第4页 / 共78页
第5页 / 共78页
第6页 / 共78页
第7页 / 共78页
第8页 / 共78页
第9页 / 共78页
第10页 / 共78页
亲,该文档总共78页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第六章第六章 相关与回归分析相关与回归分析1n一一、确确定定现现象象之之间间有有无无关关系系存存在在,以以及及相关关系的表现形式相关关系的表现形式n二、确定相关关系的密切程度二、确定相关关系的密切程度n三、确定相关关系的数学表达式三、确定相关关系的数学表达式n四四、测测定定因因变变量量估估计计值值与与实实际际值值之之间间的的误差程度误差程度2第一节第一节 相关分析相关分析一一 、确定现象之间有无关系存在、确定现象之间有无关系存在 (一)现象之间关系的分类(一)现象之间关系的分类31、函数关系函数关系客观现象之间确实存在的、而且数量表现上客观现象之间确实存在的、而且数量表现上是严格的确定性的依存关系。在这种关系中,某是严格的确定性的依存关系。在这种关系中,某一变量的的每一个数值,都有另一个变量的确定一变量的的每一个数值,都有另一个变量的确定值与之对应,并且这种关系可以用一个数学表达值与之对应,并且这种关系可以用一个数学表达式反映出来。式反映出来。 4x xy yn是一一对应的确定关系n设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量n各观测点落在一条线上 5圆的面积(圆的面积(S)与半径之间的函数关系与半径之间的函数关系 S = R2 里程里程(D)与速度与速度(V)、时间时间(t)之间的关系之间的关系D=Vt企企业业的的原原材材料料消消耗耗额额(y)与与产产量量(x1) 、单单位位产产量消耗量消耗(x2) 、原材料价格原材料价格(x3)之间的关系之间的关系 y = x1x2x3 62、相关关系、相关关系客观现象之间确实存在的、但在数量客观现象之间确实存在的、但在数量表现上不严格对应的依存关系。表现上不严格对应的依存关系。两个要点:两个要点: (1)确实存在)确实存在定性分析定性分析(2)数量表现上不严格)数量表现上不严格围绕它们围绕它们的平均数并通过一定的规律变动的平均数并通过一定的规律变动 7n变量间关系不能用函数关系精确表达n一个变量的取值不能由另一个变量唯一确定n当变量 x 取某个值时,变量 y 的取值可能有几个n各观测点分布在直线周围 x xy y8单位成本(y)与产量(x) 的关系父亲身高(y)与子女身高(x)之间的关系社会商品零售额(y)与居民会支配收入(x)之间的关系收入 (y)与文化程度(x)之间的关系商品销售量(y)与广告费支出(x1)、价格(x2)之间的关系93、相关关系与函数关系的联系和区别主要区别:随着某一变量变化的另一变量,其数值是否确定,如果确定,则是函数关系,如果不确定,则是相关关系。主要联系:函数关系往往通过相关关系表现出来,相关关系常常要用函数关系来研究。10n假 相 关n没有本质联系,只是表面数字的偶然的巧合;没有本质联系,只是表面数字的偶然的巧合;n如上证股票价格综合指数与气温的关系。如上证股票价格综合指数与气温的关系。n因果关系n原因与结果之间、影响因素与被影响因素之间的关系。原因与结果之间、影响因素与被影响因素之间的关系。n相关关系比因果关系包括的范围更广泛。即,因果关相关关系比因果关系包括的范围更广泛。即,因果关系属于相关关系,但相关关系不一定是因果关系。系属于相关关系,但相关关系不一定是因果关系。n统计只能说明现象间有无数量上的关系,不能说明谁统计只能说明现象间有无数量上的关系,不能说明谁因谁果因谁果(其它有关概念)11(二)相关关系的种类(二)相关关系的种类12二、二、 相关关系的测定相关关系的测定进行相关分析的一般程序:进行相关分析的一般程序:相关表和相关图相关表和相关图定性分析定性分析定性分析定性分析定量分析定量分析计算相关系数计算相关系数和判定系数和判定系数相关分析的主要内容:相关分析的主要内容:测定相关关系的种类和关系的密切程度测定相关关系的种类和关系的密切程度测定相关关系的种类和关系的密切程度测定相关关系的种类和关系的密切程度13(一)相关表和相关图(一)相关表和相关图能源消耗量能源消耗量能源消耗量能源消耗量与工业总产值与工业总产值与工业总产值与工业总产值相关表:相关表:相关表:相关表:14能源消耗量与工业总产值相关图能源消耗量与工业总产值相关图15线性正相关线性正相关完全线性负相关完全线性负相关完全线性正相关完全线性正相关线性负相关线性负相关曲线相关曲线相关不相关不相关(零相关)(零相关)16(二)(二)直线相关的测定直线相关的测定 相关系数相关系数反映具有直线相关关系的两反映具有直线相关关系的两个变量之间关系密切程度的指标。个变量之间关系密切程度的指标。 判定系数判定系数相关系数的平方相关系数的平方相关系数与判定系数相关系数与判定系数1718n对变量之间关系密切程度的度量n对两个变量之间线性相关程度的度量称为简单相关系数n若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 n若是根据样本数据计算的,则称为样本相关系数,记为 r1、相关系数、相关系数(correlationcoefficient)192021(1) .(2) .(3) 225幢房屋的使用时间长短与月租金的资料幢房屋的使用时间长短与月租金的资料2324直线相关的特点直线相关的特点两个变量是对等的;两个变量是对等的; 只能计算出一个相关系数;只能计算出一个相关系数; 低度线性相关低度线性相关n n 显著线性相关显著线性相关n n 高度线性相关高度线性相关相相关关系系数数可可以以为为正正数数,也也可可以以为为负负数数,表表示示正正相关或负相关;相关或负相关;计算相关系数要求两个变量必须是随机的。计算相关系数要求两个变量必须是随机的。252、判定系数、判定系数 相关系数的平方计算判定系数,用R表示。在经济计量学中又称可决系数263、计算、计算t值并查表确定临界值,比较并作值并查表确定临界值,比较并作结论结论1、提出零假设与备择假设、提出零假设与备择假设2、确定检验所需的统计量、确定检验所需的统计量 (三)相关系数的显著性检验(三)相关系数的显著性检验t 检验检验27 拒绝原假设,说明房屋使用年限与租金之间拒绝原假设,说明房屋使用年限与租金之间有显著的线性关系有显著的线性关系28第二节第二节 一元线性回归分析一元线性回归分析一一 、 回归分析回归分析 1、概念、概念 借助数学方程,揭示具有相关关系的变量之间数量借助数学方程,揭示具有相关关系的变量之间数量变化规律的方法,称为回归分析法;回归分析中的数学变化规律的方法,称为回归分析法;回归分析中的数学方程称为回归方程。方程称为回归方程。 数数量量变变化化规规律律指指,当当自自变变量量发发生生变变化化时时,平平均均说说来来因因变量会发生多大的变化。变量会发生多大的变化。2、回归分析回归分析与相关分析的关系与相关分析的关系(1)共共同同点点:都都是是分分析析相相关关关关系系;相相关关系系数数与与回回归归系系数数符号相同。符号相同。 29(2)区别)区别回归分析回归分析相关分析相关分析3、揭揭示示自自变变量量的的变变化化将将引引起起因因变变量量多多大大的的平平均均变变化化量量,并并据据此此对因变量进行预测和估计对因变量进行预测和估计 1、不必区分自变量和因变量;、不必区分自变量和因变量;1、必必须须区区分分自自变变量量和和因因变变量量,原原因因是是自自变变量量(解解释释变变量量),结结果是因变量(被解释变量);果是因变量(被解释变量);2、两个变量是对等的,都是随、两个变量是对等的,都是随机变量;机变量;2、自变量是可控、给定的一般变、自变量是可控、给定的一般变量量;3、测测定定相相关关的的种种类类和和关关系系密密切程切程30(三)回归的种类(三)回归的种类31二二 、一元线性回归方程的确定、一元线性回归方程的确定(一)(一)步骤步骤关系密切程度分析;关系密切程度分析;定性分析定性分析确定现象之间是否有相关关系;确定现象之间是否有相关关系;确定自变量和因变量;确定自变量和因变量;确定回归方程;确定回归方程;分析解释结果分析解释结果。32(二)一元线性回归方程的确定(二)一元线性回归方程的确定1、总体回归方程(、总体回归方程(PRF) 假设两个具有线性相关关系的现象假设两个具有线性相关关系的现象X和和Y,X表示自变量(解释变量)、表示自变量(解释变量)、Y表示因变量(被表示因变量(被解释变量),则解释变量),则Y与与X的关系可用下面模型表达:的关系可用下面模型表达: 33其中其中 部部分分表表示示X与与Y的的线线性性关关系系,是是X对对Y所作出的解释;所作出的解释; 是随机变量,表示其他因素(包括随是随机变量,表示其他因素(包括随机因素、偶然因素)对机因素、偶然因素)对Y 的变化所作出的变化所作出的解释。的解释。 34理论假定: 满足零均值齐方差条件,即 35n误差项是一个期望值为0的随机变量,即E()=0。对于一个给定的 x 值,y 的期望值为E ( y ) = + xn对于所有的 x 值,的方差2 都相同n误差项是一个服从正态分布的随机变量,且相互独立。即N( 0 ,2 )n独立性意味着对于一个特定的 x 值,它所对应的与其他 x 值所对应的不相关n对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关一元线性回归模型(基本假定) 3637总体线性回归方程(总体线性回归方程(PRF) 38n描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程回归方程n一元线性回归方程的形式如下n 方程的图示是一条直线,也称为直线回归方程方程的图示是一条直线,也称为直线回归方程 是是回回归归直直线线在在 y y 轴轴上上的的截截距距,是是当当 x x=0 =0 时时 y y 的的期期望值望值 是是直直线线的的斜斜率率,称称为为回回归归系系数数,表表示示当当 x x 每每变变动动一个单位时,一个单位时,y y 的平均变动值的平均变动值392、样本回归直线方程、样本回归直线方程 对对于于线线性性相相关关关关系系的的两两个个现现象象一一般般情情况况下下我我们们得得不不到到 和和 ,也也就就得得不不到到上上述述总总体体回回归归方方程程,我我们们只只能能利利用用一一段段时时间间的的样样本本数数据据来来估估计计 和和 ,相相应应的的得得到到样样本本回归方程(回归方程(SRF)。40 因变量的估计值(回归理论值)因变量的估计值(回归理论值) a截距,表示除截距,表示除x外其它因素对因变量外其它因素对因变量y的平均影响的平均影响b回归系数(斜率),表示自变量回归系数(斜率),表示自变量x每变动一个单位每变动一个单位时时, 因变量因变量y平均变动平均变动b个单位个单位41样本回归方程参数样本回归方程参数ab的确定的确定最小二乘法最小二乘法(OLS) 42x(xi,yi)y观察点与样本回归线(图示)43估计参数的最小二乘法(Least Square Method)最小平方法最小平方法也称为最小二乘法最小二乘法使因变量的观察值与估计值之间的离差平方和达到最小来求得 a 和 b 的方法,即满足下列条件:即:即:44a 和 b 的计算公式根据最小平方法的原则,利用微分求解极值(最优值)的原理,可得求解 a 和 b 的标准方程组如下:X的总和?454647房屋租金的线性回归方程为:房屋租金的线性回归方程为:回归方程中参数估计值的含义:回归方程中参数估计值的含义: 回归系数回归系数 b =2.4658,表示房屋的使用年数每表示房屋的使用年数每增加增加1单位(年),单位(年),房屋的租金房屋的租金平均减少平均减少2.4658单单位位(元元); 回归系数与相关系数同号回归系数与相关系数同号 截距截距 a =58.2743, 表示新房屋表示新房屋 时,租金平均为时,租金平均为 58.2743 (元)。(元)。48几点说明:几点说明: 1 样本回归直线必然样本回归直线必然通过数据散点中心通过数据散点中心 2 回归系数与相关系回归系数与相关系数的符号取决于的数的符号取决于的x y的协方差的协方差 3 回归系数与相关系回归系数与相关系数的关系数的关系 49三、回归估计标准差三、回归估计标准差回归回归估计精度的测定指标估计精度的测定指标(一)回归估计标准差的概念(一)回归估计标准差的概念 在大样本条件下 50该该指指标标的的作作用用:回回归归估估计计标标准准差差反反映映的的是是因因变变量量各各实实际际值值与与其其估估计计值值之之间间的的平平均均差差异异程程度度,表表明明其其估估计计值值对对各各实实际际值值的的代代表表性性的的强强弱弱,其其值值越越小小,估估计计值值(或或回回归归方方程程)的的代代表表性性越越强强,用用回回归归方方程程估估计计或或预预测测的的结结果越准确。果越准确。51 (小样本)(大样本) 52(二)回归估计标准差与相关(二)回归估计标准差与相关系数的关系系数的关系 53 总离差平方和总离差平方和SST回归平方和回归平方和SSR剩余平方和剩余平方和SSE+=54离差平方和的分解 (三个平方和的意义)1.总平方和总平方和(SST)n反映因变量的 n 个观察值与其均值的总离差2.回归平方和回归平方和(SSR)n反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和3.残差平方和残差平方和(SSE)n反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和55判定系数:判定系数:56判定系数是相关系数的平方判定系数是相关系数的平方5758回归估计标准差与相关系数的关系回归估计标准差与相关系数的关系59 直接说明关系密切程度 直接说明回归估计的精确程度间接说明回归估计的精确程度 间接说明关系密切程度60第三节 线性相关关系的显著性检验及回归预测一、根据样本相关系数进行检验t 检验二、根据回归分析的结果进行检验 F 检验t 检验61一、根据样本相关系数进行检验t 检验nH0: 0; H1: 0n根据样本相关系数r 的抽样分布构建的检验统计量(在H0 成立的前提下服从自由度为(n-2)的t 分布)为: n若 或 P值,应否定H0 ,表明两个变量间存在显著的线性相关性。621. 回归系数的显著性检验回归系数的显著性检验 t 检验检验H0: i = 0 (x 与与 y 之间之间没有线性关系没有线性关系) H1: i 0 (x 与与 y 之间之间存在线性关系存在线性关系) 采采用用 t 检检验验法法(检检验验统统计计量量在在H0成成立立的的前前提提下服从自由度为下服从自由度为(n-2)的的 t 分布分布)。二、根据回归分析的结果进行检验63回归系数的显著性检验(Excel输出的结果)回归方程参回归方程参数估计值数估计值回归系数的回归系数的 t 检验统计值检验统计值回归系数检回归系数检验的验的P值值Coefficients 标准误差t StatP-valueIntercept58.27435.334710.9236 0.001642X -2.4658 0.7590-3.24870.0475464H0: = 0 (x 与与 y 之间之间没有线性关系没有线性关系)H1: 0 (x 与与 y 之间之间存在线性关系存在线性关系) 检验统计量检验统计量 F2. 回归方程的显著性检验 F 检验3.确定显著性水平确定显著性水平 ,找出临界值找出临界值F (1,n-2);4.计算统计量的样本观察值或计算统计量的样本观察值或P值;值;5.作出决策:若作出决策:若F F 或或P值值 ,拒绝,拒绝H065回归方程的检验(Excel输出的结果)66检验与检验与 t 检验的一致性检验的一致性在一元线性回归中,回归方程显著,就等于回归系数显著: F=t2n对回归系数的 t 检验:nH0: =0( X与Y的线性关系不显著);nH1 : 0 ( X 与Y的线性关系显著)n对回归方程的F 检验:nH0: =0 ( X 与Y的线性关系不显著);nH1 : 0(X与Y的线性关系显著)67检验与检验与 t 检验的检验的不一致性一致性在在多多元元回回归归中中,回回归归方方程程显显著著,不不等等于于每每个回归系数都显著个回归系数都显著.n对回归系数的 t 检验:nH0: i=0( Xi 与Y的线性关系不显著);nH1 : i 0 ( Xi 与Y的线性关系显著)n对回归方程的F 检验:nH0: 1= 2= K=0 ( 所所有有Xi 与Y的线性关系都不显著);nH1 : i 不全为不全为0(至少有一个至少有一个X与Y的线性关系显著)68三、回归预测1.回归预测是根据自变量 x 的取值来估计或预测因变量 y 的取值;2.估计或预测的类型n点估计,给定x=xo,因变量 y 对应的点估计为:n区间估计:69区间预测n对于自变量 x 的一定值 x0 ,在1-置信水平下,因变量 y 的取值 y0的预测区间为:其中,其中,( P.208)70影响估计区间宽度的因素n1. 置信水平 (1 - )n区间宽度随置信水平的增大而增大n2. 回归估计标准差 (Se)n区间宽度随离散程度的增大而增大n3. 样本容量 nn区间宽度随样本容量的增大而减小n4. 用于预测的 xo与x 的差异程度。n区间宽度随xo与x 的差异程度的增大而增大71回归预测的置信区间xOy置信上限置信下限置信区间半径x72大样本下的预测区间n 充分大时,充分大时,X=x0时,时,y0的置信区间为:的置信区间为:其中,其中,73大样本条件下的预测区间xOy置信上限置信下限x区间半径74注意n应用回归估计(预测)时注意:1.内插效果优于外推效果,不宜外推太远;内插: x0 ( xmin , xmax)时外推: x0 ( xmin , xmax )时2.n 不能太小,即用于拟合回归方程的数据不能太少。 75相关回归分析小结1.相关关系的概念、种类2.相关系数的理解3.一元线性回归方程及其应用4.几个重要概念及其关系相关系数、判定系数、回归系数、回归估计标准差4.相关系数与回归方程的显著性检验5. 用Excel 进行计算76第四节可线性化的回归方程第四节可线性化的回归方程n一配合回归曲线的问题一配合回归曲线的问题n二可线性化的常用曲线方程二可线性化的常用曲线方程n三非线性判定系数与相关系数三非线性判定系数与相关系数77非线性相关系数非线性相关系数测定两变量间曲线相关测定两变量间曲线相关 关系(其平方称为非判定系数)关系(其平方称为非判定系数)复相关系数复相关系数(复判定系数)(复判定系数)测定多元线测定多元线 性相关关系性相关关系78
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号