资源预览内容
第1页 / 共73页
第2页 / 共73页
第3页 / 共73页
第4页 / 共73页
第5页 / 共73页
第6页 / 共73页
第7页 / 共73页
第8页 / 共73页
第9页 / 共73页
第10页 / 共73页
亲,该文档总共73页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
7 相关分析7 相关分析 表表7-1 我我国国人人均均国国民民收收入入与与人人均均消消费费金金额额数数据据 单单位位:元元年份年份人均人均国民收入国民收入人均人均消费金额消费金额年份年份人均人均国民收入国民收入人均人均消费金额消费金额1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148 在在研研讨我我国国人人均均消消费程程度度的的问题中中,把把全全国国人人均均消消费额记为y,把把人人均均国国民民收收入入记为x。我我们搜搜集集到到19811993年年的的样本本数数据据(xi ,yi),i =1,2,,13,数据,数据见表表7-1。第七章第七章 相关关系分析相关关系分析统计学学习目的掌握一元掌握一元线性回性回归的根本原理和参数的最小二的根本原理和参数的最小二乘估乘估计方法方法掌握回掌握回归方程的方程的显著性著性检验利用回利用回归方程方程进展展预测掌握相关系数的含掌握相关系数的含义、计算方法和运用算方法和运用7.1 概述相关关系的含相关关系的含义相关关系的分相关关系的分类相关关系的内容相关关系的内容7.1.1 变量间的关系变量间的关系p函数关系p相关关系变量间的关系函数关系 函数关系的例子函数关系的例子某某种种商商品品的的销销售售额额y与与销销售售量量x之之间的关系可表示为间的关系可表示为 y = p xp 为单价为单价圆圆的的面面积积S与与半半径径之之间间的的关关系系可可表表示示为为S = R2 企企业业的的原原资资料料耗耗费费额额y与与产产量量x1、单单位位产产量量耗耗费费x2、原原资资料料价价钱钱x3之间的关系可表示为之间的关系可表示为y = x1 x2 x3 变量间的关系函数关系是一一是一一对应的的 确定关系确定关系各各观测点点落落在在 一条一条线上上 x xy y变量间的关系相关关系 相关关系的例子相关关系的例子商商品品的的消消费费量量y与与居居民民收收入入x之之间间的的关关系系商商品品销销售售额额y与与广广告告费费支支出出x之之间间的的关关系系粮粮食食亩亩产产量量y与与施施肥肥量量x1、降降雨雨量量x2、温度、温度(x3)之间的关系之间的关系收入程度收入程度y与受教育程度与受教育程度x之间的关系之间的关系父亲身高父亲身高y与子女身高与子女身高x之间的关系之间的关系变量间的关系相关关系变量量间关关系系不不能能用用函函数数关关系准确表达系准确表达一一个个变量量的的取取值不不能能由由另另一个一个变量独一确定量独一确定当当变量量 x 取取某某个个值时,变量量 y 的取的取值能能够有几个有几个各各观测点分布在直点分布在直线周周围 x xy y7.1.2 相关关系种类正相关与正相关与负相关相关直直线相关与曲相关与曲线相关相关单相关与复相关相关与复相关相关关系的图示不相关不相关不相关不相关不相关不相关 负线负线负线性相关性相关性相关性相关性相关性相关正正正正正正线线线性相关性相关性相关性相关性相关性相关非非非非非非线线线性相关性相关性相关性相关性相关性相关完全完全完全完全完全完全负线负线负线性相关性相关性相关性相关性相关性相关完全正完全正完全正完全正完全正完全正线线线性相关性相关性相关性相关性相关性相关7.1.3 相关分析与回归分析相关分析相关分析就是用一个目的来就是用一个目的来阐明景象明景象间相互相互依存关系的依存关系的亲密程度直密程度直线相关用相关用相关系数描画相关系数描画, ,曲曲线相关用相关指数相关用相关指数描画描画回回归分析分析是指是指对具有相关关系的景象,根据具有相关关系的景象,根据其相关关系的其相关关系的详细形状,形状,选择一个一个适宜的数学模型称适宜的数学模型称为回回归方程式方程式,用来近似地表达,用来近似地表达变量量间的平均的平均变化关系的一种化关系的一种统计分析方法。分析方法。7.1.4相关分析与回归分析区别 l在相关分析中,不用确定自变量和因变量;而在回归分析中,必需事先确定哪个为自变量,哪个为因变量,而且只能从自变量去推测因变量,而不能从因变量去推断自变量。l相关分析不能指出变量间相互关系的详细方式;而回归分析能确切的指出变量之间相互关系的详细方式,它可根据回归模型从知量估计和预测未知量。l相关分析所涉及的变量普通都是随机变量,而回归分析中因变量是随机的,自变量那么作为研讨时给定的非随机变量。7.1.5相关分析与回归分析联络相关分析是回归分析的根底和前提回归分析是相关分析的深化和继续7.2 一元线性回归回回归分析的特点分析的特点一元一元线性回性回归方程方程估估计规范范误差差回回归方程的方程的显著性著性检验利用回利用回归方程方程进展展预测与控制与控制对总体回体回归方程参数的估方程参数的估计7.2.1 回归分析的特点回回归分析是运用分析是运用统计方法方法寻觅一数学方程,建立一数学方程,建立自自变量与因量与因变量之量之间的关系,并据以利用自的关系,并据以利用自变量量的的给定定值来推算或估来推算或估计因因变量的量的值因因变量是随机量是随机变量,自量,自变量是非随机量是非随机变量,是量,是给定的数定的数值线性回性回归与非与非线性回性回归一元一元线性回性回归与多元与多元线性回性回归7.2.2 一元线性回归方程的建立一元一元线性回性回归方程方程最小二乘法确定回最小二乘法确定回归方程系数方程系数一元线性回归模型 概念要点对对于于只只涉涉及及一一个个自自变变量量的的简简单单线线性性回回归归模模型型可表示为可表示为模模型型中中,Y 是是X 的的线线性性函函数数部部分分加加上上误误差差项项线线性性部部分分反反映映了了由由于于X 的的变变化化而而引引起起的的Y的的变变化化误差项误差项 是随机变量是随机变量反反映映了了除除 X 和和 Y之之间间的的线线性性关关系系之之外外的的随随机机要素对要素对 Y 的影响的影响是是不不能能由由 X 和和 Y 之之间间的的线线性性关关系系所所解解释释的的变变异性异性回归方程总体体回回归参参数数 是是未未知知的的,必必需需利利用用样本本数数据去估据去估计总体回归方程样本回归方程总体回归方程 概念要点简单线性回归方程的方式如下简单线性回归方程的方式如下 E( Y ) = 0+ 1X描描画画 Y 的的平平均均值值或或期期望望值值如如何何依依赖赖于于 X 的的方方程程称为总体回归方程。称为总体回归方程。 0是是回回归归直直线线在在 Y 轴轴上上的的截截距距,是是当当 X=0 时时 Y的期望值的期望值 1是是直直线线的的斜斜率率,称称为为回回归归系系数数,表表示示当当X每每变动一个单位时,变动一个单位时,Y 的平均变动值的平均变动值3.简单线性回归中估计的回归方程为简单线性回归中估计的回归方程为其其中中: 是是估估计计的的回回归归直直线线在在 y 轴轴上上的的截截距距, 是是直直线线的斜率,它表示的斜率,它表示 x 每变动一个单位时,每变动一个单位时, 的变动值。的变动值。 2.用用样样本本统统计计量量 和和 替替代代回回归归方方程程中中的的未未知知参参数数 和和 ,就得到了估计的回归方程。,就得到了估计的回归方程。1.总总体体回回归归参参数数 和和 是是未未知知的的,必必需需利利用用样样本数据去估计本数据去估计估计的回归方程7.2.2 回回归方程的建立方程的建立 表表7-1 我我国国人人均均国国民民收收入入与与人人均均消消费费金金额额数数据据 单单位位:元元年份年份人均人均国民收入国民收入人均人均消费金额消费金额年份年份人均人均国民收入国民收入人均人均消费金额消费金额1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148 在在研研讨我我国国人人均均消消费程程度度的的问题中中,把把全全国国人人均均消消费额记为y,把把人人均均国国民民收收入入记为x。我我们搜搜集集到到19811993年年的的样本本数数据据xi ,yi,i =1,2,13,数据,数据见表表7-1。最小平方法图示最小平方法 概念要点使因使因变量的察看量的察看值与估与估计值之之间的离差平方和的离差平方和最小来求得方程系数的方法。即最小来求得方程系数的方法。即用用最最小小平平方方法法拟合合的的直直线来来代代表表x与与y之之间的的关系与关系与实践数据的践数据的误差比其他任何直差比其他任何直线都小都小最小平方法确定回归方程系数最小平方法确定回最小平方法确定回归方程系数方程系数估计方程的求法实例 【例例7.1】根根据据表表7-1中中的的数数据据,配配合合人人均均消费金额对人均国民收入的回归方程。消费金额对人均国民收入的回归方程。 根据方程系数的求解公式得根据方程系数的求解公式得估计阅历)方程 人均消费金额对人均国民收入的回归方程为y = 54.22286 + 0.52638 x 7.2.3 估计规范误差估估计规范范误差含差含义估估计规范范误差的差的计算算估计规范误差的含义根据回根据回归方程方程计算的因算的因变量的量的值与与实践察看践察看值有一定的差距即估有一定的差距即估计规范范误差,差,该误差的差的大小反映了回大小反映了回归直直线的代表性,因此,的代表性,因此,拟合合出回出回归线后,需求后,需求计算估算估计规范范误差,以确差,以确定定该回回归线的可利用价的可利用价值如何如何估计规范误差的计算估计规范误差含义是各察看值与估计值误差的平均值。离差平方和的分解因因变变量量 y 的的取取值值是是不不同同的的,y 取取值值的的这这种种动动摇摇称为变差称为变差对对一一个个详详细细的的观观测测值值来来说说,变变差差的的大大小小可可以以经经过该实践观测值与其均值过该实践观测值与其均值 之差来表示之差来表示全全部部n次次察察看看值值的的总总变变差差可可由由这这些些离离差差的的平平方方和和 表示表示离差平方和的分解图示x xy y 离差分解离差分解图图离差平方和的分解 三个平方和的关系两端平方后求和有两端平方后求和有从从图上看有上看有Lyy = Q + U总变总变差差LyyLyy回回归变归变差差U U剩余剩余变变差差Q Q离差平方和的分解 三个平方和的意义总变差差Lyy反映因反映因变量的量的 n 个察看个察看值与其均与其均值的的总离差离差回回归变差差U反反映映自自变量量 x 的的变化化对因因变量量 y 取取值变化化的的影影响响,或或者者说,是是由由于于 x 与与 y 之之间的的线性性关关系系引引起起的的 y 的的取取值变化化,也也称称为可可解解释的的平平方和方和剩余剩余变差差Q反反映映除除 x 以以外外的的其其他他要要素素对 y 取取值的的影影响响,也称也称为不可解不可解释的平方和的平方和总变差Lyy回归变差U剩余变差Q7.2.4 回归方程的显著性检验回归方程显著性检验统计量F (1,n-2)回绝域回归方程的显著性检验回归方程的显著性检验H0:线性关系不显著H1:线性关系显著F=U/Q/(n-2)回归方程的显著性检验 检验的步骤提出假设H0:计算检验统计量F确定显著性程度,并根据分子自在度1和分母自在度n-2找出临界值F 作出决策:假设FF ,回绝H0;假设F=F ,接受H07.2.5利用回归方程进展 预测与控制利用回归方程进展预测与控制小样本时预测值的区间估计大样本时预测值的区间估计对于自变量 x 的一个某个值 x0,根据回归方程得到因变量 y 的一个预测区间利用回归方程进展预测 y0在在1-置信程度下的置信程度下的预测值为大大样样本本时时,可以用,可以用Z Z分布:分布:式中:式中:SySy为为估估计规计规范范误误差差简化公式利用回归方程进展预测置信区间估计:算例 【例【例7.2】根据前例,求出人均国民收入为】根据前例,求出人均国民收入为1250.7元时,人均元时,人均消费金额消费金额95%的置信区间。的置信区间。 解:根据前面的计算结果解:根据前面的计算结果 712.57,Sy=14.95,t(13-2)2.201,n=13 置信区间为置信区间为人人 均均 消消 费费 金金 额额 95%95%的的 置置 信信 区区 间间 为为 702.305702.305元元722.835722.835元之元之间间利用回归方程进展控制控制是预测的反问题,即要求观测值在某区间(y1,y2)内取值时,问x需控制在什么范围。即要求以一定的置信度求出相应的x1,x2,使得x1xx2时,所对应的观测值y落在(y1,y2)内。如大样本且当置信度为95.45%时,可利用解出x1,x2作为控制的上下限。7.2.6 总体回归方程的参数估计总体回归方程的参数估计7.3 多元线性回归分析多元线性回归模型 概念要点一个因变量与两个及两个以上自变量之间的回归描画因变量 y 如何依赖于自变量 x1 , x2 , xp 和误差项 的方程称为多元线性回归模型涉及 p 个自变量的多元线性回归模型可表示为 是被称为误差项的随机变量 y 是x1,x2 , ,xp 的线性函数加上误差项 阐明了包含在y里面但不能被p个自变量的线性关系所解释的变异性多元线性回归分析多元回归方程的建立估计规范误差多元线性回归方程的显著性检验多元线性回归方程系数的显著性检验7.3.3 运用回归分析时 应留意的问题定性分析与定量分析相定性分析与定量分析相结合合随机随机误差差项-残差残差图预测不能随意不能随意扩展范展范围-不能外推不能外推影响回影响回归系数的要素系数的要素-计量量单位位7.4 相关分析相关分析与相关系数相关分析与相关系数相关系数的相关系数的测定定相关系数的相关系数的显著性著性检验及抽及抽样误差差等等级相关相关相关分析l用一个目的来阐明景象间相互依存关系的用一个目的来阐明景象间相互依存关系的 亲密程度亲密程度l直线相关用相关系数描画直线相关用相关系数描画l曲线相关用相关指数描画曲线相关用相关指数描画7.4.2 相关系数的相关系数的测定定相关系数的测定相关关系的测定相关系数对变量之量之间关系关系亲密程度的度量密程度的度量对两两个个变量量之之间线性性相相关关程程度度的的度度量量称称为简单相关系数相关系数假假设相相关关系系数数是是根根据据总体体全全部部数数据据计算算的的,称称为总体相关系数,体相关系数,记为假假设是是根根据据样本本数数据据计算算的的,那那么么称称为样本本相关系数,相关系数,记为 r相关关系的测定相关系数取值及其意义 r 的取的取值范范围是是 -1,1|r|=1,为完全相关完全相关r =1,为完全正相关完全正相关r =-1,为完全完全负相关相关 r = 0,不存在,不存在线性相关关系性相关关系-1r0,为负相关相关0tt,回,回,回,回绝绝H0H0n n 假假假假设设 t t tt,接受,接受,接受,接受H0H0相关系数的抽样误差用来对总体相关系数进展区间估计。假设r是正态分布,那么总体相关系数的估计区间是相关系数圈套异常值的影响变量的样本方差过小其他变量的作用7.4.4 等等级相关相关等级相关等级相关的显著性检验当当n=30时,时,t检验检验本章作业6、7
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号