资源预览内容
第1页 / 共31页
第2页 / 共31页
第3页 / 共31页
第4页 / 共31页
第5页 / 共31页
第6页 / 共31页
第7页 / 共31页
第8页 / 共31页
第9页 / 共31页
第10页 / 共31页
亲,该文档总共31页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第八章第八章成对数据的统计分析成对数据的统计分析8.28.2一元线性回归模型及应用一元线性回归模型及应用 通过前面的学习我们已经了解到,根据成对样本数据的散点图和样本相关系数,可以推断两个变量是否存在相关关系、是正相关还是负相关,以及线性相关程度的强弱等.思考:是否能像建立函数模型刻画两个变量之间的确定性关系那样,通过建立适当的统计模型来刻画两变量之间的相关关系呢?新课引入例:生活经验告诉我们,儿子的身高与父亲的身高相关.一般来说,父亲的身高较高时,儿子的身高通常也较高.为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如表1所示.编号1234567891011121314父亲身高/cm174170173169182172180172168166182173164180儿子身高/cm176176170170185176178174170168178172165182从图上看,散点大致分布在一条直线附近根据我们学过的整理数据的方法:相关系数r=0.886父亲身高/cm180175170165160160165 170 175 180 185 190儿子身高/cm 185 问题1:可以得到什么结论?由散点图的分布趋势表明儿子的身高与父亲的身高线性相关,通过相关系数可知儿子的身高与父亲的身高正线性相关,且相关程度较高问题3:那么影响儿子身高的其他因素是什么?影响儿子身高的因素除父亲的身外,还有 母亲的身高、生活的环境、饮食习惯、营养水平、体育锻炼等随机的因素,儿子身高是父亲身高的函数的原因是存在这些随机的因素.问题4:各种随机因素都是独立的,有些因素又无法量化.你能否考虑到这些随机因素的作用,用类似于函数的表达式,表示儿子身高与父亲身高的关系吗?问题2:是否可以用函数模型来刻画?不能,因为不符合函数的定义.这其中还受其它因素的影响.如果用x表示父亲身高,Y表示儿子的身高,用e表示各种其它随机因素影响之和,称e为随机误差,由于儿子身高与父亲身高线性相关,所以Y=bx+a.考虑随机误差后,儿子的身高可以表示为:Y=bx+a+e 我们称式为Y关于x的一元线性回归模型,其中,Y称为因变量或响应变量,x称为自变量或解释变量.a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差一元线性回归模型 如果用x表示父亲身高,Y表示儿子的身高,e表示随机误差.假定随机误差e的均值为0,方差为与父亲身高无关的定值 ,则它们之间的关系可以表示为 由于随机误差表示大量已知和未知的各种影响之和,它们会相互抵消,为使问题简洁,可以假设随机误差e的均值为0,方差为与父亲身高无关的定值 函数模型与回归模型之间的差别函数模型:回归模型:一元线性回归模型Y=bx+a+e增加了随机误差项e,因变量 Y 的值由 自变量 x 和随机误差项e共同确定,即自变量x只能解释部分Y的变化.解释变量x(身高)模型误差e(其它所有变量)响应变量Y(体重)问题5:你能结合父亲与儿子身高的实例,说明回归模型的意义?可以解释为父亲身高为 的所有男大学生身高组成一个子总体,该子总体的均值为 ,即该子总体的均值与父亲的身高是线性函数关系.而对于父亲身高为 的某一名男大学生,他的身高 并不一定为 ,它不仅是该子总体的一个观测值,这个观测值与均值有一个误差项 .(1)除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食习惯和锻炼时间等.(2)在测量儿子身高时,由于测量工具、测量精度所产生的测量误差.(3)实际问题中,我们不知道儿子身高和父亲身高的相关 关系是什么,可以利用一元线性回归模型来近似这种关系,这种近似关系也是产生随机误差e的原因.产生随机误差e的原因有:问题6:你能结合具体实例解释产生模型中随机误差项的原因吗?解:(1),(2),(3),(4),(5)回归模型(6),(7)函数模型巩固提升判断下列变量间哪些能用函数模型刻画,哪些能用回归模型刻画?为什么?函数模型与回归模型有什么区别?(1)某公司的销售收入和广告支出;(2)某城市写字楼的出租率和每平米月租金;(3)航空公司的顾客投诉次数和航班正点率;(4)某地区的人均消费水平和人均国内生产总值(GDP);(5)学生期末考试成绩和考前用于复习的时间;(6)一辆汽车在某段路程中的行驶速度和行驶时间;(7)正方形的面积与周长一元线性回归模型参数的最小二乘估计在一元线性回归模型中,表达式 Y=bx+a+e刻画了变量Y与x之间的线性相关关系,其中参数a和b未知,那么我们如何来确定参数a和b的值呢?问题:确定参数a和b的原则是什么?与函数不同,回归模型的参数一般是无法精确求出的,只能通过成对样本数据估计这两个参数.相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近.我们将 称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫最小二乘法1.1.对于一组具有线性相关关系的数据对于一组具有线性相关关系的数据(x(x1 1,y y1 1),(x(x2 2,y y2 2),(x(xn n,y yn n),称为样本点的中心经验回归直线必过点称为样本点的中心经验回归直线必过点 练习练习:如果记录了如果记录了x x,y y的几组数据分别为的几组数据分别为(0,1),(1,3),(2,5),(3,7),(0,1),(1,3),(2,5),(3,7),那么那么y y关于关于x x的经验回归直线必过点的经验回归直线必过点()A A.(2,2)(2,2)B B.(1(1.5,2)5,2)C C.(1,2)(1,2)D D.(1(1.5,4)5,4)例例2.2.某研究机构对高三学生的记忆力某研究机构对高三学生的记忆力x x和判断力和判断力y y进行统计分析进行统计分析,得下表数据得下表数据:x681012y2356(1)(1)请画出上表数据的散点图请画出上表数据的散点图;(2)(2)请根据上表提供的数据请根据上表提供的数据,建立建立y y关于关于x x的经验回归方程的经验回归方程;(3(3)预测记忆力为预测记忆力为9 9的同学的判断力的同学的判断力.问题:当x=9时,,记忆力为9的同学,他的判断力一定是4吗?为什么?判断力不一定会是4,这是因为还有其他影响的因素判断力的因素,回归模型中的随机误差清楚地表达了这种影响,不过,我们可以作出推测,当记忆力为9时,判断力一般在4左右.参数b的含义:解释变量x对响应变量Y的均值的影响,变量x每增加一个单位,变量Y的均值将增加b个单位。在使用经验回归方程进行预测时,需注意以下问题1.回归方程只适用于我们所研究的样本的总体;2.我们所建立的回归方程一般都有时间性;3.样本采集的范围会影响回归方程的适用范围;4.不能期望回归方程得到的预报值就是预报 变量的精确值.事实上,它是预报变量的可取 值的平均值.建立经验回归方程后,通常需要对模型刻画数据的效果进行分析-残差分析对于响应变量对于响应变量Y Y,通过观测得到的数据称为,通过观测得到的数据称为观测值观测值,通过经验回归方程得到,通过经验回归方程得到的数值称为的数值称为预测值预测值观测值减去预测值观测值减去预测值称为称为残差残差残差是随机误差的估计结残差是随机误差的估计结果,通过对残差的分析果,通过对残差的分析可以判断模型刻画数据的效果可以判断模型刻画数据的效果,以及,以及判断原始数据中是否判断原始数据中是否存在可疑数据存在可疑数据等,这方面的工作称为等,这方面的工作称为残差分析残差分析1.1.残差等于观测值减预测值;残差等于观测值减预测值;2.2.残差的平方和越小越好;残差的平方和越小越好;3.3.原始数据中的可疑数据往往是残差绝对值过大的数据;原始数据中的可疑数据往往是残差绝对值过大的数据;4.4.对数据刻画效果比较好的残差图特征:残差点比较均匀的集对数据刻画效果比较好的残差图特征:残差点比较均匀的集中在水平带状区域内中在水平带状区域内【例例】已知某成对样本数据的残差图如下,则样本点数据中可能不准已知某成对样本数据的残差图如下,则样本点数据中可能不准确的是从左到右第(确的是从左到右第()个)个6 6决定系数决定系数(1)R2是用来刻画回归效果的,由R 2=1-可知R2越大,意味着残差平方和越小,也就是说模型的拟合效果越好.(2)残差图也是用来刻画回归效果的,判断依据是:残差比较均匀地分布在横轴的两边,说明残差比较符合一元线性回归模型的假定.判断模型拟合效果好坏的方法:判断模型拟合效果好坏的方法:例例:某某研究机构对高三学生的记忆力研究机构对高三学生的记忆力x x和判断力和判断力y y进行统计分析进行统计分析,得下表数据得下表数据:x681012y2356(1)请画出上表数据的散点图;(2)请根据上表提供的数据,建立y关于x的经验回归方程;(3)试根据求出的经验回归方程,预测记忆力为9的同学的判断力.(4)列出残差表,做残差图(5)求决定指数,说明拟合效果(1)确定研究对象,明确哪个变量是解释变量,哪个变量是响应变量(2)画出解释变量与响应变量的散点图,观察它们之间的关系 (如是否存在线性关系等)(3)由经验确定回归方程的类型(4)按一定规则(如最小二乘法)估计经验回归方程中的参数.(5)得出结果后需进行线性回归分析.残差平方和越小,模型的拟合效果越好.决定系数R2取值越大,说明模型的拟合效果越好.注意:若题中给出了检验回归方程是否理想的条件,则根据题意进行分析检验即可.建立线性回归模型的基本步骤非线性经验回归方程非线性经验回归方程当经验回归方程并非形如当经验回归方程并非形如y=bx+ay=bx+a(a a,b bR R)时,称之为)时,称之为非线非线性经验回归方程性经验回归方程,当两个变量不呈线性相关关系时,依据样本,当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来模拟点的分布选择合适的曲线方程来模拟x1234yee2e3e41402856283参考数据:参考数据:对于非线性经验回归问题,可以画出已知数据的散对于非线性经验回归问题,可以画出已知数据的散点图,把它与学过的各种函数(幂函数、对数函数、指数点图,把它与学过的各种函数(幂函数、对数函数、指数函数等)的图像作比较,挑选一种跟这些散点拟合得最好函数等)的图像作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把的函数,然后采用适当的变量变换,把非线性相关转化为线性相关,通过求经验回归方程来来解决解决
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号