资源预览内容
第1页 / 共25页
第2页 / 共25页
第3页 / 共25页
第4页 / 共25页
第5页 / 共25页
第6页 / 共25页
第7页 / 共25页
第8页 / 共25页
第9页 / 共25页
第10页 / 共25页
亲,该文档总共25页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
3.1回归分析的基回归分析的基本思想及其初步本思想及其初步应用应用高二数学高二数学 选修选修2-3问题问题1:正方形的面积:正方形的面积y与正方形的边长与正方形的边长x之间之间 的的函数关系函数关系是是y = x2确定性关系确定性关系问题问题2:某水田水稻产量:某水田水稻产量y与施肥量与施肥量x之间是否之间是否 有一个确定性的关系?有一个确定性的关系?例如:在例如:在 7 块并排、形状大小相同的试验田上块并排、形状大小相同的试验田上 进行施肥量对水稻产量影响的试验,得进行施肥量对水稻产量影响的试验,得 到如下所示的一组数据:到如下所示的一组数据:施化肥量施化肥量x 15 20 25 30 35 40 45水稻产量水稻产量y 330 345 365 405 445 450 455复习复习 变量之间的两种关系变量之间的两种关系10 20 30 40 50500450400350300施化肥量施化肥量x 15 20 25 30 35 40 45水稻产量水稻产量y 330 345 365 405 445 450 455xy施化肥量施化肥量水稻产量水稻产量 自变量取值一定时,因变量的取值带有一定自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做随机性的两个变量之间的关系叫做相关关系相关关系。1、定义、定义: 1):相关关系是一种不确定性关系;):相关关系是一种不确定性关系;注注对具有相关关系的两个变量进行统计对具有相关关系的两个变量进行统计分析的方法叫分析的方法叫回归分析回归分析。2):): 现实生活中存在着大量的相关关系。现实生活中存在着大量的相关关系。 如:人的身高与年龄;如:人的身高与年龄; 产品的成本与生产数量;产品的成本与生产数量; 商品的销售额与广告费;商品的销售额与广告费; 家庭的支出与收入。等等家庭的支出与收入。等等探索:水稻产量探索:水稻产量y与施肥量与施肥量x之间大致有何规之间大致有何规律?律?10 20 30 40 50500450400350300发现:图中各点,大致分布在某条直线附近。发现:图中各点,大致分布在某条直线附近。探索探索2:在这些点附近可画直线不止一条,哪条直:在这些点附近可画直线不止一条,哪条直线最能代表线最能代表x与与y之间的关系呢?之间的关系呢?施化肥量施化肥量x 15 20 25 30 35 40 45水稻产量水稻产量y 330 345 365 405 445 450 455xy散点图散点图施化肥量施化肥量水稻产量水稻产量探究探究对于一组具有线性相关关系的数据对于一组具有线性相关关系的数据我们知道其回归方程的截距和斜率的最小二乘估计公式分别为:我们知道其回归方程的截距和斜率的最小二乘估计公式分别为:称为样本点的中心。称为样本点的中心。1、所求直线方程叫做、所求直线方程叫做回归直线方程回归直线方程; 相应的直线叫做相应的直线叫做回归直线回归直线。2、对两个变量进行的线性分析叫做、对两个变量进行的线性分析叫做线性回归分析线性回归分析。1、回归直线方程、回归直线方程2、求回归直线方程的步骤:、求回归直线方程的步骤:(3)代入公式)代入公式(4)写出直线方程为)写出直线方程为y=bx+a,即为所求的回归直线方程。即为所求的回归直线方程。例例1 1、观察两相关量得如下数据、观察两相关量得如下数据: :x-1-2-3-4-553421y-9-7-5-3-115379求两变量间的回归方程求两变量间的回归方程. .解:列表:解:列表:i12345678910xi-1-2-3-4-553421yi-9-7-5-3-115379xiyi9141512551512149所求回归直线方程为所求回归直线方程为 假设随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点假设随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点图中所有的点将完全落在图中所有的点将完全落在回归直线回归直线上。但是,在图中,数据点并没有完全落在上。但是,在图中,数据点并没有完全落在回归直线上。回归直线上。这些点散布在回归直线附近。这些点散布在回归直线附近。 那么,数据点和它在回归直线上相应位置的差异数据点和它在回归直线上相应位置的差异 是随机误差的效应,称是随机误差的效应,称 为为残差残差。表表3-2列出了女大学生身高和体重的原始数据以及相应的残差数据。列出了女大学生身高和体重的原始数据以及相应的残差数据。编号编号12345678身高身高/cm165165157170175165155170体重体重/kg4857505464614359残差残差-6.3732.6272.419-4.6181.1376.627-2.8830.382 (一)(一)我们可以利用图形来分析残差特性,作图时纵坐标为残我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为这样作出的图形称为残差图残差图。3 3、残差分析:残差分析:残差图的制作及作用残差图的制作及作用1 1、坐标纵轴为残差变量,横轴可以有不同的选择;、坐标纵轴为残差变量,横轴可以有不同的选择;2 2、若模型选择的正确,残差图中的点应该分布在以横、若模型选择的正确,残差图中的点应该分布在以横轴为心的带形区域;轴为心的带形区域;3 3、对于远离横轴的点,要特别注意。、对于远离横轴的点,要特别注意。身高与体重残差图异常点 错误数据 模型问题表表3-2列出了女大学生身高和体重的原始数据以及相应的残差数据。列出了女大学生身高和体重的原始数据以及相应的残差数据。编号编号12345678身高身高/cm165165157170175165155170体重体重/kg4857505464614359残差残差-6.3732.6272.419-4.6181.1376.627-2.8830.382 (一)(一)我们可以利用图形来分析残差特性,作图时纵坐标为残我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为这样作出的图形称为残差图残差图。3 3、残差分析:残差分析:(二)(二)例例2 在一段时间内,某中商品的价格在一段时间内,某中商品的价格x元和需求量元和需求量Y件之件之间的一组数据为:间的一组数据为:求出求出Y对的回归直线方程,并说明拟合效果的好坏。对的回归直线方程,并说明拟合效果的好坏。价格价格x1416182022需求量需求量Y1210753列出残差表为列出残差表为0.994因而,拟合效果较好。因而,拟合效果较好。00.3-0.4-0.10.24.62.6-0.4-2.4-4.4例例3 关于关于x与与y有如下数据:有如下数据: 有如下的两个线性模型:有如下的两个线性模型:(1) ;(;(2) 试比较哪一个拟合效果更好。试比较哪一个拟合效果更好。x24568y30406050707、一般地,建立回归模型的基本步骤为:、一般地,建立回归模型的基本步骤为:(1)确定研究对象,明确哪个变量是解析变量,哪个变量是)确定研究对象,明确哪个变量是解析变量,哪个变量是预报变量。预报变量。(2)画出确定好的解析变量和预报变量的散点图,观察它们)画出确定好的解析变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)。之间的关系(如是否存在线性关系等)。(3)由经验确定回归方程的类型(如我们观察到数据呈线性关)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程系,则选用线性回归方程y=bx+a).(4)按一定规则估计回归方程中的参数(如最小二乘法)。)按一定规则估计回归方程中的参数(如最小二乘法)。(5)得出结果后分析残差图是否有异常(个别数据对应残差过)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性,等等),过存在异常,则检大,或残差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或模型是否合适等。查数据是否有误,或模型是否合适等。什么是回归分析?什么是回归分析? (内容)(内容)1.从从一一组组样样本本数数据据出出发发,确确定定变变量量之之间间的的数数学学关系式关系式2.对对这这些些关关系系式式的的可可信信程程度度进进行行各各种种统统计计检检验验,并并从从影影响响某某一一特特定定变变量量的的诸诸多多变变量量中中找找出出哪哪些变量的影响显著,哪些不显著些变量的影响显著,哪些不显著3.利利用用所所求求的的关关系系式式,根根据据一一个个或或几几个个变变量量的的取取值值来来预预测测或或控控制制另另一一个个特特定定变变量量的的取取值值,并给出这种预测或控制的精确程度并给出这种预测或控制的精确程度回归分析与相关分析的区别回归分析与相关分析的区别1.相相相相关关关关分分分分析析析析中中中中,变变变变量量量量 x x 变变变变量量量量 y y 处处处处于于于于平平平平等等等等的的的的地地地地位位位位;回回回回归归归归分分分分析析析析中中中中,变变变变量量量量 y y 称称称称为为为为因因因因变变变变量量量量,处处处处在在在在被被被被解解解解释释释释的的的的地地地地位,位,位,位,x x 称为自变量,用于预测因变量的变化称为自变量,用于预测因变量的变化称为自变量,用于预测因变量的变化称为自变量,用于预测因变量的变化2.相相相相关关关关分分分分析析析析中中中中所所所所涉涉涉涉及及及及的的的的变变变变量量量量 x x 和和和和 y y 都都都都是是是是随随随随机机机机变变变变量量量量;回回回回归归归归分分分分析析析析中中中中,因因因因变变变变量量量量 y y 是是是是随随随随机机机机变变变变量量量量,自自自自变变变变量量量量 x x 可可可可以是随机变量,也可以是非随机的确定变量以是随机变量,也可以是非随机的确定变量以是随机变量,也可以是非随机的确定变量以是随机变量,也可以是非随机的确定变量3.相相相相关关关关分分分分析析析析主主主主要要要要是是是是描描描描述述述述两两两两个个个个变变变变量量量量之之之之间间间间线线线线性性性性关关关关系系系系的的的的密密密密切切切切程程程程度度度度;回回回回归归归归分分分分析析析析不不不不仅仅仅仅可可可可以以以以揭揭揭揭示示示示变变变变量量量量 x x 对对对对变变变变量量量量 y y 的影响大小,还可以由回归方程进行预测和控制的影响大小,还可以由回归方程进行预测和控制的影响大小,还可以由回归方程进行预测和控制的影响大小,还可以由回归方程进行预测和控制 例例3 3、炼钢是一个氧化降碳的过程,钢水含碳量的多少、炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,必须掌握直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼钢水含碳量和冶炼时间的关系。如果已测得炉料熔化完毕时,钢水的含碳时间的关系。如果已测得炉料熔化完毕时,钢水的含碳量量x与冶炼时间与冶炼时间y(从炉料熔化完毕到出刚的时间)的一(从炉料熔化完毕到出刚的时间)的一列数据,如下表所示:列数据,如下表所示:x(0.01%)104180190177147134150191204121y(min)100200210185155135170205235125(1 1)y y与与x x是否具有线性相关关系;是否具有线性相关关系;(2 2)如果具有线性相关关系,求回归直线方程;)如果具有线性相关关系,求回归直线方程;(3 3)预测当钢水含碳量为)预测当钢水含碳量为160160个个0.01%0.01%时,应冶炼多少分时,应冶炼多少分钟?钟?如何描述两个变量之间线性相关关系的强弱如何描述两个变量之间线性相关关系的强弱? 在数学在数学3中,我们学习了用相关系数中,我们学习了用相关系数r来衡量两个变量来衡量两个变量之间线性相关关系的方法。之间线性相关关系的方法。相关系数相关系数r正相关;负相关。 通常,r0.75或r-0.75认为两个变量有很强的相关性相关关系的测度相关关系的测度(相关系数取值及其意义)-1.0+1.00-0.5+0.5完全负相关完全负相关完全负相关完全负相关无线性相关无线性相关无线性相关无线性相关完全正相关完全正相关完全正相关完全正相关负相关程度增加负相关程度增加负相关程度增加负相关程度增加r正相关程度增加正相关程度增加正相关程度增加正相关程度增加(1)(1)列出下表列出下表, ,并计算并计算i12345678910xi104180190177147134150191204121yi100200210185155135170205235125xiyi10400360003990032745227851809025500391554794015125故,钢水含碳量与冶炼时间具有很强线性相关性所以回归直线的方程为所以回归直线的方程为 =1.267x-30.51(3)(3)当当x=160x=160时时, 1.267.160-30.51=172, 1.267.160-30.51=172(2)设所求的回归方程为设所求的回归方程为
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号