资源预览内容
第1页 / 共54页
第2页 / 共54页
第3页 / 共54页
第4页 / 共54页
第5页 / 共54页
第6页 / 共54页
第7页 / 共54页
第8页 / 共54页
第9页 / 共54页
第10页 / 共54页
亲,该文档总共54页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第三节第三节 线性回归方线性回归方程程基础梳理基础梳理1. 两个变量的线性相关能用直线bx+a近似地表示的相关关系叫做线性相关关系.一般地,设有n对观察数据如下:当a、b使Q=(y1-bx1-a)2+(y2-bx2-a)2+(yn-bxn-a)2取得最小值时,方程=bx+a为拟合这n对数据的线性回归方程.xx1x2xnyy1y2yn2. 线性回归方程(1)最小二乘法求回归直线使得样本数据的点到回归直线的 最小的方法叫做最小二乘法.距离的平方和(2)线性回归方程 方程=bx+a是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),(xn,yn)的线性回归方程,其中a,b是待定参数.典例分析典例分析题型一题型一 相关关系的判断相关关系的判断【例1】下列两个变量之间的关系是相关关系的是-. 降雪量与交通事故发生率; 单位面积产量为常数时,土地面积与产量; 日照时间与水稻的亩产量; 电压一定时,电流与电阻.分析 函数关系和相关关系都是指两个变量之间的关系,函数关系是两变量之间的一种确定关系,而相关关系是一种不确定关系.解 中两个变量间的关系都是确定的,所以是函数关系;中两个变量是相关关系,降雪量相同的不同地段,交通事故的发生率也不同;中的两个变量是相关关系,对于日照时间一定的水稻,仍可以有不同的亩产.学后反思 判断两个变量间的关系是函数关系还是相关关系,关键是判断两个变量间的关系是否是确定的,若确定,则是函数关系;若不确定,再判断是否线性相关.判断两个变量之间有无线性相关关系,最简便可行的方法是绘制散点图.散点图是由数据点分布构成的,是分析研究两个变量相关的重要手段,如果发现点的分布从整体上看大致在一条直线附近,那么这两变量是线性相关的.典例分析典例分析题型一题型一 相关关系的判断相关关系的判断【例1】下列两个变量之间的关系是相关关系的是-. 降雪量与交通事故发生率; 单位面积产量为常数时,土地面积与产量; 日照时间与水稻的亩产量; 电压一定时,电流与电阻.分析 函数关系和相关关系都是指两个变量之间的关系,函数关系是两变量之间的一种确定关系,而相关关系是一种不确定关系.解 中两个变量间的关系都是确定的,所以是函数关系;中两个变量是相关关系,降雪量相同的不同地段,交通事故的发生率也不同;中的两个变量是相关关系,对于日照时间一定的水稻,仍可以有不同的亩产.学后反思 判断两个变量间的关系是函数关系还是相关关系,关键是判断两个变量间的关系是否是确定的,若确定,则是函数关系;若不确定,再判断是否线性相关.判断两个变量之间有无线性相关关系,最简便可行的方法是绘制散点图.散点图是由数据点分布构成的,是分析研究两个变量相关的重要手段,如果发现点的分布从整体上看大致在一条直线附近,那么这两变量是线性相关的.1. 有五组变量:汽车的重量和汽车每消耗1升汽油所行驶的平均路程;平均日学习时间和平均学习成绩;某人每日吸烟量和其身体健康情况;正方形的边长和面积;汽车的重量和百公里耗油量.其中两个变量成正相关的是 .举一反三举一反三解析: 由相关关系的有关概念可知正相关,为负相关,为函数关系.答案: 【例2】下面是水稻产量与施化肥量的一组观测数据:施化肥量:15 20 25 30 35 40 45水稻产量:320 330 360 410 460 470 480(1)将上述数据制成散点图;(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?分析 判断变量间是否是线性相关,一种常用的简便可行的方法就是作散点图.解 (1)散点图如下:(2)从图中可以发现,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化肥施用量的增加而增长.学后反思 散点图是由大量数据点分布构成的,是定义在具有相关关系的两个变量基础之上的.对于性质不明确的两组数据可先作散点图,直观地分析它们有无关系及关系的密切程度.2. 下表是某地的年降雨量(mm)与年平均气温()的数据资料,两者是线性相关关系吗?求线性回归方程有意义吗?举一反三举一反三年平均气温()12.5112.8412.8413.6913.3312.7413.05年降雨量(mm)748542507813574701432解析: 以x轴为年平均气温,y轴为年降雨量,可得相应的散点图如图所示.因为图中各点并不在一条直线的附近,所以两者不具有线性相关关系,没必要用回归直线进行拟合.如果用公式求线性回归方程也是没有意义的.题型二题型二 求线性回归方程求线性回归方程【例3】在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下:由资料看y对x呈线性相关,试求线性回归方程.温度(x)010205070溶解度(y)66.776.085.0112.3128.0解 a= =93.6-0.880 93067.173.所求线性回归方程为=0.880 9x+67.173.学后反思 因为y对x呈线性相关关系,所以可以用线性相关的方法解决问题.(1)画出散点图后,即可观察两个变量是否相关.若知道x与y呈线性相关关系,则无需进行相关性检验,否则应进行相关性检验.如果它们之间相关关系不显著,即使求出回归直线也毫无意义.(2)利用公式: 来计算回归系数,有时常制表对应出xiyi,xi2,以便于求和.举一反三举一反三3. 某中学期中考试后,对成绩进行分析,从某班中选出5名学生的总成绩和外语成绩如下表:则外语成绩对总成绩的线性回归方程是 .学科 12345总成绩(x) 482383421364362外语成绩(y) 7865716461学生解析: 设回归直线方程是=bx+a,将以上数据代入解得 b0.132, a14.683, 所以线性回归方程为 =0.132x+14.683.答案: =0.132x+14.683题型三题型三 利用线性回归方程对总体进行估计利用线性回归方程对总体进行估计【例4】(14分)下表是几个国家近年来的男性与女性的平均寿命(单位:岁)情况:国家男性平均寿(x)女性平均寿命(y)调查年号中国 70 73 2000韩国 73.4 80.4 2002马来西亚 71 75.5 2003美国 78.1 82.6 2005法国 75.5 82 2001日本 78.6 85.6 2004(1)如果男性与女性的平均寿命近似成线性关系,求它们之间的线性回归方程;(2)科学家预测,到2075年,加拿大男性平均寿命为87岁.现请你预测,到2075年,加拿大女性的平均寿命(精确到0.1岁).分析 (1)本题若没有告诉我们y与x间是呈线性相关的,应首先进行相关性检验.如果两个变量不具备线性相关关系,或者说它们之间相关关系不显著时,即使求出线性回归方程也是没有意义的,而且其估计与预测也是不可信的.(2)求线性回归方程的关键:计算出 、 、 、 .解 列表如下:i 1 2 3 4 5 6xi 70 73.4 71 78.175.5 78.6yi 73 80.4 75.5 82.682 85.6Xiyi51105901.36 5360.5 6451.06 61916728.16 可得 =35 742.08, =33 306.38, 74.43, =79.85, 5 539.82.8(1)设所求线性回归方程为 =bx+a,则 .10即所求线性回归方程为 =1.23x-11.7.(2)当x=87时, =1.2387-11.7=95.3195.312所以可预测,到2075年,加拿大女性的平均寿命为95.3岁.14学后反思 通常在尚未断定两个变量之间是否具有线性相关关系的情况下,应先进行相关性检验;在确认具有线性相关关系后,再求其线性回归方程.一般步骤为:作出散点图,判断是否线性相关;若是,则用公式求出a、b,写出线性回归方程;据方程进行估计.4. 某城区为研究城镇居民月家庭人均生活费支出和月人均收入的相关关系,随机抽取10户进行调查,其结果如下:举一反三举一反三月人均收入x(元) 300 390 420 504 570700 760 800 8501080月人均生活费y(元)255 324 330 345 450520 580 650 700750利用上述资料:(1)画出散点图;(2)如果变量x与y之间具有线性相关关系,求出回归直线方程;(3)测算人均收入为280元时,人均生活费支出应为多少元?解析: (1)散点图如图所示.(2) =637.4, =490.4,a= -b =490.4-0.707 61637.439.369 39, =0.707 61x+39.369 39.(3)把x=280代入,得y237.5元,测算人均收入为280元时,人均生活费支出应为237.5元.考点演练考点演练10. 某化工厂为预测产品的回收率y,需要研究它和原料有效成分含量x之间的相关关系,现取8对观测值,计算得 , , , ,求其线性回归方程.解析: 代入公式得 , =11.47+2.62x.11.要分析学生初中升学考试的数学成绩对高一年级数学学习有什么影响,在高一年级学生中随机抽选10名学生,记录他们入学的数学成绩和高一年级期末数学考试成绩如下表:学生编号入学成绩(x)高一期末考试成绩(y) 1 63 65 2 67 78 3 45 52 4 88 82 5 81 92 6 71 89 7 52 73 8 99 98 9 58 56 10 76 75(1)画出散点图; (2)求出线性回归方程;(3)若某学生入学的数学成绩为80分,试估计他高一期末数学考试成绩(保留两位有效数字).解析: (1)入学成绩(x)与高一期末考试成绩(y)两组变量的散点图如图.从散点图看,这两组变量具有线性相关关系;(2)设线性回归方程为 =a+bx,在两组变量具有显著的线性相关关系的情况下, 因此所求的线性回归方程是 =22.410 80+0.765 56x. (3)若某学生入学的数学成绩为80分,代入式可求得84,即这个学生高一期末数学考试成绩的预测值为84分.12. 某产品的广告支出x与销售收入y之间有下表所对应的数据.(1)画出表中数据的散点图;(2)求出y对x的回归直线方程.广告支出x(万元) 1234销售收入y(万元) 12284256解析: (1)散点图如下:(2)观察散点图可知各点大致分布在一条直线附近,列出下面表格,以备计算a、b.序号 xYxy1112112222845633429126445616224合计 1013830418于是 , , , 代入公式,得 , 故y对x的回归直线方程为 ,其中回归系数b=14.6,它的意义是:广告支出每增加1万元,销售收入y平均增加14.6万元.第二节第二节 总体分布和总体特征数的估计总体分布和总体特征数的估计基础梳理基础梳理1. 作频率分布直方图的步骤(1)求极差(即一组数据中 与 的差);(2)决定 与 ;(3)将数据 ;(4)列 ;(5)画 .2. 频率分布折线图和总体分布的密度曲线(1)频率分布折线图:将频率分布直方图中各相邻的矩形的 顺次连接起来.最大值最小值组距组数分组频率分布表频率分布直方图上底边中点足够小足够大(2)总体分布的密度曲线:如果将样本容量取得 ,分组的组距取得 ,那么相应的频率折线图将趋于一条光滑曲线,我们称这条光滑曲线为总体分布的密度曲线.3. 标准差和方差设一组样本数据 ,其平均数为 ,则有(1)标准差:s= .(2)方差:s2= .4. 用茎叶图刻画数据有两个优点:(1)所有的信息都可以从 ;图中得到(2)茎叶图便于 ,能够展示数据的分布情况.但当样本数据较多或数据位数较多时,茎叶图的效果就不是很好了.记录和表示典例分析典例分析题型一题型一 图形信息题图形信息题【例1】为了解九年级学生中女生的身高(单位:cm)情况,某中学对九年级女生身高进行了一次测量,所得数据整理后,列出了频率分布表如下:分组频数频率145.5149.510.02149.5153.540.08153.5157.5200.40157.5161.5150.30161.5165.580.16165.5169.5mn合计MN(1)求出表中m,n,M,N所表示的数分别是多少;(2)画出频率分布直方图;(3)试问:全体女生中身高在哪组范围内的人数最多?估计九年级学生中女生的身高在161.5 cm以上的概率.分析 每组距的频率是该组距中个体的个数与所研究对象的个数之比;所有组距的频率之和为1;每一组距的频率是频率分布直方图中该组距所对应的矩形的面积.解 (1)M= =50,m=50-(1+4+20+15+8)=2,N=1, (2)作出直角坐标系,组距为4,纵轴表示频率/组距,横轴表示身高,画出频率分布直方图如图.(3)在153.5157.5 cm范围内最多,估计身高在161.5 cm以上的概率为P= =0.2.学后反思 一般用频率分布直方图反映样本的频率分布,从而对总体的频率分布作出估计,其具体步骤如下:(1)将数据分组,确定合适的组距,列出频率分布表;(2)明确纵、横轴的意义,纵轴表示 , 横轴表示样本数据,画出直方图;(3)直方图中每一个矩形的面积是样本数据落在这个区间上的频率,所有的小矩形的面积之和等于1,即频率之和为1.由此可以估计样本数据落在某个区间的频率或概率或者总体的数字特征.举一反三举一反三1. 下列数据为宝洁公司在某年每周销售出的香皂数(单位:百万块):17.119.615.417.415.018.520.618.420.013.919.318.214.717.112.219.918.720.420.315.516.819.120.415.420.317.517.018.313.639.820.721.322.521.523.423.122.821.424.025.226.323.930.625.226.226.932.826.326.624.326.223.8(1)把上述数据分组,列出频率分布表;(2)根据(1)的结果画频率分布直方图和频率分布折线图;(3)结合上面的描述,分析该年度香皂销售的分布情况.解析: (1)频率分布表如下:销售量分 频数 频率 10,15) 4 7.691.5415,20)1936.547.3120,25)1834.626.9225,30)815.383.0830,35)23.850.7735,4011.920.38(2)频率分布直方图和频率分布折线图如图所示.(3)该年度每周的香皂销售量主要在1 500万块到3 000万块之间.题型二题型二 用样本分布估计总体用样本分布估计总体【例2】对某电灯泡进行寿命追踪调查,情况如下:寿命(h)100,200)200,300)300,400)400,500)500,600 个数 20 30 80 40 30(1)列出频率分布表;(2)画出频率分布直方图;(3)估计电灯泡寿命在200 h500 h以内的频率;(4)估计电灯泡寿命在300 h以上的频率.分析 从分组中看寿命在某一范围内的电灯泡的比例即寿命在该范围内的频率.解 (1)样本频率分布表如下: (2)频率分布直方图如图:寿命(h)频数频率100,200) 20 0.10200,300) 30 0.15300,400) 80 0.40400,500) 40 0.20500,600 30 0.15合计 200 1(3)电灯泡寿命在200 h500 h以内的频数为150,则频率为 =0.75.(4)寿命在300 h以上的电灯泡的频数为150,则频率为 =0.75.学后反思 利用样本的频率分布可近似地估计总体的分布.从本例可以看出,要比较准确地反映出总体分布的情况,必须准确地作出频率分布表或频率分布直方图,充分利用所给的数据正确地作出估计.解决总体分布估计问题一般程序为:当总体中所取不同数值较少时,常用条形图表示相应的样本的频率分布;否则常用频率分布直方图表示相应样本的频率分布.具体步骤为:(1)先确定分组的组数(最大数据与最小数据之差除以组距数);(2)分别计算各组的频数及频率( );(3)画出频率分布直方图并作出相应估计.2. 某公司在过去几年内使用某种型号的灯管1 000支.该公司对这些灯管的使用寿命(单位:小时)进行了统计,统计结果如下表所示.举一反三举一反三分组500,900)900,1100)1100, 1300)1300,1500)1500,1700)1700,1900)1900,+)频数 48 121 208 223 193 165 42频率(1)将各组的频率填入表中;(2)根据上述统计结果,计算灯管使用寿命不足1 500小时的频率.解析: (1)分组500,900)900,1100)1100, 1300)1300,1500)1500,1700)1700,1900)1900,+)频数 48 121 208 223 193 165 42频率0.0480.1210.2080.2230.1930.1650.42(2)由(1)可得0.048+0.121+0.208+0.223=0.6,所以灯管使用寿命不足1 500小时的频率为0.6.题型三题型三 用样本的数字特征估计总体的数字特征用样本的数字特征估计总体的数字特征【例3】对划艇运动员甲、乙二人在相同的条件下进行了6次测试,测得他们最大速度的数据如下:甲:27,38,30,37,35,31;乙:33,29,38,34,28,36.根据以上数据,试判断他们谁更优秀.分析 要判断甲、乙两人谁更优秀,只需计算它们的平均数与方差即可.已知一组数据x1,x2,x3,xn,则平均数方差 标准差 解 (27+38+30+37+35+31)=33, (33+29+38+34+28+36)=33,s2甲= (27-33)2+(38-33)2+(30-33)2+(37-33)2+ (35-33)2+(31-33)2= 94= ,s2乙= (33-33)2+(29-33)2+(38-33)2+(34-33)2+(28-33)2+(36-33)2= 76= . ,s2甲s2乙.由此可以说明,甲、乙二人的最大速度的平均值相同,但乙比甲更稳定,故乙比甲更优秀.学后反思 平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.考查样本数据的水平及稳定情况时,应先比较其平均数,若平均数相同,再比较其方差(或标准差).举一反三举一反三3. 某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30 min抽取一包产品,称其重量,分别记录抽查数据如下:甲:102,101,99,98,103,98,99;乙:110,115,90,85,75,115,110.(1)这种抽样方法是哪一种?(2)将这两组数据用茎叶图表示;(3)比较两组数据,说明哪个车间产品较稳定.解析:(1)因为间隔时间相同,故是系统抽样.(2)茎叶图如下:(3)甲车间:平均值: =(102+101+99+98+103+98+99)=100,方差: 3.428 6.乙车间:平均值: (110+115+90+85+75+115+110)=100,方差: 228.571 4. , ,甲车间产品稳定.题型四题型四 综合问题综合问题【例4】(14分)某种瓶装溶液,因为装瓶机的不稳定性,所以很可能每瓶装的容量都不是标准的容量.我们随机抽出了20瓶,测得它们的容量(单位:百毫升)如下:12.1 11.9 12.2 12.2 12.0 12.1 12.9 12.1 12.3 12.5 11.7 12.4 12.3 11.8 11.3 12.1 11.4 11.6 11.2 12.2(1)根据数据列出频数分布表、画出频数分布图;(2)计算出这组数据的平均数和标准差(结果精确到0.01);(3)结合(1)、(2)的结果,描述一下样本的分布情况,并根据实际意义写一个简短的报告(对总体情况作出估计).分析 现实中对一组数据,往往是从多角度、多层面进行分析.主要标准是平均数、方差的大小,频率分布直方图是否集中等.解 (1)频数分布表如下: 频数分布图如图所示:分组频数11.0,11.5)311.5,12.0)412.0,12.5)1112.5,13.02(2)平均数 (12.1+11.9+12.2+12.2)= 12.02. .8标准差0.41. .10(3)标准差相对于平均数来说比较小;从频数分布图中可以看出,每瓶的容量大致位于1 150毫升到1 250毫升之间.因此判断装瓶机工作稳定. 14学后反思 数据的图形分布情况和数字特征从不同方面对总体(或样本)的分布作出了刻画.在解决实际问题时,这两个方面应结合起来,发挥各自的长处,以便能更清晰的描绘总体(或样本)的分布.举一反三举一反三4.从高三学生中抽取50名同学参加数学竞赛,成绩(单位:分)的分组及各组的频数如下:40,50),2;50,60),3;60,70),10;70,80),15;80,90),12;90,100,8.(1)列出样本的频率分布表;(2)画出频率分布直方图; (3)估计成绩在60,90)分的学生比例.解析: (1)频率分布表如下:(2)频率分布直方图如图:成绩分组频数频率40,50)20.0450,60)30.0660,70)100.2070,80)150.3080,90)120.2490,10080.16合计1.00(3)成绩在60,90)分的学生比例即为学生成绩在60,90)分的频率,即(0.2+0.3+0.24)100%=74%.考点演练考点演练10. 一个样本a,99,b,101,c中五个数恰成等差数列,求这个样本的标准差.解析: a,99,b,101,c成等差数列, ,a=98,c=102, 11. 在育民中学举行的电脑知识竞赛中,将九年级两个班参赛的学生成绩(得分均为整数)进行整理后分成五组,绘制如图所示的频率分布直方图.已知图中从左到右的第一、第三、第四、第五小组的频率分别是0.30,0.15,0.10,0.05,第二小组的频数是40.(1)求第二小组的频率,并补全这个频率分布直方图;(2)求这两个班参赛的学生人数是多少;(3)这两个班参赛学生的成绩的中位数应落在第几小组内?(不必说明理由)解析: (1)各小组的频率之和为1.00,第一、三、四、五小组的频率分别为0.30,0.15,0.10,0.05,第二小组的频率为1.00-(0.30+0.15+0.10+0.05)=0.40.落在59.5 69.5的第二小组的小长方形的高为 补全的直方图如图所示.(2)设九年级两个班参赛的学生人数为x人.第二小组的频数为40人,频率为0.40, ,解得x=100(人).所以九年级两个班参赛的学生人数为100人.(3)因为0.3100=30,0.4100=40,0.15100=15,0.10100=10,0.05100=5,即第一、第二、第三、第四、第五小组的频数分别为30,40,15,10,5,所以九年级两个班参赛学生的成绩的中位数应落在第二小组内.12. 观察下面表格:分组 频数 频率10.75,10.85) 310.85,10.95) 9分组 频数 频率 10.95,11.05) 1311.05,11.15) 1611.15,11.25) 2611.25,11.35) 2011.35,11.45) 711.45,11.55) 411.55,11.65) 2合计 100(1)完成频率分布表;(2)根据表格,画出频率分布直方图;(3)估计数据落在10.95,11.35)范围内的概率约为多少?解析: (1)频率依次为:0.03,0.09,0.13,0.16,0.26,0.20,0.07,0.04,0.02,1.00.(2)频率分布直方图如图所示:(3)数据落在10.95,11.35)范围的频率为0.13+0.16+0.26+0.20=0.75.
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号