资源预览内容
第1页 / 共52页
第2页 / 共52页
第3页 / 共52页
第4页 / 共52页
第5页 / 共52页
第6页 / 共52页
第7页 / 共52页
第8页 / 共52页
第9页 / 共52页
第10页 / 共52页
亲,该文档总共52页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第第3 3节变量的相关性与统计案例节变量的相关性与统计案例 考纲展示考纲展示 1.1.会作两个有关联变量的数据的散点图会作两个有关联变量的数据的散点图, ,并利用散点图认识变量间的相关关系并利用散点图认识变量间的相关关系. .2.2.了解最小二乘法的思想了解最小二乘法的思想, ,能根据给出的能根据给出的线性回归方程系数公式建立线性回归方程线性回归方程系数公式建立线性回归方程( (线性回归方程系数公式不要求记忆线性回归方程系数公式不要求记忆).).3.3.通过典型案例了解回归分析的思想、通过典型案例了解回归分析的思想、方法方法, ,并能初步应用回归分析的思想、并能初步应用回归分析的思想、方法解决一些简单的实际问题方法解决一些简单的实际问题. .4.4.通过典型案例了解独立性检验的思想、通过典型案例了解独立性检验的思想、方法方法, ,并能初步应用独立性检验的思想、并能初步应用独立性检验的思想、方法解决一些简单的实际问题方法解决一些简单的实际问题. .知识链条完善知识链条完善考点专项突破考点专项突破知识链条完善知识链条完善 把散落的知识连起来把散落的知识连起来知识梳理知识梳理1.1.变量间的相关关系变量间的相关关系(1)(1)常见的两变量之间的关系有两类常见的两变量之间的关系有两类: :一类是函数关系一类是函数关系, ,另一类是相关关系另一类是相关关系. .与函与函数关系不同数关系不同, ,相关关系是一种非确定性关系相关关系是一种非确定性关系. .(2)(2)从散点图上看从散点图上看, ,点分布在从左下角到右上角的区域内点分布在从左下角到右上角的区域内, ,两个变量的这种相关两个变量的这种相关关系称为正相关关系称为正相关, ,点分布在左上角到右下角的区域内点分布在左上角到右下角的区域内, ,两个变量的这种相关关系两个变量的这种相关关系为负相关为负相关. .2.2.回归方程与回归分析回归方程与回归分析(1)(1)线性相关关系与回归直线线性相关关系与回归直线如果散点图中点的分布从整体上看大致在如果散点图中点的分布从整体上看大致在 附近附近, ,就称这两个变量就称这两个变量之间具有线性相关关系之间具有线性相关关系, ,这条直线叫做回归直线这条直线叫做回归直线. .(2)(2)回归方程回归方程最小二乘法最小二乘法: :使得样本数据的点到回归直线的使得样本数据的点到回归直线的 最小的方最小的方法叫做最小二乘法法叫做最小二乘法. .一条直线一条直线距离的平方和距离的平方和(3)(3)回归分析回归分析定义定义: :对具有对具有 的两个变量进行统计分析的一种常用方法的两个变量进行统计分析的一种常用方法. .相关关系相关关系相关相关, ,当当r0r3.841,4.7623.841,所以在犯错误的概率不超过所以在犯错误的概率不超过5%5%的前提下的前提下, ,认为认为“是是否爱吃零食与性别有关否爱吃零食与性别有关”. .故选故选A.A.A A4.4.(2018(2018泉州质检泉州质检) )某厂在生产甲产品的过程中某厂在生产甲产品的过程中, ,产量产量 x(x(吨吨) ) 与生产能耗与生产能耗y(y(吨吨) )的对应数据如下表的对应数据如下表: :x x3030404050506060y y2525353540404545答案答案: :59595.5.(2018(2018阜阳质检阜阳质检) )某班主任对全班某班主任对全班3030名男生进行了作业量多少的调查名男生进行了作业量多少的调查, ,数据数据如下表如下表: :认为作业多认为作业多认为作业不多认为作业不多总计总计喜欢玩电脑游戏喜欢玩电脑游戏12128 82020不喜欢玩电脑游戏不喜欢玩电脑游戏2 28 81010总计总计141416163030该班主任据此推断男生认为作业多与喜欢玩电脑游戏有关系该班主任据此推断男生认为作业多与喜欢玩电脑游戏有关系, ,则这种推断犯错误则这种推断犯错误的概率不超过的概率不超过. .答案答案: :0.050.05考点专项突破考点专项突破 在讲练中理解知识在讲练中理解知识考点一变量的相关性考点一变量的相关性【例例1 1】 ( (1 1) )与与变变量量X X与与Y Y相相对对应应的的一一组组数数据据为为( (1 10 0, ,1 1) ), ,( (1 11 1. .3 3, ,2 2) ), ,( (1 11 1. .8 8, ,3 3) ), ,( (1 12 2. .5 5, ,4 4) ), ,( (1 13 3, ,5 5) ); ;与与 变变 量量U U与与V V相相对对应应的的一一组组数数据据为为( (1 10 0, ,5 5) ), ,( (1 11 1. .3 3, ,4 4) ), ,(11.8,3),(12.5,2),(13,1).r(11.8,3),(12.5,2),(13,1).r1 1表示变量表示变量Y Y与与X X之间的线性相关系数之间的线性相关系数,r,r2 2表示变量表示变量V V与与U U之间的线性相关系数之间的线性相关系数, ,则则( () )(A)r(A)r2 2rr1 100 (B)0r(B)0r2 2rr1 1(C)r(C)r2 20r00;0;对于对于变量变量V V与与U U而言而言,V,V随随U U的增大而减小的增大而减小, ,故故V V与与U U成负相关成负相关, ,即即r r2 20,0,所以有所以有r r2 20r00:r0时时, ,正相关正相关;r0;r0时时, ,负相关负相关. .反思归纳反思归纳【跟踪训练跟踪训练1 1】 (1)(1)某公司在某公司在20182018年上半年的收入年上半年的收入x(x(单位单位: :万元万元) )与月支出与月支出y(y(单单位位: :万元万元) )的统计资料如下表所示的统计资料如下表所示: :月份月份1 1月份月份2 2月份月份3 3月份月份4 4月份月份5 5月份月份6 6月份月份收入收入x x12.312.314.514.515.015.017.017.019.819.820.620.6支出支出y y5.635.635.755.755.825.825.895.896.116.116.186.18根据统计资料根据统计资料, ,则则( () )(A)(A)月收入的中位数是月收入的中位数是15,x15,x与与y y有正线性相关关系有正线性相关关系(B)(B)月收入的中位数是月收入的中位数是17,x17,x与与y y有负线性相关关系有负线性相关关系(C)(C)月收入的中位数是月收入的中位数是16,x16,x与与y y有正线性相关关系有正线性相关关系(D)(D)月收入的中位数是月收入的中位数是16,x16,x与与y y有负线性相关关系有负线性相关关系答案答案: :(1)C(1)C答案答案: :(2)(2)考点二回归分析考点二回归分析反思归纳反思归纳(3)(3)在分析两个变量的相关关系时在分析两个变量的相关关系时, ,可根据样本数据作出散点图来确定两个变可根据样本数据作出散点图来确定两个变量之间是否具有相关关系量之间是否具有相关关系, ,若具有线性相关关系若具有线性相关关系, ,则可通过线性回归方程来估则可通过线性回归方程来估计和预测计和预测. .【跟踪训练跟踪训练2 2】 (2018(2018全国全国卷卷) )如图是某地区如图是某地区20002000年至年至20162016年环境基础设年环境基础设施投资额施投资额y(y(单位单位: :亿元亿元) )的折线图的折线图. .(2)(2)你认为用哪个模型得到的预测值更可靠你认为用哪个模型得到的预测值更可靠? ?并说明理由并说明理由. .(ii)(ii)从计算结果看从计算结果看, ,相对于相对于20162016年的环境基础设施投资额年的环境基础设施投资额220220亿元亿元, ,由模型由模型得到的预测值得到的预测值226.1226.1亿元的增幅明显偏低亿元的增幅明显偏低, ,而利用模型而利用模型得到的预测值的增幅得到的预测值的增幅比较合理比较合理, ,说明利用模型说明利用模型得到的预测值更可靠得到的预测值更可靠. .考点三独立性检验考点三独立性检验【例【例3 3】 (2018 (2018全国全国卷卷) )某工厂为提高生产效率某工厂为提高生产效率, ,开展技术创新活动开展技术创新活动, ,提出提出了完成某项生产任务的两种新的生产方式了完成某项生产任务的两种新的生产方式. .为比较两种生产方式的效率为比较两种生产方式的效率, ,选取选取4040名工人名工人, ,将他们随机分成两组将他们随机分成两组, ,每组每组2020人人. .第一组工人用第一种生产方式第一组工人用第一种生产方式, ,第第二组工人用第二种生产方式二组工人用第二种生产方式. .根据工人完成生产任务的工作时间根据工人完成生产任务的工作时间( (单位单位:min):min)绘绘制了如下茎叶图制了如下茎叶图, ,(1)(1)根据茎叶图判断哪种生产方式的效率更高根据茎叶图判断哪种生产方式的效率更高? ?并说明理由并说明理由; ;解解: :(1)(1)第二种生产方式的效率更高第二种生产方式的效率更高. .理由如下理由如下( (写出一种写出一种, ,合理即可合理即可):):由茎叶图可知由茎叶图可知, ,用第一种生产方式的工人中用第一种生产方式的工人中, ,有有75%75%的工人完成生产任务的工人完成生产任务所需时间至少所需时间至少8080分钟分钟, ,用第二种生产方式的工人中用第二种生产方式的工人中, ,有有75%75%的工人完成生产的工人完成生产任务所需时间至多任务所需时间至多7979分钟分钟. .因此第二种生产方式的效率更高因此第二种生产方式的效率更高. .由茎叶图可知由茎叶图可知, ,用第一种生产方式的工人完成生产任务所需时间的中位数为用第一种生产方式的工人完成生产任务所需时间的中位数为85.585.5分分钟钟, ,用第二种生产方式的工人完成生产任务所需时间的中位数为用第二种生产方式的工人完成生产任务所需时间的中位数为73.573.5分钟分钟. .因此第二种因此第二种生产方式的效率更高生产方式的效率更高. .由茎叶图可知由茎叶图可知, ,用第一种生产方式的工人完成生产任务平均所需时间高于用第一种生产方式的工人完成生产任务平均所需时间高于8080分钟分钟; ;用用第二种生产方式的工人完成生产任务平均所需时间低于第二种生产方式的工人完成生产任务平均所需时间低于8080分钟分钟, ,因此第二种生产方式因此第二种生产方式的效率更高的效率更高. .由茎叶图可知由茎叶图可知: :用第一种生产方式的工人完成生产任务所需时间分布在茎用第一种生产方式的工人完成生产任务所需时间分布在茎8 8上的最多上的最多, ,关于茎关于茎8 8大致呈对称分布大致呈对称分布; ;用第二种生产方式的工人完成生产任务所需时间分布在茎用第二种生产方式的工人完成生产任务所需时间分布在茎7 7上的最多上的最多, ,关于茎关于茎7 7大致呈对称分布大致呈对称分布, ,又用两种生产方式的工人完成生产任务所需时间又用两种生产方式的工人完成生产任务所需时间分布的区间相同分布的区间相同, ,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少生产方式完成生产任务所需的时间更少. .因此第二种生产方式的效率更高因此第二种生产方式的效率更高. .(2)(2)求求4040名工人完成生产任务所需时间的中位数名工人完成生产任务所需时间的中位数m,m,并将完成生产任务所需时并将完成生产任务所需时间超过间超过m m和不超过和不超过m m的工人数填入下面的列联表的工人数填入下面的列联表: :超过超过m m不超过不超过m m第一种生产方式第一种生产方式第二种生产方式第二种生产方式超过超过m m不超过不超过m m第一种生产方式第一种生产方式15155 5第二种生产方式第二种生产方式5 51515(3)(3)根据根据(2)(2)中的列联表中的列联表, ,能否有能否有99%99%的把握认为两种生产方式的效率有差异的把握认为两种生产方式的效率有差异? ?P(KP(K2 2kk0 0) )0.0500.0500.0100.0100.0010.001k k0 03.8413.8416.6356.63510.82810.828反思归纳反思归纳独立性检验的一般步骤独立性检验的一般步骤(1)(1)根据样本数据制成根据样本数据制成2 22 2列联表列联表, ,假设两个变量无关系假设两个变量无关系; ;(3)(3)比较比较k k与临界值的大小关系作统计推断与临界值的大小关系作统计推断. .【跟踪训练跟踪训练3 3】 (2018 (2018梅州二模梅州二模) )某学校共有某学校共有1 5001 500名学生名学生, ,为调查该校学生每为调查该校学生每周使用手机上网时间的情况周使用手机上网时间的情况, ,采用分层抽样的方法采用分层抽样的方法, ,收集收集100100名学生每周上网时名学生每周上网时间的样本数据间的样本数据( (单位单位: :小时小时).).根据这根据这100100个样本数据个样本数据, ,得到学生每周上网时间的得到学生每周上网时间的频率分布直方图频率分布直方图( (如图所示如图所示).).其中样本数据的分组区间为其中样本数据的分组区间为0,2,(2,4,(4,6,0,2,(2,4,(4,6,(6,8,(8,10,(10,12.(6,8,(8,10,(10,12.(1)(1)估计该校学生每周平均使用手机上网时间估计该校学生每周平均使用手机上网时间( (每组数据以组中值为代表每组数据以组中值为代表););(2)(2)估计该校学生每周使用手机上网时间超过估计该校学生每周使用手机上网时间超过4 4个小时的个小时的概率概率; ;(2)(2)由频率分布直方图得由频率分布直方图得1-21-2(0.100+0.025)=0.75,(0.100+0.025)=0.75,估计该校学生每周使用手机上网时间超过估计该校学生每周使用手机上网时间超过4 4个小时的频率为个小时的频率为0.75.0.75.(3)(3)将每周使用手机上网时间在将每周使用手机上网时间在(4,12(4,12内的定义为内的定义为“长时间使用手机上网长时间使用手机上网”; ;每每周使用手机上网时间在周使用手机上网时间在(0,4(0,4内的定义为内的定义为“不长时间使用手机上网不长时间使用手机上网”. .在样本数在样本数据中据中, ,有有2525名学生不近视名学生不近视. .请完成每周使用手机上网的时间与近视程度的请完成每周使用手机上网的时间与近视程度的2 22 2列列联表联表, ,并判断是否有并判断是否有95%95%的把握认为的把握认为“该校学生的每周使用手机上网时间与近视该校学生的每周使用手机上网时间与近视程度有关程度有关”. .近视近视不近视不近视合计合计长时间使用手机长时间使用手机不长时间使用手机不长时间使用手机1515合计合计2525解解: :(3)(3)根据题意填写根据题意填写2 22 2列联表如下列联表如下. .近视近视不近视不近视合计合计长时间使用手机长时间使用手机656510107575不长时间使用手机不长时间使用手机101015152525合计合计75752525100100备选例题备选例题【例例1 1】 (2018(2018江西模拟江西模拟) )由中央电视台综合频道由中央电视台综合频道(CCTV-1)(CCTV-1)和唯众传媒联合制和唯众传媒联合制作的作的开讲啦开讲啦是中国首档青年电视公开课是中国首档青年电视公开课, ,每期节目由一位知名人士讲述自每期节目由一位知名人士讲述自己的故事己的故事, ,分享他们对于生活和生命的感悟分享他们对于生活和生命的感悟, ,给予中国青年现实的讨论和心灵的给予中国青年现实的讨论和心灵的滋养滋养, ,讨论青年们的人生问题讨论青年们的人生问题, ,同时也在讨论青春中国的社会问题同时也在讨论青春中国的社会问题, ,受到青年观受到青年观众的喜爱众的喜爱, ,为了了解观众对节目的喜爱程度为了了解观众对节目的喜爱程度, ,电视台随机调查了电视台随机调查了A,BA,B两个地区共两个地区共100100名观众名观众, ,得到如下的得到如下的2 22 2列联表列联表非常满意非常满意满意满意合计合计A A3030y yB Bx xz z合计合计已知在被调查的已知在被调查的100100名观众中随机抽取名观众中随机抽取1 1名名, ,该观众是该观众是B B地区中地区中“非常满意非常满意”的观的观众的概率为众的概率为0.35,0.35,且且4y=3z.4y=3z.(1)(1)现从现从100100名观众中用分层抽样的方法抽取名观众中用分层抽样的方法抽取2020名进行问卷调查名进行问卷调查, ,则应抽取则应抽取“满满意意”的的A,BA,B地区的人数各是多少地区的人数各是多少? ?(2)(2)在在(1)(1)抽取的抽取的“满意满意”的观众中的观众中, ,随机选出随机选出2 2人进行座谈人进行座谈, ,求至少有求至少有1 1名是名是B B地地区观众的概率区观众的概率? ?(3)(3)完成上述表格完成上述表格, ,并根据表格判断是否有并根据表格判断是否有95%95%的把握认为观众的满意程度与所的把握认为观众的满意程度与所在地区有关系在地区有关系? ?【例例2 2】 (2018(2018内江三模内江三模) )有一个同学家开了一个奶茶店有一个同学家开了一个奶茶店, ,他为了研究气温对他为了研究气温对热奶茶销售杯数的影响热奶茶销售杯数的影响, ,从一季度中随机选取从一季度中随机选取5 5天天, ,统计出气温与热奶茶销售杯统计出气温与热奶茶销售杯数数, ,如表如表: :气温气温x()x()0 04 4121219192727热奶茶销售热奶茶销售杯数杯数y y1501501321321301301041049494点击进入点击进入 应用能力提升应用能力提升
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号