资源预览内容
第1页 / 共15页
第2页 / 共15页
第3页 / 共15页
第4页 / 共15页
第5页 / 共15页
亲,该文档总共15页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
变量间的相关关系、统计案例考试要求1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.4.了解独立性检验(只要求22列联表)的思想、方法及其初步应用1两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关(2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关(3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线2回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法(2)回归方程:方程x是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),(xn,yn)的回归方程,其中,是待定参数3回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法(2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn),其中(,)称为样本点的中心,即回归直线经过点(,)(3)相关系数当r0时,表明两个变量正相关;当r0时,表明两个变量负相关r的绝对值越接近于1,表明两个变量的线性相关性越强r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系通常|r|大于0.75时,认为两个变量有很强的线性相关性4独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量(2)列联表:列出两个分类变量的频数表,称为列联表假设有两个分类变量X和Y,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为22列联表y1y2总计x1ababx2cdcd总计acbdabcd构造一个随机变量K2,其中nabcd为样本容量1回归直线必过样本点的中心(,)2当两个变量的相关系数|r|1时,两个变量呈函数关系一、易错易误辨析(正确的打“”,错误的打“”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系()(2)通过回归直线方程x可以估计预报变量的取值和变化趋势()(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验()(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大()答案(1)(2)(3)(4)二、教材习题衍生1在两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的是()A模型1的相关指数R2为0.98B模型2的相关指数R2为0.80C模型3的相关指数R2为0.50D模型4的相关指数R2为0.25AR2越接近于1,其拟合效果越好2下面是22列联表:y1y2总计x1a2173x2222547总计b46120则表中a,b的值分别为()A94,72B52,50C52,74D74,52Ca2173,a52.又a22b,b74.3为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下22列联表:理科文科男1310女720已知P(K23.841)0.05,P(K25.024)0.025.根据表中数据,得到K2的观测值k4.844.则认为选修文科与性别有关系出错的可能性约为_5%K2的观测值k4.844,这表明小概率事件发生根据独立性检验,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.4某同学家里开了一个小卖部,为了研究气温对某种冷饮销售量的影响,他收集了一段时间内这种冷饮每天的销售量y(杯)与当天最高气温x()的有关数据,通过描绘散点图,发现y和x呈线性相关关系,并求得其回归方程2x60.如果气象预报某天的最高气温为34 ,则可以预测该天这种饮料的销售量为_杯128由题意x34时,该小卖部大约能卖出冷饮的杯数23460128杯 考点一相关关系的判断 判定两个变量正、负相关的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关(2)相关系数:r0时,正相关;r0时,负相关(3)线性回归直线方程中:0时,正相关;0时,负相关1观察下列各图形,其中两个变量x,y具有相关关系的图是() ABCDC由散点图知中的点都分布在一条直线附近中的点都分布在一条曲线附近,所以中的两个变量具有相关关系2已知变量x和y近似满足关系式y0.1x1,变量y与z正相关下列结论中正确的是()Ax与y正相关,x与z负相关Bx与y正相关,x与z正相关Cx与y负相关,x与z负相关Dx与y负相关,x与z正相关C由y0.1x1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关3对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()相关系数为r1相关系数为r2相关系数为r3相关系数为r4Ar2r40r3r1Br4r20r1r3Cr4r20r3r1Dr2r40r1r3A由相关系数的定义以及散点图可知r2r40r3r1.4x和y的散点图如图所示,则下列说法中所有正确命题的序号为_x,y是负相关关系;在该相关关系中,若用yc1ec2x拟合时的相关系数为r1,用x拟合时的相关系数为r2,则|r1|r2|;x,y之间不能建立线性回归方程在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故正确;由散点图知用yc1ec2x拟合比用x拟合效果要好,则|r1|r2|,故正确;x,y之间可以建立线性回归方程,但拟合效果不好,故错误 考点二回归分析 用最小二乘法求线性回归方程的步骤线性回归分析典例11(2020贵阳模拟)某地随着经济的发展,居民收入逐年增长,下表1是该地一建设银行连续五年的储蓄存款(年底余额),年份x20132014201520162017储蓄存款y(千亿元)567810表1为了研究计算的方便,工作人员将上表的数据进行了处理,tx2 012,zy5得到下表2:时间代号t12345z01235表2(1)求z关于t的线性回归方程;(2)通过(1)中的方程,求出y关于x的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?(附:对于线性回归方程x,其中,)解(1)3,2.2,tizi45,t55,1.2,2.231.21.4,所以1.2t1.4.(2)将tx2 012,zy5,代入1.2t1.4,得y51.2(x2 012)1.4,即1.2x2 410.8.(3)因为1.22 0222 410.815.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元点评:在线性回归分析中,只需利用公式求出回归直线方程并利用其进行预测即可(注意回归直线过样本点的中心(,),利用回归方程进行预测,常把线性回归方程看作一次函数,求函数值利用回归直线方程求出的是估算值,非准确值非线性回归方程典例12某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响对近8年的年宣传费xi和年销售量yi(i1,2,8)数据作了初步处理,得到下面的散点图及一些统计量的值 (xi)2 (wi)2 (xi)(yi) (wi)(yi)46.65636.8289.81.61 469108.8表中wi,wwi.(1)根据散点图判断,yabx与ycd哪一个适宜作为年销售量y关于年宣传费x的回归方程类型;(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z0.2yx.根据(2)的结果回答下列问题:年宣传费x49时,年销售量及年利润的预报值是多少?年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),(un,vn),其回归直线u的斜率和截距的最小二乘估计分别为,.解(1)由散点图可以判断,ycd适宜作为年销售量y关于年宣传费x的回归方程类型(2)令w,先建立y关于w的线性回归方程由于68, 563686.8100.6,所以y关于w的线性回归方程为100.668w,因此y关于x的回归方程为100.668.(3)由(2)知,当x49时,年销售量y的预报值100.668576.6,年利润z的预报值576.60.24966.32.根据(2)的结果知,年利润z的预报值0.2(100.668)xx13.620.12.所以当6.8,即x46.24时,取得最大值故年宣传费为46.24千元时,年利润的预报值最大点评:对于非线性回归分析问题,应先进行变量代换,求出代换后的回归直线方程,再求非线性回归方程1(2020全国卷)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加,为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i1,2,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得xi60,yi1 200, (xi)280, (yi)29 000, (xi)(yi)800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(xi,yi)(i1,2,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号