专题37 成对数据的统计问题
【高考真题】
1.(2022·全国乙理) 某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总
材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截面积
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
并计算得.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数.
1.解析 (1)样本中10棵这种树木的根部横截面积的平均值
样本中10棵这种树木的材积量的平均值
据此可估计该林区这种树木平均一棵的根部横截面积为,平均一棵的材积量为
(2)
,则
(3)设该林区这种树木的总材积量的估计值为,
又已知树木的材积量与其根部横截面积近似成正比,
可得,解之得.
则该林区这种树木的总材积量估计为.
2.(2022·新高考Ⅰ)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和
不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良好
良好
病例组
40
60
对照组
10
90
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该疾病”.与的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R.
(ⅰ)证明:;
(ⅱ)利用该调查数据,给出的估计值,并利用(ⅰ)的结果给出R的估计值.
0.050
0.010
0.001
k
3.841
6.635
10.828
附,
2.解析 (1)由已知,
又,,
所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.
(2) (i)因为,
所以,所以,
(ii) 由已知,,又,,
所以.
【知识总结】
1.变量的相关关系
(1)相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)相关关系的分类:正相关和负相关.
(3)线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
2.样本相关系数
(1)相关系数r的计算
变量x和变量y的样本相关系数r的计算公式如下:
r=
(2)相关系数r的性质
①当r>0时,称成对样本数据正相关;当r<0时,成对样本数据负相关;当r=0时,成对样本数据间没有线性相关关系.
②样本相关系数r的取值范围为[-1,1].
当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
3.一元线性回归模型
(1)经验回归方程与最小二乘法
我们将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,
其中
==,=-
(2)利用决定系数R2刻画回归效果
R2=1-,R2越大,即拟合效果越好,R2越小,模型拟合效果越差.
4.列联表与独立性检验
(1)2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表为
x
y
合计
y=y1
y=y2
x=x1
a
b
a+b
x=x2
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
(2)临界值
χ2=.忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立.我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准.
(3)独立性检验
基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
【题型突破】
考向一 概率与回归分析综合问题
1.(2020·全国Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区
某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得i=60,i=1 200,(xi-)2=80,
(yi-)2=9 000, (xi-)(yi-)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:样本相关系数r=,≈1.414.
1.解析 (1)由已知得样本平均数为=i=60,
从而该地区这种野生动物数量的估计值为60×200=12 000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数为r===≈0.94.
(3)分层随机抽样,根据植物覆盖面积的大小对地块分层,再对200个地块进行分层随机抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
2.如图给出了根据我国2012年~2018年水果人均占有量y(单位:kg)和年份代码x绘制的散点图和经验
回归方程的残差图(2012年~2018年的年份代码x为1~7).
(1)根据散点图分析y与x之间的相关关系;
(2)根据散点图相应数据计算得i=1 074,iyi=4 517,求y关于x的经验回归方程(精确到0.01);
(3)根据经验回归方程的残差图,分析经验回归方程的拟合效果.
附:经验回归直线=+x中斜率和截距的最小二乘估计公式分别为=,=-.
2.解析 (1)根据散点图可知y与x呈正线性相关.
(2)由所给数据计算得=×(1+2+…+7)=4,
===≈7.893,=-≈-7.893×4≈121.86.
故所求经验回归方程为=7.89x+121.86.
(3)由题中给出的残差图知历年数据的残差均在-2到2之间,说明经验回归方程的拟合效果较好.
3.小区门口有一个熟食摊位,经过一段时间的统计,发现菜品种类和日销售收入之间有一定关系,具体
统计数据如下表:
菜品种类t
4
5
6
7
8
9
10
日销售收入y
147
159
171
184
197
210
221
(1)建立y关于t的线性回归方程;(保留整数)
(2)根据所求线性回归方程,预测如果希望日销售收入超过300元,则菜品种类至少多少种?
附:线性回归直线的斜率和截距的最小二乘估计公式分别为=,=-,
参考数据:(ti-)(yi-)=350,(ti-)2=28.
3.解析 (1)由题意得==7,=≈184,
==12.5,=-=184-12.5×7=96.5,
所以线性回归方程为=12.5t+96.5.
(2)由=12.5t+96.5>300,解得t>16.28,所以菜品种类至少17种.
4.配速是马拉松运动中常使用的一个概念,是速度的一种,是指每千米所需要的
时间,相比配速,把心率控制在一个合理水平是安全理性跑马拉松的一个重要策略.图①是一个马拉松跑者的心率y(单位:次/分钟)和配速x(单位:分钟/千米)的散点图,图②是一次马拉松比赛(全程约42千米)前3 000名跑者成绩(单位:分钟)的频率分布直方图.
(1)由散点图看出,可用线性回归模型拟合y与x的关系,求y与x的线性回归方程;
(2)该跑者如果参加本次比赛,将心率控制在160左右跑完全程,估计他跑完全程花费的时间,并估计他能获得的名次.
参考公式:用最小二乘法求线性回归方程=x+的系数:==,
=-.
参考数据:=135.
4.解析 (1)由散点图中数据和参考数据得==6,=135,
===-25,
=-=135-(-25)×6=285,
所以y与x的线性回归方程为=-25x+285.
(2)将y=160代入回归方程得x=5,所以该跑者跑完马拉松全程所花的时间为42×5=210(分钟).
从马拉松比赛前3 000名跑者成绩的频率分布直方图可知成绩好于210分钟的累计频率为0.000 8×50
+0.002 4×(210-200)=0.064,有6.4%的跑者成绩超过该跑者,
则该跑者在本次比赛获得的名次大约是0.064×3 000=192.
5.某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据
并进行了初步处理,得到了下面的散点图及一些统计量的值.
( xi-)2
(xi-)
·(yi-)
(ui-)2
(ui-)
·(yi-)
15.25
3.63
0.269
2 085.5
-230.3
0.787
7.049
表中ui=,=i.
(1)根据散点图判断y=a+bx与y=c+哪一个模型更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的经验回归方程?(只要求给出判断,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的经验回归方程(回归系数的结果精确到0.01).
(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78 840元?(假设能够全部售出.结果精确到1)
附:对于一组数据(ω1,υ1),(ω2,υ2),…,(ωn,υn),其经验回归直线=+ω的斜率和截距的最小二乘估计分别为=,=-.
5.解析 (1)由散点图判断,y=c+更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千
册)的经验回归方程.
(2)令u=,先建立y关于u的经验回归方程,
由于==≈8.96,所以=-·=3.63-8.96×0.269≈1.22,
所