资源预览内容
第1页 / 共50页
第2页 / 共50页
第3页 / 共50页
第4页 / 共50页
第5页 / 共50页
第6页 / 共50页
第7页 / 共50页
第8页 / 共50页
第9页 / 共50页
第10页 / 共50页
亲,该文档总共50页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
1第五章 统计量及其分布 5.1 总体与样本内容概要1 总体 在一个统计问题中 ,研究对象的全体称为总体,构成总体的每个成员称为个体若关心的是总体中每个个体的一个数量指标,则该总体称为一维分布。若关心的是总体中的每个个体的两个数量指标,则该总体称为二维总体,二维总体就是一个二维分布,余此类推。2 有限总体与无限总体 若总体中的个数是有限的,此总体称为有限总体。若总体中的个数是无限的,此总体称为无限总体。实际中总体的个体数大多是有限的。当个体数充分大时,将有限总体看作无限总体是一种合理的抽象。3 样本 从总体中随机抽取的部分个体组成的集合称为样本,样本的个体称为样本,样本个数称为样本容量或样本量。样本常用 n 个指标值 , , , 表示.它可看作 n 维随机变量,又可看作其观察值,这1x2 n由上下文加以区别。4 分组样本 只知样本观测值所在区间,而不知具体值的样本称为分组样本。缺点:与完全样本相比损失部分信息。优点:在样本量较大时,用分组样本即简明扼要,又能帮助人们更好的认识总体。5 简单随机样本 若样本 , , , 是 n 个相互独立的具有同一分布(总体分1x2布)的随机变量,册称该样本为简单随机样本,仍简称样本。若总体的分布函数为 F(x),则其样本的(联合)分布函数为 ;niixF1若总体的密度函数为 P(x),则其样本的(联合)密度函数为 ;nip1)(若总体的分布列为p(x ),则其样本的(联合)分布列为 ;i nix1)(2习题与解答 5.11. 某地电视台想了解某电视栏目(如:每晚九点至九点半的体育节目)在该 地区的收视率情况,于是委托一家市场咨询公司进行一次电话访查。(1)该项研究的总体是什么?(2)该项研究的样本是什么?解:(1)该项研究的总体是该地区全体电视观众;(2)该项研究的样本上一该地区被电话访查的电视观众。 2. 为了了解统计学专业本科毕业生的就业情况,我们调查了某地区 30 名 2000 年毕业生的统计学专业本科生实习期满的月薪情况。(1)什么是总体? (2)什么是样本? (3)本量是多少?解:(1) 总体是该地区 2000 年毕业的统计学专业本科生实习期满后的月薪;(2) 样本是被调查的 30 名 2000 年毕业的统计学专业本科生实习期满后的月薪;(3) 样本量为 30。3设某厂大量生产某种产品,其不合格品率 p 未知,每 m 件产品包装为一盒。为了检查产品的质量,任意抽取 n 盒,查其中的不合格品数,试说明什么是总体,什么是样本,并指出样本的分布。解:总体为该厂生产的每盒产品中的不合格品数;样本是任意抽取的 n 盒中每盒产品的不合格数;样本中每盒产品中的不合格品数为 , ,因 b(m,p),i=1,2,n,所以样本1xni(x 1,x2,xn)的分布为 .,)(1 111 ntnmtniixmxii xppii 其 中4假设一位运动员在完全相同的条件下重复进行 n 次打靶,试给出总体样本的统计描述。解: 若以 P 记运动员打靶命中的概率,并以“1”记打靶命中,记“0” 记打靶未命中,则总体为运动员打靶命中与否,该总体可由一个二点分布表示:X 0 1P 1-p p样本为由 n 个 0 或组成的集合,若记 为第 i 次打靶命中情况,则 b(1,p),i=1,2,样本ixix3(x1,x2,xn)的分布为 ,其中 t= 。11()()iinxxtntiPppnx15. 某厂生产的电容器的使用寿命服从指数分布,为了解其平均寿命,从中抽出 n 件厂品测其实际使用寿命,试说明什么是总体,什么是样本,并指出样本的分布解: 总体是该厂生产的电容器的寿命 ,或者可以说总体是指数分布,其分布为 Exp( );样本是该厂中抽出的 n 个电容器的寿命;记第 i 个电容器的寿命为 ,则 Exp( ),i=1,2,n,样本(x 1,x2,xn)的分布为ixi ,其中 t= 。tnnixei1 n16. 美国某高校根据毕业生返校情况记录,宣布该校毕业生的资为五万美元,你对此有和评论。解: 毕业生返校记录是全体毕业生中的一个特殊群体(子总体)的一个样本,它只能反映该子总体的特征,不能反映全体毕业生状况,故此说法有骗人之嫌。7. 设有 N 个厂品,其中有 M 个次品,进行放回抽样。定义 如下:ix次 取 得 正 品 。第 次 取 得 次 品 ,第 ixi,01求样本 的联合分布。nx,21解: 总体的分布列为 ,1)0(,)1( NMXPN也可以写成 .,)(xMxXPx因此样本 的联合分布列为n,21 1121(,) ,01,i ixxtntn ii Mpx xNN其中 .12nt8.设离散总体的分布列为 现进行不返回抽样,(x 1,x2,xn).,21,)(nkXP为样本, 为样本均值,求 与 (表示成 N 的函数) 。1nix_xE()Var4解: 由于 N 有限,抽样是不返回的,所以样本 中诸 的分布列与总体的分布nx,21 i列相同,但诸 间不相互独立,即此样本不是简单随机样本。以下我们先求诸 的期望,方差ix ix与协方差: 1 2222122, 1()() ,(),1,6()()(),NikNiiikNijijijkExinVarExinlCovxxx 其中 22111()()2146()(3),NNkkkl代回原协方差表达式,可得 2,(1)()(1)()24,ijNNCovxij且由此可得样本均值 的期望与方差_x21212()()2(,)()1(1).2niinNiiji jExVarxVarCovxNnn55.2 样本数据的整理与显示内容提要1. 经验分布函数 若将样本观测值 由小到大排列,得有序样本nx,21用有序样本定义如下函数,)()2()1( nxx ,12, ,1/,0)( )(1()( )(nkkn xxkF当当 当 则称 为该样本的经验分布函数 。)(xn格里纹科定理 设 是取自总体分布函数为 该样本nx,21 是的 样 本 , )()(xFxn的经验分布函数,则当 n时: 。(sup|()|1xPF此定理表明:当 n 相当大时,经验分布函数 良好的近的 一 个是 总 体 分 布 函 数 )(xxn似,它是经典统计学的一块基石。2. 频数频率分布表 有样本数据 制作频数频率分布表的操作步骤如下:nx,21确定组数 k;确定每组组距,通常取每组组距相等为 d;确定每组组限;统计样本数据落入每个区间的频数,并计算频率。综合上述,列入表中,即得该样本的频数频率分布表,该表就是一个分组样本,它能简明扼要的样本特点表示出来。不足之处是该表依赖于分组,不同的分组方式有不同的频数频率分布表。3. 样本数据的图形表示(1)直方图 利用频数频率分布表上的区间(横坐标)和频数(纵坐标)可作出频数直方图; 若把纵坐标改为频率就得频率直方图; 若把纵坐标改为频率/组距,就得到单位频率直方图。这时长条矩形的面积之和为 1此三种直方图的差别仅在纵坐标的设置上,直方图本身无变化。(2)茎叶图6把样本中的每个数据分为茎与叶,把茎放于一侧,叶放于另一侧,就得到一张该样本的茎叶图,比较两个样本时,可画出背靠背的茎叶图。茎叶图保留数据中的全部信息,当样本量较大时数据很分散,横跨二,三个数量级时,茎叶图并不实用。习题与解答 5.21. 以下是某工厂通过抽样调查得到的 10 名工人一周内生产的产品 149,156,160,138,149,153,153,169,156,15.试由这批数据构造经验分布函数并作图。解:此样本容量为 10,经排序可得到有序样本; ,153,149,138)()()3()2()( xxx 69056)()()()7()6(其经验分布函数及其图形分布如下 .169,0.583,4.19,0)(xxFn2. 下表是经过整理后得到的分组样本;组序 1 2 3 4 5分组区间 (38,48) (48,58) (58,68) (68,78) (78,88)频数 3 4 8 3 2试写出此分组样本的经验分布函数。解: 样本的经验分布函数为 ,5.7,169.0,.4,3.57)(xxxFn3.假如某地区 30 名 2000 年某专业毕业生实习期满后的月薪数据如下:169 x160156149O0.11531380.30.50.80.91图 5.1Fn(x)77386950716481428021359(1)该批数据的频率分布表(分 6 组) ;(2)画出直方图。解:此处数据最大观测值为 1572,最小观测值为 738,故组距近似为:,14073815d确定每组区间端点为,02010 , kadaa此处可取 ,于是分组区间为7350a(735,875, (875,1015,(1015,1155,(1155,1295,(1295,1435,(1435,1575.其频数频率分布如下:组序 分组区间 组中值 频数 频率 累计频率/%1 (735,875 805 6 0.20 202 (875,1015 945 8 0.27 473 (1015,1155 1085 9 0.30 774 (1155,1295 1225 4 0.13 905 (1295,1435 1365 2 0.07 976 (1435,1575 1505 1 0.03 100合计 30 1其直方图如图 5.2.所需时间/min 频率010 0.101020 0.2420303040 0.184050 0.144. 某公司对其 250 名职工上班所需时间进行了调查,下面是其不完整的频率分布表:(1) 试将频率分布表补充完整;(2) 该公司上班所需时间在半小时以内有多少人?O 805 945108512251365 1505 月薪68频率9图 5.24218解:(1)由于频率和为 1,故空缺的频率为 1-0.1-0.24-0.18-0.14=0.34.(2)该公司上班所需时间在半小时内的人所占频率为 0.1+0.24+0.34=0.68,该公司有职工 250 人,故该公司上班所需的时间在半小时以内的人有 2500.68=170.5. 40 种刊物的月发行量如下(单位:百册):5954 5022 14667 6582 6870 1840 2662 4508 1208 3852 6183008 1268 1978 7963 2048 3077 993 353 14263 1714 111276926 2047 714 5923 6006 14267 1697 13876 4001 2280 122312579 13588 7315 4538 13304 1615 8612(1) 建立该批数据的频率分布表,取组距为 1700 百册;(2) 方图.解: 处数据最大观测值为 14667,最小观测值为 353,由于组距为 1700,故组数为:所以分 9 组.接下来确定每组区间端点,要求,42.81703546k1700146673500a此处可取 =300,于是可列出其频数频率分布表 .0a组序 分组区间 组中值 频数 频率 累计频率/%1 (00,2000 1150 12 0.3 302 (2000
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号