资源预览内容
第1页 / 共37页
第2页 / 共37页
第3页 / 共37页
第4页 / 共37页
第5页 / 共37页
第6页 / 共37页
第7页 / 共37页
第8页 / 共37页
第9页 / 共37页
第10页 / 共37页
亲,该文档总共37页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第五章 抽样与抽样估计5.1 抽样调查中的基本概念5.2 常用的抽样分布5.3 抽样估计的基本方法5.4 其他抽样组织方式及其抽样估计7/26/20241宁波大学商学院 郑建华5.1 抽样调查中的基本概念q总体(population)与样本(sample)1. 总体与参数总体是根据一定统计目的所确定的同类事物的全体,是所要说明其数量特征的研究统计研究对象(objects)。构成总体的每个个别事物(或基本单元element)称为一个总体单位,也称个体(individual)。一个总体中包含的总体单位的个数,称为总体的容量,一般用N表示。存在有限总体和无限总体之分。7/26/20242宁波大学商学院 郑建华说出以下问题的总体和总体单位:(1)研究某部门职工收入的水平? (2)对某厂某月生产的电视机进行质量检查?(3)研究某地区农村居民家庭的生活水平?(4)研究“十五大”以来宁波市居民家庭生活条件发生的变化?(5)测定一个物件的精确重量?检查某种新型纱线的拉力强度?7/26/20243宁波大学商学院 郑建华总体某一方面数量特征(称为总体的一个指标)的数值虽然是客观存在的确定的常数,但又是未知的,因此也称为总体参数(parameter)。比如:职工总体可以从不同的方面进行认识,总平均工资,工资的总标准差,不同学历层次的工资水平及其差异程度,所占的比例,工资总量等。 总体的数量特征是对个体的数量特征或属性特征进行计数、加总或运算的结果。如总量、平均量、比例数、方差或标准差等是常用的总体参数。7/26/20244宁波大学商学院 郑建华2. 样本与统计量总体的一部分,或者从总体中抽取的部分单位所构成的整体,称为总体的一个样本(sample)。样本中包含的总体单位数称为样本容量,常用n表示。有大样本和小样本之说。样本是不确定的。根据样本资料确定的数量指标,称为统计量(statistic),或者说统计量是样本资料的函数(不含有未知数)。7/26/20245宁波大学商学院 郑建华q 概率抽样和非概率抽样概率抽样(probability sampling)也叫随机抽样(random sampling), 即抽样时遵循随机原则。基本的组织方式有:简单随机抽样、分层(stratified)随机抽样、系统(systematic)随机抽样、整群(cluster)随机抽样。避免系统误差,统计推断时可以计算和控制抽样误差。非概率抽样:根据经验或需要,主观选取若干总体单位构成样本。7/26/20246宁波大学商学院 郑建华q 抽样误差统计调查误差:调查结果与真实值间的差异。按来源有登记性误差和代表性误差之分。登记误差:观察、登记、测量、计算等引起。可存在于一切调查中。代表性误差:用样本资料对总体特征进行推断时所引起的。有系统误差(非随机因素引起)和随机误差(随机因素引起)之分。随机误差是抽样调查所特有的。抽样估计中的抽样误差就是指由于抽样的随机性而产生的估计量与被估计的总体参数之间的代表性误差。7/26/20247宁波大学商学院 郑建华由于总体参数的未知性,某次具体抽样结果的实际抽样误差是无法计算的。但由于对确定的总体和确定的抽样方案,估计量的取值存在一定的分布规律,因此可以从所有可能的样本来考察抽样误差。抽样平均误差则是反映确定的抽样方案下所有可能抽样实际误差绝对值的一般水平的统计指标。对于无偏估计量,抽样平均误差定义为估计量的标准差。他是可以计算的。在一定的概率保证程度下,抽样实际误差的可能取值的允许范围(称为抽样极限误差)也是可以计算和控制的。抽样误差率(极限误差/估计量)与抽样精度的概念。7/26/20248宁波大学商学院 郑建华5.2 常用的抽样分布7/26/20249宁波大学商学院 郑建华1. 2 分布N=7N=11概率N为自由度7/26/202410宁波大学商学院 郑建华2. t分布概率密度x标准正态分布t-分布07/26/202411宁波大学商学院 郑建华3. F分布x概率密度7/26/202412宁波大学商学院 郑建华4. 正态分布的有关性质7/26/202413宁波大学商学院 郑建华7/26/202414宁波大学商学院 郑建华7/26/202415宁波大学商学院 郑建华7/26/202416宁波大学商学院 郑建华5. 样本比例数的抽样分布总体中具有某种特征的个体数占总体单位总数的比例称作总体比例,记作P。样本中具有某种特征的单位占全部样本单位的比例称作样本比例,记作p。如:民众对某项政策的支持率为P。随机选择n个人询问他们是否支持某政策,结果有m个回答支持,则p=m/n为样本支持率。采用重复抽样时,mB(n,P), E(m)=nP, D(m)=nP(1-P)。因此E(p)=P, D(p)=P(1-P)/n。如果采用不重复抽样, 则mHG(n, NP,N),E(m)=nP, D(m)=nP(1-P)(N-n)/(N-1)。因此E(p)=P, D(p)=P(1-P)/n (N-n)/(N-1)。7/26/202417宁波大学商学院 郑建华6. 影响抽样误差的主要因素抽样平均误差 重复抽样 不重复抽样 样本平均数 样本比例数主要因素:总体方差或标准差;样本容量;抽样方法或抽样组织方式。 7/26/202418宁波大学商学院 郑建华证明:7/26/202419宁波大学商学院 郑建华5.3 抽样估计的基本方法 矩法最大似然法*最小二乘法*最小卡平方法总体分布未知正态总体一般总体(大样)已知方差方差未知一般总体(大样)正态总体估计数学期望单个总体两个总体*估计方差(小样本下,正态总体)点估计区间估计7/26/202420宁波大学商学院 郑建华一、点估计定义:点估计(point estimate)也叫定值估计,直接以一个样本估计量的观察值作为参数的估计值。常用方法:矩估计法, 极大似然估计法。评价标准:对总体的数量特征可以提出若干估计量。所谓估计量的评价标准指的是衡量一个统计量用以估计总体参数的优劣标准。我们构造一个统计量时,它们就应当具有这些优良性,否则就不采用他来估计总体参数。1. 无偏性; 2. 有效性; 3. 一致性7/26/202421宁波大学商学院 郑建华 例1: 某灯泡厂某天生产了一大批灯泡,从中抽取了10个进行寿命试验,获得数据如下(单位:小时),问该天生产的灯泡的平均寿命是多少?7/26/202422宁波大学商学院 郑建华最大似然法是选择这样的估计量作为的估计值,以便使观察结果(x1,xn)出现的可能性(概率)最大。对于离散型变量,就是要选择使L(; x1,xn )=p(x1, )p(x2, )p(xn, )最大。对于连续型变量,就是要选择使L(; x1,xn )=f(x1 ;)f(x2 ;).f(xn ;)最大。7/26/202423宁波大学商学院 郑建华已知N(,2),以一组样本观察值估计的参数7/26/202424宁波大学商学院 郑建华二、区间估计所谓区间估计(interval estimate)就是以一定的可靠性给出被估计参数的一个可能的取值范围。用点估计估计参数,即使是无偏有效的估计量,也会由于样本的随机性,使得由样本计算出的估计值并不恰恰是真值。而且即使等于真值,由于真值未知,我们也不能肯定这种相等。那么,究竟相差多少?于是问题等价为:在给定可靠程度下,指出被估计参数所在的可能值的范围,就是参数的区间估计问题。具体作法是: 找出两个统计量L(x1,xn)与U (x1,xn),使 P(L U )=1-(L , U)称为置信区间, 1-称为置信度, 称为显著水平(测不准的概率),一般等于5%或1%。7/26/202425宁波大学商学院 郑建华总体均值的区间估计1.当总体方差2已知时总体均值的区间估计 对于给定的显著性水平,可以构造均值的置信区间为:2. 总体方差未知时总体均值的区间估计 对于给定的显著性水平,总体均值的置信区间为:在此基础上,可以得到相应总量的区间估计。7/26/202426宁波大学商学院 郑建华7/26/202427宁波大学商学院 郑建华97页例5-4。97页例5-5。7/26/202428宁波大学商学院 郑建华总体比例数的区间估计样本比例分布直接来自于二项分布。根据中心极限定理,随着样本容量的增加,二项分布渐近于正态分布。所以当样本容量较大时,一般来说,当n不小于30,np和n(1-p)都不小于5时,可以用正态分布代替二项分布。置信度为1-的区间估计为:7/26/202429宁波大学商学院 郑建华例 某食品厂准备上市一种新产品,并配合以相应的广告宣传,企业想通过调查孩子们对其品牌的认知情况来评估广告的效用,以制定下一步的市场推广计划。他们在该地区随机抽取350个小孩作访问对象,进行儿童消费者行为与消费习惯调查,其中有一个问句是“你听说过这个牌子吗?”,在350个孩子中,有112个小孩的回答是“听说过”。根据这个问句,可以分析这一消费群体对该品牌的认知情况。所以,食品厂市场部经理要求,根据这些样本,给定95的置信度,估计该地区孩子认知该品牌的比例。7/26/202430宁波大学商学院 郑建华样本容量的确定重复抽样,样本量n的大小为:从上式可以看出,必要样本容量 n与总体方差、抽样极限误差,置信水平之间具有下述关系:在其他条件不变的情况下,总体方差越大,必要样本容量n便越大,必要样本容量与总体方差成正比;置信水平越大,必要样本容量便越大,二者成正方向关系;抽样极限误差越大,样本容量就越小,二者成反方向关系。7/26/202431宁波大学商学院 郑建华例 某快餐店想在置信度为96%的条件下估计午餐时间每位顾客的平均支出,根据过去经验,每个顾客平均支出的标准差不超过5元,要抽取多少样本才能使其抽样极限误差不超过2元呢?7/26/202432宁波大学商学院 郑建华例 联想集团希望了解购买“天禧”品牌计算机的消费者满意比例,集团确信“天禧”品牌计算机满意比例不会小于70%。如果集团想使抽样极限误差在2%,置信度为99%,则需要多大的样本?7/26/202433宁波大学商学院 郑建华*方差的区间估计1. 大样本情况下总体标准差的区间估计 在置信度为1 a 时,其置信区间可以写成:2小样本情况下正态总体方差的置信区间 设 x1,x2,xn 来自均值为 m ,方差为s2的正态总体, m、s2均未知,则s2的点估计量为S2 ,置信度为1- a 时方差的置信区间写为:7/26/202434宁波大学商学院 郑建华7/26/202435宁波大学商学院 郑建华例 某食品企业生产一种名牌蛋糕。经验说明温度会影响蛋糕的口味。所以生产蛋糕时需要将温度控制在一定范围内,以保证产品的稳定性与一致性。现从一批产品中随机抽取25批蛋糕进行检测,其温度的标准差是2.13度,假定总体温度的分布服从正态分布,以95%作为置信度来估计生产蛋糕温度的方差置信区间。7/26/202436宁波大学商学院 郑建华作业p1091105.35.55.75.95.117/26/202437宁波大学商学院 郑建华
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号