抽样调查课件讲稿2-－金锄头文库

第2章简单随机抽样（SRS）,2.1 定义及其抽选方法 2.2 简单估计量及其性质 2.3 样本量的确定 2.4 设计效应 2.5 逆抽样,2.1定义与符号,简单随机抽样也称为纯随机抽样。从含有 N 个单元的总体中抽取 n 个单元组成样本，如果抽样是不放回的，则所有可能的样本有个，若每个样本被抽中的概率相同，都为，这种抽样方法就是简单随机抽样。具体抽样时，通常是逐个抽取样本单元，直到抽满n个单元为止。,有限,放回简单随机抽样不放回简单随机抽样,放回简单随机抽样(SRS with replacement) 当从总体N个抽样单元中抽取n个抽样单元时，如果依次抽取单元时，不管以前是否被抽中过，每次都从N个抽样单元中随机抽取，这时，所有可能的样本为 ? 个(考虑样本单元的顺序), 每个样本被抽中的概率为? 放回简单随机抽样在每次抽取样本单元时，都将前一次抽取的样本单元放回总体，因此，总体的结构不变，抽样是相互独立进行的，这一点是它与不放回简单随机抽样的主要不同之处。放回简单随机抽样的样本量不受总体大小的限制，可以是任意的。,简单随机抽样的抽取原则：（1）按随机原则取样；（2）每个抽样单元被抽中的概率都是已知的或事先确定的；（3）每个抽样单元被抽中的概率都是相等的。,所有可能样本每个样本被抽中的概率相同,所有可能样本每个样本被抽中的概率相同,【例2.1】,设总体有5个单元（1、2、3、4、5），按放回简单随机抽样的方式抽取2个单元，则所有可能的样本为25个（考虑样本单元的顺序）：,(2)不放回简单随机抽样 (SRS without replacement),当从总体N个抽样单元中依次抽取n个抽样单元时，每个被抽中的单元不再放回总体，而是从总体剩下的单元中进行抽样。不放回简单随机抽样的样本量要受总体大小的限制。在实际工作中，更多的采用不放回简单随机抽样。,【例2.2】,设总体有5个单元（1、2、3、4、5），按不放回简单随机抽样的方式抽取2个单元，则所有可能的样本为个：,符号,大写符号表示总体的标志值，用小写符号表示样本的标志值,总体指标值上面带符号“”的表示由样本得到的总体指标的估计。称为抽样比，记为f 。估计量的方差用大写的V表示,对的样本估计，不用而用表示。,二、抽选方法,1抽签法 2随机数法随机数表、随机数骰子、摇奖机、计算机产生的伪随机数随机数表法： N=327 n5 讨论： (1) 总体编号为135，在0099中产生随机数，若=00或35，则抛弃重抽。 (2) 总体编号为135，在0099中产生随机数，以除以35，余数作为被抽中的数，如果余数为0，则被抽中的数为35。,三、地位与作用,优点简单直观理论基础缺点 N很大时难以获得抽样框样本分散不易实施，调查费用高很少单独使用，一般结合其他方法使用没有其他信息时使用多变量复杂数据分析,2.2 简单估计量及其性质,判断下面要估计的总体目标量分别属于什么类型？调查城市居民家庭平均用电量。估计湖中鱼的数量。测试日光灯的寿命。估计居民家庭用于做饭菜及饮用的用水量占家庭总用水量的比重。估计婴儿出生性别比。检测食盐中碘含量。,一、对总体均值的估计,以样本均值作为总体均值的估计性质1：对于简单随机抽样，是的无偏估计。,例设总体为0，1，3，5，6，计算总体均值 =3、总体方差 =5.2和 =6.5；给出全部的样本，并验证及。,样本编号,单元1,单元2,样本均值,-,样本方差,证明性质1,对于固定的有限总体，估计量的期望是对所有可能样本求平均得到的，因此总体中每个特定的单元在不同的样本中出现的次数。,证明性质1（对称性论证法）,由于每个单元出现在总体所有可能样本中的次数相同，因此一定是的倍数，且这个倍数就是，,性质2：,对于有限总体的方差定义：性质2：对于简单随机抽样，的方差式中：为抽样比，为有限总体校正系数。,证明性质2（对称论证法）：,中的求和是对项的，中的求和是对项的,每个特定单位被选入样本的概率： =P（i）= 故其定义为： * 不放回抽样 * 每个样本被抽中的概率为 * 每个单位被选入样本的概率,利用无限总体理论,Mean =,随机变量,证明性质2,简单随机抽样下，简单估计量估计精度影响因素：,估计量的方差是衡量估计量精度的度量。影响估计量方差的因素主要是样本量n，总体大小N和总体方差。通常N很大，当f0.05时，可将近似取为1。总体方差是我们无法改变的；因此，在简单随机抽样的条件下，只有通过加大样本量来提高估计量的精度。,性质3：的样本无偏估计为：,证明 :,大样本下，抽样调查估计量渐进正态,【例2.3】,我们从某个=100的总体中抽出一个大小为=10的简单随机样本，要估计总体平均水平并给出置信度为95%的区间估计。,由置信度95%对应的，因此，可以以95%的把握说总体平均水平大约在之间，即2.4295和7.5705之间。,有放回简单随机抽样,二、对总体总量的估计,【例2.4】续例2.3。估计总体总量，并给出在置信度95%的条件下，估计的极限相对误差。,在置信度95%下，的极限相对误差为：,三、对总体比例的估计,某一类特征的单元占总体单元数中的比例P. 将总体单元按是否具有这种特征划分为两类，设总体中有个单元具有A这个特征，如果对每个单元都定义指标值,总体方差：,估计量,性质5：对于简单随机抽样，是 P 的无偏估计。的方差为：,证明,【例2.5】,某超市新开张一段时间之后，为改进销售服务环境，欲调查附近几个小区居民到该超市购物的满意度，该超市与附近几个小区的居委会取得联系，在总体中按简单随机抽样抽取了一个大小为=200人的样本，调查发现对该超市购物环境表示满意或基本满意的居民有130位，要估计对该超市购物环境持肯定态度居民的比例，并在置信度95%下，给出估计的近似置信区间、极限绝对误差。假定这时的抽样比可以忽略。,95%近似置信区间为 58.37%，71.63% ,2.3 比率估计量及其性质,2.3.1 比率估计量的性质 2.3.2 比率估计量的方差估计 2.3.3 比率估计的其他问题,辅助指标x，其总体均值（总量）已知,三、比率估计的效率,1.与简单估计的比较简单估计量无偏，而比率估计量渐近无偏。因此这里只比较当比较大的情形。比率估计量优于简单估计量的条件是：,正高度相关,【例2】某县在对船舶调查月完成的货运量进行调查时，对运管部门登记的船舶台帐进行整理后获得注册船舶2860艘，载重吨位154626吨，从2860艘船舶中抽取了一个的简单随机样本，调查得到样本船舶调查月完成的货运量及其载重吨位如下表（单位：吨），要推算该县船舶调查月完成的货运量。,该县船舶在调查月完成货运量的比率估计为用简单估计对货运量进行估计,实际中对于样本量较小的情形，使用比率估计量时不能忽视其偏倚。,2.4 回归估计量及其性质,2.4.1 回归估计的性质 2.4.2 多变量回归估计 2.4.3 各种估计量的精度比较,2.5 简单随机抽样的实施 2.5.1 样本量的确定,费用总费用固定费用可变费用,设计费分析费办公费管理费场租费等,访问员费交通费礼品费电话费等,STEPS,所需要的精度找出样本量与精度之间的关系估计所需的数值，求解 n 如超出预算，调整精度值重新计算,精度margin of error,对精度的要求通常以允许最大绝对误差（绝对误差限）或允许最大相对误差（相对误差限）来表示。,样本量足够大时，可用正态分布近似,变异系数,Sample Size n0为重复抽样条件下的样本量,当N很大时， 0， n n0，wr与wor几乎没有区别。,总体参数为P的情形,f0.05,总体方差的估计,根据预调查数据或以前文献资料根据数据的分布粗略估算S,例如全距/4，全距/ 6 对于比例估计，如果P在0.5附近（），可根据PQ在P=0.5时达到极大值来对样本量进行计算 .,如果时间允许，且总体在时间上变化不快，调查可以分为两步，首先确定一个可以承受的样本量，调查后对估计精度进行计算，如果精度达到要求，则不再进行下一步，否则，计算为达到精度要求所需的样本量，再调查补充样本通过定性分析 ,最好是对总体变异系数进行分析并估计，因为变异系数通常变化不大.,样本量设计中的误区 1. 估计精度越高越好吗？简单随机抽样估计比例P的样本量与误差（当P=0.5时）样本量误差d 50 0.14 100 0.10 500 0.045 1000 0.032 10000 0.0098 对精度要求的判断十分重要。为得到最小误差而选择最大样本量不是好的选择。,2. 样本量与总体规模N有关吗？按照总体比例确定样本量合适吗？例：简单随机抽样估计P，置信度95%，允许误差5%，在P=0.5条件下总体规模（N）所需样本量（n） 50 44 100 80 500 222 1000 286 5000 370 10000 385 100000 398 1000000 400 10000000 400,抽样调查中的样本量,由此可知，在精度要求相同条件下，在北京市进行一项调查和在全国进行一项调查，样本量的差别并不大。总体规模越大，进行抽样调查的效率越高。若分类、分区、分层分别进行估计，如何处理？对于多项目，如何处理？,其他影响因素,1. 所研究问题目标量的个数 2. 调查表的回收率例如回收率估计为80%，则应接触的样本量为计算出所需样本量的1.25倍； 3.非抽样误差 4.资源限制 5.有效样本 etc,定义：简单随机抽样的样本估计量的方差与复杂抽样的样本估计量的方差的比率。 Deff Var（）为复杂样本估计量的方差。,2.4 设计效果(Design effect, Deff),设计效应,基什（L. Kish）提出比较不同抽样方法的效率.,不放回简单随机抽样简单估计量的方差,某个抽样设计在同样样本量条件下估计量的方差。,Deff的作用：（1）评价抽样设计的一个依据, 如果deff1，则抽样设计比简单随机抽样的效率低。（2）计算样本量如多阶段抽样的 Deff大约在22.5之间。 n= n(deff) n为简单随机抽样所需样本量。,放回简单随机抽样的deff为：常用于复杂抽样样本量的确定；在一定精度条件下，简单随机抽样所需的样本量比较容易得到，复杂抽样的样本量为，,2.5 稀有事件的抽样问题,如果估计的是非常稀有事件的比例，这时总体比例很小，用极限相对误差比极限绝对误差更好些。对于稀有事件，所需的样本量会很大，例如：,针对稀有事件并无法给出确切范围，对总体比例事先不同的假定，所导致的样本量差异非常大。霍丹（Haldane）提出的逆抽样方法: 即事先确定一个整数m（m1），进行逐个抽样，直到抽到m个所考虑特征的单元为止.,设n是实际的样本量，则