资源预览内容
第1页 / 共88页
第2页 / 共88页
第3页 / 共88页
第4页 / 共88页
第5页 / 共88页
第6页 / 共88页
第7页 / 共88页
第8页 / 共88页
第9页 / 共88页
第10页 / 共88页
亲,该文档总共88页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
样本量的确定样本量的确定北 京 广 播 学 院 新 闻 传 播 学 院调 查 统 计 研 究 所二零零一年五月二零零一年五月沈 浩第第2页页SSI本讲主要内容本讲主要内容如何计算简单随机抽样的样本量确定如何计算简单随机抽样的样本量确定如何实现分层抽样中各层样本单位数的分配如何实现分层抽样中各层样本单位数的分配第第3页页SSI样本容量的确定样本容量的确定样本量样本量= =费用费用+ +精度精度 (函数)(函数)确定样本容量,需要处理好预定的精度与现有经确定样本容量,需要处理好预定的精度与现有经费,同时也要考虑资源和时间等限制条件,最终的样费,同时也要考虑资源和时间等限制条件,最终的样本量确定是在上述因素之间的权衡关系。本量确定是在上述因素之间的权衡关系。第第4页页SSI分层抽样分配样本的标准分层抽样分配样本的标准1.总的样本容量事先确定总的样本容量事先确定2.估计值要求达到的精度预先给定估计值要求达到的精度预先给定第第5页页SSI影响调查样本容量的因素影响调查样本容量的因素调查估计值所希望达到的精度调查估计值所希望达到的精度调查估计值所能允许的误差。调查估计值所能允许的误差。估计量的抽样方差较小,估计值是精确的估计量的抽样方差较小,估计值是精确的估计值的精度越高,所需的样本容量就越大估计值的精度越高,所需的样本容量就越大影响精度的因素也同样影响着样本容量的大小影响精度的因素也同样影响着样本容量的大小所研究指标在总体中的变异程度所研究指标在总体中的变异程度总体的大小总体的大小样本设计和所使用的估计量样本设计和所使用的估计量无回答率无回答率第第6页页SSI客户提供的经费能支持多大容量的样本客户提供的经费能支持多大容量的样本整个调查持续的时间有多长整个调查持续的时间有多长调查需要多少访员调查需要多少访员能招聘到的访员有多少能招聘到的访员有多少除了估计值的精度以外,调查实际操作的限制条件除了估计值的精度以外,调查实际操作的限制条件也许是影响样本容量的最大因素。也许是影响样本容量的最大因素。第第7页页SSI 1 1给定精度水平下样本容量的确定给定精度水平下样本容量的确定 样本容量的大小与调查估计值所要求的精度紧密相关样本容量的大小与调查估计值所要求的精度紧密相关数据是通过抽样而不是普查收集的,就会产生抽样误差。数据是通过抽样而不是普查收集的,就会产生抽样误差。精度是由抽样方差来测量的。精度是由抽样方差来测量的。随着样本容量的增加,调查估计值的精度也会不断提高。随着样本容量的增加,调查估计值的精度也会不断提高。第第8页页SSI标准误差标准误差误差界限误差界限变异系数变异系数抽样方差的几种计量方法抽样方差的几种计量方法抽样调查中样本容量的确定,也经常会使抽样调查中样本容量的确定,也经常会使用一种或多种这样的计量方法来对精度进行说用一种或多种这样的计量方法来对精度进行说明。明。第第9页页SSI非抽样误差非抽样误差非抽样误差会对调查估计值的精度产生显著的影响非抽样误差会对调查估计值的精度产生显著的影响非抽样误差的大小与样本容量的大小却没有很大的关系非抽样误差的大小与样本容量的大小却没有很大的关系确定样本容量,就不必将这些误差作为影响因素加以考虑确定样本容量,就不必将这些误差作为影响因素加以考虑为确保调查结果的准确性,应该消除非抽样误差,至少应尽为确保调查结果的准确性,应该消除非抽样误差,至少应尽可能使之最小化可能使之最小化第第10页页SSI由于我们将在某一给定误差界限下,阐述样本容由于我们将在某一给定误差界限下,阐述样本容量确定的过程,所以有必要复习一下置信区间的概念。量确定的过程,所以有必要复习一下置信区间的概念。对于具有正态分布的估计量来说,对于具有正态分布的估计量来说,95%的置信区的置信区间意味着在同样的条件下,反复抽样间意味着在同样的条件下,反复抽样100次所得的次所得的100个样本中,有个样本中,有95个样本的估计值所确定的区间包含总个样本的估计值所确定的区间包含总体真值,这个区间以样本的估计值为中心,半径为体真值,这个区间以样本的估计值为中心,半径为1.96倍的标准误差倍的标准误差。置信区间置信区间第第11页页SSI2 2误差界限误差界限误差界限是标准误差的倍数误差界限是标准误差的倍数标准误差是估计量抽样方差的平方根标准误差是估计量抽样方差的平方根乘数因子取决于在调查估计中所希望乘数因子取决于在调查估计中所希望达到的置信水平(或称置信度)达到的置信水平(或称置信度)第第12页页SSI对于估计值对于估计值t,在给定其标准误差在给定其标准误差 t的情况下的情况下,置信区间的公式可以表示为:置信区间的公式可以表示为:(t-z tt+z t)这里这里z t是误差界限,是误差界限,z是对应于某一置是对应于某一置信水平的标准正态分布的分位点值信水平的标准正态分布的分位点值该该z值可从标准正态分布表中查得,大多值可从标准正态分布表中查得,大多数统计学教材中都附有这样的统计表数统计学教材中都附有这样的统计表第第13页页SSI常用的z值包括v对于对于90%的置信度,对应的的置信度,对应的z z值为值为1.64v对于对于95%的置信度,对应的的置信度,对应的z z值为值为1.96v对于对于99%的置信度,对应的的置信度,对应的z z值为值为2.56第第14页页SSI 3 3多大的抽样方差是可接受的多大的抽样方差是可接受的调查估计值能容忍多大的不确定性?。调查估计值能容忍多大的不确定性?。常用的常用的95%的置信度、的置信度、5%的误差界限对我们的的误差界限对我们的调查目标是否适宜调查目标是否适宜估计值是否需要更高(或更低)精度估计值是否需要更高(或更低)精度如果调查结果将用于进行一项有重大意义或有较大风险的决策,如果调查结果将用于进行一项有重大意义或有较大风险的决策,那么,估计值可能需要较高的精度;那么,估计值可能需要较高的精度;如果我们只是简单地希望取得所研究总体某个特征的感性认识,如果我们只是简单地希望取得所研究总体某个特征的感性认识,那么,稍低一点的精度就可以满足要求了那么,稍低一点的精度就可以满足要求了第第15页页SSI多大抽样方差是可以接受多大抽样方差是可以接受 是否需要对调查的子总体(或称作域)进行估计?是否需要对调查的子总体(或称作域)进行估计?调查结果可能需要包括一些细分的数据调查结果可能需要包括一些细分的数据这些数据称为子总体估计值(或域估计值)这些数据称为子总体估计值(或域估计值)为使数据满足调查要求,应该确定合适的精度为使数据满足调查要求,应该确定合适的精度 与调查估计值有关的抽样方差有多大?与调查估计值有关的抽样方差有多大?第第16页页SSI对于不同的子总体,对精度的要求可能有所不同对于不同的子总体,对精度的要求可能有所不同例如,在一次全国范围的抽样调查中,对国家层次的数据,例如,在一次全国范围的抽样调查中,对国家层次的数据,调查主办者可能需要调查主办者可能需要3%的误差界限;但对于省级层次的估计的误差界限;但对于省级层次的估计值,值,5%的误差界限可能就可以满足要求;的误差界限可能就可以满足要求;而对于省级以下层次的估计值,而对于省级以下层次的估计值,10%的误差界限可能就足的误差界限可能就足够了。够了。第第17页页SSI在这种情况下,通常对每个研究域都进行分层,在这种情况下,通常对每个研究域都进行分层,并单独计算各层的样本容量并单独计算各层的样本容量将各个研究域中所有层的样本容量相加,便得到将各个研究域中所有层的样本容量相加,便得到了调查所需的总样本容量了调查所需的总样本容量第第18页页SSI调查估计值有关的抽样方差有多大调查估计值有关的抽样方差有多大v为达到调查结果要求的精度,最小的调查估计值是什为达到调查结果要求的精度,最小的调查估计值是什么?假设我们进行比例估计。其中,一些指标的比例么?假设我们进行比例估计。其中,一些指标的比例可能是可能是P=50%或更高,但是其它指标的比例则可能较或更高,但是其它指标的比例则可能较低,如低,如P=5%或者或者P=10%v事实上,事实上,P可以是可以是P=0到到P=1.0之间的任一数值。在确之间的任一数值。在确定调查估计值所需的精度时,应该考虑当某个既定精定调查估计值所需的精度时,应该考虑当某个既定精度达到时所得的最小估计值。如果最小的估计值是度达到时所得的最小估计值。如果最小的估计值是P=5%,那么误差界限就应该小于那么误差界限就应该小于5%。第第19页页SSI例如:例如:某公司决定,如果公司所在的地区中,至少有某公司决定,如果公司所在的地区中,至少有P=4%的人的人群对某一种产品存在需求,那么该公司就决定生产这种产品。群对某一种产品存在需求,那么该公司就决定生产这种产品。因此,该公司的市场调研部准备对当地的居民一项调查,以便因此,该公司的市场调研部准备对当地的居民一项调查,以便估计他们在这种产品上的消费需求。估计他们在这种产品上的消费需求。对于对于P=4%5%水平左右的调查估计值就不太合适,应规水平左右的调查估计值就不太合适,应规定更小的误差界限,如小于或等于定更小的误差界限,如小于或等于0.01、0.02等,等,这时候这时候置置信区间应该是(信区间应该是(0.050.01)或(或(0.050.02)。)。第第20页页SSITable1样本容量和在样本容量和在P=0.5时运用简单随机抽样估计时运用简单随机抽样估计P值得到的误差界限值得到的误差界限样本容量误差界限500.141000.105000.04510000.032第第21页页SSI最佳的解决办法最佳的解决办法不应为追求最小的误差界限而选择最大可能的样本不应为追求最小的误差界限而选择最大可能的样本可以接受一个较大的误差界限,同时有效地利用现有资源可以接受一个较大的误差界限,同时有效地利用现有资源在此基础上,获得具有相对较高精度的估计结果在此基础上,获得具有相对较高精度的估计结果采用一个较小的样本而不是大样本而节省下来的费用,采用一个较小的样本而不是大样本而节省下来的费用,可以用来修正其它影响调查结果精度的因素可以用来修正其它影响调查结果精度的因素例如减少无回答率(如回访拒答者、实施小型的试点调查、例如减少无回答率(如回访拒答者、实施小型的试点调查、培训访员,等等),这样做可能更有效率培训访员,等等),这样做可能更有效率第第22页页SSI4 4总体的变异程度总体的变异程度 调查总体中,我们所研究的项目或指标,对于不调查总体中,我们所研究的项目或指标,对于不同的个人、住户或企业,得到的估计结果可能会有很同的个人、住户或企业,得到的估计结果可能会有很大的不同。虽然我们不能控制这种变异性,但它的大大的不同。虽然我们不能控制这种变异性,但它的大小却影响到了给定精度水平下,研究项目所必需的样小却影响到了给定精度水平下,研究项目所必需的样本容量。本容量。第第23页页SSI我们来看假设有一个首次开展的调查,试图估我们来看假设有一个首次开展的调查,试图估计对某企业提供的服务持满意态度的顾客比例。对计对某企业提供的服务持满意态度的顾客比例。对“顾客满意顾客满意”这一指标,设置两个可能的值:满意这一指标,设置两个可能的值:满意或者不满意。或者不满意。第第24页页SSI表表2列出了持满意和不满意态度的顾客可能占的比例的组合列出了持满意和不满意态度的顾客可能占的比例的组合1100% 满意0% 满意290% 满意10% 满意380% 满意20% 满意470% 满意30% 满意560% 满意40% 满意650% 满意50% 满意740% 满意60% 满意830% 满意70% 满意920% 满意80% 满意1010% 满意90% 满意110% 满意10% 满意第第25页页SSI要精确地测量总体中具有高度变异性或不要精确地测量总体中具有高度变异性或不经常出现的特征是很困难的。经常出现的特征是很困难的。要对这样的变量提供精确的估计值,需要要对这样的变量提供精确的估计值,需要较大的样本容量。较大的样本容量。当研究的特征具有最大的变异程度时,调当研究的特征具有最大的变异程度时,调查需要的样本容量也最大。查需要的样本容量也最大。对于只取两个值的特征,则当这两个值在对于只取两个值的特征,则当这两个值在总体中以总体中以5050的比例出现时,特征的变的比例出现时,特征的变异程度最大。异程度最大。总体的变异程度总体的变异程度 第第26页页SSI如果所研究特征的真实变异程度大于确定如果所研究特征的真实变异程度大于确定样本容量时我们估计的变异程度,那么,样本容量时我们估计的变异程度,那么,调查估计值的精度就会低于期望的精度。调查估计值的精度就会低于期望的精度。相反,如果所研究特征的真实变异程度与相反,如果所研究特征的真实变异程度与我们所估计的变异程度相比要小,那么,我们所估计的变异程度相比要小,那么,与调查目标所要求的估计值相比,抽样调与调查目标所要求的估计值相比,抽样调查得到的估计值会更加精确。查得到的估计值会更加精确。第第27页页SSI确保达到调查要求的精度确保达到调查要求的精度对某一特征的总体变异程度进行保守估计对某一特征的总体变异程度进行保守估计如果事先不知道调查中要测量特征变异程度的如果事先不知道调查中要测量特征变异程度的数据,假定研究特征具有最大的变异程度数据,假定研究特征具有最大的变异程度对于只有两个可能取值的变量,应该假设总体对于只有两个可能取值的变量,应该假设总体中该变量的变异程度为两个取值中该变量的变异程度为两个取值5050平分。平分。建议在计算所需样本容量建议在计算所需样本容量第第28页页SSI多个测量的指标多个测量的指标抽样调查时,测量指标(或称项目,特征)抽样调查时,测量指标(或称项目,特征)通常不止一个,有时数目是很大的通常不止一个,有时数目是很大的每个指标的变异程度可能都不相同每个指标的变异程度可能都不相同对某一指标来说足够大的样本,对变异程度对某一指标来说足够大的样本,对变异程度较大的另一个指标来说可能就有些偏小较大的另一个指标来说可能就有些偏小为确保样本容量对所有的研究指标都足够大,为确保样本容量对所有的研究指标都足够大,应该根据具有最大变异程度或被认为最重要应该根据具有最大变异程度或被认为最重要的那个指标,确定样本容量。的那个指标,确定样本容量。第第29页页SSI 5. 5.总体的大小总体的大小 总体所起的作用视它规模的大小而有所差异总体所起的作用视它规模的大小而有所差异 小规模总体的大小将起重要作用小规模总体的大小将起重要作用 对于中等规模的总体,其作用中等重要对于中等规模的总体,其作用中等重要 大总体的规模对样本容量确定则不起作用大总体的规模对样本容量确定则不起作用在样本容量确定的过程中在样本容量确定的过程中第第30页页SSI表表3:显示了不同规模的总体在显示了不同规模的总体在P=0.5时,使用简单随机时,使用简单随机抽样,且以误差界限为抽样,且以误差界限为0.05、置信度为、置信度为95%的标准估计的标准估计P所需的样本容量所需的样本容量总体规模所需的样本量5044100805002221,0002865,00037010,000385100,0003981,000,00040010,000,000400第第31页页SSI 对对于于小小规规模模总总体体,通通常常必必须须调调查查较较大大比比例例的的样样本本,以以取取得得所所期期望望的的精精度度。因因此此,实实际际操操作作中中,对对小小规规模模总总体体经经常常采采用用普普查查而而不不是抽样调查。是抽样调查。第第32页页SSI计计算算样样本本容容量量时时,通通常常假假定定采采用用的的抽抽样样方方式式为为简简单单随随机机抽抽样样(SRS)。所所以以,如如果果样样本本容容量量计计算算公公式式假假定定为为简简单单随随机抽样。机抽样。 6 6样本设计和估计量样本设计和估计量v分层抽样得到的估计值通常比相同规模的简单随机抽分层抽样得到的估计值通常比相同规模的简单随机抽样更精确,或者至少样更精确,或者至少一样精确。一样精确。v整群抽样得到的估计值,其精度通常低于使用同一估整群抽样得到的估计值,其精度通常低于使用同一估计量进行估计时的简单随机抽样的估计值的精度计量进行估计时的简单随机抽样的估计值的精度第第33页页SSI设计效果因子设计效果因子一般来说,当样本容量的计算公式假定为简单随机抽样一般来说,当样本容量的计算公式假定为简单随机抽样SRS,但使用的是更复杂的选样方式时,达到既定精度所需的样本容量应但使用的是更复杂的选样方式时,达到既定精度所需的样本容量应该乘以该乘以设计效果设计效果因子因子。设计效果设计效果=对于同样规模的样本容量,给定样本设计下对于同样规模的样本容量,给定样本设计下估计量的抽样方差对简单随机抽样估计量的估计量的抽样方差对简单随机抽样估计量的抽样方差的比率。抽样方差的比率。q对于简单随机抽样设计,设计效果对于简单随机抽样设计,设计效果=1q对于分层抽样设计,设计效果对于分层抽样设计,设计效果 1q对于整群抽样设计,设计效果对于整群抽样设计,设计效果 1第第34页页SSI 7 7回答率回答率所有的调查都会遇到无回答的困扰即:所有的调查都会遇到无回答的困扰即:由于某些原因,不能获得被抽中样本单位的信息由于某些原因,不能获得被抽中样本单位的信息当一个被调查单位的所有或几乎所有的数据都缺当一个被调查单位的所有或几乎所有的数据都缺失时,我们就称之为完全无回答(或称单位无回答)失时,我们就称之为完全无回答(或称单位无回答)某次调查的回答率是用调查得到的有效问卷数占某次调查的回答率是用调查得到的有效问卷数占预期样本容量的一个百分比来表示的预期样本容量的一个百分比来表示的完全无回答会减少有效样本的数量,从而会增加完全无回答会减少有效样本的数量,从而会增加抽样误差,并进而降低估计值的精度抽样误差,并进而降低估计值的精度第第35页页SSI例如,如果初始样本容量是例如,如果初始样本容量是400,而通过,而通过上述途径估计的回答率为上述途径估计的回答率为75%,那么选,那么选择的样本容量就应该为:择的样本容量就应该为:根据预计的回答率调整样本容量根据预计的回答率调整样本容量第第36页页SSI一个最简单的例子一个最简单的例子没有无回答的简单随机抽样样本容量的计算公式没有无回答的简单随机抽样样本容量的计算公式简单随机抽样下,通常使用误差界限和简单随机抽样下,通常使用误差界限和估计量的标准误来确定所需的样本容量。估计量的标准误来确定所需的样本容量。第第37页页SSI在无放回简单随机抽样情况下在无放回简单随机抽样情况下总体均值估计量的标准误差的表达式总体均值估计量的标准误差的表达式其中,其中,S是总体的标准差是总体的标准差第第38页页SSI如果误差界限设为如果误差界限设为e,那么:那么:解解n,得:得:这里这里Z是对应于某一置信水平的标准正态分布的分位点值是对应于某一置信水平的标准正态分布的分位点值。第第39页页SSI其中,总体方差其中,总体方差S2是最不容易得到的,通常需要根是最不容易得到的,通常需要根据过去对类似总体所做的研究作近似计算。据过去对类似总体所做的研究作近似计算。为确定为确定n n,需要知道需要知道期望的误差界限期望的误差界限e置信水平置信水平对应的标准正态分布的分位点值对应的标准正态分布的分位点值Z总体规模总体规模N总体方差总体方差S2第第40页页SSI求比例样本容量的确定求比例样本容量的确定下面用一个例子,说明估计比例问题时样本容量的确定过程。下面用一个例子,说明估计比例问题时样本容量的确定过程。在这一例子中,所需的精度是根据误差界限确定的,所研究的指标在这一例子中,所需的精度是根据误差界限确定的,所研究的指标取两个值取两个值,即即P和和1-P。在这种情况下,对于大总体,且估计量服从正态分布时,在这种情况下,对于大总体,且估计量服从正态分布时,P的总体方差为:的总体方差为:第第41页页SSI若总体真值已知,那么直接将它代入上面的等式若总体真值已知,那么直接将它代入上面的等式就可以得到样本容量就可以得到样本容量若总体真值未知,而且也没有以前的信息可以利若总体真值未知,而且也没有以前的信息可以利用,那么可以用,那么可以P=0.5用,因为这时的方差最大,用,因为这时的方差最大,可以求得一个比较保守的样本容量可以求得一个比较保守的样本容量第第42页页SSI计算比例估计样本容量的详细步骤计算比例估计样本容量的详细步骤 先计算初始样本容量,然后根据总体的大小、设计先计算初始样本容量,然后根据总体的大小、设计效果和回答率分别对它进行调整,最后求得最终的样本效果和回答率分别对它进行调整,最后求得最终的样本容量。容量。第第43页页SSI第第1 1步:计算初始样本容量步:计算初始样本容量注意,公式(注意,公式(1)使用了有限总体校正因子)使用了有限总体校正因子n/N,对总体规模进行校对总体规模进行校正。如果忽略这个因子,初始样本容量正。如果忽略这个因子,初始样本容量n1就可以按下列公式计算:就可以按下列公式计算:如果如果e和和P都不用比例表示,而用百分数表示,都不用比例表示,而用百分数表示,n1的计算公式同样成立。的计算公式同样成立。第第44页页SSI第第2 2步:使用下列等式对总体的大小进行调整步:使用下列等式对总体的大小进行调整第第45页页SSI 第第3 3步:设计效果调整样本容量步:设计效果调整样本容量如果样本设计不是采用简单随机抽样,那么可以使用下列公式,如果样本设计不是采用简单随机抽样,那么可以使用下列公式,即用抽样设计效果对样本容量进行调整即用抽样设计效果对样本容量进行调整:其中,是设计效果,并且有:其中,是设计效果,并且有:在简单随机抽样设计下,在简单随机抽样设计下,B=1,在分层抽样设计下,在分层抽样设计下,B 1,在整群抽样设计下,在整群抽样设计下,B 1。第第46页页SSI根据无回答再次进行调整,以确定最终的样本容量根据无回答再次进行调整,以确定最终的样本容量n n其中,其中,r=估计的回答率。估计的回答率。 第第4 4步:无回答调整样本容量步:无回答调整样本容量第第47页页SSI样本容量确定的例子样本容量确定的例子下面用实例说明样本容量的计算过程下面用实例说明样本容量的计算过程。例例1.某杂志出版商希望得到读者对该杂志综合满意某杂志出版商希望得到读者对该杂志综合满意程度的估计值。通过邮寄调查,出版商可以联系到程度的估计值。通过邮寄调查,出版商可以联系到所有的所有的2500个订户。但是,由于时间的限制,出版个订户。但是,由于时间的限制,出版商决定使用简单随机抽样进行电话调查。请问应访商决定使用简单随机抽样进行电话调查。请问应访问多少个读者问多少个读者?第第48页页SSIv如果真实的总体比例落在总体比例的样本估计值的如果真实的总体比例落在总体比例的样本估计值的 0.10范围范围内,则该出版商将感到满意。内,则该出版商将感到满意。换句话说,误差界限换句话说,误差界限e为为0.10。v出版商希望调查估计值的置信度为出版商希望调查估计值的置信度为95%,这就意味着,这就意味着20次抽次抽样中只有样中只有1次,所得的样本估计值确定的置信区间不包含总体次,所得的样本估计值确定的置信区间不包含总体真值真值P,而且,而且,Z=1.96。v使用简单随机抽样使用简单随机抽样SRS。v估计回答率为估计回答率为65%,即,即r=0.65。v由于事先没有关于顾客满意度真实比例由于事先没有关于顾客满意度真实比例P 的可利用的信息,因的可利用的信息,因此,我们假定方差取最大的情况,即假设此,我们假定方差取最大的情况,即假设P=0.5。假假设设第第49页页SSI样本容量的计算步骤样本容量的计算步骤 第第 1 1步:计算初始样本容量步:计算初始样本容量n n1 1 注意,随着注意,随着P趋向趋向0.50,P(1-P)的值将达到最大值,因此的值将达到最大值,因此选择选择P=0.5,可得到最保守的可得到最保守的n1的估计值。的估计值。第第50页页SSI第第 2 2步:调整初始样本容量步:调整初始样本容量将总体的大小这一影响样本容量确定的因素也考虑将总体的大小这一影响样本容量确定的因素也考虑进来进来。(记住,这一步只适于小规模总体以及中等规模的总体记住,这一步只适于小规模总体以及中等规模的总体)第第51页页SSI第第3 3步:步: 根据抽样设计效果来调整样本容量根据抽样设计效果来调整样本容量对这个例子来说,由于假设使用简单随机抽样设计,所以取对这个例子来说,由于假设使用简单随机抽样设计,所以取B=1。第第52页页SSI第第4 4步:根据无回答情况进行调整步:根据无回答情况进行调整 确定最终的样本容量确定最终的样本容量n n第第53页页SSI例例 2. 2. 现现准准备备实实施施一一项项民民意意调调查查,以以决决定定赞赞成成建建立立一一个个公公园园的的居居民民的的比比例例。总总体体由由所所有有在在两两个个城城市市和和一一个个农农村村地地区区居居住住的的、年年龄龄在在1818岁岁及及以以上上的的居居民民组组成成。通通过过从从每每个个城城市市或或农农村村中中各各抽抽取取一一个个简简单单随随机机样样本本,可以得到一个分层随机样本。可以得到一个分层随机样本。问问 每一层需要多大的样本容量?每一层需要多大的样本容量?第第54页页SSI总体的单位数为总体的单位数为 657,500 657,500 总体在各层的分布情况如下:总体在各层的分布情况如下:H层总体(Nh)1城市1400,0002城市2250,0003农村地区7,500合计657,500所需要的样本容量取决于调查对数据的具体要求,所需要的样本容量取决于调查对数据的具体要求,为此,可以考虑以下两个方案。为此,可以考虑以下两个方案。第第55页页SSI方案一方案一假设不需要得到各个层估计值的精度,而且假设不需要得到各个层估计值的精度,而且如果整个地区的估计值达到如果整个地区的估计值达到95%的置信度、的置信度、5%的误差界限,就认为估计值足够可靠了。由于没的误差界限,就认为估计值足够可靠了。由于没有整个地区赞成建立省级公园居民比例的真值,有整个地区赞成建立省级公园居民比例的真值,所以我们假设所以我们假设P=0.5,预计回答率为预计回答率为50%。第第56页页SSI计算过程如下:计算过程如下: 第第 1 1步:计算初始样本容量步:计算初始样本容量n n第第57页页SSI第第 2 2步:计算初步修正的样本容量步:计算初步修正的样本容量n n2 2(注意:如果注意:如果 n1 /N 可以忽略不计可以忽略不计,则可取则可取n2=n1)第第58页页SSI第第 3 3步:根据设计效果,再次进行调整步:根据设计效果,再次进行调整n n3 3对于分层随机抽样,通常对于分层随机抽样,通常 B1。但这里,由于没有可利用的但这里,由于没有可利用的B的估计值,因此,取的估计值,因此,取B=1得到保守(即更大)的样本容量。得到保守(即更大)的样本容量。第第59页页SSI第第4 4步:根据无回答情况步:根据无回答情况 确定最终的样本容量确定最终的样本容量n n即根据该方案,调查所需的样本容量为即根据该方案,调查所需的样本容量为 768 768。第第60页页SSI方案方案 二二假设对每一层,都要求得到误差界限为假设对每一层,都要求得到误差界限为0.05、置信度为置信度为95%的估计结果,那么就需要单独计算各的估计结果,那么就需要单独计算各层的样本容量(即将每一层作为一个总体,估计调层的样本容量(即将每一层作为一个总体,估计调查所需的样本容量)。查所需的样本容量)。第第61页页SSI计算之前,考虑到城市计算之前,考虑到城市1和城市和城市2是大总体,是大总体,因而可以认为,对它们来说,总体的大小对样本因而可以认为,对它们来说,总体的大小对样本容量的确定没有影响。由此,如果第容量的确定没有影响。由此,如果第1、2层中的层中的取值与案例取值与案例1相同,就可以认为这两层需要的样本相同,就可以认为这两层需要的样本容量都是容量都是768。然而,对于农村地区,由于总体是。然而,对于农村地区,由于总体是小规模的,因此总体的大小对该层样本容量的确小规模的,因此总体的大小对该层样本容量的确定会产生一定的影响。定会产生一定的影响。第第62页页SSI 计算步骤如下:计算步骤如下:城市城市 1 1由于由于可以认为可以认为所以所以第第63页页SSI城市城市 2 2因为城市因为城市2也是一个大城市,所以,同样可也是一个大城市,所以,同样可以忽略有限总体校正因子对样本容量的影响:以忽略有限总体校正因子对样本容量的影响:第第64页页SSI农村地区农村地区因此,因此, 方案方案2 2所需的总样本容量为所需的总样本容量为 768 + 768 + 732 = 2,268 768 + 768 + 732 = 2,268。第第65页页SSI比比较较方方案案2的的总总样样本本容容量量2,268和和方方案案1的的样样本本容容量量768,可可以以发发现现方方案案2的的样样本本容容量量几几乎乎是是方方案案1样本容量的样本容量的3倍之大。倍之大。换换句句话话说说,如如果果仅仅仅仅需需要要得得到到包包含含所所有有层层的的整整个个总总体体的的估估计计值值,那那么么要要求求的的样样本本容容量量将将大大大大小于需要分别对各层进行估计时所需的样本容量。小于需要分别对各层进行估计时所需的样本容量。因因为为对对各各层层分分别别进进行行估估计计时时,需需要要确确保保使使每每一层的样本容量都足够大。一层的样本容量都足够大。两种方案比较两种方案比较第第66页页SSI例例2清楚地说明了要求对各研究域分别进行估计时,审查每清楚地说明了要求对各研究域分别进行估计时,审查每一层精度要求的重要性。一层精度要求的重要性。但如果调查涉及到许多研究域,这一要求可能会使总的样本但如果调查涉及到许多研究域,这一要求可能会使总的样本容量显著增大,并可能导致样本容量超出调查研究者的预算和现容量显著增大,并可能导致样本容量超出调查研究者的预算和现有资源的承受能力。有资源的承受能力。一般来说,要求估计的研究域越多,所需要的样本容量也就一般来说,要求估计的研究域越多,所需要的样本容量也就越大。越大。因此,可能需要在精度与费用之间进行折衷,以保证估计的因此,可能需要在精度与费用之间进行折衷,以保证估计的误差在可接受的范围之内。误差在可接受的范围之内。通过增大每一层估计值的允许误差,或合并其中两个或多个通过增大每一层估计值的允许误差,或合并其中两个或多个域,就可以使精度和费用达成权衡。域,就可以使精度和费用达成权衡。第第67页页SSI分层抽样的样本分配分层抽样的样本分配决定分层抽样效率的一个重要因素决定分层抽样效率的一个重要因素是样本单位在层间的分配方式。是样本单位在层间的分配方式。第第68页页SSI分层抽样设计分层抽样设计主要理由:主要理由:使抽样方案的效率高于简单随机抽样或系统抽样。使抽样方案的效率高于简单随机抽样或系统抽样。确保对要进行分析的特定研究域有足够的样本量,确保对要进行分析的特定研究域有足够的样本量,以便进行分析。以便进行分析。避免抽到一个避免抽到一个“差的差的”样本。样本。 第第69页页SSI采用分层抽样时,总体被分为同质的、互采用分层抽样时,总体被分为同质的、互不重叠的几个子总体(层)。然后,在每一个不重叠的几个子总体(层)。然后,在每一个层中独立地抽取样本。可以使用任何一种抽样层中独立地抽取样本。可以使用任何一种抽样方法来对每个层进行抽样,从比较简单的方法方法来对每个层进行抽样,从比较简单的方法如简单随机抽样、系统抽样,到较复杂的方法如简单随机抽样、系统抽样,到较复杂的方法如概率与大小成比例的抽样(如概率与大小成比例的抽样(PPS)、)、整群抽整群抽样、多阶段抽样或多相抽样。样、多阶段抽样或多相抽样。 第第70页页SSI包含包含N个单位的总体,被分成大小分别为:个单位的总体,被分成大小分别为:N1,N2,NL的的L个互不重叠的子总体(层)。个互不重叠的子总体(层)。其中:其中:N=N1+N2+NL。从每层中分别独立抽取一个样本,各层内样本容量从每层中分别独立抽取一个样本,各层内样本容量分别为分别为nh(h=1,2,L)。其中:其中:n=n1+n2+nL。第第71页页SSI分层抽样分配样本的标准分层抽样分配样本的标准固定样本容量固定样本容量:先确定总的样本容量,然后:先确定总的样本容量,然后再在层间分配样本。再在层间分配样本。固定变异系数:先根据预定的精度,确定每固定变异系数:先根据预定的精度,确定每层所需样本容量,然后将各层的样本容量加层所需样本容量,然后将各层的样本容量加总得到总的样本容量。总得到总的样本容量。第第72页页SSI固定样本容量固定样本容量第一步:确定总的样本容量第一步:确定总的样本容量n第二步:计算分配给第第二步:计算分配给第h层的样本比例层的样本比例ahah=nh/n0ah1且且第三步:计算第第三步:计算第h层的样本容量层的样本容量nh=nah第第73页页SSI给定变异系数给定变异系数C C下总样本容量下总样本容量n n的计算的计算Nh是第是第h层单位总数层单位总数Sh2是第是第h层单位层单位yi的真实方差的真实方差C是是Y的总体变异系数的总体变异系数Y是总体总值的真值是总体总值的真值ah是分配给第是分配给第h层的样本比例层的样本比例第第74页页SSI分配方法分配方法1.按比例分配按比例分配2.不按比例分配不按比例分配第第75页页SSI按比例分配按比例分配每一层的样本容量每一层的样本容量nh与该层的总体规模与该层的总体规模Nh的的比例相同,即各层的抽样比比例相同,即各层的抽样比fh=nh/Nh是相同的是相同的,并等于总的抽样比,并等于总的抽样比n/N。层的规模越大,分配的样本容量越就越多。层的规模越大,分配的样本容量越就越多。第第76页页SSI例例2方案方案1中,计算总样本容量中,计算总样本容量=768,按比例,按比例分配方法的各层样本容量确定如下:分配方法的各层样本容量确定如下:第一步:计算各层的分配因子第一步:计算各层的分配因子ah城市城市1城市城市2农村农村第第77页页SSI第二步:计算各层样本容量第二步:计算各层样本容量nh城市城市1城市城市2农村农村第第78页页SSIh层层规模(Nh)ahnhfh1城市1400,0000.60844670.00122城市2250,0000.38022920.00123农村地区7,5000.011490.0012合计657,50017680.0012各层抽样比相等,均为各层抽样比相等,均为0.0012,得到一个自加权的样本设计。,得到一个自加权的样本设计。第第79页页SSI不按比例分配不按比例分配采用不按比例分配方案时,各层之间的抽样比不相同。采用不按比例分配方案时,各层之间的抽样比不相同。Y-比例分配比例分配平方根平方根N-比例分配比例分配平方根平方根Y-比例分配比例分配最优分配最优分配内曼最优分配内曼最优分配层方差相等最优分配层方差相等最优分配第第80页页SSIY-Y-比例分配比例分配每层的分配因子每层的分配因子ah等于该层规模度量与总体等于该层规模度量与总体规模度量的比率。在总体估计值规模度量的比率。在总体估计值Y是规模度量时是规模度量时使用。使用。第第81页页SSI平方根平方根N-N-比例分配比例分配当考虑各层估计值需要较高精度时,将样本当考虑各层估计值需要较高精度时,将样本单位分配给各层,就能改善层估计值的精度。单位分配给各层,就能改善层估计值的精度。第第82页页SSI平方根平方根Y-Y-比例分配比例分配当考虑各层估计值和总体估计值均需要保持较当考虑各层估计值和总体估计值均需要保持较高精度时。在总体估计值高精度时。在总体估计值Y是规模度量时使用。是规模度量时使用。第第83页页SSI最优分配最优分配在将单位调查费用、估计值的精度和层规模在将单位调查费用、估计值的精度和层规模都作为分配因子的因素考虑时使用。都作为分配因子的因素考虑时使用。第第84页页SSI固定变异系数固定变异系数给定总体估计值的精度水平情况下,计算确定给定总体估计值的精度水平情况下,计算确定每一层所需样本容量,并是估计值的变异系数不超过每一层所需样本容量,并是估计值的变异系数不超过事先确定的事先确定的C值。值。第第85页页SSI费用、时间和现场操作的限制费用、时间和现场操作的限制 调调查查中中,最最终终确确定定的的样样本本容容量量必必须须与与可可获获得得的的经经费费预预算算和和允许的时限保持一致。允许的时限保持一致。对于许多调查,甚至在确定实施调查的细节之前,就已分对于许多调查,甚至在确定实施调查的细节之前,就已分配了经费、限定了最后的期限。实际中经常会出现这种情况,配了经费、限定了最后的期限。实际中经常会出现这种情况,即实施调查所需要的样本容量大于现有经费所能支撑的样本容即实施调查所需要的样本容量大于现有经费所能支撑的样本容量。对于这种情况,如果不能找到更多的经费,可能就得削减量。对于这种情况,如果不能找到更多的经费,可能就得削减样本容量,从而降低估计值的精度。样本容量,从而降低估计值的精度。对对于于时时间间因因素素,也也会会出出现现这这样样的的情情况况。如如果果允允许许的的时时间间不不充充裕,可能就需要限制样本的数量,以保证按时完成调查作业。裕,可能就需要限制样本的数量,以保证按时完成调查作业。第第86页页SSI费用、时间和现场操作的限制费用、时间和现场操作的限制 时间和费用之外,其它一些现场操作的因素如:时间和费用之外,其它一些现场操作的因素如:采用何种数据收集方法采用何种数据收集方法能否招聘到合适的现场调查人员能否招聘到合适的现场调查人员数据编码和录入人员数据编码和录入人员处理数据的设备是否足够处理数据的设备是否足够等等等等都会对样本容量的确定产生一定的影响。都会对样本容量的确定产生一定的影响。第第87页页SSI 最终样本容量的确定需要在精度、费用、时限最终样本容量的确定需要在精度、费用、时限和现场操作的可行性等相互冲突的限制条件之间进和现场操作的可行性等相互冲突的限制条件之间进行协调。它还可能需要重新审查初始样本容量、数行协调。它还可能需要重新审查初始样本容量、数据需求、精度水平、调查计划的要素和现场实施过据需求、精度水平、调查计划的要素和现场实施过程,并对它们作某些修改。通常,调查的目标是寻程,并对它们作某些修改。通常,调查的目标是寻求在一定费用的基础上实现效率例如,缩短调查时求在一定费用的基础上实现效率例如,缩短调查时限,以便能对所需的样本容量提供经费支持。限,以便能对所需的样本容量提供经费支持。 第第88页页SSI一次调查所需要的样本容量取决于调查估计值所一次调查所需要的样本容量取决于调查估计值所期望的精度,而精度又取决于下列因素:期望的精度,而精度又取决于下列因素:所研究总体特征的变异程度所研究总体特征的变异程度总体的大小总体的大小调查所采用的抽样方法的设计效果调查所采用的抽样方法的设计效果预期的调查回答率预期的调查回答率现场操作的考虑事项现场操作的考虑事项如如:整整个个调调查查的的经经费费预预算算,各各层层单单位位的的调调查查费费用用,允允许的时限,以及需要并可以招聘到的访员数量,等等。许的时限,以及需要并可以招聘到的访员数量,等等。小结小结
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号