资源预览内容
第1页 / 共95页
第2页 / 共95页
第3页 / 共95页
第4页 / 共95页
第5页 / 共95页
第6页 / 共95页
第7页 / 共95页
第8页 / 共95页
第9页 / 共95页
第10页 / 共95页
亲,该文档总共95页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第四节 区间估计的计算与原理区间估计及运算一、两种主要的估计方法一、两种主要的估计方法p点估计点估计是指根据抽取到的具体样本数据,是指根据抽取到的具体样本数据,代入估计量得到的一个估计值。代入估计量得到的一个估计值。p区间估计是在点估计的基础上估计出总体区间估计是在点估计的基础上估计出总体参数一个可能的范围,同时还给出总体参参数一个可能的范围,同时还给出总体参数以多大的概率落在这个范围之内。数以多大的概率落在这个范围之内。区间估计及运算二、为什么要区间估计呢?二、为什么要区间估计呢?在上述警察逮捕人数的例子中,你计算得出在上述警察逮捕人数的例子中,你计算得出均值为均值为15.6人,你的上司可能会问,这一均人,你的上司可能会问,这一均值的确是值的确是15.6吗?吗?你的回答将是不知道。但是,你的计算告诉你的回答将是不知道。但是,你的计算告诉你,这一均值的最优估计值是你,这一均值的最优估计值是15.6。你的上司可能又会问了,你的上司可能又会问了,15.6这一估计值到这一估计值到底有多好?底有多好? 也就是说,这一均值估计量包也就是说,这一均值估计量包含多大的误差?含多大的误差?区间估计及运算回答上述问题的一个办法是抽取很多的样本,回答上述问题的一个办法是抽取很多的样本,计算每一个样本的均值,然后向上司展示计算每一个样本的均值,然后向上司展示均值估计量的变化范围。不过,这种办法均值估计量的变化范围。不过,这种办法显得有些笨。显得有些笨。如果你想把这一问题处理得更加高明些,你如果你想把这一问题处理得更加高明些,你就应该计算所有样本均值的平均误差。均就应该计算所有样本均值的平均误差。均值的标准差有一个专门的名称:均值标准值的标准差有一个专门的名称:均值标准误差。误差。区间估计及运算关于区间估计关于区间估计设设 为总体为总体x 的未知参数,的未知参数, 为来自为来自总体的容量为总体的容量为n的简单随机样本,对于预先的简单随机样本,对于预先给定的一个充分小的正数给定的一个充分小的正数 ,我们,我们构造两个统计量:构造两个统计量:区间估计及运算使得使得则称区间则称区间 为总体参数为总体参数 的区间估的区间估计或置信区间。计或置信区间。 称为置信区间的置称为置信区间的置信度,也称置信概率、置信系数或置信水平,信度,也称置信概率、置信系数或置信水平, 称为置信下限,称为置信下限, 称为置信上限。称为置信上限。区间估计及运算三、置信区间的含义三、置信区间的含义若独立地反复多次抽取容量相同的简单随机样本,每一个样若独立地反复多次抽取容量相同的简单随机样本,每一个样本都确定一个随机区间本都确定一个随机区间 ,在这些区间中,包含,在这些区间中,包含总体参数总体参数 真值的约占真值的约占 ,或者说有,或者说有 的随机区间的随机区间 会包含总体参数会包含总体参数 的真值。的真值。例如,若例如,若 ,独立地反复抽取容量相同的简单随机,独立地反复抽取容量相同的简单随机样本样本10001000次,在得到的次,在得到的10001000个随机区间中,不包含总体参个随机区间中,不包含总体参数数 真值的大约有真值的大约有5050个。个。区间估计及运算四、简单随机抽样和等距抽样的参数估计四、简单随机抽样和等距抽样的参数估计(一)总体均值的置信区间和参数估计(一)总体均值的置信区间和参数估计总体均值的区间估计根据已知条件不同,有总体均值的区间估计根据已知条件不同,有不同的计算方法。不同的计算方法。1.1.从正态总体中抽取样本,且总体方差已知,从正态总体中抽取样本,且总体方差已知,均值均值的区间估计的区间估计 区间估计及运算1.1.从正态总体中抽取样本,且总体方差已知,从正态总体中抽取样本,且总体方差已知,均值均值的区间估计的区间估计 (1)重复抽样的条件下设 , 已知, 为来自总体的容量为n的简单随机样本,则 的抽样分布为区间估计及运算在重复抽样的方式下,总体均值在重复抽样的方式下,总体均值的置信的置信度为度为1-1-的置信区间为的置信区间为其中,其中, 是标准正态分布是标准正态分布水平的双侧分位数。水平的双侧分位数。区间估计及运算区间估计及运算例一:例一: 假设参加某种寿险投保人的年龄服从正假设参加某种寿险投保人的年龄服从正态分布,标准差为态分布,标准差为=7.77=7.77岁。从中抽取岁。从中抽取3636人组成一个简单随机样本(重复抽样),人组成一个简单随机样本(重复抽样),其平均年龄为其平均年龄为39.539.5岁,试建立投保人平均岁,试建立投保人平均年龄年龄的的90 %90 %的置信区间。的置信区间。区间估计及运算解解 假设用随机变量假设用随机变量X X表示某种寿险投保人的表示某种寿险投保人的年龄,则由已知条件有年龄,则由已知条件有 , ,n=36n=36。与置信度。与置信度90%90%相对应的相对应的=0.10=0.10,查表,得到查表,得到 区间估计及运算由公式,由公式,得,总体均值得,总体均值的置信度为的置信度为90%90%的置信区间为的置信区间为 于是可以说,我们有于是可以说,我们有90%90%的把握确信,寿险的把握确信,寿险投保人总体的平均年龄介于投保人总体的平均年龄介于37.3737.37到到 41.63 41.63岁之间。岁之间。区间估计及运算1.1.从正态总体中抽取样本,且总体方差已知,从正态总体中抽取样本,且总体方差已知,均值均值的区间估计的区间估计 (2)在不重复抽样的条件下,置信区间为区间估计及运算例例2 2 一家食品公司,每天大约生产袋装食品一家食品公司,每天大约生产袋装食品若干,总体方差为若干,总体方差为100100。为对产品质量进行。为对产品质量进行检测,该企业质检部门采用抽样技术,每检测,该企业质检部门采用抽样技术,每天抽取一定数量的食品,以分析每袋重量天抽取一定数量的食品,以分析每袋重量是否符合质量要求。现从某一天生产的一是否符合质量要求。现从某一天生产的一批食品批食品80008000袋中随机抽取了袋中随机抽取了2525袋(不重复袋(不重复抽样),测得它们的重量如下表所示:抽样),测得它们的重量如下表所示:区间估计及运算已知产品重量服从正态分布,且总体方差为已知产品重量服从正态分布,且总体方差为100100。试估计该批产品平均重量的置信区间,置信水试估计该批产品平均重量的置信区间,置信水平为平为9595。区间估计及运算解解 已知已知=10=10;n=25;1-=59%; =1.96n=25;1-=59%; =1.96根据样本资料,计算的样本均值为:根据样本资料,计算的样本均值为:根据公式得根据公式得 =105.361.96 =105.361.96 区间估计及运算即即105.363.914115=(101.4459, 105.363.914115=(101.4459, 109.2741)109.2741),该批产品平均重量在,该批产品平均重量在9595置信水平下的置信区间为:置信水平下的置信区间为:101.4459101.4459109.2741109.2741。区间估计及运算2. . 正态总体,大样本,若总体方差正态总体,大样本,若总体方差 未知,可用样本标准差未知,可用样本标准差S S代替。代替。能够把公式写出来吗?能够把公式写出来吗?重复抽样:?重复抽样:?不重复抽样:不重复抽样: ?区间估计及运算例三:例三: 假设参加某种寿险投保人的年龄服从正假设参加某种寿险投保人的年龄服从正态分布。从中抽取态分布。从中抽取3636人组成一个简单随机人组成一个简单随机样本(重复抽样,年龄数据见下页表),样本(重复抽样,年龄数据见下页表),试建立投保人平均年龄试建立投保人平均年龄的的90 %90 %的置信区的置信区间。间。区间估计及运算区间估计及运算解:已知解:已知n=36n=36, 1-=90%=90%; 1.6451.645,由,由于总体方差未知,但为大样本,故可用样于总体方差未知,但为大样本,故可用样本方差代替。本方差代替。 根据样本资料计算的样本均值和样本根据样本资料计算的样本均值和样本标准差为:标准差为:区间估计及运算则置信区间为:则置信区间为:即即39.52.13=(37.3739.52.13=(37.37,41.63)41.63),投保人平均,投保人平均年龄在年龄在9090的置信水平下的置信区间为的置信水平下的置信区间为37.3737.37岁岁41.6341.63岁。岁。区间估计及运算3.3.正态总体、小样本情况下,总体方差未知,正态总体、小样本情况下,总体方差未知,总体均值的估计总体均值的估计 (重复抽样条件下)(重复抽样条件下) (不重复抽样条件下)(不重复抽样条件下)区间估计及运算 如果总体服从正态分布如果总体服从正态分布, , 只要总体方差只要总体方差已知,即使在小样本情况下,也可以计算总已知,即使在小样本情况下,也可以计算总体均值的置信区间。如果总体方差未知,需体均值的置信区间。如果总体方差未知,需用样本方差代替,在小样本情况下,应用用样本方差代替,在小样本情况下,应用t t分布来建立总体均值的置信区间。分布来建立总体均值的置信区间。 t t分布是类似正态分布的一种对称分布,分布是类似正态分布的一种对称分布,通常要比正态分布平坦和分散。随着自由度通常要比正态分布平坦和分散。随着自由度的增大,的增大,t t分布逐渐趋于正态分布。分布逐渐趋于正态分布。区间估计及运算4 4.非正态总体且大样本时,均值非正态总体且大样本时,均值的区间估计的区间估计 首先,当总体为非正态分布时,只要样本容首先,当总体为非正态分布时,只要样本容量充分大(一般习惯上要求量充分大(一般习惯上要求n=30n=30),), 的抽样分布近似服从正态分布。的抽样分布近似服从正态分布。当当 已知时,仍可用上述公式,根据重复抽样已知时,仍可用上述公式,根据重复抽样与否,近似求出总体均值与否,近似求出总体均值的置信区间;的置信区间;区间估计及运算其次,当其次,当未知时,只要将上述公式中的总未知时,只要将上述公式中的总体标准差体标准差用样本标准差用样本标准差S S代替,就可近似代替,就可近似得到总体均值得到总体均值的置信区间:的置信区间: (重复抽样条件下)(重复抽样条件下) (不重复抽样条件下)(不重复抽样条件下)区间估计及运算例例 为了解居民用于服装消费的支出情况为了解居民用于服装消费的支出情况(非正态分布),随机抽取(非正态分布),随机抽取9090户居民组成户居民组成一个简单随机样本(重复抽样),计算得一个简单随机样本(重复抽样),计算得样本均值为样本均值为810810元,样本标准差为元,样本标准差为8585元,试元,试建立该地区每户居民平均用于服装消费支建立该地区每户居民平均用于服装消费支出的出的95%95%的置信区间。的置信区间。区间估计及运算 解解 假设用随机变量假设用随机变量X X表示居民的服装消费支表示居民的服装消费支出,本题虽然总体分布未知,但由于出,本题虽然总体分布未知,但由于n=90n=90,是大样本且,是大样本且未知,所以可利用公式近未知,所以可利用公式近似得到总体均值似得到总体均值的置信区间。根据题意,的置信区间。根据题意, 元,元, 元,元,n=90n=90,与置信度,与置信度95%95%相对应相对应的的=0.05=0.05,查表得到:,查表得到:区间估计及运算 将这些数据代入公式,便可得到总体将这些数据代入公式,便可得到总体均值均值的置信度为的置信度为95%95%的置信区间为的置信区间为于是,我们有于是,我们有95%95%的把握认为,该地区每户居的把握认为,该地区每户居民平均用于服装消费的支出大约介于民平均用于服装消费的支出大约介于792.44792.44元到元到827.56827.56元之间。元之间。区间估计及运算总体总体分布分布样本容量已知重复抽样已知不重复抽样正态分布小样本(=30)非正态分布小样本(=30) 总体均值总体均值的区间估计(置信度为的区间估计(置信度为1-1-) 简单随机抽样和等距抽样简单随机抽样和等距抽样 区间估计及运算 总体均值总体均值的区间估计(置信度为的区间估计(置信度为1-1-) 简单随机抽样和等距抽样简单随机抽样和等距抽样 总体总体分布分布样本容量未知重复抽样未知不重复抽样正态分布小样本(=30)非正态分布小样本(=30)区间估计及运算四、简单随机抽样和等距抽样的参数估计四、简单随机抽样和等距抽样的参数估计(二)两个总体均值之差的区间估计间(二)两个总体均值之差的区间估计间1 1两正态总体方差已知时,且大样本,两正态总体方差已知时,且大样本, 的区间估计的区间估计因此,两个总体均值差因此,两个总体均值差 的置信度为的置信度为1-1-的置信区间为:的置信区间为:区间估计及运算 如果两个总体方差如果两个总体方差 , 未知,则可利用未知,则可利用 , 代替两个总体方差即可。代替两个总体方差即可。下述公式可近似求出两个总体均值差下述公式可近似求出两个总体均值差 的置信度为的置信度为1-1-的置信区间。的置信区间。区间估计及运算四、简单随机抽样和等距抽样的参数估计四、简单随机抽样和等距抽样的参数估计(二)两个总体均值之差的区间估计间(二)两个总体均值之差的区间估计间2 2两正态总体方差未知但相等时,两正态总体方差未知但相等时, 的的区间估计(小样本)区间估计(小样本) 区间估计及运算当两个正态总体方差未知但相等,即当两个正态总体方差未知但相等,即 ,且,且 未知时,未知时,这时两个样本均值之差(这时两个样本均值之差( )的抽样)的抽样分布为分布为区间估计及运算所以因为 未知,则用共同方差 的合并估计量区间估计及运算两个总体均值差两个总体均值差 的置信度为的置信度为1-1-的的置信区间为置信区间为其中,其中, 是是水平的自由度为水平的自由度为 的的t t分布双侧分位数。分布双侧分位数。区间估计及运算例题:某公司为了解男女推销员的推销能力是否某公司为了解男女推销员的推销能力是否有差别,随机抽取有差别,随机抽取1616名男推销员和名男推销员和2525名女名女推销员进行测试。男推销员的平均销售额推销员进行测试。男推销员的平均销售额为为3025030250元,标准差为元,标准差为1840018400元,女推销员元,女推销员的平均销售额为的平均销售额为3375033750元,标准差为元,标准差为1350013500元。假设男女推销员的销售额服从正态分元。假设男女推销员的销售额服从正态分布,且方差相等。试建立男女推销员销售布,且方差相等。试建立男女推销员销售额之差的额之差的95%95%的置信区间。的置信区间。 区间估计及运算 解解 假设用随机变量 , 分别表示男女推销员的销售额,则由已知条件有 元, 元, 元, 元, , 。又因两总体方差相等,可以估计出它们的共同方差: 区间估计及运算与置信度与置信度95%95%相对应的相对应的=0.05=0.05,查,查t t 分布分布表,得到表,得到 ,由公式得,由公式得男女推销员销售额之差的置信度为男女推销员销售额之差的置信度为95%95%的置的置信区间为信区间为区间估计及运算于是,我们有于是,我们有95%95%的把握认为:男推销员的把握认为:男推销员的销售额既有可能比女推销员多的销售额既有可能比女推销员多65686568元,元,也有可能比女推销员少也有可能比女推销员少1356813568元,所以男女元,所以男女推销员的推销能力没有显著差别。推销员的推销能力没有显著差别。 区间估计及运算四、简单随机抽样和等距抽样的参数估计四、简单随机抽样和等距抽样的参数估计(二)两个总体均值之差的区间估计间(二)两个总体均值之差的区间估计间3 3两正态总体方差未知但不等时两正态总体方差未知但不等时, , 的的区间估计(小样本)区间估计(小样本) 区间估计及运算 当两正态总体方差未知但不等时,即当两正态总体方差未知但不等时,即 , 未知,且两者不相等时,统计量未知,且两者不相等时,统计量近似服从于自由度为近似服从于自由度为v v的的t t分布,其中分布,其中v v的计算公式如下的计算公式如下 区间估计及运算区间估计及运算于是,两个总体均值差 的置信度为1-的置信区间为区间估计及运算例题:某公司为了解男女推销员的推销能力是否某公司为了解男女推销员的推销能力是否有差别,随机抽取有差别,随机抽取1616名男推销员和名男推销员和2525名女名女推销员进行测试。男推销员的平均销售额推销员进行测试。男推销员的平均销售额为为3025030250元,标准差为元,标准差为1840018400元,女推销员元,女推销员的平均销售额为的平均销售额为3375033750元,标准差为元,标准差为1350013500元。假设男女推销员的销售额服从正态分元。假设男女推销员的销售额服从正态分布,且方差不相等。试建立男女推销员销布,且方差不相等。试建立男女推销员销售额之差的售额之差的95%95%的置信区间。的置信区间。 区间估计及运算解解 首先根据公式计算自由度首先根据公式计算自由度v v, 区间估计及运算查查t t分布表,得到分布表,得到 ,由公式,由公式得男女推销员销售额之差的置信度为得男女推销员销售额之差的置信度为95%95%的的置信区间为置信区间为区间估计及运算于是,我们有于是,我们有95%95%的把握认为:男推销员的的把握认为:男推销员的销售额既有可能比女推销员多销售额既有可能比女推销员多74347434元,也元,也有可能比女推销员少有可能比女推销员少1443414434元,所以男女推元,所以男女推销员的推销能力没有显著差别。销员的推销能力没有显著差别。 区间估计及运算四四、简单随机抽样和等距抽样的参数估、简单随机抽样和等距抽样的参数估计计(二)两个总体均值之差的区间估计间(二)两个总体均值之差的区间估计间4 4两非正态总体且大样本时,两非正态总体且大样本时, 的区间的区间估计估计 区间估计及运算 如果两个总体方差如果两个总体方差 , 已知,则可利用已知,则可利用公式下述公式近似求出两个总体均值差公式下述公式近似求出两个总体均值差 的置信度为的置信度为1-1-的置信区间。的置信区间。区间估计及运算 如果两个总体方差如果两个总体方差 , 未知,则可利用未知,则可利用 , 代替两个总体方差即可。代替两个总体方差即可。下述公式可近似求出两个总体均值差下述公式可近似求出两个总体均值差 的置信度为的置信度为1-1-的置信区间。的置信区间。区间估计及运算四、简单随机抽样和等距抽样的参数估计四、简单随机抽样和等距抽样的参数估计(三)一个总体比例的区间估计(三)一个总体比例的区间估计区间估计及运算在许多实际应用中,经常会遇到总体比例的在许多实际应用中,经常会遇到总体比例的估计问题。例如:企业的管理人员想了解估计问题。例如:企业的管理人员想了解一批产品中次品的比例;职工收入中工资一批产品中次品的比例;职工收入中工资外收入所占的比例;某高校学生参加英语外收入所占的比例;某高校学生参加英语四级考试的通过率;某地区绿化荒山新栽四级考试的通过率;某地区绿化荒山新栽树木的成活率等。树木的成活率等。 区间估计及运算在总体中具有某种特征的单位数占总体全在总体中具有某种特征的单位数占总体全部单位的比例称为总体比例,记为部单位的比例称为总体比例,记为p p;在样;在样本中具有某种特征的单位数占样本全部单本中具有某种特征的单位数占样本全部单位的比例称为样本比例,记为位的比例称为样本比例,记为 。在大样。在大样本条件下,样本比例本条件下,样本比例 的抽样分布近似服的抽样分布近似服从正态分布,其数学期望为从正态分布,其数学期望为 区间估计及运算方差为方差为 即即区间估计及运算1.1.在大样本情况下,且总体比例已知,重复在大样本情况下,且总体比例已知,重复抽样。则总体比例抽样。则总体比例P P的置信度为的置信度为1-1-的置信的置信区间为区间为区间估计及运算 需要说明:在实际应用中,除了要求需要说明:在实际应用中,除了要求N=30N=30以外,还要求以外,还要求 和和 ,且且 ,这时近似效果较好。,这时近似效果较好。区间估计及运算2.2.在大样本情况下,且总体比例未知,重复在大样本情况下,且总体比例未知,重复抽样。则总体比例抽样。则总体比例P P的置信度为的置信度为1-1-的置信的置信区间为区间为区间估计及运算例题:在对某地区在对某地区10001000名下岗工人的调查中发现,名下岗工人的调查中发现,女工所占的比例为女工所占的比例为65%65%。试建立在下岗工人。试建立在下岗工人中,女工所占比例的中,女工所占比例的95%95%的置信区间。能否的置信区间。能否作出下岗工人中女性所占比例超过男性的作出下岗工人中女性所占比例超过男性的结论?结论?区间估计及运算 解解 假设用假设用p p表示下岗工人中女工所占的比表示下岗工人中女工所占的比例,则由已知条件可知,样本比例例,则由已知条件可知,样本比例 。因为。因为 , , ,所以,所以 的抽的抽样分布近似服从正态分布。样分布近似服从正态分布。 区间估计及运算对于对于=0.05=0.05,查表得,查表得 。应用公式得到在下岗工人中,女工所占比应用公式得到在下岗工人中,女工所占比例的置信度为例的置信度为95%95%的置信区间为的置信区间为区间估计及运算 于是,我们有于是,我们有95%95%的把握认为,下岗工人的把握认为,下岗工人中女工所占比例大约在中女工所占比例大约在0.620.62到到0.680.68之间,之间,超过了超过了0.50.5,所以可以得出女性所占比例超,所以可以得出女性所占比例超过男性的结论。过男性的结论。区间估计及运算3. 如果总体为有限总体,采用不重复抽样,如果总体为有限总体,采用不重复抽样,且抽样比且抽样比 时,时, 的抽样分布的方差的抽样分布的方差要用修正系数要用修正系数 加以修正,这时总体比例加以修正,这时总体比例p(未知时未知时)的置信度的置信度为为1-的置信区间为的置信区间为 区间估计及运算例例 某地区有某地区有2020所高等院校,有副教授以上所高等院校,有副教授以上职称的教师职称的教师78007800名。高校的管理部门想了名。高校的管理部门想了解具有高级职称的教师中有基础研究课题解具有高级职称的教师中有基础研究课题的教师占多大的比例,于是抽取的教师占多大的比例,于是抽取400400人组成人组成一个随机样本(不重复抽样)。经调查,一个随机样本(不重复抽样)。经调查,其中其中8080人有基础研究课题。试建立在具有人有基础研究课题。试建立在具有副教授以上职称的教师中,有基础研究课副教授以上职称的教师中,有基础研究课题的教师所占比例的题的教师所占比例的95%95%的置信区间。的置信区间。 区间估计及运算解解 假设用假设用p p表示在具有副教授以上职称的表示在具有副教授以上职称的教师中,有基础研究课题的教师所占的比教师中,有基础研究课题的教师所占的比例,则由已知条件可知例,则由已知条件可知N=7800,n=400,N=7800,n=400,样本比例样本比例 =80/400=0.2 =80/400=0.2 ,=0.05,=0.05, 。因为因为 ,所以,所以 的抽样分布近似服从正态分布。的抽样分布近似服从正态分布。 区间估计及运算所以所以 的抽样分布近似服从正态分布。又因的抽样分布近似服从正态分布。又因为抽样比大于为抽样比大于5%5%,所以要对,所以要对 的抽样分布的抽样分布的方差加以修正。应用公式得到在具有副的方差加以修正。应用公式得到在具有副教授以上职称的教师中,有基础研究课题教授以上职称的教师中,有基础研究课题的教师所占比例的的教师所占比例的95%95%的置信区间为的置信区间为 区间估计及运算于是我们有于是我们有95%95%的把握认为,该地区的把握认为,该地区2020所高所高校具有副教授以上职称的教师中,有(校具有副教授以上职称的教师中,有( ) 到(到( )的教师有基础研究课题。)的教师有基础研究课题。区间估计及运算四、简单随机抽样和等距抽样的参数估计四、简单随机抽样和等距抽样的参数估计(四)一个正态总体方差的区间估计(四)一个正态总体方差的区间估计 为来自总体的容量为为来自总体的容量为n n的简的简单随机样本,单随机样本,未知,未知,s s为样本标准差。为样本标准差。 区间估计及运算 总体标准差总体标准差的置信度为的置信度为1-1-的置的置信区间为信区间为区间估计及运算因此,总体方差因此,总体方差 的置信度为的置信度为1-1-的置的置信区间为信区间为区间估计及运算例例 假设公司预计的每股收益率服从假设公司预计的每股收益率服从正态分布,现有正态分布,现有8 8个公司组成一个简单随个公司组成一个简单随机样本,样本方差为机样本,样本方差为2.6192.619,试建立总体,试建立总体方差、总体标准差的方差、总体标准差的95 %95 %的置信区间。的置信区间。区间估计及运算区间估计及运算区间估计及运算五五、分层抽样和整群抽样的参数估计、分层抽样和整群抽样的参数估计严格地讲,分层抽样与整群抽样的参数严格地讲,分层抽样与整群抽样的参数估计与简单随机抽样没有本质区别。只估计与简单随机抽样没有本质区别。只不过在计算方差时存在着不同。不过在计算方差时存在着不同。 区间估计及运算第五节 样本容量的确定 我们应该一直有这样的疑问:我们学习我们应该一直有这样的疑问:我们学习了问卷的设计、调查方法的选择、数据的了问卷的设计、调查方法的选择、数据的描述、数据的整理以及参数估计的有关问描述、数据的整理以及参数估计的有关问题。但是,如何进行调查呢?或者说选择题。但是,如何进行调查呢?或者说选择多少样本呢?或者说需要选择多少个被调多少样本呢?或者说需要选择多少个被调查者呢?查者呢?区间估计及运算第五节 样本容量的确定这就涉及到我们今天要学的内容:这就涉及到我们今天要学的内容:样本容量的确定。样本容量的确定。区间估计及运算第五节 样本容量的确定这就涉及到我们今天要学的内容:这就涉及到我们今天要学的内容:样本容量的确定。样本容量的确定。区间估计及运算一、影响样本容量的因素一、影响样本容量的因素(一)置信度,也即总体参数真值落在置(一)置信度,也即总体参数真值落在置信区间内的可靠程度。要求较高的置信度,信区间内的可靠程度。要求较高的置信度,就需要较大的样本容量,置信度越高,样就需要较大的样本容量,置信度越高,样本容量就越大。本容量就越大。区间估计及运算一、影响样本容量的因素一、影响样本容量的因素(二)估计的精度,也即置信区间的宽度。(二)估计的精度,也即置信区间的宽度。要求较高的置信度,就会扩大置信区间的要求较高的置信度,就会扩大置信区间的宽度,也就是说降低了估计的精度。因此,宽度,也就是说降低了估计的精度。因此,要想既提高估计的精度,又不降低估计的要想既提高估计的精度,又不降低估计的可靠性程度,必须增加样本容量。可靠性程度,必须增加样本容量。区间估计及运算一、影响样本容量的因素一、影响样本容量的因素(三)建立置信区间的费用。虽然增加样(三)建立置信区间的费用。虽然增加样本容量可以提高置信区间的可靠性程度和本容量可以提高置信区间的可靠性程度和估计的精度,但也不是样本容量愈大愈好。估计的精度,但也不是样本容量愈大愈好。因为增加样本容量,就会延长调查时间,因为增加样本容量,就会延长调查时间,增大工作量和成本费用,同时还可能增大增大工作量和成本费用,同时还可能增大调查误差。调查误差。区间估计及运算二、估计总体均值时,样本容量的确定二、估计总体均值时,样本容量的确定 对于正态总体,在重复抽样或抽样比对于正态总体,在重复抽样或抽样比n/N5%n/N5%时,总体均值时,总体均值的置信度为的置信度为1-1-的的置信区间为置信区间为区间估计及运算二、估计总体均值时,样本容量的确定二、估计总体均值时,样本容量的确定记记 ,称为允许误差,它表示总体,称为允许误差,它表示总体均值均值与样本均值与样本均值 的绝对误差不超过的绝对误差不超过。于是,可以推出样本容量的计算公式为于是,可以推出样本容量的计算公式为区间估计及运算1 1样本容量样本容量n n与置信度所对应的标准正态与置信度所对应的标准正态分布的双侧分位数分布的双侧分位数 的平方成正比。置的平方成正比。置信度愈高,要求样本容量就愈大。信度愈高,要求样本容量就愈大。2 2样本容量样本容量n n与总体方差与总体方差 成正比。总体成正比。总体方差愈大,要求样本容量就愈大。方差愈大,要求样本容量就愈大。3 3样本容量样本容量n n与允许误差成反比。增大允与允许误差成反比。增大允许误差,也就是扩大置信区间的宽度,降许误差,也就是扩大置信区间的宽度,降低估计的精度,可以减少样本容量。低估计的精度,可以减少样本容量。区间估计及运算 例例 流水线上的装配工人安装一个零件流水线上的装配工人安装一个零件平均所需时间为平均所需时间为1515分钟,标准差为分钟,标准差为3 3分钟。分钟。如果要求置信度为如果要求置信度为99%99%,估计的误差不超过,估计的误差不超过2020秒钟,应抽取多少工人作样本。秒钟,应抽取多少工人作样本。区间估计及运算 解解 根据题意,允许误差根据题意,允许误差 分,分,标准差标准差=3=3分,分,=0.01=0.01, ,由,由公式得公式得 (人),(人),即应抽取即应抽取540540名工人作为样本。名工人作为样本。区间估计及运算如果是有限总体不重复抽样,这时允许误如果是有限总体不重复抽样,这时允许误差为差为 ,于是样本容量的计,于是样本容量的计算公式为算公式为区间估计及运算例例 流水线上的装配工人流水线上的装配工人( (该厂共有该厂共有800800明工人明工人) )安装一个零件平均所需时间为安装一个零件平均所需时间为1515分分钟,标准差为钟,标准差为3 3分钟。如果要求置信度为分钟。如果要求置信度为99%99%,估计的误差不超过,估计的误差不超过2020秒钟,应抽取秒钟,应抽取(不重复抽样)多少工人作样本。(不重复抽样)多少工人作样本。区间估计及运算即应抽取即应抽取323323名工人作为样本。计算结果表名工人作为样本。计算结果表明,不重复抽样条件下的样本容量要小于明,不重复抽样条件下的样本容量要小于重复抽样条件下的样本容量,也就是说,重复抽样条件下的样本容量,也就是说,不重复抽样的成本低、效率高。不重复抽样的成本低、效率高。区间估计及运算三、估计总体比例时样本容量的确定三、估计总体比例时样本容量的确定对于正态总体,在重复抽样或抽样比对于正态总体,在重复抽样或抽样比n/N5%n/N5%时,时,区间估计及运算例例 根据历史资料,天津市的人口出生根据历史资料,天津市的人口出生率大约为率大约为1010,如果要求相对误差不超过,如果要求相对误差不超过10%10%,置信度为,置信度为95%95%,应抽取多少人作样本。,应抽取多少人作样本。区间估计及运算 解解 根据题意,总体比例为根据题意,总体比例为p=0.01p=0.01,相对误,相对误差为差为10%10%,所以允许误差为,所以允许误差为=1010=1010=1=0.001 =1=0.001 ,=0.05 =0.05 , ,代,代入公式入公式 ,得,得区间估计及运算如果是有限总体不重复抽样,这时允许误如果是有限总体不重复抽样,这时允许误差为差为 于是样本容量的计算公式为于是样本容量的计算公式为区间估计及运算
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号