资源预览内容
第1页 / 共45页
第2页 / 共45页
第3页 / 共45页
第4页 / 共45页
第5页 / 共45页
第6页 / 共45页
第7页 / 共45页
第8页 / 共45页
第9页 / 共45页
第10页 / 共45页
亲,该文档总共45页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
卫生统计学卫生统计学(第五版)(第五版)流行病学与卫生统计学教研室流行病学与卫生统计学教研室第五章第五章 参数估计基础参数估计基础第一节第一节 抽样分布与抽样误差抽样分布与抽样误差第二节第二节 t t分布分布第三节第三节 总体均数及总体概率的估计总体均数及总体概率的估计 抽样研究的目的就是要用样本信息来推断相应总体的特抽样研究的目的就是要用样本信息来推断相应总体的特征,这一过程称为征,这一过程称为统计推断统计推断。 统计推断包括两方面:统计推断包括两方面:参数估计参数估计和和假设检验假设检验 抽样误差:由于生物固有的个体变异的存在,抽样误差:由于生物固有的个体变异的存在,从从某某一一总总体体中中随随机机抽抽取取一一个个样样本本,所所得得样本统计量与相应的总体参数样本统计量与相应的总体参数往往是不同的,这种差异称为抽样误差往往是不同的,这种差异称为抽样误差 无倾向性,不可避免。无倾向性,不可避免。一、样本均数的抽样误差与抽样分布一、样本均数的抽样误差与抽样分布二二 、样本频率的抽样误差与抽样分布、样本频率的抽样误差与抽样分布(一)均数的抽样误差:(一)均数的抽样误差: 由个体变异产生的、由于抽样而造成的样本均数由个体变异产生的、由于抽样而造成的样本均数与样本均数及样本均数与总体均数之间的差异称为均与样本均数及样本均数与总体均数之间的差异称为均数的抽样误差。数的抽样误差。 表示均数抽样误差大小的指标称均数的标准表示均数抽样误差大小的指标称均数的标准误误,简称标准误。也就是样本均数的标准差。简称标准误。也就是样本均数的标准差。标准误的意义:标准误的意义:1、标准差的特点均存在,只是表示均数的标准差。、标准差的特点均存在,只是表示均数的标准差。2、表示抽样误差大小。、表示抽样误差大小。(二)均数的抽样分布(二)均数的抽样分布 从总体中随机抽取若干样本,计算出样本均数(标准差)从总体中随机抽取若干样本,计算出样本均数(标准差),这些样本均数的分布即为均数的抽样分布。是抽样分布的,这些样本均数的分布即为均数的抽样分布。是抽样分布的一种。一种。 均数的抽样分布有一定的规律。均数的抽样分布有一定的规律。 p69:表表5-1 抽样实验:假定从抽样实验:假定从1313岁女学生身高总体均数岁女学生身高总体均数 ,总体标准差总体标准差 的正态总体中进行随机抽样。的正态总体中进行随机抽样。样本均数的分布特点:样本均数的分布特点: 1.1.各样本均数未必等于总体均数;各样本均数未必等于总体均数; 2.2.样本均数之间存在差异;样本均数之间存在差异; 3.3.样本均数的分布很有规律,围绕着总体均数,样本均数的分布很有规律,围绕着总体均数,中间多,两边少,左右基本对称,也服从正态分布。中间多,两边少,左右基本对称,也服从正态分布。数理统计推理和中心极限定理表明:数理统计推理和中心极限定理表明: 1)从正态总体)从正态总体N(,2)中,随机抽取例数为中,随机抽取例数为n的多个样本,的多个样本,样本均数服从正态分布;即使是从偏态总体中随机抽样,当样本均数服从正态分布;即使是从偏态总体中随机抽样,当n足足够大时够大时(如如n50), 也近似正态分布。也近似正态分布。 2)从均数为)从均数为,标准差为,标准差为的正态或偏态总体中抽取例数为的正态或偏态总体中抽取例数为n的样本,样本均数的标准差即标准误为的样本,样本均数的标准差即标准误为:用用 来表示均数抽来表示均数抽样误差的大小。差的大小。(标准误的理论值)(标准误的理论值)(标准误的估计值)(标准误的估计值)标准误的大小与标准误的大小与的大小成正比,与的大小成正比,与n n成反比,而成反比,而为定值,为定值,说明可以通过增加样本例数来减少标准误,以降低抽样误差。说明可以通过增加样本例数来减少标准误,以降低抽样误差。未知,用样本标准差未知,用样本标准差S S来估计总体标准差来估计总体标准差。 例例5-1 20005-1 2000年某研究所随机调查某地健康成年男子年某研究所随机调查某地健康成年男子2727人,得到血红蛋白的均数为人,得到血红蛋白的均数为125g/L125g/L,标准差为标准差为15g/L 15g/L 。试估计试估计该样本均数的抽样误差。该样本均数的抽样误差。均数的抽样分布:均数的抽样分布:1.样本均数服从正态分布:样本均数服从正态分布:2.样本均数服从标准正态分布:样本均数服从标准正态分布:(n较大)较大)3.样本均数服从样本均数服从t分布:详见后分布:详见后(n较小)较小)一、样本均数的抽样误差与抽样分布一、样本均数的抽样误差与抽样分布二二 、样本频率的抽样误差与抽样分布、样本频率的抽样误差与抽样分布(一)(一)样本频率样本频率的抽样误差:的抽样误差: 从同一总体中随机抽出观察单位相等的多个样本,样从同一总体中随机抽出观察单位相等的多个样本,样本率与总体率及各样本率之间都存在差异,这种差异是由本率与总体率及各样本率之间都存在差异,这种差异是由于抽样引起的,称为频率的于抽样引起的,称为频率的抽样误差抽样误差抽样误差抽样误差。 表示频率的抽样误差大小的指标叫表示频率的抽样误差大小的指标叫频率的标准误。频率的标准误。频率的标准误。频率的标准误。用用用用 表示。表示。表示。表示。 :总体率,:总体率,n:样本例数。:样本例数。 当当未知时,未知时,p (为样本含量足够大,且为样本含量足够大,且p和和1-p不太小)不太小) 公式为公式为: :率的标准误的估计值,:率的标准误的估计值,p:样本率。样本率。 例例5-2 某市随机调查了某市随机调查了50岁以上的中老年妇女岁以上的中老年妇女776人,其中患有骨质疏松症者人,其中患有骨质疏松症者322人,患病率为人,患病率为41.5%,试,试计算该样本频率的抽样误差。计算该样本频率的抽样误差。(二)频率的抽样分布(二)频率的抽样分布 从总体中随机抽取若干样本,计算出样本频率,这些从总体中随机抽取若干样本,计算出样本频率,这些频率的分布即为频率的抽样分布。也是抽样分布的一种。频率的分布即为频率的抽样分布。也是抽样分布的一种。 频率的抽样分布也有一定的规律。频率的抽样分布也有一定的规律。 p72:表表5-3 频率的抽样分布:频率的抽样分布: 1.样本频率服从正态分布:样本频率服从正态分布:n, n(1-)5时时2.样本频率服从二项分布:样本频率服从二项分布:n不太大,不太大,不接近不接近0或或1。3.样本频率服从泊松分布:样本频率服从泊松分布:n较大较大,接近接近0或或1。第一节第一节 抽样分布与抽样误差抽样分布与抽样误差第二节第二节 t t分布分布第三节第三节 总体均数及总体概率的估计总体均数及总体概率的估计 一、一、t分布的概念分布的概念服从服从=n-1的的t t分布分布分布分布二、二、t 分布的图形和分布的图形和t 分布表分布表t分布曲线特点:分布曲线特点:1) t分布曲线是单峰分布,它以分布曲线是单峰分布,它以0为中心,左右对称。为中心,左右对称。2)t分布的形状与样本例数分布的形状与样本例数n有关。自由度越小,则有关。自由度越小,则 越越大,大,t 值越分散,曲线的峰部越矮,尾部翘的越高。值越分散,曲线的峰部越矮,尾部翘的越高。3) 当当 n时,则时,则S逼近逼近,t分布逼近标准正态分布。分布逼近标准正态分布。 t分布不是一条曲线,而是一簇曲线。分布不是一条曲线,而是一簇曲线。 与单侧概率相对应的与单侧概率相对应的t t值用值用 表示,与双侧概率相表示,与双侧概率相对应的对应的t t值用值用 表示。表示。 由于由于t t分布是以分布是以0 0为中心的对称分布,表中只列出了为中心的对称分布,表中只列出了正值,故查表时,不管正值,故查表时,不管t t值正负只用绝对值表示。值正负只用绝对值表示。 第一节第一节 抽样分布与抽样误差抽样分布与抽样误差第二节第二节 t t分布分布第三节第三节 总体均数及总体概率的估计总体均数及总体概率的估计一、参数估计的概念一、参数估计的概念二、总体均数的估计二、总体均数的估计三、总体概率的估计三、总体概率的估计一、参数估计的概念一、参数估计的概念 统计推断包括参数估计和假设检验。参数估计就统计推断包括参数估计和假设检验。参数估计就是用样本指标(统计量)来估计总体指标(参数)。是用样本指标(统计量)来估计总体指标(参数)。参数估计参数估计点估计点估计(point estimation)区间估计区间估计(interval estimation)一、参数估计的概念一、参数估计的概念二、总体均数的估计二、总体均数的估计三、总体概率的估计三、总体概率的估计二、总体均数的估计二、总体均数的估计 1.1.点估计:点估计: 用样本统计量直接作为总体参数的估计值。用样本统计量直接作为总体参数的估计值。 例如例如 于于20002000年测得某地年测得某地2727例健康成年男性血红蛋白量的样本例健康成年男性血红蛋白量的样本均数为均数为125g/L125g/L,试估计其总体均数。试估计其总体均数。 ,即认为即认为20002000年该地所有健康成年男性血红蛋白量年该地所有健康成年男性血红蛋白量的总体均数为的总体均数为125125g/L 。2. 区间估计区间估计:按预先给定的概率:按预先给定的概率(1)估计总体均数的可能范估计总体均数的可能范围,该范围就称为围,该范围就称为总体均数的总体均数的总体均数的总体均数的1 1 置信区间置信区间置信区间置信区间(confidence (confidence interval CI)interval CI)。 预先给定的概率预先给定的概率(1)称为称为置信度置信度置信度置信度,常取,常取95%或或99%。如。如无特别说明,一般取双侧无特别说明,一般取双侧95%。 置信区间由两个数值即置信区间由两个数值即置信限置信限置信限置信限构成,其中最小值称为下限,构成,其中最小值称为下限,最大值称为上限。严格讲,置信区间不包括上下限两个端点值。最大值称为上限。严格讲,置信区间不包括上下限两个端点值。3 3、置信区间的计算、置信区间的计算(1 1 1 1)已知,按标准正态分布原理计算已知,按标准正态分布原理计算已知,按标准正态分布原理计算已知,按标准正态分布原理计算通式:通式: (双侧)(双侧) Z Z/2/2为标准正态变量,为标准正态变量,Z Z/2/2相当于按相当于按=时及时及P P取取,由附由附表表2 2查的的查的的t t界值。界值。 95%的双侧置信区间:的双侧置信区间:99%的双侧置信区间:的双侧置信区间:(2 2 2 2)未知但样本例数未知但样本例数未知但样本例数未知但样本例数n n n n足够大(足够大(足够大(足够大(n n n n50505050)时时时时 通式:通式: (双侧)(双侧)95%的双侧置信区间:的双侧置信区间:99%的双侧置信区间:的双侧置信区间:例例5-4 5-4 某市某市20002000年随机测量了年随机测量了9090名名1919岁健康男大学生的身高,岁健康男大学生的身高,其均数为其均数为172.2cm172.2cm,标准差为标准差为4.5cm,4.5cm,,试估计该地试估计该地1919岁健康男岁健康男大学生的身高的大学生的身高的95%95%置信区间。置信区间。该市该市1919岁健康男大学生的身高的岁健康男大学生的身高的95%95%置信区间置信区间(171.3,173.1)cm(171.3,173.1)cm(3 3 3 3)未知且样本例数未知且样本例数未知且样本例数未知且样本例数n n n n较小时,按较小时,按较小时,按较小时,按t t t t分布原理分布原理分布原理分布原理 通式通式: :t t/2, /2, 是按自由度是按自由度=n-1=n-1,由附表由附表2 2查得的查得的t t值。值。95%的双侧置信区间:的双侧置信区间:99%的双侧置信区间:的双侧置信区间:例例5-3 5-3 已知某地已知某地2727例健康成年男性血红蛋白量的均数例健康成年男性血红蛋白量的均数为为 ,标准差标准差S=15g/L ,S=15g/L ,试问该地健康成年男性血红蛋白量的试问该地健康成年男性血红蛋白量的95%95%和和99%99%置信区间。置信区间。本例本例n=27,S=1595%CI:99%CI: 4、 置信区间的意义置信区间的意义 从总体中进行随机抽样,由样本均数计算置信从总体中进行随机抽样,由样本均数计算置信区间,有区间,有1-的可能得到包含总体均数的置信区间。的可能得到包含总体均数的置信区间。所有样本计算的所有置信区间包含总体均数的置信区间不包含总体均数的置信区间1- 5、 置信区间的两个要素置信区间的两个要素 (1)准确度:反映置信度)准确度:反映置信度1-的大小,即区间包含的大小,即区间包含 总体均数的概率大小。总体均数的概率大小。 (2)精度:反映区间的长度。)精度:反映区间的长度。 在置信区间确定的情况下,增加样本例数,会减在置信区间确定的情况下,增加样本例数,会减 小小 t, 和和 ,可减少区间长度,提高精度。,可减少区间长度,提高精度。一、参数估计的概念一、参数估计的概念二、总体均数的估计二、总体均数的估计三、总体概率的估计三、总体概率的估计(一)(一)点估计点估计 例例5-25-2中中776776名名5050岁以上的中老年妇女骨质疏松症的样本患岁以上的中老年妇女骨质疏松症的样本患病率作为总体患病率的点值估计值,即认为该市所有病率作为总体患病率的点值估计值,即认为该市所有5050岁以上岁以上的中老年妇女骨质疏松症的总体患病率约为的中老年妇女骨质疏松症的总体患病率约为41.5%41.5%。 (二)(二)区间估计区间估计 总体概率的置信区间与样本含量总体概率的置信区间与样本含量n,阳性频率阳性频率p的大小有的大小有关,可根据关,可根据n和和p的大小选择以下两种方法。的大小选择以下两种方法。1. 1. 正态近似法正态近似法正态近似法正态近似法 当当样样本本含含量量足足够够大大,且且p和和1-p不不太太小小即即np和和n(1-p) 均均5时,则样本率的分布近似正态分布。时,则样本率的分布近似正态分布。 公式为:公式为: P为样本率为样本率 ,为率的标准误的估计值。,为率的标准误的估计值。 例例5-7 用某种仪器检查已确诊的乳腺癌患者用某种仪器检查已确诊的乳腺癌患者94例,检出率例,检出率为为78.3%。估计该仪器乳腺癌总体检出率的。估计该仪器乳腺癌总体检出率的95%置信区间。置信区间。分析:本例样本例数较大,且样本率分析:本例样本例数较大,且样本率p不太小,可用正态近似法:不太小,可用正态近似法: 2. 2. 查表法查表法查表法查表法(1)按二项分布原理:)按二项分布原理:p接近接近0或或1,n 较小较小 时,以时,以n 及发生数及发生数 x 查附表查附表6.1-6.3。 p78: 例例5-5/5-6 例例5-5 5-5 某医院对某医院对3939名前列腺癌患者实施开放手术治疗,术名前列腺癌患者实施开放手术治疗,术后有合并症者后有合并症者2 2人,试估计该手术合并症发生概率的人,试估计该手术合并症发生概率的95%95%置信区置信区间。间。注意注意注意注意:此表仅列出:此表仅列出Xn/2 Xn/2 的的95%95%置信区间。置信区间。 例例5-6 5-6 某医生用某药物治疗某医生用某药物治疗3131例脑血管梗塞患者,其中例脑血管梗塞患者,其中2525例患者治疗有效,试求该药物治疗脑血管梗塞有效概率的例患者治疗有效,试求该药物治疗脑血管梗塞有效概率的95%95%置信区间。置信区间。 (2)按泊松分布原理:)按泊松分布原理:p接近接近0,n 较大时,以发生数较大时,以发生数 x 查附表查附表7。 例:某地抽取例:某地抽取10万人,调查得乳腺癌死亡人数万人,调查得乳腺癌死亡人数 为为23人,估计该地乳腺癌死亡率人,估计该地乳腺癌死亡率 95%的置的置 信区间。信区间。 以以x=23查附表查附表7得:(得:(14.6-34.4)/10万万
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号