资源预览内容
第1页 / 共81页
第2页 / 共81页
第3页 / 共81页
第4页 / 共81页
第5页 / 共81页
第6页 / 共81页
第7页 / 共81页
第8页 / 共81页
第9页 / 共81页
第10页 / 共81页
亲,该文档总共81页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第六章第六章 几种常见离散型几种常见离散型变量的分布和应用变量的分布和应用 宁夏医科大学公共卫生学院宁夏医科大学公共卫生学院流行病与卫生统计学系流行病与卫生统计学系主讲人主讲人李吴萍李吴萍教授教授DistributionandApplicationofDiscreteData 一、二项分布条件与性质一、二项分布条件与性质(二分类变量)(二分类变量)一)、一)、BernoulliBernoulli试验试验 在医学科研中,很多情况可归纳为观察在医学科研中,很多情况可归纳为观察随机试验中某事件是否发生。如观察某药物随机试验中某事件是否发生。如观察某药物是否有效;观察某指标的化验结果是否为阳是否有效;观察某指标的化验结果是否为阳性。这些试验的共同的特征是一次试验只有性。这些试验的共同的特征是一次试验只有两种独立的结果:事件发生或事件不发生,两种独立的结果:事件发生或事件不发生,这种试验称为这种试验称为BernoulliBernoulli试验(或成败试验)。试验(或成败试验)。第一节 二项分布BernoulliBernoulli试验序列试验序列满足以下三个条件的满足以下三个条件的 n n 次试验构成的序列称为次试验构成的序列称为BernoulliBernoulli试验序列。试验序列。1 1)各观察单位只能是具有相互对立的一种结各观察单位只能是具有相互对立的一种结果果,如阳性或阴性,生存和死亡等。,如阳性或阴性,生存和死亡等。2 2)已知发生某一结果(如阳性)的概率为已知发生某一结果(如阳性)的概率为 ,其对立结果的概率为其对立结果的概率为1- 1- 。实际工作中要求。实际工作中要求 是从大量观察中获取的比较稳定的数值。是从大量观察中获取的比较稳定的数值。3 3)n n个观察单位结果互相独立个观察单位结果互相独立,即每个观察结,即每个观察结果不会影响到其它观察单位结果。果不会影响到其它观察单位结果。例例 6-1 6-1 设小白鼠接受某种毒物一定剂量时,其设小白鼠接受某种毒物一定剂量时,其死亡率为死亡率为80%80%,对于每只小白鼠来说,其死亡,对于每只小白鼠来说,其死亡概率为概率为0.80.8,生存概率为,生存概率为0.20.2。现对。现对3 3只小白鼠只小白鼠进行实验观察。结果见下表进行实验观察。结果见下表满足满足BernoulliBernoulli试验序列三个条件:试验序列三个条件:一、二分类资料;一、二分类资料;二、因每次实验条件不变,每只动物的死亡概率二、因每次实验条件不变,每只动物的死亡概率是相同的;是相同的;三、每只动物的生与死不影响其它动物。三、每只动物的生与死不影响其它动物。独独立立事事件件的的乘法定理乘法定理互互不不相相容容事事件件的加法定理的加法定理 其中其中X=0X=0,1 1,22,n。 n n,是二是二项项分布的两个参数分布的两个参数 。对于任何二项分布,总有对于任何二项分布,总有构成构成Bernoulli试验序列的试验序列的n次实验中,事件次实验中,事件A出现的次数出现的次数X的概率分布为:的概率分布为: 二项式展开各项就是每种组合的概率二项式展开各项就是每种组合的概率其一般表达式为:其一般表达式为: 由于各观察单位是独立的,则从该总体中随机抽取由于各观察单位是独立的,则从该总体中随机抽取n例,例,其中恰有其中恰有x例是阳性的概率为二项式展开,例是阳性的概率为二项式展开,记作记作 ,称为二项分布的概率函数,即,称为二项分布的概率函数,即 两种累计方式:两种累计方式:最多有最多有k例阳性概率例阳性概率 最少有最少有k例阳性的概率例阳性的概率二项分布的累计概率二项分布的累计概率(cumulative probability)例6.2 已知某地玉米的黄曲霉污染率近年为已知某地玉米的黄曲霉污染率近年为20%。若抽取若抽取10个样品作检查,个样品作检查,求(求(1)污染样品数不超过一个的概率。)污染样品数不超过一个的概率。 (2)污染样品数在)污染样品数在8个以上的概率个以上的概率。解: 二二) ) 二项分布的适用条件二项分布的适用条件1. 1. 每次试验只会发生两种对立的可能结果每次试验只会发生两种对立的可能结果 之一,即分别发生两种结果的概率之和之一,即分别发生两种结果的概率之和 恒等于恒等于1 1;2. 2. 每次试验产生某种结果(如每次试验产生某种结果(如“阳性阳性”)的)的 概率概率固定不变;固定不变;3. 3. 重复试验是相互独立的,即任何一次试重复试验是相互独立的,即任何一次试 验结果的出现不会影响其它试验结果出验结果的出现不会影响其它试验结果出 现的概率。现的概率。 在上面的例在上面的例6-16-1中,对这中,对这1010名非传名非传染性疾病患者的治疗,可看作染性疾病患者的治疗,可看作1010次独次独立的重复试验,其疗效分为有效与无立的重复试验,其疗效分为有效与无效,且每一名患者治疗有效的概率效,且每一名患者治疗有效的概率(=0.70=0.70)是恒定的。这样,)是恒定的。这样,1010人中人中发生有效的人数发生有效的人数X XB B(10(10,0.70)0.70)。1、二项分布的均数与方差、二项分布的均数与方差若若X服从二项分布,它的概率服从二项分布,它的概率为为,样本例数为样本例数为n,可简记为,可简记为XB(N, )则:则:X的均数的均数X的方差的方差X的标准差的标准差 三三)二项分布的性质二项分布的性质若以率表示,若以率表示,则样本率则样本率p 的总体均数为的总体均数为则样本率则样本率p 的总体方差为的总体方差为则样本率则样本率p 的总体标准差为的总体标准差为样样本本率率的的标标准准差差也也称称为为率率的的标标准准误误,可可用用来来描描述述样样本本率率的的抽抽样样误误差差,率率的的标标准准误误越越小小,则率的抽样误差就越小。则率的抽样误差就越小。在在一一般般情情形形下下,总总体体率率往往往往并并不不知知道道。此此时时若若用用样样本本资资料料计计算算样样本本率率p=X/n作作为为的的估估计值,则计值,则的估计为的估计为:例例6-3在观测一种药物对某种非传染性疾病在观测一种药物对某种非传染性疾病的治疗效果时,用该药治疗了此种非传染性的治疗效果时,用该药治疗了此种非传染性疾病患者疾病患者100人,发现人,发现55人有效,计算率的人有效,计算率的抽样误差。抽样误差。2、二项分布的图形特征、二项分布的图形特征二项分布图形由参数n和决定,当=0.5时,分布是对称的,见图6-12、二项分布的图形特征、二项分布的图形特征当当0.5时,分布是偏态的,但随着时,分布是偏态的,但随着n的增大,的增大,分布趋于对称。当分布趋于对称。当n 时,只要时,只要不太靠近不太靠近0或或1,二项分布则接近正态分布,二项分布则接近正态分布,见图见图6-2。 图图6-2二、二项分布的应用二、二项分布的应用 ( (一一) )总体率的区间估计总体率的区间估计1. 1. 查表法查表法 2. 2. 正态近似法正态近似法二、二项分布的应用二、二项分布的应用 1. 查查表表法法 对对于于n 50的的小小样样本本资资料料,直直接接查查附附表表6百百分分率率的的95%或或99%可可信信区区间间表表,即即可可得得到其总体率的可信区间。到其总体率的可信区间。例例6-2在在对对13名名输输卵卵管管结结扎扎的的育育龄龄妇妇女女经经壶壶腹腹部部-壶壶腹腹部部吻吻合合术术后后,观观察察其其受受孕孕情情况况,发发现现有有6人人受受孕孕,据据此此资资料料估估计计该该吻吻合合术术妇妇女女受受孕孕率的率的95%可信区间。可信区间。二、二项分布的应用二、二项分布的应用 附表附表6只列出只列出 的部分。当的部分。当时,可先时,可先按按“阴性阴性”数数n-X查得总体阴性率的查得总体阴性率的1-可信可信区间区间QLQU,再用下面的公式转换成所需的,再用下面的公式转换成所需的阳性率的阳性率的1-可信区间。可信区间。PL=1-QU, PU=1-QL例例6-2在在对对13名名输输卵卵管管结结扎扎的的育育龄龄妇妇女女经经壶壶腹腹部部-壶壶腹腹部部吻吻合合术术后后,观观察察其其受受孕孕情情况况,发发现现有有7人人受受孕孕,据此资料估计该吻合术妇女受孕率的据此资料估计该吻合术妇女受孕率的95%可信区间。可信区间。二、二项分布的应用二、二项分布的应用 2. 正态近似法正态近似法 根据数理统计学的中心极限定根据数理统计学的中心极限定理可得,当理可得,当n较大、较大、不接近不接近0或或1时,二项分时,二项分布布B(n,)近似正态分布近似正态分布,而,而相应的样本率相应的样本率p的分布也近似的分布也近似正正态分布。为此,态分布。为此,当当n较大、较大、p和和1-p均不太小,均不太小,如如np和和n(1-p)均大于均大于5时,时,可利用样本率可利用样本率p的的分布近似正态分布来估计总体率的可信区间。分布近似正态分布来估计总体率的可信区间。的的可信区间为:可信区间为:如:如:的的95%可信区间为可信区间为的的99%可信区间为可信区间为例例 在某镇按人口的在某镇按人口的1/201/20随机抽取随机抽取329329人,人,作血清登革热血凝抑制扩抗体反应检验,得作血清登革热血凝抑制扩抗体反应检验,得阳性率为阳性率为8.81%8.81%,求此阳性率的抽样误差,求此阳性率的抽样误差 S Sp p及总体阳性率的及总体阳性率的95%95%可信区间。可信区间。本例本例n=329,p=8.81%n=329,p=8.81%,则其抽样误差为:则其抽样误差为:则其总体率的则其总体率的95%95%可信区间为:可信区间为:(二二)样本率与总体率的比较样本率与总体率的比较1.直直接接法法 在在诸诸如如疗疗效效评评价价中中,利利用用二二项项分分布布直直接接计计算算有有关关概概率率,对对样样本本率率与与总总体体率率的的差差异异进进行行有有无无统统计计学学意意义义的的比比较较。比比较较时时,经经常常遇遇到到单单侧侧检检验验,即即“优优”或或“劣劣”的的问问题题。那那么么,在在总总体体阳阳性性率率为为的的n次次独独立立重重复复试试验中,下面两种情形的概率计算是不可少的。验中,下面两种情形的概率计算是不可少的。(1)出出现现“阳阳性性”的的次次数数至至多多为为k次次的的概概率为率为:(2)出出现现“阳阳性性”的的次次数数至至少少为为k次次的的概概率为率为例6-4 据报道,对输卵管结扎了的育龄妇女实施壶腹部-壶腹部吻合术后,受孕率为0.55。今对10名输卵管结扎了的育龄妇女实施峡部-峡部吻合术,结果有9人受孕。问实施峡部-峡部吻合术妇女的受孕率是否高于壶腹部-壶腹部吻合术?显然,这是单侧检验的问题,其假设检验为H0:=0.55H1:0.55 =0.05对这10名实施峡部-峡部吻合术的妇女,按0.55的受孕率,若出现至少9人受孕的概率大于0.05,则不拒绝H0;否则,拒绝H0,接受H1。本 例 n=10, =0.55, k=9。 按 公 式 ( 6-12)按按=0.05水准,拒绝水准,拒绝H0,接受,接受H1,即认为实施峡部,即认为实施峡部-峡部吻合术妇女的受孕率要高于壶腹部峡部吻合术妇女的受孕率要高于壶腹部-壶腹部吻合壶腹部吻合术。术。2.正态近似法正态近似法 当当n较大、较大、p和和1-p均不太小,如均不太小,如np和和n(1-p)均均大于大于5时,利用样本率的分布近似正态分布的时,利用样本率的分布近似正态分布的原理,可作样本率原理,可作样本率p与已知总体率与已知总体率0的比较。的比较。检验统计量检验统计量u值的计算公式为值的计算公式为: 例例6-6 对对某某疾疾病病采采用用常常规规治治疗疗,其其治治愈愈率率为为45%。现现改改用用新新的的治治疗疗方方法法,并并随随机机抽抽取取180名名该该疾疾病病患患者者进进行行了了新新疗疗法法的的治治疗疗,治治愈愈117人人。问问新新治治疗方法是否比常规疗法的效果好?疗方法是否比常规疗法的效果好?本本例例是是单单侧侧检检验验,记记新新治治疗疗方方法法的的治治愈愈率率为为,而而0=0.45。其假设检验为。其假设检验为H0:=0.45H1:0.45 =0.05本例本例n=180,p=117/180=0.65查查u界界值值表表(t界界值值表表中中v为为的的一一行行)得得单单侧侧P0.005。按按=0.05水水准准,拒拒绝绝H0,接接受受H1,即即新新的的治治疗疗方方法法比比常常规规疗疗法法的的效效果好。果好。(三三)两样本率的比较两样本率的比较两两样样本本率率的的比比较较,目目的的在在于于对对相相应应的的两两总总体体率率进行统计推断。进行统计推断。设设两两样样本本率率分分别别为为p1和和p2,当当n1与与n2均均较较大大,且且p1、1-p1及及p2、1-p2均均不不太太小小,如如n1p1、n1(1-p1)及及n2p2、n2(1-p2)均均大大于于5时时,可可利利用用样样本本率率的的分分布布近近似似正正态态分分布布,以以及及独独立立的的两两个个正正态态变变量量之之差差也也服服从从正正态态分分布布的的性性质质,采采用用正态近似法正态近似法对两总体率作统计推断。对两总体率作统计推断。检验统计量u的计算公式为: 例例6-7 为为研研究究某某职职业业人人群群颈颈椎椎病病发发病病的的性性别别差差异异,今今随随机机抽抽查查了了该该职职业业人人群群男男性性120人人和和女女性性110人人,发发现现男男性性中中有有36人人患患有有颈颈椎椎病病,女女性性中中有有22人人患患有有颈颈椎椎病病。试试作作统统计计推断。推断。H0:1=2H1:12 =0.05 本例n1=12,X1=36,p1=X1/n1=36/120=0.30n2=110,X2=22,p2=X2/n2=22/110=0.20 查u界值表得0.05P0.10。按 =0.05水准,不拒绝H0,即尚不能认为该职业人群颈椎病的发病有性别差异。 (四四)研究非遗传性疾病的家族集聚性研究非遗传性疾病的家族集聚性非非遗遗传传性性疾疾病病的的家家族族集集聚聚性性(clustering in families),系系指指该该种种疾疾病病的的发发生生在在家家族族成成员员间间是是否否有有传传染染性性?如如果果没没有有传传染染性性,即即该该种种疾疾病病无无家家族族集集聚聚性性,家家族族成成员员患患病病应应是是独独立立的的。此此时时以以家家族族为为样样本本,在在n个个成成员员中中,出出现现X个个成成员员患患病病的的概概率率分分布布呈呈二二项项分分布布;否否则,便不服从二项分布。则,便不服从二项分布。例例6-8 某某研研究究者者为为研研究究某某种种非非遗遗传传性性疾疾病病的的家家族族集集聚聚性性,对对一一社社区区82户户3口口人人的的家家庭庭进进行行了了该该种种疾疾病病患患病病情情况况调调查查,所所得得数数据据资资料料见见表表6-1中中的的第第(1)、(2)栏栏。试试分析其家族集聚性。分析其家族集聚性。 表6-1 患病数据资料与二项分布拟合优度的2c检验 X (1) 实际户数A (2) 概率P(X) (3) 理论户数T=82P(X) (4) AT - (5) 2)(AT - (6) TAT2)( -(7) 0 26 0.13265 10.8774 -15.1226 228.6936 21.0247 1 10 0.38235 31.3525 21.3 525 455.9273 14.5420 2 28 0.36735 30.1229 2.1229 4.506 9 0.149 6 3 18 0.11765 9.6472 -8.3528 69.7690 7.2320 合计 82 82.0000 42.9483 如如果果该该社社区区的的此此种种疾疾病病存存在在家家族族集集聚聚性性,则则以以每每户户3口口人人的的家家庭庭为为样样本本,在在3个个家家庭庭成成员员中中,出出现现X(=0,1,2,3)个个成成员员患患病病的的概概率率分分布布即即不不服服从从二二项项分分布布。为为此此,可可作作如如下下假假设检验。设检验。H0:该疾病的发生无家族集聚性:该疾病的发生无家族集聚性H1:该疾病的发生有家族集聚性:该疾病的发生有家族集聚性 =0.10本例调查的总人数为:本例调查的总人数为:N=823=246(人)(人)其中患病人数为:其中患病人数为:D=026+110+228+318=120(人)(人)以以这这246人人的的患患病病率率估估计计总总体体的的患患病病率率,即即=D/N=120/246=0.49。在在n=3、=0.49时时,利利用用二二项项分分布布,求求得得X=0,1,2,3的的概概率率P(X),并并以以此此得得到到相相应应的的理理论论户户数数。对对理理论论户户数数与与实实际际户户数数进进行行拟拟合合优优度度(goodness of fit)的的检检验验。此此时时,自自由由度度=组组数数2=42=2。计计算算结结果果列列于于表表6-1中的第(中的第(3)至()至(7)栏。)栏。以以=22=42.95查附表查附表8,P1时,随时,随X取值的变大,取值的变大,P(X)值先增大而后变小。值先增大而后变小。如如若若是是整整数数,则则P(X)在在X= 和和X= -1位位置置取取得得最最大值。大值。二、二、Poisson分布的应用分布的应用(一一)总体均数的区间估计总体均数的区间估计利利用用服服从从Poisson分分布布的的样样本本资资料料可可估估计计其其总体均数总体均数的可信区间。的可信区间。估计方法如下:估计方法如下:1.查查表表法法 对对于于获获得得的的样样本本计计数数X,当当X50时时,直直接接查查附附表表7的的Poisson分分布布可可信信区区间间表表,即即可可得得到到其其总总体体均均数数的的95%或或99%可可信区间。信区间。 例例6-10 6-10 某工厂在环境监测中,对某工厂在环境监测中,对一实施了技术改造的生产车间作空气中粉一实施了技术改造的生产车间作空气中粉尘浓度的检测,尘浓度的检测,1 1立升空气中测得粉尘粒立升空气中测得粉尘粒子数为子数为2121。假定车间空气中的粉尘分布均。假定车间空气中的粉尘分布均匀,试估计该车间平均每立升空气中所含匀,试估计该车间平均每立升空气中所含粉尘颗粒数的粉尘颗粒数的95%95%和和99%99%可信区间。可信区间。本例,本例,X X=21=21,查查附表,查查附表7 7,该车间平均,该车间平均每立升空气所含粉尘颗粒数的每立升空气所含粉尘颗粒数的95%95%可信区可信区间为间为13.013.032.032.0; 99%99%可信区间为可信区间为11.011.035.935.9。2. 正正态态近近似似法法 当当X50时时,可可采采用用正正态态近近似似法法估估计计总总体体均均数数的的可可信信区间,计算公式为区间,计算公式为:如:如: 的的95%可信区间为可信区间为例6-11 某研究者对某社区12000名居民进行了健康检查,发现其中有68名胃癌患者。估计该社区胃癌患病数的95%和99%可信区间。( (二二) ) 样本均数与总体均数的比较样本均数与总体均数的比较对于Poisson分布资料而言,进行样本均数与总体均数的比较有两种方法。1. 直接法 当总体均数 20时,可采用直接计算概率的方式对样本均数与已知总体均数间的差别进行有无统计学意义的比较,这实质上是对以样本计数X为代表的总体率与已知的总体率0是否有差别进行推断。例6-12 一般人群先天性心脏病的发病率为8,某研究者为探讨母亲吸烟是否会增大其小孩的先天性心脏病的发病危险,对一群2025岁有吸烟嗜好的孕妇进行了生育观察,在她们生育的120名小孩中,经筛查有4人患了先天性心脏病。试作统计推断。 2、正态近似法、正态近似法根据根据Poission分布的性质,当分布的性质,当20时,可用正态分布来近似。样本计数时,可用正态分布来近似。样本计数X与已知均数与已知均数的比较,采用下式计算标准正态检验统计量。的比较,采用下式计算标准正态检验统计量。例6-13 有研究表明,一般人群精神发育不全的发生率为3,今调查了有亲缘血统婚配关系的后代25000人,发现123人精神发育不全,问有亲缘血统婚配关系的后代其精神发育不全的发生率是否要高于一般人群?可以认为人群中精神发育不全的发生数服从Poisson分 布 。 本 例 n=25000, X=123,0=0.003, =n0=250000.003=75。(三三) 两个样本均数的比较两个样本均数的比较对服从Poisson分布的样本,其样本计数可看作是样本均数。两个样本均数的比较,目的在于推断两样本所代表的两总体均数是否有差别。设两个样本计数分别为X1和X2,可利用正态近似法进行比较。1. 两个样本的观察单位数相等,即n1=n2 。2. 两个样本的观察单位数不相等,即n1 n2 。例6-14 某卫生检疫机构对两种纯净水各抽验了1ml水样,分别培养出大肠杆菌4个和7个,试比较这两种纯净水中平均每毫升所含大肠杆菌数有无差别?本例水样中的大肠杆菌数服从Poisson分布,两种水样的观察单位数相等,即均为1ml。两 样 本 计 数 分 别 记 为 X1=4和 X2=7,X1+X2=7+4=11。选择公式(6-21)来计算检验统计量。例6-15 某研究者为了分析一种罕见的非传染性疾病发病的地域差异,对甲地区连续观察了四年,发现有32人发病;对乙地区连续观察了三年,发现有12人发病。假定甲、乙两地区在观察期内的人口构成相同,人口基数相近且基本不变,试作统计推断。本例中疾病的发病人数服从Poisson分布,但对甲地区连续观察了四年(n1=4),而对乙地区只连续观察了三年(n2=3),即两个样本的观察时间单位数不相等。甲、乙两地区在观察期内的发病人数分别记为X1=32和X2=12,X1+X2=32+12=44。选择公式(6-22)来计算检验统计量。 总总结结1. 二项分布常用于描述变量的结果只有两二项分布常用于描述变量的结果只有两种的出现规律,种的出现规律,2.泊松分布可看成是二项分布的特例,用泊松分布可看成是二项分布的特例,用于小概率事件的发生规律,当然泊松分布于小概率事件的发生规律,当然泊松分布专用于空间散点试验模型的出现规律。专用于空间散点试验模型的出现规律。二项分布、泊松分布与正态分布二项分布、泊松分布与正态分布的渐进关系的渐进关系正态分布正态分布二项分布二项分布泊松分布泊松分布N很大而 很小二项分布Poisson分布基本符号:总体率 n:样本例数X:某事件发生数P=X/n:样本率=n::总体中一定计量,单位时间内发生某事件的总均数X或 :样本均数恰有X例阳性率的概率正态近似条件阳性数和阴性数均5总体均数 20可信区间估计查表法正态近似法查表法正态近似法样本与总体率比较直接计算概率正态近似法:计算u值两样本率(均数)比较
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号