《总体均数的估计》PPT课件-

第五章第五章总体均数估计和假设检验总体均数估计和假设检验总体总体样本样本抽取部分观察单位抽取部分观察单位统计量统计量统计量统计量参参参参数数数数统计推断统计推断第一节第一节均数的抽样误差均数的抽样误差如：如：样本均数样本均数样本标准差样本标准差S 样本率样本率 P如：如：总体均数总体均数总体标准差总体标准差总体率总体率抽样误差抽样误差（sampling sampling error) error) ：由：由于个体差异导于个体差异导致的致的样本样本统计统计量与量与总体总体参数参数间的差别。间的差别。一、均数的抽样误差一、均数的抽样误差从正态分布总体从正态分布总体N N（2 2）中，每次随机）中，每次随机抽取样本含量抽取样本含量n n5 5，并计算其均数与标准，并计算其均数与标准差；重复抽取差；重复抽取10001000次，获得次，获得10001000份样本；份样本；计算计算10001000份样本的均数与标准差，并对份样本的均数与标准差，并对10001000份样本的均数作直方图。份样本的均数作直方图。按上述方法再做样本含量按上述方法再做样本含量n n1010、样本、样本含量含量n n3030的抽样实验；比较计算结果。的抽样实验；比较计算结果。图示：总体与样本populationpopulationsample2sample2sample1sample1sample3sample3sample4 sample4 sample5sample5抽样试验（抽样试验（n n=30=30）抽样实验结果图示抽样实验结果图示总体总体正态分布正态分布总体中个体的变异程度sample1sample1sample2sample2sample3sample3Sample nSample n正态分布正态分布均数的变异程度10001000份样本抽样计算结果份样本抽样计算结果总体的总体的均数均数总体标总体标准差准差s s均数的均数的均数均数均数标准差均数标准差5.005.000.500.505.005.000.09200.09200.09130.0913小结小结均数的均数均数的均数围绕总体均数上下波动。围绕总体均数上下波动。均数的标准差均数的标准差即即标准误标准误，与总体与总体标准差标准差相差一个常数的倍数，即相差一个常数的倍数，即样本样本均数的标准误（均数的标准误（Standard ErrorStandard Error) )= =样本标准差样本标准差/ /实例：实例：实例：实例：如某年某市如某年某市如某年某市如某年某市120120120120名名名名12121212岁健康男孩，已求得岁健康男孩，已求得岁健康男孩，已求得岁健康男孩，已求得均数为均数为均数为均数为cmcmcmcm，标准差为，标准差为，标准差为，标准差为cmcmcmcm，按公式计算，则标准误，按公式计算，则标准误，按公式计算，则标准误，按公式计算，则标准误为：为：为：为：1.表示抽样误差的大小，也是说明样本表示抽样误差的大小，也是说明样本均数估计总体均数可靠程度的指标均数估计总体均数可靠程度的指标2.进行总体均数的区间估计；进行总体均数的区间估计； 3.进行均数的假设检验等进行均数的假设检验等。标准误的应用标准误的应用标准差和标准的联系和区别标准差和标准的联系和区别联系联系在样本含量一定的情况下，标准误和标准差成在样本含量一定的情况下，标准误和标准差成正比正比区别区别标准差：个体观察值的变异程度标准差：个体观察值的变异程度标准误：样本均数的变异程度标准误：样本均数的变异程度同一总体，标准误与样本含量的平方根成反比同一总体，标准误与样本含量的平方根成反比二、二、t t分布分布随机变量随机变量X XN N（m m，s s2 2）标准正态分布标准正态分布N N（0 0，1 12 2）u变换均数均数标准正态分布标准正态分布N N（0 0，1 12 2）Student Student t t分布分布自由度：自由度：n n-1-1t t分布曲线分布曲线 t t 分布分布有如下性质：有如下性质：单峰分布，曲线在单峰分布，曲线在t t0 0 处最高，并以处最高，并以t t0 0为中心为中心左右对称左右对称与正态分布相比，曲线与正态分布相比，曲线最高处较矮，两最高处较矮，两尾部翘得尾部翘得高高（见蓝线）（见蓝线）随自由度增大，曲线逐随自由度增大，曲线逐渐接近正态分布；分布的渐接近正态分布；分布的极限为标准正态分布。极限为标准正态分布。t分布曲线是一簇曲线，而不是一条曲线。分布曲线是一簇曲线，而不是一条曲线。t t分布曲线下面积（附表分布曲线下面积（附表2 2）双侧双侧t t，9 9 单侧单侧t t，9 9单侧单侧t t，9 9双侧双侧t t，9 9 单侧单侧t t，9 9单侧单侧t t，9 9双侧双侧t t，单侧单侧t t，单侧单侧t t，可见在相同的自由度时，|t|值增大，概率P减少；反之，|t|值减小，概率P增大。在相同|t|值时，双尾概率P为单尾概率P的两倍。复习标准误和抽样误差标准误的计算公式标准差和标准误的联系和区别t分布的特征t分布的面积参数估计:用样本指标（统计量）估计总体指标（参数）称为参数估计。估计总体均数的方法有两种，即：点值估计（point estimation ）区间估计（interval estimation）三总体均数的区间估计(一)、点值估计点值估计：是直接用样本均数作为总体均数的估计值。此法计算简便，但由于存在抽样误差，通过样本均数不可能准确地估计出总体均数大小，也无法确知总体均数的可靠程度。( (二二) )、区间估计、区间估计区间估计是按一定的概率（1-）估计包含总体均数可能的范围，该范围亦称总体均数的可信区间（confidence interval，缩写为CI）。1-称为可信度，常取1-为和，即总体均数的95%可信区间和99%可信区间。1-（如95）可信区间的含义是：总体均数被包含在该区间内的可能性是1-，即（95），没有被包含的可能性为，即（5）。准确度、精度准确度、精度总体均数的可信区间的计算总体均数的可信区间的计算 1.1.未知未知且且n n较小较小( (n n100) 100）,可用u检验。不同的统计检验方法，可得到不同的统计量，如t 值和u值。在在H H0 0成立的前提下成立的前提下（1）建立检验假设 H0：0 ，即该山区健康成年男子脉搏均数与一般健康成年男子脉搏均数相同； H1：0 ，即该山区健康成年男子脉搏均数与一般健康成年男子脉搏均数不同。（双侧）（2）计算u值本例n = 100,s = 6.6, 样本均数=73.8 ,总体均数 =72 , 代入公式4.确定概率P值 P值是指在H0所规定的总体中作随机抽样，获得等于及大于（或小于）现有统计量的概率。u u,则P u 。本例查u界值表，得u，现u=2.73u, 故P时，表示在H0成立的条件下，出现等于及大于现有统计量的概率不是小概率，现有样本信息还不能拒绝H0，结论为按所取检验水准不拒绝H0，即差异无统计意义，如例3.3 尚不能认为两总体脉搏均数有差别。按的水准，拒绝H0，接受H1，差异无统计学意义。结论：即根据本资料可以认为此山区健康成年男子脉搏数与一般健康成年男子不同。下结论时的注意点：P ，拒绝H0，不能认为H0肯定不成立，因为虽然在H0成立的条件下出现等于及大于现有统计量的概率虽小，但仍有可能出现；同理，P ，不拒绝H0，更不能认为H0肯定成立。由此可见，假设检验的结论是具有概率性的，无论拒绝H0或不拒绝H0，都有可能发生错误，即第一类错误或第二类错误 v国外统计书籍及统计软件亦称为单样本u检验（one sample u-test）。v样本均数与总体均数比较的u检验适用于：v总体标准差已知的情况；v样本含量较大时，比如n100时。对于后者，是因为n较大，也较大，则t分布很接近u分布的缘故。（一）样本均数与总体均数比较的（一）样本均数与总体均数比较的u u检验检验七均数的u检验u 值的计算公式为：总体标准差已知时，不管n的大小总体标准差总体标准差未知未知时，但时，但n100n100时。时。例某托儿所三年来测得2124月龄的47名男婴平均体重11kg。查得近期全国九城市城区大量调查的同龄男婴平均体重，标准差为。问该托儿所男婴的体重发育状况与全国九城市的同期水平有无不同？（全国九城市的调查结果可作为总体指标）（1）建立检验假设 H0：0 ，即该托儿所男婴的体重发育状况与全国九城市的同期水平相同，H1：0 ，即该托儿所男婴的体重发育状况与全国九城市的同期水平不同。0.05(双侧)（2）计算u值本例n=47, 样本均数=11, 总体均数=11.18,总体标准差=1.23, 代入公式（3）确定P值，作出推断结论查u界值表，得u，50且n250）时，u值可按下式计算：例测得某地2024岁健康女子100人收缩压均数为，标准差为；又测得该地2024岁健康男子100人收缩压均数为，标准差为。问该地2024岁健康女子和男子之间收缩压均数有无差别？（1)建立检验假设 H0：1 2 ，即该地2024岁健康女子和男子之间收缩压均数相同； H1: 12 ，即该地2024岁健康女子和男子之间收缩压均数不同。（双侧）（2）计算u值本例 n1=100, 均数1=15.27, S1 n2=100, 均数2=16.11, S2（3）确定P值，作出推断结论查u界值表，得u，现uu=1.96,故P。按水准，拒绝H0，接受H1,差异有统计学意义。结论：可认为该地2024岁健康人的收缩压均数男性高于女性。六均数的 t 检验 vt检验的适用条件：样本来自正态总体或近似正态总体；当样本含量较小（如n 3.690, 故P。按的水准，拒绝H0，接受H1 。结论：即根据本资料可以认为从事该项特殊作业的成年男性血红蛋白含量与一般人不同，低于一般人。可信区间和假设检验的联系可信区间和假设检验的联系可信区间可以解释假设检验的问题上例n = 28 ,s = 8 总体可信区间为（）g/L 该范围未包含总体均数，故可以认为从事该项特殊作业的成年男性血红蛋白含量与一般人不同，低于一般人。医学科研中配对资料的三种主要类型：同一批受试对象治疗前后某些生理、生化指标的比较；同一种样品，采用两种不同的方法进行测定，来比较两种方法有无不同；配对动物试验，各对动物试验结果的比较等。配对实验设计得到的资料称为配对资料。 (二)配对资料的t检验v检验步骤先求出各对子的差值d的均值, 若两种处理的效应无差别，理论上差值d 的总体均数应为0。所以这类资料的比较可看作是样本均数与总体均数为0的比较。要求差值的总体分布为正态分布。v t检验的公式为：例设有12名志愿受试者服用某减肥药，服药前和服药后一个疗程各测量一次体重(kg)，数据如表3-4所示。问此减肥药是否有效？（1）建立检验假设 H0：d=0, 即该减肥药无效； H1：d0 ，即该减肥药有效。单侧=0.05 某减肥药研究的体重某减肥药研究的体重( (kgkg) )观察值观察值（2）计算t值本例n = 12, d = -16，d2 = 710，差值的均数=d /n = -16/12 = -1.33(kg )（3）确定P值，作出推断结论自由度=n-1 =12-1=11，查附表2，t界值表，得单侧t，11=0.697,现t=0.58 t，11=0.697,故P 。按水准，不拒绝H0, 差异无统计学意义。结论：故尚不能认为该减肥药有减肥效果。例例某单位研究饮食中缺乏维生素某单位研究饮食中缺乏维生素E E与肝中维生素与肝中维生素A A含量的关系，将同种属的大白鼠按性别相同，年龄、含量的关系，将同种属的大白鼠按性别相同，年龄、体重相近配成体重相近配成8 8对，并将每对中的两头动物随机分到对，并将每对中的两头动物随机分到正常饲料组和维生素正常饲料组和维生素E E缺乏组，然后定期将大白鼠杀缺乏组，然后定期将大白鼠杀死，测得其肝中维生素死，测得其肝中维生素A A的含量如表的含量如表3-53-5。问不同饲料组的大白鼠肝中维生素问不同饲料组的大白鼠肝中维生素A A含量有无差别？含量有无差别？（自学内容）两本均数比较的t检验亦称为成组t检验，又称为独立样本t检验（independent samples t-test）。适用于比较按完全随机设计而得到的两组资料，比较的目的是推断它们各自所代表的总体均数和是否相等。1、两样本总体方差相等。（三）两样本均数比较的t检验样本估计值为：总体方差已知：总体方差已知：标准误的计算公式标准误的计算公式若n1=n2时：已知S1和S2时：例例测得测得1414名慢性支气管炎病人与名慢性支气管炎病人与1111名健康人的名健康人的尿中尿中1717酮类固醇（酮类固醇（mol/mol/2424h h）排出量如下，试比）排出量如下，试比较两组人的尿中较两组人的尿中1717酮类固醇的排出量有无不同。酮类固醇的排出量有无不同。原始调查数据如下：病人X1：健康人X2：n=11; 17.95 30.46 10.88 22.38 12.89 23.01 13.89 19.40 15.83 26.72 17.29 （1 1）建立检验假设）建立检验假设 H H0 0：1 1 2 2 ，即病人与健康人的，即病人与健康人的尿中尿中1717酮类固醇的排出量相同酮类固醇的排出量相同H H1 1： 1 1 2 2 ，即病人与健康人的，即病人与健康人的尿中尿中1717酮类固醇的排出量不同酮类固醇的排出量不同（2）计算t值本例n1=14,X1=212.35, X12 n2=11, X2=210.70, X22=4397.64 （3）确定P值作出推断结论 =14+11-2=23，查t界值表，得t0.05,23=2.069,现t=1.8035。按水准，不拒绝H0，差异无统计学意义。结论：尚不能认为慢性支气管炎病人与健康人的尿中17酮类固醇的排出量不同。两样本方差的齐性检验用较大的样本方差S2比较小的样本方差S2 1 1为分子自由度，为分子自由度，2 2为分母自由度为分母自由度 2、两总体方差的齐性检验和t检验v注意：v方差齐性检验本为双侧检验，但由于公式规定以较大的方差作分子，F值必然大于1，故附表3单侧的界值，实对应双侧检验P；v当样本含量较大时（如n1和n2均大于50），可不必作方差齐性检验。深层水：n1=8, 样本均数 =1.781(mg/L), S1=1.899 (mg/L)表层水：n2=10,样本均数 =0.247(mg/L), S2=0.210 (mg/L)例某研究所为了了解水体中汞含量的垂直变化，对某氯碱厂附近一河流的表层水和深层水作了汞含量的测定，结果如下。试检验两个方差是否齐性。确定P值，作出推断结论本例18-1=7，210-1=9，查附表3，F界值表（方差齐性检验用），得F0.05,7,9=4.20, 本例F80.97 F 0.05,7,9=4.20; 故P0.05, 按=0.05 水准，拒绝H0, 接受H1，结论：故可认为两总体方差不齐。方差不齐时，两小样本均数的比较，可选用以下方法：变量变换，使达到方差齐的要求；采用秩和检验；采用近似法t 检验。t t 检验检验计算统计量计算统计量tt 值值例3.12 由例已知表层水和深层水含汞量方差不齐，试比较其均数有无差别？自学内容假设检验中作出的推断结论可能发生两种错误：拒绝了实际上是成立的H0，这叫型错误(typeerror)或第一类错误，也称为错误。不拒绝实际上是不成立的H0，这叫型错误(typeerror)或第二类错误，也称为错误。八、型错误和型错误可能发生的两类错误联系：一般增大，则减小；减小，则增大；区别：（1）一般为已知，可取单侧或双侧，如0.05,或。（2）一般为未知，只取单侧，如取或。1 (把握度。两类错误的联系与区别1-1-称为检验效能称为检验效能(power of test)(power of test)或或把握度，把握度，其意义是两总体确有差别，其意义是两总体确有差别，按按水准能发现它们有差别的能力。水准能发现它们有差别的能力。与与的大小应根据实际情况适当取的大小应根据实际情况适当取值。值。要同时减小两类错误的概率，唯一的办法是增加样本含量1.资料要来自严密的抽样研究设计2.选用假设检验的方法应符合其应用条件 3.正确理解差别有无统计学意义的统计涵义；正确理解差别有统计学意义及临床上的差别的统计学意义。4.假设检验的推断结论不能绝对化 5.要根据资料的性质事先确定采用双侧检验或单侧检验应用假设检验的注意问题