4、正态分布及其应用-

第二节正态分布及其应用三峡大学医学院公共卫生系王南平图3-1 某地成年男子红细胞数的分布逐渐接近正态分布示意图一、正态分布(Normal Distribution) 正态分布曲线：高峰位于中央，两侧逐渐下降、低平，左右完全对称、两端不与横轴相交的钟型曲线。正态分布的函数f(x)为：由上式可见，正态分布的图形由和所决定， XN（， 2）正态分布曲线主要特征：1.以为中心的单峰对称分布2.两个参数（ , ）分别决定其位置和形状3.曲线下面的面积分布有规律图3-3 三种不同均值的正态分布图3-4 三种不同标准差的正态分布正态曲线下的面积的计算：曲线下面积分布有规律图3-2 正态分布曲线下的面积标准正态变换（u变换）u为标准正态变量或标准正态离差u变换的特点：若X服从正态分布，则u服从标准正态分布标准正态分布：均数为0、标准差为1 。记为N（0，1）二、标准正态分布 (Standard Normal Distribution) 表中曲线下面积为 - u 的面积；即 P ( u)可以利用标准正态分布表求出与原始变量X 有关的概率值。1. 标准正态分布：求曲线下(u1，u2)范围内的面积。 (1) u 0：查表，分别求从-到u2与从-到u1的面积；两者之差为所求面积。u1 u2 例：u1= - 1.50，u2= - 0.31则(-1.50，- 0.31)范围内的面积(2) u 0：利用正态分布的对称性求曲线下从-到u范围的面积。例：从- 到u=1.76范围内的面积。1.761.760.03921-0.0392=0.96080.03922. 非标准正态分布：求曲线下任意 (x1,x2)范围内的面积。(1)先作标准正态变换； (2)再查标准正态分布表求得面积。例：已知某年某地110名7岁男童身高，现欲估计该地身高界于116.5cm到119.0cm范围内7岁男童比例及110名7岁男童中身高界于此值范围内的人数。 (1) 标准正态分布变换：(2) 查表得：(3) 求D:估计该地身高界于116.5119.0cm范围内的7岁男童比例为13.92%；估计110名7岁男童中有15名男童的身高界于116.5119.0cm范围内。11013.9215三、正态分布的应用 1. 估计频数分布例：出生体重低于2500g为低体重儿。若由某项研究得某地婴儿出生体重均数为 3200g，标准差为350g，估计该地当年低体重儿所占的比例。查表，即从-到2500的比例为2.28%，故估计该地当年低体重儿所占的比例为2.28%。2. 制定医学参考值范围（Reference Value Range） 3. 质量控制为了控制实验中的误差，实验室的质量控制中，常以作为上、下警戒限；以作为上、下控制限。(2s和3s是1.96s与2.58s的近似值)。一、基本概念通常指“大多数”“正常人” 的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。主要目的：用于临床疾病诊断。最常用的是 95%参考值范围。第三节医学参考值范围(Reference Value Range)确定95%参考值范围示意图二、医学参考值范围的制定方法 (一）选择足够数量的正常人作为参照样本选择参照样本必须要考虑可能影响所要制定参考值范围指标的各种疾病及干扰因素，将这些人排除在外。样本含量一般要较大，如n120。例如在制定血清谷丙转氨酶活性正常值时，选取“正常人”的条件为肝、肾、心、脑、肌肉等无器质性疾患，近期无特殊用药史等。同时可能需要考虑性别、年龄、民族、地理位置等因素。（二）对选定的参照样本进行准确的测定1.严格控制检测误差，包括分析仪器的灵敏度、试剂的纯度、操作技术及标准的掌握等；2.必须对测量条件做出统一的规定和说明。如：收集样本时的环境和生理条件（温度、体育活动强度、饮食、妊娠等），收集、转运和储藏样品的方法及时间有明确的规定。（三）决定取单侧范围还是双侧范围值有些指标如白细胞数过高或过低均属异常(a) ，故其参考值范围需要分别确定下限和上限，称作双侧。有些指标如24小时尿糖含量仅在过高(b)、肺活量仅在过低时为异常(c)，只需确定其上限或下限，称作单侧参考值范围。（a)白细胞数参考值范围(b)24小时尿糖参考值范围(c)肺活量参考值范围（四）选择适当的百分范围根据资料的性质和研究目的选择适当的百分范围。百分范围的不同将导致不同的假阳性率和假阴性率。若主要目的为减少假阳性（如确诊病人）大（99% ）减少假阴性（如初筛病人）小（95%）图3-6 正常人和病人数据分布重叠（五）估计参考值范围的界限参考值范围估计主要有百分位数法和正态分布法。百分范围（%）单侧双侧下限上限下限上限95 P5 P95 P2.5 P97.599 P1 P99 P0.5 P99.5表3-2 参考值范围所对应的百分位数正态分布计算参考值范围公式百分范围（%）单侧双侧下限上限下限上限95 99例3.4 某年某地正常成年男子红细胞数的均数为4.781012/L，标准差为0.381012/L，试估计该地成年男子红细胞数的95%参考值范围。该地成年男子红细胞数的95%参考值范围为：4.045.52 (1012/L)下限：上限：2、百分位数法：适用于任何分布的资料，主要用于偏态分布资料。常用的估计公式有：双侧95%的范围：P2.5P97.5单侧95%的范围：P5或P95甘油三酯频数累积频数累积频率（% ） 0.1027274.30.40 16919631.10.70 16736357.61.00 9445772.51.30 8153885.41.60 4258092.11.90 2860896.52.20 1462298.72.50 462699.42.80 362999.83.10 3.401630100.0合计630-某地630名50岁60岁正常女性血清甘油三酯含量 (mmol/L) 用百分位数法，求单侧95%的上限界值。由表可知：L=1.90，i=0.3，f=28，n=630 ，fL=580，代入公式计算：即某地630名50岁60岁正常女性血清甘油三酯95%的参考值上限为2.10 (mmol/L)小结1.描述一组观察值，除需要表示其平均水平外，还要说明它的离散或变异的情况。2.衡量变异程度大小的指标有多种: 极差、四分位数间距、方差、标准差和变异系数。其中应用最多的是标准差和变异系数。3.标标准差与均数结结合能够够完整地描述一个正态态分布。对任何参数的正态分布，都可以通过一个简单的变量变换化成标准正态分布。利用正态分布可以很容易地确定其数值出现在任意指定范围内的概率。 4.医学参考值范围指“正常参照人群”的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。主要用作划分正常人与异常人的界线。 5.医学参考值范围的制定需要按照一定步骤进行。实际中最好结合正常人和病人的数据分布特点，权衡假阳性和假阴性的比例，选择一个适当的百分范围，最常用的百分界限是95%。 6.参考值范围估计的方法有多种，其中最基本的有百分位数法和正态分布法。正态法的优点是结果较稳定，但对资料要求严格；百分位数法适合于任何分布类型的资料，但要求大样本。本节要求掌握的重点内容正态分布、标准正态分布的概念。正态分布图形的特点。正态曲线下面积分布的规律。医学参考值及其范围的概念。估计参考值范围的原则及方法。该部分需要6570分钟，可以把抽样误差补到这一部分，减轻后面的压力）第四章抽样误差与假设检验第一节均数抽样误差与标准误一、抽样误差的概念由于抽样的偶然性导致的样本均数与总体均数或各样本均数之间的差异。造成抽样误差的本质是个体差异。数理统计推理和中心极限定理：（1）从正态总体N（，2）中，随机抽取例数为n的样本，样本均数也服从正态分布；即使从偏态分布的总体中随机抽样，当样本含量n足够大时（n50）也服从近似正态分布。（2）从均数为，标准差为的正态总体抽取例数为n的样本，样本均数的均数也为，样本均数的标准差称标准误，用表示，理论上可按公式计算。理论值估计值标准误大小与标准差呈正比，与样本例数的平方根呈反比。标准误：是用于描述抽样误差大小的指标。例：某地抽查成年男子140名，测得红细胞的标准差为0.38(1012/L)，则标准误为：二、标准误的概念1、反映抽样误差的大小，说明样本均数的可靠性。通常用表示。2、利用标准误作总体均数的区间估计。3、用标准误作假设检验。三、标准误的作用四、t 分布（一）t 分布的概念：t 分布即 t 值的分布。（二）t 分布的特点：1、 t 分布以0为中心的对称分布；2、 t 分布是一簇曲线，其形态变化与样本含量n有关（与自由度有关）；3、随自由度的增加t值越来越小，且逐渐稳定，当自由度趋于无穷时，t=u。4、相同自由度下t值越大，对应的尾侧面积越小，即p值越小，反之亦然。四、t 分布（三）t 分布的应用1、估计总体均数的可信区间；2、作 t 检验。四、t 分布五、参数估计（一）参数估计的概念：参数估计：即用样本研究的结果来推断总体参数的过程。（二）参数估计的方法：1、点值估计：直接用样本统计量代替总体参数。2、区间估计：根据抽样误差的大小，按一定的概率去估计总体均数的可能范围。（一）已知时，由u分布可知，正态曲线下有95%的u值分布在1.96之间，即：-1.96u1.96。六、总体均数的区间估计（二）未知，但n较大（n30）时，根据t 分布的特点可知，95%的t值分布在1.96 之间，即：-1.96t1.96。（三）未知，且n较小(n30)时，根据t 分布的特点可知，95%的t值分布在 t0.05()之间，即：-t0.05()t t0.05() 。P29例4.2，试估计该种病人血浆纤维蛋白原总体均数95%可信区间。已知：， n=25，s=0.57(g/L)计算自由度，=n-1=25-1=24，查t值表，得t0.05/2(24)=2.064，代入公式算得的可信区间为：3.322.0640.114=(3.08，3.56) (g/L)P30例4.3，试估计例4.1中该地成年男子红细胞总体均数95%的可信区间。已知：n=140， s=0.38(1012/L) 代入公式算得的可信区间为：4.771.960.032=(4.71，4.83) (1012/L)本节要求掌握的重点内容抽样误差的概念及其意义。标准差与标准误的联系与区别。 t分布的概念、应用及其与正态分布的联系与区别。参数估计的概念及方法。