资源预览内容
第1页 / 共15页
第2页 / 共15页
第3页 / 共15页
第4页 / 共15页
第5页 / 共15页
第6页 / 共15页
第7页 / 共15页
第8页 / 共15页
第9页 / 共15页
第10页 / 共15页
亲,该文档总共15页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第四章 正 态 分 布如果将第二章中的(表2 1)中的数据绘制成直方图,把每个方条顶部中点联结起来,就得到一个图形,它称为频数多边形。(图4 1)当分组数很多,组距很小时,频数多边形就趋于类似(图4 2)所示的平滑的曲线。这种曲线呈现出两侧近似对称的钟形。随机变量的类似这种分布,在自然界是相当普遍的其中最有代表性的是正态分布。下面就来介绍正态分布及其在体育中的几个应用。 图4 1 频数多边形图第一节 正态分布曲线的形式如果随机变量X的概率密度函数为 y =e() (4 1)则称随机变量X是服从正态分布的由上式绘出的图形叫做正态曲线。(图4 2)X的变动范围在 至 + 间。 图4 2 正态分布曲线正态分布曲线中有两个参数:均值 及方差 。为了应用方便,对式(4 1)中的随机变量经过一个称为标准化的变换,即令u来代替原式中的 , 寻这时的随机变量u的概率密度函数成为: y = e (4 2)按照(4 2)式绘出的图形,称作标准正态曲线。(图4 3) 图4 3 标准正态分布曲线第二节 正态分布曲线的特征正态分布曲线有许多特点,它们对实际工作有很大的帮助。它的主要特点有以下几个方面:一,正态分布的形式是对称的(但对称的分布不一定是正态分布)。在正态分布中均值与中位数相重合。二,从中央最高点逐渐向两侧降低,降低的速度是先慢后快,以后又再次减慢,最后接近横轴,但终究不能与横轴相交。三,从中央向两侧逐渐下降,它的方向是先向内弯,达到离均值左右各一个标准差时又改向外弯,是以 的点为曲线从内弯转向外弯的转折点,即正态曲线中标准差与曲线有固定的关系。四,因为正态曲线是对称的,在曲线下不仅平均数的两侧面积相等,各相当距离间的面积相等,而且各相当距离间的曲线高度也相等,正态曲线下(与横轴间)的总面积为1. 00。五,正态曲线可以有不同形式,它们的均值和标准差可以不相同,均值不同表明曲线在横轴上所处位置不同,标准差不同表明曲线的形态不同。标准差小则曲线高、且窄;标准差大则曲线低、且宽。(图4 4)由式(4 1)和(4 2)知,标准正态曲线的 = 0, = 1,即标准正态曲线是关于纵轴对称;它在 = 0时,有最大值,它近似等于0. 4,如(图4 3)所示。 图4 4 三种不同形式的正态分布曲线第三节 正态分布表从某市17岁男生中随机抽出205人测量身高,由这个样本计算得到 = 168. 40厘米,S = 6. 13厘米。假定该市17岁男生身高服从正态分布,试估计身高在16. 40 172. 40厘米之间的人数。求解这类问题的一般方法是:求从正态总体中随机选取一个个体的测量值落在区间(a, b)上的概率。这个概率在标准正态曲线下就是曲线、X轴、直线X = a 和X b 所围成的面积。(图4 5)当概率P求得后,要求的人数约等于总人数乘以P值。图4 5 随机变量X在区间(a,b)内取值的概率示意图表的左边第1 列这横轴上的位置,它是指横轴上某一点与平均值的距离,以标准差为单位来表示,通常记为u,即 u = (4 3)表上边的第1 行为u值的第2位小数。表的主体部分是各u值与均数(u = 0)之间所对应的单侧面积(或概率)。一、知U值求对应的面积例 4 1求u 值为 1 至 +2 之间对应的面积。解:由于标准正态曲线是关于x = u对称的均数处的u值为零,所以u值在 1至0这间对应的面积与它在 0 至 +1 之间的对应面积相等。查书后附表1得u值在1至0的对应面积是34. 13%;u值在0至 +2 之间的面积是47. 72%。前者在均值的左边,后者在均值的右边,因此这两块面积之和便是所求面积。(图4 6)即:34. 13% + 47. 72% = 81. 85%图46 例 4 2 本节开始提出的问题,即试估计身高在 160. 40 172. 40厘米之间的人数。解:首先要求出身高为160. 40厘米和172. 40厘米的u值,按式(4 3)有(当 u 和 未知时,可用 和S近似代替):u1 = = 1. 31u2 = = 0. 65查书后附表1 求 u1、u2 所对应的面积。u1 = 1. 31 所对应的面积是40. 49%,u2 = 0. 65所对应的面积是24. 22%。u值1. 31至0. 65所对应的面积为40. 49% + 24. 22% = 64. 71%,见(图4 7)所示,于是身高在 160. 40 172. 40厘米之间的人数约为 20564. 71% 133(人)。图47 估计身高在160. 40172. 40厘米间的人数百分数二、已知面积求对应的U值例 4 3 试求从 +1 向右到什么位置对应的面积为14. 15%解:设从 +1 向右到 +k 对应的面积为14. 15%。查标准正态分布表知+1对应的面积是34. 13%。 24. 13%+14. 15% = 48. 28%,就是u值从0 到 +k 之间对应的面积。查书后附表1和K = 2. 11,即从 +1 向右到 +2. 11 之间对应的面积为14. 15%。(图4 8)从标准正态分布表中,可以找出标准正态曲线下面的分布规律。在下表中列出的五个分布位置与其对应的概率是统计中电子学用到的,应该熟记。图4 8 从 +1 +2. 11对应的面积表4 1 正态曲线下的概率分布u 该范围具有的概率1 68. 26%1. 96 95. 00%2 95. 44%2. 58 99. 00%3 99. 73%第四节 统计资料的正态性检验正态分布的理论适用于正态或近似正态分布的资料。对样本要想用正态分布理论进行分析,首先要检验样本是否为正态分布。检验的方法有多种,简单而实用的方法是“概率格纸绘图法”。这种方法使用的概率纸是正态概率纸,它的横轴是普通的刻度,纵轴是按正态分布的规律刻划的。使用时,先根据样本数据求出累计频率,然后根据累计频率和组限,将其点绘在正态概率纸上,如果样本资料是呈正态分布的则所有点几乎在一条直线上。例 4 4 广州市某中学初中生800米跑的抽样测验成绩的累计频率如下表所示,试检验该资料是否近似正态分布组 限 频 数 累计频数 累计频率(%) 1 1 0. 8 6 7 5. 6 15 22 17. 6 20 42 33. 6 27 69 55. 2 25 94 75. 2 21 115 92. 0 6 121 96. 8 2 123 98. 4 2 125 100. 0由样本计算得:= , S = 然后根据每组的下限值和相应的累计频率,将它们分别标在图上。根据点的分布趋势画一直线,观察这些点的分布是否接近一条直线。在画直线时应以靠近中部的点为主,两端的点为辅,因为中部的点的组频数大,所以占比重也大。由(图4 9)可见,所有的点几乎都在一条直线上,故该样本资料接近于正态分布。 图 49 当样本资料符合正态分布时,籍助正态概率纸做图,还可以对 和 作出近似地估计。从正态分布理论知道累积频率为50% 的位置应在中点,即接近均数位置。从纵轴50% 的位置画横线与钭线交于a 点,由不得a 点向横轴做垂线交于 点,其值为 ,即为估计均数,它与计算值 仅相差 。又知均数减一个标准差位置的面积为34. 13%,故在纵轴上的应是50%34. 13% = 15. 87%(b点),以此划横线交于钭线上c 点,向横灿做垂线交于 处,此点距均数的长度应为,故估计标准差的值为: 。计算值为 ,仅相差 。只要图做得准确,这些估计值也还是比较精确的。第五节 可疑数据的舍取在实际工作中,往往能够发现样本资料中具有个别突出的数值(特大或特小的数值)。按样本数据系列大小顺序来看,发现这些突出的数值和其他数值之间有明显脱节现象。这种现象使人们怀疑这些特别数值是否属于研究的总体,于是把这些数据称为可疑数据。人们把来自非同一总体的极端值,称为异常数据。样本中的异常数据应当及时剔除,否则会影响样本均数和标准差等统计量及计算结果的准确性。如何判断可疑数据是否为异常数据,方法不少,下面介绍适用于正态分布,且数据个数不多时,比较常用而有效的戈罗伯斯(Grubbs)检验法。设x1,x2,x n来自正态分布的总体,将它们按大小重新排列,记为 x(1)x(2) x(n)。首先计算出可疑数据的 g n 值,其公式为:g n = (4 4)式中 表示可疑数据值,若计算得 g n 值大于(表4 2)中的临界值 an,则认为 是异常数据,应舍弃。若小于临界值,则 为正常数据,应保留。表4 2 戈罗伯斯检验临界值(an)表 = 0. 05n an n an n an n an n an 3 1. 15 12 2. 29 21 2. 58 30 2. 96 40 2. 874 1. 46 13 2. 33 22 2. 60 31 3. 03 50 2. 965 1. 67 14 2. 37 23 2. 62 32 3. 09 60 3. 036 1. 82 15 2. 41 24 2. 64 33 3. 14 70 3. 097 1. 94 16 2. 44
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号