资源预览内容
第1页 / 共69页
第2页 / 共69页
第3页 / 共69页
第4页 / 共69页
第5页 / 共69页
第6页 / 共69页
第7页 / 共69页
第8页 / 共69页
第9页 / 共69页
第10页 / 共69页
亲,该文档总共69页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第四章统计描述第一节 频数分布一、计量资料的频数分布表例1 某年某市120名12岁健康男孩身高测量资料142.3 134.5 145.2 151.1 141.2 143.5 134.7 150.8 125.9 160.9 134.7 129.4156.6 148.8 141.8 144.0 141.5 139.2 147.3 144.5 132.7 154.2 138.5 142.5142.7 134.4 146.8 145.4 148.8 144.7 138.1 137.1 152.9 137.9 138.9 141.2145.7 148.8 135.1 146.2 140.1 139.3 140.2 147.1 147.9 139.9 137.7 148.9138.2 137.9 150.3 143.3 150.6 141.9 137.4 142.9 141.8 149.7 138.5 154.0141.6 151.3 133.1 156.3 139.5 147.8 145.1 134.9 141.4 147.5 139.6 147.7142.5 140.8 142.7 141.9 146.4 140.5 145.8 143.6 140.9 136.9 143.5 152.3130.5 149.8 143.9 140.7 143.8 138.9 147.9 142.3 141.4 148.1 142.9 146.6132.1 143.6 142.4 145.9 150.0 148.9 146.7 143.3 146.7 144.0 146.5 139.2135.5 149.0 139.6 144.4 142.1 142.4 143.4 140.2 138.7 134.4 145.4 139.9找出全距 即最大值与最小值之差。全距(R)= 160.9125.9 = 35确定组距 为相邻两组段最小值之差。通常以R的1/10进行估计。组距(i)= 全距(R)/10 = 35/10 = 3.5 可取i =4。划分组段每个组段应有一个起始值作为组下限和一个终止值作为组上限 ; 第一个组段应包括最小值,最后一个组段应包括最大值; 组段数一般取815个;为避免相邻两组段界限互相包含,除最末一个组段外,其余组 段只写下限。 整理频数分布 计算各组段频数、累计频数和累计频率。组组 段划 记记频频 数 125 11294 1339 137 正正正正28 14135 14527 14911 1534 1571611 合 计计120表1 120名12岁健康男孩身高的频数分布表二、计数资料和等级资料的频数分布表1、计数资料的频数分布表表2 100名大学生性别的频数分布表性别别频频数频频率(%)累计计频频数累计计频频率(%)男4040.04040.0女6060.0100100.0合计计100100.02、等级资料的频数分布表表3 100名大学生性别的频数分布表视视力等级级频频数频频率(%)累计计频频数累计计频频率(%)差826.67826.67中1240.002066.67良1033.3330100.00合计计30100.00三、频数分布表的作用1、揭示资料的频数分布特征与类型(1)频数分布的特征集中趋势 反映变量值平均的数量水平。离散趋势 反映变量值相互之间变异的程度。(2)频数分布的类型对称分布 集中位置居中,左右两侧的频数基本一致。非对称分布 集中位置偏向一侧,左右两侧频数不一致。2、观察离群值 便于发现一些特大、特小的可疑值。 第二节计量资料的统计描述一、集中趋势的描述含义 集中趋势是指计量资料中,所有观察值的中心位置。反映一组同质变量值的平均数量水平。常用指标 算术平均数、几何平均数、中位数1、算术均数(arithmetic mean)简称均数(mean),用x及表示。 适用范围 变量值呈对称分布,尤其是正态分布的计量资料 计算方法直接法 变量值个数不多,直接相加除以变量值个数。加权法 变量值较多或频数表资料。组组 段组组中值值(X0)频频数(f)fx 125 12711271291314524 13313591215 137139283892 141143355005 145147273969 149151111661 1531554620 1571611591159 合 计计12017172表1 120名12岁健康男孩身高的频数分布表2、几何均数(geometric mean, G) 适用范围 变量值呈对数对称分布等比级数资料 计算方法直接法 变量值个数不多,直接将其乘积开n次方。加权法 变量值较多或频数表资料。抗体滴度人数(f)滴度倒数(x)lgxflgx 1 2220.30100.6020141140.60216.6231 181880.903116.2558 11636161.204143.3476 13222321.505133.11221648641.806214.4496112831282.10726.3216 合 计计100120.7119表4 100名患者抗体滴度的频数分布表3、中位数(median, M)一组按大小顺序排列的变量值,位次居中的数值即中位数。 适用范围 变量值呈偏态分布 分布类型不清 变量值的一端(或两端)无确定数值开口型资料 计算方法直接法 变量值个数不多。频数表法 变量值个数较多,先整理频数表。二、离散趋势的描述含义 离散趋势是指计量资料所有观察值偏离中心位置的程度,反映一组同质变量值相互之间参差不齐的程度,即离散度或变异度。常用指标 全距、方差、标准差、变异系数。1、全距(range, R)又称极差,是一组变量值中最大值与最小值的差。 优点 计算简单 缺点 仅考虑了资料的最大值和最小值,不能反映组内其它数据的变异程度。2、百分位数(percentile) 含义 又是一个位置指标,用Xp%。它表示在按照升序排列的数列中,其左侧(即小于Xp%侧)的观察值个数在整个样本中所占百分比为p%,其右侧(即大于Xp%侧)的观察值个数在整个样本中所占百分比为(100-p)% 计算 式中:是百分位数,L是所在组段的下限,i是该组段的组距,fp是该组段的频数,n是总频数,fl是该组段以前的各组段的累计频数。四分位数(quartile)四分位间距(quartile range, Q) 含义 统计学将3个特殊的分位数X25%、 X50%、 X75%统称为四分位数。X25%:记为Q1,称作第一四分位数;X50% :记为Q2,称作第二四分位数; X75% :记为Q3,称作第三四分位数;并且将与差值称为四分位间距(quartile range, Q) 计算 Q= Q3 Q13、方差(variance)用2和s2表示。离均差的和离均差的平方和方差方差反映变量值变异程度的大小,方差越大,说 明变量值的变异程度越大;方差越小,说明变异程度 越小。 优点 全面考虑了一组变量值中的每一个数据。 缺点 将变量值的单位进行了平方。4、标准差(standard deviation, SD)用和s表示。 计算方法 直接法 加权法标准差反映变量值变异程度的大小,。 标准差的应用 表示一组变量值变异程度 标准差越大,说明变量值的变异程度越大,即变量值围绕均数的分布较离散,均数的代表性较差;标准差越小,表示变量值的变异程度越小,即变量值围绕均数的分布较密集,均数的代表性较好。计算变异系数当两组变量值单位不同,或两均数相差较大时,不能直接用标准差比较其变异程度,需要用变异系数做比较。估计变量值的频数分布 计算标准误5、变异系数(coefficient of variation, CV) 含义 是一个度量相对离散程度的指标。 计算 例1:某地20岁男子身高均数为166.06cm,标准差为4.95cm,体重均数为53.72kg,标准差为4.96kg,试比较身高与体重的变异程度。例2:该地新生男婴的平均身高为50cm,标准差为3.0cm,试比较该地20岁男子与新生男婴的变异程度。例1: 身高 CV = 4.95/166.06 100% = 2.98%体重 CV = 4.96/53.72 100% = 9.23%例2:新生儿 CV = 3/50 100%= 6%第六章参数估计几种重要的连续性随机变量分布:正态分布标准正态分布t分布见P72第五章第四、五节正态分布 (normal distribution) 一、正态分布的概念正态分布是一种连续性随机变量常见而重要的分布。二、正态分布的特征1、在直角坐标的横轴(X轴)上方呈钟型曲线,以X=为为 对对称轴轴左右完全对对称,但与X轴轴永不相交;2、在X=处处有最大值值;X越远远离,曲线线位置越低 ;3、取决于两个重要参数表示方式: :位置参数; :形状参数表示方式:( , 2)三、正态分布的面积规律 正态分布曲线下面积分布规律 范围内的面积占正态分布曲线下总面积的68.27%,即有68.27%的变量值分布在此范围内; 1.96范围内的面积占正态分布曲线下总面积的95.00% ,即有95.00%的变量值分布在此范围内; 2.58 范围内的面积占正态分布曲线下总面积的99.00%,即有99.00%的变量值分布在此范围内; 四、正态分布的应用 估计医学正常值范围; 正常值范围的含义 正常值范围的计算公式 x us 质量控制 x 2s 上、下警戒值 x 3s 上、下控制值表5 常用的u界值表是其它许多统计方法的理论基础正常值值范围围(%)单单 侧侧双 侧侧 800.8421.282 901.2821.645 951.6451.96 992.3262.576标准正态分布 (standard normal distribution) 正态分布是一个分布簇,对应于不同参数其位置和形状均 不相同,为应用方便,可进行变量转换:式中的u值称为标准正态变量,其频数曲线图即为标准正态分布( u分布),一般的正态分布N(,2)即转化为标准正态 分布N(0,1)。其面积分布可直接查表。t 分布 (t- distribution) 一、t 分布的概念由于样本均数 服从总体均数为、总体标准差为的正态分布N(,2) ,因此可同样进行u变换( ),将其转换为u分布N(0,12) 。实际工作中,由于 未知,用 替代,则( ) 不再服从标准正态分布,而服从t分布。t 分布 (t- distribution) 二、t分布的图形与特征1、t 分布是一簇对称的、均数为 0 的单峰分布曲线;2、当自由度 不同时时,曲线线的形状不同;3、 越小,则则t值值越分散, t 分布的峰部越矮而尾部翘得越高;随着 增大,t 分布曲线越来越接近于标准正态分布曲线,当 时, t 分布逼近标准正态分布。三、 t分布的界值第一节抽样分布与抽样误差一、样本均数的抽样分布与抽样误差 抽样误差的概念由抽样而引起的样本均数与总体均数之间的差别。(抽样研究中不可避免,有两种表现形式)样本均数的抽样分布从一个正态的总体中进行随机抽样:n各样本均数未必等于总体均数;n各样本均数间存在差异;n样本均数的频数分布仍是以总体均数为中心的正态分布;n样本均数的变异范围较原变量的变异范围小;n随着样本量
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号