资源预览内容
第1页 / 共132页
第2页 / 共132页
第3页 / 共132页
第4页 / 共132页
第5页 / 共132页
第6页 / 共132页
第7页 / 共132页
第8页 / 共132页
第9页 / 共132页
第10页 / 共132页
亲,该文档总共132页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第四章 定量资料的统计描述流行病与卫生统计学教研室【例4-1】2006年某市120名10岁男孩的身高(cm)资料如下135.4 139.8 144.0 147.3 146.3 142.5 138.1 143.6 141.6 152.6 132.1 144.7 143.6 146.8 144.2 141.3 137.5 142.8 140.6 150.4 145.9 140.2 144.5 148.2 146.4 142.4 138.5 148.9 146.2 155.4 134.2 139.2 143.5 141.6 143.5 142.3 148.9 143.6 141.5 151.1 132.5 138.7 149.6 146.9 148.7 141.5 137.8 142.7 144.6 151.8 136.4 140.0 144.3 147.5 145.6 142.5 138.5 143.7 149.5 153.6 130.2 138.9 143.7 146.5 138.8 141.7 136.9 142.0 140.5 150.3 135.7 145.7 144.2 147.8 145.8 142.6 138.6 143.8 141.3 153.9 133.4 139.6 143.7 147.5 144.8 148.0 137.4 142.1 140.8 141.8 134.5 139.4 142.9 147.5 144.7 141.8 136.9 143.5 140.7 151.4 145.6 147.3 143.9 141.9 151.6 145.6 148.9 144.3 139.1 145.8 145.6 145.3 147.6 148.6 145.5 137.3 146.5 140.3 148.4 136.5 【问题4-1】该资料为何种类型资料?如何对该资料进行描述?(描述10岁男孩身高的数量特征)第一节 频数表和频数图第二节 集中趋势的描述第三节 离散趋势的描述第四节 正态分布及其应用本章主要内容由于个体变变异的存在,医学研究中某指标标在各个体上的观观察结结果不是恒定不变变的,但也不是杂杂乱无章的,而是有一定规规律的,呈一定的分布(distribution)将原始数据按照一定的标标准划分为为若干各组组,合计计各组组的频频数,得到频频数分布表;也可再将频频数表绘绘制成频频数分布图图频数(frequency):一组资料中各观察值或不同组段内观察值出现的频繁程度(次数)频数分布表(frequency table):由变量值及其频数编制而成的表,简称频数表。一、频数分布表(一)频数表的编制1. 求极差(range):极差又称全距,是指全部观察值中最大值与最小值之差,用符号R表示R=xmax-xmin2. 确定组数和组距 (1) 根据研究目的和分析要求灵活确定组数: 若为计算用,组数可适当增多,以减少计算误差;若为显示分布特征,则组数不宜太多或太少, 一般n50,915(2)确定组距(class interval):相邻两个组段下限之差为组距,一般采用等距分组。 i=R/组数,为了方便资料整理汇总,组距一般取整数3. 确定组段 组段起点称为下限(lower limit) 组段终点称为上限(upper limit) 注意:第一组段必须包含最小值,最后一个组段必须包括最大值,各组段不能重叠。除最末一个组段需同时写出上下限外,其余组段只写出其下限11确定组段即确定每一组的起点(下限)和终点(上限) 。起点称为下限(lower limit)终点称为上限(upper limit) 上限=下限+组距4. 归组计数,整理成表 确定组段界限后,采用计算机或用划记法将各原始数据归入各组汇总,得出各组段的观察例数,也就是频数 。用计算机或手工划记法汇总,得到各组段观察单位个数,绘制成频数分布表表4-1 2006年某市120名10岁男孩身高(cm)的频数表身高 (1)频数 (2)频率(%) (3)累计频数 (4)累计频率(%) (5) 130 132 134 136 138 140 142 144 146 148 150 1521541561348 12 17 21 20 14 106310.82.53.36.7 10.0 14.2 17.5 16.7 11.78.35.02.50.81481628456686 100 110 116 119 1200.83.36.713.323.337.555.071.783.391.796.799.2 100.0 合计 120 100.0 (二)频数分布表的用途1. 揭示频数分布特征2. 揭示频数分布类型3. 便于发现特大或特小的可疑值4. 便于进一步计算统计指标和进行统计分析频数分布的两个特征 集中趋势(central tendency):指一组数据向某个位置聚集或集中的倾向 离散趋势(dispersion):指一组数据的分散性或变异度 频数分布的类型频数分布的类型 对称分布对称分布(symmetric distribution) :(symmetric distribution) :集中位集中位置在中间,左右两侧频数基本对称置在中间,左右两侧频数基本对称 偏态分布偏态分布(skewed distribution):(skewed distribution):集中位置集中位置偏向一侧,两侧频数分布不对称偏向一侧,两侧频数分布不对称 正偏态(正偏态(positive skewpositive skew)平均数大于众数平均数大于众数( (右偏右偏) ) 负偏态(负偏态(negative skewnegative skew)平均数小于众数平均数小于众数 ( (左偏左偏) ) 183. 便于发现某些特大或特小的可疑值对于频数表,如果连续某几个组段的 频数为0,接下来的组段出现频数不为0的数值,此数值即为可疑值。4.便于进一步计算指标和统计处理 可利用频数表计算百分位数、中位数、标准差等二、频数分布图频数分布图(graph of frequency)是以变量值为横坐标、频数(或频率)为纵坐标(不等距分组时以频率/组距=频率密度为纵坐标),以每个等宽的距形面积表示每组的频数(或频率)连续连续 型定量资资料:频频数图图中各距形是相连连的,又称直方图图(histogram)离散型定量资资料:频频数图图中各距形是间间隔的,又称直条图图(bar graph)图4-1 2006年某市120名10岁男孩身高的频数图频 数频 数频 数血清肌红蛋白(g/ml)负(左)偏态对称分布正(右)偏态23图 69例RA患者血清EBV-VCA-IgG 抗体滴度的频数分布图 101名正常人血清肌红 蛋白的频数分布正(右)偏态负(左)偏态434名少数民族已婚妇女现有子女数频数分布图集中趋势的描述平均数(average)是一类描述计量资料集中位置或平均水平的统计指标,在医学领域中常用的平均数有算术均数、几何均数、中位数、众数、调和均数一、算术均数(arithmetic mean)简称均数(mean),总体均数用希腊字母 (miu)表示,样本均数用 (x bar)表示。均数描述一组数据在数量上的平均水平直接法将所有数据直接相加,再除以总例数:是希腊字母,读作sigma,为求和符号1. 计算方法【例4-2】某医生测量了10名脑出血患者的血尿素氮(mmol/L)分别是:7.4、6.7、6.9、7.3、7.6、6.5、 7.8、8.2、8.0、6.6,试计算该组数据的均数加权法用于频数表资料或样本中相同观察值较多时,将相同观察值的个数(频数 f )乘以该观察值 x,以代替相同观察值逐个相加【例4-3】根据表4-1资料,用加权法求120名10岁男孩身高的均数f 起了“权数”的作用,权衡了各组中值由于频数不同对均数的影响。加权法计算的均数是近似的均数两个重要的性质适用于描述单峰对称分布,特别是正态分布或近似正态分布资料的集中趋势均数在描述正态分布特征方面有重要意义2. 均数的应用我也 知道 了!例 现有5人,其血清抗体效价分别为1:10、 1:100、 1:1000、 1:10000和 1:100000,求其效价倒数的平均水平若计算效价倒数的算术均数用算术均数反映这类资料的平均水平是不合适的先求效价倒数对数值的均数,然后求反对数1000位于10、100、1000、10000、100000的中间位置,具有很好的代表性,这种平均数就称为几何均数二、几何均数(Geometric mean,G)是n个观察值乘积的n次方根,又称倍数均数,用G表示 。直接法:当 n 较小时,直接将 n 个观察值的乘积开n 次方1. 计算方法加权法:当资料中出现相同观察值时,也可用加权法计算几何均数【例4-4】 某实验室测得7人血清中某种抗体的滴度分别为1/4,1/8,1/16,1/32,1/64,1/128,1/256,试求平均滴度 直接法【例4-6】50名麻疹易感儿接种麻疹疫苗后,测得血凝抑制抗体滴度资料见表4-3,求抗体的平均滴度。表4-3 50名麻疹易感儿血凝抑制抗体滴度加权法即50名麻疹易感儿接种麻疹疫苗后血凝抑制抗体的平均滴度为1/54 2. 应用及注意事项几何均数应用于: 等比资资料,如抗体平均滴度 对对数正态态分布资资料Remember!使用几何均数时应注意: 观察值不能有0 观察值不能同时有正值和负值。若全为负值,在计算时先把负号去掉,得出结果再加上负号Be careful!【例4-7】200名食物中毒患者潜伏期资料如表4-4,研究人员据此采用加权法计算均数得平均潜伏期为27小时。(1)该组数据在分布上有何特点? (2)用均数描述该资料的平均水平是否合适?三、中位数与百分位数表4-4 200名食物中毒患者的潜伏期潜伏期(小时) (1)频数 (2)累计频数 (3)累计频率(%) (4)=(3)/n030 3015.0127110150.5244915075.0362817889.0481419296.060 719999.57284 1200 100.0合计 200中位数(median):一组观察值从小到大排列,位次居中的观察值即中位数,是一个位置指标48P中位数(median):将一组观察值由小到大排序后,居于中间位置的数值即为中位数 ,用 表示。中位数是一种位置平均数,它将全部数据排列成的有序数列平均分为两部分,小于和大于中位数的观察值个数相等,各占50%。 直接法:观察值个数较少 n为奇数,n为偶数,【例4-8】某实验师对10只小白鼠染毒后观察各小鼠的生存时间(分钟),得数据为:35,60,62,63,63,65,66,68,69,69,试计算小白鼠的平均生存时间将10个观察值由小到大排列:35,60,62,63,63,65,66,68,69,69 频数表法LM 中位数所在组段下限 组距中位数所在组段的频数中位数所在组段前一组的累计频数【例4-9】根据例4-7的资料计算中位数表4-4 200名食物中毒患者的潜伏期潜伏期(小时) (1)频数 (2)累计频数 (3)累计频率(%) (4)=(3)/n030 3015.0127110150.5244915074.5362817889.0481419296.060 719999.57284 1200 100.0合计 200(小时) 百分位数(percentile):是指将一组观察值由小到大排序后,将其平均分成100等份,对应于每一分割位置上的数值就称为一个百分位数,用 表示x%(1
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号