资源预览内容
第1页 / 共75页
第2页 / 共75页
第3页 / 共75页
第4页 / 共75页
第5页 / 共75页
第6页 / 共75页
第7页 / 共75页
第8页 / 共75页
第9页 / 共75页
第10页 / 共75页
亲,该文档总共75页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第二章 个体变异与变量分布一、个体变异二、频数分布三、定量资料的统计指标四、定性资料与等级资料的统计指标1个体变异(individual variation) 是同质观察对象间表现出的差异。 变异是生物体在一种或多种、已知或未知的不可控因素作用下所产生的综合反映。 就个体而言:变异是随机的(random)。 就总体而言:个体变异是有规律的。2幻灯片 1个体变异是统计学应用的前提个体变异抽样误差统计推断3(一)定量资料的频数分布(一)定量资料的频数分布例: 某市 1997 年 12 岁男童 120 人的身高 (cm) 资料142.3156.6142.7145.7138.2141.6142.5130.5134.5148.8134.4148.8137.9151.3140.8149.8145.2141.8146.8135.1150.3133.1142.7143.9151.1144.0145.4146.2143.3156.3141.9140.7141.2141.5148.8140.1150.6139.5146.4143.8143.5139.2144.7139.3141.9147.8140.5138.9134.7147.3138.1140.2137.4145.1145.8147.9150.8144.5137.1147.1142.9134.9143.6142.3125.9132.7152.9147.9141.8141.4140.9141.4160.9154.2137.9139.9149.7147.5136.9148.1134.7138.5138.9137.7138.5139.6143.5142.9129.4142.5141.2148.9154.0147.7152.3146.6132.1145.9146.7144.0135.5144.4143.4137.4143.6150.0143.3146.5149.0142.1140.2145.4142.4148.9146.7139.2139.6142.4138.7139.9 41.频数分布表的制作步骤 ( 1 )计算极差( R )R= Xmax Xmin=160.9-125.9=35 ( cm ) ( 2 )确定组数、组距:组数: 8 12组距:i= R/ 组数 =35 / 10 =3.5 4 ( cm )( 4 )确定组段:含下限,不含上限第一组段下限 Xmin最后一组上限 Xmax( 4 )划记:计算频数、频率2.分布图512410.008312820.0167132100.0833136220.1834140370.3083144260.2167148150.125015240.033315620.0167组 段频 数频 率16016410.0083合计1201.00001997 年某市 120 名 12 岁男童的身高 (cm) 频数分布划记正正正正正正正正正正正正正正正正正正正正正正正上一张幻灯片6某市 120 名 12 岁男童身高的频数分布124132140148156164010203040人 数身高(cm)7定性资料的整理:根据指标的自然属性归类,计数频数等级资料的整理:根据指标的不同等级归类,计数频数507 名傣族人血型的频数分布O 205 40.43A 112 22.09B 150 29.59血型频数频率(%)AB 40 7.89合计 507 100.00(二)定性资料及等级资料的频数分布8709 对肺癌患者和非肺癌患者吸烟情况肺癌64724119709组别男性女性 合计 吸烟不吸烟吸烟不吸烟对照622272832709合计12692969511418此表是Doll和Hill于1948年至1952年间采用回顾性配对调 查方法研究了吸烟与肺癌的关系 得到的资料(此表分类方法 是交叉分类) 9例:某医院探讨不同期次矽肺的胸部平片肺门密度变化, 资料如下表,问矽肺患者肺门密度的增加与矽肺期次有无 关系?肺门门密度级别级别 + + + 43 188 14 245 1 96 72 169 6 17 55 78合 计计 50 301 141 492合计矽肺期次10描述分布类型描述分布的特征便于发现特大、特小的可疑值便于计算有关指标、统计分析与处理频数分布表和频数分布图的用途11(三)数据的分布类型对称分布:非对称分布(偏态分布)对称分布:频数以中间最多,两侧逐渐减少,基本对称右偏态(正偏态):高峰在左侧,尾部拖在右侧左偏态(负偏态):高峰在右侧,尾部拖在左侧单峰分布:双峰或多峰分布: 正偏态(右)负偏态(左) 分布的对称 峰的多少12某市 120 名 12 岁男童身高的频数分布124132140148156164010203040人 数身高(cm)1370 3 5 7 9 11 13 15 17 19 21 10 20 30 40 50 60 0 1 发汞含量( )239 人发汞含量的频数分布人数140 10 20 30 40 50 60 70 80 90 100 100 200 3000 400自评分某城市 892 名老年人生存质量自评分的频数分布人数150 5 10 15 20 25 30 35 40 45 0 10203040 生存时间 (月)102 名黑色素瘤患者的生存时间频数分布人数160 10 20 30 40 50 60 70 80 0 1000 200030004000 人数死亡年龄 (岁)某地某年 10000 例死亡者年龄分布 17分布类型对称分布正偏态(右)负偏态(左)幻灯片 118集中位置的描述离散趋势的描述三、定量资料的统计指标19是描述一组变量值的集中趋势或平均水平的统计指 标。是一组变量值的集中水平的代表值。种类:算术均数、几何均数、中位数、众数、加权均数等注意:同质的变量值才能在一起求平均数!平均数(集中位置描述)20(一)算术均数(arithmetic mean)简称均数(mean)1 .适用条件:单峰对称分布、正态分布的资料2 .计算公式:小样本:加权系数例:某门功课的成绩:平时占 0.2 ,期中占 0.3,期末占 0.5则平均成绩为:21大样本:各组段的频数各组段的组中值2212410.008312820.0167132100.0833136220.1834140370.3083144260.2167148150.125015240.033315620.0167组 段频 数频 率16016410.0083合计1201.00001997 年某市 120 名 12 岁男童的身高 (cm)组中值12613013413814214615015415816223例:五人血清抗体滴度:1:10, 1:100 , 1:1000 , 1:10000, 1:100000看一个实例241 适用条件:各变量值成倍数或对数正态分布的资料2 公式:3 计算(二)几何均数(geometric mean )25例、有 5 份血清的抗体效价分别为1:10 , 1:20 , 1:40 , 1:80 , 1:160 ,求平均抗体效价?此 5 人血清的平均抗体效价为 1 : 40 。26使用注意:(1)变量值中不能有 0;(2)同一组变量值不能同时存在正,负值;(3)若变量全为负值,计算时将负号除去,算完后再加上。有 25 份血清的抗体效价分别为抗体效价 1:10 , 1:20 , 1:40 , 1:80 , 1:160 ,人数 2 5 8 7 3所以,这 25 份血清的平均效价是 1:44.7 。27(三)中位数(median)及百分位数(percentile)将一组变量值从小到大排列,居中的那个变量值。1 .适用条件:任何分布(偏态、分布不明、两端无界限)2 .计算公式:小样本:当 n 为偶数例、有 10 人的发汞值( )1.1,1.8,3.5,4.2,4.8,5.6,5.9,7.1,10.5,16.3当 n 为奇数:28L : M 所在组的下限i : M 所在组的组距fm : M 所在组的频数: M 所在组前一组累积频数大样本:57发汞值60M5729例 2.16 在某市测得 239 名正常人发汞,资料见表 2.11 ,试计算其 95 参考值范围。 表 2.11 某市 239 名正常人发汞值发汞值 (g/g)男性女性合计 频数 1 81220 20 3313566 86 5283260146 7232548194 911 718212 1112 416228 13 3 3 6234 15 1 0 1235 17 10 1236 1921 2 1 3239 合 计120119239-某市 239 名正常人发汞值累积 频数30百分位数0 Px M 100%百分位数是一个位置指标,以 PX 表示。一个百分位数将全部观察值分为两部分:x%的变量值小于 PX ;( 100 -x )%的变量值大于 PX 。有 10 人的发汞值(umol/Kg)1.1, 1.8, 3.5, 4.2, 4.8, 5.6, 5.9, 7.1, 10.5,16.33118122020 331356686 5283260146 7232548194 911718212 1112416228 13336234 15101235 17101236 1921213239 合 计120119239-某市 239 名正常人发汞值发汞值 男性 女性 合计频数 累积频数32应用中位数和百分位数时注意事项:所有分布类型的资料均可计算中位数和百分位数;例数较少时,接近两端的百分位数不稳定,不宜用两端的百分位数估计频数分布范围;中位数抗极端值的影响,比均数好,但不及均数精确;当资料可计算均数或几何均数时,不宜计算中位数。33描述集中趋势的指标:平均数种类 适用条件 计算公式正态分布对数正态任何分布34有甲、乙两组同性别同年龄儿童体重 (公斤) :甲组 26 , 28 , 30 , 32 , 34 乙组 24 , 27 , 30 , 33 , 36 看一个实例上述两组数据的特点: 集中位置 相同:均为30kg 离散程度不同:各观察值与均数的的差值不同35离散趋势的描述全距(range)四分位数间距( i
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号