资源预览内容
第1页 / 共49页
第2页 / 共49页
第3页 / 共49页
第4页 / 共49页
第5页 / 共49页
第6页 / 共49页
第7页 / 共49页
第8页 / 共49页
第9页 / 共49页
第10页 / 共49页
亲,该文档总共49页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第二章 数值变量的描述性统计 统计图表; 统计指标。第一节 频数分布一. 编制频数表的步骤 求极差 R=84-57cm=27(次/分) 划分组段 确定组数:较大样本时,一般取10组左右。 确定组距:极差/组数=27/10=2.73(次/分 ) 确定各组段的上下限:上限=下限+组距 统计各组段内的数据频数,编制频数表表2.1 130名健康成年男子脉搏(次/分)的频数分布表脉搏组段 (1)频数(2)频率(%)(3)累计频数(4)累计频率(%)(5)5659626568717477808385合计251215252619151011301.543.859.2311.5419.2320.0014.6211.547.690.7727193459851041191291301.545.3814.6226.1545.3865.3880.0091.5499.23100.00二. 频数表的用途 可以揭示资料的分布类型和分布特征, 以便于选用相应的统计分析方法。 便于进一步计算指标和统计处理。 便于发现某些特大或特小的可疑值。第二节 集中趋势的描述 三种平均数 算术均数 几何均数 中位数。(一)算术均数(x) 简称均数,适合于表达呈正态分布资料 的平均水平。 直接法: X=X1+Xn n=Xn例2-2:X=81+70+66+6913=71.69(次/分) 加权法 X=fXf例: X=572+605+6312+84 1130=71.12(次/分 )(二)几何均数(G) 适用于原始数据分布不对称,但经对数 转换后呈对称分布的资料。 G= n X1X2Xn G=lg-1( )lgXnG=lg-1( )f lgXf例:40名麻疹易感儿童接种麻疹疫苗后一个月,测其血凝抑 制抗体滴度,结果如表所示,求几何均数。抗体滴度人数f滴度倒数XlgX1:41:81:161:321:641:1281:2561:512145811641481632641282565120.60210.90311.20411.50511.80612.10722.40822.7093G=lg-1(f lgX n)=lg-1(1 0.6021+4 0.9031+ +1 2.7093)40=lg-1(4067.1282) =48G=1:48(三)中位数(M) 适合于表达偏态资料、或分布不明的资 料的平均水平,尤其适合于表达只知数 据的个数、但部分较大或较小数据的具 体数值未准确知道的资料的平均水平。对于原始数据和频数分布表资料,分别用下列两式计算中位数。M=(X n/2+X(n/2+1) )/2 (n为偶数)X(n+1)/2(n为奇数)M = LM + iM fM(n2fL ) 其中, LM :中位数所在组下限;iM :中位数所在组的组距;fM :中位数所在组的频数;fL :中位数所在组前一组的累计频数。2例2-4 表2.3 107正常人的尿铅含量(g/L)的中位数计算表含量( g/L )(1)频数f(2)累计频数 f(3)累计频率 %(4)0481216202428合计1422291815612107143665839810410510713.0833.6460.7577.5791.5997.2098.13100.00M=8+ (107/2 - 36) = 10.41(g/L)4 29第三节 离散程度的描述 例:设有三组同年龄、同性别儿童体重 (kg)数据如下: 甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34 描述离散程度的指标: 极差、四分位数间距、方差、标准差及变异 系数。一. 极差(全距,R) 为一组同质观察值中最大值与最小值之 差。 甲组 R=34-26=8 乙组 R=36-24=12 甲组数据分布较乙组集中。优点:计算简单缺点:1.没有充分利用样本信息,只考虑最大值与最小 值之差异,不能反映组内其它观察值的变异度。2.样本含量越大,抽到较大或较小观察值的可能 性越大,则极差可能越大,因此,样本含量悬殊 时不宜用极差比较分布的离散度。所以,一般不用极差来反映离散程度。二. 四分位数间距(Q)1.分位数的概念分位数是一种位置指标,一个特定的分位数将任何一 个频数曲线下的面积分为两部分。第1四分位数记作Q1,第2、第3四分位数,分别记作 Q2、Q3;第1百分位数,记作P1。同理,还有第2、第 3、 、第99百分位数,分别记作P2、P3、 、P99。显然,Q1=P25、Q2=P50=M、Q3=P752.百分位数的计算公式对连续型变量频数表资料,按下式计算第X百分位数PX:PX=LX+iX fX(nX%fL )其中, LX :第X百分位数所在组下限;iX :第X百分位数所在组的组距;fX :第X百分位数所在组的频数;fL :第X百分位数所在组前一组的累计频数。例 某地200例正常成人血铅含量的频数分布如表所示,请计 算出血铅含量的95%正常值范围。200例正常成人血铅含量的频数分布表血铅含量 频数 累计频数(mol/L) (1) (2) 0 0.24 0.480.72 0.97 1.21 1.45 1.69 1.93 2.17 2.42 2.66 2.903.146 48 4336 28 13 14 4 4 1 2 0 16 54 97133 161 174 188 192 196 197 199 199 200解:即求P95。nX%=20095%=190P95 =1.69+ (190-188 )0.244=1.81 (mol/L) 故某地正常人血铅含量95%的 单侧正常值范围的上限为 1.81 (mol/L)。 3.四分位数间距(Q)Q=P75-P25Q=QU-QL优缺点:用四分位数间距作为描述数据分布离散 程度的指标,比极差稳定,但仍未考虑到每个数 据的大小,常用于描述偏态频数分布以及分布的 一端或两端无确切数值资料的离散程度。例2-10 据书中表2.3资料求四分位数间距Q。P25= 4+422(107 25%14)=6.32 (g/L)P75= 12+418(107 75%65)=15.39 (g/L)Q= P75 - P25=15.39-6.32=9.07 (g/L)三.方差2=(X-)2NS2=(X-X)2n - 1n - 1称为自由度四.标准差 =(X-)2 NS=(X-X)2 n - 1直接法; s=X2-( X)2/n由于(X-X)2 =X2-( X)2/n,所以n - 1加权法: s= fX2-( fX)2/f f - 1例2-12 求书中表2.2数据的标准差。解 f=130 fX=9246 fX2=662076S= 662076-92462/130 130-1= 5.89(次/分)五. 变异系数(CV) CV=SX100%1.用于比较度量衡单位不同的多组资料的变异度。2.比较均数相差悬殊的多组资料的变异度。六. 适用情况第四节 正态分布一. 正态分布的概念和特征 正态分布的图形:正态分布的密度函数 : f(X)=1 2e-(X-)2 2 2-|T| 0.0001 Range 27Num = 0 130 Num 0 130 Q3-Q1 9M(Sign) 65 Pr=|M| 0.0001 Mode 70Sgn Rank 4257.5 Pr=|S| 0.0001ExtremesLowest Obs Highest Obs57( 7) 81( 98)58( 22) 82( 14)60( 109) 82( 16)60( 40) 82( 111)60( 25) 84( 105)OBS M S MAX P75 MED P25 MIN R Q MODE1 71.3154 5.80168 84 76 72 67 57 27 9 70OBS P1 P21 59.9441 82.6867Cumulative CumulativeX Frequency Percent Frequency Percent-56 2 1.5 2 1.559 5 3.8 7 5.462 12 9.2 19 14.665 15 11.5 34 26.268 25 19.2 59 45.471 26 20.0 85 65.474 19 14.6 104 80.077 15 11.5 119 91.580 10 7.7 129 99.283 1 0.8 130 100.0data lx;input x f;cards;2.75 1 3.25 8 3.75 9 4.25 23 4.75 25 5.25 17 5.75 9 6.25 6 6.75 2 7.25 1;proc means;var x;freq f;output out=aa mean=m std=s;data b;set aa;p1=m-1.96*s;p2=m+1.96*s;proc print;var p1 p2;run;Analysis Variable : XN Mean Std Dev Minimum Maximum-101 4.7351485 0.8816333 2.7500000 7.2500000-
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号