资源预览内容
第1页 / 共46页
第2页 / 共46页
第3页 / 共46页
第4页 / 共46页
第5页 / 共46页
第6页 / 共46页
第7页 / 共46页
第8页 / 共46页
第9页 / 共46页
第10页 / 共46页
亲,该文档总共46页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
1,计量资料,统计描述,统计推断,计数资料,统计描述,统计推断,等级资料,统计描述,统计推断,2,第二章 计量资料的统计描述,统计描述(statistical description)是指采用统计图、统计表、统计指标等形式来对资料的数量特征和分布规律作出测定和描述的一种方法。 统计描述是统计分析的最基本内容 统计描述的三种形式: 统计表 统计图 统计指标,3,举例说明计量资料频数表的编制过程,例2-2、某市2005年100名18岁女孩身高(cm)资料如下:165.1 169.6 163.0 166.5 160.9 156.6 169.3 165.9 162.0 165.3165.1 164.0 159.9 171.2 169.1 168.0 160.6 157.1 162.5 165.8 161.5 166.3 168.5 167.1 161.0 159.0 167.3 157.2 163.7 163.1166.1 167.5 166.0 158.5 161.2 167.5 158.2 154.7 155.6 168.2162.8 163.6 164.2 161.8 160.7 173.6 159.8 158.0 159.4 158.2166.2 166.1 156.8 166.6 161.5 162.0 160.6 164.3 161.9 167.2170.2 160.4 163.0 163.5 162.9 167.4 162.2 162.7 169.7 159.9165.2 169.0 162.3 164.6 163.4 170.6 162.8 163.1 164.0 161.2161.0 161.3 165.0 160.4 168.9 165.0 164.2 165.2 162.6 164.5161.5 162.6 158.3 165.1 170.5 166.8 165.8 164.5 167.5 162.8,4,5,编制步骤如下: 1. 求极差(R) 也称为全距,是资料中最大值和最小值之差。本例: R=173.6-154.7=18.9(cm)2确定组数原则:即简化资料又不影响反映资料的规律性, 一般8-15组。本例:选择10组,。,6,3.确定组距 组距为每组的上限与下限之差。 实际中 组距=R/(预计的组数) 本例:组距=18.9/10=1.89 调整为2 注明:1)尽量取较整齐的数值最为组段的端点。2)组距以相等为宜。,7,4.确定组段的上下限 原则: (1)第一组包含最小的观察值,最后一组包含最大的观察值。(2)组和组之间不能互相包含。(3)x表示数据,则5.归组计数,做频数分布表。,2.30,2.60,编制频数表步骤流程图,9,计量资料频数分布图,10,频数分布表的用途: 揭示数值变量频数分布的类型和特征 分布的类型 分布特征 作为大样本数据的陈述形式 便于发现一些特大或特小的可疑值 便于进一步的统计分析,计量资料频数分布的类型和特征,12,第二节 描述集中趋势的指标,集中趋势常用平均数(average)来描述。 是一组数据典型或有代表性的值。 趋向于落在根据数据大小排列的数据的中心,因此可以用于度量集中位置(位置指标),算术均数 几何均数 中位数,13,第二节 描述集中趋势的指标,算数均数(mean) 简称均数 适用条件:对称分布,尤其是正态分布或近似正态分布 表示:总体均数用表示;样本均数用 表示 意义:描述一组同质资料的平均水平。 计算方法: 直接法 间接法(频数表法),15,几何均数( geometric mean ) 适用条件:等比或等积资料对数正态分布资料 表示:G 计算方法:直接法加权法,16,几何均数(geometric mean)计算方法1.直接法:适用于样本量较小的计量资料。 2.间接法:加权法,适用于样本量较大的计量资料,如频数表资料。,18,中位数(median) 概念:中位数是将一组观察值按大小顺序排列后,位次居中的观察值。 适用条件:明显的偏态资料分布类型不明的资料一端或两端无界的资料 表示:M 计算方法,19,直接法:适用于样本量较小的计量资料。 9例正常人的发汞值(mol/kg ):1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 10例正常人的发汞值:1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 16.3,20,频数表法:适用于样本量较大的计量资料,如频数表资料。其中 LM:M所在组下限i:M所在组组距fM:M所在组频数n:样本例数fL:M所在组段之前的累计频数,21,22,附注:百分位数(percentile)符号: 性质:一种位置指标。 意义:一个百分位数 将全部变量值分为两部分,使得全部变量值中有 的变量值比它小,1- 变量值比它大。,23,百分位数示意图,24,25,百分位数例,利用上表,求P50,P25,P75,26,平均数应用的注意事项,同质的资料计算平均数才有意义 根据资料分布的特征选用适当的平均数 均数:单峰对称分布的资料 几何均数:等比资料、滴度资料、正偏态资料 中位数:理论上可用于任何分布资料,但当资料适合计算均数或几何均数时,不宜用中位数。(偏态分布、分布不明资料、有 不确定值的资料),27,平均数应用的注意事项,计算几何均数时:变量值中不能有0同一组变量值不能同时存在正、负值若变量值全为负值,可先将负号除去,算出结果后再冠以负号 样本含量较少时不宜计算靠近两端的百分位数 平均数要与变异指标结合使用,28,看一个例子:,有甲、乙两组同性别同年龄儿童体重(kg): 甲组 26,28,30,32,34 =30 kg n甲=5 乙组 24,27,30,33,36 =30 kg n乙=5 丙组 26,29,30,31,34 =30 kg n乙=5,第三节 描述离散趋势的指标,29,30,例如,某零件的真实长度为a,现用甲、乙两台仪器各测量10次,将测量结果X用坐标上的点表示如图:,若让你就上述结果评价一下两台仪器的优劣,你认为哪台仪器好一些呢?,测量结果的均值都是 a,因为乙仪器的测量结果集中在均值附近,31,极差 四分位间距 方差 标准差 变异系数,描述离散趋势的统计指标,32,1、极差 range,符号:R 计算:R最大值最小值 R反映的是观察值变异的范围大小。 适用条件:任何资料 缺点:易受特大、特小值影响,不稳定;除最大、最小值,不能反映其他数据的变异度;样本量越大极差就会越大。 优点:简单明了,33,2、四分位数间距 quantile range 符号: Q(中间一半观察值的极差) 计算 :Q=P75-P25下四分位数:上四分位数: Q越大说明数据间的变异越大。 适用条件:可用于任何资料,主要用于偏态资料 特点:比极差要稳定,34,3. 方差 variance 考虑了每个观察值的离散程度 符号: 2 总体方差 S2 样本方差 计算 :方差越大,观察值的变异就越大。 适用条件:对称分布、正态分布 特点:它反映的是所有观察值的变异情况,35,几个符号,离均差 离均差平方和SS 自由度: 方差S2= SS/ ,36,4.标准差 standard deviation,符号: 总体标准差 S 样本标准差 计算:意义:标准差越大,观察值的变异就越大,数据越分散,均数的代表性越差;反之,资料越集中,均数的代表性越好。 适用条件:对称分布、正态分布资料,37,标准差的基本内容是 “离均差”,它显示一组变量值与其均数的间距,故标准差直接地、总结地、平均地描述了数据变异的大小。,38,实用计算公式:频数表资料:,39,例 利用下表中的数据和频数表法计算标准差。,Nf,fX,fX2,40,5. 变异系数(coefficient of variation),性质:描述相对离散程度 符号: CV(没有单位) 计算: 适用条件:用于单位不同或单位相同,但均数相差较大的资料间变异程度的比较。,41,变异系数的两个特点及相应的用途,没有单位 反映标准差占均数的百分比或标准差是均数的几倍 可用来比较度量衡单位不同的资料的变异度 不受平均水平的影响 反映的是以均数为基数的相对变异的大小 比较均数相差悬殊的资料的变异度,42,某地20岁男子100人,身高均数为166.06cm,标准差为4.95cm;体重均数为53.7kg,标准差为4.96kg,试比较身高和体重的变异。,身高体重,43,绝对变异受平均水平的影响 相对变异排除了平均水平的影响,44,平均数与变异度的关系,平均数表示的集中性与变异度表示的离散性,是从两个不同的角度阐明计量资料的特征 变异度越小,平均数对各变量值的代表性越好 变异度越大,平均数对各变量值的代表性越差,45,平均数与变异度的关系,通常,平均数与变异指标一起描述资料的分布特征。 用均数和标准差描述正态分布资料的特征; 用中位数和四分位数间距描述偏态分布资料的特征。,46,资料的指标描述,是统计描述的一个重要的组成部分 定量资料的统计指标 平均水平指标:算术均数、几何均数、中位数 等。 离散程度指标:全距、四分位数间距、方差、标准差、变异系数。,
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号