资源预览内容
第1页 / 共62页
第2页 / 共62页
第3页 / 共62页
第4页 / 共62页
第5页 / 共62页
第6页 / 共62页
第7页 / 共62页
第8页 / 共62页
第9页 / 共62页
第10页 / 共62页
亲,该文档总共62页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第九章第九章 数值变量资料的统计分析数值变量资料的统计分析 计量资料?计量资料? 统计分析统计分析 统计描述统计描述 统计推断统计推断第一节第一节 数值变量资料的统计描述数值变量资料的统计描述例例1 某年某市抽样调查了某年某市抽样调查了120名名5岁女孩身岁女孩身高高(cm),资料如下,试通过频数表和频,资料如下,试通过频数表和频数分布图进行描述。数分布图进行描述。105.5 118.6 110.5 104.2 110.9 107.9 108.1 99.1 104.8 116.5 110.4 105.7 118.2 117.0 112.3 116.5 113.2 107.9 104.8 109.6109.1 108.1 109.4 118.2 103.9 116.0 110.1 99.6 109.3 107.5108.6 100.6 108.8 103.8 95.3 104.4 102.7 101.0 112.1 118.7100.2 102.1 114.5 110.4 115.0 120.5 115.5 112.7 103.5 114.4100.7 116.3 105.1 112.8 118.5 113.3 107.9 114.6 121.4 110.7108.8 114.7 110.6 110.7 116.6 106.9 105.5 107.4 118.4 115.3 119.7 113.9 116.5 112.9 112.9 110.0 99.5 112.7 106.7 119.1109.6 110.7 102.8 111.3 105.2 117.0 114.9 120.0 103.4 109.3108.8 105.7 109.0 108.8 108.1 116.4 108.3 111.0 113.0 101.4108.7 119.1 106.2 115.2 124.0 98.7 106.0 114.7 111.9 107.3104.1 109.1 108.8 111.0 106.8 120.2 105.8 103.1 105.0 115.0编制频数表编制频数表 步骤步骤: 1. 求全距求全距 (range, R) (极差极差): 全部观察值中的最大值与最小值之差全部观察值中的最大值与最小值之差. R=124.0-95.3= 28.7cm 2. 划分组段划分组段 (区间区间) 确定组数确定组数: (1015个为宜)个为宜) 确定组距确定组距: 等距分组时等距分组时, 组距组距 = 全距全距/ 组数组数i = 28.7 / 10=2.87 3 确定各组段的上下限确定各组段的上下限: 3. 统计各组段频数统计各组段频数频数频数 (frequency):): 不同组别内的观察值个数不同组别内的观察值个数某市某市120名名5岁女孩身高频数分布岁女孩身高频数分布 组段组段 划记划记 频数频数 频率频率 累积累积 累积累积 (cm) (f) (%) 频数频数 频率频率 95 98 101 104 107 110 113 116 119 122 125 1 7101825211515 7 1合计合计 120 100.0 - - 0.83 5.83 8.3315.0020.8317.5012.5012.50 5.83 0.83 1 8 18 36 61 82 97112119120 0.83 6.6715.0030.0050.8368.3380.8393.3399.17100.0一一正正 正正正正某市某市120名名5岁女孩身高频数分布图岁女孩身高频数分布图频数分布图频数分布图计量资料的频数分布应该绘制计量资料的频数分布应该绘制直方图直方图直方的直方的面积表示频数面积表示频数的多少,的多少,直方面积占总面积的直方面积占总面积的比例表示频率大小比例表示频率大小横轴横轴- 观察变量观察变量 (组中值(组中值)纵轴纵轴 频数或频率频数或频率频数表的频数表的主要用途主要用途1. 揭示频数分布的特征揭示频数分布的特征2. 揭示频数分布的类型揭示频数分布的类型对称分布:对称分布:偏态分布:偏态分布:3. 便于发现特大或特小的可疑值便于发现特大或特小的可疑值4. 便于进一步计算统计指标和进行统计分析便于进一步计算统计指标和进行统计分析 集中集中 或或 离散离散二、二、 平均水平指标平均水平指标例例2 现有现有12名名5岁女孩的身高值分别为岁女孩的身高值分别为112.9,99.5,100.7,101.0,112.1,118.7,107.9,108.1,99.1,104.8,116.5,试问平均身高是多,试问平均身高是多少?少?算术均数算术均数 (arithmetic mean)简称)简称均数(均数(mean) 直接法:直接法:例例1 某年某市抽样调查了某年某市抽样调查了120名名5岁女孩身高岁女孩身高(cm),资料如下资料如下. 试计算平均数试计算平均数f : 频数频数, X:组中值:组中值= (本组段下限(本组段下限+下一个组段的下限)下一个组段的下限)/ 2 加权法(加权法(weight method)某市某市120名名5岁女孩身高频数分布岁女孩身高频数分布 组段组段 组中值组中值 频数频数 (cm) (x) (f)95-98-101-104-107-110-113-116-119-122-125 96.5 99.5102.5105.5108.5111.5114.5117.5120.5123.5合计合计 120 ( f ) 1 7101825211515 7 1X=(96.5 1)+ (99.5 7)+ (102.5 10).120=110.11几何均数几何均数 (geometric mean, G) 对于等比资料或经过对数转换可称为正对于等比资料或经过对数转换可称为正态分布的资料,应计算几何均数。态分布的资料,应计算几何均数。例例3 某医院预防保健科用流脑疫苗为某医院预防保健科用流脑疫苗为75名名儿童进儿童进行免疫接种后,抗体滴度测定结果如下表,求平行免疫接种后,抗体滴度测定结果如下表,求平均滴度。均滴度。表表3 75名儿童的抗体滴度名儿童的抗体滴度 抗体滴度抗体滴度 频数频数(f)1:41:81:161:321:641:1281:256 4 8 16 32 64128256lgX 0.60210.90311.20411.50511.80622.10722.4082滴度倒数滴度倒数 4 9212012 5 4合计合计 75 107.7676flgX 2.4084 8.127925.286130.102021.674410.5360 9.6328平均抗体滴度为平均抗体滴度为 1 : 27.35=27.35几何均数几何均数 (geometric mean, G) 例例 4 某研究者测得某研究者测得7名名中年知识分子中年知识分子SCL-90得分,得分,分别为:分别为:87,90,91,92,95,96,108. 试求平试求平均水平均水平.中位数中位数 (median, M) 定义定义:一组数据,按照从大到小,或从小到大的:一组数据,按照从大到小,或从小到大的 顺序排列,位置居中的数,叫中位数。顺序排列,位置居中的数,叫中位数。奇数时:奇数时:偶数时:偶数时:直接计算法:直接计算法:例例4 为研究中年知识分子的心理健康状况,某学院为研究中年知识分子的心理健康状况,某学院对对1503名名知识分子进行了知识分子进行了SCL-90测定测定,结果如下表,结果如下表,试求平均水平。试求平均水平。频数表法:频数表法: 80-100-120-140-160-180-200-220-240-260-280-300表表2.4 1503名名中年知识分子中年知识分子SCL-90得分得分SCL-90总分总分频数频数448520226130 79 44 30 9 10 3 4累积频数累积频数 448 968119413241403144714771486149614991503累积频率累积频率 29.81 64.40 79.44 88.09 93.35 96.27 98.27 98.87 99.53 99.73100.00LM: 中位数所在组段下限中位数所在组段下限i : 中位数所在组段的组距中位数所在组段的组距fM : 中位数所在组段的频数中位数所在组段的频数fL: 中位数所在组段前一组的累积频数中位数所在组段前一组的累积频数 百分位数百分位数描述集中趋势的指标描述集中趋势的指标:1. 算术均数算术均数 (均数均数, mean)小样本小样本直接计算直接计算大样本大样本 加权法加权法适用条件适用条件: 均数的特点均数的特点: 各观察值与均数之差各观察值与均数之差( (离均差离均差) )的总和等于零的总和等于零 各观察值离均差平方和最小各观察值离均差平方和最小适用于描述单峰适用于描述单峰对称分布对称分布,特别是正态分布特别是正态分布 或近似正态分布的资料或近似正态分布的资料2. 几何均数几何均数 (geometric mean, G) 适用条件适用条件:原始观察值呈偏态分布原始观察值呈偏态分布,但经过但经过对数变换对数变换后呈正态分布或近似正态分布的资料后呈正态分布或近似正态分布的资料,如如血清抗体滴度、细菌计数等。血清抗体滴度、细菌计数等。应用时注意事项:应用时注意事项: 几何均数常用于等比资料或对数正态分布资料几何均数常用于等比资料或对数正态分布资料 观察值中若有观察值中若有0或负值,或负值, 则不能直接使用几何则不能直接使用几何 均数均数 若观察值都是负值,将负号去掉后计算,再若观察值都是负值,将负号去掉后计算,再把结果加上负号把结果加上负号 3. 中位数中位数 (median,M) 中位数是将一组观察值按大小顺序排列后,中位数是将一组观察值按大小顺序排列后,位次居中的观察值位次居中的观察值适用条件:适用条件: 1 可用于各种分布的资料可用于各种分布的资料 ,特别是偏态分布资料,特别是偏态分布资料 正态分布资料:正态分布资料: 均数均数=中位数中位数对数正态分布资料:对数正态分布资料: G=M2 也适用于两端无确切值的资料也适用于两端无确切值的资料3 分布不明确的资料分布不明确的资料 第三章第三章 离散趋势的统计描述离散趋势的统计描述例例 某医学院用自编生存质量量表测量某医学院用自编生存质量量表测量3组同年组同年龄、同性别中年知识分子龄、同性别中年知识分子 的躯体功能维度得的躯体功能维度得分。分。甲组:甲组: 8 8 9 10 11 12 12 乙组:乙组: 5 6 8 10 12 14 15丙组:丙组: 1 2 5 10 15 18 19 1. 极差(全距)极差(全距)= 最大值最大值-最小值最小值甲甲R=12-8=4;乙:;乙:R=15-5=10 丙:丙:R=19-1=18 2. 2. 四分位数间距四分位数间距 四分位数(四分位数(quartile,Q): 将将1或或100等分等分为为4个部分,在第个部分,在第25 位、位、50位、位、75位位3个点上的数个点上的数值就是四分位数。记作:值就是四分位数。记作: P25,P50,P75下四分位数下四分位数= P25上四分位数上四分位数= P75四分位数间距四分位数间距= P75 - P253.方差方差 (variance) 标准差标准差 (standard deviation, SD)离均差离均差: X- 或或 离均差平方和离均差平方和: 总体方差总体方差: 样本方差样本方差: 离均差之和离均差之和: 自由度自由度: degree of freedom, (df ) 或或 (n-1) 允许自由取值的变量值个数允许自由取值的变量值个数标准差标准差 (SD)方差方差开方开方大样本时大样本时-加权法加权法 例例 某医学院用自编生存质量量表测量某医学院用自编生存质量量表测量3组同年组同年龄、同性别中年知识分子龄、同性别中年知识分子 的躯体功能维度得的躯体功能维度得分。分。甲组:甲组: 8 8 9 10 11 12 12 乙组:乙组: 5 6 8 10 12 14 15丙组:丙组: 1 2 5 10 15 18 19 求标准差?求标准差? 甲组甲组 S =1.73 分分 乙组乙组 S =3.87 分分 丙组丙组 S =7.52 分分方差和标准差方差和标准差 是描述对称分布,特别是是描述对称分布,特别是正态分布或近似正正态分布或近似正态分布资料离散趋势(变异程度)的常用指标态分布资料离散趋势(变异程度)的常用指标方差和标准差越大方差和标准差越大- 变异程度越大变异程度越大例例. 某市城区某市城区120名名5岁女孩身高均数为岁女孩身高均数为110.15cm ,标标准差为准差为 5.86cm; 体重均数为体重均数为17.71kg, 标准差为标准差为1.44kg , 请比较离散程度请比较离散程度身高身高: 体重体重: =110.15cm =17.71kg S=5.86cmS=1.44kg4. 变异系数(变异系数(coefficient of variation, CV)也称离散系数也称离散系数CV=8.13%CV=10.45%用途用途:1. 比较比较计量单位不同计量单位不同的几组资料的离散程度的几组资料的离散程度2. 比较比较均数相差悬殊均数相差悬殊的几组资料的离散程度的几组资料的离散程度小小 结结描述计量资料离散程度的指标有描述计量资料离散程度的指标有: 1. 极差极差 (R) 2. 四分位数间距四分位数间距 (Q) Q = P75-P253. 方差方差 (S2) 4. 标准差标准差 (SD) 5. 变异系数变异系数 (CV)第四节第四节 正态分布及其应用正态分布及其应用正态分布正态分布是自然界最常见的一种分布,例如,是自然界最常见的一种分布,例如,测量误差、人体的尺寸、许多生理、生化指标测量误差、人体的尺寸、许多生理、生化指标的值都近似服从正态分布。的值都近似服从正态分布。正态分布是一种重要的连续型随机变量的概率正态分布是一种重要的连续型随机变量的概率分布。分布。一一. 正态分布正态分布F(X)X 正态分布曲线图形特点:正态分布曲线图形特点:1. 曲线在横轴上方均数处最高曲线在横轴上方均数处最高 2. 正态分布以均数为中心,左右对称正态分布以均数为中心,左右对称 3. 有两个参数,即有两个参数,即位置参数位置参数 和和 形态参数形态参数 1 2 3 3 2 1当当 固定时,固定时, 越小,曲线越陡峭越小,曲线越陡峭 越大,曲线越低平越大,曲线越低平当当 固定时,曲线的固定时,曲线的位置随位置随 不同而不同不同而不同以均值为以均值为 ,标准,标准差为差为 的的正态曲线正态曲线记作记作 N( , 2)4. 正态曲线的面积分布有一定的规律正态曲线的面积分布有一定的规律(1) 正态曲线与横轴间的面积恒等于正态曲线与横轴间的面积恒等于1 或或100% (总面积总面积=1)(2) 正态分布是一种对称分布正态分布是一种对称分布,其对称轴为直线其对称轴为直线 X= ; 对称轴两侧的面积各占对称轴两侧的面积各占50%. (3) 曲线下不同区间的面积是固定的曲线下不同区间的面积是固定的 68.27%95%99%2.581.96-2.58 -1.961-1对应于不同的参数对应于不同的参数 和和 会产生不同位置、不会产生不同位置、不同形状的正态分布。为了应用方便,可以通过同形状的正态分布。为了应用方便,可以通过变量变换,将正态分布变量变换,将正态分布 N( , 2)转换成转换成 N( 0, 1) 的标准正态分布。的标准正态分布。 0二二. 标准正态分布标准正态分布 引入标准变换后,只须制定标准正态曲线下面积分引入标准变换后,只须制定标准正态曲线下面积分布表,即布表,即标准正态分布曲线下的面积(标准正态分布曲线下的面积(P299),),对于其他正态分布均可借助标准正态分布表估计任对于其他正态分布均可借助标准正态分布表估计任意(意(X1,X2)范围内的频数比例。)范围内的频数比例。例例 已知已知 u1= -1.76, u2= -0.25, 求标准正态曲求标准正态曲 线下线下 (-1.76, -0.25) 范围内的面积范围内的面积(-1.76, -0.25) = 0.4013-0.0392 = 0.3621例例 已知已知120名女孩身高均数为名女孩身高均数为110.15cm ,标准差为标准差为5.86cm ,现欲估计该市城区某年身高界于现欲估计该市城区某年身高界于104.0-108.0cm 范围内的范围内的5岁女孩所占比例及岁女孩所占比例及120名名5岁女孩岁女孩中身高界于中身高界于104.0-108.0cm 范围内的人数范围内的人数.= 110.15 S=5.86 X1=104.0 u1= (104.0-110.15) / 5.86 = -1.05 X2=108.0 u2= (108.0-110.15) / 5.86 = -0.37 (u1 u2 )曲线下面积曲线下面积 = 0.35570.14690.2088 104.0108.0cm 范围内范围内5岁女孩所占的比例岁女孩所占的比例=20.88%身高在身高在104.0108.0cm 范围内的范围内的人数人数=120 20.88%=25名名三三. 正态分布的应用正态分布的应用1. 估计频率分布估计频率分布 例例 某研究得到某地婴儿出生体重均数为某研究得到某地婴儿出生体重均数为3100g ,标标准差为准差为300g ,估计该地当年出生低体重儿估计该地当年出生低体重儿( 2500g )所占比例所占比例.u = (2500-3100) / 300 = -2.00 查表查表 : (-2.00) = 0.0228 当地婴儿出生体重服从当地婴儿出生体重服从 N( 3100, 3002) 正态分布正态分布X = 2500g 出生低体重儿出生低体重儿( 2500g )所占比例为所占比例为 2.28% 表表2.5 医学参考值范围的制定医学参考值范围的制定 (双侧双侧) 正态分布法正态分布法%百分位数法百分位数法909599P5 P95P 2.5 P 97.5P 0.5 P 99.5例例 某地调查成年男子某地调查成年男子200人的红细胞数人的红细胞数,得均数为得均数为 =55.26 1012/L , 标准差标准差 S=0.38 1012/L,试估计该试估计该地成年男子红细胞数的地成年男子红细胞数的95%参考值范围参考值范围2. 医学参考值范围的制定医学参考值范围的制定3. 3. 质量控制质量控制 实验中的检测误差服从正态分布实验中的检测误差服从正态分布 上下警戒线上下警戒线: 上下控制值上下控制值:4. 正态分布是许多统计方法的理论基础正态分布是许多统计方法的理论基础 小结小结 反映计量资料的集中趋势指标反映计量资料的集中趋势指标 均数、中位数、几何均数均数、中位数、几何均数 描述计量资料离散程度的指标描述计量资料离散程度的指标 极差、四分位数间距、方差和标准差、极差、四分位数间距、方差和标准差、 变异系数变异系数 正态分布和标准正态分布正态分布和标准正态分布 分布特征、分布特征、 应用应用 如制定双侧、正态分布、如制定双侧、正态分布、95%的正常值的正常值95%正常2.5%2.5%+1.96S-1.96S 正态分布的特征正态分布的特征正态分布的密度函数为:正态分布的密度函数为: - X + , 总体标准差总体标准差; , 总体均数总体均数; , 是常数是常数; e 自然对数自然对数的底的底X, 随机变量随机变量; f(X)是密度函数是密度函数 闫洪涛 温州医学院公共卫生学院温州医学院公共卫生学院 N( 0, 1) N( , 2) 68.27%95%99%2.581.96-2.58 -1.961-168.27%95%99%2.581.96-2.58 -1.961-1
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号