资源预览内容
第1页 / 共62页
第2页 / 共62页
第3页 / 共62页
第4页 / 共62页
第5页 / 共62页
第6页 / 共62页
第7页 / 共62页
第8页 / 共62页
第9页 / 共62页
第10页 / 共62页
亲,该文档总共62页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第二讲(数值变量的统计描述)王晓莉xlwangbjmu.edu.cn 1基本内容(小复习)统计统计 描述统计统计 推断应应 用 数值变值变 量 (计计量资资料)频频数分布 集中趋势趋势 离散趋势趋势 统计图统计图 表抽样误样误 差 标标准误误t Z F检检 验验 秩和检验检验正常值值范围围估计计可信区间间的估计计分类变类变 量 (计计数资资料)相对对数及其 标标准化 统计图统计图 表Z 、 2检检 验验 秩和检验检验疾病统计统计人口统计统计相关与回归归 r b 统计图统计图 表t 检验检验 2n数值变量的统计描述,描述什么?n描述的对象:数值变量,群体32000年某地2岁男孩身高89.5 90.1 89.8 90.2 90.5 91.0 91.5 91.2 92.0 93.5 75.4 76.3 77.5 78.5 77.6 77.9 79.0 79.6 79.4 79.5 79.5 79.2 79.1 80.2 80.0 80.3 80.8 81.0 81.0 81.3 81.5 81.3 81.2 82.4 82.5 82.6 82.9 82.1 82.4 82.5 83.0 83.0 83.0 83.1 83.1 83.5 83.5 83.5 83.7 83.7 84.0 84.0 84.0 84.2 84.3 84.5 84.7 84.9 84.9 84.8 84.8 84.1 85.0 85.0 85.0 85.2 85.2 85.3 85.3 85.7 85.8 86.0 86.0 86.1 86.3 86.4 86.7 86.7 86.9 86.8 85.2 87.0 87.0 87.1 87.2 87.3 87.5 87.5 88.0 87.9 88.2 88.3 88.3 88.8 88.8 87.6 89.0 89.0 89.3 89.2 4n群体特征的描述:一般先有一个变量,然后会有一系列的变量值,这些变量值就是一个群体。n针对这样一个群体,你想知道什么?(共性与特性,有群体就有变异)n同样是数值变量,但其特点又各不相同(分布问题:正态与非正态,计算均数时也不同)5主要内容n频数表n集中趋势n离散趋势n正态分布n正常值范围估计6原始资料(变量与变量值,资料性质)75.4 76.3 77.5 78.5 77.6 77.9 79.0 79.6 79.4 79.5 79.5 79.2 79.1 80.2 80.0 80.3 80.8 81.0 81.0 81.3 81.5 81.3 81.2 82.4 82.5 82.6 82.9 82.1 82.4 82.5 83.0 83.0 83.0 83.1 83.1 83.5 83.5 83.5 83.7 83.7 84.0 84.0 84.0 84.2 84.3 84.5 84.7 84.9 84.9 84.8 84.8 84.1 85.0 85.0 85.0 85.2 85.2 85.3 85.3 85.7 85.8 86.0 86.0 86.1 86.3 86.4 86.7 86.7 86.9 86.8 85.2 87.0 87.0 87.1 87.2 87.3 87.5 87.5 88.0 87.9 88.2 88.3 88.3 88.8 88.8 87.6 89.0 89.0 89.3 89.2 89.5 90.1 89.8 90.2 90.5 91.0 91.5 91.2 92.0 93.5 7一. 频 数 表频数:当汇总大量的原始数据时,把 数据按类型分组,其中每个组的数据 个数,称为该组的频数。频数表(频数分布):表示各组及它 们对应的组频数的表格称为频数表或 频数分布。82000年100名2岁男童身高频数分布身高组段(cm)频数频率()有效频率() 累计频率()9频数分布的特征:集中趋势与离散趋势(通过下表理解 )102000年100名2岁男童身高频数分布11二、集中趋势(集中位置的描述)一般用平均值来描述。平均值是一组(群)数据典型或有代表性的值。这个值趋向于落在根据数据大小排列的数据的中心(支点)。121.算术均数 2.几何均数 3.中位数几种常用的平均值:131.算术均数(均数)n意义:一组性质相同的观察值在数量上的平均水 平。n表示 (总体) X(样本)n特征: (X- X)=0 估计误差之和为0。n应用:正态分布或近似正态分布n注意:合理分组,才能求均数,否则没有意义。n缺点:对极值很敏感14例题: 100名2岁以下男童身高均数的计算直接法、间接法、计算机 结果:84.8cm问题:请问84.8cm的涵义是什么?152503 1283 56000 1500 1520 1600 1680 1920 2000 2300 2300 25302580 9501 3000 3000 4210 3100 3120 3210 3210 4102 4520 68120下面是24个人的月收入:问题: 最高收入? 最低收入? 平均收入?是正态分布吗? 能代表大多数人的收入水平吗?X=7867元/月16M2580元/月X=7867元/月17n有8份抗体血清的抗体效价分别为 1:5,1:10,1:20,1:40,1 :80,1:160,1:320,1:640 , 求平均抗体效价。问题:请问能计算它们的均数吗?182.几何均数n意义:N个数值的乘积开N次方即为这N 个数的几 何均数。n表示:G n计算:n应用:原始数据分布不对称,经对数转换后呈对 称分布的资料。例如抗体滴度。19n有5份抗体血清的抗体效价分别为1 :2,1:4,1:8,1:16,1:32 , 求平均抗体效价。G =8平均抗体滴度1:8203.中位数、百份位数n一系列数据的“中点”n一半(50)的个体在该点上面, 一半(50)的个体在该点下面。21n中位数(M) :将一组观察值从小 到大排序后,居于中间位置的那个值 或两个中间值的平均值。22MMe e50%50%50%位置确定位置确定数值确定数值确定23百分位数(PX) :将N个观察值从小到大依次排列 ,再分成100等份,对应于X%位的数值即为第X百 分位数。中位数是百分位的特殊形式。请问P25 ,P75是什么意思?24排序后处于25%和75%位置上的值P P2525P PMMP P757525%25%25%25%25%25%25%25%2526左偏分布左偏分布均值均值中位数中位数对称分布对称分布均值均值 = = 中位数中位数 右偏分布右偏分布中位数中位数均值均值27三、离散趋势(离散程度的描述)描述一组数据参差不齐的程度是不同数值间差异性测量是每个数值与“特定值”的差异程度 28请问3组数据的均数是多少?29常用指标n全距n四分位数间距n方差n标准差n变异系数30R :最大最小值之差。 Q:上四分位数(P75)Qu与下四分位数Ql (P25)之差,中间包含了全部观察值的一半。1.全距、四分位数间距312.标准差n是一组数据变异的平均水平n是每个数据与“均值”的平均“距离”n是标准化的“某值”的偏差n标准差的符号: S 32n相关概念(公式过程表示):离均差离均差之和离均差平方和方差(2 S2 )标准差( S )33n标准差的计算(公式):请问s0,是什么意思?34n 例题: 100名2岁男童身高标准差的计算结果:3.79 cm n标准差的应用:描述变异程度、计算标准误、计 算变异 系数、描述正态分布、估计正常值范围35n标准差的意义:全面反映了一组观察值的 变异程度。n越大说明围绕均数越离散,反之说明较集 中在均数周围,均数代表性越好。363.变异系数n意义:标准差与均数之比用百分数表示。n符号: CVn计算: CV=(S/X)100%n无单位n应用:单位不同的多组数据比较,例如:身 高、体重;均数相差悬殊的多组资料,例如身高 、头围。37四、正态分布什么是分布?1、图形 2、特征 3、面积38100个数据,大小排列问题:特点是什么?391、正态分布的图形40正态分布请问均数和标准差的影响?41请问均数和标准差的特点42请问均数和标准差的特点432、正态分布的特征n均数处最高;n均数为中心对称;n2个参数 N( ,):决定图形的形状和位置 n曲线下的面积有一定规律。4445请问和是什么? 68.27是什么意思? 当均数为0,标准差为1时,会怎样?4647如何将一个一般的正态分布变为 均数为0,标准差为1的分布? 48标准正态分布正态分布的特殊形式n标准正态分布N(0 ,1);n标准正态变换(变换公式); z分数只是将原始数据进行了线性变换; 没有改变每个数据在该组数据中的位置; 没有改变该组数分布的形状; 只是使该组数据均值为0,标准差为1 。4950n请计算:一次统计测验的平均分是72 ,标准差是15,求72分、 58分、93 分的标准分数。513、曲线下面积n横轴上曲线下的面积为1n曲线下,横轴上对称于z的面积相等,从-到z;n1个标准差位置的面积,95%面积下的标准差, 99%面积下的标准差n95%,99%的面积公式:nz 与所对应的面积P成反比。特点特点: :5253定义:又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。习惯上是确定包括95%的人的界值。五、(医学)正常值范围 (正态分布的应用)54n双侧: 根据指标的实际用途,有的指标有上 下界值,过高过低均属异常;n单侧某些指标过高为异常,只需确定上限; 某些指标过低为异常,只需确定下限。n估计的方法: 1、正态分布法 2、百分位数法551.1.正态分布法正态分布法应用条件应用条件: :正态分布或近似正态分布资料正态分布或近似正态分布资料 计算计算 (双侧)(双侧)95% 95% 正常值正常值( (医学参考值)范围公式:医学参考值)范围公式:(x x 1.961.96 S S,x x 1.961.96 S S ) 请计算请计算20002000年年2 2岁男童岁男童身高的身高的95%95%正常值范围正常值范围(84.884.8 1.963.791.963.79,84.884.8 1.963.79 1.963.79 )即(即(77.4cm , 92.2 cm )77.4cm , 92.2 cm )56已知:x = 119.95cm, s = 4.72cm.试问: (1) 估计该地7岁男童身高在110cm以下者占该地7岁男童的百分比。(2) 估计该地7岁男童身高在身高在130cm以上者占该地7岁男童的百分比。(3) 估计该地7岁男童身高在107.77cm到132.13cm之间的占该地7岁男童的百分比。例题:某市2002年100名7岁男童的身高572.百分位数法应用条件 : 偏态分布资料 计算公式:双侧界值:P 2.5 P 97.5 单侧 上界: P 95 单侧 下界: P 5 第24页例题58591.各观察值加同“1”后: A.均数不变,标准差改变 B.均数改变,标准差不变 C.二者均不变 D.均改变 2.用均数和标准差可全面描述: A.正偏态资料 B.负偏态资料 C.正态分布和近似正 态分布 D.任何分布 3.正态分布曲线下,从均数z 到z +1.96的面积为: A.95% B.45% C. 97.5% D.47.5%练习 60nP271976年美国8岁男孩的平均身高为146厘米,标准差 为8厘米,问95%的人身高在什么范围内。估计在 该研究中有%多少的男孩平均身高在138与154之 间?又有多少在130到162之间?61谢谢!62
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号