资源预览内容
第1页 / 共116页
第2页 / 共116页
第3页 / 共116页
第4页 / 共116页
第5页 / 共116页
第6页 / 共116页
第7页 / 共116页
第8页 / 共116页
第9页 / 共116页
第10页 / 共116页
亲,该文档总共116页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第一章 医学统计学中的基本概念,统计学(statistics): 1.Statistics: A science dealing with the collection, analysis, interpretation, and presentation of numerical data. (Websters 国际大辞典) 2.Statistics:The science and art of dealing with variation in data through collection, classification, analysis in such a way as to obtain reliable results. (John M. Last,流行病学词典) 总之,统计学是一门处理数据中变异性的科学与艺术,内容包括收集、分析、解释和表达数据,目的是求得可靠的结论,一、绪论,统计学思维和方法已经渗透到医学研究和卫生决策之中,在科研的总体设计、资料的收集、整理、分析直到最后得出结论都与之密切相关。,例: 1.北京某医院某大夫使用“乌贝散”治疗胃溃疡出血107例,有效101例,有效率94.4%,那么别的医生也一定是94.4%吗?那么是多少?高还是低?(求置信区间),2.重庆某医院有位老大夫,用“冠心灵”治疗冠心病,其对照组用西药,观察结果如表,表 冠心灵与单存西药疗效对比,请问:冠心灵是否比单纯西药有效?(涉及统计学中假设检验的问题),二、医学统计工作的内容和资料的类型,1、医学统计工作的内容: design (设计) collection data(收集) sorting data(整理资料) analyzing data (分析资料), design (设计),根据研究目的制定研究方案专业设计:统计设计: 研究对象的选择(纳入与排除标准),样本量和样本取得的方法, 实验组与对照组的分组原则, 观察指标及其精度, 试验过程中的质量控制, 拟采用的统计分析方法等。,collection data(收集),收集准确、完整、充满信息的原始资料 资料的来源:专题试验(实验)研究、流行病学调查等常规登记资料:例如门诊病例、住院登记资料等卫生工作报表,sorting data(整理资料),把收集到的原始资料,有目的地进行加工,使资料系统化、条理化,以便进一步统计分析 归类 核查资料的完整性、可靠性(例如:漏项、逻辑性检查、专业合理性、专业一致性检查),analyzing data (分析资料),统计描述 统计分析统计推断,参数估计,假设检验,把经过整理的资料做一系列的统计描述和统计推断,阐明事物的特征和规律。,2、type of data(资料的类型),两类:定量(计量、数值变量)资料 定性(计数、分类变量)资料,定量(计量、数值变量)资料,每个观察对象通过定量测定的方法都有一个确切的值,通常有单位,但也有例外(例如 淋巴细胞转化率)。医学中:身高、体重、血压、血红蛋白值等, 定性(计数、分类变量)资料,按照研究对象的某个特征进行分组,然后分组计数所获得的资料。 例如:男 25 女35,无序分类资料:分组时表现为互不相容的类别二分类:性别(男25 女35 有效 无效)多分类:血型(A 10 B 5 AB 7 O 3)、职业 有序分类资料(等级资料):按照程度递增或递减例: 癌症分期:早、中、晚。 药物疗效:治愈、好转、无效、死亡。 幽门螺旋杆菌感染程度 (- + + +),判断资料类型的标准:看每个观察对象是否有一个确切的值,有:计量 无:计数资料可以由高级向低级转化(高精度向低精度),如血压值 (正常、异常),观察单位observations 个体individuals,变量variables,Quantitative data 计量资料,Qualitative data 计数资料,Units;elements,三、统计学中的几个基本概念,(一)同质与变异 (二)总体与样本 (三)参数与统计量 (四)误差 (五)频率与概率,(一)同质与变异 homogeneity and variation,1、同质:是指观察单位间被研究指标的影响因素相同。如:研究儿童的生长发育,规定的同性别、同年龄、同地区、同民族、健康的儿童即为同质的儿童。研究目的条件下的性质相同观察单位的研究特征为变量。变量的观察结果为变量值。 2、变异:性质相同的同质对象的某个或某几个特征值不同。,同质与变异的例子,例1 调查2006年重庆7岁男童的身高和体重 同质:2006年、重庆市、7岁男童 变异:身高和体重各不相同 例2 研究某降压药的疗效 同质:高血压患者、用某药治疗 变异:疗效各不相同,(二) 总体与样本 population and sample,总体:根据研究目的确定的同质研究对象的全体(集合)。分有限总体与无限总体,样本:从总体中随机抽取的部分观察单位,代表性的条件,随机抽样 足够数量(样本含量) 样本的分布与总体的分布一致(构成),随机抽样 random sampling,为了保证样本的可靠性和代表性,需要采用随机的抽样方法(在总体中每个个体具有相同的机会被抽到)。,足够数量:样本含量 样本的结构分布与总体的分布特征一致例如:欲研究重庆市7岁儿童的生长发育情况总体:男107:女100样本:应该接近或近似男107:女100,(三) 参数与统计量 parameter and statistic,参数:总体的统计指标,如总体均数、标准差,采用希腊字母分别记为、。固定的常数,推断inference,统计量:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为 。 参数附近波动的随机变量 。,(四) 误差 error,误差:实际观察值与客观真实值之差,以及统计量与参数之差。,(1)系统误差 (2)随机误差,(1)系统误差 systematic error,在实际观测过程中,由受试对象、研究者、仪器设备、研究方法、非实验因素影响等原因造成的有一定倾向性或规律性的误差。流行病学称之为偏倚(bias)。特点:观察值有系统性、方向性、周期性的偏离真值。可以通过严格的实验设计和技术措施消除。,(2)随机误差random error,排除上述误差后尚存的误差,受多种无法控制的因素的影响。特点:大小方向不一的随机变化。 随机测量误差(random measurement error) 提高操作者熟练程度可以减少这种误差随机抽样误差( random sampling error):由抽样造成的样本统计量和总体参数间的差异。 不可避免,但有一定的分布规律,可估计。,(五) 概率与频率 probability and frequency,确定性现象:在一定条件下,一定会发生或一定不会发生的现象。其表现结果为两种事件:肯定发生某种结果的叫必然事件;肯定不发生某种结果的叫不可能事件。,随机现象:在同样条件下可能会出现两种或多种结果,究竟会发生哪种结果,事先不能确定。其表现结果称为随机事件。 随机事件的特征:随机性;规律性:每次发生的可能性的大小是确定的。,概率:随机事件发生的可能性大小,用大写的 P 表示,是一个稳定的值;取值0,1。,必然事件 P = 1 不可能事件 P =0 随机事件 0 P 1P 0.05(5)或P 0.01(1)称为小概率事件(习惯),统计学上认为不大可能发生。,小概率事件,样本的实际发生率称为频率,具有波动性。设在相同条件下,独立重复进行n次试验,事件A出现f 次,则事件A出现的频率为f / n。频率与概率间的关系:样本频率总是围绕概率上下波动 样本含量n越大,波动幅度越小,频率越接近概率。,频率 frequency,复习: 总体与样本、统计量与参数、系统误差与抽样误差 1、 调查某地某年7岁正常男童的身高 2、 观察某人群脉搏数(次/分) 3、 观察某人群脉搏数,定义脉搏数在60次/分-100次/分为正常,100次/分为异常,按“正常”与“异常”分别清点人数得到的资料,4、某单位职工体检101名正常成年女子的血清总胆固醇(mmol/L) 5、某医院1998年在某城区随机调查了8589例60岁以上老人,体检发现高血压患者为2823例,高血压患病率为2823/8589*100/%=32.87%,资料的统计描述,叶孟良,统计描述的意义,社会活动看似杂乱无章,对个体来说有很多不确定性,但总体上都是服从一些统计规律的。医学工作有很多数据,统计学描述就是对这些数据进行加工和提炼,找出规律、预测未知。统计描述是最简洁有力的语言。,概念:即用少量几个统计指标刻画出原始数据的特征称为统计描述。计量资料的统计描述方法: (单变量)1. 通过频数表描述数据特征2.用统计指标 定量描述数据的特征。,描述计量资料的统计方法有两类:统计图表:主要是频数分布表(图)统计指标:定量描述数据的特征,一、数值变量的频数分布,(一)、频数分布表 频数分布表:将变量值分为不同数量的组段,清点各组段的例数。意义:概括了解变量值在各组段的分布和规律。频数表的编制例:某年某市120名12岁男童的身高(cm)资料如下,作统计描述。,142.3 156.6 142.7 145.7 138.2 141.6 142.5 130.5 132.1 135.5134.5 148.8 134.4 148.8 137.9 151.3 140.8 149.8 143.6 149.0 145.2 141.8 146.8 135.1 150.3 133.1 142.7 143.9 142.4 139.6151.1 144.0 145.4 146.2 143.3 156.3 141.9 140.7 145.9 144.4 141.2 141.5 148.8 140.1 150.6 139.5 146.4 143.8 150.0 142.1143.5 139.2 144.7 139.3 141.9 147.8 140.5 138.9 148.9 142.4134.7 147.3 138.1 140.2 137.4 145.1 145.8 147.9 146.7 143.4150.8 144.5 137.1 147.1 142.9 134.9 143.6 142.3 143.3 140.2 125.9 132.7 152.9 147.9 141.8 141.4 140.9 141.4 146.7 138.7160.9 154.2 137.9 139.9 149.7 147.5 136.9 148.1 144.0 137.4134.7 138.5 138.9 137.7 138.5 139.6 143.5 142.9 146.5 145.4129.4 142.5 141.2 148.9 154.0 147.7 152.3 146.6 139.2 139.9,1、求数据的极差(range):极差是全部数据中的最大值与最小值之差,它描述了数据变异的幅度。本例极差:R=160.9-125.9=35cm,2、划分组段 (1)确定组数:制作频数表是为了简化资料,显示数据的分布规律,因此组数不能太多。也不能太少,太少会掩盖数据分布的规律。适宜的分组数与观察值的个数n的多少有关。n为30时,可分5到6组,随着n的增加,分组适当增加,较大样本时,一般取10组左右。,
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号