资源预览内容
第1页 / 共30页
第2页 / 共30页
第3页 / 共30页
第4页 / 共30页
第5页 / 共30页
第6页 / 共30页
第7页 / 共30页
第8页 / 共30页
第9页 / 共30页
第10页 / 共30页
亲,该文档总共30页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
本资料来源本资料来源医学统计学医学统计学 (Medical Statistics)第一讲第一讲 基本概念基本概念统计学与医学统计学方法统计学与医学统计学方法 统计学统计学是是收集收集、分析分析、解释解释与与表达表达数据数据资料的一门科学。资料的一门科学。Statistics:“a science dealing with the collection, analysis, interpretation and presentation of masses of numerical data” -Webster 国际大辞典国际大辞典统计工作的统计工作的基本基本步骤步骤 1. 统计设计统计设计:包括调查、实验设计。:包括调查、实验设计。2. 收集资料收集资料:取得准确可靠的原始资料:取得准确可靠的原始资料3. 整理资料整理资料:对资料进行清理、改错,数量化:对资料进行清理、改错,数量化4. 分析资料分析资料:统计描述、统计推断统计描述、统计推断医学统计学医学统计学用统计学原理和方法研究医学问题用统计学原理和方法研究医学问题数据类型数据类型1. 计量资料计量资料2. 计数资料计数资料3. 等级资料等级资料4. 三类资料间关系三类资料间关系住院号住院号年龄年龄身高身高体重体重住院天数住院天数职业职业文化程度文化程度分娩方式分娩方式妊娠结局妊娠结局20256552025655272716516571.571.55 5无无中学中学顺产顺产足月足月20256532025653222216016074.074.05 5无无小学小学助产助产足月足月20258302025830252515815868.068.06 6管理员管理员大学大学顺产顺产足月足月20225432022543232316116169.069.05 5无无中学中学剖宫产剖宫产足月足月20224662022466252515915962.062.01111商业商业中学中学剖宫产剖宫产足月足月20245352024535272715715768.068.02 2无无小学小学顺产顺产早产早产20258342025834202015815866.066.04 4无无中学中学助产助产早产早产20194642019464242415815870.570.53 3无无中学中学助产助产足月足月20257832025783292915415457.057.07 7干部干部中学中学剖宫产剖宫产足月足月观察单位observations个体individuals变量variablesQuantitative data Quantitative data 计量资料计量资料Qualitative data Qualitative data 计数资料计数资料Units;elements1. 计量资料计量资料 用仪器、工具等用仪器、工具等测量测量(measure) 方法获得方法获得的数据,即为的数据,即为计量资料计量资料measurment data。也。也叫定量数据叫定量数据Quantitative data特点:特点:有计量单位有计量单位,如患者的身高(,如患者的身高(cm)、)、体重(体重(kg)、血压()、血压(mmHg)、脉搏(次)、脉搏(次/分)分)、红细胞计数(、红细胞计数(10/L)2. 计数资料计数资料 按某种属性分类,然后清点每类的数按某种属性分类,然后清点每类的数据,称据,称计数资料计数资料(count datacount data)或)或enumeration dataenumeration data。也叫也叫定性数据定性数据Qualitative dataQualitative data 特点:特点:无固有计量单位无固有计量单位,如肤色(黑、,如肤色(黑、白)、血型(白)、血型(ABO)、职业(工农兵)、性)、职业(工农兵)、性别(男女)别(男女)3. 3. 等级资料等级资料 Rank dataRank data 半定性或半定量的观察结果。有大小顺半定性或半定量的观察结果。有大小顺序,所以也叫序,所以也叫有序分类资料有序分类资料(ordinal category data)。)。 癌症分期:早、中、晚。癌症分期:早、中、晚。 药物疗效:治愈、好转、无效、死药物疗效:治愈、好转、无效、死亡。亡。 尿蛋白:尿蛋白: , , ,+,+及以上及以上实例数据实例数据1实例数据实例数据24. 4. 三类资料间关系三类资料间关系 例:一组例:一组20 40岁成年人的血压(舒张压)岁成年人的血压(舒张压)以以12kPa12kPa(90mmHg90mmHg)为界分为正)为界分为正常与异常两组,统计每组例数。常与异常两组,统计每组例数。 8 低血压低血压 8 8 正常血压正常血压 1212 轻度高血压轻度高血压 1515 中度高血压中度高血压 1717 重度高血压重度高血压计量资料计量资料等等级级资资料料计数资料计数资料统计学基本概念统计学基本概念 1. 1. 随机变量及其分类随机变量及其分类2. 2. 同质与变异同质与变异3. 3. 总体与样本总体与样本4. 4. 参数与统计量参数与统计量5. 5. 误差误差6. 6. 概率概率1. 随机变量随机变量(random variable) 简称变量变量(variable),统计上习惯用大写拉丁字母表示 ,如X、Y 、Z、 。 变量值变量值习惯习惯用小写拉丁字母表示 ,如性别x11 (男) 、x2 1 (男)、x3 0 (女) 、。编号编号 (ID)性别性别 (X)体重体重 (kg)(Y)疗效疗效(Z)张张11660李李21781王王30572 随机变量的分类随机变量的分类 离散型变量离散型变量(discrete variable),主要是自然),主要是自然数,数,例如某地区某年人口的出生数、死亡数,某药治疗例如某地区某年人口的出生数、死亡数,某药治疗某病病人的有效数、无效数等某病病人的有效数、无效数等 。 连续型变量连续型变量(continuous variable),),在一定在一定区间内变量取值无限个,或数值无法一一列举出来。区间内变量取值无限个,或数值无法一一列举出来。主主要是定量测量结果,要是定量测量结果,例如某地区男性健康成人的身高值、例如某地区男性健康成人的身高值、体重值,一批传染性肝炎患者的血清转氨酶测定值。体重值,一批传染性肝炎患者的血清转氨酶测定值。2. 同质与变异同质与变异 homogeneity and variation s同质:指事物的性质、影响条件或背景同质:指事物的性质、影响条件或背景相同或非常相近。相同或非常相近。s变异变异:指同质的个体之间的差异:指同质的个体之间的差异 。 同质与变异的例子同质与变异的例子s例例1 调查调查2003年长沙市年长沙市7岁男童的身岁男童的身高和体重高和体重同质同质:2003年、长沙市、年、长沙市、7岁男童岁男童变异变异:身高和体重各不相同:身高和体重各不相同s例例2 研究某降压药的疗效研究某降压药的疗效同质同质:高血压患者、用某药治疗:高血压患者、用某药治疗变异变异:疗效各不相同:疗效各不相同表表1-1 120名正常成年男子红细胞计数值名正常成年男子红细胞计数值(1012/L) 5.125.134.584.314.094.414.334.584.245.454.324.844.915.145.254.894.794.905.094.645.145.464.664.204.213.735.175.795.464.494.855.284.784.324.945.214.685.094.684.915.135.263.844.174.563.526.004.054.924.874.284.465.035.695.254.565.534.584.864.974.704.284.375.334.784.755.395.274.896.184.135.224.444.134.434.025.865.125.363.864.685.485.314.534.834.113.294.184.134.063.424.684.525.193.705.514.644.924.934.903.925.044.704.543.954.404.313.774.164.585.353.715.274.525.214.374.804.753.865.69最大值=6.18, 最小值=3.29, 极差=2.89 算术均数=4.72,标准差=0.57 3. 总体与样本总体与样本 population and sample总体总体:特定研究对象特定研究对象中所有观察单位的测中所有观察单位的测量值量值。分有限总体与。分有限总体与无限总体。无限总体。样本样本:从总体中随机:从总体中随机抽取的部分观察单位抽取的部分观察单位 随机抽样随机抽样 random sampling为了保证样本的为了保证样本的可可靠性靠性和和代表性代表性,需,需要采用随机的抽样要采用随机的抽样方法(在总体中每方法(在总体中每个个体具有个个体具有相同的相同的机会机会被抽到)。被抽到)。对样本数据进行观察或计算统计指标,目的是推论总体。4. 参数与统计量参数与统计量 parameter and statistic参数参数:总体总体的统计指标,的统计指标,如总体均数,采用希腊字如总体均数,采用希腊字母记为母记为。固定的常数固定的常数 总体总体样本样本抽取部分观察单位抽取部分观察单位 ? 推断推断inference统计量统计量:样本样本的统计指标,如样本均数,采用拉丁字母分的统计指标,如样本均数,采用拉丁字母分别记为别记为 。统计量是参数附近波动的随机变量统计量是参数附近波动的随机变量 。5. 误差误差 error误差误差:实际:实际观察值观察值与客观与客观真实值真实值之差之差(1)系统误差)系统误差(2)随机误差)随机误差(1 1)系统误差)系统误差 systematic error 在实际观测过程中,由受试对象、研究者、仪在实际观测过程中,由受试对象、研究者、仪器设备、研究方法、非实验因素影响等原因造成的器设备、研究方法、非实验因素影响等原因造成的有一定倾向性或规律性的误差。流行病学称之为有一定倾向性或规律性的误差。流行病学称之为偏偏倚倚(bias)。)。 特点:观察值有特点:观察值有系统性系统性、方向性方向性、周期性周期性的偏的偏离真值。离真值。 可以通过严格的可以通过严格的实验设计实验设计和和技术措施技术措施消除消除。(2)随机误差随机误差random errorrandom error 排除上述误差后尚存的误差,受多种无法控制排除上述误差后尚存的误差,受多种无法控制的因素的影响。的因素的影响。 特点:大小方向不一的随机变化。特点:大小方向不一的随机变化。随机测量误差随机测量误差(random measurement error) 提高操作者熟练程度可以减少这种误差提高操作者熟练程度可以减少这种误差 随机抽样误差随机抽样误差( random sampling error):):由抽样造成的样本统计量和总体参数间的差异。由抽样造成的样本统计量和总体参数间的差异。不可避免,但有一定的分布规律,可估计。不可避免,但有一定的分布规律,可估计。6. 概率概率probability 确定性现象确定性现象:在一定条件下,:在一定条件下,一定一定会发生或一定不会发会发生或一定不会发生的现象。其表现结果为两种事件:肯定发生某种结果的生的现象。其表现结果为两种事件:肯定发生某种结果的叫叫必然事件必然事件;肯定不发生某种结果的叫;肯定不发生某种结果的叫不可能事件不可能事件。 随机现象随机现象:在同样条件下:在同样条件下可能可能会出现两种或多种结果,会出现两种或多种结果,究竟会发生哪种结果,事先不能确定。其表现结果称为究竟会发生哪种结果,事先不能确定。其表现结果称为随随机事件机事件。 随机事件的特征:随机事件的特征:随机性随机性;规律性规律性:每次发:每次发生的可能性的大小是确定的。生的可能性的大小是确定的。概率:概率:随机事件发生的可能性大小,用大随机事件发生的可能性大小,用大写的写的P P 表示;取值表示;取值00,11。必然事件必然事件 P P= 1 = 1 不可能事件不可能事件 P P=0 =0 随机事件随机事件 00P P11 P P 0.05 0.05(5 5)或)或P P 0.01 0.01(1 1)称为称为小概率事件小概率事件( (习惯习惯) ),统计学上认为不大可,统计学上认为不大可能发生。能发生。小概率事件小概率事件
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号