资源预览内容
第1页 / 共59页
第2页 / 共59页
第3页 / 共59页
第4页 / 共59页
第5页 / 共59页
第6页 / 共59页
第7页 / 共59页
第8页 / 共59页
第9页 / 共59页
第10页 / 共59页
亲,该文档总共59页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
2024/8/20 数据统计学处理方法与选择数据统计学处理方法与选择第一部分 数据输入与整理一、原始数据的录入1、原始数据的记录形式 医学研究的原始数据常列成类似下表的二维结构,即行与列结构的数据集形式。每一行称为一个记录(record),或一个观察单位(case);每一列称为一个变量Variable),用以表示变量、项目或观察指标等。肾衰病人预后分析临床资料病人编号病案号性别年龄生理评分肾毒 性黄疸昏迷肌酐胆固 醇肾功能 预后1004757男 2614无有无5204.1治愈2007950女3113无无无5234.5治愈3011093男5517无无无2093.3治愈4017555男259有无无10334.1未愈.274279183女7815有无无3316.1未愈2、原始数据的录入 在进行统计分析前,原始数据需录入计算机。录入的文件类型大致有:数据库文件,如dBASE、FoxBASE、Lotus、EPIinfo等;Excel文件;统计应用软件的相应文件,如SPSS数据文件、SAS数据文件、STATA数据文件等。目前,上述文件类型绝大多数都可以相互转换。 录人数据时,应遵循便于录入,便于核查,便于转换,便于分析的原则。便于录入是指尽可能地减少录入工作量,录入时,用数值变量取代了字符变量,可以大大节约录入的时间和费用。便于核查是指一定要设有标识变量,以方便数据核查。便于转换是指录入数据时要考虑不同软件对字节和字符的要求,便于分析是指每项研究最好录成一个数据文件,录入的格式满足各种统计分析的需要,这样才能保证分析数据时的高效和全面 。冯启明2024/8/20二、输入数据的质量控制1、数据核查 数据录入后,首先须对录入的数据进行核查,以确保录入数据的准确性和真实性。核查准确性可分两步进行。第一步逻辑检查,通过运行统计软件中的基本统计量过程,列出每个变量的最大值与最小值,如果某变量的最大值或最小值不符合逻辑,则数据有误;第二步将原始数据与输入数据进行核对,更正错误。 在一些大型数据的录入过程中,为保证数据的质量,往往采用对同一资料进行双人重复录入的方法,然后应用程序对两个数据库进行比对,如有录入结果不符,则进行核查,找出其错误所在。二、输入数据的质量控制2、缺失值的处理 在资料收集过程中,特别是大型数据的收集,不可避免的会有一些缺失值产生,这主要来自于资料收集中的漏填和漏报。通常认为,缺失值应控制在数据记录总量的10以内。在计算机的数据录入过程中,要注意把缺失值和“0”区分开来,“0”通常用来表示“无”,即该事件未发生,具有确切的含义,表明该数据已收集到;而缺失值表示该数据未填或未收集,两者要注意区分,以免混淆。在一般的数据库软件中,缺失值通常都用“”表示。 二、输入数据的质量控制2、缺失值的处理 在资料分析中,如一例记录的某个变量有缺失值,统计分析软件都会自动把该例作删除处理。因此,当资料可避免地产生了缺失值,而该例记录由于其他的变量仍有统计分析的价值,或者当删除该例记录后样本例数太少,不能保证数据分析结果的可靠性时,则可用一些统计学方法对缺失值进行填补。对缺失值进行估计填补具体方法,可参阅有关文献。 二、输入数据的质量控制3、离群数据的处理 当个别数据与群体数据严重偏离时,被称为离群数据(outlier)。判断离群数据的方法可通过观察数据的频数表或直方图进行初步判断;统计软件一般都有判断离群数据的方法,例如,SPSS软件对其的定义为:观察值距箱式图(boxplot)的箱体底线(第25百分位数)或顶线(第75百分位数)的距离为箱体高度(四分位数间距)的1.5倍至3倍时被视为离群点,观察值距箱体底线或顶线的距离超过3倍的箱体高度时被视为极端值。 二、输入数据的质量控制3、离群数据的处理 若有离群数据出现,可分为两种情况处理:(1)如果确认数据有逻辑错误,又无法纠正,可直接删除该数据。例如,若某一数据中某病例的身高变量为“1755”cm,且原始记录亦如;又无法再找到该病例时,显然这是一个错误的记录,只能删除。(2)若数据并无明显的逻辑错误,可将该数据剔除前后各做一次分析,若结果不矛盾,则不剔除;若结果矛盾,并需要剔除,必须给以充分合理的解释,例如用何种方法确定偏离数据,该数据在实验中何种干扰下产生等。第二部分第二部分 数据统计描述方法的选择数据统计描述方法的选择总体总体样本样本统计推断统计推断抽样抽样抽样误差抽样误差一、计量资料的描述某市抽查187名宾馆女性服务人员年龄资料如下23 25 40 33 18 22 25 33 30 35 18 24 20 22 22 25 26 24 28 18 40 21.22 19 22 20 22 33 29 38 40 22 1819 20 25 24 29 31 32 28 26 25 19 187名宾馆女性服务人员年龄分布年龄分组(岁)频数=359 计量资料统计描述计量资料统计描述集中趋势离散趋势均数几何均数中位数全距四分位数间距方差标准差变异系数计量资料描述的常用统计指标选择集中趋势 指标 适用范围离散趋势 指标 适用范围 均数正态分布或对称分布资料四分位数间距Q75-Q25偏态数据或“开口数据”几何均数 G对数正态分布或成倍数关系的数据标准差 S正态分布或对称分布资料中位数 M偏态数据或“开口数据”某市抽查187名宾馆女性服务人员年龄资料如下23 25 40 33 18 22 25 33 30 35 18 24 20 22 22 25 26 24 28 18 40 21.22 19 22 20 22 33 29 38 40 22 1819 20 25 24 29 31 32 28 26 25 19 187名宾馆女性服务人员年龄分布年龄分组(岁)频数=359 现检测出11名梅毒患者的血清梅毒抗体滴度如下,请计算其平均抗体滴度。1:5 1:20 1:40 1:80 1:80 1:80 1:160 1:160 1:320 1:320 1:640数据之间呈倍数关系几何均数艾滋病患者月均收入的频数表月均收入(天)人数=2500 2合计74偏态分布与开口资料,采用中位数(M)与四分位数间距(Q75-Q25)描述某人收集到如下的统计资料,从资料表达方式的角度看,存在的主要错误是什么?该资料应如何进行表达? 艾滋病患者某药治疗前后CD4测定结果 明显偏态资料采用中位数描述平均水平,由于例数太少,采用最大值最小值反映离散。 治疗例数 治疗前 192438治疗后 19 10081586标准差大于均数,提示明显偏态。二、分类资料的统计描述案例1请选择适当指标描述该两组资料结果。资料类型多项无序分类资料 艾滋病健康教育干预组与对照组的职业构成组别例数工人个体户职员其他干预组15020504040对照组12030403020合计27050907060案例2请选择适当指标描述两组结果。两项分类资料 两方法治疗尖锐湿疣疗效比较 组别例数有效无效A方法15011238B方法13011812案例3 等级资料(多项有序分类资料)请选择适当指标描述两组结果。 两方法治疗尖锐湿疣疗效比较 组别例数控制显效有效无效A方法15030502238B方法13010604812 资料统计描述方法资料统计描述方法计量资料分类资料集中趋势离散趋势计数资料等级资料均数几何均数中位数全距四分位数间距方差标准差变异系数二项分类 资料多项无序分类资料 率 构成比 构成比 据表中某地、某年梅毒监测资料,计算各年龄的构成比和梅毒报告发病率 某地、某年某地、某年梅毒监测资料年龄年龄(岁岁)人口数人口数梅毒报告数数构成比构成比/% 发病率发病率(1/万万)0-5894521920-65493519430-43256750340-123794536=5031129261 合合 计计1831877 1513 第三部分 统计学假设检验方法的选择 选择统计方法的基本思路: 反应变量是单变量、双变量或多变量 数据属于哪种类型资料:计量资料、计数资料或等级资料 (针对单变量数据) 数据所属的设计类型:完全随机设计、配对设计、随机区组设 计或其他设计 影响因素是单因素还是多因素 数据是单一样本、两组样本还是多组样本 数据是否符合拟采用的统计分析方法的应用条件 (一)单变量计量资料的分析1、样本均数于已知总体均数比较1、一般健康孕妇生产男孩的出生体重为3kg。随机抽样调查某地某年15名梅毒感染孕妇生产男孩的出生体重,得如下数据,问:问梅毒感染孕妇与健康孕妇生产男孩的出生体重是否有差异?样本均数与总体均数比较15名梅毒感染孕妇生产男孩的出生体重(kg):1.8 2.2 2.5 2.6 1.6 1.8 1.9 2.6 2.2 1.9 2.0 2.5 2.6 1.7 2.0 冯启明2024/8/20 (一)单变量计量资料的分析2、配对样本均数比较3、两样本均数比较 40名艾滋病患者随机分为两组,分别给予A药和B药治疗,治疗后艾滋病患者血液CD4含量如下,请比较两组患者治疗后CD4差异。完全随机设计两样本均数比较 治疗后艾滋病患者血液CD4含量A药200, 250,300, 500 , 1005, 350, 280, 450,600, 780B药1400,1250,1580,1890,9001104,1589,789, 698, 1560两两种种方方法法检检测测7名名艾艾滋滋病病患患者者的的血血液液CD4含含量量,所所得得结结果果如如下下。问问:甲甲乙乙两两法法检检出出CD4含含量量是是否相同,用何统计方法?否相同,用何统计方法? 样本号样本号 1 2 3 4 5 6 7 乙乙 法法 270 540 125 500 485 185 650 甲甲 法法 329 602 101 625 508 175 761 配对设计计量资料 (一)单变量计量资料的分析4、多个样本均数比较 某研究者将27只感染艾滋病雄性猩猩随机分成三组(每组9只),给予不同处理,观察12周。测定。处理前后血液中的CD4升高值见下表。问三组的CD4升高值是否相同? A药组 B药组 C药组 365 348 360394 355 368373 319 386375 354 369358 352 352370 356 371350 324 374410 356 368360 350 372完全随机设计多样本比较 A药 B药 C药 1.67 1.77 2.10 2.04 2.03 2.07 1.38 1.45 1.48 1.02 1.09 1.07 1.29 1.15 1.92 1.32 1.05 1.28 1.17 1.26 1.08 2.12 1.87 2.07 1.64 1.72 1.65 1.75 1.85 2.45 1.65 1.56 1.38 按性别相同、年龄相近、病情相近把33例艾滋病患者配成11个区组,每区组3个患者,分别给予A药、B药和C药治疗。治疗后患者血浆中的IGA含量见表。问经三种不同药物治疗后该病患者血浆中IGA含量有无差别? 随机区组设计计量资料 某医院用某中药给8名吸毒者戒毒,在治疗前、治疗后一周、二周、三周和四周分别测定患者的血清谷丙转氨酶SGPT的变化,其数据如表5-2所示,试分析各周SGPT值的差别是否有显著性意义。单因素重复测量数据方差分析组别受试号 监测时间(小时)1234胶囊组19.7354.6155.946.8125.5050.8779.9062.3737.9623.4364.1056.0042.3718.6373.1076.0552.3755.2493.3565.4766.5032.0873.4576.27片剂组70.8425.0053.8044.2580.6817.3464.5661.0692.1414.1069.7766.65102.3053.4073.8362.00116.1725.8545.8053.80122.4553.3058.8057.80 将12名吸毒者随机分为两组,每组6名,采用某种药物进行治疗戒毒,一组服用胶囊,另一组服用片剂。分别于服药后1,2,3,4小时测定血药浓度,血药浓度检测结果见下表。试比较两种剂型服用后血药浓度有无差别?两因素重复测量数据方差分析 22例艾滋病患者随机分成两组:例艾滋病患者随机分成两组:A药组,药组,B药组。药组。从治疗开始日开始随访,随访时间(月)如下。试比从治疗开始日开始随访,随访时间(月)如下。试比较两组的疗效有无差异,(带者为截尾数据)。较两组的疗效有无差异,(带者为截尾数据)。 A组组 1,2,3,5,6,9,11,13,16,26,37B组:组:10,11,14,18,22,22,26,32,38, 40,42生存数据,宜用Log-rank检验(二)单变量计数资料的分析1、两个率比较 据以往调查数据,某地女性梅毒发病率一般为1.2。某人在当地女性服务人员中抽查400名,检测出8例梅毒。问该地女性服务人员梅毒发病率是否高于一般女性?样本率与总体率比较基于二项分布的直接概率法 根据以往观察,一般35岁以上孕妇有10发生流产。现某医院观察35岁以上患梅毒孕妇254例,有60例发生流产。问35岁以上梅毒患者是否较容易流产?样本率与总体率比较基于二项分布的u检验法 某医院将376例淋病患者随机分为两组,分别用中药和西药治疗,结果见表7-1。问两种药物疗效的差别有无意义?两样本率比较四格表X2检验(二)单变量计数资料的分析2、行列表资料比较当生殖器出现异常时,外展服务干预前后女性服务从业人员求医行为见下表,请比较干预前后女性服务从业人员求医行为差异有统计学意义。 行列表X2检验 干干预预前后女性从前后女性从业业人人员员求医行求医行为为比比较较()()求医行为干预前(n=187)干预后(n=173)X2 P公立医院就诊37.4 78.972.872 0.000私人诊所就诊43.4 11.5自己买药处理19.2 9.6 采用两种方法检测女性服务人员梅毒感染率,结果如表所示,问两种方法的检出率差别有无统计学意义?配对设计计数资料X2检验 A方法合计 阳性阴性B方法阳性 20 80100阴性 25 75100 合计 45 155200某医院用三种方案治疗淋病某医院用三种方案治疗淋病254例,结果如下,问三组疗效有例,结果如下,问三组疗效有无差别?无差别? 组别无效 好转 显效痊愈合计西西 药药 组组 4931515100中 药 组45922480中西药组1528112074合计109683839254不宜用X2检验,要采用秩和检验(三)单变量等级资料的分析1、两组等级资料比较 有9个艾滋病血液样品分成两份,分别在温度为80和20的条件下加入相同显色剂,结果如下,请比较两种温度下的显色效应差异 温度显色效应12345678980深 深深中浅深深深中20浅浅浅浅浅中浅浅浅配对设计等级资料配对设计秩和检验某医院对比两种疗法对梅毒治疗效果,结果如下,问某医院对比两种疗法对梅毒治疗效果,结果如下,问两组的疗法是否有差别?两组的疗法是否有差别? 组别观察例数愈合愈合 好转无效A疗疗法法 625471B疗疗法法 6444119合计126981810两样本等级资料,不宜用X2检验,要采用秩和检验(三)单变量等级资料的分析2、多组等级资料比较某医院用三种方案治疗淋病某医院用三种方案治疗淋病254例,结果如下,问三组疗效有例,结果如下,问三组疗效有无差别?无差别? 组别无效 好转 显效痊愈合计西西 药药 组组 4931515100中 药 组45922480中西药组1528112074合计109683839254完全随机设计多组秩和检验(四)双变量资料的分析 某医师测定7名吸毒男性戒毒1个月后的血清蛋白含量(g/L)和血红蛋白含量(g/L)数据如下。请问这两项指标有无相关? 编号1234567血清蛋白35.5 36.538.537.536.535.434.5血红蛋白119.5 120.5127.5126.5120.5118.5110.5直线相关分析某医生研究艾滋病患者血小板数与出血症状程度有无相关,结果如下。请作分析 病例编号血小板数出血症状程度1234567891011 12160 13790 16500 31050 42600 54270 106430 126170 129000 143880 200400 明显 比较明显 个别出血点 无 比较明显 比较明显 无 无 无 无 无有一个变量为等级资料,宜用等级相关(Spearman)(五)多变量资料的分析(五)多变量资料的分析1、有因变量的多变量资料有因变量的多变量资料(1)因变量)因变量 y为计量资料,并服从正态分布,作多元回归分析为计量资料,并服从正态分布,作多元回归分析(2)因变量)因变量y为分类资料(二分类或多分类),以判别分类为主要目的,作判别分析为分类资料(二分类或多分类),以判别分类为主要目的,作判别分析(3)因变量)因变量y为生存时间,并含有截尾数据,作为生存时间,并含有截尾数据,作COX模型分析;如自变量只有模型分析;如自变量只有1个,作个,作 K-M法生存分析。法生存分析。 (4)因变量)因变量y为分类资料(二分类或多分类),以分析危险因素为主要目的,如资料为为分类资料(二分类或多分类),以分析危险因素为主要目的,如资料为 配比设计,作条件配比设计,作条件Logistic回归;如资料无配比设计,作非条件回归;如资料无配比设计,作非条件Logistic回归。回归。 (五)多变量资料的分析(五)多变量资料的分析2、无因变量的多变量资料无因变量的多变量资料(1)如将变量或观察单位划分为性质相近的)如将变量或观察单位划分为性质相近的k类,作聚类分析。类,作聚类分析。(2)如以降低变量维度,并对变量进行分类的目的,作主成分分析或因子分析)如以降低变量维度,并对变量进行分类的目的,作主成分分析或因子分析
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号