[医药卫生]科研设计测量与评价原则-

科研设计的测量与评价预防医学教研室李佩珍医学科学研究从制定设计方案、资料收集、抽样方法选择、样本大小确定、数据整理，到结果分析与评价的整个过程，都离不开统计学。正确应用统计学的测量方法，有助于面对不确定的数据结果做出科学推断，从而正确揭示疾病分布规律，掌握疾病特征，阐明致病因素，评价防治效果。不同的研究设计方法、资料类型和研究目的，适用的统计方法也各不相同，所以科研人员应依据自身研究的特点，选择合适的测量统计方法，结合专业实践才能得出科学的结论。统计工作的步骤n第一步设计(design)：n第二步收集资料(collection of data)：n第三步整理资料(sorting data)：n第四步分析资料(analysis of data)：设计（design）n首先明确研究目的, 根据研究目的，从统计角度对资料的搜集、整理和分析全过程提出全面具体的计划和要求，作为统计工作实施的依据，以便用尽可能少的人力、物力和时间获得准确可靠的结论。n 1、明确对象n 2、明确取得原始资料的方法n 3、如何整理资料n 4、计算哪些指标n 5、用何种统计推断方法n 6、预测结果搜集资料n搜集及时、准确、完整地搜集原始资料是统计工作最重要的一步，它直接关系着统计结论的质量。 n统计资料的来源主要有：n1、报表资料。n2、医疗、预防机构的日常工作记录。n3、专题研究实验数据和现场调查资料。整理资料（sorting of data ）n整理资料又称统计归纳：是把搜集到的资料进行适当的分组，把性质相同的资料归纳到一起，用表格或图形的方式展示出来，以反映研究对象的规律性。n 1、审核资料n 2、设计分组：质量分组和数量分组n 3、拟整理表n 4、归纳汇总分析资料n分析资料资料的分析过程是通过计算有关的统计指标，对资料进行概括的、全面的描述，以及从样本信息推断总体特征，分析资料就是从获取的资料中抽取有关信息的过程。n 1、统计指标的计算n 2、统计图表的绘制n 3、估计总体参数n 4、进行假设检验n 5、回归与相关n 6、多元分析统计资料的类型v 计量资料 v 计数资料v 等级资料计量资料（measurement data)通过对观察单位测量取得数值，其值一般有度量衡单位。如身高、体重、血压、脉搏、白细胞空气中二氧化碳含量等。此类资料具有计量单位，各观察单位常有量的差别。分析计量资料常用平均数、标准差、t 检验、方差分析、相关与回归分析等。计数资料(enumeration data)将观察单位按某种属性或类别分组，然后清点各组的观察单位数。如性别、血型、民族、职称、某病的治愈和未愈数等。分属于各组的观察单位间有质的差别，不同质的观察单位不能归在同一组内。分析计数资料常用率、构成比、x2检验等。将观察单位按某种属性的不同程度分组，然后清点各组的观察单位数。如疗效可分为治愈、显效、好转、无效；尿蛋白化验结果分为-、 + 、+ 、+等。这类资料具有计数资料的性质，但所分各组又是按一定顺序如由轻到重、由小到大排列的。分析等级资料常用率、构成比、秩和检验等。等级资料（ranked data)医学统计中的几个基本概念数据与变量总体和样本随机化统计量与参数抽样误差概率变量（variable）具有变异性的数据称为变量。1数值变量（numerical variable）：为连续变量，如身高、体重、血压等。数值变量均可通过对观察单位测量取得数值，其值一般有度量衡单位。数值变量资料也称作计量资料。2分类变量（categorical variable）：可能取值是离散的，表现为互不相容的类别。比如性别、血型、民族、职称等。分类变量资料又称为计数资料。分类变量有两种：无序分类变量和有序分类变量总体与样本总体（population）：是根据研究目的确定的同质的观察单位的某个变量值的全体。分有限总体和无限总体。样本（sample）：通常是从总体中随机抽取有代表性的一部分观察单位。注意其代表性和可靠性。抽样误差（sampling error）用于描述样本特征的指标称为统计量，而用于描述总体特征的指标称为参数。我们把由随机抽样引起的样本指标与总体指标的差异称为抽样误差。由于个体变异的普遍存在，抽样误差是不可避免的。只要遵循随机化的原则，抽样误差的大小就可以用统计方法进行估计。一般情况下样本越大，抽样误差越小，反映事物客观规律的准确性越高，反之，样本越小，抽样误差越大。概率（probability）描述随机事件发生的可能性大小的数值称概率。随机事件的概率P取值在0 1之间，P越接近1，说明某事件发生的可能性越大；P越接近0，说明某事件发生的可能性越小。如果某事件的概率P=0，表示该事件不可能发生，称其为不可能事件；如果P=1，表示该事件必然发生，称其为必然事件。随机事件是可能发生也可能不发生的事件。如果某随机事件发生的概率P0.05，或P0.01表示该事件发生的可能性很小，我们称其为小概率事件。其意义为在一次试验中不发生事件。数值变量资料的统计描述统计图表统计指标平均数v 均数v 几何均数v 中位数和百分数均数（mean）均数是算术平均数 (arithmetic mean)的简称。总体均数用希腊字母( )表示，样本均数用( )表示。应用条件：均数反映同质的一组观察值在数量上的平均水平，样本所代表总体为正态分布。2、计算方法：(1)直接法当样本中观察值个数不多时，通常可用直接法，公式为：式中是希腊字母，读作sigma ，为求和的符号。(2)加权法当观察值个数较多时。通常可用加权法，公式为：式中X为各组的组中值，组中值等于该组的上限加下限之和除以2。 f为各组的频数，它相当于权数权衡了各组中值由于频数不同对均数的影响，故本法也称为加权法。几何均数（geometric mean) 1、应用条件：观察的数据是呈倍数关系的资料，采用几何均数简记为（ G）表示其平均水平。2、计算方法：如果观察的数据个数不多可以采用直接算法。公式为：如果样本量很大，或只掌握频数表资料可以按下式计算分组资料的几何均数。公式为：百分位数(percentile) 百分位数是一种位置指标，用于描述一组观察值在某百分位置上的水平。第百分位数以 PX表示。 PX 是一个数，其意义是将某变量的观察值按从小到大的顺序排列，比PX 小的观察值的个数占x% ，比 PX 大的观察值的个数占（100-x）%。百分位数用于描述观察值序列在某百分位位置的水平，公式为：中位数简记为M，中位数是一个位置指标，用于描述一组资料的平均水平，其含义是将一组观察值按从小到大的顺序排列，位置居中的数就是中位数, 中位数即第50百分位数。公式为：应用条件为：分布呈明显偏态；分布的一端或两端无确定数值；分布不清等资料。中位数（median）u极差(R)u四分位间距(Q) u标准差(S)u变异系数(CV)u标准误(SE)变异指标 n 极差简记为（R）又称全距。是一组观察值中最大值与最小值之差。四分位数，简记为（Q）是特定的百分位数，是上四分位数与下四分位数之差。可以看成是全部观察值的位于中间的一半的极差。 Q=P75-P25极差（range）和四分位间距（quartile）标准差(standard deviation) 标准差每个观察值到均数的平均距离，总体标准差用希腊字母( )表示，样本标准差用 ( )表示。1、应用条件：反映同质的一组观察值在数量上的变异程度，样本所代表总体为正态分布。2、计算方法：(1)直接法当样本中观察值个数不多时，通常可用直接法，公式为：(2)加权法当观察值个数较多时。通常可用加权法，公式为：3、标准差应用v 标准差的大小反应变异程度的大小，标准差大 ,表示变异程度大，即观察值较分散，反之则表示变异程度小，较集中。 v 结合均数确定医学参考值范围。 v 结合均数计算变异系数。 v 计算标准误。当两组资料单位不同或均数相差较大时，变异大小不能直接用标准差进行比较，应计算标准差对均数的百分比，即变异系数(coefficient of variation, 简记为CV)。公式为：当观察值为统计量时，描述其变异程度的大小用标准误（standard error简记为SE）。公式为：变异系数和标准误计量资料的统计推断(总体均数的估计与假设检验)v均数的抽样误差与标准误v总体均数估计v假设检验v抽样研究：由样本推断总体的过程。v抽样误差：由抽样引起的样本指标与总体指标的差异称为抽样误差。抽样误差是不可避免的，但只要样本是随机抽取的，就可以用统计方法来估计它的大小。均数的抽样误差与标准误v均数标准误：样本均数变异程度的大小，反映了均数的抽样误差的大小。我们以样本均数的标准差作为衡量均数抽样误差大小的尺度，即均数的标准误。公式为：v均数标准误和标准差相同，都是说明变异程度大小的指标。不同的是标准差表示的是某变量个体观察值变异程度的大小，而标准误表示的是样本均数变异程度的大小。样本含量越小，抽样误差越大，即标准误越大；反之样本含量越大，抽样误差越小，即标准误越小。根据研究设计类型选择分析方法在成组比较设计中，若是两组比较需要应用t检验或X2检验。多组比较需应用方差分析、行列表X2检验或分级的分析方法。成组比较的设计n把除处理因素外，其他条件基本相似的受试对象配成对子，每对中的两个随机分配到两个处理组。n在同一受试对象上进行两种不同的处理。上述两种情况其目的是推断两种处理的效果有无差别。n在某项处理前后观察受试对象的某指标值，通过处理前后该指标值的差推断该处理是否有效。n这种类型的设计需要按照配比的t检验，X2检验及配对的病例对照研究方法进行数据分析。配对设计重复测量的设计这类设计方法是在给定一个处理因素后在不同的时间重复测量某一效应变量的改变情况。如欲评价生物制品接种后的免疫学效果，在接种后的2周、4周、6周和8 周测定抗体滴度，即为此类设计类型。对于这种设计类型的数据需应用重复测量的方差分析方法进行数据的分析。多因素设计若在研究设计中有多个自变量，则可根据因变量的性质选择合适的多因素分析方法。如果自变量是数值变量，则可考虑应用多元回归分析方法、协方差分析方法。如果是分类变量，则可选择logistic回归分析方法、判别分析方法及聚类分析方法等。根据变量的类型选择分析方法n区别与明确研究的因变量和自变量具有重要的流行病学与生物统计学意义，首先它有助于选择拟研究的变量，对调查表的设计具有指导作用。n其次数据分析阶段可以指导数据分析方法的选择及模型的建立。若因变量是分类变量，则常考虑应用分类变量的分析方法，如卡方检验，logistic回归分析等。如果因变量是数值变量，则考虑应用数值变量的分析方法如t检验、方差分析，协方差分析、多元回归等。同时明确自变量与因变量可以建立正确的统计学分析模型。 n因变量应该放在模型的左侧，自变量则放在模型的右侧。n例如欲评价不同治疗方法（口服药物、注射胰岛素及膳食控制）对糖尿病人的治疗效果（血糖水平），在分析时要求调整病人的性别、年龄和病程的影响。对本例的处理需要进行协方差分析，在应用SAS进行分析时，要将血糖水平（因变量）放在模型的左则，而治疗方法或其它协变量（covariate ）即性别、年龄和病程放在模型的右侧。又如分析脂蛋白（a）与冠心病发生的关系，则冠心病是否发生为因变量，脂蛋白（a）则为自变量，不可颠倒这种关系。不同变量类型的数据分析方法