同济医学院-《sas》课件-sas的非参数检验(正式)-

非参数检验,SAS应用,蒋红卫 Email: JHWCCC21CN.COM,学习目标,了解非参检验的优缺点及应用范围；熟息非参数检验几种基本类型和检验的基本方法；掌握编秩基本步骤，平均秩的计算及相等秩的校正。配对及单样本秩和检验；两组样本比较的秩和检验；多组样本比较的秩和检验及两两比较；等级分组资料的非参数检验；随机区组设计资料比较的秩和检验及两两比较。,概述,比较两个总体间的差异，我们比较熟悉的是可依据总体方差是否已知，选择使用正态Z检验或t检验法。但如果有明显的证据表明，这些参数型检验法不能使用时又该如何呢？非参数检验法对此提供了解决方案。作为参数检验的一种推广，非参数检验有何特点？它的使用有什么样的要求？本章首先对非参数检验进行概述，接着按照和参数检验对应的原则分别介绍用于两组比较的非参数检验法、用于多组比较的非参数检验法以及等级相关检验（秩相关）。,概述,参数检验是在已知总体分布的条件下（一般要求总体服从正态分布）对一些主要的参数（如均值、百分数、方差、相关系数等）进行的检验，有时还要求某些总体参数满足一定条件。如独立样本的检验和方差分析不仅要求总体符合正态分布，还要求各总体方差齐性。非参数检验则不考虑总体分布是否已知，常常也不是针对总体参数，而是针对总体的某些一般性假设（如总体分布的位置是否相同，总体分布是否正态）进行检验。,概述,非参数检验方法简便，不依赖于总体分布的具体形式因而适用性强，但灵敏度和精确度不如参数检验。一般而言，非参数检验适用于以下三种情况：顺序类型的数据资料，这类数据的分布形态一般是未知的；虽然是连续数据，但总体分布形态未知或者非正态，这和卡方检验一样，称自由分布检验；总体分布虽然正态，数据也是连续类型，但样本容量极小，如10以下（虽然检验被称为小样本统计方法，但样本容量太小时，代表性毕竟很差，最好不要用要求较严格的参数检验法）。因为这些特点，加上非参数检验法一般原理和计算比较简单，因此常用于一些为正式研究进行探路的预备性研究的数据统计中。当然，由于非参数检验许多牵涉不到参数计算，对数据中的信息利用不够，因而其统计检验力相对参数检验也差得多。,单组资料的符号及符号秩和检验,单样本资料与已知总体符号秩和检验的检验步骤如下：求差值：求样本资料中单个个体数据与总体中位数的差值。检验假设 H0：差值的总体中位数等于零，即 H1：差值的总体中位数不等于零，即编秩按差值的绝对值由小到大编秩，并按差值的正负给秩次加上正负号。编秩时，若差值为0，舍去不计；若差值的绝对值相等，这时取平均秩次。求秩和，并确定统计量T将所排的秩次冠以原差数的符号，分别求出正、负差值秩次之和，分别以T+和 T-表示。,单组资料的符号及符号秩和检验,编秩按差值的绝对值由小到大编秩，并按差值的正负给秩次加上正负号。编秩时，若差值为0，舍去不计；若差值的绝对值相等，这时取平均秩次。求秩和，并确定统计量T将所排的秩次冠以原差数的符号，分别求出正、负差值秩次之和，分别以T+和 T-表示。,单组资料的符号及符号秩和检验,在H0成立时，如果当观察例数比较多，正差值的秩和与负差值的秩和理论上应相等，即使有些差别，也只能是一些随机因素造成的。换句话说，如果H0成立，一份随机样本中“不太可能”出现正差值的秩和与负差值的秩和相差悬殊的情形；如果样本的正差值的秩和与负差值的秩和差别太大，我们有理由拒绝H0，接受H1，即认为两种处理效应不同；反之，没有理由拒绝H0，还不能认为两种处理效应不同。,单组资料的符号及符号秩和检验,双侧检验时，以绝对值较小者为统计量T值，即T=min(T+,T-)；单侧检验时，任取正差值的秩和或负差值的秩和为统计量T。记正、负差值的总个数为n （即n为差值不等于0的对子数），则T+与T-之和为n(n+1)/2。确定P值和作出推断结论查表法（时）查T界值表，若检验统计量T值在上、下界值范围内，其P值大于相应的概率水平；若T值在上、下界值上或范围外，则P值小于相应的概率水平。,单组资料的符号及符号秩和检验,正态近似法（n50时）这时可利用秩和分布的正态近似法作出判断。已知H0成立时，近似地有其中，统计量的计算公式为：,例题单样本,已知某地正常人尿氟含量的中位数为45.30 。今在该地某厂随机抽取12名工人，测得尿氟含量。问该厂工人的尿氟含量是否高于当地正常人的尿氟含量？,配对设计资料的非参数检验,配对设计有两种情况：一种是同对的两个受试对象分别给予两种处理，目的是推断两种处理的效果有无差别。如取同窝别、体重相近的2只动物配对。临床试验疗效比较时，常将病种、病型、病情及其它影响疗效的主要因素一致的病人配成对子，以构成配对的研究样本。另一种是同一受试对象处理前后的比较，目的是推断该处理有无作用。例如观察某指标的变化，用同一组病人治疗前后作比较；用同一批动物处理前后作比较；或用同一批受试对象的不同部位、不同器官作比较等，也属于配比试验。,配对设计资料的非参数检验,配对设计资料一般采用配对t检验方法进行分析，但若配对数据差数的分布非正态分布，但其总体分布基本对称，则可采用符号秩检验作为配对t检验的替代方法。符号秩检验功效很高，在数据满足配对t检验的要求时，符号秩检验的功效可达配对t检验功效的95%。,配对设计资料的非参数检验,配对设计资料的检验步骤为：求差值求各对数据的差值；检验假设 H0：差值的总体中位数等于零，即 H1：差值的总体中位数不等于零，即编秩按差值的绝对值由小到大编秩，并按差值的正负给秩次加上正负号。编秩时，若差值为0，舍去不计；若差值的绝对值相等，取平均秩次。求秩和并确定统计量T将所排的秩次冠以原差数的符号，分别求出正、负差值秩次之和，分别以T+和 T-表示。,配对设计资料的非参数检验,在H0成立时，如果当观察例数比较多，正差值的秩和与负差值的秩和理论上应相等，即使有些差别，也只能是一些随机因素造成的。换句话说，如果H0成立，一份随机样本中“不太可能“出现正差值的秩和与负差值的秩和相差悬殊的情形；如果样本的正差值的秩和与负差值的秩和差别太大，我们有理由拒绝H0，接受H1，即认为两种处理效应不同；反之，没有理由拒绝H0，还不能认为两种处理效应不同。,配对设计资料的非参数检验,统计量双侧检验时，以绝对值较小者为统计量T值，即T=min(T+，T-)；单侧检验时，任取正差值的秩和或负差值的秩和为统计量T。记正、负差值的总个数为n （即n为差值不等于0的对子数），则T+与T-之和为n(n+1)/2。确定P值和作出推断结论。,例题配对设计,对12份血清分别用原方法（检测时间20分钟）和新方法（检测时间10分钟）测谷-丙转氨酶。问两法所得结果有无差别？,成组设计资料的非参数检验,Wilcoxon秩和检验，用于推断计量资料或等级资料的两个样本所来自的两个总体分布是否有差别。在理论上假设H0应为两个总体分布相同，即两个样本来自同一总体。由于秩和检验对于两个总体分布的形状差别不敏感，对于位置相同、形状不同但类似的两个总体分布，推断不出两个总体分布有差别，故对立的备择假设H1不能认为两个总体分布不同，而只能为两个总体分布位置不同。不管两个总体分布的形状有无差别，秩和检验的目的是推断两个总体分布的位置是否有差别，这正是实践中所需要的，如要推断两个不同人群的某项指标值的大小是否有差别或哪个人群的大，可用其指标值分布的位置差别反映，而不关心其指标值分布的形状有无差别。,成组设计资料的非参数检验,求检验统计量T值：把两样本数据混合从小到大编秩，遇数据相等者取平均秩；以样本例数小者为n1，其秩和（T1）为T，若样本例数相等，可取任一样本的秩和（T1或T2）为T。确定P值，作出推断结论：当n110和n2- n110时，查T界值表。若T值在界值范围内，其P值大于相应概率水平；若T值刚好等于界值，其P值等于相应概率水平；若T值在界值范围外，其P值小于相应概率水平。若n110或者n2- n110，超出界值表的范围，可用正态近似法作检验，令n1n2=N，按下式计算值。,成组设计资料非参数检验的SAS程序,SAS中对于非参数分析方法功能的实现主要由npar1way过程来完成，npar1way过程属于SAS的STAT模块，对于统计学上所涉及的非参数统计方法几乎都可以通过此过程完成。Npar1way过程的基本语句格式如下： PROC NPAR1WAY ; BY 变量名; CLASS变量名; EXACT 统计量选项 ; FREQ变量名; OUTPUT ; VAR 变量名; RUN;,成组设计资料非参数检验的SAS程序,DATA=数据集名：指定要进行分析的数据集； MEDIAN：运用中位数评分进行分析，即进行中位数检验 NOPRINT：禁止所有的输出，用在仅需要创建输出数据集时； ST：运用Siegel-Tukey评分进行分析； ANOVA：对原始数据进行方差分析； EDF：要求计算基于经验分布的统计量； MISSING：指定分组变量的缺失值为一有效的分组水平； SAVAGE：运用Savage评分进行分析； VW：运用Van der Waerden评分进行分析计算；,成组设计资料非参数检验的SAS程序,CORRECT=NO：在两样本时，禁止Wilcoxon和Siegel-Tukey检验的连续性校正过程； KLOTZ：运用Klotz评分进行分析； MOOD：运用Mood评分进行分析； SCORES=DATA：以原始数据为评分值进行分析； WILCOXON：对两样本进行Wilcoxon秩和检验，对多样本进行Kruskal-Wallis检验； exact语句：要求SAS对指定的统计量（选项）进行精确概率的计算。其后的统计量选项可为以下项目，分别对应相应的统计计算方式。,成组设计资料非参数检验的SAS程序,AB，KLOTZ，KS，MEDIAN，MOOD，SAVAGE，SCORES=DATA，ST，WILCOXON，VW等。运算选项为精确概率的计算过程指定一些控制项目，如选项“mc”要求以Monte Carlo方法计算精确概率。 output语句：与其它过程中相应的语句大同小异，不同之处在于语句最后的选项。此处的选项绝大多数包括在表6.1中，指定在输出数据集中包含所指定项目所对应的统计量。 var语句：与其它过程的也基本相同，用以指定要进行分析的变量，变量必须为数值型。若省略此语句，SAS将对除by语句、class语句以及freq语句中指定的变量之外的所有数值型变量进行分析。,例题成组设计,对10例肺癌病人和12例矽肺0期工人用X光片测量肺门横径右侧距RD值（cm。问肺癌病人的RD值是否高于矽肺0期工人的RD值？,例题两组等级资料,39名吸烟工人和40名不吸烟工人的碳氧血红蛋白HbCO(%)含量。问吸烟工人的HbCO(%)含量是否高于不吸烟工人的HbCO(%)含量？,完全随机设计资料的非参数检验,这一部分的内容相当于参数检验中的方差分析，依据的方法是Kruskal-Wallis秩和检验，此方法的基本思想与Wilcoxon秩和检验基本相同，都是基于各组混合编秩后，各组秩和应相等的假设。两者的不同点就在于Kruskal-Wallis秩和检验是针对多组数据的分析，而Wilcoxon秩和检验则只用于对两组数据的比较。 Kruskal-Wallis H检验，用于推断计量资料或等级资料的多个独立性样本所来自的多个总体分布是否有差别。在理论上检验假设H0应为多个总体分布相同，即多个样本来自同一总体。由于H检验多个总体分布的形状差别不敏感，故在实际应用中检验假设H0可写作多个总体分布位置相同。对立的备择假设H1为多个总体分布位置不全相同。,例题完全随机设计,用三种药物杀灭钉螺，每批用200只活钉螺，用药后清点每批钉螺的死亡数、再计算死亡率（%）。问三种药物杀灭钉螺的效果有无差别？,例题完全随机设计（等级）,四种疾病患者痰液内嗜酸性白细胞的检查结果。问四种疾病患者痰液内的嗜酸性白细胞有无差别？,