资源预览内容
第1页 / 共28页
第2页 / 共28页
第3页 / 共28页
第4页 / 共28页
第5页 / 共28页
第6页 / 共28页
第7页 / 共28页
第8页 / 共28页
第9页 / 共28页
第10页 / 共28页
亲,该文档总共28页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
27. 秩和检验(一)参数检验与非参数检验通常情况下,对数据进行分析时,总是假定误差项服从正态分布,因为正态分布的原始出发点就是来自于误差分布,至于当样本相当大时,数据的正态近似,这是由于大样本理论所保证的。但有些资料不一定满足上述要求,或不能测量具体数值,其观察结果往往只有程度上的区别,如颜色的深浅、反应的强弱等,此时就不适用参数检验的方法,而只能用非参数统计方法来处理。这种方法对数据来自的总体不作任何假设或仅作极少的假设,因此在实用中颇有价值,适用面很广。一、统计方法分为参数统计和非参数统计参数统计已知总体分布类型,对未知参数进行统计推断,依赖于特定分布类型,比较的是参数;非参数统计不以特定的总体分布为前提,不对总体参数推断;比较分布或分布位置;适用范围广,可用于任何类型资料(等级资料) 。二、参数检验与非参数检验的特点、优缺点、应用对比(二)符号检验和 Wilcoxon 符号秩检验一、单样本的符号检验符号检验,最简单的非参数检验方法,是根据正、负号的个数来假设检验。 符号检验可用于:(1)样本中位数和总体中位数的比较;(2)数据的升降趋势的检验;(3)特别适用于总体分布不服从正态分布或分布不明的配对资料;(4)定性表示的当配对资料(如试验前后比较结果为颜色从深变浅、程度从强变弱,成绩从一般变优秀) 。对于配对资料,符号检验的基本步骤为:首先定义成对数据指定正号或负号的规则,然后计数:正号的个数 S+及负号的个数 S-. 注意:不能标记正负号的观察值要从资料中剔除;1. 当小样本(n20)时,用二项分布(1)检验配对资料试验前后有无变化原假设 H0:配对资料试验前后无变化(S +和 S-可能性相等) ,正号/ 负号出现的概率均为 p=0.5, 故 S+和 S-均服从二项分布 B(n,0.5). (2)检验试验后正号有无增加原假设 H0:正号出现的概率 p0.5. 若 p0.5 则拒绝 H0,表明正号有增加;(3)检验试验后正号有无减少原假设 H0:正号出现的概率 p0.5. 若 p20 )时,用二项分布的正态近似用 S 表示正号或负号的个数,则 S B(n, p), 期望均值为 np,方差为 np(1-p),当 n 较大时,可以近似地认为符号检验时 p=0.5 代入上式即可. 当 Sn/2 时,应该修正 S 为 S-0.5;当 Sn/2 时,应该修正 S 为 S+0.5. 目的是为了能将连续分布应用到近似的离散型分布。二、配对资料的 Wilcoxon 符号秩检验若两组配对资料近似服从正态分布,则它们差值的检验可以使用配对 t 检验法;若配对资料的正态分布的假设不成立,可以使用Wilcoxon 符号秩检验(非参数检验) 。Wilcoxon 符号秩检验是对配对资料的差值采用符号秩方法来检验。基本要求是差值数据设置为最小的序列等级和两组配对资料是相关的(配成对) 。在两组配对资料的差异有具体数值的情况下,符号检验只利用大于 0 和小于 0 的信息,即正号和负号的信息,而对差异大小所包含的信息却未加利用,但 Wilcoxon 符号秩检验方法既考虑了正、负号,又利用了差值大小,故效率较符号检验法高。基本步骤:1. 假设检验(比较两个总体均值(中位数)是否有显著差异)H0:两个总体的均值(中位数)相同;H1:两个总体的均值(中位数)不相同;先求出每对数据的差值 D,按其绝对值由小到大排列(去掉差值为 0 的数据,相同值用平均秩) ,并将其“排列顺序号”编为秩 R. 然后将 R 分成正和负差值的两个部分秩值 R+和 R-,最后求符号秩和 T+= R+, T-=R -(注意:T + T-=n(n+1)/2) ;符号秩的平均值为n(n+1)/4. 再构造 Wilcoxon 符号秩统计量为若 H0 为真,T +与 T-应该有相同的值=n(n+1)/4,因此太大的 S 值或太小的 S 值都是拒绝 H0 的依据。在实际中为了便于计算,常取 W=min(T+, T+)作为统计量,W 服从 Wilcoxon 符号秩分布。查表在显著水平 下,关于 n 的双侧检验的临界值 Wb,则得 W 值的拒绝区域为0, Wb,接受域为W b, n(n+1)/4,若 W 统计量 20 样本,当原 H0 为真时,统计量 T= T+-T-接近于 0,其方差为建立检验统计量近似于标准正态分布。由于 T= T+-T-= 2T+-n(n+1)/2,故可将上式中的T 改写为 T+的形式:标准正态分布使用显著水平 =0.05时,拒绝区域为 z1.96,因为 2.241.96,计算出 z 统计量的值,判断拒绝 H0 与否。三、SAS 实现(PROC UNIVARIATE 过程步)例 1 检验提高学生某种素质的训练是否有效。随机地选取 15 名学生作为试验样本,在训练开始前做了一次测验,每个学生的素质按优、良、中、及、差打分,经过三个月训练后,再做一次测试对每个学生打分(素质提高用+表示,降低用表示,无变化用 0 表示) 。表 1 训练前后的素质比较学生编号 训练之前 训练之后 差异符号1 中 优 2 及格 良 3 良 中 4 差 中 5 良 良 06 中 优 7 差 及格 8 良 优 9 中 差 10 差 中 11 中 优 12 及格 良 13 中 及格 14 中 优 15 差 中 为了处理,先对定性资料进行量化:用 1,2,3,4,5,分布表示差、及格、中、良、优。代码:data training;input before after ;d= after-before;datalines;3 5 2 4 4 3 1 3 4 43 5 1 2 4 5 3 1 1 33 5 2 4 3 2 3 5 1 3;run;proc print data = training;title 原始数据 ;run;proc univariate data = training;var d;run;运行结果及说明:注意:只能调用 univariate 过程,而不能调用 means 过程来进行符号检验。分析变量为单样本数据集 training 中的 d 变量。符号检验统计量 M(Sign)=4,它是取正符号和负符号两者之间的小者作为检验统计量(?)Pr=|M|计算的概率是二项分布的两尾概率之和,因此它是双侧检验,检验正符号和负符号是否相同,结果为 0.0574。在显著水平设定为 0.1 时,由于 0.05740.05,则变为不能拒绝原假设。但是,如果用考虑差值 d 大小的信息的 Wilcoxon 符号秩检验,即 Sgn Rank,由于 0.01540.05配对资料如果其差值不是具体数字,只能用符号检验。但如果差值有具体数字,而使用符号检验,相当于只利用了它的“+” 、 “-”,而对数字大小中所包含信息却未加利用。此时,若符合正态分布则使用配对资料的 t 检验;若不符合正态分布则用 Wilcoxon 符号秩检验。差值 D 的正态性检验的结果为 0.53380.05,因此不能拒绝差值D 具有正态性。因为制造商拒绝相信差值 D 具有正态性,所以采用Wilcoxon 符号秩检验。Wilcoxon 符号秩统计量 S=22。SAS 建议在 n20 时,Pr=|S| 的概率由 S 的精确分布计算,而 S 的分布是尺度二项分布的卷积,所以精确结果为 p 值=0.0234 20 时,将符号秩统计量 S 标准化成自由度为 1 的 t 统n n计量来计算显著水平(注意跟前文的转换成标准正态分布略有不同) ,原因是当 较大时, t 分布渐近标准正态分布。另外,SAS 系统在计算秩统计量 S 的方差时,用结值来修正方差。p 值=0.0194 0减 0.5 修正,对于 Wx- ;BY 变量 ;CLASS 变量;EXACT 统计量选项;FREQ 变量 ;OUTPUT ;VAR 变量列表;说明:(1)可选项:ANOVA方差分析CONOVER协方差分析D运用 Kolmogorov-Smirnov (D)统计量评分进行分析KLOTZ运用 Klotz 评分进行分析MEDIAN运用中位数评分进行分析MOOD运用 Mood 评分进行分析SAVAGE运用 Savage 评分进行分析(指数分布)SCORES=DATA以原始数据为评分值进行分析ST运用 Siegel-Tukey 评分进行分析VW/NORMAL运用 Van der Waerden 评分进行分析(通过应用反正态分布累积函数得到近似的正态得分)WILCOXONKruskal-Wallis 秩和检验EDF计算基于经验分布函数的统计量(2)EXACT 语句,对指定的统计量(选项)进行精确概率的计算。例 3 某航空公司的 CEO 注意到飞离亚特兰大的飞机放弃预定座位的旅客人数在增加,他想知道,是否从亚特兰大起飞的飞机比从芝加哥起飞的飞机有更多的放弃预定座位的旅客。获得一个从亚特兰大起飞的 9 次航班和从芝加哥起飞的 8 次航班上放弃预定座位的旅客人数样本。表 3 放弃预定座位的旅客人数及统一秩值亚特兰大( 组)x芝加哥( 组)y航班次数 放弃人数 统一编秩 放弃人数 统一编秩1 11 5.5 13 72 15 9 14 83 10 3.5 10 3.54 18 12 8 15 11 5.5 16 106 20 13 9 27 24 16 17 118 22 15 21 149 25 17秩和 xW96.5 yW56.5代码:data noshows ;do group=1 to 2;input n;do i=1 to n;input x ;output;end;end;drop i n;datalines;911 15 10 18 11 20 24 22 25813 14 10 8 16 9 17 21;run;proc print data = noshows;title 原始数据 ;run;proc npar1way data = noshows wilcoxon;class group;var x;run;运行结果及说明:选项 wilcoxon 要求进行 wilcoxon 秩和检验。要注意,若两组样本是配对样本,应该使用配对 t 检验或 wilcoxon 符号检验,因为使用 wilcoxon 秩和方法,将损失配对信息。组 1 和组 2 的秩和分别为 96.50 和 56.50。原假设 H0 为真时(组 1 和组 2 的总体分布相同) ,期望秩值分别为(96.50+56.50)9/( 9+8)=81.0(96.50+56.50)8/( 9+8)=72.0标准差为 10.3795614,每组平均得分分别为96.50/9=10.722222256.50/ 8=7.0625000Wilcoxon 两样本秩和统计量(较小的秩和)S = 56.5000,正态近似检验统计量 Z = -1.44515(连续性修正因子为 0.5,加在分子上),正态分布的双尾 p 值之和为 0.1484 = 0.05,不能拒绝原假设H0.同时还给出了近似 t 检验和卡方检验的结果:近似 t 检验的 p 值=0.1677,近似卡方检验统计量为 2.2300,自由度为 1,p 值=0.1354。结果都是相同的,不能拒绝原假设 H0.(四)完全随机设计的 Kruskal-Wallis 秩和检验一、概述方差分析,可以检验三个或更多总体的均值是否相等的问题,数据是被假设成具有正态分布和方差齐性(相等的方差) ,此时 F 检验才能奏效。但有时数据不能完全满足这些条件,不妨将数据转换成秩统计量(秩统计量的分布与总体分布无关) ,可以摆脱总体分布的束缚。 在比较两个以上的总体时,
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号