资源预览内容
第1页 / 共22页
第2页 / 共22页
第3页 / 共22页
第4页 / 共22页
第5页 / 共22页
第6页 / 共22页
第7页 / 共22页
第8页 / 共22页
第9页 / 共22页
第10页 / 共22页
亲,该文档总共22页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
7.4 非参数假设检验,前面讨论的总体分布中未知参数的估计和检验都是假定总体分布类型已知,比如为正态总体的前提下进行的,在实际应用时,总体的分布往往未知,首先应对总体分布类型进行推断,如何对总体的分布进行推断呢,不难想象,我们可以由样本作经验分布函数的提示,对总体分布类型作假设,然后再对所提的假设进行检验.由于所用的方法不依赖于总体分布的具体数学形式.在数理统计中,就把这种不依赖于分布的统计方法称为非参数统计法.非参数统计的内容十分丰富,在本节我们主要介绍非参数假设检验中最重要的一类分布函数的拟合检验.主要介绍拟合优度检验法、独立性检验法.,1设总体 ,但 未知,从总体 中抽取样本 的观测值为 据此检验:,一、 -拟合检验法,下面我们介绍皮尔逊提出的 -拟合检验法,它能像各种显著性检验一样控制犯第一类错误的概率.,(其中 为某个已知的分布,不含未知参数),我们将 的可能取值范围R分成k个互不相交的区间:,(这些区间不一定长度相等.且 可为 , 可为 ),以 表示样本 观测值中落入 的频数 ,称之为观测频数,显然有 ,而事件 在 次观测中发现的频率为 .,我们知道,当 为真时, ; 。于是得到在 为真时,容量为 的字样落入区间 的理论频数为 ,且有 。,由大数定律知,当,为真时,,的差异不应太大.根据这个思想,皮尔逊(k.Pearson)构造出,即知,当,与,充分大时,,的检验统计量为:,并证明了如下的结论,定理7.4.1(皮尔逊定理),当 为真时, 统计量 的渐进分布是自由度为 的 -分布,即,变量,当 时。,对于给定的水平 ,P 查 (k-1)分布表,确定 出临界值,从而得 的拒绝域 ,将样本观察值代入 统计量算出其观测值 ,视其是否落入 而作出拒绝或接受 的判断。,拟合检验法,它适合下面更一般的 情况.,上面的检验法称为皮尔逊,2总体 ,其中 未知,需检验:,其中 为已知类型的分布,但含有 个未知参数 ,在这种情况,我们首先用 的极大似然估计 代替 的 ,再按情况1的办法进行检验,但这时 -统计量的渐进分布将是 (k-m-1),即有:,当 为真时,用 的极大似然估计 代 中的未知参数 ,并用,定理7.4.2 (Fisher定理),代替 中的 所得的统计量,当 时,有自由度为 k-m-1 的 分布,例7.4.1 研究混凝土抗压强度的分布.200件混凝土制件的抗压强度以分组的形式列出如下表。,要求在给定的显著性水平 下检验原假设,其中, 为抗压强度的分布。,解:原假设锁定的正态分布的参数 和 是未知的,由第六章中的例子可知 和 的极大似然估计分别为样本均值 和方差样本 。,设 为第 组的组中值,我们计算 和 。,千克/厘米,原假设 改写成 是正态分布 。计算每个区间的理论概率值,其中,,为了算出统计量,的值,我们把需要进行的计算列表于:,从上面的计算得出 的观测值为1.35.在显著水平 下,查自由度 的 -分布表,得到临界值 ,不能拒绝原假设,所以认为混凝土制件的受压强度的分布是正态分布 。,-检验作分布函数的拟合检验的一般步骤:,(1)把总体的值 划分为 个互不相交的区间 其中 可以分别取 (每个划分的区间必须包含不少于5个个体,若个体数少于5时,则可把这种区间并入其相邻的区间,或者把几个频数都小于5,但不一定相邻的区间并成一个区间i);,(2) 在,成立下,用极大似然估计法估计分布所含的位置参数;,(3)在 成立条件下,计算理论概率 ,并且计算出理论频数 ;,(4) 按照样本观察值 落在区间 中的个数,即实际频数 和(3)中算出的理 论频数 ,计算 的值(3),(4)两项的计算可列表进行);,(5)按照所给出的显著性水平 ,查自由度 的 -分布表得到 ,其中 是未知参数的个数;,(6)若 ,则拒绝原假设 ,若 ,则认为原假设 成立。,二、独立性检验,下面我们分析按两个特征分类的频数数据,它通常称为交叉分类数据.这种都以表格形式给出,叫做联列表. 先看一个例子.,为研究儿童智力发展与营养的关系,抽查了950名学生,得到如下分类数据:,例7.4.2,这种数据按两个特征分类,称为二向联列表.这里我们就是讨论这种形式的分类数据.,设所研究的总体具有特征 A及B,它们分别为r类 及c类 ,把A类作为行,B类作为列,可以得到一个二向的表格,从该总体中抽取一个容量为n的样本,将有关频数填入二向表格得到如表所示的 联列表,这就是二向列表的一般形式。,二向联列表的一般形式,表中, 的频数, 的频数, 的频数。 若记,那么,想利用二向联列表表提供的数据来研究两种分类之间是否有某种联系,相当于提出统计假设,对一切 成立。,按照概率论中独立性的概念,如果接受零假设,即表明A与B是相互独立的;反之,拒绝零假设 ,则表明两个A与B之间是有个某种联系的.这就是联列表的独立性检验.利用它也可以检验两个随机变量的独立性,这时应把它们的取值分别归类,正如我们在上一段做的那样.,这里处理的还是分类数据,共有 类,要求检验独立模型的拟合优度,因此自然期望仍然能用前面介绍的 检验法.事实也的确如此.,首先应该从样本出发估计未知参数,从而确定概率 。若 成立,则需估计 及 注意到 是事件 发生的概率,因此自然用 发生的频 率 来估计它。由参数估计一节中知,频率也是相应概率的极大似然估计。,类似的, 是 的极大似然估计。因此概率的估计为,这时相应于 的期望值 估计为,所以, 统计量为,在上述导出的统计量过程中,被估计的参数为 个: 因为 无需估计,所以根据公式知, 统计量近似服从 分布,,为了计算 统计量方便起见,从公式出发,可导出下列等价形式:,联列表在应用中特别重要,称为四格表,一般的四个表可以写成表所示的形式.所用的统计量为,如果对所有的 ,则不难导出,这是一个比较方便的计算公式。,上述统计量近似服从自由度为1的 分布。,例7.4.3,调查339名50岁以上吸烟习惯与患慢性气管炎病的情况,获数据如下:,试问吸烟习惯与患慢性气管炎病是否有关?,解: 这是 联列表的独立性检验.,(1)统计假设 :吸烟与患慢性气管炎无关;,(2)对 ,查 分布得临界值,(3)计算统计量的观测值,(4)作决策:由于 ,因此拒绝零假设 ,即说明吸烟与患慢性气管炎有关.,
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号