资源预览内容
第1页 / 共175页
第2页 / 共175页
第3页 / 共175页
第4页 / 共175页
第5页 / 共175页
第6页 / 共175页
第7页 / 共175页
第8页 / 共175页
第9页 / 共175页
第10页 / 共175页
亲,该文档总共175页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第三章第三章 假设检验假设检验 假设检验问题假设检验问题,就是通过从有关就是通过从有关总体抽取一定容量的样本,利用总体抽取一定容量的样本,利用样本去检验总体分布是否具有某样本去检验总体分布是否具有某种特征。假设检验问题大致分为种特征。假设检验问题大致分为两类:两类:(1)参数检验问题:即总体的分布参数检验问题:即总体的分布形式已知形式已知(如正态,指数,二项如正态,指数,二项分布等分布等),总体分布依赖于未知,总体分布依赖于未知参数参数(或参数向量或参数向量),要,要检验的是的是有关未知参数的假有关未知参数的假设。例如。例如总体体未知,未知,检验:(2)非参数型假设检验:如果总体非参数型假设检验:如果总体分布形式未知,此时就需要有一分布形式未知,此时就需要有一种与总体分布族的具体数学形式种与总体分布族的具体数学形式无关的统计方法,称为非参数方无关的统计方法,称为非参数方法。例如检验一批数据是否来自法。例如检验一批数据是否来自某个已知的正态总体的问题。某个已知的正态总体的问题。第一节第一节 假设检验的基本概念假设检验的基本概念一、假设检验问题的提出一、假设检验问题的提出 实际推断原理:小概率事件实际推断原理:小概率事件在一次试验中几乎不会发生;或在一次试验中几乎不会发生;或者说在一次试验中观察到的事件者说在一次试验中观察到的事件不会是小概率事件。不会是小概率事件。 实际推断原理是假设检验的实际推断原理是假设检验的基本原则,类似于数学推断中的基本原则,类似于数学推断中的反证法,但是又与反证法有本质反证法,但是又与反证法有本质的不同。的不同。二、基本概念二、基本概念1、总体分布族、总体分布族 假设假设 是来自于分是来自于分布族布族 中某一分布的中某一分布的简单随机样本。目前我们只考简单随机样本。目前我们只考虑参数分布族,即概率密度或概虑参数分布族,即概率密度或概率函数的形式已知,参数的真值率函数的形式已知,参数的真值属于已知的参数空间但是未知。属于已知的参数空间但是未知。与参数估计的问题一样,总体分与参数估计的问题一样,总体分布族的确定建立了统计模型。布族的确定建立了统计模型。2、原假设与对立假设、原假设与对立假设 在实际问题中,研究人员往往在实际问题中,研究人员往往提出某个假设,并希望通过样本提出某个假设,并希望通过样本来检验该假设是否成立。在上例来检验该假设是否成立。在上例中,检验人员关心的问题是:中,检验人员关心的问题是:这批产品的不合格率是否大于这批产品的不合格率是否大于0.04,这个假设可以称为研究假设,在假这个假设可以称为研究假设,在假设检验问题中,称为对立假设或备设检验问题中,称为对立假设或备择假设。择假设。“不合格率小于等于不合格率小于等于0.04”就是研究假设的反面,称为原假设就是研究假设的反面,称为原假设或零假设。原假设常用或零假设。原假设常用H0来表示来表示,对立假设常用对立假设常用H1来表示。在参数来表示。在参数族分布模型中,原假设和对立假族分布模型中,原假设和对立假设表现为参数的不同范围。设表现为参数的不同范围。为了清楚的表达所考虑的原假设为了清楚的表达所考虑的原假设和对立假设,一般的将它们成对和对立假设,一般的将它们成对的写出来:的写出来: 一般的参数的假设检验问题可一般的参数的假设检验问题可以表示为:以表示为:3、检验规则、检验规则 即根据样本判断能否接受原假即根据样本判断能否接受原假设的规则一般的,最简单的检验设的规则一般的,最简单的检验规则是:把样本可能的取值范围规则是:把样本可能的取值范围即样本空间划分为两个不相交的即样本空间划分为两个不相交的部分部分 ,并且这种划分不依,并且这种划分不依赖于未知参数;当样本落入赖于未知参数;当样本落入S时就时就拒绝原假设拒绝原假设H0而接受对立假设而接受对立假设H1,否则就接受原假设否则就接受原假设H0。划分。划分称为假设检验问题称为假设检验问题 的一的一个检验。称个检验。称S为该检验的拒绝域,为该检验的拒绝域,而而 为该检验的接受域。为该检验的接受域。 为了研究的方便,常用检验函为了研究的方便,常用检验函数数(X)来描述来描述检验规则: 显然,检验函数为拒绝域的示性显然,检验函数为拒绝域的示性函数。当函数。当(X)=1时,拒,拒绝原假原假设,当当(X)=0时,接受原假接受原假设。检验函数完全的表示了函数完全的表示了检验规则。在通常的情况下,检验的拒绝域在通常的情况下,检验的拒绝域可以通过一个统计量来表示,这可以通过一个统计量来表示,这个统计量称为检验统计量。此时个统计量称为检验统计量。此时,拒绝域和接受域之间常用一个或拒绝域和接受域之间常用一个或几个数值分开,称这些值为检验几个数值分开,称这些值为检验的临界值。的临界值。4、两类错误、两类错误第一类错误:原假设为真,而错第一类错误:原假设为真,而错误的拒绝了原假设,称为弃真。误的拒绝了原假设,称为弃真。拒绝正确的原假设拒绝正确的原假设H0等价于等价于检验函数犯第一类错误的概率为:检验函数犯第一类错误的概率为:这个概率一般随这个概率一般随 在在 0中取值的变中取值的变化而变化。化而变化。第二类错误:原假设不真,而错第二类错误:原假设不真,而错误的接受了原假设,又称为取伪误的接受了原假设,又称为取伪,接受错误的原假设接受错误的原假设H0等价于等价于一般地,检验函数犯第二类错误一般地,检验函数犯第二类错误的概率为:的概率为:5、功效函数、功效函数定义定义1:设:设的一个检验函数,则:的一个检验函数,则:称为检验的功效函数称为检验的功效函数(power function),也称为势函数。,也称为势函数。检验函数犯第一类错误的概率为检验函数犯第一类错误的概率为这个概率一般随这个概率一般随在在0 0中的取中的取值变化而化而变化。化。第二类错误:一般的检验函数犯第第二类错误:一般的检验函数犯第二类错误的概率为:二类错误的概率为:一个好的检验函数一个好的检验函数,犯两类错误的犯两类错误的概率都应较小,也就是功效函数概率都应较小,也就是功效函数在在 0中应尽可能的小,在中应尽可能的小,在 1中尽中尽可能的大。可能的大。6、检验水平、检验水平 希望一个检验犯两类错误的概希望一个检验犯两类错误的概率都小,一般在固定样本大小时率都小,一般在固定样本大小时,对任何检验都办不到。例如:要对任何检验都办不到。例如:要犯第一类错误的概率减小,就要犯第一类错误的概率减小,就要缩小拒绝域,使接受域增大,这缩小拒绝域,使接受域增大,这必然导致犯第二类错误的概率增必然导致犯第二类错误的概率增大,反之亦然。因此大,反之亦然。因此NeymanPaerson提出了一条原则,就是提出了一条原则,就是限制犯第一类错误概率的原则,限制犯第一类错误概率的原则,即在保证犯第一类错误的概率不即在保证犯第一类错误的概率不超过指定数值超过指定数值(00,考虑检验问题考虑检验问题:因为因为是该总体的数学期望是该总体的数学期望,自然自然想到用样本均值作为检验统计量想到用样本均值作为检验统计量.且其检验的拒绝域的形式为且其检验的拒绝域的形式为:而在原假设成立的条件下样本均而在原假设成立的条件下样本均值的分布为值的分布为: 则可以用则可以用2统计量作为检验统计统计量作为检验统计量量,就可以得到此检验的拒绝域为就可以得到此检验的拒绝域为: 其检验函数为其检验函数为:对于其他的两种检验对于其他的两种检验,同理可以得同理可以得到类似的检验函数与拒绝域到类似的检验函数与拒绝域.二、两点分布与二项分布二、两点分布与二项分布设简单随机样本设简单随机样本 服从服从两点分布,则两点分布,则 服从二项分服从二项分布布.做如下检验做如下检验:直观上看直观上看,一个显然的检验方法是一个显然的检验方法是取如下的拒绝域取如下的拒绝域:由于由于X只能取整数只能取整数,则则c可以限定在可以限定在非负整数中非负整数中.然而然而,一般情况下一般情况下,对对于给定的于给定的,不一定能正好取到一不一定能正好取到一个个c,使得使得对于离散的分布对于离散的分布,在假设检验中都在假设检验中都会有这样的问题会有这样的问题,恰好使上式成立恰好使上式成立的的C值非常罕见值非常罕见.一个较常见的方一个较常见的方法是找一个法是找一个c0,使得使得于是于是,若取若取c=c0,相当于把检验的相当于把检验的显著性水平提高了显著性水平提高了,若取若取c=c0+1,相当于把显著性水平降低了相当于把显著性水平降低了.因为因为后者可以保证显著性水平的要求后者可以保证显著性水平的要求,所以取所以取c=c0+1.三、检验的三、检验的p值值定义:在一个假设检验中,利用定义:在一个假设检验中,利用观测值能够做出拒绝原假设的最观测值能够做出拒绝原假设的最小显著性水平称为检验的小显著性水平称为检验的p值。值。第四节第四节 一致最优检验与无偏检验一致最优检验与无偏检验一、引言与定义一、引言与定义 设有分布族设有分布族 ,其中,其中 为参数空间,样本为参数空间,样本 为从上述分布族抽取的简单样本,为从上述分布族抽取的简单样本,参数参数的的 假设检验问题可以表示成假设检验问题可以表示成 如下如下 的一般形式的一般形式:其中其中 0为参数空间为参数空间的非空真的非空真子集,子集,1 1= =- -0 0。 对上述检验问题可用几种不同方对上述检验问题可用几种不同方法去检验,这就产生不同检验的法去检验,这就产生不同检验的比较问题以及在一定准则下寻求比较问题以及在一定准则下寻求“最优最优”检验的问题,这与在第检验的问题,这与在第三章参数估讨问题中,在无三章参数估讨问题中,在无 偏估偏估计中找一致最小方差估计完全相似计中找一致最小方差估计完全相似下面先给出一致最优检验的定义下面先给出一致最优检验的定义定义定义1:设有检验问题:设有检验问题(1),令,令0 1,记记 为式为式(1)的一切水平为的一切水平为 的检验的集合的检验的集合.若若 ,且对且对任何检验任何检验 , 有有:则称则称为式为式(1)的一个水平为的一个水平为的的一致最优检验一致最优检验(uniformly most powerful test,UMPT) 当当为水平为水平的的UMPT时,它在限时,它在限制第一类错误概率不超过的制第一类错误概率不超过的的条的条件下,总使第二类错误概率达到最件下,总使第二类错误概率达到最小。因此若以错误概率为衡量检验小。因此若以错误概率为衡量检验优劣的唯一优劣的唯一 度量,且接受限制第一度量,且接受限制第一类错误概率的原则,则类错误概率的原则,则UMPT是是最好的检验。不过,最好的检验。不过,UMPT 的存的存在一般是例外而不常见的,理由在一般是例外而不常见的,理由如下;若如下;若1 1不止包含一个点,则不止包含一个点,则当在其中取两个不同点当在其中取两个不同点1和和2 时,为使有时,为使有 尽可能大的那种尽可能大的那种检验检验 ,不见得同时也能使,不见得同时也能使 大,在大,在0 0和和1 1都只包含一个点都只包含一个点时,一般说来时,一般说来UMPT存在,这就存在,这就是下面是下面 Neuman-Pearson引理引理(NP引理)的内容引理)的内容 二、检验函数的随机化二、检验函数的随机化 若对某些样本若对某些样本X,检验函数有,检验函数有如下形式:如下形式:0 (X) 1,则称,则称(X)为随机化检验为随机化检验(randomized test) 这种随机化的检验函数可以表示这种随机化的检验函数可以表示为为:三、三、Neuman-Pearson引理引理 定理定理1:(NP基本引理基本引理)设样本设样本X的的分布有概率函数分布有概率函数 ,参数,参数只只有两个可能的取有两个可能的取值0和和1,考,考虑下列下列检验问题:则对于任给的则对于任给的01,有有:(1)存在性存在性:对检验问题(2),必存在一必存在一个个检验函数函数(X)及非及非负常数常数c和和和和0r 1,满足条件足条件(2)任何满足任何满足(3)(4)两式的检验两式的检验(X) 是是检验问题(2)的的UMPT.注注1:在此定理中在此定理中,当当样本分布本分布为连续分布分布时,(3)式中的随机化是不必要式中的随机化是不必要的的,这时候取候取r=0,(3)式式变为:其中其中c由下式确定由下式确定:注注2:从从”似然性似然性”的角度看的角度看NP基本基本引理是很清楚的引理是很清楚的:对每个样本对每个样本X,1和和0的的”似然度似然度”分分别为: ,比比值越大越大,就反映在得到就反映在得到样本本X时, 越越像像1而非而非0,这样的的样本本X就就越越倾向于否定原假向于否定原假设H0.这个比个比值称称为似然比函数似然比函数.记做做:四、利用四、利用NP引理求一致最优检验引理求一致最优检验 NP引理的主要作用不在于求像引理的主要作用不在于求像(2)式那样的检验问题,而且,我式那样的检验问题,而且,我们将像们将像(2)式那样的检验问题称为式那样的检验问题称为简单假设检验,其他的检验类型简单假设检验,其他的检验类型称为复合检验问题。称为复合检验问题。一般情况下,复合检验的情形更常一般情况下,复合检验的情形更常见一些。而见一些。而NP引理的主要作用就引理的主要作用就是在于它是求更复杂情形下的一致是在于它是求更复杂情形下的一致最优检验的工具。在前面的例子中,最优检验的工具。在前面的例子中,已经将检验问题推广到对立假已经将检验问题推广到对立假是复合的情形,更一般的检验问是复合的情形,更一般的检验问题如题如(1)式所示。其中的式所示。其中的0 0,1 1都包括不止一个点。对于特殊的都包括不止一个点。对于特殊的检验类型及特殊的分布族类型,检验类型及特殊的分布族类型,已经可以求出一致最优检验。已经可以求出一致最优检验。 设样本设样本 的分布的分布族为如下指数族:族为如下指数族:其中其中 为为的函数,的函数, 为样本的函数。本的函数。 对于如下单边检验问题:对于如下单边检验问题:有下列重要结论:有下列重要结论:定理定理2:设样本:设样本 的分布为指数分布族的分布为指数分布族(5)式,参数式,参数空间空间为为R1=(-,+)R1=(-,+)的有限或的有限或无限无限区间,区间,0 0为为的一个内点且的一个内点且 为为的严格增函数,检验问的严格增函数,检验问 题题(6)的水平为的水平为(0 1)的一致的一致最最优检验UMPT存在,且有如下存在,且有如下形式:形式:注注1:当样本分布族为连续分布时:当样本分布族为连续分布时则一致最优检验不需要随机化,则一致最优检验不需要随机化,此时,只需要将检验函数中的此时,只需要将检验函数中的r=0即可得到。即可得到。注注2:在定理:在定理2中若将条件中若将条件“Q()为为的的严格增函数格增函数”改改为“Q()为的的严格减函数格减函数”,其它条件不其它条件不变,则检验函数函数为:五、无偏检验五、无偏检验 从前面的讨论可以知道,一致从前面的讨论可以知道,一致最优检验需要很多的限制条件,最优检验需要很多的限制条件,其作用是有限的。为了得到更广其作用是有限的。为了得到更广泛的检验准则,考虑施加某种合泛的检验准则,考虑施加某种合理的一般性限制,在缩小了的范理的一般性限制,在缩小了的范围内找一致最优检验。基于这种围内找一致最优检验。基于这种想法,引进无偏检验的概念。想法,引进无偏检验的概念。定义定义2:设:设为检验问题:的一个的一个检验函数,其功效函数函数,其功效函数满足条件:足条件:则称则称为水平水平为的无偏的无偏检验。记:记:定义定义3:一致最优无偏检验一致最优无偏检验(uniformly most powerful unbiased test简记为:简记为:UMPUT).注注1:任何一个一致最优检验都是任何一个一致最优检验都是一致最优无偏检验一致最优无偏检验.注注2:对于单参数指数分布族对于单参数指数分布族,在定在定理理2中给出的检验问题的水平为中给出的检验问题的水平为的的UMPT也是也是UMPUT.第五节第五节 (广义广义)似然比检验似然比检验一、一、(广义广义)似然比检验的定义似然比检验的定义 设有分布族设有分布族 为参为参数空间,令数空间,令 为来自此为来自此分布族的简单随机样本,考虑如分布族的简单随机样本,考虑如下检验问题:下检验问题: 定义定义4:设样本:设样本 有概率函数有概率函数 而而 为参数空间为参数空间的真子集,考虑上述检验问题,则的真子集,考虑上述检验问题,则统计量统计量称为关于该检验问题的称为关于该检验问题的(广义广义)似然似然比,而由下式定义的检验函数:比,而由下式定义的检验函数:其中其中c,r(0r1)为待定常数,待定常数,称称为上述上述检验问题的一个的一个(广广义)似然比。似然比。若样本分布为连续分布时,检验若样本分布为连续分布时,检验函数为:函数为:其中的其中的c,r的选取要满足显著性的选取要满足显著性水平水平。寻找寻找(广义广义)似然比检验的步骤似然比检验的步骤1、求似然函数,明确参数空间、求似然函数,明确参数空间和和0 0是什么是什么2 2、算出、算出3 3、求出、求出 或与其等价的统计量或与其等价的统计量4 4、确定、确定c,rc,r使检验函数具有给定的使检验函数具有给定的显著性水平显著性水平。第六节第六节 拟合优度检验拟合优度检验 本节讨论的拟合优度检验,是本节讨论的拟合优度检验,是用来检验样本与某用来检验样本与某 个分布或分布个分布或分布族的拟合是否有显著差异的统计族的拟合是否有显著差异的统计方法方法。显然,拟合优度检验在显然,拟合优度检验在 统统计数据分析中占有非常重要的地计数据分析中占有非常重要的地位,它是建立统计模型的基本步位,它是建立统计模型的基本步骤之一。骤之一。 拟合优度检验的基本思路是寻拟合优度检验的基本思路是寻求某种衡量样本的分布特性与猜求某种衡量样本的分布特性与猜测的统计模型之间的差异的量。测的统计模型之间的差异的量。简单地说,就是寻求衡量数据与简单地说,就是寻求衡量数据与模型的拟合程度的量。当表示差模型的拟合程度的量。当表示差异的量超过某个界限,便认为总异的量超过某个界限,便认为总体与这个统计模型之间差异太大体与这个统计模型之间差异太大,用这个模型来描述可能会引起用这个模型来描述可能会引起问题,产生误导的结论。由此可问题,产生误导的结论。由此可以看出这确实是一个假设检验问以看出这确实是一个假设检验问题;拟合优度检验的方法随着衡题;拟合优度检验的方法随着衡量样本与统计模型之量样本与统计模型之 间拟合程度间拟合程度的量的不同而不同。的量的不同而不同。以下将主要介绍图示法、以下将主要介绍图示法、Pearson2检验法和检验法和EDF型检验,同时对于型检验,同时对于正态分布的拟合优度检验进行更为正态分布的拟合优度检验进行更为细致的讨论。细致的讨论。需要特别指出的是,由于问题本需要特别指出的是,由于问题本身的性质,拟合优度检验基本上身的性质,拟合优度检验基本上属于大属于大 样本理论问题,因为当样样本理论问题,因为当样本量很小时,样本中所包含的关本量很小时,样本中所包含的关于分布特性:比如于分布特性:比如 分布密度的形分布密度的形状状)的信息一般不足以让我们做出的信息一般不足以让我们做出可靠的判断。可靠的判断。一、图示法一、图示法 图示法是拟合优度检验的常用图示法是拟合优度检验的常用方法,虽然不能定量地描述样本方法,虽然不能定量地描述样本与假设的与假设的 总体分布之间的差异,总体分布之间的差异,但具有简便直观、易于解释的特但具有简便直观、易于解释的特点,往往从中能够发点,往往从中能够发 现样本或总现样本或总体的某些特征,从而为建立统计体的某些特征,从而为建立统计模型提供更多的信息。本小节介模型提供更多的信息。本小节介绍绍PP散点图和散点图和QQ散点图两种散点图两种图方法。图方法。1、PP 散点图散点图设设X1,Xn为来自于连续型分为来自于连续型分布布F的独立同分布样本,根据所的独立同分布样本,根据所研究问题的实际背景,猜测研究问题的实际背景,猜测F为为某连续型分布某连续型分布F0。我们的问题是。我们的问题是 检验假设:检验假设:介绍介绍PP图方法,首先给出下面图方法,首先给出下面的定理。的定理。定理定理1:若上述检验的原假设成立:若上述检验的原假设成立 即即 成立,则:成立,则:相互独立,并且服从分布相互独立,并且服从分布 记记 为为 的顺序统计量,则由的顺序统计量,则由顺序统计量的概率密度函数的公顺序统计量的概率密度函数的公式知式知 的概率密度函数为:的概率密度函数为:这种作图法实际上是检验这种作图法实际上是检验U1,U2,Un是否来自是否来自(0,l)上的均上的均匀分布匀分布U (0,1 )。当。当p p散点图散点图不呈直线时,一般需要依据问题不呈直线时,一般需要依据问题的背景和样本的某些特性对于总的背景和样本的某些特性对于总体的分布特点进行进一步的分析,体的分布特点进行进一步的分析,同时也需要逐步积累数据分同时也需要逐步积累数据分 析的经验。有下面几种典型情况析的经验。有下面几种典型情况:(1)Ui的均值是的均值是0.5,图形关于,图形关于(0.5,0.5)对称,而对称,而Ui的取值有向的取值有向0.5 集中的倾向。集中的倾向。PP散点图呈反散点图呈反S型,如图型,如图3.3 (b)所示。此时,表所示。此时,表明函数明函数 F0在由在由X1,X2,Xn标明的标明的范围内变化平缓,从而范围内变化平缓,从而F0相对于相对于真正的总体分布真正的总体分布 来说可能分散性来说可能分散性偏大,尾部较重;而对称性表明偏大,尾部较重;而对称性表明二者的密度二者的密度 度曲线形状可能相似度曲线形状可能相似且位置大体一致且位置大体一致(图中的样本来自图中的样本来自于参数为于参数为(2.5,2.5)的贝塔分布,的贝塔分布,F0为为 U( 0,1)。(2)对称性如上,但对称性如上,但Ui的取值有向的取值有向两端点两端点0,1集中的倾向,集中的倾向,PP散散 点图呈正点图呈正S型,如图型,如图3.3 (c)所示。所示。此时,此时,F0相对千真正的总体分布相对千真正的总体分布来说来说 可能分散性偏小,尾部较轻可能分散性偏小,尾部较轻(图中的样本来自于参数为图中的样本来自于参数为(0.75,0.75)贝塔分贝塔分 布,布,F 0为为U(0,1)。(3)当图形关于当图形关于(0,5,0,5)不对称时不对称时情况比较复杂:可能表明分布情况比较复杂:可能表明分布F0与总体的密度曲线形状不一致或与总体的密度曲线形状不一致或位置不一致。比如,图位置不一致。比如,图3 .3 (d)所所示的是示的是Ui 倾向于取大值的情形倾向于取大值的情形,此时,可能是由于分布此时,可能是由于分布F0的位置的位置偏左,或尾部轻,当然也可能是偏左,或尾部轻,当然也可能是由于总体分布与由于总体分布与F0不同方向的偏不同方向的偏态引起态引起(图中的样本来自于图中的样本来自于N(1,1),F0为为N (0,l)。2、Q-Q散点图散点图 在假设检验问题中,在假设检验问题中, 分布分布F0是完是完全给定的。但在许多实际问题中全给定的。但在许多实际问题中,需要考虑总体分布是否属于某个需要考虑总体分布是否属于某个分布族。此时,分布族。此时, PP散点图用起散点图用起来不方便,而来不方便,而Q Q散点图可以用散点图可以用来检验位置来检验位置 刻度参数分布族:刻度参数分布族:设设X1,Xn 是抽自连续型分布是抽自连续型分布F的的简单随机样本,考虑的假设检验简单随机样本,考虑的假设检验问题是问题是其中连续型的分布函数其中连续型的分布函数F0( )是给是给定的,但参数定的,但参数,的不同值决定的不同值决定分布族中的具体分布。这种问题分布族中的具体分布。这种问题的一个例子是看样本是否来自于的一个例子是看样本是否来自于正态总体正态总体(而不特而不特 别指明是看来自别指明是看来自于哪个正态分布于哪个正态分布)。 Q-Q散点图出识别方法如下:若散点图出识别方法如下:若点阵不呈直线状态,则认为点阵不呈直线状态,则认为H0不不成立。此时,图形可能呈现各种成立。此时,图形可能呈现各种各样的情况。几种典型的情况如各样的情况。几种典型的情况如下下: (1)点阵构成的图形呈中心对称的点阵构成的图形呈中心对称的反反S型,中部点的密度较大,如图型,中部点的密度较大,如图3.5(b)所示。这表明比起由所示。这表明比起由给定的横坐标来,样本中最大给定的横坐标来,样本中最大的一的一些值和最小的一些值比较突出。些值和最小的一些值比较突出。样本值相对比较分散,总体分布样本值相对比较分散,总体分布可能比原假设下的分布族中的分可能比原假设下的分布族中的分布重尾。布重尾。对称性则可能表对称性则可能表明明,两,两个分布族的密度曲线的形状类似个分布族的密度曲线的形状类似(图中样本来自于图中样本来自于Cauchy分布,分布,F0为为N (0,1 )。(2)点阵构成的图形呈中心对称的点阵构成的图形呈中心对称的S型,中部点的密度较大,如图型,中部点的密度较大,如图3.5(c)所示。这表明样本两端的值所示。这表明样本两端的值比起由比起由 给定的横坐标来相给定的横坐标来相对变化较慢,从而样本取值比较集对变化较慢,从而样本取值比较集中,总体分布可能比原假设下的分中,总体分布可能比原假设下的分布族中的分布轻尾布族中的分布轻尾(图中样本来自图中样本来自于正态分布,于正态分布,F0为为Laplace分布分布)。 (3)在其他非典型的情况下,在其他非典型的情况下,Q-Q散点图的分析比较复杂。比如,图散点图的分析比较复杂。比如,图3.5(d)中,由于中,由于F0取为取为N(0,1),可,可以看出总体出分布是偏态的,并且以看出总体出分布是偏态的,并且右侧尾部较正态分布重。有时还可右侧尾部较正态分布重。有时还可 检测出异常点的存在。所谓异常点检测出异常点的存在。所谓异常点是指是指“远离远离”其他数据点的观测值。其他数据点的观测值。这里的这里的“远离远离”当然有一个程度的当然有一个程度的问问题,题, 在此不去细致讨论。如在图在此不去细致讨论。如在图3.6(a)中,点中,点P远离直线,而其他远离直线,而其他诸点在一直线周围,这时认为点诸点在一直线周围,这时认为点P所对应出数据点可能是异常点。此所对应出数据点可能是异常点。此时,往往进一步找其他证据进行判时,往往进一步找其他证据进行判定。比如,检查原始试验的数据记定。比如,检查原始试验的数据记录,看是否有录入错误等。录,看是否有录入错误等。 如果图形分为比较明显的两个部分如果图形分为比较明显的两个部分如图如图3.6(b)的形状,那么,可能意的形状,那么,可能意味着总体的分布是混合的。味着总体的分布是混合的。 二、二、 Pearson2 检验检验 前面的图示法直观易行,但不能前面的图示法直观易行,但不能从数量上反映样本与给定分布拟从数量上反映样本与给定分布拟合的程合的程 度,这在许多情形下不能度,这在许多情形下不能满足需要。满足需要。Karl Pearson于于1900 年提出来一个衡量样本与给定分年提出来一个衡量样本与给定分布的拟合程度的量,这就是为后布的拟合程度的量,这就是为后人所熟知的人所熟知的Pearson2 检验统计检验统计量。我们将叙述量。我们将叙述2检验的基本思检验的基本思 想和结论。想和结论。 1、Peareon 2统计量:有限值统计量:有限值 离散分布离散分布 首先,考虑一个特殊分布的拟首先,考虑一个特殊分布的拟合优度检验问题。设合优度检验问题。设X1,Xn为来为来自于离散分布:自于离散分布:简单随机样本,要检验的问题是:简单随机样本,要检验的问题是:根据大数定律,当样本量充分大时,根据大数定律,当样本量充分大时,一个随机事件发生的概率与频率应当一个随机事件发生的概率与频率应当接近,于是,用随机事件接近,于是,用随机事件X=xi的频的频率与原假设中相应概率之间的差异来率与原假设中相应概率之间的差异来检验上述假设检验上述假设。 记样本中记样本中xi出现的次数为出现的次数为Ni,且,且Ni=Xi=xi# , 定义定义2统计量:统计量: 则则2为在各个为在各个xi处频率与假设的处频率与假设的概率差异平方概率差异平方(也可以说是观测频也可以说是观测频数与原假设下的理论频数差异平数与原假设下的理论频数差异平方方)的加权和,它衡量了样本与假的加权和,它衡量了样本与假设分布之间的似合的程度,称之设分布之间的似合的程度,称之为为Pearson2统计量,它是由统计量,它是由KarlPearson提出的。显然,当提出的。显然,当 H0不成不成立时立时,2统计量量将有偏大的趋势。将有偏大的趋势。关于它的分布,首先注意到关于它的分布,首先注意到(N1,NM)服从多项分布,服从多项分布, 当原假设成立当原假设成立时,该多项分布为:时,该多项分布为:其中,非负整数其中,非负整数n1,nM满足满足: 在此基础上,可以证明下列定理在此基础上,可以证明下列定理定理定理2:在原假设:在原假设H0下,下, 2、 Pearson 2检验:一般分布检验:一般分布 现在考虑一般分布的拟合优度现在考虑一般分布的拟合优度检验问题。检验问题。Pearson采用了如下采用了如下方法:方法:(1)将总体将总体X的取值范围的取值范围 分成分成 M个子集个子集Ei(i=1,M),满足:,满足:(2)根据原假设的分布根据原假设的分布F0,计算计算 其中其中pi是按分布是按分布F0计算得到的。计算得到的。(3)记记Ni=XjEi#,即为,即为n个观察个观察值中落入值中落入Ei中的个数。中的个数。(4)计算统计量:计算统计量:(5)当当 时,拒绝原假设,时,拒绝原假设,认为总体分布与原假设中的分布有认为总体分布与原假设中的分布有显著差异。显著差异。注注1:当总体分布中含有:当总体分布中含有r个未知参个未知参数时,利用极大似然估计求出参数数时,利用极大似然估计求出参数,则检验统计量仍服从则检验统计量仍服从2分布,分布,且:且:当当拒拒绝原假原假设H0
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号