资源预览内容
第1页 / 共41页
第2页 / 共41页
第3页 / 共41页
第4页 / 共41页
第5页 / 共41页
第6页 / 共41页
第7页 / 共41页
第8页 / 共41页
第9页 / 共41页
第10页 / 共41页
亲,该文档总共41页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
两组两分类资料检验Stillwatersrundeep.流静水深流静水深,人静心深人静心深Wherethereislife,thereishope。有生命必有希望。有生命必有希望内容内容卡方检验入门卡方检验入门1配对设计两样本率比较的配对设计两样本率比较的2检验检验2行列表资料的分析行列表资料的分析3确切概率法确切概率法4检验分分类资料服从某个分布料服从某个分布v设从从总体体A中随机抽取一个中随机抽取一个样本,本,样本量本量为n,其,其资料分布如下:料分布如下:检验分分类资料服从某个分布料服从某个分布举例:例:v某医生收治在某地某医生收治在某地50个患者,其血型分个患者,其血型分别如下:如下:v已知已知该地区的一般人群的血型分布如下:地区的一般人群的血型分布如下:v问题:患病人群的血型是否属于:患病人群的血型是否属于该地区一般人群地区一般人群的血的血样分布分布血型血型ABABO人数1510817血型血型ABABO概率0.250.50.10.15实例例血型血型ABABO概率0.250.50.10.15理论数T12.525107.5行列表资料的检验行列表资料的检验v卡方检验是以卡方分布为基础的一种常用假设检卡方检验是以卡方分布为基础的一种常用假设检验方法,主要用于分类变量,它基本的无效假设验方法,主要用于分类变量,它基本的无效假设是:是:H0:行分类变量与列分类变量无关联H1:行分类变量与列分类变量有关联=0.05统计量 ,其中Ai是样本资料的计数,Ti是在H0为真的情况下的理论数(期望值)。卡方检验卡方检验在H0为真时,实际观察数与理论数之差AiTi 应该比较接近0。所以在H0为真时,检验统计量 服从自由度为k-1的卡方分布。 即: ,拒绝H0。 上述卡方检验由此派生了不同应用背景的各种问题的检验,特别最常用的是两个样本率的检验等。因为该原理的使用范围很广,但本次课程只学习用于推断两个分类变量是否相互关联。方法原理方法原理方法原理方法原理v理论频数理论频数基于H0成立,两样本所在总体无差别的前提下计算出各单元格的理论频数来方法原理方法原理v残差残差设A代表某个类别的观察频数,E代表基于H0计算出的期望频数,A与E之差被称为残差。残差可以表示某一个类别观察值和理论值的偏离程度,但残差有正有负,相加后会彼此抵消,总和仍然为0。为此可以将残差平方后求和,以表示样本总的偏离无效假设的程度。方法原理方法原理 另一方面,残差大小是一个相对的概念,相对于期望频数为10时,20的残差非常大;可相对于期望频数为1000时20就很小了。因此又将残差平方除以期望频数再求和,以标准化观察频数与期望频数的差别。这就是我们所说的卡方统计量,在这就是我们所说的卡方统计量,在19001900年由英年由英国统计学家国统计学家PearsonPearson首次提出,其公式为:首次提出,其公式为:方法原理方法原理从卡方的计算公式可见,当观察频数与期望频数完全一致时,卡方值为0;观察频数与期望频数越接近,两者之间的差异越小,卡方值越小;反之,观察频数与期望频数差别越大,两者之间的差异越大,卡方值越大。当然,卡方值的大小也和自由度有关。方法原理方法原理v卡方分布卡方分布 显然,卡方值的大小不仅与A、E之差有关,还与单元格数(自由度)有关操作步骤操作步骤1. 1. 建立检验假设和确定检验水准建立检验假设和确定检验水准H0:使用含氟牙膏和一般牙膏儿童龋患率相等H1:使用含氟牙膏和一般牙膏儿童龋患率不等2. 2. =0.05=0.053.3.计算检验统计量计算检验统计量 2 2值值操作步骤操作步骤4. 4. 确定确定P P值和作出推断结论值和作出推断结论查附表8,2界值表,得p0.05。按 = 0.05水准,不拒绝H0,尚不能认为使用含氟牙膏比使用一般牙膏儿童的龋患率低。对于四格表,卡方的计算公式又可进行简化,以方便手工计算对计算机而言并无实际价值tabi a b c d, chi2操作步骤操作步骤v值得指出,成组设计四格表资料的值得指出,成组设计四格表资料的 2 2检验与前面检验与前面学习过的两样本率比较的双侧学习过的两样本率比较的双侧u u检验是等价的。若检验是等价的。若对同一资料作两种检验,两个统计量的关系为对同一资料作两种检验,两个统计量的关系为 2 2= = u u2 2。其对应的界值也为平方关系。两者的应用条。其对应的界值也为平方关系。两者的应用条件也是基本一致的,连续性校正也基本互相对应。件也是基本一致的,连续性校正也基本互相对应。卡方检验假设的等价性卡方检验假设的等价性v两组儿童的龋齿率相同两组儿童的龋齿率相同两组发生率的比较v实际数据的频数分布和理论假设相同实际数据的频数分布和理论假设相同理论分布与实际分布的检验v使用不同的牙膏并不会影响龋齿的发生(两个分使用不同的牙膏并不会影响龋齿的发生(两个分类变量间无关联)类变量间无关联)两变量的相关分析四格表四格表 2 2值的校正值的校正v英国统计学家英国统计学家YatesYates认为,认为, 2 2分布是一种连续型分分布是一种连续型分布,而四格表资料是分类资料,属离散型分布,布,而四格表资料是分类资料,属离散型分布,由此计算的由此计算的 2 2值的抽样分布也应当是不连续的,值的抽样分布也应当是不连续的,当样本量较小时,两者间的差异不可忽略,应进当样本量较小时,两者间的差异不可忽略,应进行连续性校正(在每个单元格的残差中都减去行连续性校正(在每个单元格的残差中都减去0.50.5)若n 40 ,此时有 1 T 5时,需计算Yates连续性校正2值T 1,或n40时,应改用Fisher确切概率法直接计算概率四格表四格表 2值的校正值的校正确切概率法确切概率法分析实例分析实例注意:确切概率法不属于2检验的范畴,但常作为2检验应用上的补充。分析实例分析实例1 1建立检验假设和确立检验水准建立检验假设和确立检验水准H0:新药组与对照组疗效相等,即 1 = 2H1:新药组与对照组疗效不等,即 1 22 2计算概率和确定计算概率和确定P P值值本例n = 36 40,不满足2检验的应用条件,宜采用四格表确切概率法。方法原理方法原理v在四格表周边合计不变的条件下,在相应的总体在四格表周边合计不变的条件下,在相应的总体中进行抽样,四格表中出现各种排列组合情况的中进行抽样,四格表中出现各种排列组合情况的概率概率本例即28、8、22、14保持不变的条件下,若H0成立,计算出现各种四格表的概率方法原理方法原理v然后将其中小于等于现有样本概率的概率值相加,即为然后将其中小于等于现有样本概率的概率值相加,即为P P值:值:本例中P值=P(0)+ P(6)+P(7)+P(8)=0.03610.05配对设计两样本率比较的配对设计两样本率比较的2检验检验方法原理方法原理 例例6.9 6.9 用用A A、B B两种方法检查已确诊的乳腺癌患者两种方法检查已确诊的乳腺癌患者140140名,名,A A法检出法检出9191名名(65%)(65%),B B法检出法检出7777名名(55%)(55%),A A、B B两法一致的检出两法一致的检出5656名名(40%)(40%),问哪种方法阳性,问哪种方法阳性检出率更高?检出率更高?方法原理方法原理显然,本例对同一个个体有两次不同的测量,从设计的角度上讲可以被理解为自身配对设计按照配对设计的思路进行分析,则首先应当求出各对的差值,然后考察样本中差值的分布是否按照H0假设的情况对称分布按此分析思路,最终可整理出如前所列的配对四格表方法原理方法原理v注意注意主对角线上两种检验方法的结论相同,对问题的解答不会有任何贡献另两个单元格才代表了检验方法间的差异v假设检验步骤如下:假设检验步骤如下:H0:两法总体阳性检出率无差别,即B = CH1:两法总体阳性检出率有差别,即B C方法原理方法原理vmcci 56 35 21 28mcci 56 35 21 28 注意事项注意事项vMcNemarMcNemar检验只会利用非主对角线单元格上的信息,检验只会利用非主对角线单元格上的信息,即它只关心两者不一致的评价情况,用于比较两即它只关心两者不一致的评价情况,用于比较两个评价者间存在怎样的倾向。因此,对于一致性个评价者间存在怎样的倾向。因此,对于一致性较好的大样本数据,较好的大样本数据,McNemarMcNemar检验可能会失去实用检验可能会失去实用价值。价值。例如对1万个案例进行一致性评价,9995个都是完全一致的,在主对角线上,另有5个分布在左下的三角区,显然,此时一致性相当的好。但如果使用McNemar检验,此时反而会得出两种评价有差异的结论来。行列表资料的分析行列表资料的分析分析步骤分析步骤v建立假设建立假设H0:三种不同类型关节炎的疗效相同H1:三种不同类型关节炎的疗效不全相同v求出统计量求出统计量v下结论下结论几点遗留问题几点遗留问题v是否应当进行两两比较?是否应当进行两两比较?这又是一个打嘴仗的问题,虽然有人提出用卡方分割等方法来检验,但同样也有学者对这种做法嗤之以鼻实际上,随着统计学的发展,这个问题已被超越,可以使用对分类数据的建模方法,如logistic模型等对此问题加以解答几点遗留问题几点遗留问题v如果是有序资料该怎么处理如果是有序资料该怎么处理传统的卡方检验是无法对次序信息加以利用的单向有序:秩和检验双向有序:实际上考察的是两变量间的关联性(相关性),可以使用专门的关联性指标分析目前对卡方检验还有一些扩展方法,如CMH卡方,可以处理此类问题几点遗留问题几点遗留问题v行列表卡方检验的适用条件行列表卡方检验的适用条件理论频数不宜太小,一般认为不宜有1/5以上格子的理论频数小于5或有一个格子的理论频数小于1不太理想的办法与邻近行或列中的实际频数合并删去理论频数太小的格子所对应的行或列最理想的办法增加样本含量以增大理论频数(但是可能吗)确切概率法一点补充一点补充v确切概率法的原理具有通用性,对于四格表以外确切概率法的原理具有通用性,对于四格表以外的情况也适用,如行乘列表、配对、配伍表格均的情况也适用,如行乘列表、配对、配伍表格均可可v对于较大的行乘列表,确切概率法的计算量将变对于较大的行乘列表,确切概率法的计算量将变得十分惊人,有可能超出硬件系统可以支持的范得十分惊人,有可能超出硬件系统可以支持的范围围v此时可以采用计算统计学中的其他抽样技术加以此时可以采用计算统计学中的其他抽样技术加以解决,如解决,如BootstrapBootstrap方法等方法等StataStata计算计算v两个或多个率、构成比的比较两个或多个率、构成比的比较 1.Pearson 1.Pearson 2 2 对两个样本率比较对两个样本率比较 tabi a b c d,chi2 r tabi a b c d,chi2 r 其中其中r r表示按行计算比例表示按行计算比例 2.2.用用FisherFisher确切概率法检验量个样本率确切概率法检验量个样本率 tabi a b c d,chi2 exacttabi a b c d,chi2 exactv配对四格表资料的分析配对四格表资料的分析 mcci a b c dmcci a b c dStataStata计算计算行列表资料统计分析行列表资料统计分析v双变量无序:双变量无序:Pearson Pearson 卡方卡方应用条件:同前。应用条件:同前。命令:命令:tabi 55 63 4445 69 2357 54 36tabi 55 63 4445 69 2357 54 36v单变量有序:秩和检验、单变量有序:秩和检验、CMHCMH卡方卡方v双变量有序:双变量有序:SpearmanSpearman等级相关、等级相关、CMHCMH卡方卡方
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号