资源预览内容
第1页 / 共86页
第2页 / 共86页
第3页 / 共86页
第4页 / 共86页
第5页 / 共86页
第6页 / 共86页
第7页 / 共86页
第8页 / 共86页
第9页 / 共86页
第10页 / 共86页
亲,该文档总共86页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
1第第八八章章 卡方检验卡方检验卫生统计学教研室卫生统计学教研室复习: 率的抽样误差与标准误 样本率样本率(p)和总体率和总体率()的差异称为率的抽的差异称为率的抽样误差样误差(sampling error of rate) ,用率的标,用率的标准误准误(standard error of rate)度量。)度量。如果总体率如果总体率未知,用未知,用样本率样本率p估计估计如果总体率如果总体率未知,用未知,用样本率样本率p估计估计3 正态近似法:当正态近似法:当n n足够大,且频率足够大,且频率p p和和(1-(1-p p) )都不太小时,都不太小时,如如np和和n(1-p) )55时,时,p p的抽样分布近似正态分布,可用正的抽样分布近似正态分布,可用正态分布法求总体概率的态分布法求总体概率的100(1-100(1-)置信区间。置信区间。 这时用频这时用频率的标准误率的标准误S SP P代替平均值的标准误代替平均值的标准误 。复习:总体率的可信区间41 1、 单样本资料的单样本资料的单样本资料的单样本资料的Z Z检验(样本率与总体率的比较)检验(样本率与总体率的比较)检验(样本率与总体率的比较)检验(样本率与总体率的比较) 如果二项分布的如果二项分布的如果二项分布的如果二项分布的 或或或或1 1 不太小,当不太小,当不太小,当不太小,当n n足够大时,足够大时,足够大时,足够大时,一般一般一般一般nn和和和和n n(1 1 )均大于)均大于)均大于)均大于5 5时,时,时,时,在在在在n n次随机试验中某次随机试验中某次随机试验中某次随机试验中某事件发生次数事件发生次数事件发生次数事件发生次数X X及发生频率及发生频率及发生频率及发生频率P P的分布近似正态分布。的分布近似正态分布。的分布近似正态分布。的分布近似正态分布。因此,样本率和总体率之间、两个样本率之间差异的判因此,样本率和总体率之间、两个样本率之间差异的判因此,样本率和总体率之间、两个样本率之间差异的判因此,样本率和总体率之间、两个样本率之间差异的判断可用断可用断可用断可用Z Z检验。检验。检验。检验。 复习:二项分布频率资料的复习:二项分布频率资料的Z检验检验5v对于假设对于假设 H0: =0, H1: 0vH0成立时,检验统计量成立时,检验统计量v如果根据样本算得的如果根据样本算得的Z值偏大,有理由拒绝值偏大,有理由拒绝H06样本不太大时,需要做连续性校正样本不太大时,需要做连续性校正72 2、 两组独立样本频率的两组独立样本频率的Z Z检验检验8本章主要内容本章主要内容v第一节独立样本四格表资料的2检验v第二节多个独立样本RC列联表资料的2检验v第三节配对设计资料的2检验v第四节22列联表的确切概率法v第五节2分布和拟合优度检验第八章 卡方检验 2检验检验(Chi-square test)是现代统计学的是现代统计学的创始人之一,英国人创始人之一,英国人K . Pearson(1857-1936)于)于1900年提出的一种具有广泛用途的年提出的一种具有广泛用途的统计方法。该检验以统计方法。该检验以2 2分布和拟合优度检验分布和拟合优度检验为理论依据为理论依据。 101、推推断断两两个个或或两两个个以以上上总总体体率率(或或构构成成比比)之间有无差别?之间有无差别?2、两个变量间有无相关关系、两个变量间有无相关关系( (关联度分析关联度分析) )3、拟合优度检验、拟合优度检验 (goodness of fit test) X2检验的应用检验的应用11第一节第一节 独立样本四格独立样本四格表资料的表资料的x2 2检验检验2 222列联表(列联表(contingency tablecontingency table)12主要内容主要内容四格表四格表x2检验检验的基本思想的基本思想1.四格表四格表x2检验检验的基本步骤的基本步骤2.四格表四格表x2检验检验的专用公式的专用公式3.四格表四格表x2检验检验的注意事项的注意事项4.13例例8-18-1例例8-1 8-1 将病情相似的将病情相似的169169名消化道溃疡患者随机分成两组,名消化道溃疡患者随机分成两组,分别用洛赛克与雷尼替丁两种药物治疗,分别用洛赛克与雷尼替丁两种药物治疗,4 4周后疗效见周后疗效见表表8-18-1。 问:问:两种药物治疗消化道溃疡的愈合率有无差别?两种药物治疗消化道溃疡的愈合率有无差别? 表表8-1 8-1 两种药物治疗消化道溃疡两种药物治疗消化道溃疡4 4周后疗效周后疗效处处 理理愈愈 合合未愈合未愈合合合 计计愈合率(愈合率(% %)洛赛克洛赛克64(64(a) )21(21(b) )85(85(n1 1) )75.2975.29雷尼替丁雷尼替丁51(51(c) )33(33(d) )84(84(n2 2) )60.7160.71合计合计115(115(m1 1) )54(54(m2 2) )169(169(n) )68.0568.0514(一)(一)2222列联表列联表x x2 2检验检验的基本思想的基本思想表表8-2 独立样本资料的四格表独立样本资料的四格表处处 理理愈愈 合合未愈合未愈合合合 计计愈合率(愈合率(% %)洛赛克洛赛克6464(57.8457.84)2121(27.1627.16)858575.2975.29雷尼替丁雷尼替丁5151(57.1657.16)3333(26.8426.84)848460.7160.71合计合计115115545416916968.0568.05表表8-2 两种药物治疗消化道溃疡两种药物治疗消化道溃疡4周后疗效周后疗效abcd15x x2 2检验检验的基本公式的基本公式16X X2 2分布是一种连续型随机变量的概率分布分布是一种连续型随机变量的概率分布 图8-1 不同自由度X2分布的概率密度曲线 (X2界值表见475页)17 设有设有k个相互独立的标准正态分布随机变量个相互独立的标准正态分布随机变量Z1、Z2.Z ,则,则Z12+Z22+Z2的分布服从自的分布服从自由度为由度为的的x2分布,记为分布,记为x2(v)。)。 是指上式中包含是指上式中包含的独立变量的个数。的独立变量的个数。 当当趋于趋于时,时, x2分布逼近正态分布。各种分布逼近正态分布。各种自由度的自由度的x2分布右侧尾部面积为分布右侧尾部面积为时的临界值记为时的临界值记为x2(,v) =3 =1 =2 =4 =618(二)(二) 2222列联表列联表x x2 2检验检验的基本步骤的基本步骤1、建立检验假设,确定检验水准、建立检验假设,确定检验水准H0:12 即两种药物治疗消化道溃疡的愈合率相同即两种药物治疗消化道溃疡的愈合率相同 H1:12 即两种药物治疗消化道溃疡的愈合率不同即两种药物治疗消化道溃疡的愈合率不同 =0.052 2、计算统计量、计算统计量计算理论频数计算理论频数计算计算x2统计量统计量19v3 3、确定、确定P值,做出推断结论值,做出推断结论v v=(2-1)(2-1)=1v 查查X2 2界值表界值表得,得, v 本例,本例, v 故故P0.100.10v 按照按照=0.05水准,水准, 不拒绝不拒绝H0,差别无统计学意义。,差别无统计学意义。尚不能认为两种治疗方案的总体缓解率不同。尚不能认为两种治疗方案的总体缓解率不同。v 如果公式未进行校正,如果公式未进行校正,v 则则P 0.050.05,拒绝拒绝H0 ,结论相反。,结论相反。25(四)(四) 2222列联表列联表x x2 2检验检验的注意事项的注意事项v1 1、x x2 2校正公式仅用于校正公式仅用于v=1=1的四格表资料,对的四格表资料,对v22的的多组样本分布,一般不作校正。多组样本分布,一般不作校正。v2 2、当、当n4040,或,或T1,1,校正校正x x2 2值也不恰当,可用值也不恰当,可用FisherFisher确切检验确切检验。v3 3、本节两个例题均强调两组患者、本节两个例题均强调两组患者“病情相似病情相似”,这一点非常重要,只有在两组对象其它方面这一点非常重要,只有在两组对象其它方面“同同质质”的前提下才能比较两个频率,才能进行的前提下才能比较两个频率,才能进行2222列联表的列联表的x x2 2检验。检验。2626小小 结1 1、 2 2检验的基本思想检验的基本思想 (1) n 40,且,且T 5时,用时,用 2 检验基本公式和专用公式检验基本公式和专用公式 (2) n 40,但有,但有1 T5时,用四格表时,用四格表 2检验校正公式检验校正公式 (3) n 40,或,或T 0.75,在在=0.05水准上不拒绝水准上不拒绝H0,差别没有统计学意义。尚不能认为儿童急性白血差别没有统计学意义。尚不能认为儿童急性白血病患者与成年人急性白血病患者的血型分布不同。病患者与成年人急性白血病患者的血型分布不同。39(四)多组间的两两比较(四)多组间的两两比较v多个率和多个频率分布比较的多个率和多个频率分布比较的x2检验,结论为拒绝检验,结论为拒绝H0时,仅表示多组中至少有两组是不同的。时,仅表示多组中至少有两组是不同的。v若要明确,需作多组间两两比较,即分割若要明确,需作多组间两两比较,即分割RC列列联表,对每两个率之间有无统计学意义做出结论。联表,对每两个率之间有无统计学意义做出结论。v检验水准进行校正(检验水准进行校正(bonferroni调整法)调整法)v = /m(比较次数)(比较次数) v m=k(k-1)/2v若多个实验组与同一对照组进行比较,比较次数为若多个实验组与同一对照组进行比较,比较次数为k-1,则,则= /k-140v1、建立检验假设,确定检验水准、建立检验假设,确定检验水准v H0:任意两个对比组的总体有效率相等:任意两个对比组的总体有效率相等v H1:任意两个对比组的总体有效率不相等:任意两个对比组的总体有效率不相等v a=0.05v 本例为本例为3个实验组间的两两比较,检验水准为个实验组间的两两比较,检验水准为 v = 0.05/3=0.0167v2、计算检验统计量、计算检验统计量v3、确定、确定P值,作出推断结论值,作出推断结论410.01670.016740573 3、确定、确定p p值,做出推断值,做出推断v自由度自由度v=(2-1)(2-1)=1,v查查 界值表,界值表, , v本例,本例,v 因而因而P 0.005,在在=0.05水准上拒绝水准上拒绝H0,接受,接受H1,差别有统计学意义。,差别有统计学意义。v 可以认为两种检验方法的阳性率结果有差别。可以认为两种检验方法的阳性率结果有差别。由于甲法阳性率为由于甲法阳性率为68.20%,乙法阳性率为,乙法阳性率为84.09%,可以认为乙法阳性率高于甲法阳性率。,可以认为乙法阳性率高于甲法阳性率。58v 上述方法称为上述方法称为McNemar检验,将检验,将(b+c)视为固定值,在此条件下推断,无需考)视为固定值,在此条件下推断,无需考虑一致数虑一致数a、d的大小,因而这类方法在统计学中的大小,因而这类方法在统计学中称为条件推断方法。称为条件推断方法。59二、配对二、配对RRRR列联表资料的列联表资料的2 2检验检验60例例8-6 8-6 对对150150名冠心病患者用两种方法检查室壁收缩运动的情况,名冠心病患者用两种方法检查室壁收缩运动的情况,见表见表8-108-10,试分析两种方法测定结果的概率分布是否相同。,试分析两种方法测定结果的概率分布是否相同。 表表8-10 8-10 两种方法检查室壁收缩运动情况两种方法检查室壁收缩运动情况甲法测定结果甲法测定结果乙法测定结果乙法测定结果合计合计正常正常减弱减弱异常异常正常正常60603 32 26565减弱减弱0 042429 95151异常异常8 89 917173434合计合计686854542828150150(固定值)(固定值)61表8-9 配对设计资料的配对设计资料的RRRR列联表列联表变量变量1变量变量2合计合计12R1A11A12 A1Rn12A21A22A2Rn2RAR1AR2 ARRnR合计合计m1m2 mRn(固定值)(固定值) R为类别数为类别数,ni和和mi为第为第i行合计和第行合计和第i列合计。列合计。H0成立成立时,时,T服从自由度为服从自由度为R-1的的x2分布分布。是是McNemar的推广的推广 62v对例对例8-6 两种方法检查心室壁运动资料两种方法检查心室壁运动资料v1. 建立检验假设,确定检验水准:建立检验假设,确定检验水准:v H0: 两变量的概率分布相同两变量的概率分布相同, v H1: 两变量的概率分布不同两变量的概率分布不同, v =0.05v2. 选定检验方法,计算检验统计量:选定检验方法,计算检验统计量:v 配对多分类配对多分类 2 2检验:检验:检验:检验:63643. 确定确定P值,作出统计推断值,作出统计推断。查附表查附表8: 2 2 界值表得界值表得 2 20.050.05(2)(2)=5.99,=5.99, 2 2 =1.600.05. 在在=0.05水准上不水准上不拒绝拒绝H0无无效假设,差别没有统计学意义。效假设,差别没有统计学意义。 专业结论:专业结论: 尚不能认为尚不能认为两种方法检查室壁运动分级的概率分布两种方法检查室壁运动分级的概率分布不相同。不相同。65完全随机设计与配对设计四格表资料的比较66第四节 列联表的确切概率法v例例8-7 将将23名精神抑郁症患者随机分到两组,分别用名精神抑郁症患者随机分到两组,分别用两种药物治疗,结果见表,问两种药物的治疗效果是否两种药物治疗,结果见表,问两种药物的治疗效果是否不同?不同? 表表8-11 两种药物治疗精神抑郁症的疗效比较两种药物治疗精神抑郁症的疗效比较分组分组有效有效无效无效合计合计有效率(有效率(%)甲药甲药751258.3乙药乙药381127.3合计合计101323(40)43.567v理论依据:超几何分布。v条件: 费歇尔确切概率法费歇尔确切概率法费歇尔确切概率法费歇尔确切概率法( ( ( (Fishers exact probability Fishers exact probability ) ) ) ),由(,由(,由(,由(1934193419341934年)提出。是一种直接计算概率的假设检年)提出。是一种直接计算概率的假设检年)提出。是一种直接计算概率的假设检年)提出。是一种直接计算概率的假设检验。验。验。验。非非非非 2检验的范畴,而作为小样本四格表资料检验检验的范畴,而作为小样本四格表资料检验检验的范畴,而作为小样本四格表资料检验检验的范畴,而作为小样本四格表资料检验方法的补充。方法的补充。方法的补充。方法的补充。四格表资料的四格表资料的Fisher确切概率法确切概率法 68(一)(一)FisherFisher确切概率法的基本思想确切概率法的基本思想v在四格表在四格表边缘合计固定不变边缘合计固定不变的条件下,利用的条件下,利用公式直接计算表内四个格子数据的各种组合的概公式直接计算表内四个格子数据的各种组合的概率,然后计算单侧或双侧累计概率,并与检验水率,然后计算单侧或双侧累计概率,并与检验水准准a比较,做出是否拒绝比较,做出是否拒绝H0的结论。的结论。69分析步骤v 表表8-11 两种药物治疗精神抑郁症的疗效比较两种药物治疗精神抑郁症的疗效比较分组分组有效有效无效无效合计合计有效率(有效率(%)甲药甲药751258.3乙药乙药381127.3合计合计101323(0.05 在在 =0.05水准上差别无统计学意义。水准上差别无统计学意义。 专业结论:专业结论:两种药物对精神抑郁症患者的疗效无两种药物对精神抑郁症患者的疗效无显著差别。显著差别。73按检验假设取单侧时的累计概率计算:按检验假设取单侧时的累计概率计算:若建立检验假设为:若建立检验假设为: H0:, 1=2, H1: 12;=0.05。因有因有p1- p2=0.583-0.273=0.3106,将所有每种组合下各药的,将所有每种组合下各药的有效率的差值有效率的差值0.3106的组合概率相加而得到单侧累积概的组合概率相加而得到单侧累积概率为:率为:(上上侧尾部概率)侧尾部概率)0.114224+0.023797+0.002115+0.000058=0.1400.05。在在 =0.05水准上差别无统计学意义。水准上差别无统计学意义。尚不能认为甲药疗效优于乙药。尚不能认为甲药疗效优于乙药。如果进行单侧检验如果进行单侧检验74v第五节第五节 2检验用于拟合优度检验检验用于拟合优度检验75拟合优度检验拟合优度检验v目的:根据样本的频率分布检验其总体分目的:根据样本的频率分布检验其总体分布是否等于某给定的理论分布(检验一种布是否等于某给定的理论分布(检验一种随机变量是否符合某种特定分布)。随机变量是否符合某种特定分布)。76 v例例8-8 8-8 随机抽取随机抽取1212岁男孩岁男孩120120名,身高名,身高(cm)(cm)如下,如下,检验水准为检验水准为0.05.0.05.v 试检验该资料是否服从正态分布试检验该资料是否服从正态分布? ?(a=0.10=0.10)组段频数组段频数122.05142.020126.08146.011130.010150.06134.022154.0158.05138.03377120名男孩身高的频数分布组段组段(XLXU)实际频数实际频数(A)122.05126.08130.010134.022138.033142.0 20146.0 11150.0 6154.0 5合计合计120经计算:经计算: 用样本均数和标准差作为总用样本均数和标准差作为总体分布的近似值。体分布的近似值。78检验步骤检验步骤v1、建立检验假设,确定检验水准、建立检验假设,确定检验水准vH0:总体分布等于均数为:总体分布等于均数为139.48,标准差为,标准差为7.30的正态分布的正态分布vH1:总体分布不等于均数为:总体分布不等于均数为139.48,标准差为,标准差为7.30的正态分布的正态分布v=0.0579拟合优度卡方检验的基本思想拟合优度卡方检验的基本思想v(1)设)设X是从某总体中抽取的简单随机样本,是从某总体中抽取的简单随机样本,n=120v(2)分成)分成k个组段或类别,个组段或类别,k=9v(3)Ai表示落在第表示落在第i个组段的频数(观察频数,个组段的频数(观察频数,是即频数)是即频数)v(4)Pi表示在表示在H0成立的条件下,样本值落在第成立的条件下,样本值落在第i个组段的概率个组段的概率v(5)记记Ti表示根据表示根据H0规定的理论频数规定的理论频数80组段组段A(x1)(x2)P(x)T=nP(x)(A-T)2/T122.050.008320.008320.032400.032400.024080.024082.89002.89001.540531.54053126.080.032400.032400.097040.097040.064630.064637.75577.75570.007690.00769130.0100.097040.097040.226420.226420.129390.1293915.526315.52631.966981.96698134.0220.226420.226420.419670.419670.193250.1932523.189823.18980.061040.06104138.0330.419670.419670.635030.635030.215360.2153625.843325.84331.981881.98188142.0200.635030.635030.814110.814110.179080.1790821.489821.48980.103280.10328146.0110.814110.814110.925220.925220.111110.1111113.333113.33310.408270.40827150.060.925220.925220.976650.976650.051430.051436.17176.17170.004770.00477154.050.976650.976650.994410.994410.017760.017762.13092.13093.862893.86289合计合计120- - -9.937339.93733表表8-13 120名男生身高(名男生身高(cm)的频数分布表及拟合优度检验统计量的计算)的频数分布表及拟合优度检验统计量的计算81 v大样本时,统计量大样本时,统计量X2近似服从近似服从X2分布分布823. 确定确定P值,作出统计推断值,作出统计推断: 自由度自由度=k-1-s=9-1-2=6。查附表。查附表8: 2 2 界值表得界值表得 2 20.100.10(6)(6)=10.64,=10.64, 2 2=9.937=9.937 0.10. 不拒绝不拒绝H0无效假设。无效假设。 专业结论:专业结论:尚不能认为该地尚不能认为该地1212岁男孩身高不服从均数为岁男孩身高不服从均数为139.48139.48,标准差为,标准差为7.307.30的正态分布的正态分布。83v3.拟和优度拟和优度x2检验的注意事项检验的注意事项v1 1、x x2 2值的大小除与(值的大小除与(A-TA-T)的差值大小有关外)的差值大小有关外, ,还与组数有关,分组不同,拟和的结果可能不同。还与组数有关,分组不同,拟和的结果可能不同。v一般要求分组时一般要求分组时每组中理论频数不小于每组中理论频数不小于5 5,否则,否则需要合并组段。需要合并组段。v且自由度与组数有关,同一自由度下,且自由度与组数有关,同一自由度下,x x2 2值越大,值越大,相应相应P P值越小。值越小。v2 2、需要有足够的样本含量需要有足够的样本含量,如样本量不大,有,如样本量不大,有时经连续性校正后尚能勉强进行时经连续性校正后尚能勉强进行X X2 2检验,校正公检验,校正公式为式为84 NomenclatureContingency table列联表列联表Chi-square test卡方检验卡方检验Observed frequency观察频数观察频数Expected frequency期望频数期望频数McNemars test麦克勒玛氏检验麦克勒玛氏检验Paired 2 by 2 table配对四格表配对四格表Concordant pairs一致的对子数一致的对子数discordant pairs不一致的对子数不一致的对子数Pearsons chi-square value皮尔生卡方值皮尔生卡方值Likelihood ratio chi-square value似然比卡方值似然比卡方值Fishers exact probability费歇尔确切概率费歇尔确切概率Cell frequency格子频数格子频数8586 分布的分布函数分布的分布函数( (概率积分函数概率积分函数) )为为 确定后确定后, ,分布曲线分布曲线下右侧尾部的面积下右侧尾部的面积为为时,横轴上相时,横轴上相应的界值记为应的界值记为 它的几何意义是:分布曲线下从它的几何意义是:分布曲线下从0 0到某给定值到某给定值 的面积的面积。
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号