资源预览内容
第1页 / 共40页
第2页 / 共40页
第3页 / 共40页
第4页 / 共40页
第5页 / 共40页
第6页 / 共40页
第7页 / 共40页
第8页 / 共40页
第9页 / 共40页
第10页 / 共40页
亲,该文档总共40页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第五章 卡方检验,教学目的要求,掌握:卡方检验的适用条件和计算公式;适合性检验的基本原理和方法;独立性检验的原理和方法。熟悉:适合性检验和独立性检验的应用。了解:适合性检验在遗传学及其他生物学科中上的应用。,讲授内容,一、卡方检验的原理和方法二、适合性检验三、独立性检验,一、卡方检验的原理和方法,1、卡方检验的原理 应用理论值(expected value,E)与观测值(observed value,O)之间的偏离程度来决定卡方值的大小。,2、卡方检验的程序将观测值分为k组计算n次观测值中每组的观测频数,记为Oi根据变量的分布规律或概率运算法则,计算每组的理论频率为Pi计算每组的理论频数Ei检验Oi与Ei的差异显著性,判断两者之间的不符合度,a、零假设:H0:O-E=0;备择假设: O-E0(这里检验的不是参数,而是判断观测数是否符合理论分布)b、检验统计量:这里要求n充分的大,当n50时(最好100),所定义的检验统计量近似服从卡方分布,Ei=nPi不得小于5,若小于5,将尾区相邻的组合并,直到合并后的组的Ei5,合并后再计算卡方值。,c、建立拒绝域d、作出统计学结论,用来检验观测数与依照某种假设或分布模型计算得到的理论数之间一致性的一种统计假设检验,以便判断该假设或模型是否与实际观测数相吻合。,二、适合性检验(goodness of fit),(一)总体参数未知的正态性检验,题解,(1)将观测值分为k组;按照分组原理分成10组,制成频数分布表,(2)获得的n次观测值中,第i组的观测频数记为Oi,(3)第i组的理论频率为Pi,其计算方法如下: 先计算样本平均数和标准差 假设高粱“三尺三”符合正态分布 。根据参数估计原理, 用 估计 , 用s/c4=4.98/0.9975=4.99估计(样本标准差分布的矩系数C4、C5表)。即假设高粱的株高x服从正态分布 根据正态分布概率的计算关系,查附表1,计算各组组界的理论频率,高粱“三尺三”株高观察频数和理论频数表,(4)计算各组的理论频数为Ei=npi,填入下表,(5)Oi与Ei进行比较,判断两者之间的不符合度,检验程序如下:零假设:H0:O-E=0;HA: O-E0 检验统计量:,高粱“三尺三”株高观察频数和理论频数表(合并后),卡方值的自由度df=k-1-a,其中k为合并后的组数,a为需要由样估计的总体参数的个数;合并后的组数k=6,由样本估计了总体的平均数和标准差,故a=2,df=3,不用校正,计算卡方值建立拒绝域结论:高粱株高服从正态分布,(二)总体参数已知的正态性检验例2 自动包装的袋装食盐的重量是否服从正态分布?已知每袋标准重量为500g,调查了100袋,结果如下表所示。,题解,(1)零假设:H0:O-E=0;备择假设HA: O-E0 (2)分组:样本容量n=100,取组数m=10,组距为8g (3)计算理论频率pi和理论频数Ei (4)检验统计量的计算 (5)自由度df=k-1-a=8-1-1=6 (6)拒绝域的建立 (7)接受H0,服从正态分布,(三)总体参数未知的二项分布检验例3 检验烟草种子的发芽率,每个培养皿放10粒种子,共100个培养皿,实验结果如下表所示。1000粒种子有590粒发芽,检验发芽的种子数是否符合二项分布。,题解,1、提出假设 H0:O-E=0;HA: O-E02、总体参数未知,需要由样本比例估计P=590/1000=0.593、计算理论值和卡方值,理论频率Pi按照二项分布公式计算n=10,0k 10,理论数Ei=NPi4、拒绝域的建立5、结论:种子发芽率服从二项分布,(四)总体参数已知的二项分布检验例4 水稻植株中对白叶枯病有抗性的纯合体的基因型为SS,对白叶枯病敏感的纯合体为ss,杂合体的基因型为Ss。其中抗性为显性性状,敏感为隐性性状,将Ss与ss进行杂交,20个后代中有14株抗性植株,6株敏感植株。问后代的分离比是否符合孟德尔分离定律?,题解,按照孟德尔分离定律,Ss与ss的杂交后代代表型的比例应该为1:1,即10个抗性植株和10个敏感植株(1)提出假设 H0:O-E=0;HA: O-E0(2)计算理论值和卡方值:理论值就是根据孟德尔遗传定律计算得到的后代分离理论数量(3)检验统计量的计算:本例是两组数据,没有估计参数,k=2,a=0,df=1,样本统计量需要连续矫正,(4)拒绝域的建立(5)结论:符合孟德尔分离定律适合性检验的自动程序:P=Chitest(Oi,Ei): Oi表示观察值区域;Ei表示理论值区域;用于适合性检验,三、独立性检验,原理:通过观测数与理论数之间的一致性判断事件之间的独立性,即判断两个事件是否是独立事件或处理间差异是否显著。方法:将数据列成列联表,也称列联表卡方检验。,一、22列联表卡方检验,(一)原理:例5 青霉素可以注射,也可以口服,每天给感冒患者口服或注射80万单位的青霉素,调查两种给药方式的药效,结果如下表所示,试分析青霉素的两种给药方式的药用效果是否有差异?,两种青霉素的给药方式的药用效果调查表,一般考虑样本中各处理之间是否有关联,处理间是否是独立事件检验时以各处理间无关联或者各处理是独立事件作为零假设在一定自由度下和显著水平下进行卡方检验独立检验(independence test),(二)检验程序1、提出假设 H0:O-E=0;HA: O-E02、根据概率的乘法法则计算理论数:理论数的计算方法,两种青霉素的给药方式的药用效果调查的观测值和理论值,3、检验统计量:4、确定自由度: 22列联表的自由度df=(r-1)(c-1),r是列联表的行数,c是列联表的列数,若自由度=1,则应做连续性校正,校正后的统计量为:,5、拒绝域的建立:6、结论 青霉素口服效果与注射效果差异不大。注意:22列联表卡方检验与之前讲的吻合度检验一样,要求理论数不得小于5;当理论数小于5时,应使用22列联表精确检验法。,二、rc列联表,行数和列数都大于2时的情况称为rc列联表,其理论数的计算仍为,例6 植物转基因方法常用的有三种:基因枪介导转化法、农杆菌介导转化法和花粉管通道法,三种方法转化烟草的成功率(种子数)如表所示,问三种转基因方法的转基因成功率差异是否显著?,题解,1、提出假设 H0:O-E=0;HA: O-E02、根据概率的乘法法则计算理论数:理论数,3、检验统计量:4、确定自由度: 列联表的自由度df=(r-1)(c-1),r是列联表的行数,c是列联表的列数, df=(3-1)(2-1)=2,不用做连续性校正5、拒绝域的建立: 6、结论 三种转基因方法的成功率显著不同。,三、 22列联表精确检验法,检验程序:1、求组合概率:p值表示的是在行总数和列总数保持不变的情况下,上述列联表出现的概率2、提出假设:列联表精确检验的零假设仍为不存在处理效应,显著水平为,3、检验统计量:即p值,若a、b、c、d中任何一个出现0时,可直接用上述公式计算p值,反之则应当保证行总数和列总数不变的条件下,将4格中最小的那个数再逐个(每次降1)降低到0,得到2个或多个22列联表,并计算每种22列联表的p值,并将多个p值之和作为总概率p4、拒绝域的建立5、结论,1、p=0.181820.05 两种农药的杀虫效果差异不显著2、(1)因为4个观测值中没有0出现,先计算本表的概率:p1=0.122(2)因为观测值中最小数是1,在保证行总数和列总数都不变的条件下,将1降到0的情况只有一种,P2=0.010,P=p1+p2=0.1320.05结论:男女对该酒精香味的反应没有区别,
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号