资源预览内容
第1页 / 共27页
第2页 / 共27页
第3页 / 共27页
第4页 / 共27页
第5页 / 共27页
第6页 / 共27页
第7页 / 共27页
第8页 / 共27页
第9页 / 共27页
第10页 / 共27页
亲,该文档总共27页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
群体间的差异比较群体间的差异比较卡方检验卡方检验第8章内容提要内容提要8.1卡方检验原理8.2拟合问题样本率和已知总体率的比较8.3独立性检验两个(多个)变量的相关8.4卡方检验的局限性及补救办法8.1 8.1 卡方检验原理卡方检验原理卡方检验卡方检验变量连续变量分类变量有序分类变量无序分类变量秩和检验卡方检验T检验、方差分析卡方检验原理卡方检验原理u原假设H0:每一个卡通片被选择为喜欢的可能性是相同的。即假定所研究的总体服从均匀分布,因此每一个卡通片被选择的概率都应该是1/6。u如果为真,300名儿童挑选每种卡通片的可能性应该是相等的,则选择每种卡通片的期望频次应该是:fe=nu构造卡方统计量:例:许多儿童都喜欢看卡通片,有的人认为只要是卡通片儿童都爱看,而不管其类型;另一些人认为儿童对不同类型的卡通片有不同的偏好。为此,他们提供了6种类型的卡通片,让300名经常看电视的儿童观看,然后说出喜欢看哪一个,得到如下表所示的数据。卡方检验原理卡方检验原理300名儿童对不同类型卡通片的偏好分布卡通片编号观测频次f0概率(H0为真)期望频次fe=n偏差f0fe偏差平方(f0fe)2加权结果(f0fe)2/fe1851/65035122524.52801/65030900183551/6505250.54101/650-401600325401/650-1010026301/650-204008合计30013000285P0.001( (二二) )非参数检验非参数检验u卡方检验是以卡方分布为基础的一种常用假设检验方法,主要用于分类变量,根据样本数据推断总体的分布与期望分布是否有显著差异,或推断两个分类变量是否相互关联或相互独立。u卡方检验的原假设H0是:观测频数与期望频数没有差别。u卡方检验的基本思想是:首先假设H0成立,基于此前提计算出2值,它表示观测值与理论值之间的偏离程度。根据2分布,2统计量,以及自由度可以确定在假设H0成立的情况下获得当前统计量及更极端情况的概率P。u判断:如果P值很小,说明观测值与理论值偏离程度太大,应当拒绝原假设,表示比较的类别之间有显著差异;否则就不能拒绝原假设,不能认为样本所代表的实际情况与理论假设有差别。8.2 8.2 拟合问题拟合问题样本率与已知总体率的比较样本率与已知总体率的比较拟合问题拟合问题样本率与已知总体率的比较样本率与已知总体率的比较u对于连续变量,我们可以使用单样本的t检验考察样本所在总体的均值与已知值是否存在显著差异,即样本均值与已知值的差异。u对于分类变量,则可以使用卡方检验比较样本比率与已知值的差异。u什么是拟合问题?n假设一个总体中,某个变量的可能取值有假设一个总体中,某个变量的可能取值有n个水平;某一个水平;某一已知样本中,该变量的取值也是这已知样本中,该变量的取值也是这n个水平。个水平。n现在需要从样本的分类数据出发,来判断总体各取值水平现在需要从样本的分类数据出发,来判断总体各取值水平出现的概率是否与已知概率相符,即该样本是否的确来自出现的概率是否与已知概率相符,即该样本是否的确来自已知的总体分布。已知的总体分布。n即单样本率与总体率的比较,被称之为拟合问题。即单样本率与总体率的比较,被称之为拟合问题。拟合问题拟合问题样本率与已知总体率的比较样本率与已知总体率的比较u原假设H0:摇奖机工作正常,则每个号码出现的概率为1/10。u注意:原始数据在分析时,首先进行加权!uAnalyzeNonparametricTestsChi-Square例1:有奖有息储蓄摇奖的办法一般采取刻有数码09的编号球投入摇奖机,然后按一定规则,把摇出的数码组合成兑奖号码。南京市自开办有奖有息储蓄以来,13期中奖号码中各数码出现的频次见“数据摇奖.sav”。试判断摇奖机工作是否正常?拟合问题拟合问题样本率与已知总体率的比较样本率与已知总体率的比较所有所有类别比例相等比例相等自定自定义类别比例比例拟合问题拟合问题样本率与已知总体率的比较样本率与已知总体率的比较残差残差值卡方卡方值P值小于小于5%,可以拒可以拒绝原假原假设。认为摇奖机工作不正常。机工作不正常。拟合问题拟合问题样本率与已知总体率的比较样本率与已知总体率的比较u原假设H0:顾客今年的颜色偏好与去年无显著差异。uAnalyzeNonparametricTestsChi-Square例2:美国某小汽车经营商根据去年销售的小汽车颜色的百分率,认为今年顾客选择各种颜色的数目仍将不变,即20%的人选择黄色,30%选择红色,10%选择绿色,10%选择蓝色,30%选择白色。他随机抽取了150名顾客,询问他们所喜好的颜色。结果见color.sav。问是否应拒绝该经营商的假设?拟合问题拟合问题样本率与已知总体率的比较样本率与已知总体率的比较依次依次输入入期期望的望的类别比比例。例。拟合问题拟合问题样本率与已知总体率的比较样本率与已知总体率的比较P值小于小于5%,可以拒可以拒绝原假原假设。顾客今年客今年的的颜色偏好与色偏好与去年相比存在去年相比存在显著差异。著差异。8.3 8.3 独立性检验独立性检验两个(多个)变量的相关问题两个(多个)变量的相关问题独立性检验独立性检验两个(多个)变量的相关问题两个(多个)变量的相关问题u卡方检验可以非常容易地推广到两样本或多样本比较的问题,即应用卡方检验总体中两个特性有无相关性,这种检验也叫独立性检验。例:在电视收视率调查中,得到性别与收视习惯的列联表如下。试建立数据文件并分析性别与收视习惯的相关联系。男女几乎天天看3824偶尔看317独立性检验独立性检验两个(多个)变量的相关问题两个(多个)变量的相关问题uAnalyzeDescriptiveStatisticsCrosstabs进行卡方行卡方检验独立性检验独立性检验两个(多个)变量的相关问题两个(多个)变量的相关问题uAnalyzeDescriptiveStatisticsCrosstabs观测频数数期望期望频数数输出残差出残差标准化残差准化残差独立性检验独立性检验两个(多个)变量的相关问题两个(多个)变量的相关问题双双侧近似概率近似概率Pearson卡方卡方统计量量双双侧精确概率精确概率对数似然比数似然比计算的卡方算的卡方Fishers确切确切概率法概率法线性相关的卡方性相关的卡方值,检验行列行列变量是否量是否线性相关,多性相关,多用于定序用于定序变量量8.4 8.4 卡方检验的局限性及补救办法卡方检验的局限性及补救办法u由于卡方检验简单直观,而且交互分析表又能提供非常丰富的信息,因此在各种调查统计中这种交互分析(列联表加卡方检验)的应用十分广泛。u在实际应用中,不但定类变量采用此方法,对定序甚至定距变量也粗略地划分成几类后做成列联表。这可以从某种意义上简化数据,但这种交互分析也存在其局限性。卡方检验的局限性及补救办法卡方检验的局限性及补救办法u卡方检验的局限性:n卡方值随分类的不同而改变。如对教育程度、收入水平的分卡方值随分类的不同而改变。如对教育程度、收入水平的分类,因此分类时最好有理论或实践依据,或者统计依据(中类,因此分类时最好有理论或实践依据,或者统计依据(中位数、四分位数等)位数、四分位数等)n样本量不能太小,也不宜过大。样本量太小,采用卡方分布样本量不能太小,也不宜过大。样本量太小,采用卡方分布为依据的检验便不再成立。为依据的检验便不再成立。一般要求一般要求n40。但样本量过大,但样本量过大,有时得到的结果便会失去意义。卡方值受样本量影响很大:有时得到的结果便会失去意义。卡方值受样本量影响很大:样本量越大,越容易得到拒绝原假设样本量越大,越容易得到拒绝原假设H0的结果。的结果。卡方检验的局限性及补救办法卡方检验的局限性及补救办法u卡方检验的局限性:n列联表中期望频数小于列联表中期望频数小于5的个数不能太多。通常建议所有的期的个数不能太多。通常建议所有的期望频数都不小于望频数都不小于5,最多也不能超过,最多也不能超过20%。如对。如对35的列联表,的列联表,共共15个格,则期望频数小于个格,则期望频数小于5的格数不能超过的格数不能超过3个。如果超过个。如果超过了了20%,则需要对卡方值加以修正。,则需要对卡方值加以修正。n对于连续型变量(定距、定比变量),卡方检验无法揭露其对于连续型变量(定距、定比变量),卡方检验无法揭露其数量性质。数量性质。u卡方检验的一般原则:n只要有数量型的变量出现,就应该采用可以提示其数量性质只要有数量型的变量出现,就应该采用可以提示其数量性质的统计工具(如的统计工具(如 t 检验、方差分析、秩和检验等)来分析。检验、方差分析、秩和检验等)来分析。n卡方检验更适用于定类变量。卡方检验更适用于定类变量。卡方检验的局限性及补救办法卡方检验的局限性及补救办法u统计指标的选择:n当样本量当样本量n40,且所有单元格的期望频数,且所有单元格的期望频数fe 5时,用普通的时,用普通的Pearson卡方检验;卡方检验;n 当样本量当样本量n40,且只有,且只有20%以下的单元格的期望频数以下的单元格的期望频数1 fe 5时,用校正的卡方检验:如对数似然比(时,用校正的卡方检验:如对数似然比(Likelihood Ratio)计算的卡方,或用于计算的卡方,或用于22格表的连续性校正的卡方格表的连续性校正的卡方(Continuity Correction););n 当样本量当样本量n 40,或有,或有20%以上的单元格期望频数以上的单元格期望频数fe 5 ,或,或有单元格期望频数有单元格期望频数fe 1时,采用确切概率法(时,采用确切概率法(Fishers Exact Test).卡方检验的局限性及补救办法卡方检验的局限性及补救办法本章练习本章练习u1、数据36选7.sav是体彩36选7连续45期中奖号码出现频次的统计,试分析中奖号码的出现概率是否随机。u2、在周六晚节目单修订后,分别作了收视率的调查。在节目修改前,收视率记录为ABC29%,CBS28%,NBC25%,ITV18%。节目修改后,300个家庭所组成的样本产生下列电视收视数据:ABC95户,CBS70户,NBC89户,ITV46户,在5%的显著性水平下,检验电视收视率是否发生了变化。u3、针对数据住房状况调查.sav,分析户口状况与房屋产权之间是否存在相关性。本章练习本章练习u4、以下是不同年龄层次的人的读报习惯列联表,试录入数据并考察两者之间是否存在相关性。20岁以下以下21-40岁41-60岁60岁以上以上每天都看22143351130经常看6822921351偶尔看1051478546从不看488328115
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号