资源预览内容
第1页 / 共89页
第2页 / 共89页
第3页 / 共89页
第4页 / 共89页
第5页 / 共89页
第6页 / 共89页
第7页 / 共89页
第8页 / 共89页
第9页 / 共89页
第10页 / 共89页
亲,该文档总共89页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第九讲 卡方检验一、一、 检验的功能检验的功能检验的功能检验的功能1、适用资料计数数据 计数数据的统计分析,测量数据的统计 方法并不适用,卡方检验是较为常用的一 种方法。拟合优度检验例 即通过实际调查与观察所得到的一批 数据,其次数分布是否服从理论上所假 定的某一概率分布; 2、卡方检验的功能例 某广播电视台为了了解广大儿童对其提供的6种儿童节目的偏好(态度),随机抽取了300名儿童,问他们最喜欢哪一种节目(每人只能选一种),得到的数据如下表: 节目1节目2 节目3节目4 节目5 节目6858055 104030问:问:就调查的300人而言,他们对6个节目的 偏好(体现在人数)是否存在显著的差 异?变量间的独立性检验变量间的独立性检验 在对一批观察数据进行双向多项分类之后,这两个分类特征是独立无关的还是具有连带相关的关系?例 某师范大学为了了解广大师生对实行“中期选拨”制度的态度。曾以问卷调查的形式对977名低年级学生、790名高年级学生和764名教师进行随机调查,调查结果: 主要用于检验不同人群母总体在某一个变量上的反应是否有显著差异。例从四所幼儿园分别随机抽出6 岁儿童若 干,各自组成一个实验组,进行识记测 验。测验材料是红、绿、蓝三种颜色书 写的字母,以单位时间内的识记数量为 指标,结果如下。问四组数据是否可以 合并分析。同质性检验 分组 红色字母 绿色字母 蓝色字母1 24 17 192 15 12 93 20 20 144 10 25 28 理论基础是1899年皮尔逊的工作:在分布拟合优度检验中,实际观察次数 与理论次数 之差的平方除以理论次数近似服从 分布,即:二、 检验的基本原理-如果实际观察次数与理论次数的差异越 大,卡方检验的结果就越可能拒绝无差 虚无)假设接受备择假设。-理论次数 越大( )拟合效果 越 好。 注注 K 为类别的数目; 是实际观察值; 是理论(期待)次数; 是约束条件数或利用观察数据时使 用的样本统计量的数目;1、卡方检验基本公式分类相互排斥,互不包容;观察值相互独立;期望次数的大小应大于或等于5(较好趋 近卡方分布的前提); 2、卡方检验的假设自由度小时,必须 ,否则利用卡方 检验需要进行较正或用精确的分布 进行 检验;自由度大时,可以有少许类别的理论次 数少于5;应用卡方检验时,应注意取样设计,保 证取样的代表性,否则依据卡方检验的 结果难以保证结论的科学性; 注 由于检验内容仅涉及一个变量多项分类的计数资料,也称one-way test)1、配合度检验的一般问题 即检验实际观察数据的分布与某理 论分布是否有显著的差别。三、卡方检验应用一总体分布的拟合检 验(goodness of fit test 配合度检验)统计假设 2、检验过程即:实际观察次数与某分布理论次数之间无差异; 依统计检验公式,计算实得卡方值数理基础作出统计决断N:总数Pe:具体类别理论概率例 某项民意测验,答案有同意、不置可否、 不同意3种。调查了48人,结果同意的24人 ,不置可否的人12人,不同意的12人,问持 这3种意见的人数是否存在显著差异? 3、离散型分布的拟合检验 对于连续随机变量的测量数据,有时不知道其总体分布,需要根据样本的次数分布的信息判断其是否服从某种确定的连续性分布。 检验方法 将连续性的测量数据整理成次数分布表 画出相应的次数分布曲线; 选择恰当的理论分布; 进行拟合检验;4、连续型分布拟合检验(例)例:下表是552名学生的身高次数分布,问这 些学生的身高分布是否符合正态分布?169 170 2 15.38 3.03 0.00237 1 166 167 7 12.38 2.44 0.01201 7163 164 22 9.38 1.85 0.04260 24 0.167160 161 57 6.38 1.26 0.10888 60 0.150157 158 110 3.38 0.67 0.18858 104 0.471154 155 124 0.38 0.07 0.23544 130 0.277151 152 112 -2.62 -0.52 0.20615 114 0.035 148 149 80 -5.62 -1.11 0.12746 70 1.429145 146 25 -8.62 -1.70 0.05562 31 1.161142 143 8 -11.62 -2.29 0.01710 9 139 140 4 -14.62 -2.88 0.00396 2身高 组中值 次数 离均差 Z分数 P 理论次数0.1250.09其一、分组数据第1组理论次数的计算 注: =组上限的Z值-组下限的Z值其二、拟合指标卡方值的计算分析5、二项分类的配合度检验与比率显著检验设总体比率为 , 且 时结论:Z检验与卡方检验一致 (样本比率p的真正分布是二项分布) 男 生 女 生 某班有100名学生,男生的有42人,问男生的比率是否与0.5有显著差异?比率显著性检验 42 58 50 50例用卡方检验(配合度)当 且 时卡方检验公式 当期望次数小于5时,卡方检验需要校正,Yates建议的校正公式为:注:校正后的结果与二项分布的结果一致 的连续性校正(二项分类数据或比率)1、功能(例) 主要通过对两个或两个以上因素多项分 类的计数资料的分析,以研究两变量或多 个变量之间的关联性与依存性。四、独立性检验(四、独立性检验(test of independencetest of independence) 独立性检验一般多采用表格的形式记录观察结果的计数资料,这种表格即列联表。RK 型列联表(二个因素:一个因素有R个分类,另一有K个分类) 2、一个术语-列联表R RK K 型列联表一般型列联表一般数据数据结构示意图结构示意图因素A因素BA1 A2 . Aj ARB1B2BiBk统计假设 二因素或多因素之间是独立;(数据)理论次数的计算3、独立性检验的一般问题与步骤自由度的确定卡方检验(公式1)统计推断拒绝假设接受假设RC的卡方检验,允许有的格内的实计数 为0,最小的理论次数为0.5;RC 的卡方检验中最小的理论次数小于 0.5 或1(2 C列联表),一般采用合并 项目的方法,而不用连续性校正公式; 注 检验公式(各单元格理论次数5) 自由度因 素 A 分类1 分类2 因 素B分类1 分类2ABCD4、独立样本四格表 检验(列联表特例)注:独立样本四格表 检验相当于独立样本 比率差异的显著性检验。 随机抽取90名学生,将学生按性别与学习成绩进行分类,结果如下表,问男女大学生在学业成绩上是否有关联?或男女学生在成绩中等以上的比率是否存在显著差异?学 业 水 平中等以上 中等以下 性别 男 女23172822例Fisher精确概率检验(略) 检验校正公式 5、四格表中若有单元格理论次数5适用范围 分类变量数目多于2个 例:讨论性别(男、女)、婚姻(未 婚、已婚)及生活满意状况(刺 激、规律、无聊)之间的关系。6、多重列联表分析确定控制变量(分层变量) 例性别分别对在控制变量的每一水平下的另两个 变量形成的列联表进行分析; 例 *男性婚姻状况与生活满意状态关联分析 *女性婚姻状况与生活满意状态关联分析多重列联表的分析对于控制变量的不同水平所进行的单个列联 表分析 、如果 值不显著,此时可以将各个水 平下的 值相加,以推测列联表中两 个变量总的 值,并进行关联性检定。、当控制变量各水平不一致时,必须单独就 个别关联表进行分析。例 某通讯公司想了解大学生最喜欢的手机品 牌,随机抽取了72名大学生,调查性别、 家庭经济水平以及最喜欢的手机品牌,来 探讨这三个变量之间的关系,调查结果如 下表。甲 乙 丙经 济 水 平低高甲 乙 丙手机品牌性 男别 女13 2 3 4 12 49 3 7 8 5 21、同质性检验(test for homogeneity) 几个不同的因素之间是否有实质差异 判断几次重复实验的结果是否同质 单因素分类数据的同质性检验 样例四、同质性检验与数据的合并、计算各个样本组的 值和自由度;、累加各样本组 值,计算其总和及自由 度的总和;、将各个样本组原始数据按相应类合并, 产生一个总的数据表,并计算这个总数 据表的 值和自由度;检验过程iv、计算各样本组的累计 值与总测试次数合 并获得的 值之差(异质性 值),其 自由度是各样本组累计自由度与合并后总 数据的自由度之差。 异质性 值大于临界值,样本组间数据 异质; 不显著,则同质; 1 24 17 192 15 12 93 20 20 144 10 25 28例 从四所幼儿园分别随机抽出6 岁儿童若干,各自组成一个实验组,进行识记测验。测验材料是红、绿、蓝三种颜色书写的字母,以单位时间内的识记数量为指标,结果: 问四组数据是否可以合并分析? 分组 红色字母 绿色字母 蓝色字母例对四所幼儿圆的幼儿颜色命名能力进行 了调查,调查材料是15种颜色的彩色铅 笔。凡能正确命名8种及8种以上颜色者 为达标,低于8 种颜色则未达标。调查 对象分4岁组、6岁组。四所幼儿园调查 的数据见下表。问这四所幼儿园儿童颜 色命名能力调查结果是否同质?颜色命 名与年龄是否有关联? 列联表形式的同质性检验4岁组 49 70 1106岁组 64 39 103 小计 113 109 222 达标 未达标年龄组A幼儿园 B幼儿园C幼儿园D幼儿园达标 未达标达标 未达标 达标 未达标达标 未达标 4岁组 11 18 10 15 15 20 13 17 6岁组 14 9 17 10 16 9 17 11 年龄组颜色命名能力小计合并数据表变异原因自由 P合并 9.705 1 .05总计 9.809 4 ( 值分析结果)注 合并检验总表中儿童颜色命名能力与年龄是否有密切关联时,因自由度为1, 值需进行连续性校正。 两格表与四格表数据合并方法(例) 简单合并法 将所有数据合并成一个两格表或四 格表。适用条件: 各分表同一分类特征比率接近; 分表小样本齐性( 值不显著) 2、计数数据合并的方法 值相加法男 17 5 22 0.773女 6 5 11 0.545 23 10 33、例(四格表简单合并法)不同研究者的取样年龄性别某年龄特征 A 非A A特征比率34岁56岁男 12 3 15 0.800女 7 5 12 0.583 23 10 331.793 1.3391.501 1.22578岁男 11 3 14 0.786女 11 9 20 0.550 22 12 342.004 1.41640112419 A 非男 女5143643094 相加法、各分表 值相加;、df=分表的数目(各分表自由度之和) 缺点缺点:不太灵敏,分辨力较差,没有考 虑各分表的方向。例 值相加值相加法法 、适用条件 样本容量相差不超过2倍 表中各相应比率的取值在0.2-0.8之间 、检验公式(例)分表数目;各分表 值的开方;、适用条件 多个四格表中各相应 的 比率不在 0.2-0.5间; 各样本容量相差较大(超过2倍), 样本差异方向(即变化趋势)相同;加权法、显著性检验公式 (例) 分表数目;第i个四格表的比率第i个四格表边际次数例 加权法计算及各符号含义样本组 A 非A A的比率 男 女5 913 57 70 0.1857 3 23 26 0.115416 80 96 0.1667 0.0703 18.96 0.8333 男 女10 1226 56 82 0.3171 11 29 40 0.275037 85 122 0.3033 0.0421 26.89 0.6967 男 女13 1515 56 71 0.2113 2 27 29 0.069017 83 100 0.1700 0.1423 20.59 0.8300合并的条件 各分表同一分类特征比率接近; 分表小样本齐性( 值不显著) 无关因素控制相同,各分表相应比率变 化相同; RC表数据合并、适用条件 各分表比率接近且各样本齐性年龄组 A C 合计 计算结果 男 女15 1912 13 7 32 18 17 23 58合计 30 30 30 男 女20 2515 17 9 41 26 23 31 79合计 40 40 40(0.3750)(0.4063)(0.2187)(0.3659)(0.4146)(0.2195)合并后结果简单合并法、例合 并 后 结 果性别 A B C 合计 男 27 30 16 73 女 43 40 54 137合计 70 70 70 210、具体操作 先计算各分表中单元格的理论次数, 将各分表理论次数相加作为总表对应 格理论次数; 然后将各分表的实计数合并,作为总 表的实计数; 进行卡方检验df=(R-1)(K-1)分表理论次数合并法、例不同年级对学方法的评价不同年级对学方法的评价样本 评价 教法1 教法2 教法3 合计 计算结果初一年级很好 9(10.5) 6(7.0) 6 (3.5) 21一般 5(6.5) 6(4.3) 2 (2.2) 13不好 16(13.0) 8(8.7) 2 (4.3) 26合计 30 20 10 60初二年级很好 14(15.5)9(10.3) (5.2) 31一般 16(5.5) 4(3.7) 1 (1.8) 11不好 10(9.0) 7(6.0) 1 (3.0) 18合计 30 20 10 60初三年级很好 5(9.7) 8(6.2) 6 (3.1) 19一般 3(3.1) 2(2.0) 1 (1.0) 6不好 20(15.2)8(9.8) 2 (4.9) 30合计 28 18 9 552823201412446235教法1 教法2 教法3很好 一般 不好(35.7)(23.5)(11.8)(15.1)(10)(5.0)(37.2)(24.5)(12.2)7130748858291、内涵 RC列联表经检验后A、B因素有关联, 表明: A因素的多项分类中有一项分类在B因 素多项分类中有关联; 或B因素多项分类中至少有一项分类在 A因素多项分类中有关联。 这种关联是体现在全体还是局部?对这 个问题的进一步分析即相关源的分析。五、相关源的分析将2 C分解成独立的22表进行分析2、2C表的离析离析过程、首先将2 C表分解为C-1个四格表, 分解方法分解方法:据专业知识作直观分析, 先将估计关联不明显的 四格表分解出来;不显著、逐项进行卡方检验,若关联不显著则合并不显著分解示意图T1T2Tt分解的22表 计算公式 注 t=1,2,.,C; N为总表中的总次数; 为总表中边缘次数-横行; 为总表中边缘次数-纵列; 为总表中各格的实计数; 有一项调查结果如下,问二因素是否有关联,并进一步分析相关源,即究竟在哪种态度上有显著差异?拥护 不置可否 反对男 女12135181725 30 30 30 30 60N=90例解:分析思路整体分析(23) 结果: (关联不显著)(关联不显著)是否在局部存在关联?开始离析拥护 不置可否男 女12131817T1结果显示:在拥护与不置可否上并不存在性别差异不反对 反对男 女12+13518+1725T2T1结果显示结果显示:在反对与不反对上存在性别 明显的差异总体上不存在关联将2C列联表分解为非独立22表进行分析主要应用领域 研究涉及几个对照组与控制组的比较例评价 原方法(对照组) 新法1 新法2 新法3 新法4好 不好 8 12 21 15 19 22 18 9 15 11 四格表评价 原方法 新法1好 不好 8 12 22 18评价 原方法 新法2好 不好 8 21 22 9评价 原方法 新法3好 不好 8 15 22 15评价 原方法 新法4好 不好 8 19 22 11注:因为每一实验组都要与控制组比较, 故此时各四格表间并不独立。在保证总检验显著性水平为 时,各分解 四格表显著性水平的确定:问题上例各分解四格表的显著性水平应是 多少?有显著差异有显著差异因素A因素BA1 A2 . Ai ARB1B2BjBC3、RC表的离析先据专业知识或对总表的直观分析估计差 异不显著的项目分解出一个2C(或2 R)的列联表,进行 检验,若不显著, 则将此表合并成1C(或1R)表,再与 另一项组成新的2C(或2R)分解表。 离析过程( )合并示意图因素A因素BA1 A2 . Ai ARB1B2B1+B2B3 检验不显著再进行新表的 检验,若差异不显著,再 以前面的方法合并数据,直至新的分解表 显著为止;若 检验差异显著时,再将该分解表2C (或2R)按2C表相关源分析过程进行 分析; 教育方法改革后的效果调查结果如下表,问教育方法与教育效果是否有关联?究竟与哪些年级有关联?学生成绩 初一 初三 高一效 果显效一般无效2123829060402605030240专业判断例子解:相关源离析过程检验T1显效一般无效初三 高一382904026030240检验T2 初一 初三及高一显效一般无效2123286030050270结果表明:初一与初三及高一年级在教育效果上存在显著差异。540360320 322 8981220初一与初三及高一年级在教育效果上的分析 初一 初三及高一显效一般无效2123286030050270 322 898540360320 初一 初三及高一一般无效6030050270结论差异不显著,合并数据。继续分析 初一 初三及高一显效一般无效2123286030050270 322 898540360320 初一 初三及高一一般无效6030050270显效一般无效 初一 初三及高一212328110570 320 898540680结果:即教育效果与年级存在显著关 联,初一效果好,其三以上学 生效果不明显。人有了知识,就会具备各种分析能力,明辨是非的能力。所以我们要勤恳读书,广泛阅读,古人说“书中自有黄金屋。”通过阅读科技书籍,我们能丰富知识,培养逻辑思维能力;通过阅读文学作品,我们能提高文学鉴赏水平,培养文学情趣;通过阅读报刊,我们能增长见识,扩大自己的知识面。有许多书籍还能培养我们的道德情操,给我们巨大的精神力量,鼓舞我们前进。
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号