资源预览内容
第1页 / 共31页
第2页 / 共31页
第3页 / 共31页
第4页 / 共31页
第5页 / 共31页
第6页 / 共31页
第7页 / 共31页
第8页 / 共31页
第9页 / 共31页
第10页 / 共31页
亲,该文档总共31页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
9 - 1统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院第第 9 章章 分类数据分析分类数据分析作者:中国人民大学统计学院作者:中国人民大学统计学院贾俊平贾俊平统计学9 - 2统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院第第 9 章章 分类数据分析分类数据分析9.1 分类数据与分类数据与 2统计量统计量 9.2 拟合优度拟合优度 检验检验9.3 列联分析:独立性检验列联分析:独立性检验9.4 列联分析中应注意的问题列联分析中应注意的问题9 - 3统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院学习目标学习目标1. 理解分类数据与理解分类数据与 2 统计量统计量2.掌握拟合优度检验及其应用掌握拟合优度检验及其应用3.掌握独立性检验及其应用掌握独立性检验及其应用4.掌握测度列联表中的相关性掌握测度列联表中的相关性9 - 4统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院9.1 分类数据与列联表分类数据与列联表9.1.1 分类数据分类数据9.1.2 2统计量统计量9 - 5统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院分类数据分类数据9 - 6统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院分类数据分类数据1.分类变量的结果表现为类别n n例如:性别例如:性别 ( (男男, , 女女) )2.各类别用符号或数字代码来测度3.使用分类或顺序尺度n n你吸烟吗你吸烟吗? ? l l1.1.是;是;2.2.否否n n你赞成还是反对这一改革方案你赞成还是反对这一改革方案? ?l l1.1.赞成;赞成;2.2.反对反对4.对分类数据的描述和分析通常使用列联表5.可使用检验9 - 7统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院 统计量统计量9 - 8统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院 统计量统计量1.1.用于检验分类变量拟合优度用于检验分类变量拟合优度2.2.计算公式为计算公式为9 - 9统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院 统计量统计量分布与自由度的关系分布与自由度的关系 9 - 10统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院9.2 拟合优度拟合优度检验检验9 - 11统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院拟合优度检验拟合优度检验(例题分析例题分析) 【例例】1912年4月15日,豪华巨轮泰坦尼克号与冰山相撞沉没。当时船上共有共2208人,其中男性1738人,女性470人。海难发生后,幸存者为718人,其中男性374人,女性344人,以的显著性水平检验存活状况与性别是否有关。 ( 0.05)9 - 12统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院拟合优度检验拟合优度检验(例题分析例题分析)解:解:要回答观察频数与期望频数是否一致,检验如下假设: H0:观察频数与期望频数一致 H1:观察频数与期望频数不一致9 - 13统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院拟合优度检验拟合优度检验(例题分析例题分析)自由度的计算为df=R-1,R为分类变量类型的个数。在本例中,分类变量是性别,有男女两个类别,故R=2,于是自由度df=2-1=1,经查分布表, (0.1)(1)=2.706,故拒绝H0,说明存活状况与性别显著相关9 - 14统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院9.3 列联分析:独立性检验列联分析:独立性检验 9.3.1 列联表列联表9.3.2 独立性检验独立性检验9 - 15统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院列联表列联表(contingency table)1.由两个以上的变量交叉分类的频数分布表2.行变量的类别用 r 表示, ri 表示第 i 个类别3.列变量的类别用 c 表示, cj 表示第 j 个类别4.每种组合的观察频数用 fij 表示5.表中列出了行变量和列变量的所有可能的组合,所以称为列联表6.一个 r 行 c 列的列联表称为 r c 列联表9 - 16统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院列联表的结构列联表的结构(r c 列联表的一般表示列联表的一般表示)列列列列( (c cj j) )合计合计合计合计j j =1 =1j j = = 2 2i i =1=1f11f12r1i i = 2= 2f21f22r2: : : : : :合合合合计计c1c2n列列列列( (c cj j) )行行行行( (r ri i) )f fij ij 表示第表示第表示第表示第 i i 行第行第行第行第 j j 列的观察频数列的观察频数列的观察频数列的观察频数9 - 17统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院独立性检验独立性检验(例题分析例题分析)【例例例例】一一种种原原料料来来自自三三个个不不同同的的地地区区,原原料料质质量量被被分分成成三三个个不不同同等等级级。从从这这批批原原料料中中随随机机抽抽取取500500件件进进行行检检验验,结结果果如如表表9-39-3所所示示,要要求求检检验验各各个个地地区区和和原原料料质质量量之之间间是是否否存存在在依依赖赖关关系系? ( ( 0.05)0.05) 解:解:H H0 0:地区和原料等级之间是独立的(不存在依赖关系):地区和原料等级之间是独立的(不存在依赖关系) H H1 1:地区和原料等级之间不独立:地区和原料等级之间不独立 (存在依赖关系)(存在依赖关系) 0.05(4)=9.4880.05(4)=9.488故故拒拒绝绝H0H0,接接受受H1H1 ,即即地地区区和和原原料等级之间存在依赖关系,原料的质量受地区的影响料等级之间存在依赖关系,原料的质量受地区的影响9 - 18统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院独立性检验独立性检验(例题分析例题分析)9 - 19统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院9.4 列联表中的相关测量列联表中的相关测量9.4.1 相关系数相关系数9.4.2 列联相关系数列联相关系数9.4.3 V 相关系数相关系数9 - 20统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院列联表中的相关测量列联表中的相关测量1.品质相关n n对品质数据对品质数据( (分分类和顺序数据类和顺序数据) )之间相关程之间相关程度的测度度的测度2.列联表变量的相关属于品质相关3.列联表相关测量的统计量主要有n n 相关系数相关系数n n列联相关系数列联相关系数n nV V 相关系数相关系数9 - 21统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院 相关系数相关系数(correlation coefficient)1.测度22列联表中数据相关程度2.对于22 列联表, 系数的值在01之间3. 相关系数计算公式为9 - 22统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院 相关系数相关系数(原理分析原理分析)一个简化的一个简化的 2 2 列联表列联表因素因素因素因素Y Y因素因素因素因素 X X合计合计合计合计x x1 1x x2 2y y1 1aba + by y2 2cdc + d合合合合计计a + cb + dn9 - 23统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院 相关系数相关系数 (原理分析原理分析)列联表中每个单元格的期望频数分别为列联表中每个单元格的期望频数分别为将各期望频数代入将各期望频数代入 的计算公式得的计算公式得9 - 24统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院 相关系数相关系数 (原理分析原理分析)将将 入入 相关系数的计算公式得相关系数的计算公式得 ad ad 等于等于 bcbc , = 0= 0,表明变量表明变量X X 与与 Y Y 之间独立之间独立 若若 b b=0=0 ,c c=0=0,或或a a=0=0 ,d d=0=0,意意味味着着各各观观察察频频数数全全部部落落在在对对角角线线上上,此此时时| | | | =1=1, ,表表明明变变量量X X 与与 Y Y 之间完全相关之间完全相关列列联联表表中中变变量量的的位位置置可可以以互互换换, 的的符符号号没没有有实际意义,故取绝对值即可实际意义,故取绝对值即可9 - 25统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院列联列联相关系数相关系数(coefficient of contingency)1.用于测度大于22列联表中数据的相关程度2.计算公式为 C C 的取值范围是的取值范围是 0 0 C C11 C C = 0= 0表明列联表中的两个变量独立表明列联表中的两个变量独立 C C 的的数数值值大大小小取取决决于于列列联联表表的的行行数数和和列列数数,并随行数和列数的增大而增大并随行数和列数的增大而增大 根根据据不不同同行行和和列列的的列列联联表表计计算算的的列列联联系系数数不不便于比较便于比较9 - 26统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院V 相关系数相关系数(V correlation coefficient)1.计算公式为计算公式为2. V V 的取值范围是的取值范围是 0 0 V V 1 13. V V = 0= 0表明列联表中的两个变量独立表明列联表中的两个变量独立4. V V=1=1表明列联表中的两个变量完全相关表明列联表中的两个变量完全相关5.不同行和列的列联表计算的列联系数不便于比较不同行和列的列联表计算的列联系数不便于比较6.当当列列联联表表中中有有一一维维为为2 2,min(min(r r-1),(-1),(c c-1)=1,-1)=1,此此时时V V= = 9 - 27统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院 、C、V 的比较的比较1.同一个列联表,、C、V 的结果会不同2.不同的列联表,、C、V 的结果也不同3.在对不同列联表变量之间的相关程度进行比较时,不同列联表中的行与行、列与列的个数要相同,并且采用同一种系数9 - 28统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院列联表中的相关测量列联表中的相关测量(例题分析例题分析)【例例例例】一一种种原原料料来来自自三三个个不不同同地地区区,原原料料质质量量被被分分成成三三个个不不同同等等级级。从从这这批批原原料料中中随随机机抽抽取取500500件件进进行行检检验验,结结果果如如下表。分别计算下表。分别计算 系数、系数、C C系数和系数和V V系数,并分析相关程度系数,并分析相关程度地区地区地区地区一级一级一级一级二级二级二级二级三级三级三级三级合计合计合计合计甲地区甲地区甲地区甲地区525264642424140140乙地区乙地区乙地区乙地区606059595252171171丙丙丙丙地区地区地区地区505065657474189189合合合合计计1621621881881501505005009 - 29统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院列联表中的相关测量列联表中的相关测量 (例题分析例题分析)解:解:解:解:已知已知n n=500=500, 19.8219.82,列联表为列联表为3 3 3 3结论:结论:结论:结论:三个系数均不高,表明产地和原料等级之三个系数均不高,表明产地和原料等级之 间的相关程度不高间的相关程度不高9 - 30统计学统计学STATISTICS(第五版第五版)作者:贾俊平,中国人民大学统计学院本章小结本章小结1.拟合优度检验拟合优度检验2.独立性检验独立性检验3.测度列联表中的相关性测度列联表中的相关性结结 束束
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号