列联表和对应分析-－金锄头文库

中央财经大学统计学院第12章列联表和对应分析列联表中两个变量的独立性检验列联表中两个变量的独立性检验对应分析对应分析中央财经大学统计学院 2学习目标学习目标l列联表中两个变量独立性检验的原理列联表中两个变量独立性检验的原理和软件结果解释和软件结果解释 l对应分析的基本原理和软件结果分析对应分析的基本原理和软件结果分析中央财经大学统计学院 33.1.2 列联表（列联表（Contingency table ）l如果对数据同时根据两个变量分组，汇总得到的结果称为列联表。列联表反映的是两个变量的联合分布，可以用来分析两个变量之间的关系。也称为交叉分组表（Cross tabulation）。）。l列联表一般根据两个定性变量进行编制，如果是定量变量则需要先对单个变量进行分组。l列联表中的数字为交叉单元格中的频数或频率。l以列联表为基础可以对两个变量之间的关系进行多种统计检验。中央财经大学统计学院 4列联表举例列联表举例市场营销专业的男生有10人。市场营销专业统计学专业合计男生102030女生301545合计403575中央财经大学统计学院 5【例例12.1】美国的美国的General Social Survey幸福状况幸福状况合计合计非常幸非常幸福福比较幸比较幸福福不太幸不太幸福福婚姻状婚姻状况况已婚已婚574726821382丧偶丧偶7014959278离异离异8329279454分居分居147330117未婚未婚13641999654合计合计87716593492885中央财经大学统计学院 6二维列联表中的两个变量是否相二维列联表中的两个变量是否相互独立互独立 : c c2检验检验lH0：婚姻状况和幸福状况这两个变量相互独立；lH1：婚姻状况和幸福状况不相互独立。l与单个变量的c2检验类似中央财经大学统计学院 7基本原理基本原理l行变量和列变量相互独立时，每个单元格频数的期望值为l如果期望频数和观测频数相差不大，则零假设可能是正确的；如果二者差别很大，则零假设可能不成立。中央财经大学统计学院 8检验统计量检验统计量l在零假设成立时，该统计量近似服从自由度为(r-1)(s-1)的c2分布。当该统计量的值很大（或p值很小）时，就可以拒绝零假设，认为这两个变量不相互独立。中央财经大学统计学院 9SPSS操作操作l“分析”“描述统计”“交叉表”，把“婚姻状况”设为行变量，把“幸福状况”设为列变量。接下来单击“统计量”，在弹出的对话框中选中“卡方”，单击“继续”；选择“单元格”，选中弹出对话框中的“期望值”，单击“继续”返回前一个是对话框，单击“确定”中央财经大学统计学院 10SPSS操作操作中央财经大学统计学院 11结果分析结果分析幸福状况幸福状况合计合计非常幸非常幸福福比较幸比较幸福福不太幸不太幸福福婚婚姻姻状状况况已婚已婚计数计数574726821382期望的计数期望的计数420.1794.7167.21382.0丧偶丧偶计数计数7014959278期望的计数期望的计数84.5159.933.6278.0离异离异计数计数8329279454期望的计数期望的计数138.0261.154.9454.0分居分居计数计数147330117期望的计数期望的计数35.667.314.2117.0未婚未婚计数计数13641999654期望的计数期望的计数198.8376.179.1654.0合计合计计数计数87716593492885期望的计数期望的计数877.01659.0349.02885.0中央财经大学统计学院 12结果分析结果分析lc2统计量的值为，相应的p值为。由于p值远远小于通常使用的显著性水平，因此检验的结论是拒绝原假设，不能认为婚姻状况和幸福状况相互独立。值值df渐进渐进 Sig. (双侧双侧)Pearson 卡方卡方225.274a8.000似然比似然比230.1668.000线性和线性组合线性和线性组合137.4941.000有效案例中的有效案例中的 N2885a. 0单元格单元格(.0%)的期望计数少于的期望计数少于5。最小期望计数为。最小期望计数为14.15。中央财经大学统计学院 13精确结果精确结果l当每个单元格的期望频数都大于5时检验统计量近似服从c2分布。在不满足这一条件时，需要把部分单元格合并，或者使用精确检验。l在图12-1的对话框中选择“精确”，进行相应的设置后可以得出精确的检验结果。这时所涉及的不是c2分布，而是超几何分布。l由于样本很大时超几何分布计算比较慢甚至无法计算，因此在大样本时通常使用c2统计量。中央财经大学统计学院 14对应分析对应分析 l对应分析是一种描述性、探索性的数据分析方法，通常用于列联表的分析，以便用图形的方法观察行变量和列变量取值之间的对应关系。l对应分析可以按照相同的刻度同时对列联表中的行变量和列变量进行降维，用较少的维度（一般选用二维或三维）来代表数据表中的行变量和列变量，从而在同一个空间中用图形方法显示行变量和列变量类别之间的关系。中央财经大学统计学院 15对应分析图的绘制对应分析图的绘制l在表12-1的列联表中，把3个幸福状况的取值看作3维空间中的坐标，我们可以把5个婚姻状况在3维空间中表示出来。l如果使用因子分析的方法对3个幸福状况进行降维（同时最大限度地保留原始信息），则我们能够在2维甚至1维空间上把5个点表示出来。l把表中婚姻状况的取值看作5维空间的坐标值，使用因子分析的方法进行降维，也可以把3个幸福状况在低维空间中表示出来。中央财经大学统计学院 16对应分析图的绘制对应分析图的绘制l如果能够保证两个因子分析中采用相同的刻度，则可以在同一个坐标系中把幸福状况的3个点和婚姻状况的5个点绘制出来，通过图形观察两个变量取值之间的关系。l按上述方法得到的图形称为对应分析图。中央财经大学统计学院 17对应分析图的绘制对应分析图的绘制l为了保证对行和列进行因子分析的结果之间的对应关系，在进行对应分析时并不是根据列联表中的频数直接进行因子分析的l而是先计算相应的频率，再进行必要的变量变换，之后再用与因子分析类似的方法进行降维。中央财经大学统计学院 18对应分析图的分析对应分析图的分析l在对应分析图中，如果同一变量的不同类别在某个方向上靠得较近，则说明这些类别在该维度上区别不大；l落在图形中大致相同区域的不同变量的分类点彼此之间有联系。中央财经大学统计学院 19对应分析的软件操作对应分析的软件操作 l选择“分析”“降维”“对应分析”，把“婚姻状况”设为行变量；l在弹出的对话框中单击“定义范围”，最小值设为1，最大值设为5，单击“更新”、“继续”；l然后把“幸福状况”设为列变量，再通过“定义范围”对话框定义其取值范围为1-3；最后单击“确定” 中央财经大学统计学院 20对应分析的软件操作对应分析的软件操作中央财经大学统计学院 21对应分析结果的解释对应分析结果的解释维维数数惯量比例惯量比例置信奇异值置信奇异值相关相关奇异值奇异值惯量惯量卡方卡方Sig.Sig.解释解释累积累积标准差标准差2 21 1.272.272 .074.074.944.944.944.944.017.017 .064.0642 2.066.066 .004.004.056.056 1.0001.000.021.021总总计计.078.078225.274225.274 .000.000a a1.0001.000 1.0001.000a. 8 a. 8 自由度自由度中央财经大学统计学院 22对应分析结果的解释对应分析结果的解释l“惯量”类似于因子分析中特征值对应的方差；“惯量比例”一栏中，“解释”的惯量比例类似于因子分析中的方差贡献率，“累积”的惯量比例类似于因子分析中的累积方差贡献率，这几个指标反映了每个维度的因子重要性和解释能力。l表中的“卡方”是关于列联表行列独立性检验结果，自由度为(5-1)(3-1)=8。p值很小说明列联表的行与列之间有较强的相关性。中央财经大学统计学院 23 行变量（婚姻状况）各水平的坐标行变量（婚姻状况）各水平的坐标婚姻状况婚姻状况维中的得分维中的得分质量质量12惯量惯量已婚已婚 .479-.531-.016.037丧偶丧偶 .096.437-.660.008离异离异 .157.535.168.013分居分居 .041.979-.331.011未婚未婚 .227.389.257.010有效总计有效总计1.000.078中央财经大学统计学院 24行变量（婚姻状况）各水平的坐标行变量（婚姻状况）各水平的坐标l“质量”对应的英文为“Mass”，译为“密度”更为确切，反映的是每种婚姻状况的人数比例。l表中给出了婚姻状况5个水平的坐标：已婚 (-0.531, -0.016)，丧偶(0.437, -0.660)，离异 (0.535, 0.168)，丧偶 (0.041, 0.979)，未婚 (0.389, 0.257)。中央财经大学统计学院 25列变量（幸福状况）的坐标列变量（幸福状况）的坐标婚姻状况婚姻状况维中的得分维中的得分质量质量12惯量惯量非常幸福非常幸福 .304-.684-.193.039比较幸福比较幸福 .575.157.207.005不太幸福不太幸福 .121.975-.498.033有效总计有效总计1.000.078中央财经大学统计学院 26对应分析图对应分析图中央财经大学统计学院 27对应分析图的解释对应分析图的解释l“婚姻状况”和“幸福状况”取值之间的对应关系：“已婚”和“非常幸福”最接近；l“离异”、“未婚”和“比较幸福”比较接近；l“丧偶”、“分居”和“不太幸福”比较接近。中央财经大学统计学院 28对应分析的一点说明对应分析的一点说明l对应分析是一种探索性的描述统计方法，并不能保证所有的对应分析结果中两个变量的取值之间都有如此明确的对应关系。中央财经大学统计学院 29例例2 （课后习题）（课后习题）眼睛颜色眼睛颜色头发颜色头发颜色蓝色蓝色棕色棕色绿色绿色淡褐色淡褐色合计合计黑色黑色2068515108金色金色9471610127棕色棕色841192954286红色红色1726141471合计合计215215220220646493592592中央财经大学统计学院 30软件操作软件操作l在SPSS软件中录入数据时，数据文件中应该有三个变量：头发颜色、眼睛颜色和频数，并在SPSS中选择“数据”“加权个案”，把“频数”变量指定为权数。中央财经大学统计学院 31数据表数据表中央财经大学统计学院 32对应分析结果对应分析结果l从表中卡方检验的结果看两个变量不相互独立中央财经大学统计学院 33对应分析图对应分析图中央财经大学统计学院 34小结小结l在列联表中，如果行变量和列变量相互独在列联表中，如果行变量和列变量相互独立，则每个单元格中观测到的频数与其期立，则每个单元格中观测到的频数与其期望频数应该比较接近，否则说明零假设是望频数应该比较接近，否则说明零假设是不成立的。基于这种思想可以构造检验统不成立的。基于这种思想可以构造检验统计量进行假设检验。计量进行假设检验。l对应分析是一种描述性、探索性的数据分对应分析是一种描述性、探索性的数据分析方法，也是一种数据降维技术。可以在析方法，也是一种数据降维技术。可以在同一个空间中用图形方法显示行变量和列同一个空间中用图形方法显示行变量和列变量类别之间的关系。变量类别之间的关系。