第八章--多元统计分析课件-

第八章第八章多元统计分析多元统计分析多元分析处理的是多指标的问题。由于指标太多，使得分析的复杂性增加。观察指标的增加本来是为了使研究过程趋于完整，但反过来说，为使研究结果清晰明了而一味增加观察指标又让人陷入混乱不清。实际工作，指标间经常具备一定的相关性，故人们希望用较少的指标代替原来较多的指标，但依然能反映原有的全部信息，于是就产生了主成分分析、对应分析、典型相关分析和因子分析等方法。第一节因子分析1.1 主要功能调用Data Reduction菜单的Factor过程命令项，可对多指标或多因素资料进行因子分析。因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系，以较少的几个因子反映原资料的大部分信息。 1.2 实例操作实例操作例11-1下表资料为25名健康人的7项生化检验结果，7项生化检验指标依次命名为X1至X7，请对该资料进行因子分析。 X1X2X3X4X5X6X73.768.596.227.579.035.513.278.749.649.738.597.124.695.511.665.909.848.394.947.239.469.554.948.219.413.664.996.147.287.083.980.627.009.491.332.985.493.011.341.615.769.274.924.382.307.315.354.523.086.440.541.344.527.072.591.300.443.311.031.001.173.682.171.271.571.551.512.541.031.771.044.254.502.425.115.2810.029.8412.6611.766.923.3611.6813.579.879.179.725.985.812.808.8413.6010.056.687.7912.0011.748.079.1012.509.777.502.171.794.545.337.633.5313.139.877.852.642.764.571.785.409.023.966.494.3911.582.771.793.752.4513.7410.162.732.106.227.308.844.7618.5211.069.913.433.555.382.097.5012.675.249.065.3716.183.512.104.663.104.782.131.090.821.282.408.391.122.353.702.621.192.013.433.721.971.751.432.812.272.421.051.291.720.911.2.1 数据准备激活数据管理窗口，定义变量名：分别为X1、X2、X3、X4、X5、X6、X7，按顺序输入相应数值，建立数据库，结果见上表。 1.2.2 统计分析激活Analyze菜单选Data Reduction的Factor.命令项，弹出Factor Analysis对话框（图8.1）。在对话框左侧的变量列表中选变量X1至X7，点击钮使之进入Variables框。图8.1 因子分析对话框点击Descriptives.钮，弹出Factor Analysis:Descriptives对话框（图8.2）选出Coefficients等选项并选KMO and Bartletts test of sphericity项，要求对相关系数矩阵进行统计学检验。点击Continue钮返回Factor Analysis对话框。图8.2 描述性指标选择对话框点击Extraction.钮，弹出Factor Analysis:Extraction对话框（图8.3），系统提供多种因子提取方法。本例选Principal components方法，之后点击Continue钮返回Factor Analysis对话框。图8.3 因子提取方法选择对话框点击Rotation.钮，弹出Factor Analysis:Rotation对话框（图8.4），系统有5种因子旋转方法可选：None：不作因子旋转；Varimax：正交旋转；Equamax：全体旋转，对变量和因子均作旋转；Quartimax：四分旋转，对变量作旋转；Direct Oblimin：斜交旋转。旋转的目的是为了获得简单结构。本例选正交旋转法，之后点击Continue钮返回Factor Analysis对话框。图8.4 因子旋转方法选择对话框点击Scores.钮，弹出弹出Factor Analysis:Scores对话框（图8.5），本例选Regression（回归因子得分），之后点击Continue钮返回Factor Analysis对话框，再点击OK钮即完成分析。图8.5 估计因子分方法对话框1.2.3 结果解释描述性统计给出各变量的平均值，标准差、样本数等。此表给出各指标的相关系数及检验值此表给出各因子得分、贡献率及累积贡献率，并列出三个主要因子的得分、贡献率。七个不同指标在三个主因子上的特征向量，并以此可以计算各样本的表现。正交旋转后的特征向量。1.3 DPS进行因子分析第二节主成分分析2.1 主要功能主要功能主主成成分分分分析析从从原原理理上上是是寻寻找找椭椭球球的的所所有有主主轴轴。因因此，原先有几个变量，就有几个主成分。此，原先有几个变量，就有几个主成分。而而因因子子分分析析是是事事先先确确定定要要找找几几个个成成分分，这这里里叫叫因因子（子（factor）（比如两个），那就找两个。）（比如两个），那就找两个。这这使使得得在在数数学学模模型型上上，因因子子分分析析和和主主成成分分分分析析有有不不少少区区别别。根根据据因因子子分分析析模模型型的的特特点点，它它还还多多一一道道工工序序：因因子子旋旋转转（factor rotation）；这这个个步步骤可以使结果更好。骤可以使结果更好。2.2 主成分分析的主要过程这两步是主成分与因子分析的主要不同，即选用主成分分析，而且因子不进行旋转。2.3 主成分的主要结果相关系数矩阵累计贡献率保留的2个主成分SPSS进行主成分分析与因子分析的不同进行主成分分析与因子分析的不同在在Method选择一个方法（如果是主成分分析，选择一个方法（如果是主成分分析，则选则选Principal Components，因子分析可是其，因子分析可是其它方法）。它方法）。Rotation对话框中选择一个旋转方法（如果是对话框中选择一个旋转方法（如果是主成分分析就选主成分分析就选None，因子分析可选正交或其，因子分析可选正交或其它方法）。它方法）。2.4 DPS进行主成分分析DPS结果基本与DPS的相同，不同点为SPSS保留了两个主成分，而DPS是根据累积贡献率手动保留，如累积贡献率85%，保留两个，如要求90%，即需保留三个主成分，再根据保留主成分多少确定不同样本的主要因子得分。第三节对应分析对应分析，又称分析，对应分析把型与型分析统一起来，把变量和样本同时反应在有相同坐标轴（因子轴）的一张图形上，以便于有关生物学上的解释。从而揭示所研究的样本与变量间的内在联系。一、SPSS对应分析的实现实例：以因子分析的例子， 25名健康人的7项生化检验结果，需将数据整理成如下图。先对每人在各指标上的观测值y进行加权。AnalyzeData ReductionCorrespondence Analysis在对话框中分别对人和指标指定范围。人群分组为：1-25，指标分组为：1-7二、DPS对应分析的实例地区氯硫化氢二氧化硫碳4环氧氯丙烷环己烷10.0560.0840.0310.0380.0080.02220.0490.0550.10.110.0220.00730.0380.130.0790.170.0580.04340.0340.0950.0580.160.20.02950.0840.0660.0290.320.0120.04160.0640.0720.10.210.0280.03870.0480.0890.0620.260.0380.03680.0690.0870.0270.250.0450.021从图中可直观看出5号地区主要污染源为碳4，6、7、8号地区主要污染源为氯和环已烷，1、2、3号地区主要污染源主要为二氧化碳和硫化氢，4号地区主要污染源为环氧氯丙烷第四节典型相关分析我们知道如何衡量两个变量之间是我们知道如何衡量两个变量之间是否相关的问题；这是一个简单的公否相关的问题；这是一个简单的公式就可以解决的问题式就可以解决的问题(Pearson相关相关系数、系数、 Kendalls t t、 Spearman 秩相关系数秩相关系数)。如果我们有两组变量，如何能够表如果我们有两组变量，如何能够表明它们之间的关系呢？明它们之间的关系呢？例子（数据例子（数据tv.txt) 业内人士和观众对于一些电视节目的观点业内人士和观众对于一些电视节目的观点有什么样的关系呢？有什么样的关系呢？该数据该数据是不同的人群是不同的人群对对30个电视节目所作的平均评分。个电视节目所作的平均评分。观众评分来自低学历观众评分来自低学历(led)、高学历、高学历(hed)和网络和网络(net)调查三种调查三种,它们形成它们形成第一组变第一组变量量；而业内人士分评分来自包括演员和导演在而业内人士分评分来自包括演员和导演在内的艺术家内的艺术家(arti)、发行、发行(com)与业内各部与业内各部门主管门主管(man)三种，形成三种，形成第二组变量第二组变量。人们。人们对这样两组变量之间的关系感到兴趣。对这样两组变量之间的关系感到兴趣。节目编号低学历高学历网络艺术家发行商部门主管numled hed net artcomman1864385439371299749978998933722102724334519561311385454355395458621322134353273678487542788693185327052940983699648610261440825211151683868487212638679877695133980578055681478407242755815564954485261163980717652811765553116741182811311223351950326823495820699869978199215599789760902236115152652377186127685424673395345961254587468567802661726363627527416374555076286513551329285335513159306620791867552 典型相关分析典型相关分析由于一组变量可以有无数种线性组合由于一组变量可以有无数种线性组合（线性组合由相应的系数确定），因（线性组合由相应的系数确定），因此必须找到此必须找到既有意义又可以确定的线既有意义又可以确定的线性组合。性组合。典型相关分析典型相关分析(canonical correlation analysis)就是要找到这两组变量线性就是要找到这两组变量线性组合的系数使得这两个由线性组合生组合的系数使得这两个由线性组合生成的变量（和其他线性组合相比）之成的变量（和其他线性组合相比）之间的间的相关系数最大。相关系数最大。典型变量典型变量假假定定两两组组变变量量为为X1,X2,Xp和和Y1,Y2,Yq，那那么么，问问题题就就在在于于要要寻寻找找系系数数a1,a2,ap和和b1,b2,bq，和和使使得得新新的的综综合合变变量量（亦亦称称为为典型变量典型变量(canonical variable)）之之间间的的相相关关关关系系最最大大。这这种种相相关关关关系系是是用用典典型型相相关关系系数数（ canonical correlation coefficient）来衡量的。来衡量的。典型相关系数典型相关系数这这里里所所涉涉及及的的主主要要的的数数学学工工具具还还是是矩矩阵阵的的特特征征值值和和特特征征向向量量问问题题。而而所所得得的的特特征征值值与与V和和W的的典典型型相相关关系数有直接联系。系数有直接联系。由由于于特特征征值值问问题题的的特特点点，实实际际上上找找到到的的是是多多组组典典型型变变量量(V1, W1), (V2, W2),，其其中中V1和和W1最最相相关关，而而V2和和W2次之等等，次之等等，典型相关系数典型相关系数而而且且V1, V2, V3,之之间间及及而而且且W1, W2, W3,之之间间互互不不相相关关。这这样样又又出出现现了了选选择择多多少少组组典典型型变变量量(V, W)的的问问题题了了。实实际际上上，只只要要选选择择特特征征值值累累积积总总贡献占主要部分的那些即可。贡献占主要部分的那些即可。软软件件还还会会输输出出一一些些检检验验结结果果；于于是是只只要选择显著的那些要选择显著的那些(V, W)。对对实实际际问问题题，还还要要看看选选取取的的(V, W)是是否否有有意意义义，是是否否能能够够说说明明问问题题才才行行。至至于于得得到到(V, W)的的计计算算，则则很很简简单单，下下面面就就tv.txt数数据据进进行行分分析析。数数学学原原理理？计算结果计算结果第第一一个个表表为为判判断断这这两两组组变变量量相相关关性性的的若若干干检检验验，包包括括Pillai迹迹检检验验，Hotelling-Lawley迹迹检检验验，Wilks l l检检验验和和Roy的的最最大大根根检检验验；它它们们都都是是有有两两个个自自由由度度的的F检检验验。该该表表给给出出了了每每个个检检验验的的F值值，两两个个自自由由度度和和p值值（均均为为0.000）。）。计算结果计算结果下下面面一一个个表表给给出出了了特特征征根根(Eigenvalue)，特特征征根根所所占占的的百百分分比比(Pct)和和累累积积百百分分比比(Cum. Pct)和和典典型型相相关关系系数数(Canon Cor)及及其其平平方方(Sq. Cor)。看看来来，头头两两对对典典型型变变量量(V, W)的的累累积积特特征征根根已已经经占占了了总总量量的的99.427%。它们的典型相关系数也都在。它们的典型相关系数也都在0.95之上。之上。计算结果计算结果对对于于众众多多的的计计算算机机输输出出挑挑出出一一些些来来介介绍绍。下下面面表表格格给给出出的的是是第第一一组组变变量量相相应应于于上上面面三三个个特特征征根根的的三三个个典典型型变变量量V1、V2和和V3的的系系数数，即即典典型型系系数数(canonical coefficient)。注注意意，SPSS把把第第一一组组变变量量称称为为因因变变量量(dependent variables)，而而把把第第二二组组称称为为协协变变量量(covariates)；显显然然，这这两两组组变变量量是是完完全全对对称称的的。这这种种命命名名仅仅仅仅是是为为了了叙叙述述方方便。便。这这些些系系数数以以两两种种方方式式给给出出；一一种种是是没没有有标标准准化化的的原原始始变变量量的的线线性性组组合合的的典典型型系系数数(raw canonical coefficient)，一一种种是是标标准准化化之之后后的的典典型型系系数数(standardized canonical coefficient)。标标准准化化的的典典型型系系数数直直观观上上对对典典型型变变量量的的构构成成给给人人以以更更加加清楚的印象。清楚的印象。可以看出，头一个典型变量可以看出，头一个典型变量V1相应于前相应于前面第一个（也是最重要的）特征值，主面第一个（也是最重要的）特征值，主要代表高学历变量要代表高学历变量hed；而相应于前面；而相应于前面第二个（次要的）特征值的第二个典型第二个（次要的）特征值的第二个典型变量变量V2主要代表低学历变量主要代表低学历变量led和部分的和部分的网民变量网民变量net，但高学历变量在这里起负，但高学历变量在这里起负面作用。面作用。计算结果计算结果类类似似地地，也也可可以以得得到到被被称称为为协协变变量量(covariate)的的标标准准化化的的第第二二组组变变量量的的相相应应于于头头三三个个特特征征值值得得三三个个典典型型变变量量W1、W2和和W2的的系数：系数：。例子结论例子结论从从这这两两个个表表中中可可以以看看出出，V1主主要要和和变变量量hed相相关关，而而V2主主要要和和led及及net相相关关；W1主主要要和和变变量量arti及及man相相关关，而而W2主主要要和和com相相关关；这和它们的典型系数是一致的。这和它们的典型系数是一致的。由由于于V1和和W1最最相相关关，这这说说明明V1所所代代表表的的高高学学历历观观众众和和W1所所主主要要代代表表的的艺艺术术家家(arti)及及各各部部门门经经理理(man)观观点点相相关关；而而由由于于V2和和W2也也相相关关，这这说说明明V2所所代代表表的的低低学学历历(led)及及以以年年轻轻人人为为主主的的网网民民(net)观观众众和和W2所所主主要要代代表表的的看看重重经经济济效效益益的的发发行行人人(com)观观点点相相关关，但但远远远远不不如如V1和和W1的的相相关关那那么么显显著著（根根据据特特征征值值的的贡献率）。贡献率）。 SPSS的的实现实现对对例例 tv.sav，首首先先打打开开例例 14.1的的 SPSS数数据据tv.sav，通通过过FileNewSyntax打打开开一一个个空空白白文文件件（默默认认文文件件名名为为Syntax1.sps），再再在在其其中中键键入入下下面面命令行：命令行：MANOVA led hed net WITH arti com man/DISCRIM ALL ALPHA(1) /PRINT=SIG(EIGEN DIM).再点击一个向右的三角形图标再点击一个向右的三角形图标(运行目前程序，运行目前程序，Run current)，就可以得到所需结果了。，就可以得到所需结果了。还可以把还可以把Syntax1.sps另以其他名字（比如另以其他名字（比如tv.sps）存入一个文件夹。下次使用时就可以通）存入一个文件夹。下次使用时就可以通过过FileOpenSyntax来打开这个文件了。来打开这个文件了。作业：1、对作业8中的25个病人7项生化指标数据分别作主成分分析、因子分析、对应分析。2、对作业8中的15个小麦品种分别作主成分分析、因子分析、对应分析。3、对作业8中的45个小麦品种的形态、品质、产量性状分别作主成分、因子、对应和典型相关分析。