资源预览内容
第1页 / 共52页
第2页 / 共52页
第3页 / 共52页
第4页 / 共52页
第5页 / 共52页
第6页 / 共52页
第7页 / 共52页
第8页 / 共52页
第9页 / 共52页
第10页 / 共52页
亲,该文档总共52页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
判别分析的判别分析的SPSS操作操作v1. 基本原理基本原理v2. 基本操作基本操作v3. 选项设置选项设置v4. 实例分析实例分析2021/8/3111. 基本原理基本原理 判别分析的目的是得到体现分类的函数关系式,即判别判别分析的目的是得到体现分类的函数关系式,即判别函数。基本思想是在已知观测对象的分类和特征变量值的前函数。基本思想是在已知观测对象的分类和特征变量值的前提下,从中筛选出能提供较多信息的变量,并建立判别函数;提下,从中筛选出能提供较多信息的变量,并建立判别函数;目标是使得到的判别函数在对观测量进行判别其所属类别时目标是使得到的判别函数在对观测量进行判别其所属类别时的错判率最小。的错判率最小。 判别函数的一般形式是:判别函数的一般形式是:其中,其中, 为判别函数判别值;为判别函数判别值; 为反映研究对象为反映研究对象特征的变量;特征的变量;为各变量的系数,即判别系数。为各变量的系数,即判别系数。 常用的判别法有距离判别法、常用的判别法有距离判别法、Fisher判别法和判别法和Bayes判别法。判别法。2021/8/312 例例1 人文发展指数是联合国开发计划署于人文发展指数是联合国开发计划署于1990年年5月发表月发表的第一份人类发展报告中公布的。该报告建议,目前对人的第一份人类发展报告中公布的。该报告建议,目前对人文发展的衡量应当以人生的三大要素为重点,衡量人生三大要文发展的衡量应当以人生的三大要素为重点,衡量人生三大要素的指示分别采用出生时的预期寿命、成人识字率和实际人均素的指示分别采用出生时的预期寿命、成人识字率和实际人均GDP,将以上三个指示指标的数值合成为一个复合指数,即为,将以上三个指示指标的数值合成为一个复合指数,即为人文发展指数。资料来源人文发展指数。资料来源UNDP人类发展报告人类发展报告1995年。年。 今从今从1995年世界各国人文发展指数的排序中,选取高发展年世界各国人文发展指数的排序中,选取高发展水平、中等发展水平的国家各五个作为两组样品,另选四个国水平、中等发展水平的国家各五个作为两组样品,另选四个国家作为待判样品作判别分析。家作为待判样品作判别分析。使用三种判别方法进行判别,并进行研究三者之间的关系。使用三种判别方法进行判别,并进行研究三者之间的关系。2021/8/3132021/8/314本例中变量个数本例中变量个数p3,两类总体各有,两类总体各有5个样品,即个样品,即n1n25 ,有,有4个待判样品,假定两总体协差阵相等。个待判样品,假定两总体协差阵相等。两组线性判别的计算过程如下:两组线性判别的计算过程如下:(1)计算两类样本均值计算两类样本均值(2)计算样本协差阵,从而求出计算样本协差阵,从而求出2021/8/315类似地类似地经计算经计算2021/8/316(3)求线性判别函数求线性判别函数W(X)解线性方程组解线性方程组得得2021/8/317(4)对已知类别的样品判别分类对已知类别的样品判别分类 对已知类别的样品对已知类别的样品(通常称为训练样品通常称为训练样品)用线性判别函数进行判用线性判别函数进行判别归类,结果如下表,全部判对。别归类,结果如下表,全部判对。2021/8/318(5)对判别效果作检验对判别效果作检验 判别分析是假设两组样品取自不同总体,如果两个总体的均值判别分析是假设两组样品取自不同总体,如果两个总体的均值向量在统计上差异不显著,作判别分析意义就不大:所谓判别效果向量在统计上差异不显著,作判别分析意义就不大:所谓判别效果的检验就是检验两个正态总体的均值向量是否相等,取检验的统计的检验就是检验两个正态总体的均值向量是否相等,取检验的统计量为:量为: 其中其中将上边计算结果代人统计量后可得:将上边计算结果代人统计量后可得:2021/8/319函数有效。函数有效。故在故在检验水平下,两总体间差异显著,即判别检验水平下,两总体间差异显著,即判别(6)对待判样品判别归类结果如下表:对待判样品判别归类结果如下表:2021/8/3110 2、继续用前面距离判别法例、继续用前面距离判别法例1的人文发展指数的数据作的人文发展指数的数据作Bayes判别分析。判别分析。这里组数这里组数k2,指标数,指标数p3,n1n25代人判别函数:代人判别函数:2021/8/3111得两组的判别函数分别为:得两组的判别函数分别为:将原各组样品进行回判结果如下一灯片表:将原各组样品进行回判结果如下一灯片表:待判样品判别结果如下:待判样品判别结果如下:2021/8/3112 3、利用距离判别法中例、利用距离判别法中例l的人文发展指数的数据作的人文发展指数的数据作Fisher判别分析:判别分析:(1)建立判别函数建立判别函数利用前例计算的结果,可得利用前例计算的结果,可得Fisher判别函数的系数判别函数的系数2021/8/3113所以判别函数为所以判别函数为(2)计算判别临界值计算判别临界值y0。由于由于所以所以2021/8/3114 (3)判别准则判别准则(4)对已知类别的样品判别归类对已知类别的样品判别归类2021/8/31152021/8/3116 上述回判结果表明:总的回代判对率为上述回判结果表明:总的回代判对率为100,这与统计资料,这与统计资料的结果相符,而且与前面用距离判别法的结果也一致。的结果相符,而且与前面用距离判别法的结果也一致。(5)对判别效果作检验对判别效果作检验 由于由于所以在所以在检验水平下判别有效。检验水平下判别有效。(6)待判样品判别结果如下:待判样品判别结果如下:判别结果与实际情况吻合。判别结果与实际情况吻合。2021/8/31172. 基本操作基本操作 SPSS利用利用“Discriminate”过程进行判别分析操作,下面过程进行判别分析操作,下面给出基本操作步骤。给出基本操作步骤。Step1:打开主对话框。:打开主对话框。 选择选择“Analyze” “Classify” “Discriminate”命令,打命令,打开开“Discriminate Analysis”对话框,如图对话框,如图1.1所示所示图图1.1 “Discriminate Analysis”对话框,对话框,2021/8/3118Step2:选择分组变量和自变量:选择分组变量和自变量 在变量列表中选择指定分组变量,单击右向箭头按钮,将在变量列表中选择指定分组变量,单击右向箭头按钮,将其移动至右侧的其移动至右侧的“Grouping Variable”(分组)文本框中,并(分组)文本框中,并单击单击“Define Range”(定义范围)按钮,出现图(定义范围)按钮,出现图1.2所示的所示的“Discriminant Analysis:Define Range”(判别分析定义范(判别分析定义范围)对话框,在围)对话框,在“Minimum”文本框中输入该分组变量的最小文本框中输入该分组变量的最小值,在值,在“Maximum”文本框中输入该分组变量的最大值,单击文本框中输入该分组变量的最大值,单击“Continue”按钮,返回主对话框。按钮,返回主对话框。 图图1.2 “Discriminate Analysis:Define Range”对对话框话框2021/8/3119 在变量列表中选择判别分析的变量,单击右向箭头按钮,在变量列表中选择判别分析的变量,单击右向箭头按钮,将其移动至将其移动至“Independents”(自变量)列表框中。(自变量)列表框中。Step3:选择判别分析方法。:选择判别分析方法。 在主对话框中,自变量列表框下侧显示两个单选框,用在主对话框中,自变量列表框下侧显示两个单选框,用于指定选择判别分析的方法。于指定选择判别分析的方法。 Enter independents together 默认选项。当认为所有自变默认选项。当认为所有自变量都能对观测特性提供丰富的信息时,使用该选项,选择该项量都能对观测特性提供丰富的信息时,使用该选项,选择该项将不加将不加uanz地使用所有自变量进行判别分析,建立全模型,且地使用所有自变量进行判别分析,建立全模型,且不需要进一步选择。不需要进一步选择。 Use stepwise method 逐步分析方法。当认为不是所有自逐步分析方法。当认为不是所有自变量都能对观测量特性提供丰的信息时,选择该项,因此需要变量都能对观测量特性提供丰的信息时,选择该项,因此需要判别贡献的大小再进行选择。选中该单选按钮时,判别贡献的大小再进行选择。选中该单选按钮时,“Method”按按钮被激活,可以进一步选择判别分析方法。钮被激活,可以进一步选择判别分析方法。2021/8/3120Step4:选择变量值标识。:选择变量值标识。 如果需要使用一部分个案参与判别函数的推导,而且有一个变如果需要使用一部分个案参与判别函数的推导,而且有一个变量的某个值可以作为这些观测量的标识,则用量的某个值可以作为这些观测量的标识,则用Select Variable功功能进行选择。方法为在变量列表中选择变量,单击右向箭头按钮,能进行选择。方法为在变量列表中选择变量,单击右向箭头按钮,将其移动至将其移动至“Selection”(选择变量)文本框;然后单击(选择变量)文本框;然后单击“Selection”文本框右侧的文本框右侧的“Value”按钮,显示按钮,显示“Discriminant Analysis:Set Value”(判别分析:设定值)子对话框,如图(判别分析:设定值)子对话框,如图1.3所示,输入选择变量的标识。单击所示,输入选择变量的标识。单击“Continue”按钮,返回主按钮,返回主对话框。对话框。图图1.3 “Discriminant Analysis:Set Value” 2021/8/3121Step5:执行操作。:执行操作。 选择完毕后,单击选择完毕后,单击“OK”按钮,执行判别分析操作。按钮,执行判别分析操作。2021/8/31223. 选项设置选项设置3.1 Method选项选项 选择选择“Use stepwise method”方法进行判别分析时,方法进行判别分析时,“Method”(方法)按钮将被激活,单击(方法)按钮将被激活,单击“Method”按钮,打开按钮,打开“Discriminant Analysis:Stepwise Method”(判别分析:逐步(判别分析:逐步分析方法)对话框,如图分析方法)对话框,如图1.4所示所示2021/8/3123 在在“Method”选项组中选择进行逐步判别分析的方法,可供选选项组中选择进行逐步判别分析的方法,可供选择的判别分析方法有择的判别分析方法有5种:种: 1.Wilkslambda Wilkslambda方法。默认选项,每步都是方法。默认选项,每步都是Wilk的概计量最小的进入判别函数。的概计量最小的进入判别函数。 2.Unexplained variance 不可解释方差方法。选择该项,不可解释方差方法。选择该项,表示每步都是使各类不可解释的方差和最小变量进入判别函数。表示每步都是使各类不可解释的方差和最小变量进入判别函数。 3.Mahalanobisdistance Mahalanobis距离方法。选择该距离方法。选择该项,表示每步都使靠的最近的两类间项,表示每步都使靠的最近的两类间Mahalanobis距离最大的变距离最大的变量进入判别函数。量进入判别函数。 4.Smallest F ratio最小最小F值方法。选择该项,表示每步都使值方法。选择该项,表示每步都使任何两类间的最小的任何两类间的最小的F值最大变量进入判别函数。值最大变量进入判别函数。2021/8/3124 5.Raos V Rao V统计量。选择该项,表示每步都使统计量。选择该项,表示每步都使Rao V统计量产生最大增量的变量进入判别函数,可以对一个要加统计量产生最大增量的变量进入判别函数,可以对一个要加入到模型中的变量的入到模型中的变量的V值指定一个最小增量。选择该方法时需值指定一个最小增量。选择该方法时需要在该项下面的要在该项下面的“V-to-enter”(输入(输入V值)文本框中输入这个增值)文本框中输入这个增量的指定值,当某变量导致的量的指定值,当某变量导致的V值增量大于指定值的变量进入值增量大于指定值的变量进入判别函数。判别函数。 “Criteria”(准则准则)选项组用于选择逐步判别停止的判据,可选项组用于选择逐步判别停止的判据,可供选择的判据包括以下几项:供选择的判据包括以下几项:2021/8/3125 Use F value 默认选项。使用默认选项。使用F值是系统默认的判据,当值是系统默认的判据,当加入一个变量(或剔除一个变量)后,对判别分析的变量进加入一个变量(或剔除一个变量)后,对判别分析的变量进行方差分析。当计算的行方差分析。当计算的F值大于指定的值大于指定的Entry值时,该变量保值时,该变量保存在函数中,默认存在函数中,默认Entry值是值是3.84;当该变量使计算的;当该变量使计算的F值小值小于指定的于指定的Removal值时,该变量从函数中剔除,默认值时,该变量从函数中剔除,默认Removal值是值是2.71。即当被加入的变量。即当被加入的变量F值为值为3.84时,才把该时,才把该变量加入到模型中,否则变量不能进入模型;或者当要从模变量加入到模型中,否则变量不能进入模型;或者当要从模型中移出的变量型中移出的变量F值为值为2.71时,该变量才被移出模型,否则模时,该变量才被移出模型,否则模型中的变量不会被移出。设置这两个值时应该注意型中的变量不会被移出。设置这两个值时应该注意Entry值和值和Removal值。值。 Use probability of F 选择该项,表示用选择该项,表示用F检验的概率决检验的概率决定变量是否被加入函数或被剔除,而不是用定变量是否被加入函数或被剔除,而不是用F值加入变量的,值加入变量的,F值概率的默认值是值概率的默认值是0.05,移出变量的,移出变量的F值概率是值概率是0.10。Removal值是移出变量的值是移出变量的F值概率;值概率;Entry值是加入变量的值是加入变量的F值概率。值概率。2021/8/3126 “Display”(显示)选项组的选项用于显示逐步变量判别(显示)选项组的选项用于显示逐步变量判别法的过程设置。有以下两个复选项:法的过程设置。有以下两个复选项: Summary of step要求在逐步选择变量过程中的每一步要求在逐步选择变量过程中的每一步之后显示每个变量的统计量。之后显示每个变量的统计量。 F for pairwise distances要求显示两两类之间的两两要求显示两两类之间的两两F值矩阵。值矩阵。2021/8/31273.2 Statistics选项选项 在主对话框中单击在主对话框中单击“statistics”按钮,打开按钮,打开“Discriminant Anlysis:statistics”(判别分析:统计量)对话框,如图(判别分析:统计量)对话框,如图1.5所示。所示。图图1.5 “Discriminant Anlysis:statistics” 对话框对话框2021/8/3128该对话框中给出了输出结果中显示的统计量,包括如下选该对话框中给出了输出结果中显示的统计量,包括如下选项。项。 在在“descriptive”(描述性)选项组中选择对原始数据(描述性)选项组中选择对原始数据的描述统计量的输出。的描述统计量的输出。 Means 均值。选择该项,可以输出各类中各自变量的均值。选择该项,可以输出各类中各自变量的均值、标准差以及各自变量总样本的均值和标准差。均值、标准差以及各自变量总样本的均值和标准差。 Univariate ANOVA 单变量方差分析。选择该项,表单变量方差分析。选择该项,表示对每一类同一自变量均值都相等的假设进行检验,输出单示对每一类同一自变量均值都相等的假设进行检验,输出单变量的方差分析结果。变量的方差分析结果。 Boxs M 选择该项,表示对各类的协方差矩阵相等的选择该项,表示对各类的协方差矩阵相等的假设进行检验。假设进行检验。2021/8/3129 “Function Coefficients”(判别分析的系数)选项组(判别分析的系数)选项组中给出选择判别函数系数的输出形式的选项,有两个复选项:中给出选择判别函数系数的输出形式的选项,有两个复选项: Fishers 选择该项,表示可以用于对新样本进行判别选择该项,表示可以用于对新样本进行判别分类的分类的fisher系数,对每一类给出一组系数,并给出该组中判系数,对每一类给出一组系数,并给出该组中判别分数最大的观测量。别分数最大的观测量。 Unstandardized 选择该项,表示未经标准化处理的选择该项,表示未经标准化处理的判别系数。判别系数。 在在“matrices”(矩阵)选项组中选择自变量的系数矩阵(矩阵)选项组中选择自变量的系数矩阵,有,有4个复选项:个复选项: Within-group correlation类内相关矩阵。它计算相关类内相关矩阵。它计算相关矩阵之前将各组协方差矩阵平均后,计算类内相关矩阵。矩阵之前将各组协方差矩阵平均后,计算类内相关矩阵。 Within-group covariance合并类内协方差矩阵,是将合并类内协方差矩阵,是将各组(类)协方差矩阵平均后计算的,区别与总协方差矩阵。各组(类)协方差矩阵平均后计算的,区别与总协方差矩阵。 Separate-groups covariance协方差矩阵。协方差矩阵。 Total covariance总样本的协方差矩阵。总样本的协方差矩阵。2021/8/31303.3 Classification选项选项 在主对话框中单击在主对话框中单击“classify”按钮,显示按钮,显示“Discriminant Analysis:Classification”(判别分析:分类)子对话框,如(判别分析:分类)子对话框,如图图1.6所示。所示。图图1.6 “Discriminant Analysis:Classification” 对话框对话框2021/8/3131 该对话框用于指定分类参数和判别结果。分别介绍各个该对话框用于指定分类参数和判别结果。分别介绍各个选项组的选项。选项组的选项。 在在“prior probabilities”选项组中选择先验概率,有两个选项组中选择先验概率,有两个单选项供选择:单选项供选择: All groups equal 表示各类先验概率相等。表示各类先验概率相等。 Compute from groups sizes 表示由各类的样本量计算表示由各类的样本量计算决定,即各类的先验概率与其样本量成正比。决定,即各类的先验概率与其样本量成正比。 在在“use covariance matrix”(利用协方差矩阵)选项组(利用协方差矩阵)选项组中选择分类使用的协方差矩阵,有两个单选项:中选择分类使用的协方差矩阵,有两个单选项: Within-groups选择该项,表示指定使用合并组内协方选择该项,表示指定使用合并组内协方差矩阵进行分类。差矩阵进行分类。 Separate-groups选择该项,表示指定使用各组协方差选择该项,表示指定使用各组协方差矩阵进行分类,由于分类是根据判别函数而不是根据原始变量,矩阵进行分类,由于分类是根据判别函数而不是根据原始变量,因此该选择项不是总等价于二次判别。因此该选择项不是总等价于二次判别。2021/8/3132 在在“plots”选项组中选择要求输入的统计图形,给出选项组中选择要求输入的统计图形,给出3个个复选项:复选项: Combined-groups选择该项,生成一张包括各类的散选择该项,生成一张包括各类的散点图,该散点图是根据前两个判别函数值做的散点图;如果点图,该散点图是根据前两个判别函数值做的散点图;如果只有一个判别函数,就输出直方图。只有一个判别函数,就输出直方图。 Separate-groups选择该项,根据前两个判别函数值对选择该项,根据前两个判别函数值对每一类生成一张散点图,共分为几类就生成几张散点图;如每一类生成一张散点图,共分为几类就生成几张散点图;如果只有一个判别函数就生成一张直方图。果只有一个判别函数就生成一张直方图。 Territorial map选择该项,生成用于根据函数值把观测选择该项,生成用于根据函数值把观测量分到各组中去的边界图,此种统计图把一张图的平面划分量分到各组中去的边界图,此种统计图把一张图的平面划分出与类数相同的区域,每一类占据一个区,各类的均值在各出与类数相同的区域,每一类占据一个区,各类的均值在各区中用区中用*号标出;如果仅有一个判别函数则不作此图。号标出;如果仅有一个判别函数则不作此图。2021/8/3133 在在“display”选项组中选择生成到输出窗中的分类结果,选项组中选择生成到输出窗中的分类结果,其中包括其中包括3个复选框:个复选框: Casewise results 要求输出每个管测量,包括判别分数要求输出每个管测量,包括判别分数实际类预测类(根据判别函数求得的分类结果)和后验概率等,实际类预测类(根据判别函数求得的分类结果)和后验概率等,选择此项还可以选择其附属选择项,选择选择此项还可以选择其附属选择项,选择“Limit cases to”(个(个案限制)选项,并在后面的文本框中输入观测量数案限制)选项,并在后面的文本框中输入观测量数n,选择此项,选择此项则仅对前则仅对前n个观测量输出分类结果,观测数量大时可以选择此项。个观测量输出分类结果,观测数量大时可以选择此项。 Summary table 要求输出分类的综述表,给出正确分类要求输出分类的综述表,给出正确分类观测数(原始类和根据判别函数计算的预测类相同)和错分观测观测数(原始类和根据判别函数计算的预测类相同)和错分观测量数即错分率。量数即错分率。 Leave-one-out classification 输出对每个观测量进行分输出对每个观测量进行分类的结果,所依据的判别时由除该观测量以外的其他观测量导出类的结果,所依据的判别时由除该观测量以外的其他观测量导出的,也称为交互校验结果。的,也称为交互校验结果。 该对话框给出选择缺失值的处理方法,即该对话框给出选择缺失值的处理方法,即“Replace missing values with mean”,表示用该变量的均值代替缺失值。,表示用该变量的均值代替缺失值。2021/8/31343.4 Save选项选项在主对话框单击在主对话框单击“save”按钮,打开按钮,打开“Discriminant Analysis:Save”(判别分析:保存)对话框,如图(判别分析:保存)对话框,如图1.7所示。所示。 该对话框用于指定生成并保存在数据文件中的新变量,其该对话框用于指定生成并保存在数据文件中的新变量,其中包括如下选项:中包括如下选项:图图1.7 “Discriminant Analysis:Save” 对话框对话框2021/8/3135 Predicted groups membership 选择该项,要求建立一选择该项,要求建立一个新变量预测观测量的分类,是根据判别分数把观测量按后验概个新变量预测观测量的分类,是根据判别分数把观测量按后验概率最大指派所属的类,每运行一次率最大指派所属的类,每运行一次“Discriminant”过程就建立一过程就建立一个,表民使用判别函数预测各观测量属于哪一类的新变量。第一个,表民使用判别函数预测各观测量属于哪一类的新变量。第一次运行建立新变量的变量名为次运行建立新变量的变量名为dis_1,如果在工作数据文件中不,如果在工作数据文件中不把前一次建立的新变量删除,第把前一次建立的新变量删除,第n次运行建立的新变量名为次运行建立的新变量名为dis_n。 Discriminant scores 选择该项,要求建立表明判别分数选择该项,要求建立表明判别分数的新变量,该分数是由未标准化的判别系数乘自变量的值,将这的新变量,该分数是由未标准化的判别系数乘自变量的值,将这些乘积求和后加上常数得来的。每次运行些乘积求和后加上常数得来的。每次运行“Discriminant”过程就过程就给出一组表明判别分数的新变量,建立几个判别函数就有几个判给出一组表明判别分数的新变量,建立几个判别函数就有几个判别分数变量参与分析的观测量,共分为别分数变量参与分析的观测量,共分为m类,则建立类,则建立m个点则判个点则判别函数指定该选择项就可以生成别函数指定该选择项就可以生成m-1个表明判别分数的新变量。个表明判别分数的新变量。 Probabilities of groups membership 选择该项,要求建选择该项,要求建立新变量表明观测量属于某一类的概率。如果有立新变量表明观测量属于某一类的概率。如果有m类,对一个观类,对一个观测量就会给出测量就会给出m个概率值,因此建立个概率值,因此建立m个新变量。个新变量。2021/8/31364. 实例分析实例分析 例例1、 为研究舒张期血压和血浆胆固醇对冠心病的作用,为研究舒张期血压和血浆胆固醇对冠心病的作用,某医师测定了某医师测定了5059岁冠心病人岁冠心病人15例和正常人例和正常人16例的舒张压例的舒张压和胆固醇指标,结果如下表所示。试做判别分析,建立判别函和胆固醇指标,结果如下表所示。试做判别分析,建立判别函数以便在临床中用于筛选在临床中用于筛选冠心病人(数据文数以便在临床中用于筛选在临床中用于筛选冠心病人(数据文件:件:discriminant.sav)2021/8/3137冠心病人组冠心病人组正常人组正常人组编号编号舒张压舒张压胆固醇胆固醇编号编号舒张压舒张压胆固醇胆固醇19.865.18110.662.07213.333.73212.534.45314.663.89313.333.0649.337.1049.333.94512.805.49510.664.45610.664.09610.664.92710.664.4579.333.68813.333.63810.662.77913.335.96910.663.211013.335.701010.665.021112.006.191110.403.941214.664.01129.334.921313.334.011310.662.691412.803.631410.662.431513.335.961511.203.42169.333.632021/8/3138操作步骤:操作步骤: Step1:读取数据文件读取数据文件discriminant.sav。其中,变量名。其中,变量名“舒张压舒张压”、“胆固醇胆固醇”代表两项指标值。病人资料和正常人资料代表两项指标值。病人资料和正常人资料合并一同输入,定义变量名为合并一同输入,定义变量名为“组别组别”的变量用于区分冠心病人的变量用于区分冠心病人资料和正常人资料,即冠心病人资料的资料和正常人资料,即冠心病人资料的“组别组别”值均为值均为1,正常,正常人资料的人资料的“组别组别”值均为值均为2. Step2:选择选择“Analysis” “Classify” “Discriminant”命令,在命令,在“Discriminant Analysis”对话框中,选择对话框中,选择“组别组别”变量变量进入进入“Grouping Variable”文本框;单击文本框;单击“Define Range”按钮,按钮,在在“Minimum”文本框中输入文本框中输入1,在,在“Maximum”文本框中输入文本框中输入2,单击,单击“Continue”按钮,返回主对话框。按钮,返回主对话框。 Step3:选择变量选择变量“舒张压舒张压”和和“胆固醇胆固醇”移动到移动到“Independents”列表框中,本例选择列表框中,本例选择“Enterindependents together”判别方式作为判别分析的方法。判别方式作为判别分析的方法。2021/8/3139 Step4:单击单击“Statistics”按钮,在按钮,在“Descriptive”选项选项中选择中选择“Mean”;在;在“Function Coefficients”选择选择“Unstandardized”。单击。单击“Continue”按钮,返回主对话框。按钮,返回主对话框。 Step5:单击单击“Classify”按钮,在按钮,在“Plot”选项组中选择选项组中选择“Combined-groups”选项,在选项,在“Display”选项组中选择选项组中选择“Casewise result”和和“Summmary table”选项;单击选项;单击“Continue”按钮,返回主对话框。按钮,返回主对话框。 Step6:单击单击“Save”按钮,在弹出的对话框中选择按钮,在弹出的对话框中选择“Predicted group membership”选项,单击选项,单击“Continue”按钮,按钮,返回主对话框。返回主对话框。 Step7:单击单击“OK”按钮,执行判别分析操作。按钮,执行判别分析操作。2021/8/3140判别分析的结果判别分析的结果1、分析个案综合统计量、分析个案综合统计量表表1.2和表和表1.3所示为系统处理的数据简明表明中的数据,按变所示为系统处理的数据简明表明中的数据,按变量量“组别组别”分组共有分组共有31个样本为判别基础数据进入分析,其中第个样本为判别基础数据进入分析,其中第一组十五例,第二组十六例。一组十五例,第二组十六例。Analysis Case Processing SummaryUnweighted CasesNPercentValid31100.0ExcludedMissing or out-of-range group codes0.0 At least one missing discriminating variable0.0 Both missing or out-of-range group codes and at least one missing discriminating variable0.0 Total0.0Total31100.0表表1.2 分析个案综合统计量分析个案综合统计量2021/8/31412、分组统计量、分组统计量 表表1.3所示为分组统计量列表。表中给出分组变量和合计所示为分组统计量列表。表中给出分组变量和合计的均数(的均数(means)、标准差()、标准差(standard deviation)和有效)和有效个案的例数。个案的例数。Group Statistics 组别 MeanStd. DeviationValid N (listwise)UnweightedWeightedUnweightedWeighted1.00舒张压12.37941.649991616.00016.00015.000 15.00031.000 31.000胆固醇4.69311.29614162.00舒张压10.62671.1352815胆固醇3.7687.8502115Total舒张压11.53131.6599631胆固醇4.24581.1823131表表1.3 分组统计量分组统计量2021/8/31423、典型判别函数的特征函数的特征值表、典型判别函数的特征函数的特征值表 表表1.4所示是典型判别函数的特征值表,其特征(所示是典型判别函数的特征值表,其特征(Eigenvalue)为组间平方和与组内平方和之比,计算得)为组间平方和与组内平方和之比,计算得0.713,典,典型相关系数(型相关系数(Canonical Corr)为)为0.645。EigenvaluesFunctionEigenvalue% of VarianceCumulative %Canonical Correlation1.713(a)100.0100.0.645a First 1 canonical discriminate functions were used in the analysis.表表1.4 典型判别函数的特征值表典型判别函数的特征值表2021/8/31434、Wilks检验结果检验结果 表表1.5所示为典型判别分析的所示为典型判别分析的Wilks检验结果。其中检验结果。其中Wilks值为值为0.584,卡方检验统计量的观测值为,卡方检验统计量的观测值为15.071,概率,概率P值为值为0.001,小于,小于0.05。 Wilks LambdaTest of Function(s)Wilks LambdaChi-squaredfSig.1.58415.0712.001表表1.5 Wilks 检验检验2021/8/31445、标准化典型判别函数系数、标准化典型判别函数系数表表1.6给出典型判别函数的系数,其标准化函数为:给出典型判别函数的系数,其标准化函数为:根据判别函数方程的标准化系数,确定各变量对结果的作用大根据判别函数方程的标准化系数,确定各变量对结果的作用大小,本例舒张压的标准化系数为小,本例舒张压的标准化系数为0.873,大于胆固醇的标准化,大于胆固醇的标准化系数系数0.669,因而舒张压对冠心病的影响作用大于胆固醇。,因而舒张压对冠心病的影响作用大于胆固醇。Standardized Canonical Discriminant Function Coefficients Function 1舒张压舒张压.873胆固醇胆固醇.669表表1.6 标准化典型判别函数系数标准化典型判别函数系数2021/8/31456、典型判别函数系数、典型判别函数系数 表所示为典型判别函数的系数,其典型函数为:表所示为典型判别函数的系数,其典型函数为:Canonical Discriminant Function Coefficients Function 1舒张压.613胆固醇.606(Constant)-9.638Unstandardized coefficients表表1.7典型判别函数系数典型判别函数系数2021/8/31467、分类过程摘要、分类过程摘要 表表1.8分类过程摘要,显示参与分类的个案例数和剔除例数分类过程摘要,显示参与分类的个案例数和剔除例数Classification Processing SummaryProcessed31ExcludedMissing or out-of-range group codes0 At least one missing discriminating variable0Used in Output31表表1.8分类过程摘要分类过程摘要2021/8/3147 8、个案统计量表、个案统计量表 表表1.9所示为原始数据逐一回代的判别结果和预测分类的结所示为原始数据逐一回代的判别结果和预测分类的结果显示,其中病人组有果显示,其中病人组有3人被错判(标注人被错判(标注*者,编号为者,编号为1,6,7)正常人组有)正常人组有3人被错判(标注人被错判(标注*者,者,16,17,18)2021/8/31489、分类结果、分类结果 表表1.10给出分类结果。最后系统对回代判别情况做出评价,给出分类结果。最后系统对回代判别情况做出评价,即病人组正确率为即病人组正确率为75.0%。正常人组为。正常人组为86.7%,总判别正确率,总判别正确率为为80.65%,说明该判别函数的正确率还是较高的。,说明该判别函数的正确率还是较高的。Classification Results(a) 组别组别Predicted Group MembershipTotal 1.002.001.00OriginalCount1.0012416 2.0021315 %1.0075.025.0100.0 2.0013.386.7100.0a 80.6% of original grouped cases correctly classified.表表1.10 分类结果分类结果2021/8/3149 例例2、某气象站预报某地区有无春旱的观测资料中,、某气象站预报某地区有无春旱的观测资料中, 与与 是与气象有关的综合预报因子,数据包括发生春旱的是与气象有关的综合预报因子,数据包括发生春旱的6个年个年份的份的 和和 的观测值和无春旱的的观测值和无春旱的8个年份的相应观测值(见个年份的相应观测值(见下表),试建立距离判别函数并估计误判率。下表),试建立距离判别函数并估计误判率。G1(春旱春旱)G2(无春旱)(无春旱)序号序号x1x2序号序号x1x2124.8-2.0122.1-0.7224.7-2.4221.6-1.4326.6-3.0322.0-0.8423.5-1.9422.8-1.6525.5-2.1522.7-1.5627.4-3.1621.5-1.0722.1-1.2821.4-1.3某地区有无春旱观测数据某地区有无春旱观测数据2021/8/3150 例例3、1991年全国大陆个省市、自治区城镇居民月平均收年全国大陆个省市、自治区城镇居民月平均收入情况入情况见表见表,考察下列指标:(元,考察下列指标:(元/人)人) X1:人均生活费收入;:人均生活费收入; X2:人均全民所有制职工工资;:人均全民所有制职工工资; X3:人均来源于全民标准工资;:人均来源于全民标准工资; X4:人均集体所有制工资;:人均集体所有制工资; X5:人均集体职工标准工资:人均集体职工标准工资 X6:人均各种奖金及超额工资;:人均各种奖金及超额工资; X7:人均各种紧贴;:人均各种紧贴; X8:职工人均从工作单位得到的其他收入;:职工人均从工作单位得到的其他收入; X9:个体劳动者收入:个体劳动者收入 试判定广东和西藏属于哪种收入类型,并确定回代误判概试判定广东和西藏属于哪种收入类型,并确定回代误判概率与交叉误判概率。率与交叉误判概率。2021/8/3151部分资料从网络收集整理而来,供大家参考,感谢您的关注!
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号