资源预览内容
第1页 / 共49页
第2页 / 共49页
第3页 / 共49页
第4页 / 共49页
第5页 / 共49页
第6页 / 共49页
第7页 / 共49页
第8页 / 共49页
第9页 / 共49页
第10页 / 共49页
亲,该文档总共49页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第十三讲 判别分析n第一部分 上一讲回顾n第二部分 判别分析概念n第三部分 判别分析的SPSS过程1、聚类分析的概念 2、距离概念 3、聚类分析SPSS过程 4、冰挂图和树形图第一部分 上一讲回顾1、聚类分析概念聚类分析是根据事物本身的特性研究个体 分类的方法,原则是同一类中的个体有 较大的相似性,不同类中的个体差异很 大。n根据分类对象的不同, 、分为样品(观测量)聚类 、变量聚类两种2、距离概念 (样本点间距离的计算方法)Euclidean距离Squared Euclidean距离Block距离Chebychev距离Minkovski距离n在对变量进行分类时,度量变量之间的相似 性常用相似系数,测度方法有相似性的度量 (变量相似系数的计算方法)夹夹角余弦 Pearson相关系数 类间距离的计算方法最短距离法 (Nearest neighbor) 最长长距离法 (Furthest neighbor) 重心法 (Centroid clustering) 组间组间 平均距离 (Between-groups linkage) 离差平方和法 (Wards method)第三部分 聚类分析的SPSS过程n在AnalyzeClassify下: 1、快速聚类(K-Means Cluster): 观测量 快速聚类分析过程。 2、分层聚类(Hierarchical Cluster):分 层聚类(进行观测量聚类和变量聚类的过 程。快速聚类过程(Quick Cluster)使用 k 均值分类法对观测量进行 聚类。可使用系统的默认选项或自己 设置选项,如分为几类、指定初始类 中心、是否将聚类结果或中间数据数 据存入数据文件等。nAnalyzeClassifyK-Means Cluster分层聚类 (Hierarchical Cluster)过程n分层聚类又称系统聚类:是指事先不确定要分多少类,而是先把每一个 对象作为一类,然后一层一层进行分类n分层聚类方法:n分解法:先视为一大类,再分成几类n凝聚法:先视每个为一类,再合并为几大类冰挂图n如何观察冰挂图: 从最后一行开始,当聚成4类时,3、4个案聚成一类, 其他个案自成一类; 当聚成3类时,3、4个案,1、2个案聚成一类,个案五 自成一类; 当聚成2类时,1、2个案聚成一类,其余个案聚成一类树形图n树形图以水平放置的树形结构呈现了聚类分析 中每一次类合并的情况。SPSS自动将各类间 的距离映射到025之间。如何看?那个更直观 ?小结除分层聚类法和K-均值聚类法外,1996 年还提出一种新的聚类方法,即两步聚类法 (TwoStep Cluster) 无论那种分类方法,最终要分成多少类别 ,并不是完全由方法本身来决定,研究者应结 合具体问题而定。聚类分析是一种探索性的数据分析方法。 相同的数据采用不同的分类方法,也会的得到 不同的分类结果。分类的结果没有对错之分, 只是分类标准不同而已 。使用聚类方法时,首先要明确分类的 目的,再考虑选择哪些变量(或数据)参与分 类,最后才需要考虑方法的选择。至于分类 结果是否合理,该如何解释,更多取决于研 究者对所研究问题的了解程度、相关的背景 知识和经验。从数据要求上看n1、参与分类的变量首先应符合要求n2、各变量的取值不应有数量级上的过大差异,否 则会对分类结果产生较大影响。这时需要对变量 进行标准化处理(SPSS提供的层次聚类法中在聚类 时可以选择对变量做标准化处理,而K-均值聚类 法则需要单独做标准化处理,而后再进行聚类)n3、各变量间不应有较强的相关关系。若两个强相 关的变量同时参与聚类分析,在测度距离时,就 加大了它们的贡献,而其他变量则相对被削弱从聚类方法的选择上n1、看数据的类型,如果参与分类的变量是连续变 量,层次聚类法、K-均值聚类法、以及两步聚类 法都是适用的。如果变量中包括离散变量(计数变 量),则需要将先对离散变量进行连续化处理。当 数据量较少时(比如小于100),两种方法都可以选 用,当数据量较多时(比如大于1000),则应该考虑 选用K-均值聚类法n2、要看分类的对象。如果是对样本分类,两种方 法都可用;如果是对变量分类则应选择层次聚类 法(至少SPSS的程序是这样) 注意对分类结果的检验分类结果是否合理取决于它是否“ 有用”,但分类结果是否可靠和稳定, 则需要反复聚类和比较。一般来说,在所分的类别中,各 类所包含的对象(样本或变量)的数量应 该大致相当。至少这从表面上看更漂亮 一些。问题1、什么时候用快速聚类? 2、什么时候用分层聚类?第二部分 判别分析概念有一些昆虫的性别很难看出,只有通过解 剖才能够判别;但是雄性和雌性昆虫在若干体 表度量上有些综合的差异。于是统计学家就根 据已知雌雄的昆虫体表度量(这些用作度量的 变量亦称为预测变量)得到一个标准,并且利 用这个标准来判别其他未知性别的昆虫。这样的判别虽然不能保证百分之百准确, 但至少大部分判别都是对的,而且用不着杀死 昆虫来进行判别了。判别分析(discriminant analysis)n这就是本次课要讲的是判别分析。判别分析 和前面的聚类分析有什么不同呢?主要不同点就是:在聚类分析中一般人 们事先并不知道或一定要明确应该分成几类 ,完全根据数据来确定。而在判别分析中,至少有一个已经明确 知道类别的“训练样本”,利用这个数据,就 可以建立判别准则,并通过预测变量来为未 知类别的观测值进行判别了。判别的思想 n判别分析:根据一批分类明确 的样本在若干指标上的观察值 ,建立一个关于指标的判别函 数和判别准则,然后根据这个 判别函数和判别准则对新的样 本进行分类,并且根据回代判 别的准确率评估它的实用性。n判别函数(discriminant function):指的是 一个关于指标变量的函数。每一个样本在 指标变量上的观察值代入判别函数后可以 得到一个确定的函数值。n判别准则(discriminant rule):对样本的判 别函数值进行分类的法则。判别分析的内容n建立判别准则:建立判别函数:其原则是,将所有样本按其判 别函数值的大小和事先规定的判别原则分到不 同的组里后,能使得分组结果与原样本归属最 吻合。回代样本:即计算出每一个样本的判别函数值 ,并根据判别准则将样本归类。估计回代的错误率:即比较新的分组结果和原 分组结果的差别,并以此确定判别函数的效能 ;判别新的样本:如果判别函数效能较高,可用 以对新样本进行归类判别。1、建立判别函数n假定在两类总体A和B中各选取m和n个个 案,每一个个案所对应的变量值都是k个 。从而得到两个分布:A总体中的第i个个案的第j个变量为:B总体中的第i个个案的第j个变量为:需要建立一个线性判别函数: D=Ck+1+C1X1+C2X2+CkXk使等式右边的各个系数Ci确定后,对于来自A总体个案的函数值都大于零,B总体的个案的函数值都小于零。从而将一个个案代入判别函数D就可以根据其值确定其所属的类别。 具体方法为待定系数法将A、B两个总体的全部个案观测值代入方程,并求其 平均值和离差平方和。 求F值,当F取极大值的时候,将表示有组间差异最大 ,组内差异最小。因此可以通过令F的一阶偏导数等 于零。 得到k个关于Ci的线性方程组,方程组的解就是判别函 数的各个系数。对于任意个案代入函数中,当D的数值大于0,则 该个案隶属于A总体。当D的数值小于0,则该个案隶 属于B总体。如果D等于0,则待判。2、判别方法SPSS系统提供的判别方法有马氏距离判别法、 贝叶斯概率判别法以及费氏多类判别模型法。n马氏(Mahalamobis)距离判别法马氏距离判别法的思想就是建立马氏距离,当 被判断个案距离哪个总体中的马氏距离最小,该个 案就隶属于这个总体。假定有A、B两个总体,则: XA 若d(x,A)d(x,B) 待判 若d(x,A)=d(x,B)贝叶斯(Bayes)概率判别法贝叶斯概率判别法是根据被判断个案应当归属 于出现概率最大的总体或者归属于错判概率最小的 总体的原则进行判别的。出现概率最大的总体指在全部N个个案中,属 于各个不同总体的个案数分别为:n1、n2、n3,则 各自的概率可以简单计算为:P(Gi)为先验概率。被判断的个案属于先验 概率最大总体的概率应当高一些。先验概率反映了 样本分布的总体趋向特性。当不能确定一个个案属 于若干个总体中的哪一个时,归属大概率总体的概 率显然会比归属小概率总体的概率高。另外,考虑到某些个案的特殊性,还应当具体 分析各个个案的趋向特性。因为个案趋向于各个总 体的概率可能不同。例如:对儿童某行为应隶属于心理发展问题的概率远远超过 隶属于生理发育问题的概率,即使样本数量很大时也基本如 此,则将该行为判断为心理问题的正确性就大。n当假定某个案归属某一个总体i时,由其判别函数得到的可能 概率为P(DGi)。则该个案被判定属于总体i时的概率为: P(GiD)也称为后验概率,其对于不同总体的概率将决定判别的结果。 费氏(Fisher)多类判别模型法费氏多类判别模型法的实质为一种通过坐标变换的方式将个案类别进行划分的方法。当个案数据 点的分布在原有的变量空间无法通过变量的取值来 区分时,坐标变换将数据点投影到另一个坐标系, 在新的坐标系中个案的不同水平差异显著,用一元 方差分析的检验手段就可以将不同种类区分开来了 。即按照类间离差平方和最大同类内离差平方和最 小的原则,使二者之比取最大来确定判别函数的系 数。第三部分 判别分析的SPSS过程n在AnalyzeClassify下: 判别分析(Discriminant): 判别分析过程 。n使用判别分析的选择项:n统计量选项:Statistics选项n判别分类选项:Classify选项n判别方法选择项:Method选项n输出数据选择项:Save选项实例n为研究舒张期血压和血浆胆固醇对冠心病的作用 ,某医师测定了5059岁冠心病人15例和正常人16 例的舒张压和胆固醇指标,结果如下所示。试做 判别分析,建立判别分析,建立判别函数一边在 临床中用于筛选惯性病人。冠心病人组组 正常人组组 编编号舒张张 压压胆固醇编编号舒张压张压胆固醇 19.865.18110.662.07 213.333.73212.534.45 314.663.89313.333.06 n步骤一:录入数据,打开分析菜单,选择 AnalyzeClassify Discriminant(判别 分析)步骤二:选择组别变量步骤三:选择变量1、当认为所有自 变量都能对观测量 特性提供丰富的信 息时,使用该选项 。不加选择地使用 是所有自变量进行 判别分析2、逐步分析方 法。选择该选 项“Method”将 被激活Statistics选项1、均值 2、单变量方 差分析 3、对个类的 协方差矩阵 相等的假设 进行检验判别函数系数 1、可以直接用于对新样本进行判别分类的费氏系数,并给出 一组系数,确定组中判别分数最大的观测量。 2、未经标准化处理的判别系数矩阵选项 1、类内相关 矩阵 2、合并类内 协方差矩阵 3、协方差矩 阵 4、总样本的 协方差矩阵判别分类选项选择先验概率 1、各类先验概率 相等; 2、各类的先验概 率与其样本量成正 比。选择生成到输出窗口 的分类结果 1、输出每个观测量; 2、输出分类的综述表 ; 3、输出对每个观测量 进行分析的结果协方差矩阵 1、指定使用合并 组内协方差矩阵进 行分类; 2、指定使用各组 协方差矩阵进行分 类输出统计图形 1、生成一张包括 各类的散点图,该 散点图是根据前两 个判别函数值做得 散点图; 2、根据前两个判 别函数值对每一类 生成一张散点图, 分几类生成几张; 3、生成用于根据 函数值把观测量分 到各组中去的边界 图。SAVE选项1、建立一个新变 量预测观测量的分 类,根据判别分数 把观测量按后验概 率最大指派所属的 类; 2、要求建立表明 判别分数的新变量 ,该分数是未标准 化的
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号