资源预览内容
第1页 / 共25页
第2页 / 共25页
第3页 / 共25页
第4页 / 共25页
第5页 / 共25页
第6页 / 共25页
第7页 / 共25页
第8页 / 共25页
第9页 / 共25页
第10页 / 共25页
亲,该文档总共25页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组判别分析解明明Stillwatersrundeep.流静水深流静水深,人静心深人静心深Wherethereislife,thereishope。有生命必有希望。有生命必有希望统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组主要内容主要内容判别分析介绍判别分析介绍Fisher判别判别Bayes判别判别逐步判别逐步判别案例分析案例分析统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组判别分析介绍判别分析介绍判别分析是指对分类因变量的建模,依据是因变量与一个或多个解释变量的关系。主要目的是识别一个个体所属的类别。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组模型的假设模型的假设判别分析模型有如下的假设: l如果假设满足,尤其是在样本量比较小的情况下,Clementine能给出更好的结果。 解释变量间不存在多重共线性。解释变量间不存在多重共线性。 对于一个解释变量其均值和方差不相关。对于一个解释变量其均值和方差不相关。 在不同组间两个变量的相关系数是不变的。在不同组间两个变量的相关系数是不变的。 每一个解释变量的值服从正态分布。每一个解释变量的值服从正态分布。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组Fisher判别Fisher判别的思想是投影,将 k组p维数投影到某一个方向,使得他们的投影组与组之间尽可能的分开。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组Bayes判别Bayes判别的统计思想是:假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的知识(先验概率分布),得到后验概率分布,各种统计推断都通过后验概率分布来进行。将这种思想用于判别分析,就得到贝页斯判别。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组案例分析假设有一个电信供应商已经根据客户业假设有一个电信供应商已经根据客户业务的使用情况将他们分为了四个组别。务的使用情况将他们分为了四个组别。如果人口统计学数据可以用来预测客户如果人口统计学数据可以用来预测客户的组别的话,我们就可以为潜在的客户的组别的话,我们就可以为潜在的客户定制用户化的服务。定制用户化的服务。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组这四个组别分别为这四个组别分别为:统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组双击来源选项板(双击来源选项板(SourcesSources)中的)中的SPSSSPSS节节点,数据流区域即可出现点,数据流区域即可出现SPSSSPSS节点节点。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组数据流区域(数据流区域(Stream canvasStream canvas)中双击)中双击SPSSSPSS节点,在节点,在Import File Import File 中选择我们中选择我们所要分析的数据。所要分析的数据。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组在 收 藏 夹(F avorites)选项板或字段操作选项板( F i e l d ops)中双击类型( Type)节 点 ,来 检 查是否所有的变量的类型都被正 确 的 定 义 。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组由于由于custcatcustcat是我们要预测的变量,在方是我们要预测的变量,在方向(向(directiondirection)里我们选为输出()里我们选为输出(outout)统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组由 于 本 案 例关 注 的 是 人口 统 计 学 变量 , 所 以 我们 增 加 一 个过滤(F ilter)节 点 , 单 击A nnotations将 其 重 命 名 。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组根据分析目的,我 们 只 选 择region, age, m a r i t a l , a d d r e s s , in co m e, ed , e m p l o y , r e t i r e , g e n d e r , r e s i d e和 custcat 这几个变量。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组从 模 型 选 项(M odeling) 加 入 判 别分析(dicrim inan t ) 的 节 点 。并在A nnotations中 改 名 为 “判 别 分 析 ”。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组在 判 别 分 析中 点 模 型 键(M odel ) ,并 在 方 法(M ethod)中 选 逐 步 判别(stepw ise)。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组在 专 家(E xpert) 键 中 ,选择E xpert, 单击 输 出(output) , 选 择如 左 图 所示 的 选 项 。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组选择执行(选择执行(ExecuteExecute)后,在右上角点)后,在右上角点Models,Models,双击双击custatcustat,在数据流区域变出,在数据流区域变出现改节点,双击改节点便可以查看结果。现改节点,双击改节点便可以查看结果。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组这张表格展示了逐步判别中每次进入分析的变量,可见最后模型只选择了3个变量。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组逐步判别可以自动帮我们选择变量。但逐步判别可以自动帮我们选择变量。但是如果我们对于数据有一定的经验知道是如果我们对于数据有一定的经验知道哪些变量是重要的,选择逐步判别就是哪些变量是重要的,选择逐步判别就是很不明智的,因为这样选出来的变量可很不明智的,因为这样选出来的变量可能除了统计意义外,没有任何的实际意能除了统计意义外,没有任何的实际意义。义。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组由右边第一张表可见前两个线性判别函数可以解释大部分的变异第二张表是四个组标准化后均 值 的 位 置 。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组右表为标右表为标准化的典准化的典型判别函型判别函数的系数。数的系数。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组右图是右图是输出的输出的领域图。领域图。它给出它给出了预测了预测变量和变量和组别间组别间的关系。的关系。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组右图是右图是结果,结果,可见模可见模型要比型要比随便猜随便猜的结果的结果好。好。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组参考文献参考文献Clementine 帮助帮助多元统计分析多元统计分析 何晓群何晓群 中国人民大学出版中国人民大学出版社社
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号