数据挖掘原理与SPSS Clementine应用第24章 SPSSClementine典型案例分析-

数据挖掘原理与数据挖掘原理与SPSS Clementine应用宝典应用宝典元昌安元昌安主编主编邓松李文敬刘海涛编著邓松李文敬刘海涛编著电子工业出版社电子工业出版社第第24章章 SPSS Clementine典型案例分析典型案例分析本章包括：本章包括：市场购物篮分析市场购物篮分析利用决策树模型挖掘商业信息利用决策树模型挖掘商业信息利用神经网络对数据进行欺诈探测利用神经网络对数据进行欺诈探测24.1市场购物篮分析本节的例子采用Clementine系统自带的数据集BASKETS1n。该数据集是超市的“购物篮”（一次购物内容的集合）数据和购买者个人的背景数据，目标是发现购买物品之间的关联分析。 24.1.1 定义数据源定义数据源24.1.2 理解数据理解数据在建模之前，我们需要了解数据集中都有哪些字段，这些字段如何分布，它们之间是否隐含着某种相关性等信息。只有了解这些信息后才能决定使用哪些字段，应用何种挖掘算法和算法参数。这个过程就是一个理解数据的过程。 24.1.3 准备数据准备数据在这在这18个字段中，有一些对于挖掘知识来说个字段中，有一些对于挖掘知识来说是没有用的，如是没有用的，如cardid等，这时我们就可以等，这时我们就可以把这些暂时没有用到的字段剔除出挖掘过程。把这些暂时没有用到的字段剔除出挖掘过程。这样可以节约挖掘时间和效率。这样可以节约挖掘时间和效率。24.1.4 建模建模对字段设置完毕之后，下一步就是选择挖掘所需要的模型，在这里我们会选择使用三种不同的模型来挖掘该数据集。 1. “Apriori”模型节点2.GRI模型 3.“网络”节点24.2 利用决策树模型挖掘商业信息利用决策树模型挖掘商业信息过程如下 :Step1：添加一个“变项文件”节点。Step2:加入一个“导出”节点。 Step3:对“导出”节点进行设置。 Step4:加入“Healthfood”字段之后，在“导出”节点后再加入一个“类型”节点，用来选择哪些字段用来进行数据挖掘。根据挖掘的目标，可以设置个人信息为“输入”，“Healthfood”设置为“输出” Step5:加入 “C5.0”节点。Step6:点选“执行（E）” Step7:从“查看器”中查看该结果输出类型除了选用“决策树”之外，还可以选择“规则集”来显示结果。用“规则集”表示的结果很多时候比“决策树”更加直观、易懂。一般生成的决策树都是经过剪枝的。下面看看剪枝程度的高低对挖掘结果的影响。选中“模式”中的“专家”，把“修剪严重性”的值改为“0”，这意味着在挖掘过程中，进行的剪枝程度将很小。模型名称改为“nocut”。选择“执行（E）”。在右面管理器窗口中选中“模型（S）”，在“nocut”上右击，选择“浏览（B）”，查看生成模型结果。利用剪枝程度较高的决策树、剪枝程度低的决策树、规则集生成的结果，可以通过Clementine系统提供的很多模型来进行精度测试。在这儿选用“分析”节点。生成的结果显示剪枝程度高的模型正确率为93.8 。同样的原理，测试“nocut” 。剪枝程度低的精度为94.7。24.3 利用神经网络对数据进行欺诈探测利用神经网络对数据进行欺诈探测背景是关于农业发展贷款的申请。使用虚构的数据来说明如何使用神经网络来检测偏离常态的行为，重点为标识那些异常和需要更深一步调查的记录。要解决的问题是找出那些就农场类型和大小来说申请贷款过多的农场主。24.3.1 定义数据源定义数据源使用一个“变项文件”节点连接到数据集grantfraudN.db。在“变项文件”节点之后增加一个“类型”节点到数据流中。 24.3.2 理解数据理解数据在建模之前，需要了解数据集中都有哪些字段，这些字段如何分布，它们之间是否隐含着某种相关性等信息。只有了解这些信息后才能决定使用哪些字段，应用何种挖掘算法和算法参数。这个过程就是一个理解数据的过程。 24.3.3 准备数据准备数据首先考虑数据集中可能存在的欺诈类型。在该数据流中连接一个“条形图”节点并选定字段名为“name”的字段。选中“name”字段之后，点击“执行” 。在数据流区域中添加一个“选择”节点，对该节点进行设置。以农场大小、主要作物类型、土壤质量等为自变量建立一个回归模型来估计一个农场的收入是多少。为了发现那些偏离估计值的农场，先生成一个字段diff，代表估计值与实际值偏离的百分数。在数据流中再增加一个“导出”节点进行设置。在数据流中增加一个“直方图”节点。对“直方图”节点进行设置。24.3.4 建模建模将一个“类型”节点添加到当前数据流中。对数据集中的数据进行设置。在数据流上添加一个“神经网络”节点。执行此数据流。神经网络经过训练后，会产生一个模型。将产生的模型加入到数据流流中。然后在数据流中再增加一个“散点图”节点，对“散点图”节点进行设置。设置完成之后，执行。进行深一步的分析。在该数据流中增加一个“导出”节点，对该节点进行设置。为了说明真实值和估计值之间的差距，可以参考claimdiff的直方图。主要对那些由神经网络得出的申请超出预期的人感兴趣。在数据流中再添加一个“直方图”节点。双击打开该节点，在“字段”下拉列表中选择“claimdiff”，单击“执行（E）” 。增加一个分割带到直方图中，右击带区生成一个选择节点，进一步查看那些claimdiff值较大的数据。最后，在数据流中增加一个“条形图”节点。双击该节点，在“字段”下拉列表中选择“name”字段，点击“执行（E）”，得出结果如图所示。在图中所显示的就是我们要重点关注的数据。24.4小结小结本章通过使用Apriori模型、GRI模型、可视化网络图、决策树、神经网络等来说明如何使用Clementine在数据库中发现知识。Clementine系统中提供了很多种模型，对于这些模型的使用，要考虑到实际情况来酌情进行使用。本章所展示的只是Clementine系统的一部分应用。随着社会的不断发展，数据库技术的不断进步。Clementine将会越来越多的被重视、使用。