资源预览内容
第1页 / 共57页
第2页 / 共57页
第3页 / 共57页
第4页 / 共57页
第5页 / 共57页
第6页 / 共57页
第7页 / 共57页
第8页 / 共57页
第9页 / 共57页
第10页 / 共57页
亲,该文档总共57页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
数据挖掘陈靖宇 广东工业大学 2007第十七讲 SPSS Clementine 应用关联规则 AprioriSPSS Clementine 基本介绍Clementine是个可视化的程序设计,他是为了执行数据 探勘,而在数据探勘的工作中鼠标扮演一个很重要的角 色。 接下来针对接口做个基本介绍SPSS Clementine介绍开始程序集Clementine 7.2SPSS Clementine介绍串流工作区模型管理区项目管理区SPSS Clementine介绍工具列节点调色盘 节点选单SPSS Clementine介绍档案让使用者可以建立、开启并储存Clementine串流,串流也可以在此打 印 编辑使用者可以执行编辑的动作,例如:复制/贴上插入让使用者可以插入节点,替代从调色板中拖拉节点检视让使用者可以开关隐藏与显示项目(EX工具列、项目窗口)工具让使用者操作Clementine的工作环境并提共指令码编写功能超级节 点此选项只有当超级节点被放大时才可使用窗口让使用者可以关闭相关的窗口说明协助使用者获得不同主题的协助SPSS Clementine介绍点选资料来源数据来源的方式:数据库、变量档案、固定档案、SPSS、SAS、使用者输入SPSS Clementine介绍数据列处理数据列处理方法:选取、样本、平衡、整合、排序、合并、附加、明确SPSS Clementine介绍数据处理字段数据处理字段方式:类型、过滤器、导出、填入器、设成旗标、历史SPSS Clementine介绍图表分为:绘图、分布、直方图、收集、多重绘图、关联网、评估图表SPSS Clementine介绍建模建模包含:类神经网络、C5.0、C&RT、APRIORI、序列。SPSS Clementine介绍输出输出分为:表格、分析、矩阵、报告。SPSS Clementine介绍左 键用来选择图 像或节 点到串流工作区的位 置。右 键产生跳出选单让 使 用者可以编辑 、重 新命名、删除节点 。中 间用来连结 两个节点 并修改这些节点。用左键拉出节点点节点按右键用中间按钮连结节点SPSS Clementine介绍Apriori关联规则介绍Apriori关联规则介绍o当客户购买了冷冻食品,会不会也购买啤酒?或 是零食?o当客户购买了人寿险,会不会也购买意外险?与 医疗险呢?oApriori 就可以引导规则的产生。Apriori关联规则介绍从资料来源节点选单区选取变量档案(原始文件为文字文 件)Apriori关联规则介绍点取节点按右键编辑,出 现此画面Apriori关联规则介绍在档案路径那选择要使用的档案Apriori关联规则介绍选取好档案路径会在此显现但要记得选取索引卷标Apriori关联规则介绍如果没有选取索引卷标,读出来的数据会变成这样 ,资料都连在一起。Apriori关联规则介绍记得勾选索引卷标Apriori关联规则介绍有勾选索引卷标,资料就会依表格排列不会全连在一起Apriori关联规则介绍更改数据型态,在此把原本 的整数型态更改为字符串Apriori关联规则介绍过滤器是用来删除一些使用者 不想探勘的节点Apriori关联规则介绍字段类型定义范围用来描述数值型数据 (0.52.3)不连 续离散的文字数值数目未知 时使用(EX利用于表示客 户意见1/2/3/4/5) 旗标用来描述数据含有两个相 异的数值(T/F)集合描述数据内含有多个相异 的数值(大/中/小)无类 型没有符合上面的类型就用 无类型Apriori关联规则介绍将字段类型由不连续改成为旗标Apriori关联规则介绍字段输入输出方向输入表示此字段将会被当作模型技术中的输 入变量或是预测变 量(以此数值当作基础 ) 输出字段被当作模型技术中的输入变量或是 目标变量(被预测的字段) 两者此项只适合Apriori、GRI与序列关联节点 ,他让字段可以当作输入或输出变量 无表示此字段不会被纳入建模中Apriori关联规则介绍字段输入输出的方向也由 原本的输入更改为两者Apriori关联规则介绍数据一切准备完成后,就按下读取数值 与确定,将原始资料读入Apriori关联规则介绍数据就会读入到字段里(切记!一 定要按读取数值不然之后的动作 都会产生错误喔)Apriori关联规则介绍如果使用者觉得字段还没更改到满意的状态, 可以使用数据域位处理类型继续更改Apriori关联规则介绍同理,使用者在操作过程中突然发现属 性有多余时,也可以利用数据域位处理 过滤器删除多余的属性Apriori关联规则介绍接下来我们使用数据列处理样本来 选取样本,按下编辑即可选取样本Apriori关联规则介绍由于整笔数据只有700多笔 ,所以我们利用350笔当作 训练资料在众数纳入样本 最大样本尺寸350 样本第一 按下确定即可Apriori关联规则介绍以上前置作业已经完成,我们选取 建模Apriori进行关联规则Apriori关联规则介绍联机后,软件就会根据我们之前 设定的10项字段进行关联规则当然我们还是可以编辑他的最小规 则支持与最小规则置信度来找出最 佳的条件Apriori关联规则介绍根据预设,Apriori会产生支援度下限为10%,置信度下限为 80%的规则可调整(值太高会产生不了规则,值太低产生太多 规则);而最大前项数目则是设定一个规则中最多有几个前项Apriori关联规则介绍按下执行后Apriori关联规则介绍就会产生一个未 精炼的节点在模 型管理区Apriori关联规则介绍利用节点右键的浏览, 就会显示左边的表格利用表格上的%按钮,就可以 显示出支援度与置信度Apriori关联规则介绍例项支援度置信度后项前项1前项2 3610.380.6Ready madeTinned goodsMilk表示10.3%的客户(在资料中为36笔)同时购买罐头食品和 牛奶。在36人中,80.6%的人又买了Ready madeApriori关联规则介绍Apriori算法找到了16条规则,而规则可以依使用者的 需求选择排序方式,而排序方式可以选择递增/递减Apriori关联规则介绍当置信度调低时,规则就会变多当置信度提高,则规则 就变少了Apriori关联规则介绍接下来我们来建立规则集(产生规则集)Apriori关联规则介绍所以我们针对Alcohol字段建立一个规则集 而目标字段会显示出纪录,是否有达到一个或一个以上 的条件 默认值(为了怕没有规则符合而造成错乱,我们预设他为 null) 规则设定也可以更改最小支援与最小置信度Apriori关联规则介绍按下确定,就会产生精 炼的节点Apriori关联规则介绍展开精炼的节点他产生的规则 ,按下%即可显示该规则的例 项(35)和置信度(80%)Apriori关联规则介绍找出节点时,我们来看看他的规则集符不符合? 所以我们利用原始资料精炼节点表格执行Apriori关联规则介绍这个表格产生出两个新的字段 第一个$A-Alcohol,这个表格可以告诉我们若是数据中没 有符合这一条规则时会显示NULL(我们之前预设的)但是若 是有符合的话就会呈现1。 第二个字段$AC-Alcohol代表对于规则所决定的信心值。 若规则不适用于某笔资料时,信心值是0.5Apriori关联规则介绍由于前面已经用训练资料找出精炼 节点,所以我们来测试看看他的精 准度,利用原本数据的另外350笔资 料来做测试(选取样本舍弃样本, 避免训练数据与测试数据重复)Apriori关联规则介绍选取要探勘的规则,点选 产生选取节点Apriori关联规则介绍就会产生一个已产生的节点Apriori关联规则介绍连结好所有的节点包含之 前产生的精炼节点,在点 选输出分析,来分析资 料的可信度Apriori关联规则介绍我们可以看见,这个精炼出来的节点他的正 确率占72.97%而他的错误率占27.03%Apriori关联规则介绍o以上DEMO n 针对如何利用Apriori产生关联规则 n 如何浏览未精炼节点 n 了解规则置信度跟支持度 n 根据不同标准将规则排序 n 建立规则集,并找出与后项有关的纪录 n 以及精炼节点的正确率 n 接下来来实际操作给大家看THE END谢谢大家的聆听!
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号