资源预览内容
第1页 / 共73页
第2页 / 共73页
第3页 / 共73页
第4页 / 共73页
第5页 / 共73页
第6页 / 共73页
第7页 / 共73页
第8页 / 共73页
第9页 / 共73页
第10页 / 共73页
亲,该文档总共73页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
Copyright 2003, SAS Institute Inc. All rights reserved.应用SAS/EM进行 数据挖掘2003-04-16 赛仕软件研究所(上海)有限公司Copyright 2003, SAS Institute Inc. All rights reserved.议程数据挖掘概述 SAS数据挖掘项目方法论及工具SAS/EM简介 WorkshopCopyright 2003, SAS Institute Inc. All rights reserved.企业决策支持信息系统OLTP数据仓库统计分析 数据挖掘决策支持企业知识DW SolutionDM & Analysis SolutionApplication for C/S & B/SCBI Solution1st Qtr2nd Qtr3rd Qtr4th QtrPowerPlayFileEditDataValuesDisplayTextLegendLocation 1992 All Products Age groups Revenue($000)OLAP查询报表Copyright 2003, SAS Institute Inc. All rights reserved.什么是数据挖掘?定义: 从海量的数据库中选择、探索、识别出 有效的、新颖的、具有潜在效用的乃至 最终可理解的模式以获取商业利益的非 平凡的过程 -Fayyad,Piatetsky-Shapiro 特征: 处理海量的数据; 揭示企业运作中的内在规律; 为企业运作提供直接决策分析,并为企 业带来巨大经济效益。Copyright 2003, SAS Institute Inc. All rights reserved.待分析 数据数据 仓库处理后 数据模式模式变换后 数据知识知识Source :”From Data Mining to Knowledge Discovery: An Overview”, Advances in Knowledge Discovery and Data Mining, AAAI Press/The MIT Press.数据抽取数据预处理数据挖掘数据变换解释评价数据挖掘全过程Copyright 2003, SAS Institute Inc. All rights reserved.数据挖掘涉及领域神经计算数据库知识发现数据挖掘统计学模式 识别机器学习机器学习 人工 智能Copyright 2003, SAS Institute Inc. All rights reserved.数据挖掘算法(按有无目标变量)有监督算法有监督算法 无监督算法无监督算法( (有目标变量有目标变量) ) ( (无无目标变量目标变量) )传统回归传统回归 无无 神经网络神经网络 决策树决策树逻辑逻辑/ /概率回归概率回归 决策树决策树 聚类聚类 神经网络神经网络 神经网络神经网络 判别分析判别分析 基于记忆的推理基于记忆的推理决策树决策树 主成分分析主成分分析聚类聚类关联关联/ /序列序列分析分析 连接分析连接分析 因子分析因子分析预测预测分类分类探索探索关联关联Copyright 2003, SAS Institute Inc. All rights reserved. 预测用过去的数据预测 未来发生什么预测未来 发生的可能性历史数据预测算法- 神经元网络 - 决策树- 回归 描述 用过去的数据 描述 现在发生了什么描述现在 已经发生的规律历史数据描述算法 - 聚类- 关联数据挖掘算法(按分析目的)Copyright 2003, SAS Institute Inc. All rights reserved.回归算法:线性回归、逻辑回归、概率回归 统计方法:主成分分析、因子分析、判别分析 等 关联算法:关联模式、序列模式、连接分析等 聚类算法:Cluster、SOM/Kohonen 神经元网络:MLP、RBF 决策树:CHAID、CART、C4.5、C5.0数据挖掘算法Copyright 2003, SAS Institute Inc. All rights reserved.x20.00.20.40.60.81.0x10.0 0.2 0.4 0.6 0.8 1.0x20.00.20.40.60.81.0x10.0 0.2 0.4 0.6 0.8 1.0使用一元二次项使用简单线性 预测型 回归希望预测“绿点”在哪些情况下发生以及发生的概率数据挖掘常用算法Copyright 2003, SAS Institute Inc. All rights reserved.Time 0元距今天数 余额连续2次=0的时间距今天数 余额连续3次=0的时间距今天数 Frequency 余额=0元的次数 余额连续2次=0的次数 余额连续3次=0的次数 Copyright 2003, SAS Institute Inc. All rights reserved.Workshop(信用风险建模)业务问题 用于建模的数据 建模前的数据处理 建立预测模型 模型的评估 模型实施Copyright 2003, SAS Institute Inc. All rights reserved.数据挖掘与采样是否需要进行采样? 数据在采样前需要进行什么处理? 数据挖掘中所用到的一般采样类型。 如何决定样本大小? 数据挖掘中采样的指导策略。 对于某些特定的目的,如验证和测试,是否应该采用多 重采样?Copyright 2003, SAS Institute Inc. All rights reserved.针对小概率事件的过采样GoodBadCopyright 2003, SAS Institute Inc. All rights reserved.数据分割Copyright 2003, SAS Institute Inc. All rights reserved.Exploration 阶段通过探索去理解您的数据 显现您的数据 Insight Distribution Explorer Multiplot 使用Variable Selection工具发现最有影 响的变量- 降维Copyright 2003, SAS Institute Inc. All rights reserved.Distribution Explorer节点交叉报表 简单的汇总分析Copyright 2003, SAS Institute Inc. All rights reserved.Multiplot 节点为每个变量自动生成直方图。 同时标明每个变量对目标的影响。Copyright 2003, SAS Institute Inc. All rights reserved.Modify 阶段根据所用的模型进行数据调整 优化您的数据 极值,异常值 缺失值 变量转换建立新的变量改变分布的形状 定义最优的输入域 处理共线性Copyright 2003, SAS Institute Inc. All rights reserved.Replacement 节点 包括基于决策树逻辑的缺失值 处理。 为修正变量建立指示器Copyright 2003, SAS Institute Inc. All rights reserved.Transform Variables 节点提供各种变量转换,包括为了优化二元目标变量预测而对变量进行自动分装。Copyright 2003, SAS Institute Inc. All rights reserved.Variable Selection 节点根据目标变量快速确定输入变量 (“model screening”) 。描述它们拟合线型模型的框架 (regression/ANOVA)。单变量R-平方及相关检验。建立新的变量组 (AOV16) 与降低分类变量的类型。Copyright 2003, SAS Institute Inc. All rights reserved.Workshop(信用风险建模)业务问题 用于建模的数据 建模前的数据处理 建立预测模型 模型的评估 模型实施Copyright 2003, SAS Institute Inc. All rights reserved.建立预测模型回归,神经网络和决策树等。Good/Bad作为分析目标。结果: Bad的可能性(全部方法) 变量的重要性分析(回归,决策树) 规则分析(决策树)Copyright 2003, SAS Institute Inc. All rights reserved.EM回归节点Copyright 2003, SAS Institute Inc. All rights reserved.EM神经网络节点提供基本选项给 普通用户 “智能”设定其它 的复杂参数Copyright 2003, SAS Institute Inc. All rights reserved.EM决策树节点Copyright 2003, SAS Institute Inc. All rights reserved.Workshop(信用风险建模)业务问题 用于建模的数据 建模前的数据处理 建立预测模型 模型的评估 模型实施Copyright 2003, SAS Institute Inc. All rights reserved.Assessment 阶段Lift Charts(又叫 gains chart) 利润/损失图(Profit/Loss Charts) 投资效益比图(ROI) 诊断分类图 ROC Charts 各种基于临界值的图形(Threshold-based Charts)。Copyright 2003, SAS Institute Inc. All rights reserved.Assessment 节点Copyright 2003, SAS Institute Inc. All rights reserved.结果的鉴别好中差ROC增益累计增益Copyright 2003, SAS Institute Inc. All rights reserved.二值目标的混淆矩阵(Confusion Matrix )正确的 否定错误的 肯定错误的 否定正确的 肯定0101预测结果实际 结果实际否定 合计实际肯定 合计否定合计肯定合计Copyright 2003, SAS Institute Inc. All rights reserved.分界(Cutoff)概率x20.00.20.40.60.81.0x10.00.20.40.60.81.0较低的分界概率 (.1
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号