资源预览内容
第1页 / 共20页
第2页 / 共20页
第3页 / 共20页
第4页 / 共20页
第5页 / 共20页
第6页 / 共20页
第7页 / 共20页
第8页 / 共20页
第9页 / 共20页
第10页 / 共20页
亲,该文档总共20页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
数据挖掘项目实施流程,数据挖掘概述,促进数据挖掘发展的要素: 数据 大量发展的数据 用户和需求 业务决策支持的需求 技术和方法 计算能力的飞速发展 多学科领域研究的发展,数据挖掘概述,数据分类: 实验性的 用途 研究 运营 价值 科学 商业 产生 主动控制 被动记录 数据量 小 大 质量 清洁 脏 状态 静态 动态,业务性的,数据挖掘项目所需知识和技能,某个领域的业务知识(业务专家) 理解业务问题的细节和特殊性,背景业务知识,内容含义,术语,知道对当前业务问题的处理方法及优劣性。 数据知识和处理能力(数据专家) 理解数据的结构,格式,数据源的状况,数据量的大小,有对数据操作的能力。 分析方法和技能(分析专家) 理解和该业务相关的分析方法的特点和局限,有使用相关算法进行数据分析和建模的能力。,数据挖掘项目所需知识和技能,人才 类型,业务专家,数据专家,分析专家,基本专业技能,业务技能,业务技能,业务技能,80,10,10,10,80,10,30,30,40,数据挖掘项目实施流程,业务理解,数据准备,建立模型,评价与 实施,确定业务目标 评估环境 确定数据挖掘的目标 产生项目计划,数据理解 数据选择 数据清洗 数据集成(合并) 数据格式化,选择建模技术 产生测试设计(训练集、测试集) 建立模型 评估模型,评价挖掘结果 确定下一步 实施计划 监测、维护 产生最终报告 回顾项目(总结),数据准备,数据挖掘项目流程,业务理解,确定业务目标 从业务角度全面理解挖掘的真正意图和需求。除此之外还应包括一个对数据挖掘项目结果进行评价的标准以及整个项目预算和理性的解释。,业务理解,评估环境 对所有的资源、约束、假设和其他应考虑的因素进行详细的分析和评估,以便下一步确定数据分析目标和项目计划。,业务理解,确定数据挖掘目标 数据挖掘目标是从技术的角度描述项目的目的。,业务理解,产生项目计划 计划应列出将要执行的阶段,以及每个阶段的详细计划(包括每个阶段的时间、所需资源、输入、输出和依赖)。,数据准备,选择合适数据,并进行加工,完成建模前的数据准备以及数据有效化工作。,数据准备,建模周期(SEMMA),抽样(Sample) 从大量数据中取出一个与探索问题相关的样板数据子集,而不是使用所有的数据。这样不仅不仅可以减少数据处理量,节省系统资源,而且能通过数据的筛选,使得想要反映的规律更加凸显。 如何取得样本数据依赖于项目目标。,建模周期(SEMMA),探索(Explore) 探索样本数据是否符合项目目标的需求 有无明显的规律和趋势 有没有出现意料之外的数据状态 因素之间的关系 因素可否区分为不同的类别 是否需要重新选择数据,建模周期(SEMMA),修改(Modify) 进一步明确并量化对数据挖掘项目所需解决的问题量化 提高原来设定问题的质量 针对问题需要对数据进行增删 组合新的变量,以体现对状态的有效描述,建模周期(SEMMA),建模(Model) 建模前提:对应采用的技术已有了较明确的方向,数据已准备完全 根据数据集特征和项目所要实现的目标选择合适的数据挖掘方法(回归分析等广泛的树立统计方法,关联分析方法,分类和聚类方法,人工神经网络,决策树,等) 进行多次尝试,选择最合适的方法,建模周期(SEMMA),评估(Access) 评估目的:从很多模型中找到最合适的模型,并且对模型针对业务进行解释和应用 综合各个模型的影响规律,提供合理的决策支持信息。合理主要指在代价和可靠性之间选择一个平衡点,模型评估,业务评估 从模型对项目和管理的实际提升效果来评估数据挖掘项目 技术评估 从结果的性能、稳定性和合理性等方面来评估数据挖掘项目,模型评估,请批评指正!,
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号