资源预览内容
第1页 / 共100页
第2页 / 共100页
第3页 / 共100页
第4页 / 共100页
第5页 / 共100页
第6页 / 共100页
第7页 / 共100页
第8页 / 共100页
第9页 / 共100页
第10页 / 共100页
亲,该文档总共100页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第五章第五章 数据挖掘数据挖掘 的实施过程的实施过程 第5章 前面介绍了数据挖掘的基本方法。在 本章中我们进一步说明数据挖掘的实施过 程。 5.1 数据挖掘过程模型5A 数据挖掘是一个过程,它是从大量数 据中抽取出有价值的信息或知识以提供决 策依据。由于每一种数据挖掘方法(算法及技 术要求)都有其自身的特点且实现步骤与 具体应用问题有密切相关性,因此成功应 用数据挖掘技术以达到目标的过程本身就 是一件很复杂的事情。5.1 数据挖掘过程模型5A 一般来说,数据挖掘项目要经历的过 程包括问题的理解、数据的理解收集和准 备、建立数据挖掘模型、评价所建的模型 、将建立的模型投入应用等一系列任务。 这里,数据挖掘过程的系统化、工程化方 法学和支持系统(软件或工程)对解决应 用问题起着至关重要的作用。 5.1 数据挖掘过程模型5A 为了抽象系统化方法 ,人们提出了一 些数据挖掘过程的参考模型或标准:SPSS提出的5A(Assess、Access、Analyze、Act、Automate) ;SAS提出的SEMMA(采样Sample,探索Explore,修正Modify,建模Model,评估Assess)数据挖掘特别兴趣小组提出的“数据挖掘交叉行业标准过程”CRISP-DM(Cross-Industry StandardProcess for Data Mining)。 5.1 数据挖掘过程模型5A 在这些模型中,5A模型强调的是支持 数据挖掘过程的工具应具备的功能和能力 ,它是对支持数据挖掘工具的定义。SEMMA强调的是结合SAS公司的挖 掘工具进行应用开发的方法。CRISP-DM则从进行数据挖掘方法学 的角度强调实施数据挖掘项目的方法和步 骤,并独立于每种具体数据挖掘算法和数 据挖掘系统。 5.1 数据挖掘过程模型5A 5A模型认为任何数据挖掘方法学都由5 个基本元素组成,即Assess、Access、 Analyze、Act、Automate。Assess:正确、彻底的评价任务的需求及数据 。Access:方便、快速的存取任务所涉及的数据 。Analyze:适当、完备的分析技术和工具。Act:具有推荐性、有说服力的演示。用大 量的列表和图形或者通过办公软件来演示数据挖 掘软件的能力。软件应该具备快速回答用户提问 的控制性和灵活性,这样才便于用户更好、更快 地做决策。Automate:为用户提供最易于使用、最方便的自动化软件。 5.1 数据挖掘过程模型5A 针对着5个过程,5A描述了各元素在数 据挖掘技术应用中所需完成的任务和应该提 供的支持功能。 (1)AssessAssess是指要正确地理解和设置数据, 一旦充分了解了数据的上下文后,就可以正 确地收集它并在其上做需要的决策。实现 Assess的软件技术方案可以不同,但问题含 义相同。 a.将技术与组织的目标、策略和步骤结合起来 。 b.拥有世界范围的咨询和培训,目的是交付高 级分析工具给分析员后,能快速实现数据挖 掘及其应用 。5.1 数据挖掘过程模型5A (2)AccessAccess是指数据集合(DB、DW、DM) 应该完全符合评价的要求和质量。若数据集合 不充分,须补充附加的数据。选用的数据挖掘 软件必须在所要求的数据上灵活地工作,并满 足下列存取准则。易于存取和连接各种数据源,包括数据表、公 司数据库、数据仓库和其它必要的外部数据库 。能直接从ASCII正文、数据表、数据库文件读 入数据。能处理大量(GB以上)的数据文件。5.1 数据挖掘过程模型5A (3)AnalyzeAnalyze要求分析工具具备两类分析方 法和工具:发现工具和验证工具。验证工具检验发现工具所产生的结果 是否合理。发现型方法和工具包括基因遗传算法 、规则推导、模糊逻辑、数据可视化、聚 类算法、因素分析、神经网络、决策树等 。验证方法和工具包括回归、逻辑回归 、判别分析、预测建模等。理想的数据挖掘软件应该具备这两类 分析方法和工具,同时应该包括下列分析 特性。 5.1 数据挖掘过程模型5A 统计过程、范围和深度较强,应包括预测、 分段、分类等。集成商业和统计图形功能、具备多种可选的 2D/3D图类,能用数据定点模式显示和跟踪 等。辅助分析的模版、过程导引、示范、在线帮 助等,能帮助分析员快速选择和获得结果。数据、文件、中间结果管理功能。能合并和 分离文件、选择数据子集、处理数据缺值、 净化、改善数据完整性、支持IF-THEN- ELSE条件操作。数据转换功能。有一组完备的转换函数支持 变量/特征和条件的计算,可以重复计算、编 辑原来的变量/特征。 5.1 数据挖掘过程模型5A 可裁减的工作环境。有脚本/宏语言支持的 可重复任务的自动化、批处理及其菜单按 钮功能,以支持一般用户快速使用。灵活的动态输出。表结果可以转动和轮换 ,易于观察数据全貌和用鼠标重新组织表 数据,以便于清晰的提交、观察、探索数 据结果并做进一步的特殊分析。基于线性回归和ANOVA的预测性建模, 具有相关性、分类分析、预测等基本分析 功能。插件/模块功能。可以提供特殊的功能模块 ,以支持特定的分析。5.1 数据挖掘过程模型5A (4)Act用大量的列表和图形或者通过办公软件 来演示数据挖掘软件的能力。软件应该具备 快速回答用户提问的控制性和灵活性,这样 才便于用户更好、更快地做决策。数据挖掘 软件应该提供下面的演示特性。 l完好的集成图形功能,以提供专业级的演示 。 lOLE支持,以易于嵌入图表节省报告时间。 lINTERNET特性,以易于图表的网上传输和 本地察看。 l演示模版特性,以节省编辑时间。 l特殊查询功能,以利于快速提供附加的分析 能力来响应用户的提问。 l报告注解功能,以加入注解到报告中。 5.1 数据挖掘过程模型5A (5)AutomateAutomate是指面向用户的操作尽可能 完善和自动化软件的应用过程。吸取专业 分析决策人员及多数用户的意见和见解, 以最快的方式显示分析结果,以标准的接 口、按钮式的功能/菜单、丰富的帮助、可 选的附加分析将软件呈现给用户。为此, 软件应提供以下自动化功能: 5.1 数据挖掘过程模型5A lOLE自动化开发者的机制,允许用户在通 用代码级(VB、EXCEL、ACCESS、PB 等)使用软件。 l内建编程语言/脚本/宏,使用户可以方便的 创建自己的应用。 l制作能力,能编写产生日常报告的命令行 文件。5.2数据挖掘过程模型CRISP-DMCRISP-DM模型是由几家相关开发和 应用行业的跨国公司和集团所支持(并由 欧洲委员会部分支持)的一个特别兴趣小 组在1997年7月到1999年4月间研究后提出 的。这几家公司分别是数据仓库提供商 NCR在丹麦的SEC公司,德国的汽车、航 天航空、电信和咨询业公司DAIMLER- BENZ AG,英国的数据挖掘系统开发商 ISL(CLEMENTINE的研发商,1998年其 成为SPSS的子公司)以及荷兰最大的银行 、保险业公司OHRA。5.2数据挖掘过程模型CRISP-DM由于其直接动机是将数据挖掘技术转化 为商业应用,所提出的过程模型均在项目中 进行实际实践和验证,因此具有一定的代表 性。CRISP-DM模型采用分层方法将一个数 据挖掘项目的生存周期定义为6个阶段( PHASE)和4个层次(LEVEL)。 5.2数据挖掘过程模型CRISP-DMCRISP-DM模型6个阶段为: BUSINESS UNDERSTANDING、 DATA UNDERSTANDING 、 DATA PREPARATION、MODELING、 EVALUATION和DEPLOYMENT阶段间的顺序并不严格,比如商业理解 和数据理解之间常常需要反复,数据准备和 数据模型建立也常常需要反复。阶段间有循环,比如在对模型进行评价 后,如果不满意,可能需要重新对商业问题 进行理解,重新开始建模。一个阶段的任务 完成后,如果需要继续扩展挖掘的范围,则 需要重新开始循环。 5.2数据挖掘过程模型CRISP-DMCRISP-DM模型4个层次是:阶段划分(PHASE)定义通用任务(GENERIC TASK)定义专用任务(SPECIALIZED TASK)处理实例(PROCESS INSTANCE)每个PHASE由若干GENERIC TASK 组成,每个GENERIC TASK又需要实施若 干SPECIALIZED TASK,每个 SPECIALIZED TASK由若干PROCESS INSTANCE来完成。 5.2数据挖掘过程模型CRISP-DM其中,上两层独立于具体数据挖掘方法 ,即是一般数据挖掘项目均需实施的步骤( 这解决了“WHAT TO DO?”的问题)。这 两层的任务将结合具体数据挖掘项目的“上 下文”(CONTEXT)映射到下两层的具体 任务和过程。项目的“上下文”是指项目开发中密切相 关、需要综合考虑的一些关键问题,如应用 领域、数据挖掘问题类型、技术难点、工具 及其提供的技术等。下两层注重解决如何完成每个阶段所要 完成的任务和任务的输出所要求的必要映射 活动(这用于解决“HOW TO DO”的问题) 。 5.2数据挖掘过程模型CRISP-DMCRISP-DM6个阶段的含义是: (1)BUSINESS UNDERSTANDING在开始阶段,专注于从商业的角度理 解项目目标和需求,然后将这种知识转换 成一种数据挖掘的问题定义,并设计出达 到目标的一个初步计划。 5.2数据挖掘过程模型CRISP-DM(2)DATA UNDERSTANDING在数据理解阶段,先收集初步的数据 ,然后进行熟悉数据的各种活动,包括识 别数据的质量问题、找到对数据的基本观 察或假设隐含的信息来检测出感兴趣的数 据子集。 5.2数据挖掘过程模型CRISP-DM(3)DATA PREPARATION数据预处理阶段覆盖了从数据构造到 最终数据集合(将要输入建模工具的数据 )的所有活动。数据预处理任务很可能要 执行多次,并且没有任何规定的顺序。任 务包括表、记录属性的选择以及为了适合 建模工具的要求对数据进行的转换和净化 。5.2数据挖掘过程模型CRISP-DM(4) MODELING在建模阶段,可以选择和应用各种建 模技术将其参数校正到优化值。5.2数据挖掘过程模型CRISP-DM(5)EVALUATION从数据分析的观点看:在开始进入这 个阶段时已经建立了看上去是高质量的模 型。但在最终扩展模型之前,要更彻底地 评价模型,对所建模型再次考察其执行的 步骤并确信其正确地达到了商业目标。这里,一个关键的目的是确定是否有 某些重要的商业问题还没有充分地考虑。 在这个阶段的结尾,应该获得使用数据挖 掘结果的判定。 5.2数据挖掘过程模型CRISP-DM(6)DEPLOYMENT创建完模型并不意味着项目结束。所 获得的知识要用一种用户可以使用的方式 来组织和表示。根据要求,扩展阶段可以 简单到只生成一份报告,或复杂到实现一 个可重复的数据挖掘过程。在许多情况下 ,这将由客户而不是分析员来实施。所以 分析员来实施扩展将达不到预期的扩展效 果,因此在这之前,客户理解和利用所建 模型所要实施的动作很重要。 5.3 数据挖掘过程中的相关问题 TWO CROWS公司的数据挖掘过程 模型同CRISP-DM模型很类似,并且比较 简洁,其基本数据挖掘步骤包括: l 定义商业问题; l 建立数据挖掘仓库; l 分析数据; l 准备数据; l 建立模型; l 评价模型; l 实施。下面结合这个数据挖掘过程模型说明 在数据挖掘过程中的相关问题。 5.3.1 定义商业问题 我们的最终目的是希望从技术和商业角度为公司建立一个能够理解和实施数据挖 掘的工作环境。数据挖掘的成功,并不在 于特定工具和算法的选择,而是一个合适 的环境。一个企业的执行
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号