资源预览内容
第1页 / 共43页
第2页 / 共43页
第3页 / 共43页
第4页 / 共43页
第5页 / 共43页
第6页 / 共43页
第7页 / 共43页
第8页 / 共43页
第9页 / 共43页
第10页 / 共43页
亲,该文档总共43页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
1一、数据挖掘概念一、数据挖掘概念-定义定义数据挖掘数据挖掘-从大量数据中寻找其规律的技术,从大量数据中寻找其规律的技术, 是统计学、数据库技术和人工智能技术的综合是统计学、数据库技术和人工智能技术的综合 。数据挖掘与统计学数据挖掘与人工智能数据挖掘与数据库技术数据挖掘与数据挖掘与KDDKDD2一、数据挖掘概念一、数据挖掘概念-原由原由国民经济和社会的信息化 社会信息化后,社会的运转是软件的运转社会信息化后,社会的运转是软件的运转 社会信息化后,社会的历史是数据的历史社会信息化后,社会的历史是数据的历史因此政府提出“信息化”和“发展软件产业”3一、数据挖掘概念一、数据挖掘概念-原由原由数据挖掘数据库越来越大有价值的知识可怕的数据 4一、数据挖掘概念一、数据挖掘概念-原由原由数据爆炸,知识贫乏苦恼: 淹没在数据中 ; 不能制定合适的决策! 数据知识知识决策决策n模式n趋势n事实n关系n模型n关联规则n序列n目标市场n资金分配n贸易选择n在哪儿做广告n销售的地理位置n金融n经济n政府nPOS.n人口统计n生命周期5一、数据挖掘概念一、数据挖掘概念-发展发展 1989 IJCAI会议: 数据库中的知识发现讨论专题 Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991) 1991-1994 KDD讨论专题 Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996) 1995-1998 KDD国际会议 (KDD95-98) Journal of Data Mining and Knowledge Discovery (1997) 1998 ACM SIGKDD, SIGKDD1999-2002 会议,以及SIGKDD Explorations 数据挖掘方面更多的国际会议 PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, DaWaK, SPIE-DM, etc.6一、数据挖掘概念一、数据挖掘概念-技术技术技术分类 预言(Predication):用历史预测未来 描述(Description):了解数据中潜在的规律数据挖掘技术 关联分析 序列模式 分类(预预言) 聚集 异常检测7二、数据挖掘软件的发展二、数据挖掘软件的发展代特征数据挖掘算法集成分布计算 模型数据模型第一 代作为一个独 立的应用支持一个或者 多个算法 独立的系统单个机器向量数据第二 代和数据库以 及数据仓库 集成多个算法:能 够挖掘一次不 能放进内存的 数据数据管理系 统,包括数 据库和数据 仓库同质、局 部区域的 计算机群 集有些系统支持 对象,文本和 连续的媒体数 据第三 代和预言模型 系统集成 多个算法数据管理和 预言模型系 统intranet/e xtranet网 络计算支持半结构化 数据和web数 据第四 代和移动数据/ 各种计算设 备的数据联 合 多个算法数据管理、 预言模型、 移动系统移动和各 种计算设 备普遍存在的计 算模型 Robert Grossman, National Center for Data Mining University of Illinois at Chicago 的观点8二、数据挖掘软件的发展二、数据挖掘软件的发展 第一代数据挖掘软件 特点支持一个或少数几个数据挖掘算法 挖掘向量数据(vector-valued data) 数据一般一次性调进内存进行处理 典型的系统如Salford Systems公司早期的CART系统 (www.salford-systems.com) 缺陷如果数据足够大,并且频繁的变化,这就需要利用数 据库或者数据仓库技术进行管理,第一代系统显然不 能满足需求。9二、数据挖掘软件的发展二、数据挖掘软件的发展第一代数据挖掘软件 CBA新加坡国立大学。基于关联规则的分类算法,能从关系数据或 者交易数据中挖掘关联规则,使用关联规则进行分类和预测10二、数据挖掘软件的发展二、数据挖掘软件的发展 第二代数据挖掘软件 特点与数据库管理系统(DBMS)集成 支持数据库和数据仓库,和它们具有高性能的接口,具有高 的可扩展性 能够挖掘大数据集、以及更复杂的数据集 通过支持数据挖掘模式(data mining schema)和数据挖掘 查询语言增加系统的灵活性 典型的系统如DBMiner,能通过DMQL挖掘语言进行挖掘操作 缺陷只注重模型的生成,如何和预言模型系统集成导致了第三代 数据挖掘系统的开发11二、数据挖掘软件的发展二、数据挖掘软件的发展 第二代数据挖掘软件 DBMiner12二、数据挖掘软件的发展二、数据挖掘软件的发展 第二代软件 SAS Enterprise Miner13二、数据挖掘软件的发展二、数据挖掘软件的发展 第三代数据挖掘软件 特点和预言模型系统之间能够无缝的集成,使得由数据挖掘软件 产生的模型的变化能够及时反映到预言模型系统中 由数据挖掘软件产生的预言模型能够自动地被操作型系统吸 收,从而与操作型系统中的预言模型相联合提供决策支持的 功能 能够挖掘网络环境下(Internet/Extranet)的分布式和高度 异质的数据,并且能够有效地和操作型系统集成 缺陷不能支持移动环境14二、数据挖掘软件的发展二、数据挖掘软件的发展 第三代软件 SPSS Clementine 以PMML的格式提供与预言模型系统的接口15二、数据挖掘软件的发展二、数据挖掘软件的发展 第四代数据挖掘软件 特点目前移动计算越发显得重要,将数据挖掘和移动计算相结合 是当前的一个研究领域。 第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在( ubiquitous)计算设备产生的各种类型的数据第四代数据挖掘原型或商业系统尚未见报导,PKDD2001上 Kargupta发表了一篇在移动环境下挖掘决策树的论文, Kargupta是马里兰巴尔的摩州立大学(University of Maryland Baltimore County)正在研制的CAREER数据 挖掘项目的负责人,该项目研究期限是2001年4月到2006 年4月,目的是开发挖掘分布式和异质数据(Ubiquitous设 备)的第四代数据挖掘系统。 16二、数据挖掘软件的发展二、数据挖掘软件的发展第一代系统与第二代相比因为不具有和数据管理系统 之间有效的接口,所以在数据预处理方面有一定缺陷 第三、四代系统强调预言模型的使用和在操作型环境 的部署 第二代系统提供数据管理系统和数据挖掘系统之间的 有效接口 第三代系统另外还提供数据挖掘系统和预言模型系统 之间的有效的接口 目前,随着新的挖掘算法的研究和开发,第一代数据 挖掘系统仍然会出现,第二代系统是商业软件的主流 ,部分第二代系统开发商开始研制相应的第三代数据 挖掘系统,比如 IBM Intelligent Score Service。 第四代数据挖掘原型或商业系统尚未见报导 17二、数据挖掘软件的发展二、数据挖掘软件的发展数据挖掘软件发展的三个阶段 独立的数据挖掘软件 横向的数据挖掘工具集 纵向的数据挖掘解决方案Gregory Piatetsky-Shapiro 的观点18二、数据挖掘软件的发展二、数据挖掘软件的发展独立的数据挖掘软件(95年以前) 特点独立的数据挖掘软件对应第一代系统,出现在数据挖 掘技术发展早期,研究人员开发出一种新型的数据挖 掘算法,就形成一个软件。这类软件要求用户对具体的算法和数据挖掘技术有相 当的了解,还要负责大量的数据预处理工作。比如 C4.5决策树,平行坐标可视化(parallel-coordinate visualization)。 19二、数据挖掘软件的发展二、数据挖掘软件的发展 横向的数据挖掘工具集(95年开始 ) 发展原因随着数据挖掘应用的发展,人们逐渐认识到数据挖掘 软件需要和以下三个方面紧密结合:1)数据库和数据 仓库;2)多种类型的数据挖掘算法;3)数据清洗、 转换等预处理工作。随着数据量的增加,需要利用数据库或者数据仓库技 术进行管理,所以数据挖掘系统与数据库和数据仓库 结合是自然的发展。 现实领域的问题是多种多样的,一种或少数数据挖掘 算法难以解决 挖掘的数据通常不符合算法的要求,需要有数据清洗 、转换等数据预处理的配合,才能得出有价值的模型 20二、数据挖掘软件的发展二、数据挖掘软件的发展 横向的数据挖掘工具集(95年开始 ) 发展过程 随着这些需求的出现,1995年左右软件开发商开始提 供称之为“工具集”的数据挖掘软件 特点 此类类工具集的特点是提供多种数据挖掘算法 包括数据的转换转换 和可视视化 由于此类类工具并非面向特定的应应用,是通用的算法集 合,可以称之为为横向的数据挖掘工具(Horizontal Data Mining Tools) 由于此类类工具并非面向特定的应应用,是通用的算法集 合,所以称之为为横向的数据挖掘工具 典型的横向工具有IBM Intelligent Miner、SPSS的 Clementine、SAS的Enterprise Miner、SGI的MineSet 、Oracle Darwin等 21二、数据挖掘软件的发展二、数据挖掘软件的发展 横向的数据挖掘工具集(95年开始 )IBM Intelligent Miner SPSS的Clementine SAS的Enterprise Miner SGI的MineSet Oracle Darwin22二、数据挖掘软件的发展二、数据挖掘软件的发展纵向的数据挖掘解决方案(99年开始 ) 发展原因随着横向的数据挖掘工具的使用日渐广泛,人们也发 现这类工具只有精通数数据挖掘算法的专家才能熟练 使用,如果对算法不了解,难以得出好的模型 从1999年开始,大量的数据挖掘工具研制者开始提供 纵向的数据挖掘解决方案(Vertical Solution),即 针对特定的应用提供完整的数据挖掘方案 对于纵向的解决方案,数据挖掘技术的应用多数还是 为了解决某些特定的难题,而嵌入在应用系统中23二、数据挖掘软件的发展二、数据挖掘软件的发展纵向的数据挖掘解决方案(99年开始 )在证券系统中嵌入神经网络预测功能在欺诈检测系统中嵌入欺诈行为的分类/识别模型在客户关系管理系统中嵌入客户成簇/分类功能或客户 行为分析功能在机器维护系统中嵌入监/检测或识别难以定性的设备 故障功能在数据库营销中嵌入选择最可能购买产品的客户功能在机场管理系统中嵌入旅客人数预测、货运优化功能在基因分析系统中嵌入DNA识别功能在制造/生产系统中嵌入质量控制功能等24二、数据挖掘软件的发展二、数据挖掘软件的发展纵向的数据挖掘解决方案(99年开始 )KD1(主要用于零售业)Options&Choice(主要用于保险业)HNC(欺诈行为侦测)Unica Model 1(主要用于市场营销)25二、数据挖掘软件的发展二、数据挖掘软件的发展综合的数据挖掘解决方案(复旦的工作)各行业电子商务网站算 法 层商 业 逻 辑 层行 业 应 用 层商业应用商业模型挖掘算法CRM 产品推荐 客户细分 客户流失 客户利润 客户响应关联规则、序列模式、分类、聚集、神经元网络、偏差分析WEB挖掘网站结构优化 网页推荐 商品推荐 。基因挖掘基因表达路径分析 基因表达相似性分析 基因表达共发生分析 。银行 电信 零售 保险
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号