资源预览内容
第1页 / 共17页
第2页 / 共17页
第3页 / 共17页
第4页 / 共17页
第5页 / 共17页
第6页 / 共17页
第7页 / 共17页
第8页 / 共17页
第9页 / 共17页
第10页 / 共17页
亲,该文档总共17页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第一章 数据挖掘和Clementine概述,数据挖掘的产生背景(量化产生了数据,海量数据的分析需求催生数据挖掘,理论的挑战催生数据挖掘) 什么是数据挖掘(数据挖掘的定义、数据挖掘的特点,常见数据挖掘算法) 数据挖掘软件概述 (软件的安装,界面,数据流建立),1.1 数据挖掘的产生背景,(1)任何事物都有定性和定量两个方面,定量则产生数据。(量化产生了数据) 从数据分析入手是我们认识事物本质的基本手段。 任何事物都是互相关联着的,从数据分析入手是我们把握事物之间联系的基本方法。 任何事物都在永恒地变化发展着,从数据分析入手是我们探索事物发展规律的基本思路。,1.1 数据挖掘的产生背景,(2)海量数据的分析需求催生数据挖掘 。 海量数据的产生: 英特尔万亿级计算研究项目总监吉姆海德(Jim Held)日前表示,全球数据的海量增长已经达到当前的存储极限。当前,全球数据存储每年以 60%的速度递增。海德称:“大量的数据,快速的增长,已经使我们无法处理。”英特尔早在2007年就曾表示,按照当时的发展速度,人类将无法应付高速增长的数据量。海德说:“我们已经进入ZB时代,并且很快将迈入YB年代。” (注:1ZB = 1,000,000,000,000 (10的21次方)GB,YB=10的24次方GB 。),1.1 数据挖掘的产生背景,存储容量单位 :KB MB GB TB PB EB ZB YB NB DB 1 kilobyte kB = 1000 (103) byte 1 megabyte MB = 1 000 000 (106) byte 1 gigabyte GB = 1 000 000 000 (109) byte 1 terabyte TB = 1 000 000 000 000 (1012) byte 1 petabyte PB = 1 000 000 000 000 000 (1015) byte 1 exabyte EB = 1 000 000 000 000 000 000 (1018) byte 1 zettabyte ZB = 1 000 000 000 000 000 000 000 (1021) byte 1 yottabyte YB = 1 000 000 000 000 000 000 000 000 (1024) byte 1 nonabyte NB = 1 000 000 000 000 000 000 000 000 000 (1027) byte,1.1 数据挖掘的产生背景,(3)应用对理论的挑战催生数据挖掘 。 一是,从数据库和数据仓库角度分析: 是否有更有效的存储模式实现高维海量数据的存储管理?数据库仅仅是存储、和简单的查询和汇总上吗? 所以数据库需要不断吸纳经典的数据分析方法并将其融合到商业中,因此,研究人员努力将数据仓库与数据分析模型进行无缝交互。,1.1 数据挖掘的产生背景,(3)应用对理论的挑战催生数据挖掘 。 二是:从统计学角度分析 。 以往数据采集能力极为有限的过去,人们只能通过研究少量样本推断 总体特征。但在数据采集能力极强的今天,摆在人们面前的不再是小样本而是海量高维数据总体,以前的推断不再有意义,原本较小的参数差异在大样本条件下都表现出来显著。 以往分析方法往往是驱动式的。首先确定模型,即数据建立、验证模型、应用模型,这是一种先知先见模式。,1.1 数据挖掘的产生背景,(3)应用对理论的挑战催生数据挖掘 。 以往的局限使得统计学产生新的研究方法。 例如,稳健统计、大规模数据分析、高维数据分析等 应用实践方面 本来完整的统计应用呈现出割裂状,以企事业统计为例,包括建立指标体系、采集数据、存储管理数据、分析数据、制定决策等环节。 总之,海量复杂数据的存储和分析,数据库数据仓库机器学习统计分析的理论发展和应用实践。诞生了数据挖掘这个新兴领域。,1.2 什么是数据挖掘,1. 数据挖掘的定义 1995年,加拿大蒙特利尔召开了第一届“KDD(知识发现) and DM(数据挖掘)”国际学术会议。数据挖掘就开始流行了。认为数据挖掘是从矿石(数据)中开采黄金的过程。,1.2 什么是数据挖掘,2. 数据挖掘的特点 数据挖掘是一个过程,而非单纯的数据建模; 数据挖掘方法是各种分析方法的集合; 数据挖掘具有分析海量数据的能力; 数据挖掘的最终目的是辅助决策。,1.2 什么是数据挖掘,3. 常见数据挖掘算法 (1)分类预测算法 决策树算法 C4.5、C5.0、CART、CHAID、QUEST;,1.2 什么是数据挖掘,3. 常见数据挖掘算法 (1)分类预测算法 BP算法,1.2 什么是数据挖掘,3. 常见数据挖掘算法 (1)分类预测算法回归分析方法 线性回归分析、Logistic回归,1.2 什么是数据挖掘,3. 常见数据挖掘算法 (2)探索内部结构的算法 关联规则分析:Apriori算法、序列关联,面包 牛奶 (60%, 75%) 牛奶 面包 (60%, 100%) 鸡蛋 奶酪 (20%, 100%) (规则支持度,规则置信度),1.2 什么是数据挖掘,3. 常见数据挖掘算法 (2)探索内部结构的算法 聚类分析 K-means聚类、谱系聚类、两步聚类、Kohonen聚类,1.2 什么是数据挖掘,3. 常见数据挖掘算法 (2)探索内部结构的算法 聚类分析 K-means聚类、谱系聚类、两步聚类、Kohonen聚类,1.3 数据挖掘软件Clementine概述,(一)安装 (二)窗口的认识 (三)数据流的建立,1.3 数据挖掘软件Clementine概述,(二)窗口的认识,
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号