资源预览内容
第1页 / 共49页
第2页 / 共49页
第3页 / 共49页
第4页 / 共49页
第5页 / 共49页
第6页 / 共49页
第7页 / 共49页
第8页 / 共49页
第9页 / 共49页
第10页 / 共49页
亲,该文档总共49页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
数据挖掘概述关联规则的发现聚类分析决策树分析,数据挖掘在CRM中的应用,一、数据挖掘概述,数据挖掘常常与知识发现等同看待,对于数据挖掘(DM,Data Mining)和知识发现(KDD,Knowledge Discovery In Database)的确切定义一直在许多学者中相互混淆。有学者认为数据挖掘和知识发现是等价的概念,人工智能(AI)领域习惯称知识发现,而数据库领域习惯称数据挖掘 ,是从数据中发现隐含有用的信息或知识的技术。,1. 数据挖掘的定义,数据挖掘,就是应用一系列技术从大型数据库或数据仓库的数据中提取人们感兴趣的信息和知识,这些知识或信息是隐含的、事先未知而潜在有用的,提取的知识表示为概念、规则、规律、模式等形式。数据挖掘作为知识发现过程的一个特定步骤,它是一系列技术及应用,或者说是对大容量数据及数据间关系进行考察和建模的方法集。它的目标是将大容量数据转化为有用的知识和信息。一般情况下,数据挖掘的对象定义为数据库,而更广义的说法是,数据挖掘意味着在一些事实或观察数据的集合中寻找模式。数据挖掘的对象不仅是数据库,也可以是文件系统或其他任何组织在一起的数据集合。,2 知识发现过程,2. 知识发现过程,知识发现过程一般由3个主要的阶段组成:数据准备、数据挖掘、结果表述和解释 。数据挖掘阶段进行实际的挖掘操作,利用机器学习、统计分析等方法,从数据库中发现有用的模式或知识。模式是浓缩数据的信息形式,如精炼数据库、表格、产生式规则、决策树、神经网络的权值等。包括的要点有: (1)要先决定如何产生假设,是让数据挖掘系统为用户产生假设,还是用户自己对于数据库中可能包含的知识提出假设。前一种称为发现型(Discovery-Driven)的数据挖掘;后一种称为验证型(Verification-Driven)的数据挖掘。 (2)选择合适的工具。 (3)挖掘知识的操作。 (4)证实发现的知识。,3. 数据挖掘的任务,(1)相关分析:分析数据库中字段项(变元)之间的关联关系。若两个或多个变项的取值之间存在着某种规律性,则称这种规律性为关联。即发现数据对象之间的相互依赖关系,一个相关规则的形式为Al A2AiBlB2Bj,如果A1,A2,Ai出现,那么Bl,B2,Bj出现,这表明Al,A2,Ai和B1,B2,Bj有某种关联。 数据中的关联可分为: 简单关联。 如:买面包的顾客中有90的人买牛奶。 时序关联 如:粮食涨价,不久副食品涨价。 因果关联。 这属于条件与结论的依赖关系。,3. 数据挖掘的任务,(2)聚类:根据所处理数据的一些同性,将数据库中的记录划分成一系列有意义的子集,这些子集即类。聚类有时直接满足用户的要求,有时是其他发现过程的预处理。例如,由聚类所产生的类可以作为判定树生成算法的目标概念,也可作偏差分析的基础。 聚类技术包括: 模式识别法。 数学分类法。 概念聚类。 神经网络的自组织模型,如ART、Kohonen等。,3. 数据挖掘的任务,(3)概念描述:对数据库中一类对象的内涵进行描述,以概括这个类的有关特征。概念描述是对数据库的整体信息进行全面概括,从数据库中归纳抽象的信息。 类的内涵描述有两种: 特征描述。 对类中对象的共同特点进行描述。 辨别性描述。 对两个或多个类之间的区别进行描述。 产生辨别性描述的方法有: 决策树方法:ID3、IBLE等。 神经网络方法:前馈式网络等。 遗传算法。,3. 数据挖掘的任务,(4)偏差检测:对数据库中的异常数据进行检测。数据库中的数据能反映许多异常情况,从数据分析中发现这些异常情况是很重要的,能引起人们对它更多的注意。偏差检测的数据模式有极值点、断点、拐点、零点和边界等不同的偏差对象。 偏差包括的规则知识如下: 分类中的反常实例。 模式的例外。 观察结果对模型预测的偏差。,3. 数据挖掘的任务,(5)预测:预测新事物的特征。从现有的数据中找出规律性,建立模型,用此模型来预测未知事例的种类、特性等。,4. 数据挖掘的应用,(1)市场营销:预测顾客的购买行为;划分顾客群体。(2)银行业:检测信用卡的欺诈行为;客户信誉分析。(3)生产、销售和零售业:预测销售额;决定库存量;批发点分布的规划、调度。(4)制造:预测机器故障;发掘影响生产能力的关键因素。(5)经纪业和安全交易:预测债券价格的变化;预报股票价格升降;决定交易的最佳时刻。(6)保险业:分析决定医疗保险额的主要因素;预测顾客保险的模式。(7)计算机硬件和软件:监测磁盘驱动故障;估计潜在的安全漏洞。(8)政府和防卫:估计军事装备转移的成本;预测资源的消耗;评估军事战略。(9)医药:验证药物的治疗机理;划分出哪一类型医生会再次购买某类药品。(10)交通:航空公司可以根据历史资料寻找乘客的旅行模式,改进航线的设置。(11)电信:电话公司评估哪一类客户会在短期内转向别的公司或其他服务项目,从而限制对这部分客户的广告投入。(12)公司经营管理:评价客户信誉;评估部门业绩;评估员工业绩;监测子公司或部门财务舞弊行为。,返回,二、关联规则的发现,关联规则可用于发现交易数据库中不同商品(项)之间的联系,这些规则找出顾客购买行为模式 ,如购买了某一商品对购买其他商品的影响。这样的规则可以应用于商品货架设计、存货安排以及根据购买模式对用户进行分类。,1. 关联规则的描述,关联规则的形式如下:XYa,b,其中X、Y为不相交的交易项目集,其含义为在交易中X的发生将会导致Y的发生,X和Y之间存在一种关联关系,a为关联规则的支持度,b为关联规则的信任度。关联规则发现算法就是从历史交易数据库D中发现满足用户需求(a大于最小支持度和b大于最小信任度)的关联规则。,2. 关联规则的定义,设Ii1,i2,im是二进制文字的集合,其中的元素称为项(item)。记D为事务T的集合,这里事务T是项的集合,并且TI。对应每一个事务有唯一的标志,如事务号,记作TID。设X是一个I中项的集合,如果XT,那么称事务T包含X。 一个关联规则是形如X略Y的蕴涵式,这里XI,Y I,并且XY。规则XY在事务数据库D中的支持度(Support)是事务集中包含X的事务数与所有事务数之比, 记为support(XY),即support(XY)|T:X T;TD|/|D| 规则XY在事务集中的可信度(confidence)是指包含X和Y的事务数与包含X的事务数之比,记为confidence(XY),即confidence(XY)|T:X YT;TD|/|T:XT;TD|给定一个事务集D,挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度和最小可信度的关联规则。,3. 关联规则的应用,某公司专业生产化妆用品和沐浴用品,该公司在全国各大城市的各大商场都设点销售,公司对一定时间范围内顾客购买详细情况作了收集,情况如表所示。,3. 关联规则的应用,针对表1进行关联分析,首先构造两种商品间的关联表,如表2所示,表中每一个数值表示的是行、列代表的两种商品同时被一个用户购买的次数。,3. 关联规则的应用,第二步,针对设定的最小支持度阀值,计算每一个X的最小支持度,将大于最小支持度阀值的X列出(本例,设最小支持度阀值为0.5):support(洗面奶)=0.5; support(晚霜)=0.5; support(洗发水)=0.667; support(沐浴乳)=0.5.,3. 关联规则的应用,第三步,针对设定的最小置信度阀值和上步列出的X,计算的最小置信度表,如表3所示 :,3. 关联规则的应用,第四步,将大于最小置信度阀值的列出(本例,设最小置信度阀值为0.5),即为关联分析所得出的规则:Rule1: 晚霜洗面奶,support=0.5, confidence=0.667Rule2: 洗面奶晚霜,support=0.5, confidence=0.667Rule3: 洗发水沐浴乳,support=0.667, confidence=0.75Rule4: 沐浴乳洗发水,support=0.5, confidence=1,3. 关联规则的应用,返回,从上述规则可以初步得出结论:1.购买本公司产品的顾客中相当比例的人有晚上用洗面奶洗面,并用晚霜保养皮肤的习惯。2.购买洗发水的顾客多半会同时购买沐浴乳,而购买沐浴乳的顾客则几乎肯定会购买洗发水。 根据上述规则,公司在营销时采取了如下措施:1.将晚霜与洗面奶、洗发水与沐浴乳放置在一起,方便顾客购买。2.营业员在顾客购买了一种商品后,适当推荐另一种商品。3、在生产与发货运输上,将关联产品配套按排。采取这些措施后,顾客的交叉消费大为提高,商场与顾客的满意度也有所提高。,三、聚类,聚类(Clustering)是将物理或抽象对象进行分组并将相似对象归为一类的过程。数据聚类将物理的或抽象的对象分成几个群体,在每个群体内部,对象之间具有较高的相似性,而在群体之间相似性则比较低。一般讲,一个群体也就是一个类即一个对象集合,我们事先并不知道对象所属的类。在机器学习中,聚类通常是指不监控学习(由于对象所属类不确定)或概念聚类(由于距离测量并不根据几何距离,而是以一组代表某一概念类的对象为基础)。这就需要定义一个衡量对象之间相似性的标准,并用来决定类。,1. 聚类的定义,聚类问题可一般性地描述为:待聚类样本空间XXl,Xn,每个样本Xi由一组特征数据组成的m维向量表示,X的样本聚类即是X的一个划分A1,At,且满足A1A2AnX并且AiAj;(i与每个划分Ai的元素的相互之间的距离都很小)。当t为定值时的聚类是静态聚类,即决策者已事先定出聚类的类别数;t为变量时的聚类是动态聚类,即决策者事先不制定聚类数,t的大小完全由样本空间的客观情况而定。最基本的聚类问题是将相似数据项聚集在一起。如果将数据集当作一个数据空间,每个数据对象当作空间上的一个点,给定一个大型多维数据点集,这些点一般不能一致地占有数据空间。作为一个数据挖掘任务,数据聚类即是在一个大型多维数据集合中根据某种距离,标识簇或稠密定位区域,从而发现数据集的整体分布模式。,2. 聚类的运用,聚类技术有两种主要的类型;分层与不分层聚类技术。一种称为分层聚类技术,它从小到大逐步向上生成目录结构的类,由于聚类技术是无监督学习过程,就没有绝对最好的聚类结果,因而会产生两种极端情况:一种情况是把数据库中的每一条记录看作一个类,这样当然达到了把记录分类的目的,但是却与聚类技术是为了使用户可以更清楚地理解数据库中的记录这个最终目的相违背,况且,聚类结果生成的类应该比数据库中的记录数少得多。另一种极端情况是把所有的记录归入一个类,虽然实现了概括数据库内容的目的,但是不能向用户提供任何有用的信息。究竟应该生成多少个类,要视具体情况而定。分层聚类技术的个优点就是允许最终用户指定最后生成的类的数目。人们通常把分层聚类技术生成的目录结构看成一棵树,如下图所示。,2. 聚类的运用,生成这样的一棵“树”之后,用户就可以决定合适的类的数目,既概括了数据库内容,同时又能提供有用的信息。用户如果要增加或减少类的数目也非常简单,只要在树形结构中往下走一层或向上走一层就可以实现。这些都是分层聚类技术所特有的优势。,2. 聚类的运用,另一种是不分层聚类技术。总的来说,它对历史数据库进行聚类的过程比较快,但是要求用户决定生成的类的数目或在同一个类中的两条记录之间的最小距离。从任意的或随机的类开始,通过交互式地调整记录的位置来逐步改善分类情况,所以不分层聚类技术要运行若干次才能完成聚类任务。或者在第一次读取数据库记录的时候生成类,对于一条给定的记录,如果已经存在它归属的类,就把它加入进去;如果不存在它可以归属的类,就生成新的类。由于最初的类的不同选择和聚类结果的数目是提前决定的,不分层聚类技术不如分层聚类技术那样可以重复进行,而且有时候会生成太多或太少的类。,
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号