资源预览内容
第1页 / 共119页
第2页 / 共119页
第3页 / 共119页
第4页 / 共119页
第5页 / 共119页
第6页 / 共119页
第7页 / 共119页
第8页 / 共119页
第9页 / 共119页
第10页 / 共119页
亲,该文档总共119页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
讲授:吴雄华第一章 数据挖掘概述电话:13752460206Email: wuxionghua2003163.com一、引例网站这种推荐并非漫无边际,而是有一定技术依据的 ,这种技术就是数据挖掘技术(DM)。网站怎么知道读者可能会对这些物品干兴趣? 这是因为网站采用了新的技术来了解顾客的潜在需求 ,比如:网站从顾客的购买清单中发现你买的书与张 三买过的书有几本是相同的,但是还有些书张三已经 买了,而你却还没买,网站会据此认为你们的阅读偏 好相近,从而你会对那些书也干兴趣。例1。如果你在当当的购书网站并购买过书籍或音 像制品,以后再浏览该网站时经常看到类似的提示 :“欢迎你,下面是我们给您推荐的新书和VCD。” 然后就可以在网页的某个位置看到几本新书或VCD 的名字及其相关链接。从这个销售数据中可以得出什么结论?某超市Post机上记录如下的销售数据:例2。啤酒与尿布的故事顾客购买商品1面包,黄油,尿布,啤酒2咖啡,糖,小甜饼,鲑鱼,啤酒3面包,黄油,咖啡,尿布,啤酒,鸡蛋4面包,黄油,鲑鱼,鸡5鸡蛋,面包,黄油6鲑鱼,尿布,啤酒7面包,茶,糖鸡蛋8咖啡,糖,鸡,鸡蛋9面包,尿布,啤酒,盐10茶,鸡蛋,小甜饼,尿布,啤酒从数据挖掘的角度就是得到了如下的很强的关联规则:简单分析发现,有6个顾客买了啤酒,而其中5个人 买了尿布,或说,5个买了尿布的顾客都买了啤酒 。规则1:“买啤酒”“买尿布” 。置信度为5/6规则2:“买尿布”“买啤酒” 。置信度为5/5结论:“买尿布的顾客很可能会买啤酒”。原因?对决策者的启示:商品的摆放设计和销售策略。二、数据挖掘的定义三、数据挖掘技术产生的动力数据挖掘的定义有多种不同的定义方式,现在为大 家广泛采用的是如下定义:数据挖掘是从大量的数据中挖掘出隐含的、未知的、用 户可能感兴趣的和对决策有潜在价值的知识和规则。简单的说,数据挖掘就是从大量的数据中发现有用的信 息。1.数据爆炸问题。 例3、美国未来学家阿尔温托夫勒在1980年的著作在 第三次浪潮中认为,未来的信息量将以指数级的速 度增长。现在已成事实。例5.John Roth在联合国世界电信论坛上又提出 了一个关于网络科技的一个观点:互联网宽带 每9个月会增加一倍的容量,但成本降低一半, 比芯片的变革速度还快。-“光纤定律”。例4.1965年,Intel公司联合创始人Gordon Morore在准备一个演讲时发现了一个具有历史 意义的现象:芯片的容量每1824个月增加一倍 。他据此推断,按此趋势发展下去,在较短时 间内计算能力将呈指数增长。-“摩尔定律”。 。还有很多案例都可以印证,现在的社会是一个 信息爆炸的社会。是在信息的潮流中随波逐流 还是“到中流击水,浪遏飞舟”?数据挖掘技术的另一个产生动力 2.数据过量而知识贫乏 现代人了解古代的主要方式主要是通过前人留 下的记录,但是这些记录往往是零碎的、不完 全的。例如? 想象一下,如果后人希望了解现在人们的生活 状况,他们面临的已不再是信息缺失,而是需 要从浩如烟海的资料中有选择性的收集他们认 为有用的信息,若没有一定技术支持,其难度 恐怕可以用“浪里淘金”或“大海捞针”来形容。四、数据挖掘的支撑技术数据挖掘融合了统计、人工智能及数据库等多 种学科的理论、方法和技术 如统计学:除了实验设计与数据挖掘的关系不 大,其他几乎所有方法都可以用于数据挖掘, 如估计、假设检验、回归分析、主成分分析、 时间序列分析、马尔科夫链等。五、数据挖掘的主要任务1、预测:分类和回归2、关联分析:如研究顾客的行为模式3、聚类分析:例如 对于新闻可以根据他们的 主题分组。 4、异常检测:识别其特征显著不同于其他数据 的观测值(异常点)。主要应用包括检测欺诈 、网络攻击、疾病的不寻常模式等。 例 6。信用卡欺诈检测 信用卡公司记录每个持卡人所做的交易,同时 也记录信用限度、年龄、年薪和地址等个人信 息。由于与合法交易相比,欺诈行为的数目相 对较少,因此异常检测技术可以用来构造合法 交易的轮廓。当一个新的交易到达时就与之比 较。如果该交易的特性与所构造的轮廓很不相 同,就把交易标记为可能是欺诈。第二章 数据一、理解数据例 1。有人给你如下数据,每行包含一个病人 的信息,用前4个字段预测后一个字段。01223233.5010.7 02012116.52210.7 027165240427.6你做了相关的工作后再与数据提供者交流,字 段1只是一个标号不代表任何实际意义,而字段 4中0表示缺失值,在录入数据时偏偏所有的10 都变成了0.?!二、数据属性及其类型 属性(Attitude)是对象的性质或特性。属性类型描述例子分类的 (定性 的)标称 属性值只是不同的名 字,只提供足够的信 息区分对象(=,!= )邮编、ID号、 颜色、性别序数 属性值只是确定对象 的序()矿石硬度等级 、成绩(A、B 、C) 数值的 (定量 的)区间 属性值之间的差是有 意义的(+或-)日期、温度比率 属性值之间的差或比 都有意义。绝对温度、年 龄、销售量等三、数据集的类型 1、记录数据。如TidRufundMarital StatusTaxable IncomeDefaulte d Borrower 1YesSingle125KNo2NoMarried100KNo3Yesdevorce189KYes三、数据集的类型 2、事务数据(购物篮数据),如 顾客购买商品1面包,黄油,尿布,啤酒2咖啡,糖,小甜饼,鲑鱼,啤酒3面包,黄油,咖啡,尿布,啤酒,鸡蛋4面包,黄油,鲑鱼,鸡5鸡蛋,面包,黄油6鲑鱼,尿布,啤酒7面包,茶,糖鸡蛋8咖啡,糖,鸡,鸡蛋9面包,尿布,啤酒,盐10茶,鸡蛋,小甜饼,尿布,啤酒三、数据集的类型 3、矩阵数据。如距离矩阵,协方差矩阵,相关 系数矩阵等。4、文档词数据。如teamcoac hplayballscor egam ewinlostfauldoc1305601804Doc2078930156 doc30100010405、时间序列数据 6、其他四、数据对象之间的相异度和相似度 1、简单属性的相似度和相异度 假设数据对象只有一个属性,则通常其相似度 和相异度可按如下定义。1.1 标称属性的相异度和相似度d=0,如果 x=y1,如果 x y相异度相似度:s=1-d例如,如果只考虑顾客的性别属性,如果都是“ 男”,则他们的相似度为1,相异度为0.1、简单属性的相似度和相异度1.2 序数属性的相异度和相似度d=|x-y|/(n-1),相异度相似度:s=1-d例如,考虑学生的成绩,共分为A、B、C、D四 个等级,则n=4,相异度为2/3.其中n为属性取值的总个数。1、简单属性的相似度和相异度1.3 区间或比率属性的相异度和相似度d=|x-y|相异度较常用的相似度有:s=1/(1+d),例如,考虑如下的身高数据S=1-(d-min_d)/(max_d-min_d)学 生S1S2S3S4S5S6S7身 高15 617 816 617 018 516 818 0可以计算学生身高的相异度矩阵如下:学生S1S2S3S4S5S6S7身高156 17 8166170185168180S1S2S3S4S5S6S7S10221014291224 S201287102 S30419214 S4015210 S50175 S6012 S70二元属性:属性的值只接受两个值:如真/假 ,男/女、是/否等,通常用0/1表示。则S2与S6之间的相异度为10,而相似度为1/11, 有min_d=2,max_d=29,因此,也可以定义相似度 为1-(10-2)/(29-2)=19/27。2.数据对象之间的相似度相似性度量的例子2.1。二元数据的相似性度量两个仅包含二元属性的对象之间的相似性度量 也称为相似系数。设x和y是两个对象,都由n 个二元属性组成。定义如下四个量f00=x取0且y取0的属性个数 f01=x取0且y取1的属性个数 f10=x取1且y取0的属性个数 f11=x取1且y取1的属性个数2.1.1一种常用的相似系数是简单匹配系数(Simple Matching Coeffient,SMC),定义如下SMC=f00+f11f00+f11+f10+f01 对于类似顾客是否购买某商品这样的非对称二 元数据,这个相似系数则难以体现顾客相同的 购买行为。Why?2.1.2 Jaccard 相似系数。Jaccard ( Jaccard Coeffient,JC)相似系数定义如 下J=f11f11+f10+f01例1.设二元数据对象x和y如下,计算其SMC和J。x=(1 0 0 0 1 0 1 0 0 1) y=(1 0 1 0 1 1 0 0 1 1)解:f00= 3f01= 3 f10= 1 f11= 3因此,SMC=6/10, J=3/7例2.设两个顾客x和y购买的商品如下,计算 它们 的相似系数SMC和J。商 品面 包啤 酒牛 奶茶 糖 鸡 蛋盐 大 米洋 葱大 蒜派x10100010010 y10100010010商 品纯 净 水可 乐水 饺口 香 糖牙 膏毛 巾洗 面 奶洗 发 水面 粉味 精派 瓜 子 x10010100000 y010100000002.1.3 余弦相似度通常类似于文档词这样的数据,度量其相似 性不能依赖共享0的个数,如果统计0-0匹配, 则大多数文档都非常相似,因此同样要忽略0-0 匹配。这类数据最常用的相似度之一就是余弦 相似度,定义如下 Cos(x,y)=xy/(|x|y|)2.1.4 广义Jaccard系数广义Jaccard系数也可以用于文档数据,并在二 元属性情况下归约为Jaccard系数,其定义如下 :例3.两个文档向量x和y如下,分别计算其余 弦相似度cos(x,y)和EJ x= (3 2 0 5 0 0 0 2 0 0)EJ=xy/(|x|2+|y|2-xy)y=(1 0 0 3 1 0 6 0 0 1)2.1.4 相关性两个具有二元变量或连续的数据之间对象之间 的相关性是对象之间线性联系的度量,一般可 以用Pearson相关系数(Pearson,s correlation )来描述。其定义如下:其中第三章 数据挖掘中的 统计方法一、数据探索1.1 汇总统计 1.1.1频率与众数 给定一个在v1,v2,vk取值的分类属性x和m个 对象的集合,值vi的频率定义为 f(vi)=具有属性值vi的对象数/m众数:具有最高频率的分类属性例1.某所大学中各年级的学生人数如下表:则年级属性的众数为“一年级”。 对于连续属性,按照目前的定义,众数通常没 有用(为什么?),但在某些情况下,众数可 能提供关于值的性质或关于出现遗漏值的重要 信息。年级人数频率 一年级2000.33 二年级1600.27 三年级1300.22四年级1100.18例如,以毫米为单位,20个人的身高通常不会 重复,但如果以分米为单位,则某些人很可能 具有相同的身高。此外,如果使用一个唯一的 值表示遗漏值,该值通常用众数。1.1.2 百分位数 百分位数的定义:设有容量为n的样本观察值想 x1,x2,x3,.,xn,样本的p分位数(0Gain(Humidity)Gain(Windy) Gain(Temperature) 因此应该选Outlook作为首分裂结点,即决策树 的形状为:OutlookSunnyRainOvercast第二层结点的选择与首结点类似,具体选择过程 如下: 对于“Sunny”的分支,从原数据集T中统计出 Outlook属性值为sunny的样本作为新的数据集T 。OutlookTempHumiWindy Play SHHFN SHHTN SMHFN SCNFY作为新样本集计算T的信息量为:对于Temperature属性,简单统计如下:Temperatur ePlay=yesPlay=not
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号