资源预览内容
第1页 / 共32页
第2页 / 共32页
第3页 / 共32页
第4页 / 共32页
第5页 / 共32页
第6页 / 共32页
第7页 / 共32页
第8页 / 共32页
第9页 / 共32页
第10页 / 共32页
亲,该文档总共32页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
目录1第一章11.1 知识获取平台 Weka简介11.2第二节 Weka中的数据准备41.3第三节 Weka运行演示62 第二章 关联规则(购物篮分析)102.1第一节 关联规则与相关概念102.2第二节 关联规则基本模型112.3第三节 关联挖掘123. 第三章 聚类方法153.1第一节 聚类分析方法153.2 聚类分析中的数据类型及数据结构153.3 聚类分析中孤立点163.4 聚类算法的分析174. 第四章 分类与回归204.1 选择算法204.2 建模结果224.3 模型应用234.4 使用命令行(推荐)24第一节 通过分类挖掘进行信息获取26第二节 贝叶斯分类方法简介27第三节 在Weka中使用贝叶斯算法对bank-data建立分类模型281 第一章1.1 知识获取平台 Weka简介Weka简介 Weka是由新西兰怀卡托大学开发的智能分析系统(Waikato Environment for Knowledge Analysis) 。在怀卡托大学以外的地方,Weka通常按谐音念成Mecca,是一种现今仅存活于新西兰岛的,健壮的棕色鸟, 非常害羞,好奇心很强,但不会飞 。 Weka是用Java写成的,它可以运行于几乎所有的操作平台,包括Linux,Windows等操作系统。 Weka平台提供一个统一界面,汇集了当今最经典的机器学习算法及数据预处理工具。做为知识获取的完整系统,包括了数据输入、预处理、知识获取、模式评估等环节,以及对数据及学习结果的可视化操作。并且可以通过对不同的学习方法所得出的结果进行比较,找出解决当前问题的最佳算法。 2005年8月,在第11届ACM SIGKDD国际会议上,怀卡托大学的Weka小组荣获了数据挖掘和知识探索领域的最高服务奖,Weka系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今最完备的数据挖掘工具之一(已有11年的发展历史)。Weka的每月下载次数已超过万次。 Weka平台在哪里下载?如何安装? 用户可到 http:/www.cs.waikato.ac.nz/ml/weka/index_downloading.html上下载与具体操作系统相匹配的安装文件,然后在已安装了Java的机器上以通常的方式运行weka 3.5.5.exe 。 https:/liulizhen.ie.cnu.edu.cn 用户名:liulizhen 口令:2001123 Weka包含了什么? Weka提供了许多用于数据可视化及预处理的工具(也称作过滤器),包括种类繁多的用于数据集转换的工具等。所有机器学习算法对输入数据都要求其采用ARFF格式。 Weka作为一个公开的知识过去的工作平台,集合了大量能承担数据(知识)挖掘任务的机器学习算法,包括分类,回归、聚类、关联规则等。 如果想实现自己提出或改进的数据挖掘算法,可以根据Weka的接口文档,在Weka中集成自己的算法。Weka的使用方法一、是将一种学习方法应用于一个数据集,然后分析其输出,从而更多地了解这些数据(分析数据集的潜在知识)。二、是使用已学习到的模型对新的实例做出分类预测三、是应用几种不同的学习器,再根据它们的性能表现选择其中一种用来做预测。在Weka中将学习方法又称作分类器或学习器,用户可在Weka互动式界面的菜单中选择一种想要的分类器。许多分类器带有可调节的参数,这些参数可通过属性列表或对象编辑器进行更改。所有学习器的性能都是通过一个共同的评估模块进行衡量。 与选择学习器一样,用户也要从菜单中选择能满足或对应该学习器的过滤器(进行数据预处理)。不同的过滤器具有不同的参数。 Weka与许多数据分析软件一样,Weka所处理的数据集是一个二维的表格 这里我们要介绍一下Weka中的术语。表格里的一个横行称作一个实例(Instance),相当于统计学中的一个样本,或者数据库中的一条记录。竖行称作一个属性(Attrbute),相当于统计学中的一个变量,或者数据库中的一个字段。这样一个表格叫做数据集,在Weka看来,呈现了属性之间的一种关系(Relation)。图中一共有14个实例,5个属性,关系名称为“weather”。 Weka存储数据的格式是ARFF(Attribute-Relation File Format)文件,这是一种ASCII文本文件。 图1所示的二维表格存储在如下的ARFF文件中。这也就是Weka自带的“weather.arff”文件,在Weka安装目录的“data”子目录下可以找到。简单说明在第三列数据 85 90 86 96 . 是相应的“humidity”值。其次,最后一个声明的属性被称作class属性,在分类或回归任务中,它是默认的目标变量。 都是以字母开头的字符串 每个实例占一行。实例的各属性值用逗号“,”隔开。如果某个属性的值是缺失值(missing value),用问号“?”表示. 如:data sunny,85,85,FALSE,no ?,78,90,?,yes 识别ARFF文件的重要依据Weka中的属性介绍数据集中的每一个属性都有它对应的“attribute”语句,来定义它的属性名称和数据类型。 Weka支持的有四种,分别是 numeric-数值型 nominal-specification-分类(nominal)型 string-字符串型 date -日期和时间型数值属性:是整数或者实数,但Weka把它们都当作实数看待。字符串属性:可以包含任意的文本。这种类型的属性在文本挖掘中非常有用。如:ATTRIBUTE LC string 分类属性:由列出所有可能的类别名称并放在花括号中,如:attribute outlook sunny, overcast, rainy 。每个实例对应的“outlook”值必是这三者之一。日期和时间属性:统一用“date”类型表示,它的格式是:attribute date 其中是这个属性的名称,是一个字符串,来规定该怎样解析和显示日期或时间的格式, 默认的字符串是ISO-8601所给的日期时间组合格式“yyyy-mm-dd hh:mm:ss”。 数据信息部分表达日期的字符串必须符合声明中规定的格式要求Weka中的属性举例日期属性的值必须与属性声明中给定的相一致。例如:RELATION TimestampsATTRIBUTE timestamp DATE yyyy-mm-dd hh:mm:ss 是分行,因此不能在这种文件里随意的断行。空行(或全是空格的行)将被忽略。 需要注意的是,在Windows记事本打开“weather.arff”文件时,可能会因为回车符定义不一致而导致分行不正常。推荐使用UltraEdit这样的字符编辑软件察看ARFF文件的内容。DATA 2001-04-03 12:12:12 2001-05-03 12:59:55 Weka中的属性举例 日期属性的值必须与属性声明中给定的相一致。例如:RELATION TimestampsATTRIBUTE timestamp DATE yyyy-mm-dd hh:mm:ss 字符串属性和分类属性的值是区分大小写的。若值中含有空格,必须被引号括起来。例如:relation LCCvsLCSHattribute LCC stringattribute LCSH stringdataAG5, Encyclopedias and dictionaries.;Twentieth century. AS262, Science - Soviet Union - History. 1.2第二节 Weka中的数据准备稀疏数据 有的时候数据集中含有大量的0值(比如购物篮分析),这个时候用稀疏格式的数据存贮更加省空间。稀疏格式是针对数据信息中某个实例的表示而言,不需要修改ARFF文件的其它部分。看如下的数据:data 0, X, 0, Y, class A 0, 0, W, 0, class B用稀疏格式表达的话就是data 1 X, 3 Y, 4 class A 2 W, 4 class B每个实例用花括号括起来。实例中每一个非0的属性值用 表示。是属性的序号,从0开始计;是属性值。属性值之间仍用逗号隔开。 注意在稀疏格式中没有注明的属性值不是缺失值,而是0值。若要表示缺失值必须显式的用问号表示出来 使用Weka作知识获取,面临的第一个问题往往是我们的数据不是ARFF格式的。Weka提供了对CSV(Comma Separate Values )文件的支持,而这种格式是被很多其他软件所支持的,经常用来作为不同程序之间的数据交互的格式。具体文件格式为: 第一条记录,可以是字段名每条记录占一行 以逗号为分隔符 逗号前后的空格会被忽略 字段中包含有逗号,该字段必须用双引号括起来 字段中包含有换行符,该字段必须用双引号括起来 字段前后包含有空格,该字段必须用双引号括起来 字段中的双引号用两个双引号表示 例如:John,Doe,120 jefferson st.,Riverside, NJ, 08075Jack,McGinnis,220 hobo Av.,Phila, PA,09119John Da Man,Repici,120 Jefferson St.,Riverside, NJ,08075Stephen,Tyler,7452 Terrace At the Plaza road,SomeTown,SD, 91234,Blankman,SomeTown, SD, 00298Joan the bone, Anne,Jet,9th, at Terrace plc,Desert City,CO,00123在这里,我们以Excel和Matlab为例,说明如何获得CSV文件。然后我们将知道CSV文件如何转化成ARFF文件,面对一个ARFF文件,我们仍有一些预处理要做,才能进行挖掘任务。 MATLAB是由美国MathWorks公司推出的用于数值计算和图形处理计算系统环境,除了具备卓越的数值计算能力外,它还提供了专业水平的符号计算,文字处理,可视化建模仿真和实时控制等功能. MATLAB的基本数据单位是矩阵,它的指令表达式与数学,工程中常用的形式十分相似,故用MATLAB来解算问题要比用C,FORTRAN等语言简捷得多.MATLAB是国际公认的优秀数学应用软件之一. MATLAB是英文MATrix LABoratory(矩阵实验室)的缩写.20世纪80年代初期,Cleve Moler与John Little等利用C语言开发了新一代的MATLAB语言,此时的MATLAB语言已同时具备了数值计算功能和简单的图形处理功能.1984年,Cleve Moler与John Little等正式成立了Mathworks公司,把MATLAB语言推向市场,并开始了对MATLAB工具箱等的开发设计.1993年,Mathwo
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号