资源预览内容
第1页 / 共22页
第2页 / 共22页
第3页 / 共22页
第4页 / 共22页
第5页 / 共22页
第6页 / 共22页
第7页 / 共22页
第8页 / 共22页
第9页 / 共22页
第10页 / 共22页
亲,该文档总共22页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
数据挖掘WEKA试验汇报 数据挖掘-wAkA试验汇报一、AwEkA软件介绍在我所从事的证券行业中,存在着海量的信息和数据,不过这些数据日常知识发挥了一小部分的作用,其包含了大量的隐性的信息并不为所用,不过却能够为部分企业的决议和对用户的服务提供不小的价值。所以,我们能够经过部分数据采集、数据挖掘来取得潜在的有价值的信息。数据挖掘就是经过分析存在于数据库里的数据来处理问题。在数据挖掘中计算机以电子化的形式存放数据,而且能自动的查询数据,经过关联规则、分类于回归、聚类分析等算法对数据进行一系列的处理,寻求和描述数据里的结构模式,进而挖掘出潜在的有用的信息。数据挖掘就是经过分析存在于数据库里的数据来处理问题。wEkA的出现让我们把数据挖掘无需编程即可轻松搞定。wEkA是由新西兰怀卡托大学开发的开源项目,全名是怀卡托智能分析环境(waikatoEnvironmentforknowledgeAnalysis)。wEkA是由jAVA编写的,它的源代码可经过XX/ml/wEkA得到,而且限制在GBU通用公众证书的条件下公布,能够运行在全部的操作系统中。是一款无偿的,非商业化的机器学习和数据挖掘软件wEkA作为一个公开的数据挖掘工作平台,集合了大量能负担数据挖掘任务的机器学习算法,包含对数据进行预处理,分类,回归、聚类、关联规则和在新的交互式界面上的可视化。假如想自己实现数据挖掘算法的话,能够看一看wEkA的接口文档。在wEkA中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。安装wEkA也十分简单,首相要下载安装jDk环境,jDk在这个页面能够找到它的下载XX/javase/downloads/。点击jDk6以后的Download按钮,转到下载页面。选择Accepct,过一会儿页面会刷新。我们需要的是这个windowsofflineInstallation,,点击它下载。也能够右键点击它上面的链接,在Flashget等工具中下载。安装它和通常软件没什么区分。不过中间会中止一下提醒你安装jRE,一并装上即可。以后就是安装wEkA软件,这个在网上很多地方全部有。一样简单地按默认方法安装后即可使用。点击开启运行wEkA软件后,我门发觉wEkA存放数据的格式是ARFF(Attribute-RelationFileFormat)文件,这是一个AScII文本文件。我们图1经过软件的Tools菜单进入ArffViewer能够在安装目录下查看软件自带的多个ARFF文件。图1图2图2,打开文件后选择data自目录下的任意一张表,我们全部能够看到图3所表示的二维表格存放在以下的ARFF文件中。这也就是wEkA自带的文件。这里我们要介绍一下wEkA中的术语。表格里的一个横行称作一个实例(Instance),相当于统计学中的一个样本,或数据库中的一条统计。竖行称作一个属性(Attrbute),相当于统计学中的一个变量,或数据库中的一个字段。这么一个表格,或叫数据集,在wEkA看来,展现了属性之间的一个关系(Relation)。图1中一共有22个实例,5个属性,关系名称为“contact-lenses”。除了ARFF格式,wEkA还支持另外一个常见格式,cSV格式。cSV一样是一个二进制保留的文本格式,我们能够在wEkA中直接打开cSV格式的文件,并保留为ARFF格式。这么就给我提供了把常见的数据格式转换为ARFF格式的方法,如对于Excel文件,我们能够经过把每张表保留为cSV格式,进而保留为ARFF格式,和此同时,我们能够利用filter对数据进行对应的预处理。而对于matlab格式的数据,我们能够经过命令csvwrite把数据转化成cSV格式的文件,进而转化为ARFF格式文件。对于海量数据,通常保留在数据库中,wEkA同时支持jDBc访问数据库。图3打开wEkA,首先出现一个命令行窗口。原认为要在这个命令行下写java语句呢,不过稍等一秒,wEkAGUIchooser的出现了。这是一个很简单的窗体,提供四个按钮:SimplecLI、Explorer、Experimenter、knowledgeFlow。SimplecLI应该是一个使用命令行的界面,有点像SAS的xx器;Explorer是则是视窗模式下的数据挖掘工具;Experimenter和knowledgeFlow的使用有待深入探索.图4(1)Explorer使用wEkA探索数据的环境。在这个环境中,wEkA提供了数据的预处理,数据格式的转化(从cSV格式到ARFF格式的转化),多种数据挖掘算法(包含分类和回归算法,聚类算法,关联规则等),并提供了结果的可视化工具。对于一个数据集,经过简单的数据的预处理,并对数据挖掘算法进行选择(在版本以后,加入了算法的过滤功效,能够过滤掉那些不适合目前数据集类型的算法),接着经过窗口界面对算法的参数进行配置。可视化工具分为对数据集的可视化和对部分结果的可视化,而且我们能够经过属性选择工具(SelectAttribute),经过搜索数据集中全部属性的可能组合,找出预计效果最好的那一组属性。Explorer是一般用户最常见的一个界面。用户能够从ARFF文件(weka使用的一个文本文件格式)、网页或数据库中读取数据集。打开数据文件后,能够选择算法对数据进行预处理。这时窗体上给出了这个数据集的部分基础特征,如含有多少属性,各属性的部分简单统计量,右下方还给出部分可视化效果图。这些全部是比较直观的分析,假如想发觉隐藏在数据集背后的关系,还需要选择weka提供的多种分类、聚类或关联规则的算法。全部设置完成后,点击Start按钮,就能够安心地等候weka带来最终的结果。哪些结果是真正有用的还要靠经验来判定。(2)Experimenter运行算法试验、管理算法方案之间的统计检验的环境。Experiment环境能够让用户创立,运行,修改和分析算法试验,这可能比单独的分析各个算法愈加方便。比如,用户可创立一次试验,在一系列数据集上运行多个算法(schemes),然后分析结果以判定是否某个算法比其它算法(在统计意义下)更加好。Explorermenter关键包含简单模式,复杂模式和远程模式。复杂模式是对简单模式的基础功效的扩充,而远程模式许可我们经过分布式的方法进行试验。就功效模块而言,分为设置模块,运行模块和分析模块。在设置模块中我们能够自定义试验,加入多个算法和多方的源数据(支持ARFF文件,cSV文件和数据库),在运行模块中我们能够运行我们的试验,而在分析模块中,我们能够分析多种算法的的正确性,并提供了多种统计方法对结果进行检验比较。值得一提的是,我们能够把试验的多种参数,包含算法,数据集等,保留以方便下一次相同试验的进行;也能够把多种算法保留,方便应用在不一样的数据集上;假如数据集于数据库的话,试验在过程中能够中止并继续(原因能够是被中止或是扩展了试验),这么就不用重新运行那些已试验过的算法/数据集祝贺,而仅计算还没有被试验的那些。(2)knowledgeFlowExplorer的一个不足在于,当用户打开一个数据集时,全部数据将全部被读入到主存当中,伴随任务规模的增大,一般配置的计算机极难满足要求。knowledgeFlow提供了一个用于处理大型数据集的递增算法,专门处理这一问题。这个环境本质上和Explorer所支持的功效是一样的,不过它有一个能够拖放的界面。它有一个优势,就是支持增量学习(incrementallearning)。knowledgeFlow为wEkA提供了一个数据流形式的界面。用户能够从一个工具栏中选择组件,把它们放置在面板上并按一定的次序连接起来,这么组成一个知识流(knowledgeflow)来处理和分析数据。现在,全部的wEkA分类器(classifier)、筛选器(filter)、聚类器(clusterer)、载入器(loader)、保存器(saver),和部分其它的功效能够在knowledgeFlow中使用。knowledgeFlow能够使用增量模式(incrementally)或批量模式(inbatches)来处理数据(Explorer只能使用批量模式)。当然对数据进行增量学习要求分类器能够依据各实例逐一逐一的更新现在wEkA中有五个分类器能够增量地处理数据:NaiveBayesUpdateable,IB1,IBk,LwR(局部加权回归)。还有一个meta分类器RacedIncrementalLogitBoost能够使用任意基于回归的学习器来增量地学习离散的分类任务。(4)SimplecLI提供了一个简单的命令行界面,能经过键入文本命令的方法来实现其它三个用户界面所提供的全部功效,从而能够在没有自带命令行的操作系统中直接实施wEkA命令。使用命令行有两个好处:一个是能够把模型保留下来,这么有新的待预计数据出现时,不用每次重新建模,直接应用保留好的模型即可。另一个是对预计结果给出了置信度,我们能够有选择的采纳预计结果,比如,只考虑那些置信度在85%以上的结果。二、试验案例介绍本文用wEkA软件作为工具,结合券商的基金某一个时段交易业务数据进行分析。试验的数据是一个交易周的基金交易业务数据。该表含有date(日期)、fund_code(基金代码)、fund_name(基金名称)、company_code(基金企业代码)、company(基金企业名称)、business_code(业务代码)、business_name(业务名称)、shares(基金份额)、balance(资金金额)、fares(手续费)、fares_type(手续费类型)、internet_shares(网上交易基金份额)、internet_balance(网上交易资金金额)、remark(备注)等字段,经过试验,期望能找出用户的基金交易分布情况。该数据的数据属性以下:ldate(numeric),交易发生日期;lfund_code(numeric),基金代码;lfund_name(character),基金名称;lcompany_code(numeric),用于报送的基金企业代码;lcompany(character),所属的基金企业;lbusiness_code(numeric),交易业务代码;lbusiness_name(character),交易业务名称;lshares(numeric),基金交易份额;lbalance(numeric),资金交易金额;lfares(numeric),交易手续费;lfares_type(enum),手续费类型,取值范围“全额结算”/“净额结算”;linternet_shares(numeric),网上交易基金份额;linternet_balance(numeric),网上交易资金金额;lremark(character),备注;三、数据分析我们给出一个cSV文件的例子()。用UltraEdit打开它能够看到,这种格式也是一个逗号分割数据的文本文件,储存了一个二维表格。Excel的XLS文件能够让多个二维表格放到不一样的工作表(Sheet)中,我们只能把每个工作表存成不一样的cSV文件。打开一个XLS文件并切换到需要转换的工作表,另存为cSV类型,点“确定”、“是”忽略提醒即可完成操作。需要注意的是,matllab给出的cSV文件往往没有属性名(Excel给出的也有可能没有)。而wEkA必需从cSV文件的第一行读取属性名,不然就会把第一行的各属性值读成变量名。所以我们对于matllab给出的cSV文件需要用UltraEdit打开,手工添加一行属性名。注意属性名的个数要跟数据属性的个数一致,
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号