资源预览内容
第1页 / 共17页
第2页 / 共17页
第3页 / 共17页
第4页 / 共17页
第5页 / 共17页
第6页 / 共17页
第7页 / 共17页
第8页 / 共17页
第9页 / 共17页
第10页 / 共17页
亲,该文档总共17页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
江苏师范大学计 算 机 科 学 与 技 术 学 院实验报告课程:_人工智能_学号:_130268096_姓名:_朱向其_班级:_13计82_教师:_郝国生_第一次实验实验目的:对visirex做基本的了解,明白visirex到底是什么,有什么用途。visirex是一个令人兴奋的新的工具,能够进行数据挖掘和知识发现隐藏在任何数据库中的规则提取。它可以在任何数据库中发现有趣的和有用的模式和规则。当发现这些规则之后,它会在您的数据上生成全面的统计报表,建立可调整树修剪的颜色编码决策树,在观察不符合正常行为的异常情况时浏览你的数据,将你的数据分割成相似的集群,使用您的数据的一部分建立预测模型,然后测试使用另一部分的模型,最后执行“活的预测”以交互实验与数据值。visirex是了解你的数据的快速和容易的方法。操作流程如下:点击visrex进入您的数据库并选择所需的表。选择要使用的字段作为预测目标。选择要使用的字段作为提取的规则的输入。选择您希望使用的数据的多少行。观察提取的规则作为颜色编码的流程图或树图。实验与交互式修剪提取的规则树。visirex的用途:1、商业用途:可以根据数据进行各种调查分析,例如哪些客户有可能购买哪些产品?哪些产品有可能与其他产品销售?在什么地区?在什么季节?以什么价格?我们新的分公司的最佳位置是什么?哪些交易有可能是欺诈?哪些客户可能会造成信用风险?我们的销售如何应对各种经济指标?到天气?我们的竞争对手下一步要做什么?在选择一个良好的股市投资有哪些因素是重要的?2、医学和科学研究用途:哪一个医疗测试应该做什么才能到达一个可靠的诊断?哪一个医疗病人应该寻求第二个意见,他们的诊断?什么药物的病人可能会受益于什么药物和治疗的组合。什么样的科学观察,收集,以达到一个结论?什么因素的组合是重要的,得出一个结论?科学实验如何对各种参数作出反应?3、工业用途:哪些质量控制测试是必要的?多余的吗?无关吗?哪些工艺参数具有重要的下游效应。在找矿勘探和石油勘探领域中,哪些因素的组合是很重要的?一个熟练的操作人员如何应对过程中的违规行为?如何预测和诊断机械问题?4、许多其他用途:经济学、计量经济学建模与金融市场。预测、建模与调度。刑事侦查与执法。政治、选举与公共政策。体育博彩、赛马和赌博等等。第二次实验实验目的:了解visirex对数据的要求及其功能。visirex规格:visirex是基于一个高度优化的J. Ross Quinlan出版的C4.5算法版本。visirex是一个32位的程序需要Windows 95,98,ME,2000或Windows NT4(SP3)。visirex对数据的要求:1、数据必须在一个表包含在Access 97的MDB文件,高达1G大小。2、visirex导入功能将任何逗号分隔的文本文件(CSV)MDB格式。3、visirex只读取数据文件。您的数据从来没有以任何方式修改。4、visirex可以链接到最常用的数据库如果你已安装的ODBC驱动程序。5、数据可能包含2到250个字段和任何数量的记录。6、必须将一个数据字段设置为主键索引。7、字段可以是位、字节、整数、浮点数、日期或文本类型。8、文本字段中选择使用的visirex最多可以有256个独特的价值观。visirex的功能有:1、易用性是设计visirex的终极目标。2、数据可以从ASCII文本文件导入。3、可以选择哪些领域是由visirex规则提取方法。4、可以选择是否使用数字字段作为连续值或不谨慎的类。5、可以选择用于训练规则提取的哪些行,以及用于以后测试的哪些行。6、几个sivirex项目可能共享相同的源数据库。7、包含缺失值的行将自动被检测和处理。8、提取的规则可以被视为在任一流程图格式或树格式。9、提取规则可以交互地修剪相结合的两种剪枝算法。10、流程图节点可以是颜色编码的,以指示数据量,预测的信心,或预测趋势。11、流程图上的每一个点报告数据量和预测置信度。12、流程图可以平铺您的打印机,或导出到Visio。13、综合统计报表自动编译为您的数据库。14、混淆矩阵显示实际与预测的所有类。15、数据可以被细分,然后根据浏览和出口位置对流程或混淆矩阵。16、数据浏览允许多个排序,文本中发现,和标记设置。17、checkmarked行不得出口作为一个新的MDB数据库或CSV文件是ASCII。18、可以进行现场预测,使您能够以字段值进行交互实验。19、上下文敏感的帮助文件回应你的F1键。速度测试:这些惊人的速度实现了一个单独的400兆赫奔腾II计算机使用128 MB的RAM和硬盘驱动器。癌症数据库包含458行数据。使用9个数字输入字段,一个规则树组成的45个节点中提取1秒。蘑菇数据库包含8124行数据。数据用17秒钟最初加载到visirex。使用22个文本输入字段的规则树组成的29个节点中提取1秒。测试这棵树的所有行需要15秒。状态数据库包含28052行数据。数据用5秒钟最初加载到visirex。使用2个数字输入字段,一个规则树组成的225个节点被提取在4秒。一个未修剪的树组成的1429个节点在6秒中。测试这1429个节点的树,所有行需要11秒。一个制造的数据库包含100万行数据。项目创建中的数据统计的收集花了10.5分钟。花了6分钟的数据加载到visirex最初。使用4个文本字段加上2个数字字段,一个规则树组成的17个节点被提取在18秒。测试这棵树的所有万行所需的11分钟。第三次试验实验目的:了解Visirex的原理。Visirex是基于归纳提取规则的专家系统。归纳规则提取与机器学习、知识发现、专家系统和人工智能。规则提取有时被称为“决策树分类”。方法取决于“熵”的概念,这是一个科学家所使用的术语来衡量的随机性,障碍或人口的不确定性。使用领域的信息熵理论引入了克劳德香农40年前。-Entopy = P * log2(P)+ Q * log2(Q)下面的例子是为了给一个简短的演示如何熵可以用来从一个数据库中提取规则。想象一个大型数据库的病人只包含一个字段作为“生病”或“健康”。你的工作是做一个诊断使用任何信息从数据库这一列可以提取。现在假设你发现所有的病人显示为健康。健康的部分是100%(P = 1);而生病的部分是0%(Q = 0)。对于这个示例,熵log2(1)+ 0 = 1 * * log2(0),熵= 0.0暗示没有随机性,因此诊断为“健康”可以用高的信心。同样,如果所有患者表现为生病的,健康的部分是0%(P = 0);而生病的部分是100%(Q = 1)。对于这个示例,熵值= 0 * log2(0)+ 1 * log2(1),熵= 0.0暗示没有随机性,因此诊断为“生病”可以用高的信心。最坏的情况下发生在病人健康和生病的一半的一半。健康的部分是50%(P = 0。5);而生病的部分是50%(Q = 5)。对于这个示例,熵=。5 * log2(5)+。5 * log2(5),熵= 1.0这意味着完全的随机性。这个数据库包含零信息诊断。注意熵的值总是介于0和1之间。现在假设上述数据库扩大到包括字段时代(“年轻”或“老”)和(财富)(“富人”或“贫穷”)。你确定,80%的患者是年轻和年老的20%。请尝试把数据分成两个部分基于年龄,并计算每个部分的熵诊断。“年轻”部分熵=.65,“年老”部分熵=.55。结合总体熵时代是加权平均,(80% *.65)+(20% * 55)=.63接下来,您确定60%是贫穷和40%很富有。请尝试把数据分成两个部分基于财富,和计算的熵诊断为每个部分。“穷”部分熵=.45岁,富人”部分熵=.05。结合总体熵加权平均(财富),(60% *。45)+(40% * . 05)= 29较低(.29)熵(财富)和更高的熵(.63)(年龄)告诉你(财富)包含更多的信息比年龄诊断。因此,您应该使用(财富)作为第一个决策树的分支。你继续这个过程进一步构建树,总是选择字段与最小熵的演化树的分支。BackProp之间选择,Sfam VisiRexBackProp使用数字输入预测数值SFAM使用数字输入预测类或类别VisiRex使用数字和文本输入发现规则中包含的数据。发现规则用来预测一个类或类别。可以转换成数值预测类预测除以目标数字范围,例如:“高、中、低”。BackProp可以用于分类,尤其是如果数据很脏。但是,你必须展示你的类作为数值。如果数据包含任何明显的矛盾尽量避免使用SFAM。BackProp会过滤掉噪音异常,而SFAM倾向于模仿声音。在某些情况下,数据可以使用BackProp清洗,然后使用SFAM项目可以完成。一般来说,BackProp是一个更强大的方法。例如,如果预测取决于一些许多输入字段之间的数学关系,BackProp将可以执行SFAM。SFAM倾向于提供一个简单的基于相似度的模糊查找表(映射)多维输入空间中的坐标。应该使用VisiRex如果你想发现数据背后的规则。例如,哪些输入最重要的结合其他输入。第四次实验试验目的:完成软件的安装并熟悉该程序。Visirex软件的安装。安装visirex 2版,只需运行程序visi20.exe并按照屏幕上的提示。visirex将安装到您所选择的程序目录。样本数据文件的分类将被安装在一个子目录名为“数据”,在你的程序目录。小描述性的文本文件(.txt)将安装的每一个数据文件。几样项目安装在子目录下的“项目”,在你的程序目录。您可能会创建许多新的项目,如您所希望的行限制您当前的注册级别。每一个项目都链接到一个数据文件。项目组将被添加到您的开始菜单的程序。一个可选的快捷方式可能会添加到桌面。注册表将更新包括一个新的文件关联,点击.VRP文件将自动启动,项目visirex。注册表将被更新,以便所有.VRP项目文件有“visirex”图标。已安装的文件列表程序文件放置在选择的程序目录visirex.exe(主要visirex程序)visihelp.exe(visirex帮助文件)第五次实验实验目的:了解探索软件,明白每个按钮的作用功能,掌握如何实用软件。运行visirex,点击桌面图标。一、文件菜单1、文件,新项目选择一个名称来创建一个新的visirex项目。2、文件,打开项目选择前一个项目。3、文件,关闭项目关闭当前项目。4、文件,提取文件第一个向导屏幕是字段选择,指定要预测的字段和希望考虑的其他字段作为预测的输入。第二个向导屏幕是行选择,指定要使用什么行的规则提取和什么行被用于以后的测试所提取的模型。第三向导是实际的规则提取屏幕。在这里交互实验与树的修剪,同时观察提取的树的视觉图像。5、文件,导入此功能允许使用电子表格和文本编辑器的数据。6、文件,导出到Visio创建一个文本文件中的流程图描述的格式是可读的流行程序Visio流程图。7、文件,打印当前窗口此功能将当前visirex窗口屏幕截图您的打印机。8、文件打印Flow Chart将当前流程图发送给您的打印机。9、文件,退出退出visirex程序。二、编辑菜单1、编辑,复制字段此功能将复制当前字段到您的Wi
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号