人工智能ppt chapter5_3-

第五章知识学习,人工智能及其应用,1,内容提要：知识学习概念、原理及分类神经网络学习神经网络模型知识发现与Agent技术,Hopfield神经网络,人工智能及其应用,2,1982年和1984年，美国加州理工学院物理学家霍普菲尔德(J.J.Hopfield)在神经网络建模及应用方面取得了开创性研究成果，先后提出了离散型Hopfield神经网络和连续型Hopfield神经网络，引入“计算能量函数”的概念，给出了网络稳定性判据，尤其是给出了Hopfield神经网络的电子电路实现，为神经计算机的研究奠定了基础，同时开拓了神经网络用于联想记忆和优化计算的新途径，从而有力地推动了神经网络的研究。这两种模型是目前最重要的神经优化计算模型之一。,Hopfield神经网络,人工智能及其应用,3,Hopfield神经网络无论是是离散型，还是连续型，都是反馈网络结构。下图给出了一个简单的反馈神经网络图。,离散型Hopfield神经网络,人工智能及其应用,4,离散网络模型是一个离散时间系统，每个神经元只有两个状态，可以用1和0来表示，由连接权值ij所构成的矩阵是一个对角线为0的对称矩阵。离散型Hopfield神经网络的结构：,离散型Hopfield神经网络,人工智能及其应用,5,网络的稳定性：由于在反馈网络中，网络的输出要反复地作为输入再送入网络中，这就使得网络具有了动态性，网络的状态在不断的改变之中，因而就提出了网络的稳定性问题。所谓一个网络是稳定的是指从某一时刻开始，网络的状态不再改变。连接权值构成的矩阵是非负对角元的对称矩阵，该网络就具有串行稳定性；若该矩阵为非负矩阵，则该网络就具有并行稳定性。,连续型Hopfield网络,人工智能及其应用,6,1984年，Hopfield又提出了连续时间的神经网络，在这种神经网络中，各节点可在0到1的区间内取任一实数值。连续型Hopfield网络神经元电路模型:,连续型Hopfield网络,人工智能及其应用,7,连续型Hopfield网络的特征: 神经元的传输特性具有S特性；细胞具有时空整体作用；神经元之间存在的兴奋和抑制性联结通过反馈来实现；既有代表产生动作电位的神经元，又有代表按渐进方式工作的神经元的能力，准确地保留了生物神经网络的动态和非线性特征，有助于理解大量神经元之间的协同作用是如何产生巨大的计算能力的。通过能量函数，使得Hopfield具有自动求极小值的计算功能。,人工智能及其应用,8,5.4 知识发现与Agent技术,知识发现的过程知识发现的方法知识发现中的数据挖掘技术 Agent技术,人工智能及其应用,9,5.4.1 知识发现的过程,简史：知识发现是1989年8月在美国底特律举行的第11届国际人工智能联合会议上提出来的。 1991、1993和1994年又举行了KDD专题讨论会。从1995年以来，每年举办一次KDD国际会议。 1997年，国际专业杂志Knowledge Discovery and Data Mining问世。随着互联网的发展，网上已设立了不少研究KDD的网站、论坛和新闻报导。在这些研究的基础上，产生了一些KDD产品和应用系统，并引起企业界的关注。,人工智能及其应用,10,5.4.1 知识发现的过程,定义: 从大量数据集中辨识出有效的、新颖的、潜在有用的、并可被理解的模式的高级处理过程。知识发现过程：,人工智能及其应用,11,5.4.2 知识发现的方法,统计方法：机器学习方法神经计算方法可视化方法,人工智能及其应用,12,1.统计方法,从事物数量上的外在表现去推断该事物的可能规律性：传统方法：主要研究渐近理论，即当样本趋向于无穷多时的统计性质。主要考虑测试预想的假设是否与数据模型拟合，它依赖于显式的基本概率模型。处理过程分三个阶段：搜集数据：采样、实验设计。分析数据：建模、知识发现、可视化。进行推理：预测、分类。常用方法有回归分析、判别分析、聚类分析及探索性分。,人工智能及其应用,13,1.统计方法,模糊集：表示和处理不确定性数据的重要方法，它不仅可以处理不完全数据、含噪或不精确数据，而且在开发数据的不确定性模型方面十分有效，性能比传统方法更灵巧、更平滑。支持向量机：建立在钟聲挚习理结构风险最小化原则之上的，其主要思想是针对两类分类问题，在高维空间中寻找一个超平面作为两类的分割，以保证最小的分类错误率。SVM的一个重要优点是可以处理线性不可分的情况。粗糙集：由波拉克(Pawlak)在1982年提出，用于处理含糊性和不确定性问题。与模糊集一样，它常与规则归纳、分类和聚类方法结合起来使用，很少单独使用。,人工智能及其应用,14,2.机器学习方法,规则归纳：规则反映数据项中某些属性或数据集中某些数据项之间的统计相关性。决策树：决策树的每一个非终端叶结点表示所考虑数据项的测试或决策。一个确定分枝的选择取决于测试的结果。为了对数据集分类，从根结点开始，根据判定自顶向下，趋向终端叶结点。当到达终端叶结点时，决策树生成。范例推理：直接使用过去的经验或解法来求解给定问题。科学发现：在实验环境下发现科学定律。遗传算法：在问题求解过程中，通过最好解的选择和彼此组合，使期望解的集合越来越好。在数据挖掘中，遗传算法用来形成变量间依赖关系的假设。,人工智能及其应用,15,神经网络的并行分布式信息处理与学习能力，可以作为知识发现的手段。常用的神经计算模型有多层感知机、BP网络模型和Hopfield网络等。,3.神经计算方法,4.可视化方法,可视化( Visualization)就是把数据、信息和知识转化为可视表示的过程。快速图形处理器和高分辨率彩色显示器的发展更提高了人们对信息可视化的兴趣和信心。使用有效的可视化界面，可以快速、高效地与大量数据打交道，以发现其中隐藏的特征、关系、模式和趋势等。,人工智能及其应用,16,5.4.3 知识发现中的数据挖掘技术,数据挖掘及其研究内容数据挖掘分类数据挖掘的模型与算法数据挖掘工具,人工智能及其应用,17,1、数据挖掘及其研究内容,定义: 从技术上：从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含的、事先不知道的、但又是潜在有用的信息和知识。从商业上：数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和模型化处理，从中提取辅助决策的关键性数据。,人工智能及其应用,18,2、数据挖掘分类,根据挖掘对象，数据库分为: 关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库，以及万维网。根据挖掘任务，知识发现任务分为：分类或预测模型知识发现、数据总结、数据聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等。根据挖掘方法分：统计方法、机器学习方法、神经网络方法和数据库方法。根据系统应用分：金融、电信、商业预测等。,人工智能及其应用,19,3、数据挖掘模型与算法,人工神经网络决策树回归分析遗传算法邻近算法模糊逻辑规则推理,人工智能及其应用,20,（1）人工神经网络人工神经网络是一种仿照生物神经网络结构而建立的非线形预测模型，是数据挖掘中比较常用的模型与算法。使用人工神经网络时需要注意的几点事项：神经网络很难解释，目前还没有能对神经网络做出显而易见解释的方法学。神经网络会学习过度，在训练神经网络时一定要恰当的使用一些能严格衡量神经网络的方法，如测试集方法和交叉验证法等。除非问题非常简单，训练一个神经网络可能需要相当长的时间才能完成。建立神经网络需要做的数据准备工作量很大。,3、数据挖掘模型与算法,人工智能及其应用,21,（2）决策树决策树是一种展示类似“在什么条件下会得到什么值”这类规则的方法。比如，在贷款申请中，要对申请的风险大小做出判断，下图（图10.1）是为了解决这个问题而建立的一棵决策树。,3、数据挖掘模型与算法,人工智能及其应用,22,数据挖掘中决策树是一种经常要用到的技术，可以用于对数据进行分析，同样也可以用来对某些事情进行预测。建立决策树的过程，即树的生长过程是不断的把数据进行分组的过程，每次分组对应一个问题，也对应着一个节点。每次分组都要求所分得的组之间的“差异”最大。各种决策树算法之间的主要区别就是对这个“差异”衡量方式的区别。决策树的优点是需要的计算资源较少，而且可以很容易的处理包含很多预测变量的情况。决策树擅长处理非数值型数据。,3、数据挖掘模型与算法,人工智能及其应用,23,（3）回归分析回归分析是通过具有已知值的变量来预测其他变量的值。最简单的情况是采用最小二乘法线性回归技术。但大多数现实世界中的问题是不能用简单的线性回归技术来预测的，如商品的销售量、股票价格、产品合格率等,很难找到简单有效的方法来预测，因为要描述这些事件的变化所需的变量往往以上百计，且这些变量本身又都是非线性的。为此人们又发明了许多新的手段来试图解决这个问题，如逻辑回归、多项数回归、对数回归、泊松回归等。,3、数据挖掘模型与算法,人工智能及其应用,24,（4）遗传算法GA(Genetic Algorithm) 本质上是一种不依赖具体问题的直接搜索方法。是一种基于进化理论，并采用自然选择、遗传交叉（或结合）及遗传变异等设计方法的优化技术。在执行遗传算法之前，给出一群“染色体”(以二进制编码串的形式表示)，也即是假设解。然后，把这些假设解置于问题的“环境”中，并按适者生存的原则，从中选择出较适应环境的“染色体”进行复制，再通过交叉、变异过程产生更适应环境的新一代“染色体”群。这样，一代一代地进化，最后就会收敛到最适应环境的一个“染色体”上，它就是问题的最优解。,3、数据挖掘模型与算法,人工智能及其应用,25,遗传算法在模式识别、神经网络、图像处理、机器学习、工业优化控制、自适应控制、生物科学、社会科学等方面都得到应用。尽管如此，遗传算法还存在许多不足之处，还有大量的问题需要研究：在变量多、取值范围大或无给定范围时，收敛速度下降；可找到最优解附近，但却无法精确确定最优解的位置；遗传算法的参数选择尚未有定量方法；对遗传算法，还需要进一步研究其数学基础理论；还需要在理论上证明它与其它优化技术的优劣及原因；还需研究硬件化的遗传算法；以及遗传算法的通用编程和形式等。,3、数据挖掘模型与算法,人工智能及其应用,26,（5）邻近算法邻近算法是一种将数据集合中每一个记录进行分类的方法。这种分类方式是通过查询已知类似的例子的情况，来判断新例子与已知例子是否属于同一类。尽管邻近算法存在许多变种，但其一般思路是: 首先存储全部（或选择部分）训练例子,再对测试例子，通过相似性函数计算它与所存储的训练例子的距离以决定类别的归属。 KNN就是一种邻近学习算法，它通过选择与测试例子最近的K个训练例子来实现。其中测试例子的类别通常是这K个例子中出现最多的类别。,3、数据挖掘模型与算法,人工智能及其应用,27,（6）模糊逻辑模糊逻辑使用0.00.1间的一个数值来表示某一数据在一定程度上属于某一类。一般情况下，在基于规则的系统中使用模糊逻辑时，要考虑以下问题：如何将连续的属性值转换成模糊值，也就是说，如何将连续的属性值映射到离散的分类上。如果有多个模糊逻辑规则时，如何选择可启用的规则。（7）规则推理规则推理是从统计意义上对数据中的“如果-那么”规则进行寻找和推导。它主要用于从数据库中挖掘所有的关联规则，是规则性知识发现的最有效方法。,3、数据挖掘模型与算法,人工智能及其应用,28,4、数据挖掘工具,(1)金融业 (2)保险业 (3)制造业 (4)市场和零售业 (5)医疗业 (6)司法 (7)工程与科学,人工智能及其应用,29,5.4.4 Agent技术,Agent技术的形成与发展 Agent理论与技术研究最早源于分布式人工智能(DAI, Distributed Artificial Intelligence)，并可追溯到1977年Hewitt提出的并发Actor模型， Actor模型可能是最早出现的智能Agent。 20世纪90年代之前，有关分布式人工智能的研究热点主要集中在解决支持分布式协同工作的“宏”问题。如智能Agent间的交互作用和通信、任务的分解和分配、协调和合作、协商解决冲突等，目的是探索由多个协作的智能Agent构建分布式问题求解系统的方法和技术。进入20世纪90年代，人们对智能Agent的行为理论、体系结构和相互间通信语言进行深入研究，开展了一些旨在发挥个体能力的多类型智能Agent的工作。,