人工神经网络基础知识-

2 人工神经网络基础知识人工神经网络基础知识 2.1人工神经网络的生物学基础人工神经网络的生物学基础人的智能来自于大脑，大脑是由大量的人的智能来自于大脑，大脑是由大量的神经细胞或神经元神经细胞或神经元组成的。每个神经元可以看作为一个小的组成的。每个神经元可以看作为一个小的处理单元处理单元，这些神经，这些神经元按照某种方式元按照某种方式互相连接互相连接起来，构成了大脑内部的起来，构成了大脑内部的生物神经元生物神经元网络网络，他们中各神经元之间连接的强弱，按照外部的激励信号他们中各神经元之间连接的强弱，按照外部的激励信号作自适应变化，而每个神经元又随着接收到的多个激励信号的作自适应变化，而每个神经元又随着接收到的多个激励信号的综合大小呈现兴奋或抑制状态。综合大小呈现兴奋或抑制状态。据现在的了解，据现在的了解，大脑的学习过大脑的学习过程就是神经元之间连接强度随外部激励信息做自适应变化的过程就是神经元之间连接强度随外部激励信息做自适应变化的过程，大脑处理信息的结果确由神经元的状态表现出来。程，大脑处理信息的结果确由神经元的状态表现出来。显然，显然，神经元是信息处理系统的最小单元。虽然神经元的类型有很多神经元是信息处理系统的最小单元。虽然神经元的类型有很多种，但其基本结构相似。种，但其基本结构相似。神经元是大脑处理信息的基本单元神经元是大脑处理信息的基本单元人脑约由人脑约由101l-1012个神经元组成，其中，每个神经元个神经元组成，其中，每个神经元约与约与104-105个神经元通过突触联接，形成极为错纵复个神经元通过突触联接，形成极为错纵复杂而且又灵活多变的神经网络杂而且又灵活多变的神经网络神经元以细胞体为主体，由许多向周围延伸的不规则树神经元以细胞体为主体，由许多向周围延伸的不规则树枝状纤维构成的神经细胞，其形状很像一棵枯树的枝干枝状纤维构成的神经细胞，其形状很像一棵枯树的枝干主要由细胞体、树突、轴突和突触主要由细胞体、树突、轴突和突触(Synapse，又称神经，又称神经键键)组成组成一、生物神经元一、生物神经元生物神经元网络结构生物神经元网络结构树突是树状的神经纤维接收网络，它将电信号传送到细胞体树突是树状的神经纤维接收网络，它将电信号传送到细胞体细胞体对这些输入信号进行整合并进行阈值处理细胞体对这些输入信号进行整合并进行阈值处理轴突是单根长纤维，它把细胞体的输出信号导向其他神经元轴突是单根长纤维，它把细胞体的输出信号导向其他神经元一个神经细胞的轴突和另一个神经细胞树突的结合点称为突触一个神经细胞的轴突和另一个神经细胞树突的结合点称为突触神经元的排列和突触的强度神经元的排列和突触的强度( (由复杂的化学过程决定由复杂的化学过程决定) )确立了神经网络确立了神经网络的功能。的功能。生物学研究表明一些神经结构是与生俱来的，而其他部生物学研究表明一些神经结构是与生俱来的，而其他部分则是在学习的过程中形成的。分则是在学习的过程中形成的。在学习的过程中，可能会产生一些新的连接，也可能会在学习的过程中，可能会产生一些新的连接，也可能会使以前的一些连接消失。这个过程在生命早期最为显著。使以前的一些连接消失。这个过程在生命早期最为显著。二、突触的信息处理二、突触的信息处理生物神经元传递信息的过程为多输入、单输出；生物神经元传递信息的过程为多输入、单输出；神经元各组成部分的功能来看，信息的处理与传递主要神经元各组成部分的功能来看，信息的处理与传递主要发生在突触附近；发生在突触附近；当神经元细胞体通过轴突传到突触前膜的脉冲幅度达到当神经元细胞体通过轴突传到突触前膜的脉冲幅度达到一定强度，即超过其阈值电位后，突触前膜将向突触间一定强度，即超过其阈值电位后，突触前膜将向突触间隙释放神经传递的化学物质；隙释放神经传递的化学物质；突触有两种类型，兴奋性突触和抑制性突触。前者产生突触有两种类型，兴奋性突触和抑制性突触。前者产生正突触后电位，后者产生负突触后电位。正突触后电位，后者产生负突触后电位。抑制性抑制性-神经神经元虽然接收到其他神经元传递的信息，但没有向外传递元虽然接收到其他神经元传递的信息，但没有向外传递信息，该神经元称信息，该神经元称“抑制性抑制性”的；的；兴奋性兴奋性-当一个神经当一个神经元的树突接收的兴奋信息累计超过阈值，该神经元被激元的树突接收的兴奋信息累计超过阈值，该神经元被激活并传递出信息给其他神经元。活并传递出信息给其他神经元。三、信息传递功能与特点三、信息传递功能与特点具有时空整合能力具有时空整合能力时间整合时间整合各输入脉冲抵达神经元的先后时间不同，一个脉冲引起的突触后电位各输入脉冲抵达神经元的先后时间不同，一个脉冲引起的突触后电位很小，但随着时间延续，另有脉冲到达，总的突触后电位就增大。很小，但随着时间延续，另有脉冲到达，总的突触后电位就增大。空间整合空间整合在同一时刻产生的刺激所引起的膜电位变化，大致等于各单独刺激引在同一时刻产生的刺激所引起的膜电位变化，大致等于各单独刺激引起的膜电位变化的代数和。这种累加求和称空间整合。起的膜电位变化的代数和。这种累加求和称空间整合。不可逆性，脉冲只从突触前传到突触后，不逆向传递不可逆性，脉冲只从突触前传到突触后，不逆向传递神经纤维传导的速度，即脉冲沿神经纤维传递的速度，在神经纤维传导的速度，即脉冲沿神经纤维传递的速度，在1150m1150ms s之间之间信息传递时延和不应期信息传递时延和不应期，一般为一般为0.30.3lmslms可塑性，突触传递信息的强度是可变的，即具有学习功能可塑性，突触传递信息的强度是可变的，即具有学习功能存在学习、遗忘或疲劳（饱和）效应存在学习、遗忘或疲劳（饱和）效应对应突触传递作用增强、减弱和饱和对应突触传递作用增强、减弱和饱和2、生物神经系统的六个基本特征：、生物神经系统的六个基本特征：1）神经元及其联接；）神经元及其联接；2）神经元之间的联接强度决定信号传递的强弱；）神经元之间的联接强度决定信号传递的强弱；3）神经元之间的联接强度是可以随训练改变的；）神经元之间的联接强度是可以随训练改变的；4）信号可以是起刺激作用的，也可以是起抑制作用的；）信号可以是起刺激作用的，也可以是起抑制作用的；5）一个神经元接受的信号的累积效果决定该神经元的状态；）一个神经元接受的信号的累积效果决定该神经元的状态；6) 每个神经元可以有一个每个神经元可以有一个“阈值阈值”。2.人工神经元模型人工神经元模型人工神经网络是在现代神经生物学研究基础上提出的模人工神经网络是在现代神经生物学研究基础上提出的模拟生物过程以反映人脑某些特性的计算结构。它不是人脑神拟生物过程以反映人脑某些特性的计算结构。它不是人脑神经系统的真实描写，而只是它的某种抽象、简化和模拟。根经系统的真实描写，而只是它的某种抽象、简化和模拟。根据前面对生物神经网络的研究可知，据前面对生物神经网络的研究可知，神经元及其突触是神经神经元及其突触是神经网络的基本器件网络的基本器件。因此，。因此，模拟生物神经网络应首先模拟生物模拟生物神经网络应首先模拟生物神经元神经元。在人工神经网络中，神经元常被称为在人工神经网络中，神经元常被称为“处理单元处理单元”。有。有时从网络的观点出发常把它称为时从网络的观点出发常把它称为“节点节点”。人工神经元是对人工神经元是对生物神经元的一种形式化描述，生物神经元的一种形式化描述，它对生物神经元的信息处理它对生物神经元的信息处理过程进行抽象，并用数学语言予以描述；对生物神经元的结过程进行抽象，并用数学语言予以描述；对生物神经元的结构和功能进行模拟，并用模型图予以表达。构和功能进行模拟，并用模型图予以表达。目前人们提出的神经元模型已有很多，其中最早提出且目前人们提出的神经元模型已有很多，其中最早提出且影响最大的，是影响最大的，是1943年年心理学家心理学家McCulloch和数学家和数学家WPitts在分析总结神经元基本特性的基础上首先提出的在分析总结神经元基本特性的基础上首先提出的MP模型模型。该模型经过不断改进后，形成目前广泛应用的形式神。该模型经过不断改进后，形成目前广泛应用的形式神经元模型。经元模型。关于神经元的信息处理机制，该模型在简化的基础上提关于神经元的信息处理机制，该模型在简化的基础上提出以下出以下6点约定进行描述：点约定进行描述：（1）每个神经元都是一个多输入单输出的信息处理单元；）每个神经元都是一个多输入单输出的信息处理单元；（2）突触分兴奋性和抑制性两种类型；）突触分兴奋性和抑制性两种类型；（3）神经元具有空间整合特性和阈值特性；）神经元具有空间整合特性和阈值特性；（4）神经元输入输出间有固定的时滞，主要取决于突触延搁；）神经元输入输出间有固定的时滞，主要取决于突触延搁；（5）忽略时间整合作用和不应期；）忽略时间整合作用和不应期；（6）神经元本身是非时变的，即其突触时延和突触强度均为常）神经元本身是非时变的，即其突触时延和突触强度均为常数。数。MP模型：模型：称为作用函数或激发函数称为作用函数或激发函数 MP模型模型n 作用函数作用函数n 求和操作求和操作 MP模型模型 f(x)是作用函数是作用函数(Activation Function)，也称激发函数。，也称激发函数。MP神经元模型中的作用函数为单位阶跃函数：神经元模型中的作用函数为单位阶跃函数：其表达式为：其表达式为：激发函数的基本作用激发函数的基本作用控制输入对输出的激活作用控制输入对输出的激活作用对输入、输出进行函数转换对输入、输出进行函数转换将可能无限域的输入变换成指定的有限范围内的输出将可能无限域的输入变换成指定的有限范围内的输出可知当神经元可知当神经元i i的输入信号加权和超过阈值时，输出为的输入信号加权和超过阈值时，输出为“1”“1”，即，即“兴奋兴奋”状态；反之输出为状态；反之输出为“0”“0”，是，是“抑制抑制”状态。状态。 MP模型模型例例、实现逻辑函数“与门”（AND gate）运算。1 真，0假人工神经元的数学模型描述人工神经元的数学模型描述：第第j个神经元，接受多个其它神经元个神经元，接受多个其它神经元i在在t时刻的输入时刻的输入xi(t)，引起，引起神经元神经元j的信息输出为的信息输出为yj(t):式中式中 wij神经元神经元i到到j的突触连接系数，即加权值；的突触连接系数，即加权值； j神经元神经元j的阈值；的阈值； ij输入、输出间的突触时延；输入、输出间的突触时延； f()神经元转移（激活）函数神经元转移（激活）函数.为简单起见，将上式中的突触时延取为单位时间，则为简单起见，将上式中的突触时延取为单位时间，则式中式中 netjj单元激活值；单元激活值；netj=其它各单元对第其它各单元对第j个单元的输入，通过加权，按某种运算把输入个单元的输入，通过加权，按某种运算把输入信号的综合作用整合起来，给出它们的总效果称净输入。净输信号的综合作用整合起来，给出它们的总效果称净输入。净输入整合表达应有多种方式，人们探索到的人脑空间整合方式近入整合表达应有多种方式，人们探索到的人脑空间整合方式近似为线性求和。即单元净输入表为似为线性求和。即单元净输入表为为简便起见，省去式中（为简便起见，省去式中（t）,而且常用向量表示而且常用向量表示式中式中均为列向量：均为列向量：若令若令至此，人工神经元数学模型可简化为至此，人工神经元数学模型可简化为看到，人工神经元模型较全面表现了前述点约定：看到，人工神经元模型较全面表现了前述点约定：（）单输入多输出（显见）；（）单输入多输出（显见）；（）用突触的正负体现突触的（）用突触的正负体现突触的“兴奋与抑制兴奋与抑制；（）净输入关系（）净输入关系net和阈值和阈值，表现了空间整合特性和阈，表现了空间整合特性和阈值特性；值特性；（）（）y(t+1)y(t+1)与与x(t)x(t)之间的单位时差表现了之间的单位时差表现了”突触延搁突触延搁“；（）没有考虑时间整合和不应期；（）没有考虑时间整合和不应期；（）权系数与时间无关，体现了神经元的（）权系数与时间无关，体现了神经元的”非时变非时变“。2.3人工神经元人工神经元转移函数移函数神经元的各种不同数学模型的主要区别在于采用了不同的神经元的各种不同数学模型的主要区别在于采用了不同的转移函数，从而使神经元具有不同的信息处理特性。而神经元转移函数，从而使神经元具有不同的信息处理特性。而神经元的信息处理特性、网络拓补结构和网络学习方式是决定人工神的信息处理特性、网络拓补结构和网络学习方式是决定人工神经网络整体性能的三大要素经网络整体性能的三大要素, 因此转移函数的研究具有重要意因此转移函数的研究具有重要意义。神经元的转移函数反映了神经元输出与其激活状态之间的义。神经元的转移函数反映了神经元输出与其激活状态之间的关系，目前提出了多种，最常用的转移函数有以下几种形式。关系，目前提出了多种，最常用的转移函数有以下几种形式。1 阈值型转移函数阈值型转移函数阈值型转移函数采用阈值型转移函数采用单单位阶跃函数位阶跃函数，也称硬限，也称硬限幅函数，用下式定义幅函数，用下式定义: 具有这一作用方式的神经元称为阈值型神经元，这是神经元模具有这一作用方式的神经元称为阈值型神经元，这是神经元模型中最简单的一种，经典的型中最简单的一种，经典的MP模型就属于此类。模型就属于此类。硬限幅函数也可采用硬限幅函数也可采用符号函数符号函数，如图，用下式定义，如图，用下式定义2 非线性转移函数非线性转移函数常用的是常用的是单极性单极性sigmoid函数函数，简称，简称S函数，函数本身及其函数，函数本身及其导数都连续，处理上十分方便，变化范围是导数都连续，处理上十分方便，变化范围是01，如图所示，如图所示,用下式定义用下式定义有时也采用双极性有时也采用双极性S型函数（型函数（双曲正切函数双曲正切函数tanh(x)）,其变化其变化范围是范围是-11，如图所示。其表达式为，如图所示。其表达式为3、线性函数、线性函数（1 1）线性作用函数：输出等于输入，即）线性作用函数：输出等于输入，即（2 2）饱和线性作用函数）饱和线性作用函数（3 3）对称饱和线性作用函数）对称饱和线性作用函数 4 概率型转移函数概率型转移函数采用概率型转移函数的神经元模型其输入与输出之间的关采用概率型转移函数的神经元模型其输入与输出之间的关系是不确定的，需要用一个随机函数来描述输出状态的概系是不确定的，需要用一个随机函数来描述输出状态的概率。如，设神经元输出为率。如，设神经元输出为1的概率为的概率为式中式中 T称温度参数。采用这种转移函数的神经元输出状态称温度参数。采用这种转移函数的神经元输出状态分布的典型代表是分布的典型代表是Boltzmann 机。机。5、高斯函数、高斯函数反映出高斯函数的宽度反映出高斯函数的宽度还有许多转移函数的数学模型，不一一介绍。还有许多转移函数的数学模型，不一一介绍。 2.4人工神经网络模型人工神经网络模型大量神经元组成庞大的神经网络，才能实现对复杂信息大量神经元组成庞大的神经网络，才能实现对复杂信息的处理与存储，并表现出各种优越的特性。神经网络的强大的处理与存储，并表现出各种优越的特性。神经网络的强大功能与其大规模并行互连、非线性处理以及互连结构的可塑功能与其大规模并行互连、非线性处理以及互连结构的可塑性密切相关。因此必须按一定规则将神经元连接成神经网络，性密切相关。因此必须按一定规则将神经元连接成神经网络，并使网络中各神经元的连接权按一定规则变化。生物神经网并使网络中各神经元的连接权按一定规则变化。生物神经网络由数以亿计的生物神经元连接而成，而人工神经网络限于络由数以亿计的生物神经元连接而成，而人工神经网络限于物理实现的困难和为了计算简便，是由相对少量的神经元按物理实现的困难和为了计算简便，是由相对少量的神经元按一定规律构成的网络。一定规律构成的网络。人工神经元网络要显示出人脑的某些的基本特征人工神经元网络要显示出人脑的某些的基本特征:(1)分布存储和容错性分布存储和容错性(2)大规模并行处理大规模并行处理(3)自学习、自组织和自适应自学习、自组织和自适应(4)大量神经元群体行为大量神经元群体行为,表现出复杂非线性系统特性表现出复杂非线性系统特性人们对网络模型做了大量研究人们对网络模型做了大量研究,目前人工神经网络的模型很多，目前人工神经网络的模型很多，已有近百种，可以按照不同的方法进行分类。已有近百种，可以按照不同的方法进行分类。按网络性能可分按网络性能可分-连续性和离散性、确定性和随机性网络连续性和离散性、确定性和随机性网络;按学习方式可分按学习方式可分-有导师和无导师有导师和无导师学习方式网络。学习方式网络。常见的分类方法常见的分类方法-按网络连接的按网络连接的拓扑结构分类拓扑结构分类和按网络内部和按网络内部的的信息流向分类信息流向分类。如按网络内部的信息流向分类如按网络内部的信息流向分类:前馈前馈(向向)型网络和反馈型网型网络和反馈型网络络.网络拓扑结构类型网络拓扑结构类型网络拓扑结构的不同表现为神经元之间连接方式的不同。网络拓扑结构的不同表现为神经元之间连接方式的不同。根据神经元之间的连接方式，可将神经网络结构分为根据神经元之间的连接方式，可将神经网络结构分为层次型层次型结构结构和和互连型结构互连型结构两大类。两大类。层次型结构层次型结构层次型结构的神经网络将神经元按功能分成若干层，如层次型结构的神经网络将神经元按功能分成若干层，如输入层、中间层（也称为隐层）和输出层，各层顺序相连，输入层、中间层（也称为隐层）和输出层，各层顺序相连，如图如图所示。所示。输入层各神经元负责接受来输入层各神经元负责接受来自外界的输入信息，并传递给中自外界的输入信息，并传递给中间各隐层神经元；隐层是神经网间各隐层神经元；隐层是神经网络的内部信息处理层，负责信息络的内部信息处理层，负责信息变换，根据信息变换能力的需要，变换，根据信息变换能力的需要，隐层可设计为一层或多层；隐层可设计为一层或多层；最后一个隐层传递到输出层各神经元的信息经进一步处最后一个隐层传递到输出层各神经元的信息经进一步处理后即完成一次从输入到输出的信息处理，由输出层向外界理后即完成一次从输入到输出的信息处理，由输出层向外界（如执行机构或显示设备）输出信息处理结果。（如执行机构或显示设备）输出信息处理结果。层次型网络结构有层次型网络结构有3种典型的结构形式。种典型的结构形式。（1）单纯层次型网络结构）单纯层次型网络结构神经元分层排列，各层神经元接受前一层输入并输出到下一神经元分层排列，各层神经元接受前一层输入并输出到下一层，层内神经元自身以及神经元之间不存在连接通路。层，层内神经元自身以及神经元之间不存在连接通路。单纯层次型网络结构单纯层次型网络结构（2）层内有互连的层次型网络结构）层内有互连的层次型网络结构这种结构的特点是在同一层内引入神经元间的侧向作用，使这种结构的特点是在同一层内引入神经元间的侧向作用，使得能同时激活的神经元个数可控，以实现各层神经元的自组得能同时激活的神经元个数可控，以实现各层神经元的自组织。织。（3）输出层到输入层有连接的层次型网络结构）输出层到输入层有连接的层次型网络结构输出层到输入层有连接路径输出层到输入层有连接路径,其其输入层神经元既可接受输输入层神经元既可接受输入，也具有信息处理功能入，也具有信息处理功能。互连型结构互连型结构对于互连型网络结构，网络中任意两个节点之间都可能存对于互连型网络结构，网络中任意两个节点之间都可能存在连接路径，因此可以根据网络中节点的互连程度将互连型网在连接路径，因此可以根据网络中节点的互连程度将互连型网络结构细分为络结构细分为全互连型网络、局部互连型网络、稀疏连接型网全互连型网络、局部互连型网络、稀疏连接型网络络3种情况。种情况。（1）全互连型网络）全互连型网络每个节点均与所有其他节点连接。每个节点均与所有其他节点连接。（2）局部互连型网络）局部互连型网络（3）稀疏连接型网络）稀疏连接型网络节点只与少数相距较远的节点相连。节点只与少数相距较远的节点相连。每个节点只与其邻近的每个节点只与其邻近的节点有连接。节点有连接。网络信息流向类型网络信息流向类型从神经网络内部信息传递方向来分，可分为两种类型：从神经网络内部信息传递方向来分，可分为两种类型：前馈型网络前馈型网络和和反馈型网络反馈型网络。1 前馈型网络前馈型网络单纯前馈型网络的结构特点前述的分层网络完全相同单纯前馈型网络的结构特点前述的分层网络完全相同，前馈是因网络信息处理的方向是前馈是因网络信息处理的方向是从输入层到各隐层再到输出层逐从输入层到各隐层再到输出层逐层进行而得名。层进行而得名。从信息处理能力看，网络中的节点从信息处理能力看，网络中的节点可分两种：一种是输入节点，只负可分两种：一种是输入节点，只负责从外界引入信息后向前传递给第责从外界引入信息后向前传递给第一隐层；另一种是具有处理能力的一隐层；另一种是具有处理能力的节点，包括各隐层和输出层节点。节点，包括各隐层和输出层节点。前馈型网络中一层的输出是下一层的输人，信息的处理具有逐层传递进前馈型网络中一层的输出是下一层的输人，信息的处理具有逐层传递进行的方向性，一般不存在反馈环路。因此这类网络很容易串联起来建立行的方向性，一般不存在反馈环路。因此这类网络很容易串联起来建立多层前馈网络。多层前馈网络。前馈前馈(向向)网络特点网络特点:(1)层次关系清楚层次关系清楚每个神经元只与前一层神经元相连每个神经元只与前一层神经元相连;隐层可多层隐层可多层.(2)反馈关系反馈关系基本前馈网络无反馈关系基本前馈网络无反馈关系;隐层自身互联隐层自身互联,形成同层神经元之间横向抑制机制形成同层神经元之间横向抑制机制,大多自组大多自组织竞争型网络都采用此种织竞争型网络都采用此种;输出到输入层有反馈输出到输入层有反馈.对复杂图形的顺序选择和识别字符需对复杂图形的顺序选择和识别字符需要此类网络要此类网络;(3)属有导师学习型网络属有导师学习型网络(输出值输出值-教师信号教师信号-误差误差-实现权值实现权值自适应自适应)(4)属于非线性映射网络属于非线性映射网络当提到具有单层计算神经元的网络时，指的应是一个两层前馈当提到具有单层计算神经元的网络时，指的应是一个两层前馈网络（输入层和输出层），当提到具有单隐层的网络时，指的网络（输入层和输出层），当提到具有单隐层的网络时，指的应是一个三层前馈网络（输入层、隐层和输出层）。应是一个三层前馈网络（输入层、隐层和输出层）。2 反馈型网络反馈型网络反馈网络是指其信息流向的特点。在反馈网络中所有节点都具反馈网络是指其信息流向的特点。在反馈网络中所有节点都具有信息处理功能，而且每个节点既可以从外界接受输入，同时有信息处理功能，而且每个节点既可以从外界接受输入，同时又可以向外界输出。又可以向外界输出。一般来说一般来说:互连型网络结构互连型网络结构属于反馈型网络属于反馈型网络上面介绍的分类方法、结构形式和信息流向只是对目前常见上面介绍的分类方法、结构形式和信息流向只是对目前常见的网络结构的概括和抽象。实际应用的神经网络可能同时兼的网络结构的概括和抽象。实际应用的神经网络可能同时兼有其中一种或几种形式。有其中一种或几种形式。例如，从连接形式看，层次型网络中可能出现局部的互连；例如，从连接形式看，层次型网络中可能出现局部的互连；从信息流向看，前馈网络中可能出现局部反馈。从信息流向看，前馈网络中可能出现局部反馈。综合来看，前述的网络模型可分别称为：前馈层次型、前综合来看，前述的网络模型可分别称为：前馈层次型、前馈层内互连型、输入输出有反馈的前馈层次型反馈全互连馈层内互连型、输入输出有反馈的前馈层次型反馈全互连型和反馈局部互连型。型和反馈局部互连型。反馈网络特点反馈网络特点:(1)反馈关系反馈关系全互联网络全互联网络;局部互联网络局部互联网络.(2)属于无导师学习网络属于无导师学习网络(3)属于非线性动力学系统网络属于非线性动力学系统网络前馈层次型前馈层次型前馈层内互连型前馈层内互连型输入输出有反馈的前馈层次型输入输出有反馈的前馈层次型反馈全互连型反馈全互连型反馈局部互连型反馈局部互连型神神经经网网络络的的拓拓扑扑结结构构是是决决定定神神经经网网络络特特性性的的第第二二大大要要素素。神经网络的开发工作分两个阶段神经网络的开发工作分两个阶段:学习阶段学习阶段(期期):也称自适应期或设计期也称自适应期或设计期,通过学习样本或其他通过学习样本或其他方法训练权矩阵方法训练权矩阵;工作阶段工作阶段(期期):各连接权成熟各连接权成熟(不再改变不再改变),求解实际问题求解实际问题,单元单元状态变迁状态变迁,以求达到稳态解以求达到稳态解.人工神经网络连接权的确定通常有两种方法根据具体要求，直接计算，如Hopfield网络作优化计算通过学习得到的。大多数人工神经网络都采用这种方法 n学习是改变各神经元连接权值的有效方法，也是体现人工神经网络智能特性最主要的标志。离开了学习，神经网络就失去了诱人的自适应、自组织能力学习方法是人工神经网络研究中的核心问题学习方法是人工神经网络研究中的核心问题2.5人工神经网络的学习人工神经网络的学习人类具有学习能力人类具有学习能力,人类的知识和智慧是在不断的学习与人类的知识和智慧是在不断的学习与实践中逐渐形成和发展起来的。实践中逐渐形成和发展起来的。学习可定义为学习可定义为：“根据与环境根据与环境的相互作用而发生的行为改变，其结果导致对外界刺激产生反的相互作用而发生的行为改变，其结果导致对外界刺激产生反应的新模式的建立应的新模式的建立”。学习过程离不开训练学习过程离不开训练,学习过程就是一种经过训练而使个学习过程就是一种经过训练而使个体在行为上产生较为持久改变的过程体在行为上产生较为持久改变的过程.例如例如,游泳等体育技能游泳等体育技能的学习需要反复的训练才能提高的学习需要反复的训练才能提高,数学等理论知识的掌握需要数学等理论知识的掌握需要通过大量的习题进行练习通过大量的习题进行练习.一般来说一般来说,学习效果随着训练量的学习效果随着训练量的增加而提高增加而提高,这就是学习的进步这就是学习的进步. 网络的运行一般分为学习（训练）和工作两个阶段。学网络的运行一般分为学习（训练）和工作两个阶段。学习的目的是为了从训练数据中提取隐含的知识和规律，并存习的目的是为了从训练数据中提取隐含的知识和规律，并存储于网络中供工作阶段使用。储于网络中供工作阶段使用。学习的神经机制学习的神经机制,涉及神经元如何分布、处理和存储信息涉及神经元如何分布、处理和存储信息等。这样的问题单用行为研究是不能回答的，必须把研究深等。这样的问题单用行为研究是不能回答的，必须把研究深入到细胞和分子水平。每一种心理功能，如记忆与思想，均入到细胞和分子水平。每一种心理功能，如记忆与思想，均归因于神经细胞组群的活动。归因于神经细胞组群的活动。大脑中，功能性的神经元连接、大脑中，功能性的神经元连接、突触的形成是关键，突触的形成是关键，医学研究表明：神经元之间的突触联系，医学研究表明：神经元之间的突触联系，其基本部分是先天就有的，但其他部分是由于学习过程中频其基本部分是先天就有的，但其他部分是由于学习过程中频繁地给予刺激而成长起来的。突触的形成、稳定与修饰等均繁地给予刺激而成长起来的。突触的形成、稳定与修饰等均与刺激有关，随外界给予的刺激性质不同，能形成和改变神与刺激有关，随外界给予的刺激性质不同，能形成和改变神经元的突触联系。经元的突触联系。神经网络的全体连接权值可用一个矩阵神经网络的全体连接权值可用一个矩阵W表示，其整体内表示，其整体内容反映了神经网络对于所解决问题的知识存储，神经网络能够容反映了神经网络对于所解决问题的知识存储，神经网络能够通过对样本的学习训练，不断改变网络的连接权值以及拓扑结通过对样本的学习训练，不断改变网络的连接权值以及拓扑结构，以使网络的输出不断地接近期望输出。这一过程称为神经构，以使网络的输出不断地接近期望输出。这一过程称为神经网络的学习或训练，其本质是对可变权值的动态调整。网络的学习或训练，其本质是对可变权值的动态调整。把修正权值的算法称为学习规则（学习算法等）。对单把修正权值的算法称为学习规则（学习算法等）。对单个处理单元，无论采用哪种学习规则进行调整，其算法都十个处理单元，无论采用哪种学习规则进行调整，其算法都十分简单。但当大量处理单元集体进行权值调整时，网络就呈分简单。但当大量处理单元集体进行权值调整时，网络就呈现出现出“智能智能”特性，其中有意义的信息就分布地存储在调整特性，其中有意义的信息就分布地存储在调整后的权值矩阵后的权值矩阵W中。中。神经网络具有学习功能是其最主要的特征之一神经网络具有学习功能是其最主要的特征之一,各种学各种学习算法的研究在习算法的研究在ANN理论与实践发展过程中起着重要作用理论与实践发展过程中起着重要作用. 人工神经网络的学习和计算机的机器学习有类似的分类，人工神经网络的学习和计算机的机器学习有类似的分类，一类有导师学习一类有导师学习(从例子中学习从例子中学习)，一类无导师学习，一类无导师学习,还有一类还有一类为死记式学习。在为死记式学习。在ANN中，学习规则是修正权的一个算法，中，学习规则是修正权的一个算法，以获得满意的系统性能。以获得满意的系统性能。现有的学习规则大体上可分为以下几类：现有的学习规则大体上可分为以下几类：（1）有导师学习规则）有导师学习规则(纠错规则纠错规则) 依赖关于输出节点的外部反馈来改变权系数，使实际结点依赖关于输出节点的外部反馈来改变权系数，使实际结点的输出与外部的期望输出相一致的输出与外部的期望输出相一致,即有导师学习规则。从方法即有导师学习规则。从方法上看，基于或等效于梯度下降方法，通过在局部最大改善的方上看，基于或等效于梯度下降方法，通过在局部最大改善的方向上，按照小步逐次进行修正，力图达到表示函数功能问题的向上，按照小步逐次进行修正，力图达到表示函数功能问题的全局解，但不能保证得到全局最优解，同时还要求有大量的训全局解，但不能保证得到全局最优解，同时还要求有大量的训练样本，因而收敛速度变慢。此外，这种规则对样本的表示次练样本，因而收敛速度变慢。此外，这种规则对样本的表示次序变化比较敏感。序变化比较敏感。（2）无导师学习规则）无导师学习规则学习表现为自适应于输入空间的检测规则。该规则的关键学习表现为自适应于输入空间的检测规则。该规则的关键在于调整参数以反映观察事件的分布，即是将事件空间分类成在于调整参数以反映观察事件的分布，即是将事件空间分类成输入活动区域，并有选择地对这些区域响应。输入活动区域，并有选择地对这些区域响应。（3）死记式学习）死记式学习(相关规则相关规则) 仅根据连接之间的激活水平改变权系数。常用于自联想网仅根据连接之间的激活水平改变权系数。常用于自联想网络，执行特殊记忆状态的死记式学习。络，执行特殊记忆状态的死记式学习。现在将要分别介绍常用的、基本的学习规则。现在将要分别介绍常用的、基本的学习规则。可以认为，一个神经元是一个自适应单元，其权值可以根据可以认为，一个神经元是一个自适应单元，其权值可以根据它所接受的输入信号、它的输出信号以及对应的监督信号进行它所接受的输入信号、它的输出信号以及对应的监督信号进行调整。调整。日本著名神经网络学者日本著名神经网络学者Amari于于1990年提出一种神经网年提出一种神经网络权值调整的通用学习规则络权值调整的通用学习规则，该规则的图解表示见下图。，该规则的图解表示见下图。图中的神经元图中的神经元j是神经网络中的某个节点，其输入用向量是神经网络中的某个节点，其输入用向量X表表示，该输入可以来自网络外部，也可以来自其他神经元的输示，该输入可以来自网络外部，也可以来自其他神经元的输出。出。第第i个输入与神经元个输入与神经元j的连接权情用的连接权情用wij表示，连接到神经元表示，连接到神经元j的的全部权值构成了权向量全部权值构成了权向量Wj。应当注意的是，该神经元的阈值，。应当注意的是，该神经元的阈值，对应的输入分量对应的输入分量x0恒为恒为-1。图中，。图中，rr(Wj，X，dj)称学习信号称学习信号，该信号通常是该信号通常是W和和X的函数，而在有导师学习时，它也是教师信的函数，而在有导师学习时，它也是教师信号号dj的函数。通用学习规则可表达为：权向量的函数。通用学习规则可表达为：权向量Wj在在t时刻的调整时刻的调整量量Wj（t）与）与 t时刻的输入向量时刻的输入向量X（t）和学习信号）和学习信号 r的乘积成正的乘积成正比。用数学式表示为比。用数学式表示为 Wj（t）=rWj（t）,X(t),dj(t)X（t） Wj（t）=rWj（t）,X(t),dj(t)X（t）式中式中，为正数，称为学习常数为正数，称为学习常数，其值决定了学习速率，也其值决定了学习速率，也称学习率。称学习率。基于离散时间调整时，下一时刻的权向量应为基于离散时间调整时，下一时刻的权向量应为 Wj(t十十1)=Wj（t）rWj（t）,X(t),dj(t)X（t）不同的学习规则对不同的学习规则对r(Wj，X，dj)有不同的定义，从而形成各有不同的定义，从而形成各种各样的神经网络学习规则。种各样的神经网络学习规则。下面对常用学习规则作一简要介绍。下面对常用学习规则作一简要介绍。在在Hebbian学习规则中，学习规则中，学习信号简单地等于神经元的输出学习信号简单地等于神经元的输出权向量的调整公式为权向量的调整公式为权向量中，每个分量的调整由下式确定权向量中，每个分量的调整由下式确定 = = i=0,1,，n上式表明，权值调整量与输入输出的乘积成正比。显然，经常出现的输入上式表明，权值调整量与输入输出的乘积成正比。显然，经常出现的输入模式将对权向量有最大的影响。模式将对权向量有最大的影响。 251 Hebbian学习现则学习现则 1949年，心理学家年，心理学家DOHebb最早提出关于神经网络学最早提出关于神经网络学习机理的习机理的“突触修正突触修正” 假设。该假设指出，当神经元的突触假设。该假设指出，当神经元的突触前膜电位与后膜电位同时为正时，突触传导增强，当前膜电前膜电位与后膜电位同时为正时，突触传导增强，当前膜电位与后膜电位正负相反时，突触传导减弱，也就是说，当神位与后膜电位正负相反时，突触传导减弱，也就是说，当神经元经元i与神经元与神经元j同时处于兴奋状态时，两者之间的连接强度应同时处于兴奋状态时，两者之间的连接强度应增强。增强。(实质上就是条件反射学说实质上就是条件反射学说,后来得到了神经细胞学说后来得到了神经细胞学说的证明的证明)根据该假设定义的权值调整方法，称为根据该假设定义的权值调整方法，称为Hebbian学习学习规则。规则。此外，此外，要求权值初始化，即在学习开始前（要求权值初始化，即在学习开始前（t=0），先对），先对Wj(0)赋予零附近的小随机数。赋予零附近的小随机数。 Hebbian学习规则代表一种纯前馈、无导师学习。学习规则代表一种纯前馈、无导师学习。该规则在该规则在各种神经网络模型中起着重要的作用。各种神经网络模型中起着重要的作用。下面用一个简单的例子来说明具有简单网络的二进制和连续下面用一个简单的例子来说明具有简单网络的二进制和连续激活函数的激活函数的Hebb学习情况。学习情况。例例已知有已知有4输入单输出神经元网络，其阈值为输入单输出神经元网络，其阈值为0，学习率，学习率=1，3个输入样本向量和初始权向量分别为个输入样本向量和初始权向量分别为X1=1 2 1.5 0T,X2=1 -0.5 -2 -1.5T,X3=0 1 -1 1.5T,W(0)=1 -1 0 0.5T,试按试按Hebb规则进行网络训练。规则进行网络训练。解解若神经元采用双极性硬限幅函数，即若神经元采用双极性硬限幅函数，即f(net)=sgn(net).学习过程如下步骤：学习过程如下步骤：(1)输入第一个样本输入第一个样本X1，计算净输入，计算净输入net1，调整权向量为，调整权向量为W（1）net1=W(0)TX1=1 -1 0 0.51 -2 1.5 0T=3W(1)=W(0)+sgn(net1)X1=W(0)+X1=1 -1 0 0.5T+1 -2 1.5 0T=2 -3 1.5 0.5T(2)输入第二个样本输入第二个样本X2，计算净输入，计算净输入net2，调整权向量为，调整权向量为W（2） net2=W(1)TX2=2 -3 1.5 0.51 -0.5 -2 -1.5T=-0.25W(2)=W(1)+sgn(net2)X2 =W(1)-X2 =2 -3 1.5 0.5T-1 -0.5 -2 -1.5T =1 -2.5 3.5 2T(3) 输入第三个样本输入第三个样本X3，计算净输入，计算净输入net3，调整权向量，调整权向量W(3)net3=W(2)TX3 =1 -2.5 3.5 20 1 -1 1.5T =-3W(3)=W(2)+sgn(net3)X3 =W(2)-X3 =1 -2.5 3.5 2T-0 1 -1 1.5T =1 -3.5 4.5 0.5T可见，当转移函数为符号函数且可见，当转移函数为符号函数且=1时，时，H学习规则的权值调学习规则的权值调整将简化为权向量加或减输入向量。整将简化为权向量加或减输入向量。下面看一下转移函数为下面看一下转移函数为双极性连续函数双极性连续函数时时，此例权值调整情，此例权值调整情况：况：(1) net1=W(0)TX1=1 -1 0 0.51 -2 1.5 0T=3 y1=f(net1)= W(1)=W(0)+y1X1=1.905 -2.81 1.357 0.5T(2) net2=W(1)TX2=-0.154 y2=f(net2)= W(2)=W(1)+y2X2=1.828 -2.772 1.512 0.616T(3) net3=W(2)TX3=-3.36 y3=f(net3)= W(3)=W(2)+y3X3=1.828 -3.70 2.44 -0.785T比较两种权值调整结果看出，在两种转移函数下的权值调整方向是一致的，比较两种权值调整结果看出，在两种转移函数下的权值调整方向是一致的，但是，采用连续转移函数时，权值的调整力度相对减弱。但是，采用连续转移函数时，权值的调整力度相对减弱。2。5。2感知器学习规则感知器学习规则感知器（感知器（Perceptron）是美国学者）是美国学者Rosenblatt 于于1958年提年提出来的，实际上它是一个具有单层计算单元的神经元网络。他出来的，实际上它是一个具有单层计算单元的神经元网络。他指出，感知器可以学会它能表示的任何事情，这个结论曾使不指出，感知器可以学会它能表示的任何事情，这个结论曾使不少人企图用感知器模仿人的视网膜来识别图像的某些特征少人企图用感知器模仿人的视网膜来识别图像的某些特征。对于感知器的学习规则，学习信号是通过神经元的期望输出和对于感知器的学习规则，学习信号是通过神经元的期望输出和实际输出响应之间的差来决定。因而，实际输出响应之间的差来决定。因而，学习信号等于学习信号等于 r=dj-yj 1 WjTX0式中式中 yj为实际输出，为实际输出，yj=sgn（WjTX）= -1 WjTX0即感知器采用的是符号转移函数即感知器采用的是符号转移函数;dj为所期望的输出响应。因此，为所期望的输出响应。因此，权值的调整公式为权值的调整公式为 Wj=(dj-sgn(WjTX)X wij=(dj-sgn(WjTX)xi i=1，2，n 请注意，这个规则仅对二进制神经元响应是可以应用的，而且请注意，这个规则仅对二进制神经元响应是可以应用的，而且上式表达了属于双极二进制情况下的规则。在这种规则下，当上式表达了属于双极二进制情况下的规则。在这种规则下，当且仅当且仅当yj是不正确情况，权重得到调节。是不正确情况，权重得到调节。感知器学习规则属于有导师学习规则，权重可以在任何值上感知器学习规则属于有导师学习规则，权重可以在任何值上初始化初始化。感知器理论是研究其他神经网络的基础，感知器学习规感知器理论是研究其他神经网络的基础，感知器学习规则对于神经网络的有导师学习有极为重要的意义。则对于神经网络的有导师学习有极为重要的意义。2.5.3 (Delta)学习规则学习规则学习规则又称最小均方规则（学习规则又称最小均方规则（LMS）。它利用目标激活值）。它利用目标激活值与所得的激活值之差进行学习。其方法是：调整联系强度，使与所得的激活值之差进行学习。其方法是：调整联系强度，使这个差减小。这个差减小。学习规则唯一适用于单极性和双极性学习规则唯一适用于单极性和双极性Sigmoid型转移函数型转移函数以及在有导师训练模式中定义的连续激活函数。以及在有导师训练模式中定义的连续激活函数。学习信号定义学习信号定义如下：如下：式中式中是对于是对于计算得激活函数计算得激活函数的导数的导数。则则,权值调整公式为权值调整公式为 = i=0,1,2.n 该学习规则可由实际输出值该学习规则可由实际输出值yj和期望输出值和期望输出值dj之间最小平方之间最小平方误差的条件推导出来。误差的条件推导出来。定义神经元实际输出与期望输出间的平方误差为定义神经元实际输出与期望输出间的平方误差为式中，误差式中，误差E是权向量是权向量Wj函数。欲使误差函数。欲使误差E最小，最小，Wj应与误差应与误差的负梯度成正比，即的负梯度成正比，即 =- (Wj沿沿E的负梯度方向变化的负梯度方向变化) （ # ）式中，比例系数式中，比例系数是一个正常数，是一个正常数，为误差梯度为误差梯度. =-代入代入#式得权值调整计算式式得权值调整计算式 = 式子式子得到证明。得到证明。对于这种训练方法，权可以在任何值上得到初始化。对于这种训练方法，权可以在任何值上得到初始化。 1986年年McClelland和和Rumelhart将将规则引入作为神经元规则引入作为神经元网络的训练。这个规则并行于离散感知器学习规则，它亦可称网络的训练。这个规则并行于离散感知器学习规则，它亦可称作为连续感知器训练规则。作为连续感知器训练规则。学习规则能够被推广用于多层网学习规则能够被推广用于多层网络。络。例例设有设有3输入单输出网络输入单输出网络,将阈值含于权向量内将阈值含于权向量内,即即学习率学习率 -1 1 -2 0T , -1 0 1.5 -0.5T , -1 -1 1 0.5T 0.5 1 -1 0T, 试按试按规则进行网络学习规则进行网络学习. .解解:设转移函数为双极性连续函数设转移函数为双极性连续函数则或第一步输入样本输入样本X1,计算净输入计算净输入net1及权向量及权向量W(1)net1=W(0)TX1 =2.50.526 0.974 -0.948 0T第二步第二步计算输入样本计算输入样本X2 .计算净输入计算净输入net2及权向量及权向量W(2)net2=W(1)TX2 =-1.9480.531 0.974 -0.956 0.002T第三步第三步因为每步中因为每步中0.505 0.947 -0.929 0.016T,所以每步权值均得到修正所以每步权值均得到修正,这种方法常要求小的这种方法常要求小的值值.2。5。4 WidrowHoff学习规则学习规则 1962年年WidrowHoff提出了一种能应用于神经元网络的有提出了一种能应用于神经元网络的有导师训练的学习规则。因为它使在期望输出值导师训练的学习规则。因为它使在期望输出值dj和神经元的激和神经元的激活值活值net=WjTX之间平方误差最小，所以这种学习规则和采用的之间平方误差最小，所以这种学习规则和采用的神经元的激活函数无关，因而不需要对转移函数求导，学习速神经元的激活函数无关，因而不需要对转移函数求导，学习速度快，且具有较高的学习精度。度快，且具有较高的学习精度。这种规则的这种规则的学习信号用下式定义学习信号用下式定义 r=dj-WjTX权向量增量为权向量增量为: Wj=(dj-WjTX)X或者或者 wij=(dj-WjTX)xi i=1，2，n 这种学习规则中，权可以在任何值上被初始化。这种学习规则中，权可以在任何值上被初始化。2 5 5 相关（相关（Correlation）学习规则）学习规则相关学习规则相关学习规则学习信号规定为学习信号规定为 r=dj权向量和单个权的调节分别为权向量和单个权的调节分别为 Wj =djX wij =djxi i=1，2，n 这个简单的规则说明了如果这个简单的规则说明了如果dj是由于是由于Xi的期望响应，相应的期望响应，相应的权增加与它们之积成比例。这个规则典型地被应用于具有二的权增加与它们之积成比例。这个规则典型地被应用于具有二进制响应神经元的记忆网络中进行数据记录。进制响应神经元的记忆网络中进行数据记录。它能够被解释为具有二进制的激活函数并且由于它能够被解释为具有二进制的激活函数并且由于yj=dj的的Hebb规则的特殊情况规则的特殊情况。但是但是Hebb学习规则是在无导师环境下实现的而相关学习学习规则是在无导师环境下实现的而相关学习是有导师的。类似于是有导师的。类似于Hebb学习，这种学习规则亦要求权初始学习，这种学习规则亦要求权初始化化W（0）=0。2 56 WinnerTakeAll（胜者为王）学习规则（胜者为王）学习规则这种学习规则本质上不同于前面所讨论过的任何规则。这种学习规则本质上不同于前面所讨论过的任何规则。WinnerTakeAll学习规则是一种竞争学习规则，用于无导师学习。学习规则是一种竞争学习规则，用于无导师学习。一般将网络的某一层确定为竞争层，对于一个特定的输入一般将网络的某一层确定为竞争层，对于一个特定的输入X，竞争层，竞争层的所有的所有p个神经元均有输出响应，其中响应值最大的神经元为在竞争中获胜个神经元均有输出响应，其中响应值最大的神经元为在竞争中获胜的神经元。的神经元。如果第如果第m个神经元获胜，则个神经元获胜，则WinnerTakeAll学习规则如图学习规则如图所示。所示。即即:只有获胜神经元才有权调整只有获胜神经元才有权调整其权向量其权向量Wm，调整量为，调整量为 =( ) 或或式中，式中，（0，1），是学习常数，一般其值随着学习的进展），是学习常数，一般其值随着学习的进展而减小。而减小。由于两个向量的点积越大，表明两者越近似，所以调整获由于两个向量的点积越大，表明两者越近似，所以调整获胜神经元权值的结果是使胜神经元权值的结果是使Wm进一步接近当前输入进一步接近当前输入X。显然，当。显然，当下次出现与下次出现与 X相像的输入模式时，上次获胜的神经元更容易获相像的输入模式时，上次获胜的神经元更容易获胜。在反复的竞争学习过程中，竞争层的各神经元所对应的权胜。在反复的竞争学习过程中，竞争层的各神经元所对应的权向量被逐渐调整为输入样本空间的聚类中心。向量被逐渐调整为输入样本空间的聚类中心。在有些应用中，以获胜神经元为中心定义一个获胜邻域，在有些应用中，以获胜神经元为中心定义一个获胜邻域，除获胜神经元调整权值外，邻域内的其他神经元也程度不同地除获胜神经元调整权值外，邻域内的其他神经元也程度不同地调整权值。权值一般被初始化为任意值并进行归一化处理。调整权值。权值一般被初始化为任意值并进行归一化处理。