资源预览内容
第1页 / 共73页
第2页 / 共73页
第3页 / 共73页
第4页 / 共73页
第5页 / 共73页
第6页 / 共73页
第7页 / 共73页
第8页 / 共73页
第9页 / 共73页
第10页 / 共73页
亲,该文档总共73页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
2024/9/81人工神经元模拟生物神经元的人工神经元模拟生物神经元的一阶特性一阶特性。输入:输入:X=(x1,x2,xn)联接权:联接权:W=(w1,w2,wn)T网络输入:网络输入:net=xiwi向量形式:向量形式:net=XW2024/9/82xnwnx1w1x2w2net=XW激激活活函函数数执执行行对对该该神神经经元元所所获获得得的的网网络络输输入入的的变变换换,也可以称为激励函数、活化函数:也可以称为激励函数、活化函数: o=f(net) 1、线性函数(、线性函数(LinerFunction) f(net)=k*net+c 2024/9/83netoocifnetf(net)=k*netif|net|0为一常数,被称为饱和值,为该神经元的最大输为一常数,被称为饱和值,为该神经元的最大输出。出。 2024/9/842024/9/85-netoifnetf(net)=-ifnet、均为非负实数,均为非负实数,为阈值为阈值二值形式:二值形式:1ifnetf(net)=0ifnet双极形式:双极形式:1ifnetf(net)=-1ifnet 2024/9/86 2024/9/87-onet0压压缩缩函函数数(Squashing Function)和和逻逻辑辑斯斯特特函函数数(LogisticFunction)。)。f(net)=a+b/(1+exp(-d*net)a,b,d为常数。它的饱和值为为常数。它的饱和值为a和和a+b。最简单形式为:最简单形式为:f(net)=1/(1+exp(-d*net) 函数的饱和值为函数的饱和值为0和和1。S形函数有较好的增益控制形函数有较好的增益控制 2024/9/882024/9/89a+bo(0,c)netac=a+b/2生物神经网生物神经网六个基本特征六个基本特征神神经经元元及及其其联联接接、信信号号传传递递、训训练练、刺刺激激与与抑抑制制、累累积积效效果果、 阈值阈值。人工神经元的基本构成人工神经元的基本构成2024/9/810xnwnx1w1x2w2net=XW激活函数与激活函数与M-P模型模型 线性函数、非线性斜面函数、线性函数、非线性斜面函数、阈值函数阈值函数S形函数形函数 M-P模型模型2024/9/811x2w2fo=f(net)xnwnnet=XWx1w12024/9/812x1x2xno1o2omwnmw11w1mw2mwn1输出层输出层输入层输入层W=(wij)输输出出层层的的第第j个个神神经经元元的的网网络络输输入入记记为为netj:netj=x1w1j+x2w2j+xnwnj其中其中,1jm。取。取NET=(net1,net2,netm)NET=XWO=F(NET)2024/9/8132024/9/814输出层输出层x1o1w11w1mx2o2w2mxnomwn1输入层输入层VV=(vij)NET=XW+OVO=F(NET)时间参数时间参数神经元的状态在主时钟的控制下同步变化神经元的状态在主时钟的控制下同步变化考虑考虑X总加在网上的情况总加在网上的情况NET(t+1)=X(t)W+O(t)VO(t+1)=F(NET(t+1)O(0)=0考虑仅在考虑仅在t=0时加时加X的情况。的情况。 稳定性判定稳定性判定2024/9/8152024/9/816输出层输出层隐藏层隐藏层输入层输入层o1o2omx1x2xn层次划分层次划分 信号只被允许从较低层流向较高层。信号只被允许从较低层流向较高层。层层号号确确定定层层的的高高低低:层层号号较较小小者者,层层次次较较低,层号较大者,层次较高。低,层号较大者,层次较高。输输入入层层:被被记记作作第第0层层。该该层层负负责责接接收收来来自自网络外部的信息网络外部的信息2024/9/817输出层输出层隐藏层隐藏层输入层输入层o1o2omx1x2xn第第j层层:第第j-1层层的的直直接接后后继继层层(j0),它它直直接接接接受第受第j-1层的输出。层的输出。输输出出层层:它它是是网网络络的的最最后后一一层层,具具有有该该网网络络的的最最大层号,负责输出网络的计算结果。大层号,负责输出网络的计算结果。隐藏层隐藏层:除输入层和输出层以外的其它各层叫隐:除输入层和输出层以外的其它各层叫隐藏层。隐藏层不直接接受外界的信号,也不直藏层。隐藏层不直接接受外界的信号,也不直接向外界发送信号接向外界发送信号2024/9/818输出层输出层隐藏层隐藏层输入层输入层o1o2omx1x2xn约定约定 : :输出层的层号为该网络的层数:输出层的层号为该网络的层数:n层网络,或层网络,或n级网络。级网络。第第j-1层层到到第第j层层的的联联接接矩矩阵阵为为第第j层层联联接接矩矩阵阵,输输出出层层对对应应的的矩矩阵阵叫叫输输出出层层联联接接矩矩阵阵。今今后后,在在需需要要的的时时候候,一一般般我我们们用用W(j)表示第表示第j层矩阵层矩阵。2024/9/819输出层输出层隐藏层隐藏层输入层输入层o1o2omx1x2xnW(1)W(2)W(3)W(h)2024/9/820输出层输出层隐藏层隐藏层输入层输入层o1o2omx1x2xnW(1)W(2)W(3)W(h)非线性激活函数非线性激活函数 F(X)=kX+CF(X)=kX+CF F3 3(F(F2 2(F(F1 1(XW(XW(1)(1)W)W(2)(2)W)W(3)(3) )2024/9/8212024/9/822x1o1输出层输出层隐藏层隐藏层输入层输入层x2o2omxn如如果果将将输输出出信信号号反反馈馈到到输输入入端端,就就可可构构成成一一个个多多层层的的循环网络。循环网络。输入的原始信号被逐步地加强、被修复。输入的原始信号被逐步地加强、被修复。大大脑脑的的短短期期记记忆忆特特征征:看看到到的的东东西西不不是是一一下下子子就就从从脑海里消失的。脑海里消失的。稳定稳定:反馈信号会引起网络输出的不断变化。我们:反馈信号会引起网络输出的不断变化。我们希望这种变化逐渐减小,并且最后能消失。当变希望这种变化逐渐减小,并且最后能消失。当变化最后消失时,网络达到了平衡状态。如果这种化最后消失时,网络达到了平衡状态。如果这种变化不能消失,则称该网络是不稳定的。变化不能消失,则称该网络是不稳定的。 2024/9/823人工神经网络最具有吸引力的特点是它的学习能力。人工神经网络最具有吸引力的特点是它的学习能力。1962年年,Rosenblatt给给出出了了人人工工神神经经网网络络著著名名的的学学习习定定理理:人人工工神神经经网网络络可可以以学学会会它它可可以以表表达达的的任任何何东东西。西。人工神经网络的表达能力大大地限制了它的学习能力。人工神经网络的表达能力大大地限制了它的学习能力。人工神经网络的学习过程就是对它的训练过程人工神经网络的学习过程就是对它的训练过程2024/9/824无导师学习无导师学习(UnsupervisedLearning)与无导师训练与无导师训练(UnsupervisedTraining)相对应相对应 抽抽取取样样本本集集合合中中蕴蕴含含的的统统计计特特性性,并并以以神神经经元元之之间间的的联接权的形式存于网络中。联接权的形式存于网络中。2024/9/825有有导导师师学学习习(Supervised Learning)与与有有导导师师训训练练(SupervisedTraining)相对应。相对应。输入向量与其对应的输出向量构成一训练。输入向量与其对应的输出向量构成一训练。有导师学习的训练算法的主要步骤包括:有导师学习的训练算法的主要步骤包括:1)从样本集合中取一个样本(从样本集合中取一个样本(Ai,Bi););2)计算出网络的实际输出计算出网络的实际输出O; 3)求求D=Bi-O;4)根据根据D调整权矩阵调整权矩阵W; 5 5) 对对每每个个样样本本重重复复上上述述过过程程,直直到到对对整整个个样样本本集集来来说说,误差不超过规定范围。误差不超过规定范围。 2024/9/826Widrow和和Hoff的写法的写法:Wij( (t+1) )=Wij( (t) )+( (yj-aj( (t)oi( (t) )也可以写成:也可以写成:Wij( (t+1) )=Wij( (t) )+Wij( (t) )Wij(t)(t)=joi(t)(t)j=yj-aj(t)(t)Grossberg的写法为:的写法为:Wij(t)=a(t)=ai i(t)(o(t)(oj j(t)-W(t)-Wijij(t)(t)更一般的更一般的Delta规则为:规则为:Wij( (t) )=g( (ai(t),yj,oj( (t) ),Wij( (t)2024/9/8271概述概述 2基本基本BP算法算法 3算法的改进算法的改进 4算法的实现算法的实现 5算法的理论基础算法的理论基础 6几个问题的讨论几个问题的讨论 2024/9/8281、BP算法的出现算法的出现非循环多级网络的训练算法非循环多级网络的训练算法UCSDPDP小小组组的的Rumelhart、Hinton和和Williams1986年年独立地给出了独立地给出了BP算法清楚而简单的描述算法清楚而简单的描述1982年,年,Paker就完成了相似的工作就完成了相似的工作1974年,年,Werbos已提出了该方法已提出了该方法2、弱弱点点:训训练练速速度度非非常常慢慢、局局部部极极小小点点的的逃逃离离问问题题、算法不一定收敛。算法不一定收敛。3、优点:、优点:广泛的适应性和有效性。广泛的适应性和有效性。2024/9/8294、BP网络主要用于1)函数逼近:用输入向量和相应的输出向量训练一个网络逼近一个函数。2)模式识别:用一个特定的输出向量将它与输入向量联系起来。3)分类:把输入向量 以所定义的合适方式进行分类。4)数据压缩:减少输出向量维数以便于传输或存储。2024/9/8301网络的构成网络的构成 神经元的网络输入:神经元的网络输入:neti=x1w1i+x2w2i+xnwni神经元的输出:神经元的输出:2024/9/831应该将应该将net的值尽量控制在收敛比较快的范围内的值尽量控制在收敛比较快的范围内可以用其它的函数作为激活函数,只要该函数是处处可导的可以用其它的函数作为激活函数,只要该函数是处处可导的2024/9/8320.5f(net)0.25o011(0,0.5)net(0,0)o2024/9/833x1o1输出层输出层隐藏层隐藏层输入层输入层x2o2omxnW(1)W(2)W(3)W(L)1.BP网的结构网的结构2.2.输输入入向向量量、输输出出向向量量的的维维数数、网网络络隐隐藏藏层层的的层层数数和各个隐藏层神经元的个数的决定和各个隐藏层神经元的个数的决定3.3.实实验验:增增加加隐隐藏藏层层的的层层数数和和隐隐藏藏层层神神经经元元个个数数不不一定总能够提高网络精度和表达能力。一定总能够提高网络精度和表达能力。4.4.BPBP网一般都选用二级网络。网一般都选用二级网络。2024/9/8342024/9/835x1o1输出层输出层隐藏层隐藏层输入层输入层x2o2omxnWV样本:样本:(输入向量,理想输出向量输入向量,理想输出向量) )权初始化:权初始化:小随机数与饱和状态;不同保证网络可以小随机数与饱和状态;不同保证网络可以学。学。1 1、向前传播阶段:、向前传播阶段:(1)从从样样本本集集中中取取一一个个样样本本(Xp,Yp),将将Xp输输入入网网络;络;(2)计算相应的实际输出)计算相应的实际输出Op:Op=Fl(F2(F1(XpW(1)W(2)W(L)2024/9/8362 2、向后传播阶段、向后传播阶段 误差传播阶段:误差传播阶段:(1)计算实际输出)计算实际输出Op与相应的理想输出与相应的理想输出Yp的差;的差;(2)按极小化误差的方式调整权矩阵。)按极小化误差的方式调整权矩阵。(3)网络关于第)网络关于第p p个样本的误差测度:个样本的误差测度:2024/9/837(4)网络关于整个样本集的误差测度:网络关于整个样本集的误差测度:2024/9/8381、输出层权的调整、输出层权的调整wpq=wpq+wpqwpq=qop=fn(netq)(yq-oq)op=oq(1-oq)(yq-oq)opwpqANpANq第第L-1层层第第L层层wpq2024/9/839ANpANqANhvhppk-11kwp1wpqqkwpmmk第第k-2层层第第k层层第第k-1层层2024/9/840pk-1的值和的值和1k,2k,mk有关有关不妨认为不妨认为pk-1通过权通过权wp1对对1k做出贡献,做出贡献,通过权通过权wp2对对2k做出贡献,做出贡献,通过权通过权wpm对对mk做出贡献。做出贡献。pk-1=fk-1(netp)(wp11k+wp22k+wpmmk)vhp=vhp+vhpvhp=pk-1ohk-2 =fk-1(netp)(wp11k+wp22k+wpmmk)ohk-2=opk-1(1-opk-1)(wp11k+wp22k+wpmmk)ohk-22024/9/841ANpANqANhvhppk-11kwp1wpmqkwpqmk第第k-2层层第第k层层第第k-1层层基本基本BP算法算法neti=x1w1i+x2w2i+xnwni2024/9/8422024/9/843x1o1输出层输出层隐藏层隐藏层输入层输入层x2o2omxnWV样本样本权初始化权初始化向前传播阶段向前传播阶段Op=Fn(F2(F1(XpW(1)W(2)W(n)误差测度误差测度2024/9/844向后传播阶段向后传播阶段误差传播阶段误差传播阶段输出层权的调整输出层权的调整wpq=qop=fn(netq)(yq-oq)op=oq(1-oq)(yq-oq)op隐藏层权的调整隐藏层权的调整2024/9/845ANpANqANhvhppk-11kwp1wpqqkwpmmkvhp=opk-1(1-opk-1)(wp11k+wp22k+wpmmk)ohk-2样本集:样本集:S=(X1,Y1),(,(X2,Y2),),(,(Xs,Ys) ) 基本思想基本思想:逐一地根据样本集中的样本逐一地根据样本集中的样本(Xk,Yk)计算出实际输出计算出实际输出Ok和误差测和误差测度度E1,对,对W(1),W(2),W(L)各做一次调整,重复这个循环,各做一次调整,重复这个循环,直到直到Epdo 4.1 4.1 E=0; 2024/9/8474.2对对S中的每一个样本(中的每一个样本(Xp,Yp):):4.2.1计算出计算出Xp对应的实际输出对应的实际输出Op;4.2.2计算出计算出Ep;4.2.3E=E+Ep;4.2.4根据相应式子调整根据相应式子调整W(L);4.2.5k=L-1;4.2.6whilek0do4.2.6.1根据相应式子调整根据相应式子调整W(k);4.2.6.2k=k-1 4.3E=E/2.0 2024/9/8481、BP网网络络接接受受样样本本的的顺顺序序对对训训练练结结果果有有较较大大影影响响。它它更偏爱较后出现的样本更偏爱较后出现的样本2、给集中的样本安排一个适当的顺序,是非常困难的。给集中的样本安排一个适当的顺序,是非常困难的。3、样本顺序影响结果的原因:样本顺序影响结果的原因:分别依次分别依次4、用用(X1,Y1),(X2,Y2),(Xs,Ys)的的总总效效果果修修改改W(1),W(2),W(L)。w(k)ij=pw(k)ij2024/9/8491fork=1toLdo1.1初始化初始化W(k);2初始化精度控制参数初始化精度控制参数;3E=+1;4whileEdo4.1E=0;4.2对所有的对所有的i,j,k:w(k)ij=0; 2024/9/8504.3对对S中的每一个样本(中的每一个样本(Xp,Yp):):4.3.1计算出计算出Xp对应的实际输出对应的实际输出Op;4.3.2计算出计算出Ep;4.3.3E=E+Ep;4.3.4对所有对所有i,j根据相应式子计算根据相应式子计算pw(L)ij;4.3.5对所有对所有i,j:w(L)ij=w(L)ij+pw(L)ij;4.3.6k=L-1;4.3.7whilek0do4.3.7.1对所有对所有i, ,j根据相应式子计算根据相应式子计算pw(k)ij;4.3.7.2对所有对所有i, ,j:w(k)ij=w(k)ij+pw(k)ij;4.3.7.3k=k-1 4.4对所有对所有i,j,k:w(k)ij=w(k)ij+w(k)ij;4.5E=E/2.0 2024/9/851较好地解决了因样本的顺序引起的精度问题和训练的较好地解决了因样本的顺序引起的精度问题和训练的抖动问题抖动问题 收敛速度:比较慢收敛速度:比较慢偏移量:给每一个神经元增加一个偏移量来加快收敛偏移量:给每一个神经元增加一个偏移量来加快收敛速度速度 冲量冲量:联接权的本次修改要考虑上次修改的影响,以联接权的本次修改要考虑上次修改的影响,以减少抖动问题减少抖动问题 2024/9/852主要数据结构主要数据结构WH,m输出层的权矩阵;输出层的权矩阵;Vn,H输入(隐藏)层的权矩阵;输入(隐藏)层的权矩阵;m输出层各联接权的修改量组成的向量;输出层各联接权的修改量组成的向量;H隐藏层各联接权的修改量组成的向量;隐藏层各联接权的修改量组成的向量;O1隐藏层的输出向量;隐藏层的输出向量;O2输出层的输出向量;输出层的输出向量;(X,Y)一个样本。一个样本。 2024/9/8531 1用不同的小伪随机数初始化用不同的小伪随机数初始化W,V;初始化精度控制参数初始化精度控制参数;学习率;学习率; 循环控制参数循环控制参数E=+1;循环最大次数;循环最大次数M;循环次数;循环次数控制参数控制参数N=0; whileE&N0,此时,此时wij0取取E0wij2024/9/861而其中的而其中的所以,所以,2024/9/862令令所以所以wij=joi为学习率为学习率oj=f(netj) 容易得到容易得到 2024/9/863从而从而2024/9/8642024/9/865所以,所以,故,当故,当ANj为输出层的神经元时,它对应为输出层的神经元时,它对应的联接权的联接权wij应该按照下列公式进行调整:应该按照下列公式进行调整:2024/9/866函数2024/9/867netk=ojo2o1oHhnetk是是oj下一级的神下一级的神经元的网络输入经元的网络输入2024/9/8682024/9/8692024/9/870收敛速度问题收敛速度问题 局部极小点问题局部极小点问题 逃离逃离/避开局部极小点避开局部极小点:修改修改W、V的初值并不是总有效。的初值并不是总有效。逃离逃离 统计方法;统计方法;Wasserman,1986将将Cauchy训练与训练与BP算算法结合起来,可以在保证训练速度不被降低的情况下,找法结合起来,可以在保证训练速度不被降低的情况下,找到全局极小点。到全局极小点。 2024/9/871网络瘫痪问题网络瘫痪问题 在训练中,权可能变得很大,这会使神经元的网络输入变得在训练中,权可能变得很大,这会使神经元的网络输入变得很大,从而又使得其激活函数的导函数在此点上的取值很很大,从而又使得其激活函数的导函数在此点上的取值很小。根据相应式子,此时的训练步长会变得非常小,进而小。根据相应式子,此时的训练步长会变得非常小,进而将导致训练速度降得非常低,最终导致网络停止收敛将导致训练速度降得非常低,最终导致网络停止收敛 稳定性问题稳定性问题 用修改量的综合实施权的修改用修改量的综合实施权的修改连续变化的环境,它将变成无效的连续变化的环境,它将变成无效的 2024/9/872步长问题步长问题 BP网络的收敛是基于无穷小的权修改量网络的收敛是基于无穷小的权修改量步长太小,收敛就非常慢步长太小,收敛就非常慢步长太大,可能会导致网络的瘫痪和不稳定步长太大,可能会导致网络的瘫痪和不稳定自适应步长,使得权修改量能随着网络的训练而不断变化。自适应步长,使得权修改量能随着网络的训练而不断变化。1988年,年,Wasserman 2024/9/873
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号