BP神经网络 PPT课件.ppt-

BP人工神经网络人工神经网络Back-propagationArtificialNeuralNetworks8/23/20241张凌张凌数计学院数计学院联系电话：联系电话：13605935915Email：zl790241638/23/20242主要参考书目主要参考书目1、Philip D. Wasserman， Neural Computing:TheoryandPractice，VanNostrandReinhold，19892、胡胡守守仁仁、余余少少波波、戴戴葵葵，神神经经网网络络导导论论，国防科技大学出版社，国防科技大学出版社，1993年年10月月3、杨杨行行峻峻、郑郑君君里里，人人工工神神经经网网络络，高高等等教教育出版社，育出版社，1992年年9月月4、闻新、周露、王丹力、熊晓英，闻新、周露、王丹力、熊晓英，MATLABMATLAB神神经网络应用设计，科学出版社，经网络应用设计，科学出版社，2019.5. 2019.5. 8/23/20243课程目的和基本要求课程目的和基本要求作为人工神经网络的入门课程，用于将学作为人工神经网络的入门课程，用于将学生引入人工神经网络及其应用的研究领域。生引入人工神经网络及其应用的研究领域。介绍介绍BPBP人工神经网络及其基本网络模型，人工神经网络及其基本网络模型，使学生了解智能系统描述的基本模型使学生了解智能系统描述的基本模型掌握人工神经网络的基本概念、单层网、多层网、掌握人工神经网络的基本概念、单层网、多层网、循环网等各种基本网络模型的结构、特点、典循环网等各种基本网络模型的结构、特点、典型训练算法、运行方式、典型问题型训练算法、运行方式、典型问题掌握软件实现方法。掌握软件实现方法。8/23/20244课程目的和基本要求课程目的和基本要求了解了解BPBP人工神经网络的有关研究思想，从中人工神经网络的有关研究思想，从中学习开拓者们的部分问题求解方法。学习开拓者们的部分问题求解方法。通过实验进一步体会有关模型的用法和性通过实验进一步体会有关模型的用法和性能，获取一些初步的经验。能，获取一些初步的经验。查阅适当的参考文献，将所学的知识与自查阅适当的参考文献，将所学的知识与自己未来研究课题相结合起来，达到既丰富己未来研究课题相结合起来，达到既丰富学习内容，又有一定的研究和应用的目的。学习内容，又有一定的研究和应用的目的。8/23/20245主要内容主要内容基于基于Matlab的的BP神经网络设计与应用神经网络设计与应用 BP BP（BackpropagationBackpropagation）网络的构成及其训）网络的构成及其训练过程；隐藏层权调整方法的直观分析，练过程；隐藏层权调整方法的直观分析，BPBP训练算法中使用的训练算法中使用的DeltaDelta规则（最速下降规则（最速下降法）的理论推导；算法的收敛速度及其改法）的理论推导；算法的收敛速度及其改进讨论；进讨论；BPBP网络中的几个重要问题。网络中的几个重要问题。实验：实现实验：实现BP算法。算法。 8/23/20246引言引言1人工神经网络的提出人工神经网络的提出2人工神经网络的特点人工神经网络的特点3历史回顾历史回顾8/23/20247第第1章章引言引言人人类类对对人人工工智智能能的的研研究究可可以以分分成成两两种种方方式式对应着对应着两种不同的技术两种不同的技术：传统的人工智能技术传统的人工智能技术: :心理的角度模拟心理的角度模拟基于人工神经网络的技术基于人工神经网络的技术: :生理的角度模拟生理的角度模拟8/23/20248人工神经网络的提出人工神经网络的提出人工神经网络（人工神经网络（ArtificialNeuralNetworks，简记作，简记作ANN），是对人类大脑系统的一），是对人类大脑系统的一阶特性的一种描述。简单地讲，它是一个阶特性的一种描述。简单地讲，它是一个数学模型数学模型，可以用，可以用电子线路电子线路来实现，也可来实现，也可以用以用计算机程序计算机程序来模拟，是人工智能研究来模拟，是人工智能研究的一种方法。的一种方法。 8/23/20249人工神经网络的提出人工神经网络的提出智能与人工智能智能与人工智能一、一、智能的含义智能的含义智能是个体有目的的行为，合理的思维，以智能是个体有目的的行为，合理的思维，以及有效的、适应环境的综合能力及有效的、适应环境的综合能力。智能是个体认识客观事物和运用知识解决问智能是个体认识客观事物和运用知识解决问题的能力题的能力。人类个体的智能是一种综合能力。人类个体的智能是一种综合能力。8/23/202410人工神经网络的提出人工神经网络的提出智能可以包含智能可以包含8个方面个方面感知与认识感知与认识客观事物、客观世界和自我的能力客观事物、客观世界和自我的能力感知是智能的基础最基本的能力感知是智能的基础最基本的能力通过通过学习学习取得经验与积累知识的能力取得经验与积累知识的能力这是人类在世界中能够不断发展的最基本能力。这是人类在世界中能够不断发展的最基本能力。理解知识理解知识，运用知识运用知识和经验分析、解决问题的能力和经验分析、解决问题的能力这这一一能能力力可可以以算算作作是是智智能能的的高高级级形形式式。是是人人类类对对世世界界进进行适当的改造，推动社会不断发展的基本能力。行适当的改造，推动社会不断发展的基本能力。8/23/202411人工神经网络的提出人工神经网络的提出联想、推理、判断、决策语言联想、推理、判断、决策语言的能力的能力这是智能的高级形式的又一方面。这是智能的高级形式的又一方面。预测和认识预测和认识主动和被动之分。联想、推理、判断、决策的能主动和被动之分。联想、推理、判断、决策的能力是主动的基础。力是主动的基础。运用进行抽象、概括的能力运用进行抽象、概括的能力上述这上述这5 5种能力，被认为是人类智能最为种能力，被认为是人类智能最为基本基本的能力的能力8/23/2024121.1人工神经网络的提出人工神经网络的提出作为作为5 5种能力综合表现形式的种能力综合表现形式的3 3种能力种能力发现、发明、创造、创新的能力发现、发明、创造、创新的能力实时、迅速、合理地应付复杂环境的能力实时、迅速、合理地应付复杂环境的能力预测、洞察事物发展、变化的能力预测、洞察事物发展、变化的能力 8/23/202413人工神经网络的提出人工神经网络的提出二、人工智能二、人工智能人工智能：研究如何使类似计算机这样的设备去人工智能：研究如何使类似计算机这样的设备去模拟人类的这些能力。模拟人类的这些能力。研究人工智能的目的研究人工智能的目的增加人类探索世界，推动社会前进的能力增加人类探索世界，推动社会前进的能力进一步认识自己进一步认识自己三大学术流派三大学术流派符号主义（或叫做符号符号主义（或叫做符号/逻辑主义）学派逻辑主义）学派联接主义（或者叫做联接主义（或者叫做PDP）学派）学派进化主义（或者叫做行动进化主义（或者叫做行动/响应）学派响应）学派8/23/202414人工神经网络的提出人工神经网络的提出物理符号系统物理符号系统人脑的反映人脑的反映形式化形式化现实现实信息信息数据数据物理系统物理系统物理符号系统物理符号系统表现智能表现智能8/23/202415人工神经网络的提出人工神经网络的提出 Newell Newell和和SimonSimon假说假说：一个物理系统表现：一个物理系统表现智能行为的充要条件是它有一个物理符号智能行为的充要条件是它有一个物理符号系统系统概念：物理符号系统需要有一组称为符号概念：物理符号系统需要有一组称为符号的实体组成，它们都是物理模型，可以在的实体组成，它们都是物理模型，可以在另一类称为符号结构的实体中作为成分出另一类称为符号结构的实体中作为成分出现，以构成更高级别的系统现，以构成更高级别的系统 8/23/202416人工神经网络的提出人工神经网络的提出困难：困难：抽象抽象:舍弃一些特性，同时保留一些特性舍弃一些特性，同时保留一些特性形形式式化化处处理理:用用物物理理符符号号及及相相应应规规则则表表达达物物理理系系统的存在和运行。统的存在和运行。局限：局限：对全局性判断、模糊信息处理、多粒度的视觉信对全局性判断、模糊信息处理、多粒度的视觉信息处理等是非常困难的。息处理等是非常困难的。8/23/202417人工神经网络的提出人工神经网络的提出联接主义观点联接主义观点核心：智能的本质是联接机制。核心：智能的本质是联接机制。神经网络是一个由大量简单的处理单元组神经网络是一个由大量简单的处理单元组成的高度复杂的大规模非线性自适应系统成的高度复杂的大规模非线性自适应系统 ANN ANN力求从四个方面去模拟人脑的智能行为力求从四个方面去模拟人脑的智能行为物理结构物理结构计算模拟计算模拟存储与操作存储与操作训练训练 8/23/202418人工神经网络的提出人工神经网络的提出两种模型的比较两种模型的比较心理过程心理过程逻辑思维逻辑思维高级形式（思维的表象）高级形式（思维的表象）生理过程生理过程形象思维形象思维低级形式（思维的根本）低级形式（思维的根本）仿生仿生人工神经网络人工神经网络联结主义观点联结主义观点物理符号系统物理符号系统8/23/202419人工神经网络的提出人工神经网络的提出物理符号系统和人工神经网络系统的差别物理符号系统和人工神经网络系统的差别项目项目物理符号系统物理符号系统人工神经网络人工神经网络处理方式处理方式逻辑运算逻辑运算模拟运算模拟运算执行方式执行方式串行串行并行并行动作动作离散离散连续连续存储存储局部集中局部集中全局分布全局分布8/23/202420人工神经网络的提出人工神经网络的提出两种人工智能技术的比较两种人工智能技术的比较项目项目传统的传统的AIAI技术技术 ANN技术技术基本实现基本实现方式方式串行处理；由程序实现串行处理；由程序实现控制控制并行处理；对样本数据进行多目标学习；并行处理；对样本数据进行多目标学习；通过人工神经元之间的相互作用实现控制通过人工神经元之间的相互作用实现控制基基本本开开发发方法方法设设计计规规则则、框框架架、程程序序；用用样样本本数数据据进进行行调调试试（由由人人根根据据已已知知的的环环境境去构造一个模型）去构造一个模型）定义人工神经网络的结构原型，通过样本定义人工神经网络的结构原型，通过样本数据，依据基本的学习算法完成学习数据，依据基本的学习算法完成学习自动从样本数据中抽取内涵（自动适应应自动从样本数据中抽取内涵（自动适应应用环境）用环境）适应领域适应领域精精确确计计算算：符符号号处处理理，数值计算数值计算非精确计算：模拟处理，感觉，大规模数非精确计算：模拟处理，感觉，大规模数据并行处理据并行处理模拟对象模拟对象左脑（逻辑思维）左脑（逻辑思维）右脑（形象思维）右脑（形象思维）8/23/202421人工神经网络的特点人工神经网络的特点信息的分布表示信息的分布表示运算的全局并行和局部操作运算的全局并行和局部操作处理的非线性处理的非线性 8/23/202422人工神经网络的概念人工神经网络的概念1、定义、定义 1）HechtNielsen（1988年）年）人工神经网络是一个并行、分布处理结构，它由人工神经网络是一个并行、分布处理结构，它由处理单元及其称为联接的无向讯号通道互连而成。处理单元及其称为联接的无向讯号通道互连而成。这些处理单元（这些处理单元（PEProcessingElement）具有局）具有局部内存，并可以完成局部操作。每个处理单元有部内存，并可以完成局部操作。每个处理单元有一个单一的输出联接，这个输出可以根据需要被一个单一的输出联接，这个输出可以根据需要被分枝成希望个数的许多并行联接，且这些并行联分枝成希望个数的许多并行联接，且这些并行联接都输出相同的信号，即相应处理单元的信号，接都输出相同的信号，即相应处理单元的信号，信号的大小不因分支的多少而变化。信号的大小不因分支的多少而变化。8/23/202423人工神经网络的概念人工神经网络的概念（1）HechtNielsen（1988年）（续）年）（续）处理单元的输出信号可以是任何需要的处理单元的输出信号可以是任何需要的数学模型，每个处理单元中进行的操数学模型，每个处理单元中进行的操作必须是完全局部的。也就是说，它作必须是完全局部的。也就是说，它必须仅仅依赖于经过输入联接到达处必须仅仅依赖于经过输入联接到达处理单元的所有输入信号的当前值和存理单元的所有输入信号的当前值和存储在处理单元局部内存中的值。储在处理单元局部内存中的值。8/23/202424人工神经网络的概念人工神经网络的概念强调：强调：并行、分布处理结构；并行、分布处理结构；一一个个处处理理单单元元的的输输出出可可以以被被任任意意分分枝枝，且且大大小不变；小不变；输出信号可以是任意的数学模型；输出信号可以是任意的数学模型；处理单元完全的局部操作处理单元完全的局部操作 8/23/202425人工神经网络的概念人工神经网络的概念（2） Rumellhart，McClelland，Hinton的的PDP 1）一组处理单元一组处理单元（PE或或AN）；）；2）处理单元的处理单元的激活状态激活状态（ai）；）；3）每个处理单元的每个处理单元的输出函数输出函数（fi）；）；4）处理单元之间的处理单元之间的联接模式联接模式；5）传递规则传递规则（wijoi）；）；6）把把处处理理单单元元的的输输入入及及当当前前状状态态结结合合起起来来产产生生激激活值的活值的激活规则激活规则（Fi）；）；7）通过经验修改联接强度的通过经验修改联接强度的学习规则学习规则；8）系统运行的环境（系统运行的环境（样本样本集合）。集合）。 8/23/202426人工神经网络的概念人工神经网络的概念（3）Simpson（1987年）年）人工神经网络是一个非线性的有向图，图中人工神经网络是一个非线性的有向图，图中含有可以通过改变权大小来存放模式的加含有可以通过改变权大小来存放模式的加权边，并且可以从不完整的或未知的输入权边，并且可以从不完整的或未知的输入找到模式。找到模式。 8/23/202427人工神经网络的概念人工神经网络的概念2、关键点、关键点（1 1）信息的分布表示信息的分布表示（2 2）运算的全局并行与局部操作运算的全局并行与局部操作（3 3）处理的非线性特征处理的非线性特征3、对大脑基本特征的模拟、对大脑基本特征的模拟1）形式上：神经元及其联接；形式上：神经元及其联接；BN对对AN2）表现特征：信息的存储与处理表现特征：信息的存储与处理8/23/202428人工神经网络的概念人工神经网络的概念4、别名、别名人工神经系统（人工神经系统（ANS）神经网络（神经网络（NN）自自适适应应系系统统（AdaptiveSystems）、自自适适应应网网（AdaptiveNetworks）联接模型（联接模型（Connectionism）神经计算机（神经计算机（Neurocomputer）8/23/202429人工神经元的基本构成人工神经元的基本构成人工神经元模拟生物神经元的人工神经元模拟生物神经元的一阶特性一阶特性。输入：输入：X=（x1，x2，xn）联接权：联接权：W=（w1，w2，wn）T网络输入：网络输入：net=xiwi向量形式：向量形式：net=XWxnwnx1w1x2w2net=XW8/23/202430激活函数激活函数(ActivationFunction) 激激活活函函数数执执行行对对该该神神经经元元所所获获得得的的网网络络输输入入的的变变换换，也也可可以以称称为为激激励励函函数数、活活化化函函数数： o=f（net） 1、线性函数（、线性函数（LinerFunction） f（net）=k*net+c netooc8/23/2024312、非线性斜面函数、非线性斜面函数(RampFunction)ifnetf（net）=k*netif|net|0为一常数，被称为饱和值，为该神经元的为一常数，被称为饱和值，为该神经元的最大输出。最大输出。 8/23/2024322、非线性斜面函数（、非线性斜面函数（RampFunction）-neto8/23/2024333、阈值函数（、阈值函数（ThresholdFunction）阶跃函数）阶跃函数ifnetf（net）=-ifnet、均为非负实数，均为非负实数，为阈值为阈值二值形式：二值形式：1ifnetf（net）=0ifnet双极形式：双极形式：1ifnetf（net）=-1ifnet 8/23/2024343、阈值函数（、阈值函数（ThresholdFunction）阶跃函数）阶跃函数 -onet08/23/2024354、S形函数形函数压压缩缩函函数数（SquashingFunction）和和逻逻辑辑斯斯特特函数（函数（LogisticFunction）。）。f（net）=a+b/(1+exp(-d*net)a，b，d为常数。它的饱和值为为常数。它的饱和值为a和和a+b。最简单形式为：最简单形式为：f（net）=1/(1+exp(-d*net) 函数的饱和值为函数的饱和值为0和和1。S形函数有较好的增益控制形函数有较好的增益控制 8/23/2024364、S形函数形函数 a+bo(0,c)netac=a+b/28/23/202437课内容回顾课内容回顾生物神经网生物神经网六个基本特征六个基本特征神神经经元元及及其其联联接接、信信号号传传递递、训训练练、刺刺激激与与抑抑制制、累积效果累积效果、阈值阈值。人工神经元的基本构成人工神经元的基本构成xnwnx1w1x2w2net=XW8/23/202438上次课内容回顾上次课内容回顾激活函数与激活函数与M-P模型模型线性函数、非线性斜面函数、线性函数、非线性斜面函数、阈值函数阈值函数S形函数形函数 M-P模型模型x2w2fo=f（net）xnwnnet=XWx1w18/23/202439简单单级网简单单级网x1x2xno1o2omwnmw11w1mw2mwn1输出层输出层输入层输入层8/23/202440简单单级网简单单级网W=（wij）输输出出层层的的第第j个个神神经经元元的的网网络络输输入入记记为为netj：netj=x1w1j+x2w2j+xnwnj其中其中,1jm。取。取NET=（net1，net2，netm）NET=XWO=F（NET）8/23/202441单级横向反馈网单级横向反馈网输出层输出层x1o1w11w1mx2o2w2mxnomwn1输入层输入层V8/23/202442单级横向反馈网单级横向反馈网 V=（vij）NET=XW+OVO=F（NET）时间参数时间参数神经元的状态在主时钟的控制下同步变化神经元的状态在主时钟的控制下同步变化考虑考虑X总加在网上的情况总加在网上的情况NET（t+1）=X（t）W+O（t）VO(t+1)=F(NET(t+1)O（0）=0考虑仅在考虑仅在t=0时加时加X的情况。的情况。稳定性判定稳定性判定8/23/202443多级网多级网输出层输出层隐藏层隐藏层输入层输入层o1o2omx1x2xn8/23/202444层次划分层次划分信号只被允许从较低层流向较高层。信号只被允许从较低层流向较高层。层层号号确确定定层层的的高高低低：层层号号较较小小者者，层层次次较较低，层号较大者，层次较高。低，层号较大者，层次较高。输输入入层层：被被记记作作第第0层层。该该层层负负责责接接收收来来自自网络外部的信息网络外部的信息输出层输出层隐藏层隐藏层输入层输入层o1o2omx1x2xn8/23/202445第第j层层：第第j-1层层的的直直接接后后继继层层（j0），它它直直接接接接受第受第j-1层的输出。层的输出。输输出出层层：它它是是网网络络的的最最后后一一层层，具具有有该该网网络络的的最大层号，负责输出网络的计算结果。最大层号，负责输出网络的计算结果。隐藏层隐藏层：除输入层和输出层以外的其它各层叫：除输入层和输出层以外的其它各层叫隐藏层。隐藏层不直接接受外界的信号，也不隐藏层。隐藏层不直接接受外界的信号，也不直接向外界发送信号直接向外界发送信号输出层输出层隐藏层隐藏层输入层输入层o1o2omx1x2xn8/23/202446约定约定 :输输出出层层的的层层号号为为该该网网络络的的层层数数：n层层网网络络，或或n级级网网络。络。第第j-1层层到到第第j层层的的联联接接矩矩阵阵为为第第j层层联联接接矩矩阵阵，输输出出层层对对应应的的矩矩阵阵叫叫输输出出层层联联接接矩矩阵阵。今今后后，在在需需要要的时候，一般我们用的时候，一般我们用W（j）表示第表示第j层矩阵层矩阵。输出层输出层隐藏层隐藏层输入层输入层o1o2omx1x2xnW(1)W(2)W(3)W(h)8/23/202447多级网多级网层网络层网络输出层输出层隐藏层隐藏层输入层输入层o1o2omx1x2xnW(1)W(2)W(3)W(h)8/23/202448多级网多级网非线性激活函数非线性激活函数 F(X)=kX+CF3(F2(F1(XW(1)W(2)W(3)8/23/202449循环网循环网x1o1输出层输出层隐藏层隐藏层输入层输入层x2o2omxn8/23/202450循环网循环网如如果果将将输输出出信信号号反反馈馈到到输输入入端端,就就可可构构成成一一个个多多层层的的循环网络。循环网络。输入的原始信号被逐步地加强、被修复。输入的原始信号被逐步地加强、被修复。大大脑脑的的短短期期记记忆忆特特征征:看看到到的的东东西西不不是是一一下下子子就就从从脑脑海里消失的。海里消失的。稳定稳定：反馈信号会引起网络输出的不断变化。我们：反馈信号会引起网络输出的不断变化。我们希望这种变化逐渐减小，并且最后能消失。当变希望这种变化逐渐减小，并且最后能消失。当变化最后消失时，网络达到了平衡状态。如果这种化最后消失时，网络达到了平衡状态。如果这种变化不能消失，则称该网络是不稳定的。变化不能消失，则称该网络是不稳定的。 8/23/202451人工神经网络的训练人工神经网络的训练人人工工神神经经网网络络最最具具有有吸吸引引力力的的特特点点是是它它的的学学习能力。习能力。1962年年，Rosenblatt给给出出了了人人工工神神经经网网络络著著名名的的学学习习定定理理：人人工工神神经经网网络络可可以以学学会会它它可可以表达的任何东西。以表达的任何东西。人人工工神神经经网网络络的的表表达达能能力力大大大大地地限限制制了了它它的的学习能力。学习能力。人人工工神神经经网网络络的的学学习习过过程程就就是是对对它它的的训训练练过过程程8/23/202452无导师学习无导师学习无导师学习无导师学习(UnsupervisedLearning)与无导与无导师训练师训练(UnsupervisedTraining)相对应相对应抽抽取取样样本本集集合合中中蕴蕴含含的的统统计计特特性性，并并以以神神经经元之间的联接权的形式存于网络中。元之间的联接权的形式存于网络中。8/23/202453有导师学习有导师学习有有导导师师学学习习(Supervised Learning)与与有有导导师师训训练练(SupervisedTraining)相对应。相对应。输入向量与其对应的输出向量构成一训练。输入向量与其对应的输出向量构成一训练。有导师学习的训练算法的主要步骤包括：有导师学习的训练算法的主要步骤包括：1）从样本集合中取一个样本（从样本集合中取一个样本（Ai，Bi）；）；2）计算出网络的实际输出计算出网络的实际输出O； 3）求求D=Bi-O；4）根据根据D调整权矩阵调整权矩阵W； 5 5）对对每每个个样样本本重重复复上上述述过过程程，直直到到对对整整个个样样本本集集来来说，误差不超过规定范围。说，误差不超过规定范围。 8/23/202454Delta规则规则 Widrow和和Hoff的写法的写法：Wij( (t+1) )=Wij( (t) )+( (yj-aj( (t)oi( (t) )也可以写成：也可以写成：Wij( (t+1) )=Wij( (t) )+Wij( (t) )Wij(t)(t)=joi(t)(t)j=yj-aj(t)(t)Grossberg的写法为：的写法为：Wij(t)=a(t)=ai i(t)(o(t)(oj j(t)-W(t)-Wijij(t)(t)更一般的更一般的Delta规则为：规则为：Wij( (t) )=g( (ai(t)，yj，oj( (t) )，Wij( (t)8/23/202455BP网络网络1概述概述 2基本基本BP算法算法 3算法的改进算法的改进 4算法的实现算法的实现 5算法的理论基础算法的理论基础 6几个问题的讨论几个问题的讨论 8/23/202456一一概述概述 1、BP算法的出现算法的出现非循环多级网络的训练算法非循环多级网络的训练算法UCSDPDP小小组组的的Rumelhart、Hinton和和Williams1986年年独立地给出了独立地给出了BP算法清楚而简单的描述算法清楚而简单的描述1982年，年，Paker就完成了相似的工作就完成了相似的工作1974年，年，Werbos已提出了该方法已提出了该方法2、弱弱点点：训训练练速速度度非非常常慢慢、局局部部极极小小点点的的逃逃离离问问题题、算法不一定收敛。算法不一定收敛。3、优点：、优点：广泛的适应性和有效性。广泛的适应性和有效性。8/23/202457概述概述4、BP网络主要用于1）函数逼近：用输入向量和相应的输出向量训练一个网络逼近一个函数。2）模式识别：用一个特定的输出向量将它与输入向量联系起来。3）分类：把输入向量以所定义的合适方式进行分类。4）数据压缩：减少输出向量维数以便于传输或存储。8/23/202458二二基本基本BP算法算法 1网络的构成网络的构成神经元的网络输入：神经元的网络输入：neti=x1w1i+x2w2i+xnwni神经元的输出：神经元的输出：8/23/202459输出函数分析输出函数分析0.5f(net)0.25o011（0,0.5）net（0,0）o应该将应该将net的值尽量控制在收敛比较快的范围内的值尽量控制在收敛比较快的范围内可可以以用用其其它它的的函函数数作作为为激激活活函函数数，只只要要该该函函数数是是处处可导的处处可导的8/23/202460网络的拓扑结构网络的拓扑结构x1o1输出层输出层隐藏层隐藏层输入层输入层x2o2omxnW(1)W(2)W(3)W(L)8/23/202461网络的拓扑结构网络的拓扑结构 1.BP网的结构网的结构2.2.输输入入向向量量、输输出出向向量量的的维维数数、网网络络隐隐藏藏层层的层数和各个隐藏层神经元的个数的决定的层数和各个隐藏层神经元的个数的决定3.3.实实验验：增增加加隐隐藏藏层层的的层层数数和和隐隐藏藏层层神神经经元元个个数数不不一一定定总总能能够够提提高高网网络络精精度度和和表表达达能能力。力。4.4.BPBP网一般都选用二级网络。网一般都选用二级网络。8/23/202462网络的拓扑结构网络的拓扑结构x1o1输出层输出层隐藏层隐藏层输入层输入层x2o2omxnWV8/23/2024632训练过程概述训练过程概述样本：样本：(输入向量，理想输出向量输入向量，理想输出向量) )权初始化：权初始化：小随机数与饱和状态；不同保证小随机数与饱和状态；不同保证网络可以学。网络可以学。1 1、向前传播阶段：、向前传播阶段：（1）从从样样本本集集中中取取一一个个样样本本(Xp，Yp)，将将Xp输入网络；输入网络；（2）计算相应的实际输出）计算相应的实际输出Op：Op=Fl(F2(F1(XpW(1)W(2)W(L)8/23/2024642训练过程概述训练过程概述 2 2、向后传播阶段、向后传播阶段误差传播阶段：误差传播阶段：（1）计计算算实实际际输输出出Op与与相相应应的的理理想想输输出出Yp的的差；差；（2）按极小化误差的方式调整权矩阵。）按极小化误差的方式调整权矩阵。（3）网络关于第）网络关于第p p个样本的误差测度：个样本的误差测度：（4）网络关于整个样本集的误差测度：网络关于整个样本集的误差测度：8/23/2024653误差传播分析误差传播分析 1、输出层权的调整、输出层权的调整wpq=wpq+wpqwpq=qop=fn(netq)(yq-oq)op=oq(1-oq)(yq-oq)opwpqANpANq第第L-1层层第第L层层wpq8/23/2024662 2、隐藏层权的调整、隐藏层权的调整 ANpANqANhvhppk-11kwp1wpqqkwpmmk第第k-2层层第第k层层第第k-1层层8/23/2024672 2、隐藏层权的调整、隐藏层权的调整pk-1的值和的值和1k，2k，mk有关有关不妨认为不妨认为pk-1通过权通过权wp1对对1k做出贡献，做出贡献，通过权通过权wp2对对2k做出贡献，做出贡献，通过权通过权wpm对对mk做出贡献。做出贡献。pk-1=fk-1(netp)(wp11k+wp22k+wpmmk)8/23/2024682 2、隐藏层权的调整、隐藏层权的调整vhp=vhp+vhpvhp=pk-1ohk-2 =fk-1(netp)(wp11k+wp22k+wpmmk)ohk-2=opk-1(1-opk-1)(wp11k+wp22k+wpmmk)ohk-2ANpANqANhvhppk-11kwp1wpmqkwpqmk第第k-2层层第第k层层第第k-1层层8/23/202469内容回顾内容回顾基本基本BP算法算法neti=x1w1i+x2w2i+xnwni8/23/202470内容回顾内容回顾x1o1输出层输出层隐藏层隐藏层输入层输入层x2o2omxnWV8/23/202471内容回顾内容回顾样本样本权初始化权初始化向前传播阶段向前传播阶段Op=Fn(F2(F1(XpW(1)W(2)W(n)误差测度误差测度8/23/202472内容回顾内容回顾向后传播阶段向后传播阶段误差传播阶段误差传播阶段输出层权的调整输出层权的调整wpq=qop=fn(netq)(yq-oq)op=oq(1-oq)(yq-oq)op隐藏层权的调整隐藏层权的调整ANpANqANhvhppk-11kwp1wpqqkwpmmkvhp=opk-1(1-opk-1)(wp11k+wp22k+wpmmk)ohk-28/23/2024734基本的基本的BP算法算法样本集：样本集：S=(X1,Y1),(,(X2,Y2),),(,(Xs,Ys) ) 基本思想基本思想：逐一地根据样本集中的样本逐一地根据样本集中的样本(Xk,Yk)计算出实际输出计算出实际输出Ok和误差测度和误差测度E1，对，对W(1)，W(2)，W(L)各做各做一次调整，重复这个循环，直到一次调整，重复这个循环，直到Epdo 4.1 E=0; 8/23/202475基本基本BP算法算法4.2对对S中的每一个样本（中的每一个样本（Xp,Yp）：）：4.2.1计算出计算出Xp对应的实际输出对应的实际输出Op；4.2.2计算出计算出Ep；4.2.3E=E+Ep；4.2.4根据相应式子调整根据相应式子调整W(L)；4.2.5k=L-1；4.2.6whilek0do4.2.6.1根据相应式子调整根据相应式子调整W(k)；4.2.6.2k=k-1 4.3E=E/2.0 8/23/202476算法的改进算法的改进 1、BP网网络络接接受受样样本本的的顺顺序序对对训训练练结结果果有有较较大大影响。它更偏爱较后出现的样本影响。它更偏爱较后出现的样本2、给给集集中中的的样样本本安安排排一一个个适适当当的的顺顺序序，是是非非常常困难的。困难的。3、样本顺序影响结果的原因：样本顺序影响结果的原因：分别依次分别依次4、用用(X1,Y1)，（X2,Y2），（Xs,Ys）的的总总效效果果修改修改W(1)，W(2)，W(L)。w(k)ij=pw(k)ij8/23/202477消除样本顺序影响的消除样本顺序影响的BP算法算法 1fork=1toLdo1.1初始化初始化W(k)；2初始化精度控制参数初始化精度控制参数；3E=+1;4whileEdo4.1E=0;4.2对所有的对所有的i，j，k：w(k)ij=0； 8/23/2024784.3对对S中的每一个样本（中的每一个样本（Xp,Yp）：）：4.3.1计算出计算出Xp对应的实际输出对应的实际输出Op；4.3.2计算出计算出Ep；4.3.3E=E+Ep；4.3.4对所有对所有i，j根据相应式子计算根据相应式子计算pw(L)ij；4.3.5对所有对所有i，j：w(L)ij=w(L)ij+pw(L)ij；4.3.6k=L-1；4.3.7whilek0do4.3.7.1对所有对所有i, ,j根据相应式子计算根据相应式子计算pw(k)ij；4.3.7.2对所有对所有i, ,j：w(k)ij=w(k)ij+pw(k)ij；4.3.7.3k=k-1 4.4对所有对所有i，j，k：w(k)ij=w(k)ij+w(k)ij;4.5E=E/2.0 8/23/202479算法分析算法分析较好地解决了因样本的顺序引起的精度问题较好地解决了因样本的顺序引起的精度问题和训练的抖动问题和训练的抖动问题收敛速度：比较慢收敛速度：比较慢偏移量：给每一个神经元增加一个偏移量来偏移量：给每一个神经元增加一个偏移量来加快收敛速度加快收敛速度冲量冲量：联接权的本次修改要考虑上次修改的联接权的本次修改要考虑上次修改的影响，以减少抖动问题影响，以减少抖动问题 8/23/202480算法的实现算法的实现主要数据结构主要数据结构WH，m输出层的权矩阵；输出层的权矩阵；Vn，H输入（隐藏）层的权矩阵；输入（隐藏）层的权矩阵；m输出层各联接权的修改量组成的向量；输出层各联接权的修改量组成的向量；H隐藏层各联接权的修改量组成的向量；隐藏层各联接权的修改量组成的向量；O1隐藏层的输出向量；隐藏层的输出向量；O2输出层的输出向量；输出层的输出向量；(X，Y)一个样本。一个样本。 8/23/202481算法的主要实现步骤算法的主要实现步骤 1 1用不同的小伪随机数初始化用不同的小伪随机数初始化W，V；2 2初始化精度控制参数初始化精度控制参数；学习率学习率； 3 3循环控制参数循环控制参数E=+1；循环最大次数循环最大次数M；循环次数控制参数循环次数控制参数N=0； 4whileE&N0，此时，此时wij0取取E0wij8/23/202488而其中的而其中的所以，所以，最速下降法，要求最速下降法，要求E的极小点的极小点8/23/202489令令所以所以wij=joi为学习率为学习率最速下降法，要求最速下降法，要求E的极小点的极小点8/23/202490ANj为输出层神经元为输出层神经元 oj=f(netj) 容易得到容易得到从而从而8/23/202491ANj为输出层神经元为输出层神经元8/23/202492所以，所以，故，当故，当ANj为输出层的神经元时，它对应为输出层的神经元时，它对应的联接权的联接权wij应该按照下列公式进行调整：应该按照下列公式进行调整：ANj为输出层神经元为输出层神经元8/23/202493ANj为隐藏层神经元为隐藏层神经元函数8/23/202494ANj为隐藏层神经元为隐藏层神经元netk=ojo2o1oHhnetk是是oj下一级的神下一级的神经元的网络输入经元的网络输入8/23/202495ANj为隐藏层神经元为隐藏层神经元8/23/202496ANj为隐藏层神经元为隐藏层神经元8/23/202497ANj为隐藏层神经元为隐藏层神经元8/23/202498几个问题的讨论几个问题的讨论收敛速度问题收敛速度问题局部极小点问题局部极小点问题逃逃离离/避避开开局局部部极极小小点点：修修改改W、V的的初初值值并并不不是是总有效。总有效。逃离逃离统计方法；统计方法；Wasserman，1986将将Cauchy训训练与练与BP算法结合起来，可以在保证训练速度不算法结合起来，可以在保证训练速度不被降低的情况下，找到全局极小点。被降低的情况下，找到全局极小点。 8/23/202499几个问题的讨论几个问题的讨论网络瘫痪问题网络瘫痪问题在训练中，权可能变得很大，这会使神经元的网在训练中，权可能变得很大，这会使神经元的网络输入变得很大，从而又使得其激活函数的导络输入变得很大，从而又使得其激活函数的导函数在此点上的取值很小。根据相应式子，此函数在此点上的取值很小。根据相应式子，此时的训练步长会变得非常小，进而将导致训练时的训练步长会变得非常小，进而将导致训练速度降得非常低，最终导致网络停止收敛速度降得非常低，最终导致网络停止收敛稳定性问题稳定性问题用修改量的综合实施权的修改用修改量的综合实施权的修改连续变化的环境，它将变成无效的连续变化的环境，它将变成无效的 8/23/2024100几个问题的讨论几个问题的讨论步长问题步长问题 BP网络的收敛是基于无穷小的权修改量网络的收敛是基于无穷小的权修改量步长太小，收敛就非常慢步长太小，收敛就非常慢步长太大，可能会导致网络的瘫痪和不稳定步长太大，可能会导致网络的瘫痪和不稳定自适应步长，使得权修改量能随着网络的训练而自适应步长，使得权修改量能随着网络的训练而不断变化。不断变化。1988年，年，Wasserman 8/23/2024101