智能控制chap11课堂PPT-

第十一章第十一章迭代学习控制迭代学习控制实际控制中存在一类轨迹跟踪问题，它的控制任务是寻找控制律，使得被控对象输出在有限时间上沿着整个期望轨迹实现零误差轨迹跟踪。这列跟踪问题是具有挑战性的控制问题。人们在处理实际场合中的重复操作任务时，往往依据对象的可重复动态行为与期望行为的差距来调整决策。通过重复操作，使得对象行为与期望行为的配合达到要求。这时，衡量动态行为的指标是某种满意指标。1 迭代学习控制（迭代学习控制（ILC,Iterative Learning Control）的思想最初由）的思想最初由日本学者日本学者Uchiyama于于1978年提出年提出23，于，于1984年由年由Arimoto等人等人24做出了开创性的研究。这些学者借鉴人们在重复过程中追求满意做出了开创性的研究。这些学者借鉴人们在重复过程中追求满意指标达到期望行为的简单原理，成功地使得具有强耦合非线性多变量指标达到期望行为的简单原理，成功地使得具有强耦合非线性多变量的工业机器人快速高精度地执行轨迹跟踪任务。其基本做法是对于一的工业机器人快速高精度地执行轨迹跟踪任务。其基本做法是对于一个在有限时间区间上执行轨迹跟踪任务的机器人，利用前一次或前几个在有限时间区间上执行轨迹跟踪任务的机器人，利用前一次或前几次操作时测得的误差信息修正控制输入，使得该重复任务在下一次操次操作时测得的误差信息修正控制输入，使得该重复任务在下一次操作过程中做得更好。如此不断重复，直至在整个时间区间上输出轨迹作过程中做得更好。如此不断重复，直至在整个时间区间上输出轨迹跟踪上期望轨迹。跟踪上期望轨迹。2 迭代学习控制适合于具有重复运动性质的被控对象，通过迭代修迭代学习控制适合于具有重复运动性质的被控对象，通过迭代修正达到某种控制目标的改善。迭代学习控制方法不依赖于系统的精确正达到某种控制目标的改善。迭代学习控制方法不依赖于系统的精确数学模型，能在给定的时间范围内数学模型，能在给定的时间范围内,以非常简单的算法实现不确定性高以非常简单的算法实现不确定性高的非线性强耦合动态系统的控制，并高精度跟踪给定期望轨迹，因而的非线性强耦合动态系统的控制，并高精度跟踪给定期望轨迹，因而一经推出，就在运动控制领域得到了广泛的运用。一经推出，就在运动控制领域得到了广泛的运用。迭代学习控制方法具有很强的工程背景，这些背景包括：执行诸迭代学习控制方法具有很强的工程背景，这些背景包括：执行诸如焊接、喷涂、装配、搬运等重复任务的工业机器人；指令信号为周如焊接、喷涂、装配、搬运等重复任务的工业机器人；指令信号为周期函数的伺服系统；数控机床；磁盘光盘驱动系统；机械制造中使用期函数的伺服系统；数控机床；磁盘光盘驱动系统；机械制造中使用的坐标测量机等。的坐标测量机等。3 由于迭代学习控制模拟了人脑学习和自我调节的功能，因而是一种典型的智能控制方法25。经历了三十多年的发展，迭代学习控制已成为智能控制中具有严格数学描述的一个分支。目前,迭代学习控制在学习算法、收敛性、鲁棒性、学习速度及工程应用研究上取得了很大的进展。 11.1 基本原理基本原理设被控对象的动态过程为， (11.1)4 式中，、、分别为系统的状态，输出和输入变量，、、为适当维数的向量函数，其结构与参数均未知。若期望控制存在,则迭代学习控制的目标为：给定期望输出和每次运行的初始状态 ,要求在给定的时间内,按照一定的学习控制算法通过多次重复的运行,使控制输入，而系统输出第k 次运行时，式(11.1) 表示为： (11.2) 跟踪误差为 (11.3) 5 迭代学习控制可分为开环学习和闭环学习。开环学习控制的方法是：第k+1次的控制等于第k次控制再加上第k次输出误差的校正项，即 (11.4) 闭环学习策略是：取第K+1次运行的误差作为学习的修正项，即 (11.5) 式中，L为线性或非线性算子。6 11.2 基本迭代学习控制算法基本迭代学习控制算法 Arimoto 等首先给出了线性时变连续系统的等首先给出了线性时变连续系统的D型迭代学习控制律型迭代学习控制律24 (11.6) 式中，式中，为常数增益矩阵。在为常数增益矩阵。在D 型算法的基础上，相继出现了型算法的基础上，相继出现了P 型、型、PI 型、型、PD 型迭代学习控制律。从一般意义来看它们都是型迭代学习控制律。从一般意义来看它们都是PID型迭代型迭代学习控制律的特殊形式，学习控制律的特殊形式，PID迭代学习控制律表示为迭代学习控制律表示为 (11.7) 式中式中, 、、为学习增益矩阵。算法中的误差信息使用称为开环迭为学习增益矩阵。算法中的误差信息使用称为开环迭代学习控制，如果使用代学习控制，如果使用则称为闭环迭代学习控制，如果同时使用和则则称为闭环迭代学习控制，如果同时使用和则称为开闭环迭代学习控制。称为开闭环迭代学习控制。7 此外，还有高阶迭代学习控制算法、最优迭代学习控制算法、遗忘因子迭此外，还有高阶迭代学习控制算法、最优迭代学习控制算法、遗忘因子迭代学习控制算法和反馈代学习控制算法和反馈-前馈迭代学习控制算法等。前馈迭代学习控制算法等。 11.3 迭代学习控制的关键技术迭代学习控制的关键技术 11.3.1 学习算法的稳定性和收敛性学习算法的稳定性和收敛性稳定性与收敛性问题是研究当学习律与被控系统满足什么条件时，迭代学稳定性与收敛性问题是研究当学习律与被控系统满足什么条件时，迭代学习控制过程才是稳定收敛的。算法的稳定性保证了随着学习次数的增加，控习控制过程才是稳定收敛的。算法的稳定性保证了随着学习次数的增加，控制系统不发散，但是，对于学习控制系统而言，仅仅稳定是没有实际意义的，制系统不发散，但是，对于学习控制系统而言，仅仅稳定是没有实际意义的，只有使学习过程收敛到真值，才能保证得到的控制为某种意义下最优的控制。只有使学习过程收敛到真值，才能保证得到的控制为某种意义下最优的控制。收敛是对学习控制的最基本的要求，多数学者在提出新的学习律的同时，基收敛是对学习控制的最基本的要求，多数学者在提出新的学习律的同时，基于被控对象的一些假设，给出了收敛的条件。例如，于被控对象的一些假设，给出了收敛的条件。例如，Arimoto在最初提出在最初提出PID型学习控制律时，仅针对线性系统在型学习控制律时，仅针对线性系统在D型学习律下的稳定性和收敛条件作了型学习律下的稳定性和收敛条件作了证明证明8 11.3.2 初始值问题初始值问题运用迭代学习控制技术设计控制器时，只需要通过重复操作获得的受控对运用迭代学习控制技术设计控制器时，只需要通过重复操作获得的受控对象的误差或误差导数信号。在这种控制技术中，迭代学习总要从某初始点开象的误差或误差导数信号。在这种控制技术中，迭代学习总要从某初始点开始，初始点指初始状态或初始输出。几乎所有的收敛性证明都要求初始条件始，初始点指初始状态或初始输出。几乎所有的收敛性证明都要求初始条件是相同的，解决迭代学习控制理论中的初始条件问题一直是人们追求的目标是相同的，解决迭代学习控制理论中的初始条件问题一直是人们追求的目标之一。目前已提出的迭代学习控制算法大多数要求被控系统每次运行时的初之一。目前已提出的迭代学习控制算法大多数要求被控系统每次运行时的初始状态在期望轨迹对应的初始状态上，即满足初始条件：始状态在期望轨迹对应的初始状态上，即满足初始条件：（11.8）当系统的初始状态不在期望轨迹上，而在期望轨迹的某一很小的邻域内时，当系统的初始状态不在期望轨迹上，而在期望轨迹的某一很小的邻域内时，通常把这类问题归结为学习控制的鲁棒性问题研究。通常把这类问题归结为学习控制的鲁棒性问题研究。9 11.3.3 学习速度问题学习速度问题在迭代学习算法研究中，其收敛条件基本上都是在学习次数在迭代学习算法研究中，其收敛条件基本上都是在学习次数下下给出的。而在实际应用场合，学习次数给出的。而在实际应用场合，学习次数显然是没有任何实际意显然是没有任何实际意义的。因此，如何使迭代学习过程更快地收敛于期望值是迭代学习控义的。因此，如何使迭代学习过程更快地收敛于期望值是迭代学习控制研究中的另一个重要问题。制研究中的另一个重要问题。迭代学习控制本质上是一种前馈控制技术，大部分学习律尽管证迭代学习控制本质上是一种前馈控制技术，大部分学习律尽管证明了学习收敛的充分条件，但收敛速度还是很慢。可利用多次学习过明了学习收敛的充分条件，但收敛速度还是很慢。可利用多次学习过程中得到的知识来改进后续学习过程的速度，例如，采用高阶迭代控程中得到的知识来改进后续学习过程的速度，例如，采用高阶迭代控制算法、带遗忘因子的学习律、利用当前项或反馈配置等方法来构造制算法、带遗忘因子的学习律、利用当前项或反馈配置等方法来构造学习律，可使收敛速度大大加快。学习律，可使收敛速度大大加快。10 11.3.4 鲁棒性问题鲁棒性问题迭代学习控制理论的提出有浓厚的工程背景，因此仅仅在无干扰迭代学习控制理论的提出有浓厚的工程背景，因此仅仅在无干扰条件下讨论收敛性问题是不够的，还应讨论存在各种干扰的情形下系条件下讨论收敛性问题是不够的，还应讨论存在各种干扰的情形下系统的跟踪性能。一个实际运行的迭代学习控制系统除了存在初始偏移统的跟踪性能。一个实际运行的迭代学习控制系统除了存在初始偏移外，还或多或少存在状态扰动、测量噪声、输入扰动等各种干扰。鲁外，还或多或少存在状态扰动、测量噪声、输入扰动等各种干扰。鲁棒性问题讨论存在各种干扰时迭代学习控制系统的跟踪性能。具体地棒性问题讨论存在各种干扰时迭代学习控制系统的跟踪性能。具体地说，一个迭代学习控制系统是鲁棒的，是指系统在各种有界干扰的影说，一个迭代学习控制系统是鲁棒的，是指系统在各种有界干扰的影响下，其迭代轨迹能收敛到期望轨迹的邻域内，而当这些干扰消除时，响下，其迭代轨迹能收敛到期望轨迹的邻域内，而当这些干扰消除时，迭代轨迹会收敛到期望轨迹。迭代轨迹会收敛到期望轨迹。11 11.4 机械手轨迹跟踪迭代学习控制仿真实例机械手轨迹跟踪迭代学习控制仿真实例 11.4.1控制器设计控制器设计考虑一个关节的机器人，其动态性能可以由以下二阶非线性微分方考虑一个关节的机器人，其动态性能可以由以下二阶非线性微分方程描述：程描述：（11.9）式中：式中：为关节角位移量，为关节角位移量，为机器人的惯性矩阵，为机器人的惯性矩阵，表表示离心力和哥氏力，示离心力和哥氏力，为重力项，为重力项，为控制力矩，为控制力矩，为各种为各种误差和扰动。误差和扰动。设系统所要跟踪的期望轨迹为设系统所要跟踪的期望轨迹为，。系统第次输出为。系统第次输出为令令。 12 在学习开始时，系统的初始状态为。学习控制的任务为通过学习控制律设计，使第次运动误差减少。采用三种基于反馈的迭代学习控制律：（1）闭环D型（11.10）（2）闭环PD型：（11.11）（3）指数变增益D型：（11.12）13 11.4.2 仿真实例仿真实例针对二关节机械手，介绍一种机器人针对二关节机械手，介绍一种机器人PD型反馈迭代学习控制的仿型反馈迭代学习控制的仿真设计方法。针对二关节机器人控制系统式（真设计方法。针对二关节机器人控制系统式（11.9），各项表示为：），各项表示为： 14 干扰项为机器人系统参数为，，，采用三种闭环迭代学习控制律，其中为D型迭代学习控制，为PD型迭代学习控制，为变增益指数D型迭代学习控制。两个关节的位置指令分别为和，为了保证被控对象初始输出与指令初值一致，取被控对象的初始状态为。取PD型迭代学习控制，即，仿真结果如图11-1至图11-3所示。15图图1111-1 20 20次迭代学习的跟踪过程次迭代学习的跟踪过程16图图11-2 第第20次迭代学习的位置跟踪次迭代学习的位置跟踪17图图1111-3 20 20次迭代过程中误差范数的收敛过程次迭代过程中误差范数的收敛过程18 11.5 线性时变连续系统迭代学习控制线性时变连续系统迭代学习控制 11.5.1 系统描述系统描述 Arimoto等等24给出了线性时变连续系统给出了线性时变连续系统（11.13）的开环的开环PID型迭代学习控制律：型迭代学习控制律：（11.14）其中其中，，为学习增益矩阵。为学习增益矩阵。19 11.5.2 控制器设计及收敛性分析控制器设计及收敛性分析定理定理1 若由式（若由式（11.13）和式（）和式（11.14）式描述的系统满足如下条件）式描述的系统满足如下条件24：（1）；（2）每次迭代初始条件一致，即）每次迭代初始条件一致，即则当则当时，有时，有，。证明：证明：由式（由式（11.13）及条件式（）及条件式（2）得）得则则，即系统满足初始条件。，即系统满足初始条件。20 非齐次一阶线性微分方程的解为：取，则由于，，则21 即将PID型控制律式（11.14）代入上式，则第k+1次输出的误差为：（11.15）利用分部积分公式，令，有（11.16）将式（11.16）代入式（11.15），得（11.17）22 将式（11.17）两端取范数，有（11.18）式中根据范数的定义可知，函数的范数为。将式（11.18）两端同乘以，，并考虑到有23 （11.19）根据范数的定义，函数的范数为：由于，，，则有。将式（11.19）的结果应用于下式，得：24其中。即（11.20）25 则（11.19）和（11.20）代入（11.18），得（11.21）其中。由于，则当取足够大时，可以使。因此。定理得证。如果将控制律式（11.14）中的改为，则为闭环PID型迭代学习控制律。同定理1的证明过程，可证明闭环PID迭代学习控制律。26 11.5.3 仿真实例仿真实例考虑考虑2输入输入2输出线性系统：输出线性系统：期望跟踪轨迹为期望跟踪轨迹为 27 由于，取，可满足定理1中的条件（1），在控制律式（11.14）中取，，系统的初始状态为。在chap11_2sim.mdl程序中，选择Simulink的Manual Switch开关，将开关向下，取PD型开环迭代学习控制律，仿真结果见图11-4至11-6所示。将开关向上，采用PD型闭环迭代学习控制律，仿真结果见图11-7至11-9所示。可见，闭环收敛速度好于开环收敛速度。28图图11-4 30次迭代学习的跟踪过程次迭代学习的跟踪过程（开环（开环PD控制）控制）29图图11-5 第第30次迭代学习的位置跟次迭代学习的位置跟踪（开环踪（开环PD控制控制）30图图11-6 30次迭代过程中误差最大绝对次迭代过程中误差最大绝对值的收敛过程（开环值的收敛过程（开环PD控制）控制）31图图11-7 30次迭代学习的跟踪过程次迭代学习的跟踪过程（闭环（闭环PD控制）控制）32图图11-8 第第30次迭代学习的位置跟次迭代学习的位置跟踪（闭环踪（闭环PD控制）控制）33图图11-9 30次迭代过程中误差最大绝对次迭代过程中误差最大绝对值的收敛过程（闭环值的收敛过程（闭环PD控制）控制）34 11.6 移动机器人轨迹跟踪迭代学习控制移动机器人轨迹跟踪迭代学习控制移动机器人是一种在复杂的环境下工作的具有自规划、自组织、自移动机器人是一种在复杂的环境下工作的具有自规划、自组织、自适应能力的机器人。在移动机器人的相关技术研究中，控制技术是其适应能力的机器人。在移动机器人的相关技术研究中，控制技术是其核心技术，也是其实现真正的智能化和完全的自主移动的关键技术。核心技术，也是其实现真正的智能化和完全的自主移动的关键技术。移动机器人具有时变、强耦合和非线性的动力学特征，由于测量和建移动机器人具有时变、强耦合和非线性的动力学特征，由于测量和建模的不精确，加上负载的变化以及外部扰动的影响，实际上无法得到模的不精确，加上负载的变化以及外部扰动的影响，实际上无法得到移动机器人精确、完整的运动模型。移动机器人精确、完整的运动模型。通过对文通过对文27的控制方法进行详细推导及仿真分析，研究一类移动机的控制方法进行详细推导及仿真分析，研究一类移动机器人迭代学习离散控制的设计及仿真方法。器人迭代学习离散控制的设计及仿真方法。35 11.6.1 数学基础数学基础代表代表N维欧氏空间，定义向量范数为：维欧氏空间，定义向量范数为：（11.22) 其中其中为为( )阶实数矩阵，定义矩阵范数为：阶实数矩阵，定义矩阵范数为：（11.23) 其中其中为矩阵的最大特征值。为矩阵的最大特征值。取取， , ，定义范数为：，定义范数为：（11.2411.24)36 11.6.2 系统描述图11-10为移动机器人运动模型，它在同一根轴上有两个独立的推进轮，机器人在二维空间移动，点代表机器人的当前位置，广义坐标定义为，和为直角坐标系下的坐标，为机器人的方位角。当机器人的标定方向为地理坐标系的横轴正半轴时，定义为0。移动机器人受不完全约束的影响而只能在驱动轮轴的方向运动，点的线速度和角速度定义为和。 37图图11-10 移动机器人运动模型移动机器人运动模型38 根据图11-10，针对P点，移动机器人的离散运动学方程可由下式描述（11.25）其中为采样时间，机器人状态向量为，速度向量为。式（11.25）可写为：（11.26）其中（11.27）39 如图11-10所示，期望轨迹为。运动轨迹跟踪的控制问题就是为确定，使跟踪。线速度和角速度误差分别为：（11.28）（11.29）移动机器人迭代学习控制系统结构如图11-11所示。40 图图11-11 移动机器人迭代学习控制系统结构移动机器人迭代学习控制系统结构移动机器人离散运动学方程可描述如下：移动机器人离散运动学方程可描述如下：（11.30) （11.31)41其中为状态干扰，为输出测量噪声，为系统输出，。考虑迭代过程，由（11.30）和（11.31）可得：（11.32）（11.33）其中为迭代次数，为离散时间，。，分别代表第次迭代的状态、输入、输出、状态干扰和输出噪声。机器人运动方程（11.32）和（11.33）满足下列性质和假设：性质1：考虑理想情况，取均为零，，则期望轨迹的方程可写为（11.34）（11.35）42 性质2：矩阵函数满足Lipschitz条件：，，为正常数（11.36）性质3：矩阵是有界的 , ,为正常数，矩阵为的满秩矩阵。假设1: ；假设2：干扰和噪声有界（11.37）其中，为正常数。假设3：在每一次迭代中，轨迹都是从的邻域开始，即，，。43 11.6.3 控制律设计及收敛性分析迭代学习控制律设计为：（11.38）对于第i次迭代，跟踪误差信号为，和为学习的增益矩阵，满足，，，，。通过控制律（11.38），使状态变量、控制输入、系统输出分别收敛于期望值。44 定理定理 1：考虑离散系统（：考虑离散系统（11.32）和（）和（11.33），满足假设），满足假设1-3，采用控，采用控制律（制律（11.38），则），则（11.39）对于所有对于所有都成立。如果忽略状态干扰，输出噪声和初始都成立。如果忽略状态干扰，输出噪声和初始状态误差（即状态误差（即），则分别收敛于期望值。如果考虑干扰、），则分别收敛于期望值。如果考虑干扰、噪声和误差的存在，则噪声和误差的存在，则，，有界，且收敛于有界，且收敛于的函数。的函数。证明：证明：由式由式（11.3411.34）和）和（11.3211.32）得：）得： 45 （11.40）考虑性质2和3及假设1和2，得令，则对上式进行递推并考虑假设3，得：（11.41）46由（11.38）式得：47 利用性质2和假设2，得令，，则将（11.39）和（11.41）代入上式，得48 因此上式两端同乘，取范数，得49取，得50 即（11.42）其中，根据等比数列有（11.43）。51令，则（11.42）变为（11.44）其中。对（11.44）式进行递推，得取足够大，使，可得（11.45）52同理, （11.41)式两端同时乘以，得由于，，并利用（11.43）式，得将式（11.45）代入上式，得（11.46）将（11.35)式减（11.33)式，得53将（11.35)式减（11.33)式，得将上式两端同时乘以得到将（11.46）代入上式，得（11.47）由（11.45）-（11.47）式，可得结论为：当时，，收敛于零，否则，，，按基于的函数有界收敛。5411.6.4 仿真实例针对移动机器人离散系统（11.32）和（11.33），每次迭代被控对象初始值与理想信号初始值相同，即取，，，其中第i次迭代时的初始状态。采用迭代学习控制律（11.38），位置指令为，。按收敛条件（11.39），取控制器的增益矩阵为采样时间为，取迭代次数为500次，每次迭代时间为2000次。仿真结果如图11-12至图11-14所示。55图图11-12 随迭代次数运动轨迹的跟踪过程随迭代次数运动轨迹的跟踪过程56图图11-13 最后一次的位置跟踪最后一次的位置跟踪57图图11-14 随迭代次数的收敛过程随迭代次数的收敛过程58 思考题与习题11-1 在迭代学习控制的工程实际应用中，如何解决初始值问题？11-2 在线性时变连续系统迭代学习控制一节中，如果采用闭环PID型迭代学习控制律，给出控制器设计及收敛性分析过程。59