首页 > 范文大全 > 正文

初态学习下的多智能体一致性迭代学习控制

开篇:润墨网以专业的文秘视角,为您筛选了一篇初态学习下的多智能体一致性迭代学习控制范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要 考虑重复运行的带虚拟领导者的多智能体系统在有限时间区间上的一致性问题。针对存在初始定位误差的线性时不变多智能体系统,提出一种新的初态学习律,使得多智能体系统在迭代学习过程中,无需初态定位于某一精确的具置上,放宽了迭代学习方法的初始定位条件。文中分别给出了初态学习律和输入学习律收敛的充分条件,与已有方法相比,初态的收敛条件与系统的输入矩阵无关,降低了系统建模要求。最后,仿真实例结果表明各智能体的输出可以完全跟踪上期望轨迹,验证了该方法的可行性。

【关键词】多智能体系统 一致性 初态学习 迭代学习控制

近年来,由于复杂系统先进理论的发展和多智能体在生物、物理、机器人、交通以及控制工程等领域的广泛应用,多智能分布式协同控制系统受到了广泛的研究。一致性、群集、编队、集结等问题成为了重要的研究热点,并且共同的目标是开发分布式的方案或协议来确保复杂全局目标的实现。特别的,一致性是多智能体系统协调控制的一类重要问题,所谓的一致性是指多智能体网络中每个多智能体所关注的状态达到一致。在一致性实现过程中,每个智能体的控制策略取决于自身状态以及相邻的多智能体信息,一般常采用拓扑图来描述多智能体之间的信息交换。由于采用分布式控制策略,相比于集中控制具有更好的鲁棒性和可扩展性。

迭代学习控制是一种被广泛应用于工程应用的学习控制策略,最早于1984由Arimoto等人正式提出。迭代学习控制适于有限时间区间上可重复运行的系统,它通过应用先前试验得到的信息来修正不理想的输入信号,改善跟踪性能。迭代学习控制方法用于解决多智能体系统问题已经有了大量的研究。最早将迭代学习控制算法用于多智能体系统协调控制问题出现在Ahn[5]的文章,主要考虑用于多智能体编队问题。之后,文献[6-9]中采用迭代学习控制算法处理多智能体系统的一致性跟踪问题。文献[10]讨论了迭代学习控制方法处理高阶多智能体系统协调控制问题。传统提法的迭代学习控制对初始定位有着严格的要求,规定在每次迭代时,初始状态都要和期望初态一致。文献[11]中给出了初态偏移下的多智能体系统在D型和PD型学习律下的极限轨迹,表明了初始定位误差对多智能体一致性跟踪型性能的影响。文献[12,13]提出带初态修正的迭代学习算法,实现了多智能体系统在给定区间上的完全跟踪。

本文讨论多智能体系统初态学习下的一致性跟踪问题。与经典迭代学习控制中要求的初始状态条件相比较,讨论放宽初始状态条件是更有工程应用意义的。初态学习可以放宽初始状态条件,它允许初始状态可以不精确定位在期望初态上。文献[12,13]分别将文献[14]中的单个系统初态学习律应用于非线性时变和线性时变多智能体系统,形象地以提出多智能体系统初态学习律这种形式放宽了初始定位条件。但该多智能体系统初态学习律要求:

(1)多智能体系统的输入矩阵精确已知;

(2)迭代过程中的初态需要严格的落在由初态学习律确定的轨迹上,仅有第一次的初态是可任意给定的。

本文针对多智能体系统,给出新的初态学习律,不对输入矩阵做要求,且初态收敛条件也与输入矩阵无关。在文献[12,13]中的初态学习律的学习增益与输入学习律的学习增益相同,因而导致了迭代过程中初始状态的严格定位。而本文中的两个学习律增益可以不同,这样使得多智能体系统在迭代过程允许初态在一定范围内变动,相比已有的初态学习律,具有更强的鲁棒性。

1 问题的提出

考虑一组由N个同类动态智能体构成的多智能体系统,且其第j个智能体的动力学方程可用如下的线性时不变模型来描述

(1)

其中k表示迭代次数,,,和分别为智能体j的状态向量,输出向量和控制输入,A,B,C是相应维数的常数矩阵且满足假设。

假设为任意给定有限时间内的期望参考轨迹,可由如下方程产生

(2)

其中为唯一且存在的期望输入,对于执行重复任务的多智能体系统(1),目标是通过迭代学习的过程,最终找到与期望输入一致的输入,使智能体运行轨迹在有限时间内对期望轨迹完全跟踪。

为阐述后续问题的需要,这里首先介绍图论的相关知识。利用图论中的无向图来描述多智能体间通信的关系拓扑结构。令表示一个带权无向图,其中该图的节点,边界。A表示邻接矩阵。对于多智能体系统来说,v中的每一个节点代表一个多智能体。两个可以相互传递信息的智能体节点i和j之间构成的边界表示为,智能体i的邻居节点表示为,而智能体节点i和j的联系用带权邻接矩阵表示,其中对角线元素,若节点i和j之间有联系,则有;否则,。图ζ的Laplacian矩阵定义为 ,

其中,

受限于多智能体分布式通信结构,导致只有部分跟踪智能体能直接获得领导者轨迹的信息。令跟踪多智能体之间的关系用图ζ来描述,若虚拟领导者为智能体0,则所有多智能体之间(包含虚拟领导者)完整的信息流动关系可以用新的图,其中为新的边界集,这时智能体i与虚拟领导者之间的联系用Si表示,Si>0表示智能体 与虚拟领导者存在直接联系;否则,Si=0。

原始提法的迭代学习控制对于每一次迭代,都要求系统初态严格设置在期望初态上。这对于多智能体系统很难实现,主要存在以下问题:

(1)多智能体系统模型的不确定性影响期望初态的确定;

(2)多智能体跟踪的是由虚拟领导者给定的期望参考轨迹,针对动态方程不同的各智能体对应的真实初始状态是未知的;

(3)多智能体系统对于给定初始状态的定位所能达到的精确程度。以上问题表明了对多智能体系统而言,每次迭代时都将初态设置在期望初态上这一要求是苛刻的。

受启发于文献[17]中的初态学习方法,本文针对多智能体初态偏移以及迭代过程中的定位误差,提出初态学习下的迭代学习控制方法,该方法放宽了初始定位要求,无需多智能体在迭代过程中一律要求严格地将系统初态精确定位在某一具置上。根据式(1)描述的多智能体系统,由于满足,知此系统是一阶完全非正则的,本文提出初态学习律:

(3)

则当时,收敛于。

定义,

对于给定的初始状态和期望初态,不要求严格设置在某一精确位置上,只要落在上就可以保证算法收敛性。而集合会随着靠近逐渐缩小;当时,,之后初态不再变化。因此,文中提出的初态学习下的学习控制算法关于初态误差具有鲁棒收敛性,它不需要在迭代过程一律要求严格地将系统初始状态精确定位在某一具置上。

2 多智能体系统初态学习

考虑到多智能体系统的分布式结构,令表示第j个智能体在第(k+1)次迭代运算时的可用信息。其中,第一个下标j代表智能体索引参数,第二个下标 表示迭代次数

(4)

其中,如果j智能体可以直接得到期望轨迹的信息(即和虚拟领导者直接相连),则Sj=1,否则Sj=0。

考虑系统(1),为了采用迭代学习控制方法解决一致性跟踪问题,提出如下的学习控制规律和初始状态学习规律

(5)

(6)

其中,φ为输入学习律增益矩阵,ε为初始状态学习律增益矩阵。

定义 1:表示向量范数。给定函数f: ,其λ范数定义为:

其中λ>0。

定义为跟踪误差。我们可以根据跟踪误差将式(4)写成

(7)

定义第k次迭代时的列堆栈向量为,类似可以得出:

。因此,式(7)可以写成如下紧凑式

(8)

其中。

为了更清楚的描述,我们将输入学习律和初始状态学习律也写为如下形式

,(9)

。(10)

引理 1[18]设两实序列和满足,k=1,2,…。若0≤ρ≤1,且,则

引理 2若

(11)

则当时,初态学习律(6)使得。

证明:

由初态学习律(10)知,

利用条件(11),易证出引理2成立。

定理 1 对于多智能体系统(1),在输入学习律(5)和初态学习律(6)作用下,若引理1中的条件成立,且

, (12)

则当时,在上一致收敛于。

证明:根据跟踪误差的定义,可知第j个智能体的跟踪误差为:

(13)

由式(13),将所有智能体的跟踪误差写成紧凑形式,我们可以得到

(14)

多智能体状态轨迹在相邻两次迭代下的偏差为

(15)

其中,是系统(1)的状态转移矩阵,将式(9)(10)带入式(15)可得:

(16)

根据分部积分,有

(17)

结合式(16)(17),式(14)可变为

(18)

为了更简洁的描述问题,定义以下符号用于后续的证明

对式(18)两面取范数:

两边同乘以,得

根据λ范数定义,可得

,则有

(19)

故当λ足够大时,结合

可使得。进一步,由引理2知,

。再利用引理1即可证得定理1。

3 仿真算例

考虑一组包含1个虚拟领导者和4个智能体的多智能体系统,第j个智能体模型如下

期望参考轨迹

,。

图1:多智能体之间通信拓扑结构图

描述所有多智能体之间关系的拓扑图如图1所示,其中多智能体0代表虚拟领导者。从图中可以看出,虚拟领导者0与智能体1和3之间存在直接联系,即智能体1和3可以直接得到期望参考轨迹信息。根据之前的图论知识。可以得出该连通图的Laplacian矩阵为

且。容易得到

,且L和S已知,根据定理1可选取输入学习增益矩阵

。根据引理2知,初态学习增益矩阵不受系统输入矩阵B的约束,由矩阵C、L和S决定,可选取初态学习增益为

。仿真时,各智能体第一次迭代时的初始状态分别为,,,,且初始输入。

图3是多智能体系统在不同迭代次数时的输出。随着迭代次数的增加,所有智能体的输出收敛于期望轨迹。图4描述了多智能体初始状态的学习。在这个仿真算例中,期望初始状态为。可见智能体初态在迭代范围内逐渐收敛于期望初态。

4 结论

针对多智能体系统一致性跟踪问题,本文提出新的初态学习下的迭代学习控制方法,放宽了常规迭代学习控制中的初态必须落在期望初态上这一条件,并且无需在迭代过程中一律要求严格地将系统初态精确定位在某一具置上。在仅有部分智能体能够获得期望轨迹信息的前提下,给出了输入学习律及初态学习律收敛的充分条件。保证初始定位鲁棒性收敛的同时,实现多智能体系统在有限时间内的一致性跟踪。对于多智能体系统而言,本文的初态学习方法与已有的相比较,初态学习律及其收敛性条件与输入矩阵无关,对多智能体系统的建模放宽了一定的要求。

参考文献

[1]Olfati-Saber R.Consensus and Cooperation in Networked Multi-Agent Systems[J].Proceedings of the IEEE, 2007,95(1):215-233.

[2]Arimoto S,Kawamura S,Miyazaki F. Bettering operation of Robots by learning[J].Journal of Robotic Systems,1984,1(2):123-140.

[3]Arimoto,Suguru.Learning control theory for robotic motion[J]. International Journal of Adaptive Control&Signal Processing,1990, 4(6):543-564.

[4]Ahn H S,Chen Y Q.Iterative learning control for multi-agent formation[C]// ICCAS-SICE,2009. IEEE,2009:3111-3116.

[5]Liu Y,Jia Y.An iterative learning approach to formation control of multi-agent systems.[J].Systems & Control Letters,2012,61(1):148-154.

[6]Meng D,Jia Y.Finite-time consensus for multi-agent systems via terminal feedback iterative learning[J].Iet Control Theory & Applications,2011, 5(18):2098-2110.

[7]Meng,Deyuan,Jia,et al.Iterative learning approaches to design finite-time consensus protocols for multi-agent systems.[J].Systems & Control Letters,2012, 61(1):187-194.

[8]Yang S,Xu J X.Adaptive Iterative learning control for multi-agent systems consensus tracking[C]// Systems,Man,and Cybernetics(SMC), 2012 IEEE International Conference on.IEEE,2012:2803-2808.

[9]Meng D,Jia Y,Du J,et al.Tracking control over a finite interval for multi-agent systems with a time-varying reference trajectory[J]. Systems&Control Letters,2012, 61(7):807-818.

[10]Li J,Li J.Adaptive iterative learning control for coordination of second-order multi-agent systems[J].International Journal of Robust & Nonlinear Control,2014,volume 24(18):3282-3299(18).

[11]Yang S,Xu J X,Ren Q.Multi-agent consensus tracking with initial state error by iterative learning control[C]// Control & Automation (ICCA),11th IEEE International Conference on.IEEE,2014:625-630.

[12]伍巧凤,刘山.初始误差修正的多智能体一致性迭代学习控制[J].计算机工程与应用,2014,(1):29-35.DOI:10.3778/j.issn.1002-8331.1306-0224.

[13]Yang S,Xu J X,Huang D.Iterative learning control for multi-agent systems consensus tracking[C]// Decision and Control (CDC),2012 IEEE 51st Annual Conference on.IEEE, 2012:4672-4677.

[14]任雪梅,高为炳.任意初始状态下的学习控制[J].自动化学报,1994,20(1):74-79.

[15]Meng D,Jia Y,Du J.Robust Consensus Tracking Control for Multiagent Systems With Initial State Shifts, Disturbances,and Switching Topologies[J].IEEE Transactions on Neural Networks & Learning Systems, 2015,26(4):809-824.

[16]Meng D,Jia Y,Du J,et al.Robust Discrete-Time Iterative Learning Control for Nonlinear Systems With Varying Initial State Shifts[J]. IEEE Transactions on Automatic Control,2009,54(11):2626-2631.

[17]孙明轩.初态学习下的迭代学习控制[J]. 控制与决策,2007,22(8):848-852.

[18]孙明轩.迭代学习控制[M].北京:国防工业出版社,1999.

作者简介

徐靠(1991-),男,安徽省宿州市人。硕士研究生,研究方向为迭代学习控制。

董辉(1979-),男,浙江省永康市人。现为浙江工业大学信息工程学院副教授,主要研究方向为嵌入式系统、工业机器人控制。

作者单位

浙江工业大学信息工程学院 浙江省杭州市 310032