改进型DDPG算法的多智能体编队控制与仿真

时间：2024-02-13 14:00:32 来源：网友投稿

景永年耿双双向瑶文家燕

摘要：针对多智能体系统编队在路径规划过程中队形不稳定、获取路径时间较慢以及在避障过程中存在与障碍物距离较近的问题，本文采用角度距离度量的方式对多智能体进行编队，通过改变传统的由起始点到达终点避障过程所形成的路径规划方法，弱化起始点和终点概念，添加路径中点的方式，使智能体同时从起点以及终点向中点移动，形成由起点指向中点、终点指向中点的2条路径。将奖励函数设计为同号智能体相碰为正向奖励，异号智能体相碰以及智能体（同号智能体和异号智能体）与障碍物之间相碰均为负向奖励。在搭建的静态和动态障碍物2种仿真环境下分别进行可变容量体验池深度确定性策略梯度算法（deep deterministic policy gradient -variable capacity experience pool， DDPG-vcep）验证，并对比不同训练次数下的奖赏值。仿真结果表明，改进后的DDPG编队算法较传统DDPG算法节约了路径获取时间，编队避障的效果更加明显。

关键词：深度学习；
强化学习；
深度确定性策略梯度算法（DDPG算法）；
多智能体；
编队控制；
避障

中图分类号：TP273 DOI：10.16375/j.cnki.cn45-1395/t.2023.03.009

0 引言

随着多智能体系统在军事和民用领域上的应用越来越广泛，其中多智能体系统之间的协作或协调问题受到了越来越多的关注，在卫星群协同控制、无人机编队控制、多机器人系统分布式优化、自动化公路系统调度等领域有着广泛的应用[1-4]。

在多智能体群体中，编队控制是最基本、最重要的研究课题之一，它要求一组智能体保持预定的队形在期望的轨迹上运动，也可以看作是所有的自治智能体通过协作来完成共同的任务。因此，多智能体编队可以广泛应用于航空航天、工业、娱乐等领域[5-7]。隨着理论研究的深入和现实应用需求的增加，围绕多智能体编队控制的研究越来越结合实际工况约束。现有的编队控制方法主要是针对确定性多智能体系统，不考虑任何随机干扰。然而多智能体通信中经常受到各种随机噪声的干扰，如热噪声、信道衰落和编解码过程中的量化效应[8-12]，因此，随机动态模型比确定性模型更能准确地描述实际的多智能体系统。为确定性系统开发的许多控制技术已成功地扩展到随机动态系统，但由于高维度问题[13]，这些技术无法直接应用于多智能体系统控制中。近年来，随着深度强化学习方法在多智能体系统编队控制的深入研究，为解决维度高的问题提供了新思路。

深度确定性策略梯度（deep deterministic policy gradient，DDPG）算法是一种只适用于连续动作空间的off-policy算法，是深度Q-Learning算法在连续动作空间中的扩展。本文在传统的DDPG算法的基础上进行改进，在多智能体编队避障过程出现“局部困扰”和获得避障路径效率低的情况下，结合双向搜索以及改进奖励函数解决多智能体编队避障控制问题。

1 整体框架

在传统的深度强化学习算法DDPG基础上研究多智能体系统编队整体框架，如图1所示，主要由4个模块构成。

1）环境建模模块：设置智能体需要训练的环境，包括多智能体的起始点位置、中点位置、障碍物位置等。

2）多智能体系统模块：由多个智能体构成，本实验设置的是4个智能体。多智能体系统设置的是智能体本身的一些参数，包括转角、移动速度等。

3）基于改进的DDPG算法的多智能体系统编队控制算法模块：该模块中涉及到的改进算法是在DDPG算法基础上作了奖励函数以及智能体编队方式、智能体起点中点设置的改进。

4）任务分配（编队）模块：每个智能体在保持自身与其他智能体相对位置的情况下，构建成菱形编队到达中点位置，遇到障碍物会切换队形，并重新设置智能体之间的相对距离，形成一字型绕过障碍物。

1.1 环境建模

多智能体避障所构建的环境如图2所示，环境地图较为简单。所建环境大小为10×10，其中地图中的数字由小到大分别对应的是智能体可行使区域、障碍物位置、智能体所在位置、中点位置。在二维坐标平面分别在（1，2）、（1，3）、（2，2）、（2，3）位置处设立智能体的初始位置；
在二维坐标平面（5，5）、（5，6）、（6，5）、（6，6）位置处建立第一次由起始位置所到达的中点位置；
在二维坐标平面（8，7）、（8，8）、（9，7）、（9，8）位置处建立4个智能体的第二次起点位置；
重点设立的障碍物在二维平面坐标的中点位置附近，目的是干扰智能体到达中点，验证改进算法的可行性。

1.2 任务分配

任务分配是多智能体系统编队中必须应用到的。本文研究的多智能体编队控制的任务分配问题是：在环境中有4个智能体，每个智能体对应的任务分配为从起点以一定的队形到达对应的目标点，此为任务分配一；
对于任务分配二，要求4个智能体从目标点出发按照相同的队形到达起点，在遇到障碍物时变换队形越过障碍物，最终实现任务一与任务二的统一，在中点处重合，形成一条完整的避障路径，以达到获取避障路径效率最快的目的。

1.3 多Agent编队控制算法

本文采用的多智能体系统编队控制方法是多智能体首先在障碍物环境中有一个起始位置，然后按照智能体之间设置的安全距离进行菱形编队，向着中点方向进行移动，在移动过程中若遇到障碍物则进行编队重构，形成一字型，绕过障碍物，之后恢复菱形编队到达中点。与同类型编队算法不同的是，本文算法新添加了一重反方向的编队，中点位置没有发生改变，从第一次多智能体到达的目标点为起点向着中点进行编队前行。最终二者会形成一条完整的避障路径，会在避障效率上大大减少训练时间。

1.3.1 菱形编队

多智能体采用菱形编队的示意图如图3所示。其中黑色方块代表的是智能体[P1]、[P2]、[P3]、[P4]，对应位置坐标分别为[（x1，y1）]、[（x2，y2）]、[（x3，y3）]、[（x4，y4）]。智能体[P1]、[P2]之间的夹角为[θ1]，智能体[P2]、[P3]之间的夹角为[θ2]，智能体[P3]、[P4]之间的夹角为[θ3]。通过采用角度距离的测量方式保持智能体间的相对距离，形成菱形编队。

角度距离度量的是智能体之间的方向，角度度量的距离更多的是衡量在各个维度上的比例差异，和绝对距离数值关系不大。其中一个特点是在智能体与原点连线上的角度距离不变，因此单独2个智能体避障时不宜采用角度距离的方式限制它们之间的相对位置。但本文采用4个智能体进行编队，角度距离度量可以使智能体之间产生菱形编队。由于直接计算智能体之间的夹角比较困难，可采用[arccosθ]来代替[θ]角的计算，具体计算公式如式（1）—式（4）所示：

研究表明[17]，如果奖赏值设置过小，会导致智能体在训练过程中所得到的奖励变化不大，使得智能体在到达目标点的过程中效率变低；
如果奖赏值设置过大，而对应惩罚太小，则会导致智能体在进行避障探索中出现无作为的现象，即无法获得大的奖励，智能体将会在原位置保持不动，使整个路径规划缓慢。基于文献[17]，将式（9）、式（10）中的数值设置为100。将改进后的奖赏函数值设置为100的目的有二：其一为与对比仿真算法保持一致；
其二是使奖赏值与惩罚保持在合理区间，使得智能体快速到达目标点。

3 数值仿真分析

为了使算法学习到的策略更吻合真实环境下多智能体系统编队避障，使用Python语言与pyglet数据库搭建了仿真环境模型，最大程度地还原真实环境信息。本文仿真环境模型搭建以及算法实验验证所使用的计算机配置为：编程语言Python3.6.0，深度学习框架Tensorflow2.0.0，pyglet、numpy、matplotlib等数据库。

3.1 静态障碍物环境下仿真

图8为验证改进算法的多智能体系统避障环境。设置环境地图大小为[400×400]的二维空间，采用栅格法模拟环境。黑色的圆形部分代表障碍物，其大小不一；
4个绿色的三角构成的是同构智能体，其大小设置为每个边长为[L=5]，速度设置为[v=1]；
红色的三角位置分别代表每个智能体需要到达的中点位置，其坐标由起点和终点的位置决定，其中横纵坐标仅表示智能体和障碍物的相对位置信息，计算公式为[xend-xstart/2，] [yend-ystart/2]。

仿真实验以4个智能体为例，仿真结果如图9所示。

图9所示为多智能体系统采用改进的DDPG算法与编队队形切换方法结合后在静态障碍物环境下的避障仿真图。从图9（a）—（f）中可以看出，多智能体的起始位置随机变化，将智能体以菱形队形编队并设置其初始位置，设置移动速度[v=1]向中点移动，在移动的过程中遇到障碍物时，为保障智能体能安全绕过障碍物，并缩小智能体间的相对空间，以“一”字队形绕开障碍物，然后恢复到菱形编队到达中点位置。从图9（g）—（l）中可以看出，多智能体设置移动速度[v=-1]向中点移动，其移动过程为镜像下的起点向中点移动。当智能体同时进行如图9（a）—（f）和图9（g）—（l）所示的训练时，所获得的多智能体编队避障路径时间将减少近50%。为验证改进的DDPG算法以及编队算法的通用性，设置了多智能体在动态障碍物环境下的仿真实验。

3.2 动态障碍物环境下仿真

在图8搭建的静态障碍物环境基础上，添加了2个动态障碍物，其在不同时刻下的状态图如图10所示。动态障碍物以[v=1]的速度分别在[X=150]处和[X=300]处向竖直方向上下移动，其移动规则设置为：在设置的平面内进行移动时不与静态障碍物发生碰撞，这样可以维持整个搭建环境的稳定性。

多智能体系统采用改进的DDPG算法与编队队形切换方法结合后在动态障碍物环境下的避障仿真图如图11所示。

从图11（a）—（f）中可以看出，将智能体以菱形队形编队并设置其初始位置，设置移动速度[v=1]向中点移动，在移动的过程中遇到动态障碍物时，为保障智能体能安全绕过障碍物，缩小智能体间的相对空间，以“一”字队形绕开障碍物，然后恢复到菱形编队到达中点位置。从图11（g）—（l）中可以看出，多智能体设置移动速度为[v=-1]向中点移动，其移动过程与镜像下的多智能体起点向中点移动不同，当遇到在[X=300]位置处上下移动的动态障碍物时，多智能体会通过队形切换方式转换成“一”字形队形，绕开障碍物，之后恢复菱形队形向中点移动。当智能体同时进行如图11（a）—（f）和图11（g）—（l）所示的训练时，所获得的多智能体编队避障路径时间将会减少。结合静态障碍物环境以及动态障碍物环境下的仿真验证的结果，可以得出：改進的DDPG算法在结合编队队形切换方法使用时，具有通用性以及在获取避障路径时的高效性。

4 对比实验与分析

为了验证改进DDPG算法的有效性，以本文构建的路径规划仿真环境为实验平台，通过对改进的DDPG算法与其他同类型的智能避障算法在不同训练次数下的比较来验证改进算法在编队避障过程中的高效性。仿真结果如图12所示，其中纵坐标表示智能体在避障环境中获得的奖赏值，[memory_][size=2 000]，[r=0.9]。

图12（a）—（e）为算法DDPG-nature、DDPG-other以及本文的改进DDPG算法（DDPG-vcep）在不同训练次数时的奖赏对比，其中DDPG-nature[18]指传统的深度确定性策略梯度算法，DDPG-other为Zong等[19]提出的DDPG改进算法，DDPG-vcep是本文提出的对DDPG算法中的奖励函数采用稀疏函数设计的方法，vcep是可变容量体验池（variable capacity experience pool）。由图12可以得出如下结论：

1）从整个训练过程可以看出，采用本文改进算法的智能体在避障环境中获得的奖赏值均处于领先地位，较其他同类型的智能避障算法的优势明显。

2）在前期训练过程中可以看出，在训练步数较少的情况下所获得的奖励较小，说明多智能体系统编队的避障效果不理想。但随着训练步数的不断增多，训练效果越来越突出，编队避障效果越来越好。

3）从整个训练步数可以看出，在步数为2 000步之后，使用改进的算法训练智能体，奖励将不发生变化，而使用其他同类型的算法，奖励却依然增加，说明改进后的编队避障算法收敛速度更快，获得的避障路径效率更高。

5 结论

本文以传统的DDPG算法为基础，分别对多智能体编队方式和算法奖励函数以及多智能体编队算法进行改进，通过对多智能体模型进行起始点同色编号，对DDPG算法中的奖励函数采用稀疏函数设计的方法，提出一种改进的DDPG算法；
通过采用角度度量的方式，使多智能体编队时的稳定性更高；
在本文建立的障碍物环境中将该算法与其他典型算法进行对比实验，得到验证结果。实验结果表明，与其他同类型的智能避障算法相比，改进后的算法在训练步数较少时获得奖励较小，但随着训练步数的增加，奖励会逐渐增加，且训练步数在到达一定数量之后将不再变化，说明其收敛速度更快，获得避障的路径效率更高。但本研究仅涉及二维地图环境中的多智能体系统编队避障控制，缺乏三维立体的算法验证，下一步将拓展研究范围，建立复杂的三维立体仿真环境，进一步研究该避障算法的适用性。

参考文献

[1] 顾大强，郑文钢.多移动机器人协同搬运技术综述[J].智能系统学报，2019，14（1）：20-27.

[2] 刘延栋.基于DDPG强化学习的移动机器人路径规划[D].呼和浩特：内蒙古工业大学，2019.

[3] 杨帆.多移动机器人编队控制与协作运输研究[D].上海：华东理工大学，2011.

[4] 班林林.多移动机器人群体协同编队与路径规划[D].北京：北京交通大学，2018.

[5] KARTAL Y，SUBBARAO K，GANS N R， et al. Distributed backstepping based control of multiple UAV formation flight subject to time delays[J]. IET Control Theory and Applications，2020，14（12）：1628-1638.

[6] 霍祥.基于自适应控制的机器人轨迹跟踪算法研究[D].哈爾滨：哈尔滨工业大学，2019.

[7] ZHANG W X，MA L，LI X N.Multi-agent reinforcement learning based on local communication[J].Cluster Computing，2019，22（6）：15357-15366.

[8] 杨继明，朱先睿.一类非线性最优控制问题的间断有限元方法[J].湖南工程学院学报（自然科学版），2017，27（3）：37-39.

[9] 徐鹏，谢广明，文家燕，等.事件驱动的强化学习多智能体编队控制[J].智能系统学报，2019，14（1）：93-98.

[10] 王文欣，叶洪涛，罗文广，等.事件触发机制下多智能体系统的非对称二分一致性[J].广西科技大学学报，2021，32（4）：28-34.

[11] 唐博文，王智文，胡振寰.基于事件驱动的无人机强化学习避障研究[J].广西科技大学学报，2019，30（1）：96-102，117.

[12] 贾丙佳，李平.复杂环境下移动机器人路径规划算法[J].华侨大学学报（自然科学版），2021，42（1）：103-112.

[13] 邓小豪，侯进，谭光鸿，等.基于强化学习的多目标车辆跟随决策算法[J].控制与决策，2021，36（10）：2497-2503.

[14] 李文超.移动机器人环境建模与路径规划方法研究[D].邯郸：河北工程大学，2019.

[15] JOHNSON J D，LI J H，CHEN Z S.Reinforcement learning：an introduction[J].Neurocomputing，2000，35（1-4）：205-206.

[16] SILVER D，LEVER G，HEESS N，et al.Deterministic policy gradient algorithms[C]//International Conference on Machine Learning，2014：387-395.

[17] PROENCA H，NEVES J C.Deep-PRWIS：periocular recognition without the iris and sclera using deep learning frameworks[J]. IEEE Transactions on Information Forensics and Security，2018，13（4）：888-896.

[18] XING X R，DING H W，LIANG Z G，et al.Robot path planner based on deep reinforcement learning and the seeker optimization algorithm[J].Mechatronics，2022，88：102918.

[19] ZONG X P，XU G Y，YU G Z，et al.Obstacle avoidance for self-driving vehicle with reinforcement learning[J].SAE International Journal of Passenger Cars-Electronic and Electrical Systems，2017，11（1）：30-39.

Multi-agent formation control and simulation based on improved DDPG algorithm

JING Yongnian1，2， GENG Shuangshuang1，3， XIANG Yao1，3， WEN Jiayan*1，3，4

（1. School of Automation， Guangxi University of Science and Technology， Liuzhou 545616， China;

2. Black Sesame Technologies Company Limited， Shenzhen 518055， China;

3. Research Center for Intelligent Cooperation and Cross-application，Guangxi University of Science and Technology， Liuzhou 545616， China;

4. Guangxi Key Laboratory of Automobile Components and Vehicle Technology， Guangxi University of Science and Technology， Liuzhou 545616， China）

Abstract：
In view of the problems of unstable formation in the path planning process， slow time to obtain path， and close distance to obstacles in the process of obstacle avoidance， in this paper， the method of angular distance measurement is used to form multiple agents， and by changing the traditional path planning method formed by the obstacle avoidance process from the start point to the end point， weakening the concept of start point and end point， and adding the path midpoint， the agent moves from the start point and the end point to the midpoint at the same time， forming two paths from the start point to the midpoint and the end point to the midpoint. The reward function is designed to meet agents of the same number as a positive reward， and the collision of different agents and the collision between agents（agents of the same number and different agents）and obstacles are all negative rewards. The deep deterministic policy gradient-variable capacity experience pool（DDPG-vcep）algorithm is verified respectively in the static and dynamic obstacle simulation environments， and the reward values under different training times are compared. The simulation results show that compared with the traditional DDPG algorithm， the improved DDPG formation algorithm saves the path acquisition time and has a more obvious obstacle avoidance effect.

Key words：
deep learning; reinforcement learning; deep deterministic policy gradient algorithm（DDPG algorithm）; multi-agent; formation control; obstacle avoidance

（責任编辑：黎娅）

猜你喜欢避障深度学习基于LabVIEW的自主巡航与遥控双功能智能小车研发中国新技术新产品(2017年2期)2017-01-20基于HC—SR04超声波传感器的智能避障小车设计科技创新与应用(2016年34期)2016-12-23有体验的学习才是有意义的学习江苏教育·中学教学版(2016年11期)2016-12-21基于STM32芯片的移动机器人的避障研究电子技术与软件工程(2016年20期)2016-12-21电子商务中基于深度学习的虚假交易识别研究现代情报(2016年10期)2016-12-15MOOC与翻转课堂融合的深度学习场域建构新教育时代·教师版(2016年23期)2016-12-06大数据技术在反恐怖主义中的应用展望法制与社会(2016年32期)2016-12-01深度学习算法应用于岩石图像处理的可行性研究软件导刊(2016年9期)2016-11-07基于深度卷积网络的人脸年龄分析算法与实现软件工程(2016年8期)2016-10-25基于“STC80C51单片机”的智能小车系统的设计电脑知识与技术(2016年17期)2016-07-23

推荐访问:编队算法仿真