2024, 38(3): 313-320.
doi: 10.12299/jsues.23-0227
摘要:
需要实时采样更新数据供无人机(unmanned aerial vehicle, UAV)优化避障策略是深度强化学习(deep reinforcement learning, DRL)应用于防撞领域亟需解决的问题。针对此,提出一种基于离线DRL的动态避障导航算法。将离线DRL算法与速度障碍(velocity obstacle, VO)法结合,改善在线深度强化学习算法需要高实时性交互数据的问题。通过对策略更新进行约束,提升离线DRL算法的性能。开发一个基于VO的奖励函数,使无人机在躲避动态障物的同时考虑耗时和路径最短问题。在三维避障导航环境中仿真进一步验证该方法在路径长度、飞行耗时以及避障成功率等方面均优于在线深度强化学习避障算法,有效改善了DRL需要不断输入在线数据才能有效更新策略的问题。