188bet体育t_188bet投注网站

TY -的A2 Pizzarelli Marco AU -张ZhiBin AU -李,目前非盟——一个JiPing盟——男人,WanXin盟——张GuoHui PY - 2020 DA - 2020/12/30 TI -模范自由的航天器姿态控制基于PID-Guide TD3算法SP - 8874619六世- 2020 AB -本文致力于模范自由刚性航天器的姿态控制控制力矩饱和和外部干扰的存在。具体地说,一个模范自由深的强化学习(DRL)控制器,提出了可以根据反馈不断学习的环境和实现航天器的高精度姿态控制没有反复调整控制器参数。考虑到状态空间和动作空间的连续性,双延迟深决定性策略梯度(TD3)算法采用基于actor-critic架构。较深决定性策略梯度(DDPG)算法,TD3有更好的性能。TD3获得最优政策与环境交互不使用任何先验知识,所以学习过程是费时的。针对这个问题,PID-Guide TD3算法,它可以加快训练速度和改善TD3算法的收敛精度。针对问题,强化学习(RL)很难在实际环境中部署,pretraining /微调方法提出了部署,这不仅可以节省培训时间和计算资源也很快取得了不错的效果。实验结果表明,DRL控制器可以实现高精度姿态稳定和态度跟踪控制,响应速度快和小超调。拟议中的PID-Guide TD3算法具有更快的训练速度和更高的稳定性比TD3算法。SN - 1687 - 5966 UR - https://doi.org/10.1155/2020/8874619 - 10.1155 / 2020/8874619摩根富林明国际航空航天工程杂志PB - Hindawi KW - ER