当前位置:主页 > 科技论文 > 航空航天论文 >

基于改进DQN的复合模式在轨服务资源分配

发布时间:2021-12-23 23:20
  针对开展在轨服务前的资源分配非线性多目标优化问题,构建复合服务模式下的在轨资源分配模型,基于对DQN (Deep Q-Network)方法的收敛性和稳定性改进,提出了一种在轨服务资源分配方法。该方法能够应对同时包含"一对多""多对一"的复合服务模式,并在满足预期成功率的前提下优先分配重要服务对象,兼顾资源分配综合效益和总体能耗效率,达到了以期望成功率、较少资源投入尽快完成任务的综合目标。仿真实验表明,改进DQN方法能够在任务执行前依据服务对象重要程度自主分配航天器资源,收敛速度快、训练误差低,在分配效益和总体能耗的优化方面具有明显的比较优势。 

【文章来源】:航空学报. 2020,41(05)北大核心EICSCD

【文章页数】:9 页

【部分图文】:

基于改进DQN的复合模式在轨服务资源分配


DQN收敛性和稳定性改进的网络结构TensorFlow表示

方法,误差函数,结论


2种方法的奖惩值对比

方法,运算时间,训练时间,资源分配问题


仿真运算依托1.6 GHz、1.8 GHz双核CPU、8GRAM计算硬件,运用python语言PyCharm编译环境进行,各方法的耗时情况如图2所示。其中,蚁群算法运用全局搜索方式计算开销较大,不同的起始方向导致运算时间波动大,平均耗时0.32s;遗传算法没能够利用反馈信息训练时间相对较长,随机交叉变异致使运算时间波动较大,平均耗时0.19s;改进DQN方法运用神经网络自主训练时间最短,探索与利用策略的使用致使运算时间有小范围波动,平均耗时0.06s。因此,本文所提方法充分发挥神经网络前向传输和反向训练的运算优势,利用强化学习试错奖励的决策机制,相比较运算效率更高,也更适合本文所涉及的复合模式下的在轨资源分配问题。3.3 求解分析

【参考文献】:
期刊论文
[1]基于随机森林强化学习的干扰智能决策方法研究[J]. 裴绪芳,陈学强,吕丽刚,张双义,刘松仪,汪西明.  通信技术. 2019(09)
[2]基于深度强化学习的蜂窝网资源分配算法[J]. 廖晓闽,严少虎,石嘉,谭震宇,赵钟灵,李赞.  通信学报. 2019(02)
[3]一种以燃耗为优化目标的航天器在轨加注作业调度[J]. 谭迎龙,乔兵,朱啸宇,靳永强,张庆展.  载人航天. 2018(02)
[4]一种基于燃料站的可往返式在轨加注任务调度模型及优化算法[J]. 朱啸宇,乔兵,张庆展,靳永强,谭迎龙.  工程科学与技术. 2017(S2)
[5]Energy Efficiency Optimization for D2D Communications Based on SCA and GP Method[J]. Xiaozheng Gao,Hangcheng Han,Kai Yang,Jianping An.  中国通信. 2017(03)
[6]多在轨服务飞行器目标分配问题研究[J]. 肖海,刘新学,舒健生,李亚雄.  计算机仿真. 2017(01)
[7]基于能量最优的敏捷遥感卫星在轨任务规划[J]. 赵琳,王硕,郝勇,刘源.  航空学报. 2017(06)
[8]航天器燃耗最优轨道直接/间接混合法延拓求解[J]. 孟雅哲.  航空学报. 2017(01)
[9]一种基于先期毁伤准则的防空火力优化分配[J]. 陈黎,王中许,武兆斌,汪渤.  航空学报. 2014(09)
[10]实现无线传输能量效率最大化的功率控制新方法[J]. 赵慧,张学,刘明,龚海刚,吴跃.  计算机应用. 2013(02)

博士论文
[1]航天器在轨服务任务规划技术研究[D]. 余婧.国防科学技术大学 2015

硕士论文
[1]航天器在轨服务作业模式及其调度算法研究[D]. 谭迎龙.南京航空航天大学 2018
[2]基于空间燃料站的圆轨道航天器在轨加注服务调度算法[D]. 朱啸宇.南京航空航天大学 2017



本文编号:3549378

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/hangkongsky/3549378.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4802f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com