小天体三维测绘观测规划方法研究

发布时间：2021-03-24 18:12

　　如今小天体探测已经成为深空探测中的重要项目,对于发展太空经济,验证深空探测技术有重要意义。针对小天体的三维测绘工作是小天体探测工作中的重要一环。三维测绘工作针对小天体拍摄图像,传送回地面,通过建模程序建立三维模型。由于高清图像只能覆盖极小一部分小天体表面,为了建立完整的小天体三维模型,探测器需要拍摄大量高清图像,对探测器机载存储和通信链路造成压力。因此,对拍摄工作提前进行规划,在保证建模程序能够正确运行的前提下,最大限度节约拍摄资源,成为一项挑战。本文是机器学习方法在宇航任务中的首次探索。首先介绍小天体探测的过程,然后提出了由远及近的“规划-拍摄-建模-再规划-再拍摄”的测绘规划技术路线。在探测器向小天体接近过程中,利用以往构造的粗糙模型,规划下一阶段测绘观测的视线方向。提出了小天体测绘规划强化学习的奖励函数,用强化学习方法解决测绘规划问题。本文研究内容主要包括:1)针对基于光度学（Stereophotoclinometry,SPC）的小天体三维重建方法,分析了算法对于相机指向的要求,设计了奖励函数;然后将探测器的拍摄位置、拍摄方向抽象为动作;最后将过往的拍摄历史抽象为状态。结合小天体...

【文章来源】：哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】：68 页

【学位级别】：硕士

【部分图文】：

小天体三维测绘观测规划方法研究

OSIRIS-Rex75cm分辨率模型轨道[1]

示意图,模型,示意图,值函数

哈尔滨工业大学工学硕士学位论文-15-池中抽取一部分的数据来用于更新，以此来打破数据间的关联。在基于Q学习的基础上，DQN需要构建训练网络用的损失，损失loss的定义如下：=+max′(+1,′)=12(max(,))2(2-19)图2-1DQN模型示意图训练网络的过程中，最小化loss，满足贝尔曼方程的更新过程。同时，因为训练样本从一个探索序列中产生，相关性强DQN引入经验回放（ExperienceReplay）机制从经验池中随机采样数据，以尽量减少样本间的相关性，使得网络更容易训练。另外，DQN的targetnetwork和estimatenetwork结构一致，经过C轮迭代之后更新targetnetwork=estimatenetwork，从而使训练更稳定。2.4Actor-Critc方法Actor-Critic方法结合了基于策略梯度的方法和基于值函数的方法。Actor-Critic算法分为两部分，actor的前身是基于策略的搜索方法，他可以轻松地在状态、动作空间较大的情况下内选择合适的动作，基于值函数的Q学习无法在状态、动作空间较大的情况下工作；但是Actor是基于回合更新参数的，所以学习效率比较慢，这时候发现可以使用一个基于值函数的算法作为Critic，就可以实现单步更新。这样两种算法相互补充就形成了Actor-Critic方法。玩家（Actor）根据策略参数θ，来决定在状态S下执行动作的概率分布，与基于策略的强化

示意图,方法,示意图,策略

哈尔滨工业大学工学硕士学位论文-16-学习方法类似；评委（Critic）根据状态S对玩家（Actor）进行评价。玩家根据评委所给出的评价来更新自己的策略参数θ，评委根据环境所反映的真实奖赏来对自身进行调整。图2-2Actor-Critic方法示意图根据值函数的定义：()=[|=]=[∑++1∞=0|=](,)=[+1+(+1,+1)|=,=](2-20)其中，状态值函数()表示在策略的前提下，从状态s开始，可以获得的奖励的期望；动作-状态值函数(,)表示在策略的前提下，从状态s开始，执行了动作，可以获得的奖励的期望。在此基础上，定义优势函数：(,)=(,)()(2-21)表示在状态s下，选择动作获得的奖励比平均值高出多少。对于玩家（Actor）来说，在策略参数为θ的情况下，从状态s开始，所能获得的奖励的期望为：()=∑(,)(,)(2-22)对参数θ求导，得到：

本文编号：3098159

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3098159.html

上一篇：基于GP-奇异谱分解时频图与CNN的旋转机械故障诊断方法
下一篇：基于计算机视觉的鱼类识别研究与应用

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|