小天体三维测绘观测规划方法研究
发布时间:2021-03-24 18:12
如今小天体探测已经成为深空探测中的重要项目,对于发展太空经济,验证深空探测技术有重要意义。针对小天体的三维测绘工作是小天体探测工作中的重要一环。三维测绘工作针对小天体拍摄图像,传送回地面,通过建模程序建立三维模型。由于高清图像只能覆盖极小一部分小天体表面,为了建立完整的小天体三维模型,探测器需要拍摄大量高清图像,对探测器机载存储和通信链路造成压力。因此,对拍摄工作提前进行规划,在保证建模程序能够正确运行的前提下,最大限度节约拍摄资源,成为一项挑战。本文是机器学习方法在宇航任务中的首次探索。首先介绍小天体探测的过程,然后提出了由远及近的“规划-拍摄-建模-再规划-再拍摄”的测绘规划技术路线。在探测器向小天体接近过程中,利用以往构造的粗糙模型,规划下一阶段测绘观测的视线方向。提出了小天体测绘规划强化学习的奖励函数,用强化学习方法解决测绘规划问题。本文研究内容主要包括:1)针对基于光度学(Stereophotoclinometry,SPC)的小天体三维重建方法,分析了算法对于相机指向的要求,设计了奖励函数;然后将探测器的拍摄位置、拍摄方向抽象为动作;最后将过往的拍摄历史抽象为状态。结合小天体...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
OSIRIS-Rex75cm分辨率模型轨道[1]
哈尔滨工业大学工学硕士学位论文-15-池中抽取一部分的数据来用于更新,以此来打破数据间的关联。在基于Q学习的基础上,DQN需要构建训练网络用的损失,损失loss的定义如下:=+max′(+1,′)=12(max(,))2(2-19)图2-1DQN模型示意图训练网络的过程中,最小化loss,满足贝尔曼方程的更新过程。同时,因为训练样本从一个探索序列中产生,相关性强DQN引入经验回放(ExperienceReplay)机制从经验池中随机采样数据,以尽量减少样本间的相关性,使得网络更容易训练。另外,DQN的targetnetwork和estimatenetwork结构一致,经过C轮迭代之后更新targetnetwork=estimatenetwork,从而使训练更稳定。2.4Actor-Critc方法Actor-Critic方法结合了基于策略梯度的方法和基于值函数的方法。Actor-Critic算法分为两部分,actor的前身是基于策略的搜索方法,他可以轻松地在状态、动作空间较大的情况下内选择合适的动作,基于值函数的Q学习无法在状态、动作空间较大的情况下工作;但是Actor是基于回合更新参数的,所以学习效率比较慢,这时候发现可以使用一个基于值函数的算法作为Critic,就可以实现单步更新。这样两种算法相互补充就形成了Actor-Critic方法。玩家(Actor)根据策略参数θ,来决定在状态S下执行动作的概率分布,与基于策略的强化
哈尔滨工业大学工学硕士学位论文-16-学习方法类似;评委(Critic)根据状态S对玩家(Actor)进行评价。玩家根据评委所给出的评价来更新自己的策略参数θ,评委根据环境所反映的真实奖赏来对自身进行调整。图2-2Actor-Critic方法示意图根据值函数的定义:()=[|=]=[∑++1∞=0|=](,)=[+1+(+1,+1)|=,=](2-20)其中,状态值函数()表示在策略的前提下,从状态s开始,可以获得的奖励的期望;动作-状态值函数(,)表示在策略的前提下,从状态s开始,执行了动作,可以获得的奖励的期望。在此基础上,定义优势函数:(,)=(,)()(2-21)表示在状态s下,选择动作获得的奖励比平均值高出多少。对于玩家(Actor)来说,在策略参数为θ的情况下,从状态s开始,所能获得的奖励的期望为:()=∑(,)(,)(2-22)对参数θ求导,得到:
本文编号:3098159
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
OSIRIS-Rex75cm分辨率模型轨道[1]
哈尔滨工业大学工学硕士学位论文-15-池中抽取一部分的数据来用于更新,以此来打破数据间的关联。在基于Q学习的基础上,DQN需要构建训练网络用的损失,损失loss的定义如下:=+max′(+1,′)=12(max(,))2(2-19)图2-1DQN模型示意图训练网络的过程中,最小化loss,满足贝尔曼方程的更新过程。同时,因为训练样本从一个探索序列中产生,相关性强DQN引入经验回放(ExperienceReplay)机制从经验池中随机采样数据,以尽量减少样本间的相关性,使得网络更容易训练。另外,DQN的targetnetwork和estimatenetwork结构一致,经过C轮迭代之后更新targetnetwork=estimatenetwork,从而使训练更稳定。2.4Actor-Critc方法Actor-Critic方法结合了基于策略梯度的方法和基于值函数的方法。Actor-Critic算法分为两部分,actor的前身是基于策略的搜索方法,他可以轻松地在状态、动作空间较大的情况下内选择合适的动作,基于值函数的Q学习无法在状态、动作空间较大的情况下工作;但是Actor是基于回合更新参数的,所以学习效率比较慢,这时候发现可以使用一个基于值函数的算法作为Critic,就可以实现单步更新。这样两种算法相互补充就形成了Actor-Critic方法。玩家(Actor)根据策略参数θ,来决定在状态S下执行动作的概率分布,与基于策略的强化
哈尔滨工业大学工学硕士学位论文-16-学习方法类似;评委(Critic)根据状态S对玩家(Actor)进行评价。玩家根据评委所给出的评价来更新自己的策略参数θ,评委根据环境所反映的真实奖赏来对自身进行调整。图2-2Actor-Critic方法示意图根据值函数的定义:()=[|=]=[∑++1∞=0|=](,)=[+1+(+1,+1)|=,=](2-20)其中,状态值函数()表示在策略的前提下,从状态s开始,可以获得的奖励的期望;动作-状态值函数(,)表示在策略的前提下,从状态s开始,执行了动作,可以获得的奖励的期望。在此基础上,定义优势函数:(,)=(,)()(2-21)表示在状态s下,选择动作获得的奖励比平均值高出多少。对于玩家(Actor)来说,在策略参数为θ的情况下,从状态s开始,所能获得的奖励的期望为:()=∑(,)(,)(2-22)对参数θ求导,得到:
本文编号:3098159
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3098159.html
最近更新
教材专著