基于强化学习的WSNs实时数据传输调度算法研究
发布时间:2021-11-08 04:13
工业环境中,无线传感器网络(Wireless Sensor Networks,WSNs)数据的传输通常有着严格的截止期限要求,如何提高数据传输的可靠性和实时性成为WSNs研究的关键问题之一。提高WSNs网络性能的主要方法之一是对传输过程进行调度,有效的调度算法能够满足严格的工业环境对网络性能的要求,具有非常重要的研究意义。针对具有严格截止期限的WSNs数据传输调度问题,基于强化学习方法在不同的网络背景下提出了不同的数据传输调度算法。主要内容如下:(1)针对WSNs每个时隙只有一个数据流进行数据传输的问题,提出了一种基于Q学习的实时数据传输调度算法。首先,该算法从时隙变化的角度定义系统空间,对数据传输过程进行马尔可夫过程描述。然后根据传输数据的生成周期和从源节点到目的节点的总跳数制定奖励函数,评估数据的优先级。同时,将贪婪策略与模拟退火相结合制定动作选择策略,使Q学习在前期的动作选择过程中进行充分的探索,避免陷入局部最优。最后,通过Q值函数的计算和迭代更新得到近似最优的调度算法,进而得到数据流的传输调度序列。(2)针对WSNs中数据并发传输的问题,提出了一种基于深度Q学习的实时数据传输调...
【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
机器学习分类图
图 2.1 机器学习分类图Fig 2.1 Classification of machine learning化学习的系统主要由智能体和环境构成[44],可用一个三元组 , A, P 其中( )1 2, , ,mS s s s 表示智能体在当前环境中的所有可状态空间;( )1 2, , ,nA a a a 表示智能体在当前环境中的所有可合,即动作空间;P 表示智能体从上一个状态转换至下一个状态m,n均为正整数 如图 2.2 为强化学习模型,智能体是系统的学过状态感知和动作选取与外部环境进行交互 智能体在位置环状态ts ,根据学习策略从动作空间 A 中选取动作ta ;环境在状态移到状态t+1s ,并产生相应的奖励或者惩罚回报 r 反馈给智能体和回报下继续学习,选择并执行下一个动作
:表示状态空间(State Space),是智能体感知到的所有可能状态的 :表示动作空间(Action Space),是智能体在每个状态下可能采取的a :表示系统状态的转移概率 表示智能体在当前状态 s 下执行其他状态的概率分布情况 智能体在状态 下执行动作 ,转移到 P ( s | s ,a )表示; : S A →R ,表示回报函数 智能体在状态 下执行动作 时,会给予的反馈,可以是正向的奖励,也可以是反向的惩罚,这个反馈 R ( s ,a ) DP 的主要特点在与状态转移概率 只与当前的状态和选择与历史状态和动作无关 也可以说,MDP 过程的下一个状态只与智和选取的动作有关,与其他的状态和动作无关 MDP 过程如图 2.在初始状态0s 从动作空间 中选取动作0a ,动作执行后,智能体按下一个状态1s ,然后智能体在状态 再选取一个动作1a 并执行,智能2s ,接下来重复上述过程
【参考文献】:
期刊论文
[1]无线网络中基于深度Q学习的传输调度方案[J]. 朱江,王婷婷,宋永辉,刘亚利. 通信学报. 2018(04)
[2]面向WIA-PA工业无线传感器网络的确定性调度算法[J]. 王恒,陈鹏飞,王平. 电子学报. 2018(01)
[3]面向物联网的无线传感器网络综述[J]. 钱志鸿,王义君. 电子与信息学报. 2013(01)
[4]两种改进的EDF软实时动态调度算法[J]. 李琦,巴巍. 计算机学报. 2011(05)
[5]基于WSNs的城市污水监测系统研究[J]. 陈强,卢启福,李亭,毛亮,刘国瑛. 湖南科技学院学报. 2011(04)
[6]基于Zig Bee技术的大坝安全监测WSNs节点设计[J]. 杜小文,褚金奎,缪新颖,郭庆. 传感器与微系统. 2009(12)
[7]基于Metropolis准则的多步Q学习算法与性能仿真[J]. 陈圣磊,吴慧中,肖亮,朱耀琴. 系统仿真学报. 2007(06)
博士论文
[1]基于无线传感器网络的事件监测算法研究[D]. 毕冉.哈尔滨工业大学 2015
硕士论文
[1]基于无线传感器网络的数据聚合算法研究[D]. 瞿佳雯.南京邮电大学 2017
[2]基于深度Q网络算法与模型的研究[D]. 翟建伟.苏州大学 2017
[3]WMN中基于改进Dijkstra算法的多约束Qos路由研究[D]. 鲁力.湖南师范大学 2008
[4]基于Q学习的Agent智能决策的研究与实现[D]. 虞靖靓.合肥工业大学 2005
本文编号:3482981
【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
机器学习分类图
图 2.1 机器学习分类图Fig 2.1 Classification of machine learning化学习的系统主要由智能体和环境构成[44],可用一个三元组 , A, P 其中( )1 2, , ,mS s s s 表示智能体在当前环境中的所有可状态空间;( )1 2, , ,nA a a a 表示智能体在当前环境中的所有可合,即动作空间;P 表示智能体从上一个状态转换至下一个状态m,n均为正整数 如图 2.2 为强化学习模型,智能体是系统的学过状态感知和动作选取与外部环境进行交互 智能体在位置环状态ts ,根据学习策略从动作空间 A 中选取动作ta ;环境在状态移到状态t+1s ,并产生相应的奖励或者惩罚回报 r 反馈给智能体和回报下继续学习,选择并执行下一个动作
:表示状态空间(State Space),是智能体感知到的所有可能状态的 :表示动作空间(Action Space),是智能体在每个状态下可能采取的a :表示系统状态的转移概率 表示智能体在当前状态 s 下执行其他状态的概率分布情况 智能体在状态 下执行动作 ,转移到 P ( s | s ,a )表示; : S A →R ,表示回报函数 智能体在状态 下执行动作 时,会给予的反馈,可以是正向的奖励,也可以是反向的惩罚,这个反馈 R ( s ,a ) DP 的主要特点在与状态转移概率 只与当前的状态和选择与历史状态和动作无关 也可以说,MDP 过程的下一个状态只与智和选取的动作有关,与其他的状态和动作无关 MDP 过程如图 2.在初始状态0s 从动作空间 中选取动作0a ,动作执行后,智能体按下一个状态1s ,然后智能体在状态 再选取一个动作1a 并执行,智能2s ,接下来重复上述过程
【参考文献】:
期刊论文
[1]无线网络中基于深度Q学习的传输调度方案[J]. 朱江,王婷婷,宋永辉,刘亚利. 通信学报. 2018(04)
[2]面向WIA-PA工业无线传感器网络的确定性调度算法[J]. 王恒,陈鹏飞,王平. 电子学报. 2018(01)
[3]面向物联网的无线传感器网络综述[J]. 钱志鸿,王义君. 电子与信息学报. 2013(01)
[4]两种改进的EDF软实时动态调度算法[J]. 李琦,巴巍. 计算机学报. 2011(05)
[5]基于WSNs的城市污水监测系统研究[J]. 陈强,卢启福,李亭,毛亮,刘国瑛. 湖南科技学院学报. 2011(04)
[6]基于Zig Bee技术的大坝安全监测WSNs节点设计[J]. 杜小文,褚金奎,缪新颖,郭庆. 传感器与微系统. 2009(12)
[7]基于Metropolis准则的多步Q学习算法与性能仿真[J]. 陈圣磊,吴慧中,肖亮,朱耀琴. 系统仿真学报. 2007(06)
博士论文
[1]基于无线传感器网络的事件监测算法研究[D]. 毕冉.哈尔滨工业大学 2015
硕士论文
[1]基于无线传感器网络的数据聚合算法研究[D]. 瞿佳雯.南京邮电大学 2017
[2]基于深度Q网络算法与模型的研究[D]. 翟建伟.苏州大学 2017
[3]WMN中基于改进Dijkstra算法的多约束Qos路由研究[D]. 鲁力.湖南师范大学 2008
[4]基于Q学习的Agent智能决策的研究与实现[D]. 虞靖靓.合肥工业大学 2005
本文编号:3482981
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3482981.html