基于分布式Q学习的WSN节点任务调度问题研究
发布时间:2020-11-14 02:35
无线传感器网络(WSN)是由若干具有独立接收和处理信息的传感器节点形成的自组织网络,广泛应用于物联网的若干领域中。无线传感器网络应用通常处于动态变化环境中,如何合理使用网络中传感器节点的有限能源、处理和存储资源成为目前无线传感器网络的研究热点。根据传感器节点采集、处理的内外部信息,对任务进行合理的调度是解决上述问题的方法之一。强化学习使得节点(对应于Q学习中Agent)在有限的计算和通信能力下,智能的做出任务调度决策,并不断地学习来根据动态变化的环境和应用要求进行策略的改变。本文根据已有的Q学习算法,设计出基于改进SVM(Support Vector Machine)逼近的分布式独立Q学习的WSN节点任务调度算法和基于全局值函数的分布式合作型Q学习WSN节点任务调度算法。针对节点由于任务调度所导致的能量浪费问题,当节点处于仅考虑自身信息的多变WSN应用场景的情况下,本文设计了基于改进SVM逼近的分布式独立Q学习的WSN节点任务调度算法。通过设计SVM作为值函数逼近器,有效的减少了状态-动作空间爆炸问题;对SVM参数化改进增强了 SVM模型解释能力,为缓解因过多信息带来的处理消耗问题,使用了滑动时间窗对样本进行管理;将贪婪策略与模拟退火结合,使得节点在前期可以有效的对动作空间进行充分的探索,避免了局部最优问题的出现。仿真结果表明,该算法可以在节约能量消耗的同时,提升数据收集的应用性能。另外,针对已有的合作Q学习中采用邻居节点发送的回报函数值等不合理信息,以及回报函数的设计不具备动态性所导致的局部最优等问题,本文设计了基于全局值函数的分布式合作Q学习的WSN节点任务调度算法。将节点的值函数信息作为有效信息传递给邻居节点,使得节点在任务调度的过程中,考虑全网任务调度的回报最大化。另外本文在回报函数中加入能量消耗与应用性能的影响,使得节点不增加能量消耗的基础上,提升了应用的性能;其次,Q学习中动态探索策略的设计,避免了节点在学习过程中陷入局部最优。仿真结果表明,算法可以使得节点通过合理的调度任务,在不增加网络能量消耗的基础上,提升了应用的性能(移动目标追踪效率)。
【学位单位】:合肥工业大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP212.9;TN929.5
【部分图文】:
本文对节点任务调度算法进行研究,包括节点利用自身信息的基于改进SVM??的分布式独立2学习的WSN节点任务调度算法和基于全局信息的分布式合??2学习调度算法的研宄。文章还介绍并使用了两种具有代表性抽象应用场景,??文算法的实施效果进行问题求解。文章研究主要来源于以下项目:??(1)国家物联网发展专项基金项目(编号:[2〇12]583),基于物联网的大型建筑??健康监测与安全监控平台研发与产业化;??(2)国家国际科技合作专项项目(编号:2014DFB10060),基于快速移动百兆??AN的矿井机车无人驾驶系统。???WSN研究及其应用??不同于传统计算机网络,无线传感网络由若干传感器节点自组织构成,如下??1.1所示。每个传感器节点可视为独立的个体,并拥有自己的系统,同时,所有??共同合作,也可构成一个整体系统,即便部分传感器节点发生故障,WSN作??体,也可以很好的完成既定的任务。传感器节点的功能包括:感知外部信息、??外部信息、分析外部信息和自身完成相应动作[9]。??
合肥工业大学专业硕士研宄生学位论文??点具有一定的差别,除具备数据收集和计算功能外,有些节汇聚,节点发挥数据存储和转发等路由作用。??数据获取i元DAU ̄数据处理单元DPU数摆传输单元DSRU??.一?—???—?一?—?一—?一一一一??
图1.3?RL抽象模型??Fig?1.3?Abstract?model?of?RL??强化学习基于马尔科夫决策,马尔科夫决策过程如图1.4所7K?(解释详见1.3.2??节)。Agent的决策通过状态(state)、动作(action)以及奖罚(reward)得到:当前状态,??Agent根据探索策略执行一个动作,并获得回报函数(奖惩)并通过评估改进策略??转移到下一状态。直观地可以看出,该步骤最终目的是最大化累积回报,得到最??优决策。设Agent在f时刻的状态为\,选择动作a,执行后将会改变当前状态至\+1??并获得立即回报。??1.3.2马尔科夫决策过程??马尔科夫决策过程起源于随机优化控制,根据环境是否可感知的情况,??其可分为完全可观察MDP和部分可观察MDP两种。以下对完全可观察的??马尔科夫决策过程(本文统称马氏决策过程)对相关理论基础进行介绍。??马氏决策过程可以由六元组{?S,^D,P,r,J}表示[19]。??图1.4马尔科夫决策过程??Fig?1.4?Markov?decision-making?process??5*代表智能体的state集合;d代表Agent的Action集合;D为初始状??态概率分布,初始状态确定时值为1,当初始状态的选择概率相同,可忽略??£);/>也可以表示/5〇
【参考文献】
本文编号:2882964
【学位单位】:合肥工业大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP212.9;TN929.5
【部分图文】:
本文对节点任务调度算法进行研究,包括节点利用自身信息的基于改进SVM??的分布式独立2学习的WSN节点任务调度算法和基于全局信息的分布式合??2学习调度算法的研宄。文章还介绍并使用了两种具有代表性抽象应用场景,??文算法的实施效果进行问题求解。文章研究主要来源于以下项目:??(1)国家物联网发展专项基金项目(编号:[2〇12]583),基于物联网的大型建筑??健康监测与安全监控平台研发与产业化;??(2)国家国际科技合作专项项目(编号:2014DFB10060),基于快速移动百兆??AN的矿井机车无人驾驶系统。???WSN研究及其应用??不同于传统计算机网络,无线传感网络由若干传感器节点自组织构成,如下??1.1所示。每个传感器节点可视为独立的个体,并拥有自己的系统,同时,所有??共同合作,也可构成一个整体系统,即便部分传感器节点发生故障,WSN作??体,也可以很好的完成既定的任务。传感器节点的功能包括:感知外部信息、??外部信息、分析外部信息和自身完成相应动作[9]。??
合肥工业大学专业硕士研宄生学位论文??点具有一定的差别,除具备数据收集和计算功能外,有些节汇聚,节点发挥数据存储和转发等路由作用。??数据获取i元DAU ̄数据处理单元DPU数摆传输单元DSRU??.一?—???—?一?—?一—?一一一一??
图1.3?RL抽象模型??Fig?1.3?Abstract?model?of?RL??强化学习基于马尔科夫决策,马尔科夫决策过程如图1.4所7K?(解释详见1.3.2??节)。Agent的决策通过状态(state)、动作(action)以及奖罚(reward)得到:当前状态,??Agent根据探索策略执行一个动作,并获得回报函数(奖惩)并通过评估改进策略??转移到下一状态。直观地可以看出,该步骤最终目的是最大化累积回报,得到最??优决策。设Agent在f时刻的状态为\,选择动作a,执行后将会改变当前状态至\+1??并获得立即回报。??1.3.2马尔科夫决策过程??马尔科夫决策过程起源于随机优化控制,根据环境是否可感知的情况,??其可分为完全可观察MDP和部分可观察MDP两种。以下对完全可观察的??马尔科夫决策过程(本文统称马氏决策过程)对相关理论基础进行介绍。??马氏决策过程可以由六元组{?S,^D,P,r,J}表示[19]。??图1.4马尔科夫决策过程??Fig?1.4?Markov?decision-making?process??5*代表智能体的state集合;d代表Agent的Action集合;D为初始状??态概率分布,初始状态确定时值为1,当初始状态的选择概率相同,可忽略??£);/>也可以表示/5〇
【参考文献】
相关期刊论文 前8条
1 马学森;曹政;韩江洪;王营冠;胡宏林;;改进蚁群算法的无线传感器网络路由优化与路径恢复算法[J];电子测量与仪器学报;2015年09期
2 丁煦;韩江洪;石雷;夏伟;魏振春;;可充电无线传感器网络动态拓扑问题研究[J];通信学报;2015年01期
3 邓寒冰;张霞;刘积仁;;效用驱动的多agent合作机制[J];通信学报;2013年07期
4 刘志刚;汪晋宽;;基于粒子群优化的大规模传感器网络节点调度策略[J];控制与决策;2012年12期
5 梁俊斌;邓雨荣;郭丽娟;李陶深;;无线传感器网络中事件驱动数据收集研究进展[J];计算机应用研究;2012年10期
6 王保云;;物联网技术研究综述[J];电子测量与仪器学报;2009年12期
7 李建中;高宏;;无线传感器网络的研究进展[J];计算机研究与发展;2008年01期
8 阎威武,常俊林,邵惠鹤;基于滚动时间窗的最小二乘支持向量机回归估计方法及仿真[J];上海交通大学学报;2004年04期
相关博士学位论文 前1条
1 石海燕;无线传感器网络可分负载调度算法研究[D];浙江工业大学;2013年
相关硕士学位论文 前1条
1 索龙翔;WSN休眠调度算法研究[D];吉林大学;2014年
本文编号:2882964
本文链接:https://www.wllwen.com/kejilunwen/wltx/2882964.html