当前位置:主页 > 科技论文 > 信息工程论文 >

基于多智能体Q学习的车载通信MAC层信道接入技术研究

发布时间:2018-07-11 09:23

  本文选题:车载自组织网络 + 无线信道接入 ; 参考:《南京邮电大学》2017年硕士论文


【摘要】:车载自组织网络(VANET,Vehicular ad-hoc network)作为支持ITS(Intelligent Transportation Systems,智能交通系统)应用的重要技术,解决安全相关问题时通常依赖于安全消息的实时可靠传输。VANET因其网络拓扑结构变化快、节点高速移动的特点在车辆密度较高的网络场景中使用传统的IEEE 802.11p协议发送消息很容易发生碰撞,难以保证安全消息低时延和高接收率的传输,且对不同网络负载场景不具可扩展性。因此,本文针对信道接入方法的可扩展性和公平性的问题对传统的接入方法进行改进,通过建立新模型为VANET设计高效的MAC协议,主要工作如下:首先,在车载通信车辆接入无线信道发送数据过程中引入Q学习,为车辆节点建立智能体Q学习模型,提出了基于Q学习的动态调整竞争窗口算法(QL-CWmin),推导了车辆节点在网络环境中进行Q学习的状态——动作映射关系和车辆节点更新累计奖赏值的迭代公式,这样车辆节点每次需要接入无线信道发送数据时,就总选择能使累计奖赏值最大的CW值接入无线信道,在理论分析的基础上通过仿真验证了所提出的算法对提高车辆节点接入无线信道的公平性和对不同网络负载场景的可扩展性。其次,针对单个车辆节点在网络环境中进行Q学习存在仅感知部分网络环境、学习搜索空间大效率低、与其他车辆节点无交互学习的问题,为VANET建立多智能体Q学习系统模型,提出了基于多智能体Q学习的动态调整竞争窗口算法(QL-CWMulti-agent),对多个车辆节点Q学习的联合状态——动作对映射关系和车辆节点根据联合策略更新Q值函数的迭代表达式进行了推导,在前一研究点的基础上提高车辆节点接入无线信道的公平性及算法对不同网络负载的可扩展性。最后,将多智能体学习的最终结果收敛到相关均衡,根据eCEQ(Correlated Equilibrium Q,相关均衡Q学习)算法(即最大化所有智能体奖励的最小值)使车载自组织网络中每个车辆节点接入无线信道成功发送数据的次数最大化,通过仿真验证了算法收敛结果的正确性。
[Abstract]:As an important technology to support the application of Intelligent Transportation Systems (its), the Vehicular ad-hoc network (VANET) usually depends on the real-time and reliable transmission of security messages. The characteristics of high speed mobile nodes are that the traditional IEEE 802.11p protocol is used to send messages easily in the high vehicle density network scenario, so it is difficult to ensure the transmission of security messages with low delay and high reception rate. And it is not extensible for different network load scenarios. Therefore, aiming at the scalability and fairness of channel access methods, this paper improves the traditional access methods and designs an efficient MAC protocol for VANET by establishing a new model. The main work is as follows: first of all, Q learning is introduced in the process of vehicle accessing wireless channel to transmit data, and an agent Q learning model is established for vehicle nodes. A dynamic adjusting competition window algorithm (QL-CWmin) based on Q-learning is proposed. The state-action mapping relation of vehicle nodes for Q-learning in network environment and the iterative formula for updating cumulative reward values of vehicle nodes are derived. So every time a vehicle node needs to access the wireless channel to send data, it always selects the CW value, which can make the maximum cumulative reward value, to access the wireless channel. Based on the theoretical analysis, the proposed algorithm is verified by simulation to improve the fairness of the vehicle node access to the wireless channel and the scalability of different network load scenarios. Secondly, aiming at the problem that a single vehicle node only perceives part of the network environment for Q learning in the network environment, the learning search space is inefficient and there is no interactive learning with other vehicle nodes, a multi-agent Q learning system model is established for VANET. A QL-CW Multi-agent algorithm based on multi-agent Q learning is proposed. The joint state-action pair mapping of Q learning for multiple vehicle nodes and the iterative expression for updating Q value function of vehicle nodes according to joint strategy are derived. On the basis of the former research point, the fairness of the vehicle node access wireless channel and the scalability of the algorithm to different network loads are improved. Finally, the final result of multi-agent learning is converged to the relevant equilibrium. According to the eCEQ (related Equilibrium Q) algorithm (that is, to maximize the minimum value of all the agent awards), the number of successful data transmission by each vehicle node in an ad hoc network is maximized. The correctness of the convergence result is verified by simulation.
【学位授予单位】:南京邮电大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TN929.5;U495

【相似文献】

相关期刊论文 前10条

1 杨玉君,程君实,陈佳品;基于替代传导径迹的多智能体增强式学习[J];上海交通大学学报;2003年08期

2 陈雪江,杨东勇;基于强化学习的多智能体协作实现[J];浙江工业大学学报;2004年05期

3 尹世涛;高慧敏;曾建潮;;基于算法集成的调度系统多智能体实现框架[J];太原科技大学学报;2007年04期

4 张庆民;薛恒新;刘明忠;刘路冰;徐欣;;基于多智能体的分销链预测优化模型研究[J];计算机集成制造系统;2007年12期

5 谭应清;吴磊杰;;Q-学习在多智能体博弈系统中的应用[J];中国电力教育;2008年S1期

6 王超;赵晓哲;康晓予;;面向编队协同防空决策的多智能体规划方法[J];舰船电子工程;2009年01期

7 张家明;;基于多智能体的制造联盟协同采购体系研究[J];武汉理工大学学报;2009年10期

8 王建彬;李震;庞军;;基于多智能体的虚拟企业框架的构建与实现[J];安徽工程科技学院学报(自然科学版);2010年01期

9 张文广;屈胜利;;目标跟踪多智能体一致控制[J];宇航学报;2010年09期

10 肖丽;廖晓峰;韦鹏程;李华青;;采用广义线性局部交互协议的二阶多智能体网络一致性[J];清华大学学报(自然科学版);2012年08期

相关会议论文 前10条

1 刘杰;王月海;王鸿雁;;基于反思——模仿的多智能体协作策略[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年

2 梁泉;许晓鸣;张钟俊;;一种新型的多智能体系统开发环境结构[A];1995年中国控制会议论文集(下)[C];1995年

3 张根林;李怀祖;;基于多智能体的客户关系管理系统的构建[A];2002年中国管理科学学术会议论文集[C];2002年

4 邱国霞;张志涌;马洁;李茂;;多智能体的竞争合作策略[A];2005全国自动化新技术学术交流会论文集(三)[C];2005年

5 王莉;蔡颖;范海蓉;;基于多智能体可重构生产系统研究[A];企业应用集成系统与技术学术研究会论文集[C];2006年

6 李铁军;赵海文;李慨;沈志忠;;基于多智能体的机电系统控制与故障诊断的研究[A];2003年中国智能自动化会议论文集(下册)[C];2003年

7 谭树彬;刘建昌;;带钢轧制流程多智能体控制策略研究[A];2007中国控制与决策学术年会论文集[C];2007年

8 王晓丽;洪奕光;;利用动态多智能体覆盖跟踪动态目标[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年

9 任锐;王晓丽;周浔;;基于势函数的多智能体编队控制[A];中国仪器仪表学会第十二届青年学术会议论文集[C];2010年

10 雷曜;;多智能体模拟框架中的复杂人模型[A];Systems Engineering, Systems Science and Complexity Research--Proceeding of 11th Annual Conference of Systems Engineering Society of China[C];2000年

相关重要报纸文章 前3条

1 颜秉光;哈尔滨:清洁卫生机器人会自动扫地更会自动补给[N];新华每日电讯;2006年

2 MAC;巧妙捆绑IP地址与MAC地址[N];计算机世界;2004年

3 本报记者 王春超;亚马逊推Mac下载商店 正面挑战苹果独大格局[N];通信信息报;2011年

相关博士学位论文 前10条

1 何汉明;基于角色的多智能体社会模型研究与应用[D];西北工业大学;2006年

2 柴国飞;多智能体协同定位与Sink节点位置隐私保护研究[D];浙江大学;2015年

3 周博;多智能体的一致性控制及优化[D];西南大学;2016年

4 席磊;基于多智能体随机一致博弈的智能发电控制[D];华南理工大学;2016年

5 潘维运;多智能体网络系统的群体行为研究[D];上海大学;2016年

6 李皎洁;具有部分感知能力的多智能体协同避障控制[D];上海交通大学;2015年

7 杜胜利;基于切换时滞系统理论的多智能体一致性研究[D];大连理工大学;2016年

8 李乐;多智能体复杂系统集群控制研究[D];湖南大学;2016年

9 曾志文;非线性、量化和结构约束的多智能体协同控制研究[D];国防科学技术大学;2017年

10 苏厚胜;多智能体蜂拥控制问题研究[D];上海交通大学;2008年

相关硕士学位论文 前10条

1 王海;多智能体分层牵制蜂拥研究[D];南京信息工程大学;2015年

2 吴祁阳;即时战略游戏场景中多智能体模型的设计与研究[D];南京理工大学;2015年

3 裴一飞;有向数据链故障情况下多智能体网络的有限时间编队控制[D];哈尔滨工业大学;2015年

4 白洁;模糊多智能体模型的同步性[D];哈尔滨工业大学;2015年

5 刘全平;基于多智能体和元胞自动机模型的虚拟人群行为研究[D];国防科学技术大学;2013年

6 谢中凯;基于多智能体的城市空间增长模型研究[D];南京大学;2015年

7 罗超;基于多智能体的高炉故障诊断方法研究[D];东北大学;2013年

8 戴俊;基于采样控制和量化通信的多智能体一致性问题研究[D];安徽工程大学;2015年

9 李歆;多智能体交通拥堵自组织控制策略研究[D];长沙理工大学;2014年

10 刘庆飞;信息丢包下多智能体的一致性与锚点选择题研究[D];河南理工大学;2014年



本文编号:2114623

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2114623.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户92832***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com