基于迁移强化学习的无线接入网能耗优化研究
发布时间:2023-02-26 01:17
在未来的5G网络中,预计将使用云无线接入网(C-RAN)来支持海量终端。为了满足所有终端的需求,需要在单位面积内部署更多的射频拉远头(RRH)。从经济角度来看,最大限度地减少RRH的能量消耗是个很有挑战的问题。从环境的角度来看,在无线网络中实现“绿色”也是运营商的众多目标之一。首先,对于大部分现有的基于深度强化学习(DRL)的能耗优化方法,在定义环境状态时通常都忽略了RRH与用户终端设备(UE)之间的关联关系,导致UE需要向RRH上报自身的信息,这带来了额外的信令开销,并且对于移动性场景由于无法捕捉UE的移动导致无法及时更新决策,这也限制了节能效果。其次,基于强化学习的方法通常需要定义reward,当场景发生变化时,reward的参数需要手工重新调整,这导致算法在自动化和灵活性方面还存在不足。除此之外,基于强化学习的能耗优化算法直接将能耗问题建模成一个马尔科夫决策过程来实现端到端的输出,但是在陌生的场景中泛化能力不足,如果在新场景中重新训练的话,时间开销又很大。因此,本文致力于研究一个可以根据流量情况动态的激活或去激活小区的能耗优化系统,旨在保证UE的QoS满意度的前提下,最小化整个系...
【文章页数】:80 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究背景
1.2 国内外研究现状
1.3 研究意义
1.4 研究内容
1.5 组织结构
1.6 本章小结
第二章 相关理论与技术
2.1 深度强化学习理论
2.1.1 深度学习
2.1.2 强化学习
2.1.3 深度强化学习
2.2 DQN算法理论
2.3 Dueling DQN算法理论
2.4 迁移学习理论
2.4.1 迁移学习的定义
2.4.2 迁移学习研究的问题
2.4.3 迁移学习的分类
2.5 C-RAN架构
2.5.1 C-RAN架构的概念
2.5.2 C-RAN架构的优势
2.6 本章小结
第三章 无线网络能耗优化系统设计
3.1 场景描述
3.2 问题描述
3.3 系统架构设计
3.3.1 接纳控制和用户关联
3.3.1.1 网络状态信息采集
3.3.1.2 RRH与 UE的关联
3.3.2 小区自动激活
3.3.3 物理资源分配
3.3.3.1 State相关信息采集
3.3.3.2 Reward相关信息采集
3.4 小区自动激活方法
3.4.1 基于CNN和 DRL的小区自动激活策略
3.4.2 基于DRL与迁移学习的小区自动激活策略
3.4.2.1 基于动态reward的小区自动激活方法
3.4.2.2 基于DRL和迁移学习的小区自动激活方法
3.5 本章小结
第四章 基于CNN和 DRL的小区自动激活策略
4.1 效用模型
4.1.1 速率和时延模型
4.1.2 效用模型
4.2 流量模型
4.3 功率模型
4.4 基于relational DRL的小区自动激活算法设计
4.4.1 DQN算法原理
4.4.2 Dueling DQN算法原理
4.4.3 Relational DRL算法设计
4.4.3.1 DRL的三要素定义
4.4.3.2 基于Relational DRL算法的小区激活流程
4.4.3.3 物理资源分配
4.5 仿真实验
4.5.1 仿真环境与性能评估
4.5.2 对比算法
4.5.3 仿真结果分析
4.5.3.1 收敛性分析
4.5.3.2 算法性能分析
4.5.3.3 决策周期的影响
4.6 本章小结
第五章 基于DRL与迁移学习的小区自动激活策略
5.1 基于动态reward的小区激活方法
5.1.1 DRL三大要素定义及动态reward设计
5.1.2 仿真实验
5.1.2.1 仿真环境
5.1.2.2 对比算法
5.1.2.3 仿真结果分析
5.2 基于DRL与迁移学习的小区激活方法
5.2.1 基于样本迁移
5.2.1.1 样本权重重新调整
5.2.1.2 基于高斯过程进行权重估计
5.2.2 基于DRL与迁移学习的小区激活算法设计
5.2.3 仿真实验
5.2.3.1 仿真环境
5.2.3.2 对比算法
5.2.3.3 仿真结果分析
5.3 本章小结
第六章 总结与展望
6.1 本文总结
6.2 未来展望
致谢
参考文献
攻读硕士学位期间的研究成果
本文编号:3749525
【文章页数】:80 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究背景
1.2 国内外研究现状
1.3 研究意义
1.4 研究内容
1.5 组织结构
1.6 本章小结
第二章 相关理论与技术
2.1 深度强化学习理论
2.1.1 深度学习
2.1.2 强化学习
2.1.3 深度强化学习
2.2 DQN算法理论
2.3 Dueling DQN算法理论
2.4 迁移学习理论
2.4.1 迁移学习的定义
2.4.2 迁移学习研究的问题
2.4.3 迁移学习的分类
2.5 C-RAN架构
2.5.1 C-RAN架构的概念
2.5.2 C-RAN架构的优势
2.6 本章小结
第三章 无线网络能耗优化系统设计
3.1 场景描述
3.2 问题描述
3.3 系统架构设计
3.3.1 接纳控制和用户关联
3.3.1.1 网络状态信息采集
3.3.1.2 RRH与 UE的关联
3.3.2 小区自动激活
3.3.3 物理资源分配
3.3.3.1 State相关信息采集
3.3.3.2 Reward相关信息采集
3.4 小区自动激活方法
3.4.1 基于CNN和 DRL的小区自动激活策略
3.4.2 基于DRL与迁移学习的小区自动激活策略
3.4.2.1 基于动态reward的小区自动激活方法
3.4.2.2 基于DRL和迁移学习的小区自动激活方法
3.5 本章小结
第四章 基于CNN和 DRL的小区自动激活策略
4.1 效用模型
4.1.1 速率和时延模型
4.1.2 效用模型
4.2 流量模型
4.3 功率模型
4.4 基于relational DRL的小区自动激活算法设计
4.4.1 DQN算法原理
4.4.2 Dueling DQN算法原理
4.4.3 Relational DRL算法设计
4.4.3.1 DRL的三要素定义
4.4.3.2 基于Relational DRL算法的小区激活流程
4.4.3.3 物理资源分配
4.5 仿真实验
4.5.1 仿真环境与性能评估
4.5.2 对比算法
4.5.3 仿真结果分析
4.5.3.1 收敛性分析
4.5.3.2 算法性能分析
4.5.3.3 决策周期的影响
4.6 本章小结
第五章 基于DRL与迁移学习的小区自动激活策略
5.1 基于动态reward的小区激活方法
5.1.1 DRL三大要素定义及动态reward设计
5.1.2 仿真实验
5.1.2.1 仿真环境
5.1.2.2 对比算法
5.1.2.3 仿真结果分析
5.2 基于DRL与迁移学习的小区激活方法
5.2.1 基于样本迁移
5.2.1.1 样本权重重新调整
5.2.1.2 基于高斯过程进行权重估计
5.2.2 基于DRL与迁移学习的小区激活算法设计
5.2.3 仿真实验
5.2.3.1 仿真环境
5.2.3.2 对比算法
5.2.3.3 仿真结果分析
5.3 本章小结
第六章 总结与展望
6.1 本文总结
6.2 未来展望
致谢
参考文献
攻读硕士学位期间的研究成果
本文编号:3749525
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3749525.html