SDN网络中基于机器学习的网络资源分配研究
发布时间:2020-06-12 08:23
【摘要】:随着互联网的快速发展和普及,网络规模不断扩大,涌现出大量的新型网络应用和服务,例如Web搜索、Vo IP、视频会议、IPTV、在线游戏和网络直播等。不同的应用和服务对于网络传输中的时延、抖动以及丢包率等性能指标都有不同的需求。与传统互联网相比,软件定义网络(SDN)通过解耦网络设备的控制平面和数据平面实现了更加灵活可控的网络数据流管理方式,不仅给各种新型网络服务提供了灵活的管理和部署手段,还有助于实现差异化、有保障的服务质量。基于SDN网络架构,通过合理分配网络资源,提高服务质量和网络性能是当前一个重要的研究议题。本文提出了SDN网络中数据驱动的网络资源分配方案,通过QoS感知流量分类对进入SDN网络流量的QoS类型进行识别,根据流量的QoS类型和实时网络状态,使用基于强化学习的QoS自适应路由算法进行路由分配。论文的主要研究工作包括:(1)针对SDN网络中流量分类方法存在的实时性差、单分类器泛化性差等问题,提出基于SDN网络的QoS感知流量分类方法。从数据流进入网络的前10个报文中提取流量的统计特征作为分类依据,使用改进的集成半监督机器学习ITri-Training-3训练分类器,实现了网络流类型的实时在线识别,并提高了识别准确率。另外,结合DPI技术实现了对在线分类器的周期性增量更新,提高了流量分类方法的实用性。(2)针对现有SDN网络中QoS路由计算时间成本较高、没有考虑链路实时状态等问题,提出了基于强化学习的QoS自适应路由算法DQPSR。该算法通过引入了softmax动作选择策略、Q-Learning值函数更新方法和带有QoS感知奖赏函数的马尔可夫决策过程,实现了优化的QoS路由计算,该算法可以快速自适应随时间变化的网络和流量状态,可以合理分配网络负载并有较好的可扩展学习能力等特点。(3)基于QoS感知网络流量分类和QoS自适应路由算法DQPSR,设计了SDN网络中的QoS网络资源分配框架,并在开源的Floodlight SDN控制器上实现了该框架。结合Mininet网络仿真器搭建了模拟的SDN网络环境,对DQPSR算法的性能进行了测试。实验结果表明DQPSR算法能在有效的时间内实现收敛,并且与最短路径算法和负载均衡算法对比具有较好的性能。
【图文】:
东南大学硕士学位论文第二章 相关技术及研究现状本章在介绍相关技术研究现状的基础上,总结现有技术存在问题,并指出本文的研究方向和工作重点。本章首先介绍流量分类技术的研究现状,从基于端口、载荷、主机行为和机器学习的流量分类四个方面进行介绍;然后介绍 SDN 网络中 QoS 路由分配的相关研究,讨论资源预留、队列管理和调度以及多媒体路由等三种机制;最后对强化学习技术的基本概念进行介绍。2.1 流量分类技术相关研究网络流量分类是指根据应用层协议类型对网络中产生的流量进行分类和识别。目前,网络流量分类技术主要分为四类:基于端口的流量分类、基于载荷的流量分类、基于主机行为的流量分类、基于机器学习的流量分类。图 2-1 展示了主要的流量分类方法及其对应的部分代表算法。
图 2-2 强化学习模型nt 与环境的交互过程可以用一个马尔可夫决策过程建模。,其中 S 为状态集合,是对环境的描述;A 为可选动作集态转移概率,表示 Agent 在状态 s 时执行动作 a 后转移为时执行动作 a 后转移为 s’时的瞬时奖赏值。马尔可夫决策概率和奖赏值只取决于当前状态和选择的动作,而与历史学习系统除了 Agent 和环境,,还有四个关键的组成要素:奖赏函数(Reward Function)以及环境模型(Environm函数,是强化学习的核心部分,就是 Agent 如何根据环境分为确定性策略和随机性策略两种。通常情况下,由于随机性更好地探索环境,强化学习一般使用随机性策略。随某个动作的概率分布,用式 2.1 表示。( a|s)p(a|s)
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP181;TP393.0
本文编号:2709259
【图文】:
东南大学硕士学位论文第二章 相关技术及研究现状本章在介绍相关技术研究现状的基础上,总结现有技术存在问题,并指出本文的研究方向和工作重点。本章首先介绍流量分类技术的研究现状,从基于端口、载荷、主机行为和机器学习的流量分类四个方面进行介绍;然后介绍 SDN 网络中 QoS 路由分配的相关研究,讨论资源预留、队列管理和调度以及多媒体路由等三种机制;最后对强化学习技术的基本概念进行介绍。2.1 流量分类技术相关研究网络流量分类是指根据应用层协议类型对网络中产生的流量进行分类和识别。目前,网络流量分类技术主要分为四类:基于端口的流量分类、基于载荷的流量分类、基于主机行为的流量分类、基于机器学习的流量分类。图 2-1 展示了主要的流量分类方法及其对应的部分代表算法。
图 2-2 强化学习模型nt 与环境的交互过程可以用一个马尔可夫决策过程建模。,其中 S 为状态集合,是对环境的描述;A 为可选动作集态转移概率,表示 Agent 在状态 s 时执行动作 a 后转移为时执行动作 a 后转移为 s’时的瞬时奖赏值。马尔可夫决策概率和奖赏值只取决于当前状态和选择的动作,而与历史学习系统除了 Agent 和环境,,还有四个关键的组成要素:奖赏函数(Reward Function)以及环境模型(Environm函数,是强化学习的核心部分,就是 Agent 如何根据环境分为确定性策略和随机性策略两种。通常情况下,由于随机性更好地探索环境,强化学习一般使用随机性策略。随某个动作的概率分布,用式 2.1 表示。( a|s)p(a|s)
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP181;TP393.0
【参考文献】
相关期刊论文 前1条
1 赵树鹏;陈贞翔;彭立志;;基于流中前5个包的在线流量分类特征[J];济南大学学报(自然科学版);2012年02期
本文编号:2709259
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2709259.html