基于深度强化学习的报文分类技术的研究
发布时间:2021-10-29 03:36
报文分类问题是计算机网络的一个基本问题,主要研究如何高效的对进入网络设备的报文进行分析判断,并决定应用何种方式来处理报文。近年来伴随着网络规模和性能的发展,报文分类问题在效率和资源占用等方面又有了新的要求。传统的基于人工规则和启发式方法的报文分类算法,一方面分类性能不尽如人意,另一方面受制于较差的泛化性能,不能满足网络规则快速迭代的当今网络环境的需要。本文提出一种不需要人工参与的基于学习的报文分类方法,使用深度强化学习技术构建模型,同时借鉴了传统的启发式报文分类方法的优势,真正实现了端到端的报文分类模型构建,通过在数据集上进行实验并与当前成熟的报文分类方法进行比较,证实本算法能较大幅度地提高报文分类的分类性能和泛化性能。本文详细阐述了算法对传统算法的吸取和改进,并说明了将传统报文分类算法应用到强化学习领域的基本思路。同时说明了深度强化学习环境的设计思路和训练算法的设计细节,最后说明了强化学习和报文分类任务的契合性,揭示了强化学习算法可以被成功应用到报文分类任务中的原因。除了阐述算法的基本思路以外,本文详细说明了算法的实现细节,尤其是在大规模网络上进行算法实现时所需要的分布式训练技术,这...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
图2-1分类器示意图
哈尔滨工业大学工学硕士学位论文-7-匹配优先级较高的规则。这样报文分类问题就被转化为如下问题:给定一个分类器C,每当一个网络数据包P到达路由器,如何能够快速而准确地为数据包P找到一个最合适的匹配规则R,并执行该规则对应的动作。如上所述,我们假设规则对应的域的取值为区间范围,而每一个数据包的对应的域取值为一个值,则我们可以容易地将报文分类问题抽象为一个计算几何问题。一个包含两个域的规则可以视为二维欧几里得空间中的一个矩形,一个包含d个域的规则可以视为d维欧几里得空间中的一个超矩形。而每一个数据包可以看作空间中一个点。伴随着多个规则将空间进行切分,最终数据包在空间中的点将落在某个矩形中。随后对该数据包执行该矩形对应的动作。需要注意的是,规则所对应的矩形之间可能会有重叠,这意味着数据包落点所对应的规则可能不止一个,在这种情况下需要考虑对规则进行优先级排序[21]。考虑2.1所对应的分类器,其对应的计算几何解释如下图所示:图2-2分类器对应的计算几何解释这样报文分类问题就被转化为如下的计算几何问题:在分类器所考虑的域所构成的欧几里得空间中,考虑使用规则所对应的超矩形对该空间进行划分,并选择包含数据包(Packet)所对应点的优先级最高的超矩形并执行相应动作的过程。该问题已经在计算几何领域研究多年。在一个d维几何空间(d>3),考虑n个互相没有交集的矩形区域,定位某个点属于哪个几何区域。该问题或者存在一个O(logn)的时间下界和O(dn)的空间下界,或者存在一个O(nd1log)的时间下界和O(n)的空间下界,考虑到报文分类问题允许规则超矩形之间存在空间位
哈尔滨工业大学工学硕士学位论文-11-2.3强化学习技术强化学习是智能体通过与环境进行交互来使数值化的收益信号最大化的方法。智能体不会被告知应该采取什么动作,而必须自己通过尝试去发现哪些动作会产生最丰厚的收益。强化学习技术将与智能体交互的环境抽象为一个有限马尔科夫决策过程(MDP),在与环境交互的过程中通过算法平衡智能体探索(Exploration)和利用(Exploitation)等与环境的交互来获得更为合适的策略(policy)。以下简要介绍强化学习技术中基于值的方法(value-based)和基于策略的方法(policy-based)。在本文中我们假设环境是分幕式的(episode),同时我们假设智能体的动作空间是离散的。一个常见的强化学习交互过程如下图所示:图2-4强化学习交互过程智能体(Agent)通过与环境(Environment)进行交互,根据环境提供的状态(State),结合智能体的策略(Policy)选择合适的动作(Action),并获得环境提供的奖励函数(Reward),如此迭代。2.3.1基于值的方法基于值的强化学习方法[24]首先评估抽象环境中状态和动作的好坏,然后根据状态和动作的评估值来选择相应动作并形成策略。如在强化学习中为了评估当前状态的好坏,引入状态值函数,其定义如下所示:tttssrEV]|[)((2-6)上述公式表示某状态下未来累积回报的期望,期望越大说明当前状态越有利,从而评估了当前的优劣。相似的,我们定义状态动作值函数,其函数表示定义如下式所示:QaasrEs),|(),(ttt(2-7)
【参考文献】:
期刊论文
[1]Google Protobuf在Linux Socket通讯中的应用[J]. 李纪欣,王康,周立发,章军. 电脑开发与应用. 2013(04)
[2]报文分类算法研究[J]. 孙毅,刘彤,蔡一兵,胡金龙,石晶林. 计算机应用研究. 2007(04)
[3]报文分类技术的研究及其应用[J]. 田立勤,林闯. 计算机研究与发展. 2003(06)
硕士论文
[1]决策树ID3算法的改进研究[D]. 刘祺.哈尔滨工程大学 2009
本文编号:3463878
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
图2-1分类器示意图
哈尔滨工业大学工学硕士学位论文-7-匹配优先级较高的规则。这样报文分类问题就被转化为如下问题:给定一个分类器C,每当一个网络数据包P到达路由器,如何能够快速而准确地为数据包P找到一个最合适的匹配规则R,并执行该规则对应的动作。如上所述,我们假设规则对应的域的取值为区间范围,而每一个数据包的对应的域取值为一个值,则我们可以容易地将报文分类问题抽象为一个计算几何问题。一个包含两个域的规则可以视为二维欧几里得空间中的一个矩形,一个包含d个域的规则可以视为d维欧几里得空间中的一个超矩形。而每一个数据包可以看作空间中一个点。伴随着多个规则将空间进行切分,最终数据包在空间中的点将落在某个矩形中。随后对该数据包执行该矩形对应的动作。需要注意的是,规则所对应的矩形之间可能会有重叠,这意味着数据包落点所对应的规则可能不止一个,在这种情况下需要考虑对规则进行优先级排序[21]。考虑2.1所对应的分类器,其对应的计算几何解释如下图所示:图2-2分类器对应的计算几何解释这样报文分类问题就被转化为如下的计算几何问题:在分类器所考虑的域所构成的欧几里得空间中,考虑使用规则所对应的超矩形对该空间进行划分,并选择包含数据包(Packet)所对应点的优先级最高的超矩形并执行相应动作的过程。该问题已经在计算几何领域研究多年。在一个d维几何空间(d>3),考虑n个互相没有交集的矩形区域,定位某个点属于哪个几何区域。该问题或者存在一个O(logn)的时间下界和O(dn)的空间下界,或者存在一个O(nd1log)的时间下界和O(n)的空间下界,考虑到报文分类问题允许规则超矩形之间存在空间位
哈尔滨工业大学工学硕士学位论文-11-2.3强化学习技术强化学习是智能体通过与环境进行交互来使数值化的收益信号最大化的方法。智能体不会被告知应该采取什么动作,而必须自己通过尝试去发现哪些动作会产生最丰厚的收益。强化学习技术将与智能体交互的环境抽象为一个有限马尔科夫决策过程(MDP),在与环境交互的过程中通过算法平衡智能体探索(Exploration)和利用(Exploitation)等与环境的交互来获得更为合适的策略(policy)。以下简要介绍强化学习技术中基于值的方法(value-based)和基于策略的方法(policy-based)。在本文中我们假设环境是分幕式的(episode),同时我们假设智能体的动作空间是离散的。一个常见的强化学习交互过程如下图所示:图2-4强化学习交互过程智能体(Agent)通过与环境(Environment)进行交互,根据环境提供的状态(State),结合智能体的策略(Policy)选择合适的动作(Action),并获得环境提供的奖励函数(Reward),如此迭代。2.3.1基于值的方法基于值的强化学习方法[24]首先评估抽象环境中状态和动作的好坏,然后根据状态和动作的评估值来选择相应动作并形成策略。如在强化学习中为了评估当前状态的好坏,引入状态值函数,其定义如下所示:tttssrEV]|[)((2-6)上述公式表示某状态下未来累积回报的期望,期望越大说明当前状态越有利,从而评估了当前的优劣。相似的,我们定义状态动作值函数,其函数表示定义如下式所示:QaasrEs),|(),(ttt(2-7)
【参考文献】:
期刊论文
[1]Google Protobuf在Linux Socket通讯中的应用[J]. 李纪欣,王康,周立发,章军. 电脑开发与应用. 2013(04)
[2]报文分类算法研究[J]. 孙毅,刘彤,蔡一兵,胡金龙,石晶林. 计算机应用研究. 2007(04)
[3]报文分类技术的研究及其应用[J]. 田立勤,林闯. 计算机研究与发展. 2003(06)
硕士论文
[1]决策树ID3算法的改进研究[D]. 刘祺.哈尔滨工程大学 2009
本文编号:3463878
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3463878.html