基于机器学习的移动流量识别与异常检测研究
发布时间:2020-11-17 03:33
随着互联网的飞速发展,移动应用产生的流量呈现爆发式增长,对于移动应用流量的识别和检测异常流量已成为一项艰巨的任务。虽然在该领域已提出许多方法,但是仍然存在几个重要问题亟待解决:①能够对加密流量及其应用进行识别,并且支持在线实时的识别功能;②随机森林分类器对于不平衡数据极容易产生偏向性分类问题而忽略少数类样本;③目前没有权威的移动应用异常流量数据,从而导致移动应用异常流量检测不够全面和准确。本文针对以上问题对移动应用的流量识别和异常检测进行研究,主要工作分为以下两部分。第一,通过提出一种基于随机森林的不平衡数据改进算法,以实现对加密或不加密流量的在线实时识别。①本文针对采集到的上万量级的移动应用流量数据进行处理,采用数据包长度作为数据特征提取的基础,在数据预处理的方式上进行了优化。通过优化突发、网络流等概念,将流量数据离散化为流量块,以更小粒度的划分,使得模型能够达到在线实时识别的目的。②针对不平衡数据的偏向性问题,本文提出了一种基于稀疏度权重值法的不平衡数据改进算法,与以往研究不同的是,首先对数据整体进行聚类而不是单独对多数类或者少数类样本聚类,这样可以避免过拟合的问题;其次,在聚类后加入了稀疏度权重值法,充分考虑了数据分布、边缘情况,改善了以往研究出现的问题。第二,考虑到目前移动异常流量数据的不全面性,设计了一种半合成流量生成的方法,以此使得数据集更接近真实、全面的情况。同时结合了基于相关性特征选择和C4.5决策树算法,首先选择特征最优子集,根据数据集选择出与异常流量类型最相关的特征,然后采用C4.5决策树算法多分类的特性,可以同时达到自动化检测异常流量和识别异常类型的目的。综上所述,本文所设计的框架模型十分轻量并具有高度扩展性和移植性。对于移动应用流量的识别,实验中通过采用控制变量法的参数优化方案,运行一组完整的实验和对比实验,准确率可以达到98%以上。对于移动流量的异常检测,对三种常见的异常类型的检测准确率均可以达到94%以上,通过结合算法第三种异常类型的检测准确率更是提高了7%,同时也验证了半合成数据生成方法和采用结合算法检测器的可靠性和有效性。
【学位单位】:电子科技大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP393.06;TP181
【部分图文】:
魂王自:理请求消启籍式
使得模型的输出结果尽可能接近真实结果。模型训练完成后,即可用于识别未知??的数据。有监督学习方法中具有代表性的方法有决策树、朴素贝叶斯算法、支持??向量机等等。有监督学习方法的模型训练流程如图2-4所示:??训练样本?—|??箕法训练?未知数据??理论模型?卜?分类模型???分类????图2-4有监督学习方法模型训练流程??基于无监督学习的方法,其算法的实质为对数据样本进行聚类,大多数的方??法都在聚类原理的基础上对其进行改进,将具有相似属性的特征聚类成为多个簇,??即将同类型的数据聚类到一起。无监督学习方法在本质上只能对相同类型进行聚??类并不能进行识别,但是如果后续对数据样本进行标记以明确分类,也可达到分??类和识别的目的,这种方法也叫做半监督学习方法。在某些应用领域中,,不是所??有的样本数据集都被标记,此时半监督的学习方法就可发挥其优势,将不带有标??记的数据集进行聚类,从而扩大数据集的覆盖率和分类准确率。其流程如图2-5??所示:??gl1^^???聚类筲法??生成类簇??类标记??分类模型?—?分类????图2-5无监螫学习方法模型训练流程??12??
使得模型的输出结果尽可能接近真实结果。模型训练完成后,即可用于识别未知??的数据。有监督学习方法中具有代表性的方法有决策树、朴素贝叶斯算法、支持??向量机等等。有监督学习方法的模型训练流程如图2-4所示:??训练样本?—|??箕法训练?未知数据??理论模型?卜?分类模型???分类????图2-4有监督学习方法模型训练流程??基于无监督学习的方法,其算法的实质为对数据样本进行聚类,大多数的方??法都在聚类原理的基础上对其进行改进,将具有相似属性的特征聚类成为多个簇,??即将同类型的数据聚类到一起。无监督学习方法在本质上只能对相同类型进行聚??类并不能进行识别,但是如果后续对数据样本进行标记以明确分类,也可达到分??类和识别的目的,这种方法也叫做半监督学习方法。在某些应用领域中,,不是所??有的样本数据集都被标记,此时半监督的学习方法就可发挥其优势,将不带有标??记的数据集进行聚类,从而扩大数据集的覆盖率和分类准确率。其流程如图2-5??所示:??gl1^^???聚类筲法??生成类簇??类标记??分类模型?—?分类????图2-5无监螫学习方法模型训练流程??12??
【参考文献】
本文编号:2887045
【学位单位】:电子科技大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP393.06;TP181
【部分图文】:
魂王自:理请求消启籍式
使得模型的输出结果尽可能接近真实结果。模型训练完成后,即可用于识别未知??的数据。有监督学习方法中具有代表性的方法有决策树、朴素贝叶斯算法、支持??向量机等等。有监督学习方法的模型训练流程如图2-4所示:??训练样本?—|??箕法训练?未知数据??理论模型?卜?分类模型???分类????图2-4有监督学习方法模型训练流程??基于无监督学习的方法,其算法的实质为对数据样本进行聚类,大多数的方??法都在聚类原理的基础上对其进行改进,将具有相似属性的特征聚类成为多个簇,??即将同类型的数据聚类到一起。无监督学习方法在本质上只能对相同类型进行聚??类并不能进行识别,但是如果后续对数据样本进行标记以明确分类,也可达到分??类和识别的目的,这种方法也叫做半监督学习方法。在某些应用领域中,,不是所??有的样本数据集都被标记,此时半监督的学习方法就可发挥其优势,将不带有标??记的数据集进行聚类,从而扩大数据集的覆盖率和分类准确率。其流程如图2-5??所示:??gl1^^???聚类筲法??生成类簇??类标记??分类模型?—?分类????图2-5无监螫学习方法模型训练流程??12??
使得模型的输出结果尽可能接近真实结果。模型训练完成后,即可用于识别未知??的数据。有监督学习方法中具有代表性的方法有决策树、朴素贝叶斯算法、支持??向量机等等。有监督学习方法的模型训练流程如图2-4所示:??训练样本?—|??箕法训练?未知数据??理论模型?卜?分类模型???分类????图2-4有监督学习方法模型训练流程??基于无监督学习的方法,其算法的实质为对数据样本进行聚类,大多数的方??法都在聚类原理的基础上对其进行改进,将具有相似属性的特征聚类成为多个簇,??即将同类型的数据聚类到一起。无监督学习方法在本质上只能对相同类型进行聚??类并不能进行识别,但是如果后续对数据样本进行标记以明确分类,也可达到分??类和识别的目的,这种方法也叫做半监督学习方法。在某些应用领域中,,不是所??有的样本数据集都被标记,此时半监督的学习方法就可发挥其优势,将不带有标??记的数据集进行聚类,从而扩大数据集的覆盖率和分类准确率。其流程如图2-5??所示:??gl1^^???聚类筲法??生成类簇??类标记??分类模型?—?分类????图2-5无监螫学习方法模型训练流程??12??
【参考文献】
相关期刊论文 前3条
1 梁伟;陈福才;李海涛;;一种基于C4.5决策树的VoIP流量识别方法[J];计算机应用研究;2012年09期
2 黄爱辉;;决策树C4.5算法的改进及应用[J];科学技术与工程;2009年01期
3 唐华松,姚耀文;数据挖掘中决策树算法的探讨[J];计算机应用研究;2001年08期
相关硕士学位论文 前1条
1 张睿;ID3决策树算法分析与改进[D];兰州大学;2010年
本文编号:2887045
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2887045.html