基于Mahout分类器的异常流量检测技术的研究
本文选题:大数据分布式 + 网络异常流量 ; 参考:《天津理工大学》2017年硕士论文
【摘要】:近年来,互联网带给人们丰富的共享信息资源,方便了人们的工作与生活,人们越来越离不开网络,网络在现代人们的生活中扮演者越来越重要的角色。另一方面,很多人针对网络进行恶意攻击,从中获取利益。对于大部分普通网民来说,网络环境日益复杂,人们不仅需要加强自身保护意识,更加需要网络安全人员对网络流量进行维护与监管,检测异常网络流量,从而保证网络使用者的上网安全。因此,网络异常流量检测技术具有重大意义,也是文本的主要研究课题。本文针对网络中数据源多维化的特点,将数据源多维数据的信息熵投影到不同的分类支撑向量,由于机器学习容易产生过度训练或训练不足这些问题,本文对比EWMA、Entropy、K-means、GMM、SVDD等异常流量检测方法,选择支持多维数据统计的非监督式SVDD分类方法,训练可采用的数据集。针对训练分类器成本消耗大与分类检测效果佳的冲突问题,本文选择一种异常实时响应训练的学习模式,只在有异常检测点加入时,才进行重新训练。不仅如此,对于训练数据集中异常点的选取,采用贝叶斯网络模型推理预测下一节点的异常概率,随即判断是否将异常点加入到训练集中继续训练,以此整体提高异常流量检测的效率与精度。本文主要针对的问题以及研究的创新点如下:(1)针对研究过程中,异常数据集来源困难、数据分析过程复杂的客观条件,本文选择大数据分布式平台环境进行数据的处理分析。为分析分类器异常检测能力的表现效果,本文对比EWMA、Entropy、K-means、GMM、SVDD等主流的异常检测方法,最终实验选定在多维信息熵构建支撑向量基础上,由SVDD方法对异常流量进行检测,能够有优于其他几种方法的检测效果。(2)针对分类器数据量、训练地与实际应用地点的不同,原始的训练集检测效果不能很好地检测新数据,且当前重新训练所需要的资源消耗量大等等这些问题,本文采用异常实时响应训练方法。只有在加入异常点时,才进行训练集的重训练,将检测窗口平行移动至异常点,剔除最开始的检测点,增加当前适用的检测点。这种方法既能提高训练集的适应性与准确率,还能将物质消耗,资源消耗降低。(3)针对检测统计量时间相关性、异常样本对精度影响的问题,本文采用贝叶斯网络模型推理预测该异常节点可能会出现异常的概率,对检测精度进行优化,重新组织加入训练集的异常点。针对异常检测模型检测出的异常,提出应急响应方法,不仅能够检测异常,更加能够处理异常。
[Abstract]:In recent years, the Internet has brought people a rich share of information resources, convenient for people's work and life, people are becoming more and more inseparable from the network, the network plays a more and more important role in the life of modern people. On the other hand, a lot of people have malicious attacks on the network to gain benefits. For most ordinary netizens, The network environment is increasingly complex, people not only need to strengthen their own awareness of protection, more need network security personnel to maintain and supervise network traffic, detect abnormal network traffic, so as to ensure the network users' Internet security. Therefore, the network anomaly traffic detection technology is of great significance and is also the main research topic of the text. In view of the multi-dimensional characteristics of data sources in the network, the information entropy of data source multidimensional data is projected to different classification support vectors. Because machine learning is easy to produce excessive training or lack of training, this paper compares the abnormal flow detection methods such as EWMA, Entropy, K-means, GMM, SVDD and so on, and chooses the non supervision of multi-dimensional data statistics. SVDD classification method is used to train data set which can be used. Aiming at the conflict between the high cost of training classifier and the better effect of classification detection, this paper selects a learning model of abnormal real-time response training. It is only retrained when the exception detection point is added, not only for the selection of abnormal points in the training data set, but also for the selection of abnormal points in the training data set. The Bayesian network model is used to predict the abnormal probability of the next node, and then to judge whether the anomaly points are added to the training set to continue training to improve the efficiency and accuracy of the anomaly traffic detection. The main problems and the innovation points in this paper are as follows: (1) in the process of research, the number of abnormal data sets is difficult and the number of data is difficult. According to the analysis of the complex objective conditions, this paper selects the large data distributed platform environment for data processing and analysis. In order to analyze the performance effect of the classifier anomaly detection ability, this paper compares the EWMA, Entropy, K-means, GMM, SVDD and other mainstream anomaly detection methods. The final test is selected on the basis of the multidimensional information entropy construction support vector, and the S is based on the support vector. The VDD method is better than the other several methods to detect the abnormal traffic. (2) in view of the classifier's data quantity, the training ground is different from the actual application location, the original training set detection effect can not detect the new data well, and the current retraining needs a large amount of resource consumption and so on. The training method of abnormal real-time response. Only when the exception point is added, the training set is carried out, the detection window is moved parallel to the exception point, and the first detection point is eliminated and the current detection point is increased. This method can not only improve the adaptability and accuracy of the training set, but also reduce the consumption of material and the consumption of resources. (3) (3) In this paper, we use Bayesian network model to predict the abnormal probability of the anomaly node, optimize the detection precision and reorganize the exception points of the training set. The emergency response method is proposed for the anomaly detected by the anomaly detection model. Only to be able to detect exceptions and to be able to handle exceptions more.
【学位授予单位】:天津理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.06
【相似文献】
相关期刊论文 前10条
1 郭红玲;程显毅;;多分类器选择集成方法[J];计算机工程与应用;2009年13期
2 吕岳,施鹏飞,赵宇明;多分类器组合的投票表决规则[J];上海交通大学学报;2000年05期
3 韩宏;杨静宇;;多分类器组合及其应用[J];计算机科学;2000年01期
4 陈刚,戚飞虎;多分类器结合的人脸识别[J];上海交通大学学报;2001年02期
5 韩宏,杨静宇,娄震;基于层次的分类器组合[J];南京理工大学学报(自然科学版);2002年01期
6 赵谊虹,程国华,史习智;多分类器融合中一种新的加权算法[J];上海交通大学学报;2002年06期
7 王正群,叶晖,孙兴华,杨静宇;模糊多分类器组合[J];小型微型计算机系统;2003年01期
8 杨利英,覃征,王向华;多分类器融合实现机型识别[J];计算机工程与应用;2004年15期
9 杨利英,覃征,王卫红;多分类器融合系统设计与应用[J];计算机工程;2005年05期
10 陈湘;;1-范数软间隔分类器的风险[J];湖北大学学报(自然科学版);2006年02期
相关会议论文 前10条
1 王占一;徐蔚然;刘东鑫;郭军;;一种基于两级分类器的垃圾短信过滤方法[A];第五届全国信息检索学术会议论文集[C];2009年
2 翟静;李海宏;唐常杰;陈敏敏;李智;;可验证对象集分类器的再训练演进[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 陈继航;刘家锋;赵巍;唐降龙;;联机手写识别笔段特征分类器的学习方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
4 穆明生;;基于特征集的多种分类器模型的在线笔迹认证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
5 彭涛;左万利;赫枫龄;;基于链接上下文的分类器主题爬行技术(英文)[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
6 王岚;陈珂;迟惠生;;基于多特征组合多分类器的方法用于“与文本无关”的说话人辨认[A];第四届全国人机语音通讯学术会议论文集[C];1996年
7 谢秋玲;;应用于心电图分类的KNN-SVM分类器研究[A];2006中国控制与决策学术年会论文集[C];2006年
8 胡琼;汪荣贵;胡韦伟;孙见青;;基于级联分类器的快速人脸检测方法[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
9 李兰春;王双成;杜瑞杰;;认知结构评估的动态贝叶斯网络分类器方法[A];2011年中国智能自动化学术会议论文集(第一分册)[C];2011年
10 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
相关重要报纸文章 前1条
1 黄明;精子分类器决定生男生女[N];广东科技报;2000年
相关博士学位论文 前10条
1 张非;对抗逃避攻击的防守策略研究[D];华南理工大学;2015年
2 张文博;多类别智能分类器方法研究[D];西安电子科技大学;2014年
3 许劲松;智能交通中目标检测与分类关键技术研究[D];南京理工大学;2014年
4 赵作林;基于图像分析的北京地区杨树种类识别研究[D];北京林业大学;2015年
5 任亚峰;基于标注和未标注数椐的虚假评论识别研究[D];武汉大学;2015年
6 曹鹏;不均衡数据分类方法的研究[D];东北大学;2014年
7 刘明;分类器组合技术研究及其在人机交互系统中的应用[D];北京交通大学;2008年
8 严志永;在划分数据空间的视角下基于决策边界的分类器研究[D];浙江大学;2011年
9 王U,
本文编号:2027138
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2027138.html