基于Spark平台的恶意流量监测分析系统
本文选题:Netflow + Spark ; 参考:《北京交通大学》2016年硕士论文
【摘要】:在DDos监测的研究方面,各种模型被提出来,但是都是针对某些特定领域特定场景下的,普适性不够;而在大数据平台方面,也涌现出了很多好的平台,比如Hadoop, Spark等,但并不直接支持恶意流量监测:在Netflow的现有工具及现有研究中,对于恶意流量监测也有部分工具,但不支持DDos监测。如果能将技术研究与技术平台的优势结合起来,对于DDos的防御也许会更有效。本文的成果在于:第一,提出了一个基于Spark平台的网络恶意流量监测系统模型,重点监测DDos攻击,拟定了相关的原则。提出了基于线性拟合的特征选择方法,基于此特征改进了基于机器学习的检测算法。第二,搭建了基于Spark平台的网络恶意流量监测平台,包括Hadoop平台与Spark平台。第三,在Spark平台及Hadoop平台,分别实现了上述四种改进算法,并进行了实验比较,选出了最优算法并进行了解释。机器学习算法在特征选取时,常常只独立考虑相关属性,这无法反映一些相关性。我们提出将请求流量与服务流量进行线性拟合并将残差作为特征,同时考虑到全面性,将平均包数与平均包大小也作为特征,这样就可以在更大程度上模拟正常流量的特征。基于新的特征,本文改进了基于机器学习的四个算法,分别是kmeans,决策树,贝叶斯学习和P枷。利用Spark支持的机器学习算法接口,我们开发了相应的算法。其中,聚类算法kmeans在确定簇类中心点中尝试了不同的方法。本文分析了机器学习算法对于恶意流量检测的可用性,分析了Spark平台对于机器学习算法的实用性,结合已有的恶意流量检测方法以及上述算法,设计并实现了一个恶意流量检测平台,可以针对蠕虫,木马,僵尸网络,DDos攻击等进行比较全面的检测。用户在使用时,可根据时间的要求选择不同的模式。本论文在基于线性拟合的特征提取方法的基础上,对改进的算法进行了实验比较及分析。
[Abstract]:In the research of DDos monitoring, a variety of models have been proposed, but they are not universal enough for some specific fields and specific scenarios. In the big data platform, many good platforms have emerged, such as Hadoop, Spark, etc. But it does not directly support malicious traffic monitoring: in the existing tools and existing research of Netflow, there are some tools for malicious traffic monitoring, but do not support DDos monitoring. A combination of technology research and the advantages of a technology platform might be more effective against DDos. The main achievements of this paper are as follows: first, a network malicious traffic monitoring system model based on Spark platform is proposed, which focuses on monitoring DDos attacks and formulates relevant principles. A feature selection method based on linear fitting is proposed, and the detection algorithm based on machine learning is improved based on this feature. Secondly, a network malicious traffic monitoring platform based on Spark platform is built, including Hadoop platform and Spark platform. Thirdly, the above four improved algorithms are implemented on Spark platform and Hadoop platform, and the experimental results are compared, and the optimal algorithm is selected and explained. In feature selection, machine learning algorithms often only consider correlation attributes independently, which can not reflect some correlations. We propose a linear combination of request traffic and service traffic with residuals as features, and the average number of packets and average packet size are also considered as features, so that the characteristics of normal traffic can be simulated to a greater extent. Based on the new features, this paper improves four algorithms based on machine learning, namely, kmeans, decision tree, Bayesian learning and P-flail. Using the machine learning algorithm interface supported by Spark, we develop the corresponding algorithm. Among them, the clustering algorithm kmeans has tried different methods in determining the cluster center point. This paper analyzes the availability of machine learning algorithm for malicious traffic detection, and the practicability of Spark platform for machine learning algorithm, combined with the existing malicious traffic detection methods and the above algorithms. A malicious traffic detection platform is designed and implemented, which can detect worm, Trojan horse, botnet DDos attack and so on. Users in use, according to the requirements of time to choose different modes. Based on the feature extraction method based on linear fitting, the improved algorithm is compared and analyzed experimentally in this paper.
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.06
【相似文献】
相关期刊论文 前10条
1 张明玉,倪志伟;基于机器学习的智能决策支持系统[J];淮南师范学院学报;2005年03期
2 杨凌霄;武建平;;机器学习方法在人脸检测中的应用[J];计算机与数字工程;2008年03期
3 ;第十一届中国机器学习会议[J];智能系统学报;2008年02期
4 ;第14届中国机器学习会议[J];智能系统学报;2012年06期
5 费宗铭;吕建;王志坚;陈道蓄;徐家福;;机器学习[J];计算机科学;1991年01期
6 赵沁平;魏华;王军玲;;机器学习技术与机器学习系统[J];计算机科学;1993年05期
7 姚敏;机器学习及其发展方向[J];计算机时代;1994年04期
8 ;第31届机器学习国际会议(英文)[J];智能系统学报;2014年01期
9 黄海滨;机器学习及其主要策略[J];河池师范高等专科学校学报(自然科学版);2000年04期
10 佘玉梅;一种协调机器学习方法研究[J];云南民族学院学报(自然科学版);2000年03期
相关会议论文 前10条
1 王珏;;归纳机器学习[A];2001年中国智能自动化会议论文集(上册)[C];2001年
2 王昊;李银波;纪志梁;;利用机器学习方法预测严重药物不良反应-呼吸困难[A];中国化学会第28届学术年会第13分会场摘要集[C];2012年
3 吴沧浦;;智能系统与机器学习的新领域[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年
4 周晴杰;徐立鸿;吴启迪;;机器学习串级结构的初步探讨[A];1998年中国控制会议论文集[C];1998年
5 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年
6 徐礼胜;李乃民;王宽全;张冬雨;耿斌;姜晓睿;陈超海;罗贵存;;机器学习在中医计算机诊断识别系统中的应用思考[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年
7 蔡健平;林世平;;基于机器学习的词语和句子极性分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 黄金铁;李景银;周建常;;对高炉炉况评价模型参数的机器学习——一个三类线性模式分类器的实现[A];1995中国控制与决策学术年会论文集[C];1995年
9 程国建;蔡磊;潘华贤;;核向量机在大规模机器学习中的应用[A];第十一届中国青年信息与管理学者大会论文集[C];2009年
10 张钹;张铃;;统计学习理论及其应用[A];2001年中国智能自动化会议论文集(上册)[C];2001年
相关重要报纸文章 前10条
1 黎骊/文 [美] Tom M.Mitchell 著;机器学习与智能化社会[N];中国邮政报;2003年
2 IBM大数据专家 James Kobielus 范范 编译;机器学习已成为大数据基石[N];网络世界;2014年
3 本报记者 房琳琳;合久必分:分布式“机器学习”应运而生[N];科技日报;2014年
4 雨辰;机器学习类图书为什么火爆[N];中华读书报;2014年
5 百度公司技术副总监 多媒体部负责人 余凯;深度学习与多媒体搜索技术演进[N];中国信息化周报;2013年
6 本报记者 余建斌;机器学习与互联网搜索[N];人民日报;2011年
7 本报记者 张晔邋通讯员 李玮;周志华:永不墨守成规[N];科技日报;2008年
8 记者 彭德倩;机器学习精度提升近6个百分点[N];解放日报;2006年
9 本报记者 闵杰;大数据热 高端人才缺[N];中国电子报;2013年
10 沈建苗 编译;如何成为大数据科学家[N];计算机世界;2013年
相关博士学位论文 前10条
1 董春茹;机器学习中的权重学习与差分演化[D];华南理工大学;2015年
2 姚明臣;机器学习和神经网络学习中的若干问题研究[D];大连理工大学;2016年
3 赵玉鹏;机器学习的哲学探索[D];大连理工大学;2010年
4 胡巍;面向格结构的机器学习[D];上海交通大学;2009年
5 张义荣;基于机器学习的入侵检测技术研究[D];国防科学技术大学;2005年
6 钱线;快速精确的结构化机器学习方法研究[D];复旦大学;2010年
7 梁锡军;稀疏优化在机器学习中的若干应用[D];大连理工大学;2013年
8 蒋刚;核机器学习方法若干问题研究[D];西南交通大学;2006年
9 陈慧灵;面向智能决策问题的机器学习方法研究[D];吉林大学;2012年
10 周伟达;核机器学习方法研究[D];西安电子科技大学;2003年
相关硕士学位论文 前10条
1 张柯;基于机器学习的错误定位方法研究[D];南京航空航天大学;2015年
2 于雯;机器学习在信用评级中的应用[D];中国海洋大学;2015年
3 裴松年;基于机器学习的分类算法研究[D];中北大学;2016年
4 李红;基于机器学习的中医药配方评估研究[D];南京大学;2016年
5 周文U,
本文编号:1855995
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1855995.html