当前位置:主页 > 科技论文 > 自动化论文 >

基于大数据平台的恶意IP分类算法研究

发布时间:2020-05-23 22:35
【摘要】:随着互联网的快速发展,在铁路售票系统中,网络售票量远远超过了车站窗口、全国代售点等售票渠道,网络购票成为了大众出行购票的首要选择。同时受利益驱动,互联网售票行业也面临着灰色产业的威胁。研究发现,在春运、节假日等售票高峰期,频频存在恶意刷票的现象,严重影响了用户正常的购票体验。为了对一些恶意数据请求进行拦截和实时处理,开发了基于大数据平台的风控系统。在该系统的策略分析环节,由于无法有效的区分当前请求IP的来源,影响了策略阈值的选取,存在着误伤的风险。此外售票系统面临着每天上千万的访问量,产生了海量的数据集,如何高效的进行数据分类也成为了问题的关键。本论文针对以上问题,结合数据挖掘相关知识开展了研究,提出了基于大数据平台的恶意IP分类算法。本论文的主要贡献包括以下方面:1.在恶意IP分类问题上,本文介绍了常用的分类算法,通过仿真实验,分析了已有算法的优缺点,筛选出更适合当前应用场景的随机森林算法RF。为提高分类精度,提出了基于随机森林的恶意IP分类算法IPRF。IPRF算法主要是改进了特征选取步骤,采用了 Bagging与Forest-RI相结合的特征选取方法,增加样本特征选择的随机性,构建分类器时,引入了基于OOB估计的权重计算。通过五组数据集的对比实验,表明IPRF算法有效的提高了分类准确率,提高了分类器的性能。2.在数据分类效率问题中,针对海量的数据量,提出了基于MapReduce框架的并行化思想,结合IPRF算法,提出了基于大数据平台的恶意IP分类算法,研究并设计了并行化流程。基于大数据平台,通过三组不同数量的数据集进行对比实验,验证了算法的可行性,缩短了算法执行时间,有效的提高了数据处理的效率。基于大数据平台的恶意IP分类算法的实现能够使得在风控系统的策略分析环节更加完善,有效的避免对正常用户的误伤,从而促使策略的阈值选取更合理化,从而更好地完善风控系统,有效的加强对异常购票行为识别。
【图文】:

架构图,架构,平台


2基础理论和相关技术逡逑随着计算机和互联网等技术的快速发展,大量的数据不断涌现。对于售,每天都有大量的访问量,随即会产生大量的日志数据,那么如何分析如何在海量数据面前充分利用数据的价值,就成为互联网公司在优化企可避免的问题。高性能的Hadoop平台的产生,,有效的促进了大数据处展。针对恶意IP的问题,本文提出了基于Hadoop平台的恶意IP分传统的分类方法进行比较。本章将对Hadoop平台的主要架构、MapRed型、HDFS分布式文件存储系统等内容和实验过程中涉及到的概念、算行介绍。逡逑Hadoop平台框架逡逑

架构图,架构,逻辑


基础理论和相关技术逡逑以Hadoop集群为核心的大数据平台,自形成之日起就不断地进行着功能的完逡逑善和性能的提升。如图2-1所示,Hadoop平台的主要组件有HDFS分布式文件存逡逑储系统、MapReduce并行化计算框架、Hbase实时分布式数据库、Hive分布式数据逡逑仓库、Zookeeper分布式协调系统、Pig海量数据流处理系统、Spark内存分布式计逡逑算框架、Storm分布式实时大数据处理系统、Kafka分布式发布订阅消息系统、Flume逡逑海量日志采集聚合传输系统、Mahout海量数据挖掘与机器学习算法库等构成。目逡逑前,为了便捷、高效的处理数据挖掘相关工作,已经有很多互联网公司搭建了他们逡逑自己的基于Hadoop的大数据平台。随着互联网的快速发展,Hadoop也逐渐被电逡逑子商务业、制造业、教育机构以及科研机构等行业学习、改进和使用,Hadoop己逡逑经成为在数据处理领域应用最广泛的大数据处理平台。逡逑基于Hadoop平台的机器学习分类算法有着广阔的应用和研宄前景,机器学逡逑习分类算法处理分析海量数据这一广泛且重要的应用场景,以及Hadoop这一稳逡逑定的、扩展性强的分布式基础架构系统,吸引了众多领域内的专家学者对其开展了逡逑深入的研究。逡逑2.2邋HDFS分布式文件系统逡逑HDFS邋(Hadoop邋Distributed邋File邋System)是一种分布式文件系统,也是邋Hadoop逡逑平台中的核心组件。HDFS源于Google在2003年发表的GFS(GoogleFileSystem)逡逑论文
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:F49;TP18;TP311.13

【参考文献】

相关期刊论文 前4条

1 杨柳;于剑;景丽萍;;一种自适应的大间隔近邻分类算法[J];计算机研究与发展;2013年11期

2 王鑫;汪晋宽;刘志刚;龚志恒;;基于随机森林的认知网络频谱感知算法[J];仪器仪表学报;2013年11期

3 方匡南;吴见彬;朱建平;谢邦昌;;随机森林方法研究综述[J];统计与信息论坛;2011年03期

4 魏进武;张云勇;陈清金;;云计算推动IDC向VDC转型的研究[J];电信科学;2010年11期

相关硕士学位论文 前9条

1 张鑫;随机森林算法的优化研究及在文本并行分类上的应用[D];南京邮电大学;2018年

2 陈洁;数据挖掘分类算法的改进研究[D];南京邮电大学;2018年

3 魏先双;逻辑回归在个人信用评级的应用[D];重庆大学;2018年

4 张永潘;基于大数据平台的决策树分类算法及并行化研究[D];南京邮电大学;2017年

5 申洲;基于流行为特征IDC识别方法研究[D];电子科技大学;2017年

6 张艳华;基于Hadoop的IP用户访问行为动机分析研究[D];北京信息科技大学;2017年

7 陈阳雪;基于大数据平台的MOOC混合推荐算法的研究及应用[D];杭州电子科技大学;2017年

8 方洪鹰;数据挖掘中数据预处理的方法研究[D];西南大学;2009年

9 李晓菲;数据预处理算法的研究与应用[D];西南交通大学;2006年



本文编号:2678053

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2678053.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户60782***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com