当前位置:主页 > 管理论文 > 移动网络论文 >

基于机器学习的恶意网址识别方法的研究与发现

发布时间:2021-01-10 07:03
  随着互联网的快速发展以及网民数量的不断攀升,信息在高速与频繁的交换过程中木马注入、网络钓鱼、分布式攻击等网络攻击不断涌现,严重威胁个人用户的隐私、网络环境的生态及国家信息财产安全。许多网络攻击借助传播恶意URLs来实现。本文针对恶意URLs的检测问题进行了相关研究。针对基于黑名单机制只能检测识别已发现的恶意URLs,无法预测新近出现及未标记的恶意网址的问题,本文对大量URLs进行统计分析,设计并提出具有高检出率的恶意URLs检测特征空间,包含基于时间、元辅音比等34维特征。为验证比较特征有效性,结合机器学习及深度学习算法进行检测实验,证明对恶意URLs检测识别具有良好的区分能力,检测准确率高达99.5%。通过对特征集的对比分析发现:时间、子路径最大长度、URLs中元组在负向数据集概率和、URLs中元组在正向数据集概率和、域名最长字串占域名比例、域名中不同种类的字符占域名比例等15维特征在先前研究中未被使用或较少被使用,但在本特征集中起关键性区分作用。针对人工设计特征规则过程中会引入不相关、冗余、噪声特征等问题,本文提出一种发现综合特征空间的方法,主要采用随机森林、J48、贝叶斯等机器学... 

【文章来源】:北京建筑大学北京市

【文章页数】:63 页

【学位级别】:硕士

【部分图文】:

基于机器学习的恶意网址识别方法的研究与发现


ID3和C4.5算法流程图

学习算法,特征提取,循环神经网络,字符串数据


第 2 章 相关研究特征组合作为特征选择的结果。2.5 深度学习算法2.5.1 卷积神经网络由于人工智能的发展推进与 AlphaGo 的惊人表现,使得近期深度学习算法受到广泛关注,其优良的智能计算学习能力也被人赞赏。目前深度学习网络中卷积神经网络、循环神经网络和深度神经网络等主要算法被重点应用,主要应用于图像数据的相关处理,同时少量研究是基于信号数据[53],字符串数据进行处理的。卷积神经网络(Convolutional neural network,CNN)在特征提取方面具有良好的表现,通过 CNN 可以完成输入中多种特征的识别。因此,在此基础上尝试以 CNN 对 URLs进行学习分辨,完成特征提取。其中,最经典通用的 CNN 网络结构为 LeNet-5 结构,其中包括 7 层网络结构,第一层、第三层和第五层为卷积层,第二层和第四层为池化层,第六层为全连接层,第七层为输出层,具体如图 2-3 所示。

示意图,卷积,过程,示意图


CNN 可以完成输入中多种特征的识别。因此,在此基础上尝试以 CNN分辨,完成特征提取。其中,最经典通用的 CNN 网络结构为 LeNet 7 层网络结构,第一层、第三层和第五层为卷积层,第二层和第四层为全连接层,第七层为输出层,具体如图 2-3 所示。图 2-3 LeNet-5 卷积神经网络Fig 2-3 LeNet-5 Convolutional neural network积神经网络中卷积层的主要功能是特征提取,通过卷积核将输入数据,强化特征输出。图 2-4 所示是卷积的具体过程,设定 2×2 的卷积阵,以步长为 2 进行运算转化后输出,实现原信号特征增强,并且降

【参考文献】:
期刊论文
[1]面向恶意网址检测的广谱特征选择与评估[J]. 张慧,钱丽萍,汪立东,袁辰,张婷.  现代电子技术. 2019(09)
[2]高维小样本分类问题中特征选择研究综述[J]. 王翔,胡学钢.  计算机应用. 2017(09)
[3]网络数据特征选择的优化方法研究与仿真[J]. 张浩.  计算机仿真. 2017(02)
[4]基于多维度特征的不良网站检测[J]. 田双柱,陈勇,延志伟,李晓东.  计算机系统应用. 2017(02)
[5]采用机器学习的聚类模型特征选择方法比较[J]. 赵玮.  华侨大学学报(自然科学版). 2017(01)
[6]基于集成学习的钓鱼网页深度检测系统[J]. 冯庆,连一峰,张颖君.  计算机系统应用. 2016(10)
[7]基于信息熵的网络安全研究[J]. 宣宇才,杨海军,李论.  学术探索. 2016(09)
[8]基于改进正则表达式规则分组的内网行为审计方案[J]. 俞艺涵,付钰,吴晓平.  计算机应用. 2016(08)
[9]基于SVM和TF-IDF的恶意URL识别分析与研究[J]. 甘宏,潘丹.  计算机与现代化. 2016(07)
[10]基于多元属性特征的恶意域名检测[J]. 张洋,柳厅文,沙泓州,时金桥.  计算机应用. 2016(04)

博士论文
[1]基于深度学习的暴力检测及人脸识别方法研究[D]. 丁春辉.中国科学技术大学 2017
[2]机器学习中特征选问题研究[D]. 孙鑫.吉林大学 2013

硕士论文
[1]高混淆挂马网页的分析与检测系统[D]. 杨明.上海交通大学 2014
[2]基于DNS流量的恶意软件域名挖掘[D]. 章思宇.上海交通大学 2014



本文编号:2968281

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2968281.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户80db1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com