当前位置:主页 > 管理论文 > 移动网络论文 >

基于多层卷积模型的恶意URL特征自动提取

发布时间:2021-08-16 09:57
  针对恶意仿冒URL的有效识别问题,提出一种基于skip-gram和连续多层卷积层的模型相结合的网络模型完成对恶意仿冒URL进行特征提取并检测。根据URL结构特性将其切分为5个部分,使用skip-gram对字符进行稠密编码将URL数据信息进行转化;使用连续多个卷积层的CNN模型针对URL的每个部分完成独立特征提取,将特征提取结果进行整合;使用贝叶斯、随机森林等多种分类器对模型提取特征空间进行评估。实验结果表明,该方法能够快速有效地对恶意仿冒URL进行检测,检测准确率可达97%,效果优于典型的eXpose多核卷积模型。 

【文章来源】:计算机工程与设计. 2020,41(07)北大核心

【文章页数】:8 页

【部分图文】:

基于多层卷积模型的恶意URL特征自动提取


http协议形式

折线图,字符,折线


skip-gram模型旨在将字符转换为占用空间更小的稠密向量。本文以URL为处理单位,选择其最细粒度———字符,作为最小语义单元,统计正、负数据集中的最小语义单元的频次,并按降序排列,结果如图2所示。横坐标为字符降序排列的序号,纵坐标为1-gram字符出现的频次。本文将频次较低字符包括中文字符(’翡’,’语’,’利’,’款’等)、非常用字符(’>’,’π’,’^’,’`’等)及乱码字符(’す’,’í’,’の’,’’等)全部置为”UNK”,以减少模型训练的时间及空间复杂度,且不会对编码结果造成影响。故本文以频次为334次的第79个字符’!’作为切分点,舍去频次小于300次的字符。并将保留的79个字符与”UNK”组成skip-gram模型所需的字符表V。在skip-gram模型中,w∈Rd是w∈V的向量表示,其中,d为字符向量的维数,w为字符表V中的字符。如图3所示,使用滑动窗口得到训练数据(w,c),不仅能获取相邻字符间的关系,也能获取具有一定距离字符间的关系。相较于普通二元数据对能更加准确表达字符的上下文关系。且本文设置大小为5的滑动窗口,即能保证充分获取字符间的关系,又能避免因距离过远而获取的错误关系。

模型图,模型,字符,上下文


在skip-gram模型中,w∈Rd是w∈V的向量表示,其中,d为字符向量的维数,w为字符表V中的字符。如图3所示,使用滑动窗口得到训练数据(w,c),不仅能获取相邻字符间的关系,也能获取具有一定距离字符间的关系。相较于普通二元数据对能更加准确表达字符的上下文关系。且本文设置大小为5的滑动窗口,即能保证充分获取字符间的关系,又能避免因距离过远而获取的错误关系。在目标字符w的上下文中观察到字符c的概率如式(1)所示,在目标字符w的上下文中未观察到字符c的概率如式(2)所示

【参考文献】:
期刊论文
[1]基于卷积神经网络的恶意URL检测[J]. 潘司晨,薛质,施勇.  通信技术. 2018(08)
[2]卷积网络深度学习算法与实例[J]. 陈旭,张军,陈文伟,李硕豪.  广东工业大学学报. 2017(06)
[3]基于SVM和TF-IDF的恶意URL识别分析与研究[J]. 甘宏,潘丹.  计算机与现代化. 2016(07)
[4]基于巴氏系数和Jaccard系数的协同过滤算法[J]. 杨家慧,刘方爱.  计算机应用. 2016(07)
[5]恶意网页识别研究综述[J]. 沙泓州,刘庆云,柳厅文,周舟,郭莉,方滨兴.  计算机学报. 2016(03)



本文编号:3345459

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3345459.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6ef2c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com