当前位置:主页 > 管理论文 > 移动网络论文 >

基于深度学习的钓鱼网页识别研究

发布时间:2020-04-09 02:29
【摘要】:随着网络和计算机的普及,网络安全问题也随之出现,钓鱼网页的识别则是网络安全中急需解决的难题。目前主流的钓鱼网页识别方法通常有四种:黑名单方法,启发式方法,图像识别方法,机器学习方法,每一种都有明显的缺点。黑名单方法,启发式方法,图像识别方法因为钓鱼网页的更新速度快,特征求不及更新,漏判率较高。机器学习方法通常为浅层学习,对复杂分类问题泛化能力弱,所以误判率较高。通过研究发现,深度学习可以有效的解决上述的问题。在比较各种深度学习模型框架后,采用了自动编码器模型作为识别钓鱼网页的模型框架。它是一个简单的3层网络模型,分为编码层,隐藏层,解码层,特征经过编码与解码后能够获得更本质的表达。本文的识别方法首先通过对网页URL和网页源代码分析,把特征分为URL文本特征,DNS特征,WHOIS特征,排名特征和页面内容特征5大类,通过抽取每一个类别中的特征组成一个52维的特征向量,对有缺失的特征进行特征填充。之后把已构造好的特征向量作为自动编码器的输入。目前在使用深度学习模型时,超参数的调节主要有手动法、网格搜索、随机搜索三种方法,每一种方法都有很多的缺点,本文提出了一种基于节点权重相关性的自适应隐藏层节点数优化算法,通过引入相关系数理论来自动调节隐藏层的节点数,使得当前层的节点数量最优。为了证明算法的正确性,本文采用三种数据集,对六种性能进行分析,分别为准确率,召回率,假正率,假负率,真正率,真负率,证明了算法的有效性。之后再对最优网络结构的自动编码器的分类结果进行了集成学习,对有缺失值的样本特征采用了一种改进的加权投票法,进一步提高了结果的准确率。最后使用最优结构自动编码器与传统机器学习方法中的支持向量机算法,朴素贝叶斯算法进行比较,结果证明了自动编码器的有效性。之后对输入的特征向量分别采用三种归一化改进,进一步提高了识别性能。
【图文】:

模型图,模型图,波尔兹曼机,手写字符


西安科技大学硕士学位论文构得到输出特征,在重构过程中,通过编码与解码获得输入特征的本质表示。在下节将具体解释。波尔兹曼机是一种双层的神经网络,由 G.E.Hinton 等人提出,是通过学习数据固有内在表示、解决复杂学习问题最早的人工神经网络之一,之后由 Hinton 扩展去掉了玻尔兹曼机同层之间的连接,大大提高了学习效率,具体的模型结构已在上节展示过。卷积神经网络(CNN)最早是由 IeCun 等人在 1998 年提出,用于手写字符图像的识别,其网络结构如图 2.3 所示。

模型图,循环神经网络,模型图


图 2.3 卷积神经网络模型图为高级的神经网络,它与传统的神经网络仿人脑对信号处理上的分级加入了特征学输入的特征主要是二维数据,主要优点有,,使得在图像识别中能够更加准确;②图变换不会对图像信息造成损失,而是非常网络上的改进,它主要处理具有时间序列时间戳直接作用到自身,通常应用于自然体的网络结构如图 2.4 所示。
【学位授予单位】:西安科技大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP18;TP393.08

【参考文献】

相关期刊论文 前10条

1 潘广源;柴伟;乔俊飞;;DBN网络的深度确定方法[J];控制与决策;2015年02期

2 王伟平;张兵;;支持页面特征伪造识别的钓鱼网页检测方法[J];山东大学学报(理学版);2014年09期

3 孙劲光;蒋金叶;孟祥福;李秀娟;;深度置信网络在垃圾邮件过滤中的应用[J];计算机应用;2014年04期

4 宋明秋;曹晓芸;;基于敏感特征的网络钓鱼网站检测方法[J];大连理工大学学报;2013年06期

5 崔建明;刘建明;廖周宇;;基于SVM算法的文本分类技术研究[J];计算机仿真;2013年02期

6 孙志军;薛磊;许阳明;王正;;深度学习研究综述[J];计算机应用研究;2012年08期

7 丁华福;柴琳;;基于Bagging算法和遗传BP神经网络的负荷预测[J];计算机技术与发展;2011年05期

8 刘庆和;梁正友;;一种基于信息增益的特征优化选择方法[J];计算机工程与应用;2011年12期

9 张卫丰;周毓明;许蕾;徐宝文;;基于匈牙利匹配算法的钓鱼网页检测方法[J];计算机学报;2010年10期

10 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期

相关博士学位论文 前3条

1 严远亭;不完整数据集的多视角集成分类研究[D];安徽大学;2016年

2 沙泓州;面向大规模网络流量的URL实时分类关键技术研究[D];北京邮电大学;2015年

3 陈宇;基于深度置信网络的中文信息抽取方法[D];哈尔滨工业大学;2014年

相关硕士学位论文 前6条

1 邢盼盼;基于Bagging的两阶段特征选择集成分类器研究[D];郑州大学;2017年

2 马亨;基于相关性分析的自动编码器结构优化研究[D];兰州大学;2017年

3 孟令恒;自动编码器相关理论研究与应用[D];中国矿业大学;2017年

4 吴海燕;基于自动编码器的半监督表示学习与分类学习研究[D];重庆大学;2015年

5 沈尚方;钓鱼网页的深度学习智能检测方法研究[D];华北电力大学;2012年

6 王国才;朴素贝叶斯分类器的研究与应用[D];重庆交通大学;2010年



本文编号:2620162

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2620162.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b86cb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com