当前位置:主页 > 管理论文 > 移动网络论文 >

被黑网站检测方法的关键技术研究

发布时间:2020-07-29 09:56
【摘要】:由于Web服务自身的特点,被黑网站可以在短时间内、各类人群中大规模传播,扩散效果极为迅速、范围极为广泛,造成的影响极为恶劣。有效地进行被黑网站的检测,特别是针对新兴的被黑网站可以进行及时检测,已成为当前网络安全研究领域的热点。被黑网站中存在网站挂马、网页制作粗糙,结构简单和内容单一、网页视觉效果与正常网页相差较大的现象,因此,本文从挂马行为、网页文本和结构以及视觉角度出发深入研究被黑网站检测的问题。首先,本文采用了基于Scrapy-redis的分布式数据获取技术,实现周期性爬取网站数据并进行更新式存储。根据对网站挂马行为的原理分析,提出了基于规则匹配的网站挂马检测方法,并构建了网站挂马知识库,检测的同时也在不断丰富网站挂马知识库。其次,提出了一种基于网页文本和结构的被黑网站检测算法。该算法提取了网页文本和结构特征,为了提高检测准确率和稳定性,采用基于SVM-RFE的特征选择算法逐渐剔除掉冗余特征来得到最优特征子集,结合SVM分类算法对网页进行分类来实现被黑网站的检测。实验结果表明,使用SVM-RFE特征选择算法结合基于SVM的被黑网站检测算法可以实现96%的准确率。再次,提出了一种基于网页截图的被黑网站检测算法。该算法使用网页截图生成技术、网页截图窗口提取技术和网页子图归一化技术来进行数据的预处理。为了减少人工提取特征的工作量,采用堆叠式自编码器自动学习截图的高维特征,并引入了卷积神经网络,提升了网页分类效果,同时采用了微调神经网络的策略,有效避免了“概念漂移”现象。实验结果表明,基于堆叠式自编码器和卷积神经网络的分类算法在被黑网站检测中的准确率和召回率都达到了90%,说明了该检测算法的稳定性。最后,基于上述的研究成果,本文设计并实现了被黑网站检测原型系统。该系统实现了数据的采集、网站挂马检测以及多角度的被黑网站检测的功能,并提出一种综合决策策略来提高检测的精度。系统测试表明,该系统在被黑网站检测中具有较好的性能。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP393.092
【图文】:

比较图,曲线分析,分类算法,性能分析


图 3-5 分类算法性能分析比较图Precision Recall F1 AccuracySVM 0.9621 0.9613 0.9614 0.9612RF 0.9262 0.9261 0.9261 0.926GBDT 0.9017 0.9014 0.9015 0.90140.870.880.890.90.910.920.930.940.950.960.97Y:百分比X:评价指标

网页,隐式调用


图 4-2 正常网页截图图 4-3 正常网页被黑之后的网页截图用 Selenium + PhantomJS 网页截图技术有以下优点:打开浏览器必须隐式调用,用户无法看到工具在做什么,从而

网页,提取技术,隐式调用,浏览器


- 36 -图 4-3 正常网页被黑之后的网页截图用 Selenium + PhantomJS 网页截图技术有以下优点:打开浏览器必须隐式调用,用户无法看到工具在做什么,从而对工具产生影响。网页截图必须截取浏览器页面正文,保证无任何冗余信息,且。网页截图窗口提取技术页截图窗口提取技术是为了得到一个固定窗口大小的网页子图

【相似文献】

相关期刊论文 前10条

1 耿磊;;起步阶段的网页信息资源长期保存[J];上海档案;2012年02期

2 王永红;;试论计算机网页设计中图形设计的处理运用[J];河北农机;2019年06期

3 陈建平;;高校重要网页信息采集归档实践探析[J];浙江档案;2017年09期

4 杨金弓;赵璐;郭森;;《网页信息展示》[J];美苑;2015年S2期

5 赵阳;;高校网页翻译特点、难点及英译经验总结[J];校园英语;2017年12期

6 王彦焱;李文超;;分类加权的TF-IDF的网页分类算法[J];数码世界;2017年07期

7 程倩楠;谭龙;李浩飞;;面向BIU的网页解析[J];科学中国人;2017年23期

8 李培丰;;基于“控制字符”网页信息的隐藏技术[J];福建电脑;2014年06期

9 周庆;;知识管理背景下网页信息档案化管理的思考[J];兰台世界;2011年15期

10 安琳;;国外网页信息存档项目及相关问题研究[J];图书馆建设;2009年12期

相关会议论文 前10条

1 李培丰;;基于“控制字符”网页信息的隐藏技术[A];中国职协2014年度优秀科研成果获奖论文集(中册)[C];2014年

2 项尚;;计算机图像处理技术在网页设计中的运用[A];教师教育论坛(第三辑)[C];2019年

3 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年

4 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年

5 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年

6 雷静;刘伟;黄道丽;;网页信息排列方式、色彩和层级深度对视觉搜索效率的影响[A];第十五届全国图象图形学学术会议论文集[C];2010年

7 张一鸣;;基于网页信息的印象形成的研究[A];第十届全国心理学学术大会论文摘要集[C];2005年

8 梅雪;程学旗;郭岩;张刚;丁国栋;;一种全自动生成网页信息抽取Wrapper的方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

9 杨震;殷俊;;移动互联网环境下适合运营商网络基础能力的搜索引擎设计研究[A];2012全国无线及移动通信学术大会论文集(下)[C];2012年

10 黄华军;王保卫;孙星明;;基于CSS类选择符重复引入的网页信息隐藏算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年

相关重要报纸文章 前9条

1 壮壮;批量保存网页信息[N];电脑报;2004年

2 本报记者 付丽丽;你的低价机票被“虫子”吃了[N];科技日报;2017年

3 钱鹏;网尽Web页中的好东东[N];电脑报;2004年

4 上海宝山政府门户网站 黄永庆;网上“领导信箱”形同虚设应问责[N];东方城乡报;2010年

5 本报记者 焦雯;为建设美丽中国锦上添花[N];中国文化报;2013年

6 陈英凤;市长信箱缘何 “机器人办公”[N];深圳商报;2010年

7 胡立彪;欺客大店别嚣张[N];中国质量报;2015年

8 王健;信息高速新生活[N];黔西南日报;2015年

9 于发修;寻找搜索的技巧[N];中国计算机报;2001年

相关博士学位论文 前6条

1 魏玉良;互联网人物摘要知识图谱构建方法研究[D];哈尔滨工业大学;2019年

2 张梦妮;面向网站无障碍评估的网页抽样方法研究[D];浙江大学;2018年

3 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年

4 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年

5 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年

6 张亚楠;基于用户行为的信任感知推荐方法研究[D];哈尔滨工程大学;2014年

相关硕士学位论文 前10条

1 武思妍;被黑网站检测方法的关键技术研究[D];哈尔滨工业大学;2018年

2 陈芊希;基于深度学习的网页分类算法研究[D];上海交通大学;2016年

3 邓钰莹;扁平化风格在网页界面设计中的应用研究[D];哈尔滨师范大学;2019年

4 赵康;面向主题的网络爬虫系统的设计与实现[D];北京邮电大学;2019年

5 岳婉琪;基于新媒体时代的企业网页界面视觉设计[D];福建师范大学;2018年

6 石健;HTTP/2加密网页识别研究[D];广州大学;2019年

7 张至先;基于视觉和语义信息的排行榜列表抓取[D];上海交通大学;2017年

8 张莹;基于DOM结构聚类的钓鱼网页检测方法研究[D];西安科技大学;2019年

9 张婷;网页设计中视觉信息传达的科学性与有效性研究[D];西北大学;2019年

10 井迪;基于Nutch的分布式爬虫系统的研究与优化[D];东北大学;2015年



本文编号:2773802

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2773802.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7c5bb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com