基于模板检测的违法网站识别
本文关键词:基于模板检测的违法网站识别
更多相关文章: 违法网站识别 模板检测 HTTP POST 图分析
【摘要】:随着互联网技术的快速发展,传统的违法犯罪活动不断借助新技术改头换面,死灰复燃,对我国经济发展以及社会稳定构成极大威胁。公安部投入了大量人力来打击违法网络活动,但主要依靠民众举报和人工筛选,耗时耗力。目前主流的违法网站自动识别技术有黑名单、静态分析和动态检测。黑名单可提供快速便捷的可疑网址查询服务,但维护成本高;静态分析理论完备,技术成熟,但数据源限于静态网页数据,实时性不高;动态检测主要针对网站挂马,对于常见的诈骗、赌博类网站无效。所以目前急需实用的违法网站自动识别技术,能快速、高精度地从海量网站中识别出常见违法网站,从而达到打击网络违法犯罪的目的。针对上述现状,本文提出并实现了基于模板检测的违法网站自动识别方法和技术。该方法从检测网站模板的角度出发,结合HTTP POST特征提取、相似度模型、网站聚类、模板检测等多种技术,从海量网站中抽取违法网站模板,快速准确地识别违法网站,同时满足性能要求。首先,本文分析了常见违法网站的特征,初步提出了三种识别方案。在综合考虑研究目标和评价指标后,选用基于模板检测来识别违法网站。接着重点研究该方案的4个关键技术:1)模板检测特征的确定。以网站POST行为作为模板识别的切入点,深入分析POST中所包含的信息,提出POST特征值计算公式。2)网站相似度模型。为了提取违法网站模板和识别违法网站,基于网站POST特征值提出网站相似度模型。该模型为每个网站构造特征值集合,并采用Jaccard计算两网站相似度。3)模板抽取。根据网站间的相似度对网站聚类,从中选出违法网站聚类,借鉴TF-IDF算法,提取违法聚类中的关键POST特征值作为违法网站模板。4)模板检测。在相似度模型和违法网站模板的基础上,判断未知网站是否属于违法网站。随后,本文采用Hadoop、Map-Reduce、Hive和多线程等技术设计并实现了基于模板检测的违法网站识别系统原型。为了验证所提方案的有效性,以赌博违法网站为例,进行了三项实验。实验结果表明,本文方案能准确地识别出违法网站,通过不断调整阈值,可让精度达到100%;相比URL、HTML和语义特征,HTTP POST特征值能更准确地识别赌博网站;提出的技术框架满足性能评价指标和伸缩性,但运行时间和召回率尚有优化空间。最后,针对性能和召回率不高的问题,本文对网站聚类展开图分析研究,抽取聚类图特征,研究其中的分布模式与异常情况,并将所得发现用于优化网站相似度模型。实验结果表明,改进后的模型能较好地提高了违法网站模板抽取的效率与违法网站识别的召回率。
【关键词】:违法网站识别 模板检测 HTTP POST 图分析
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
- 摘要3-5
- ABSTRACT5-9
- 1 绪论9-17
- 1.1 研究背景9-10
- 1.2 国内外研究现状分析10-14
- 1.2.1 黑名单10-11
- 1.2.2 静态检测11-13
- 1.2.3 动态检测13-14
- 1.2.4 研究现状分析小结14
- 1.3 研究目标和内容14-16
- 1.4 论文结构16-17
- 2 总体方案和关键技术研究17-28
- 2.1 违法网站识别的总体方案17-20
- 2.1.1 违法网站的特征分析17
- 2.1.2 总体方案选择17-18
- 2.1.3 评价指标18-19
- 2.1.4 关键技术19-20
- 2.2 模板检测特征确定20-24
- 2.2.1 HTTP分析20-21
- 2.2.2 HTTP POST关键特征值提取21-24
- 2.3 网站相似度模型24-25
- 2.3.1 构建网站特征集合24
- 2.3.2 计算网站间相似度24-25
- 2.4 模板抽取25-27
- 2.4.1 网站聚类25-26
- 2.4.2 模板抽取26-27
- 2.5 模板检测27
- 2.6 本章小结27-28
- 3 原型实现和实验28-46
- 3.1 技术框架28-29
- 3.2 数据预处理模块的设计与实现29-31
- 3.3 基于Map-Reduce的网站相似度计算模块的设计与实现31-35
- 3.3.1 Map-Reduce模型和Hadoop平台31-32
- 3.3.2 技术实现32-35
- 3.4 违法网站模板抽取模块的设计与实现35-36
- 3.5 违法网站识别模块的设计与实现36-38
- 3.6 实验38-44
- 3.6.1 实验环境38-39
- 3.6.2 实验数据39
- 3.6.3 实验一39-41
- 3.6.4 实验二41-43
- 3.6.5 实验三43-44
- 3.7 本章小结44-46
- 4 基于聚类图分析的网站相似度模型优化46-58
- 4.1 图分析的相关工作46-47
- 4.2 研究步骤47-48
- 4.3 提取图特征48-49
- 4.4 模式与异常49-54
- 4.4.1 模式49-52
- 4.4.2 异常52-54
- 4.5 模型改进54-56
- 4.6 实验四56
- 4.7 本章小结56-58
- 5 总结与展望58-60
- 5.1 本文工作小结58-59
- 5.2 展望59-60
- 参考文献60-63
- 致谢63-64
- 攻读学位期间发表的学术论文64-66
【相似文献】
中国期刊全文数据库 前10条
1 徐海丽;王洋;杨文军;吴道庆;;一种基于熵的距离像模板库建立方法[J];现代雷达;2008年02期
2 陈希明,葛宝臻,张以谟;相关峰实时模板判别方法的研究[J];光电子·激光;1997年05期
3 苏子伟;;如何理解C++模板[J];软件工程师;2014年02期
4 蔡辉,孟飞;如何在程序开发中正确应用C++模板库[J];微型电脑应用;2002年09期
5 刘晓平;毛峥强;;面向对象的协同模板分类模型研究[J];工程图学学报;2007年01期
6 徐清华;魏小磊;李中良;;基于模板库的自动图像对象分割方法研究[J];舰船电子工程;2014年05期
7 胡睿;;基于模板的图像内容检索新算法[J];电子技术与软件工程;2014年13期
8 张兴东,张鸿雁;C++中的标准模板库[J];计算技术与自动化;2000年03期
9 胡琪波;何卫平;董蓉;李亚杰;王伟;;可重用MES模板检索技术研究[J];锻压装备与制造技术;2010年03期
10 林贤明,李堂秋,史晓东;基于模板的机器翻译系统中模板库的自动构建技术[J];计算机应用;2004年09期
中国重要会议论文全文数据库 前7条
1 王建军;李红燕;唐绿岸;应莺;薛明;;基于模板的构件重用和动态模式修改策略[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
2 杨二宝;吕学强;朱靖波;姚天顺;;一种汉英翻译模板提取方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 刘铁锐;游涛;李伟光;;模板、单构件方式开发工程量统计软件[A];第十四届全国工程设计计算机应用学术会议论文集[C];2008年
4 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 毛峥强;路强;刘晓平;;基于协同模板的面向对象分类模型[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(下册)[C];2006年
6 卢伟;荣明;李小龙;王钦钊;;虚拟士兵外观多样化仿真研究[A];'2010系统仿真技术及其应用学术会议论文集[C];2010年
7 张学;黄德根;;EBMT中翻译模板的抽取与匹配[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国重要报纸全文数据库 前3条
1 第七乐章;制作个性化的课件模板[N];中国电脑教育报;2004年
2 河南 EVAer;轻松打造精美LOGO[N];电脑报;2004年
3 仲勇;用金山文字制作请款单[N];中国电脑教育报;2004年
中国硕士学位论文全文数据库 前9条
1 张瀚珑;基于模板检测的违法网站识别[D];上海交通大学;2015年
2 崔晓;可重构运算系统的多媒体处理算法模板库研究[D];上海交通大学;2011年
3 郜嵘;多媒体同步编辑器中模板功能的设计与实现[D];北京邮电大学;2010年
4 官晓冲;应用于C++模板的重构的研究与实现[D];西安电子科技大学;2004年
5 吴小川;泛化的基于实例方法的汉语维吾尔语模板库的构建[D];新疆大学;2012年
6 张学;EBMT系统中翻译模板的抽取与匹配[D];大连理工大学;2006年
7 李涛;电子商务开发模板的应用[D];中国地质大学(北京);2006年
8 赵健;基于模板定制的弹箭零件参数化工艺设计及系统研究[D];中北大学;2013年
9 韩亚冬;协同环境下基于模板的机器翻译技术的研究[D];沈阳航空航天大学;2012年
,本文编号:828941
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/828941.html