基于K-Means和SVM的钓鱼网站识别的研究
本文关键词:基于K-Means和SVM的钓鱼网站识别的研究
【摘要】:传统的单纯基于URL黑名单识别方式在今天海量的钓鱼网站面前以显得力不从心,必须配合其他识别方式才能很好地工作。随后出现了许多新的识别方法,比如基于网页结构的识别方法,但是语言表达方式的多样性使得此种方法相当不可靠,几乎不可用。而基于图像识别的钓鱼网站识别方式衍生出多种识别方法,但是受制于图像识别本身的缺陷,其在识别时需要做到精确匹配,那么就要求钓鱼网站和被模仿的网站完全相似。因此对一大部分假冒购物网站就不能做到很好的识别,且工作时速度很慢。基于朴素贝叶斯的识别方法由于原理的限制使得工作时的效果不稳定,因此我们在这里探究新的使用K-Means与SVM相结合的算法,利用K-Means的优点,在识别网站之前对其进行一个分组,如果待识别网站是容易被模仿的钓鱼网站类型,那么就使用对应组别的特征参数对其进行识别即可。同时结合传统的URL黑名单机制和网页灰度匹配模块,这样就可以避免将新建立的部分合法网站错误识别为钓鱼网站。而要完成此种识别方式,总共完成了四部分的工作,即:一是流行样本库,专门收集当季典型流行钓鱼网站,于此同时获取网页有效内容并对其进行分词、删除停用词等操作并且分析总结出网站的一系列典型特征;二是对获取到的网页进行分组,并使用分析得到的特征建立样本模板;三是分组完毕后使用SVM分类算法对特征进行选取,获取有效的特征;四是在访问目标链接时实时收集目标网站的各个特征,然后使用SVM算法对其计算信誉度。通过这四部分的工作组成了钓鱼网站识别的完整流程。
【关键词】:K-Means算法 SVM 钓鱼网站 分类
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.092
【目录】:
- 摘要6-7
- Abstract7-10
- 第1章 绪论10-19
- 1.1 研究意义10-13
- 1.2 国内外反钓鱼机构现状13-15
- 1.3 反钓鱼技术的研究现状15-17
- 1.4 本论文主要研究内容17
- 1.5 本文组织结构17-19
- 第2章 钓鱼网站特征分析及检测原理19-30
- 2.1 钓鱼网站传播方式19
- 2.2 常见几类钓鱼网站19-24
- 2.3 反钓鱼系统改进思路24
- 2.4 聚类中心的获取24-26
- 2.4.1 K-Means算法25
- 2.4.2 基于模拟退火算法的K-Means算法25-26
- 2.5 SVM算法26-29
- 2.5.1 SVM算法简介26
- 2.5.2 SVM工作的核心思路26-29
- 2.6 本章小结29-30
- 第3章 新型钓鱼网站识别模块设计30-42
- 3.1 目标网站的获取及内容处理30-33
- 3.2 计算网页之间的相似度33-35
- 3.3 网站特征提取35-38
- 3.4 K-Means与SVM相结合38-40
- 3.5 基于模拟退火的K-Means40-41
- 3.6 本章小结41-42
- 第4章 系统设计42-51
- 4.1 系统结构42-49
- 4.1.1 URL黑名单匹配模块42-43
- 4.1.2 样本及特征收集模块43-45
- 4.1.3 保存文本过程中网页编码转换45
- 4.1.4 聚类及分组模块45-46
- 4.1.5 计算域名相似度46-47
- 4.1.6 计算灰度相似度47-48
- 4.1.7 SVM模块48
- 4.1.8 系统完整工作流程48-49
- 4.2 缩放特征49-50
- 4.3 特征选择50
- 4.4 本章小结50-51
- 第5章 实验结果及分析51-55
- 5.1 实验条件51
- 5.2 实验结果51-53
- 5.3 实验结果分析53-54
- 5.4 本章小结54-55
- 结论55-56
- 致谢56-57
- 参考文献57-61
- 攻读硕士学位期间发表的论文及科研成果61
【相似文献】
中国期刊全文数据库 前10条
1 贾敬华;;整治钓鱼网站还需从长计议[J];互联网天地;2010年10期
2 ;“假苹果”、“假赌博”钓鱼网站肆虐[J];电脑爱好者;2010年23期
3 程科;;新型电信诈骗:“钓鱼网站”初探[J];中国公共安全(学术版);2011年03期
4 周耀鹏;;浅谈钓鱼网站的技术原理及防护[J];黑龙江科技信息;2011年29期
5 ;四招轻松识破假冒钓鱼网站[J];计算机与网络;2011年02期
6 李倩;;钓鱼网站技术与防护[J];硅谷;2012年01期
7 李群;;反钓鱼联盟累计处理钓鱼网站7万个,呈三大特点[J];网络与信息;2012年02期
8 ;今年上半年我国共处理13923个钓鱼网站[J];金融科技时代;2012年08期
9 ;识破钓鱼网站避免上当的几个方法[J];计算机与网络;2013年01期
10 ;警惕无孔不入的钓鱼网站[J];微电脑世界;2013年07期
中国重要会议论文全文数据库 前1条
1 李晨;陈星霖;;一种多阶段控制方法在对抗钓鱼攻击中的应用[A];第26次全国计算机安全学术交流会论文集[C];2011年
中国重要报纸全文数据库 前10条
1 方辉;钓鱼网站为何泛滥[N];人民邮电;2010年
2 记者 程武;支付交易类钓鱼网站激增[N];中华工商时报;2010年
3 乔锐;三季度钓鱼网站数量急剧增多[N];人民邮电;2010年
4 本报记者 周静;钓鱼网站半年钓走120亿 亚运门票销售被盯上[N];通信信息报;2010年
5 记者 李雪昆;10月钓鱼网站数量同比增八成[N];中国新闻出版报;2010年
6 本报记者 陈邓新;钓鱼网站量产的秘密[N];电脑报;2010年
7 本报记者 杜峰;钓鱼网站借“月饼”偷网银 谁为网购添加安全锁?[N];通信信息报;2011年
8 本报记者 李艺玲;节前钓鱼网站频频放饵 消费者网上购票谨防被骗[N];通信信息报;2011年
9 雷文君;钓鱼网站手段花样不断翻新[N];人民邮电;2011年
10 本报记者 赵海霞;微博钓鱼网站玩“潜伏” 用户小心提防勿上钩[N];通信信息报;2011年
中国硕士学位论文全文数据库 前10条
1 程思宇;客户端钓鱼网站智能检测系统的设计与实现[D];华北电力大学;2015年
2 殷兰芳;融合网页噪声和n-gram的钓鱼网站检测研究[D];中南林业科技大学;2015年
3 赵加林;基于K-Means和SVM的钓鱼网站识别的研究[D];西南交通大学;2016年
4 刘昂;基于文本匹配的钓鱼网站检测系统的设计和实现[D];北京邮电大学;2013年
5 初一;基于Web页面特征的反钓鱼系统的设计与实现[D];北京邮电大学;2014年
6 马亚燕;基于专家知识库的反钓鱼系统的设计与实现[D];北京邮电大学;2014年
7 朱百禄;基于Web社区的钓鱼网站检测研究[D];天津理工大学;2013年
8 谭光林;反钓鱼系统的研究与设计[D];北京邮电大学;2013年
9 杨明星;基于登录页面及Logo图标检测的反钓鱼方案[D];太原理工大学;2015年
10 李涛贤;基于最近邻及相似度测量检测钓鱼网页技术的研究[D];南京邮电大学;2012年
,本文编号:561371
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/561371.html