基于视觉特征的钓鱼网页相似性计算技术研究
发布时间:2017-05-18 02:06
本文关键词:基于视觉特征的钓鱼网页相似性计算技术研究,由笔耕文化传播整理发布。
【摘要】:钓鱼攻击已经发展成为在线交易、电子商务及网络信息安全的主要威胁。它对用户和企业造成了严重的经济和信任危机,不仅危害了人们的利益、影响了人们的生活,而且影响了电子商务市场的发展。钓鱼网站由于制作成本低,存在设计简陋、源码不规范、网站模板化的特征,且与仿冒的官网在视觉角度具有高相似性。为了有效地应对钓鱼技术的攻击,设计新的钓鱼网页检测方案,及时有效的发现钓鱼网站具有重要意义。首先,本文从视觉角度入手提出了一种提取网页视觉签名的方法,并给出了根据视觉签名相似性计算网页相似性的计算方法;然后通过分别获取网页中的图片、视觉块等基本元素,并抽取元素的纹理、位置和文本特征组成网页的视觉签名元素;最后基于EMD算法计算网页视觉签名的相似度,结合特征库进行网页钓鱼倾向性判断和钓鱼目标网站识别。然后,本文从Logo局部篡改角度入手,设计了基于位置信息的SVM分类器,对网页中的图片进行分类,分类准确率达到96.5%,并设计了划分Logo图像提取全局纹理特征的方法。本文以页面中子图为描述网页的基本单位,子图间位置关系是评价网页视觉相似度的重要依据,提出了一种二进制位置表示方法,在保证有效性的同时降低了存储空间和计算复杂度。最后,本文基于视觉特征的网页相似性计算方法,设计并实现了钓鱼网页检测系统。系统对钓鱼网站实例样本集进行测试,准确率达到88.64%。实验结果证明了基于视觉特征计算网页相似性检测钓鱼网页的有效性。
【关键词】:钓鱼网页 签名元素 视觉特征 相似性计算
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
- 摘要4-5
- Abstract5-8
- 第1章 绪论8-15
- 1.1 课题研究背景和意义8-9
- 1.2 国内外研究现状9-13
- 1.2.1 基于URL的钓鱼网站检测9-10
- 1.2.2 基于内容特征的钓鱼网站检测10-12
- 1.2.3 基于视觉特征的钓鱼网站检测12-13
- 1.3 本文工作内容及组织结构13-15
- 第2章 网页相似性计算相关技术研究15-22
- 2.1 页面DOM树还原技术15-16
- 2.2 VIPS页面视觉块划分技术16-18
- 2.3 图像感知哈希技术18-19
- 2.4 EMD距离算法19-21
- 2.5 本章小结21-22
- 第3章 网页视觉特征生成方法22-45
- 3.1 视觉块签名元素的生成方法22-26
- 3.1.1 网页视觉块生成算法22-24
- 3.1.2 算法测试与分析24-26
- 3.2 图片签名元素的生成方法26-31
- 3.2.1 标准图片的获取方法26-27
- 3.2.2 合成图片的切取方法27-29
- 3.2.3 算法测试与分析29-31
- 3.3 签名元素分类器设计31-37
- 3.3.1 支持向量机分类器简介32-33
- 3.3.2 签名元素分类器设计33-35
- 3.3.3 测试与分析35-37
- 3.4 基于签名元素的网页视觉特征的生成37-44
- 3.4.1 签名元素的纹理特征生成38-40
- 3.4.2 签名元素的位置特征生成40-42
- 3.4.3 算法测试与分析42-44
- 3.5 本章小结44-45
- 第4章 网页相似性计算方法45-59
- 4.1 签名元素视觉特征的相似性计算45-51
- 4.1.1 视觉特征相似性计算45-47
- 4.1.2 算法测试与分析47-51
- 4.2 基于图片签名元素的网页相似性计算51-55
- 4.2.1 基于图片的相似性计算51-53
- 4.2.2 算法测试与分析53-55
- 4.3 基于视觉块签名元素的网页相似性计算55-58
- 4.3.1 基于视觉块的相似性计算55-56
- 4.3.2 算法测试与分析56-58
- 4.4 本章小结58-59
- 第5章 钓鱼网页检测系统的实现与测试分析59-76
- 5.1 钓鱼网页检测系统的整体结构设计59-60
- 5.2 图片签名元素生成模块设计与实现60-62
- 5.3 视觉块签名元素生成模块设计与实现62-64
- 5.4 网页签名元素分类模块设计与实现64-65
- 5.5 视觉特征提取与存储模块设计与实现65-67
- 5.6 网页相似性计算模块设计与实现67-68
- 5.7 系统整体测试与分析68-75
- 5.7.1 系统测试环境68-69
- 5.7.2 测试数据分析69-72
- 5.7.3 系统测试结果分析72-75
- 5.8 本章小结75-76
- 结论76-77
- 参考文献77-81
- 攻读硕士学位期间发表的论文及其他成果81-83
- 致谢83
【参考文献】
中国期刊全文数据库 前1条
1 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期
本文关键词:基于视觉特征的钓鱼网页相似性计算技术研究,,由笔耕文化传播整理发布。
本文编号:374909
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/374909.html