当前位置:主页 > 管理论文 > 移动网络论文 >

基于AdaBoost算法的网络钓鱼检测系统的研究

发布时间:2017-09-14 05:42

  本文关键词:基于AdaBoost算法的网络钓鱼检测系统的研究


  更多相关文章: 网络钓鱼 特征 机器学习 AdaBoost 代价


【摘要】:网络钓鱼通常利用邮件或者高度模仿的网页对用户进行欺诈犯罪。如今,网络钓鱼的攻击形式更加多元化,使得钓鱼攻击的防范和检测变得更加困难。据统计,近年来钓鱼攻击带来的损失呈现翻倍式的上升。因此,网络钓鱼已成为危害网络安全的最主要因素之一。它不仅降低了网络中人与人之间的信任度,而且严重阻碍了电子商务的发展。当前常见的钓鱼检测技术存在检测层面单一,信息获取不够全面等问题,因此,本文提出了一种URL黑白名单过滤结合机器学习(Ada Boost算法)分类的检测方法。主要工作如下:对待检测的网站首先经过URL黑白名单过滤,若是匹配成功作为结果输出,若是匹配失败,则进行下一步分类器的检测。通过这种检测方法,可以快速的检测出时效性较差的钓鱼网站。新形式的钓鱼网站可以通过机器学习的方法进行检测。分类器检测关键之处在于特征的如何提取。为了获得钓鱼网站足够的信息,本文从URL中提取了14个特征,从网页结构中提取了5个特征,从网页内容中提取了大量的特征用于分类器的训练和检测。特征中可能参杂着大量的噪声,以及维度较高等问题,因此,加入数据预处理模块进行降维和去除噪声。通过比较K-近邻算法、朴素贝叶斯算法、逻辑回归和Ada Boost算法的检测性能,最终选取Ada Boost算法作为本文的检测方法。由于钓鱼网站检测存在非平衡代价问题,提出一种改进算法Ada Cost Boost,实验结果表明,改进的算法在保证检测精准性的同时降低了正规网站的误判率,减小了误判带来的影响,提高了其在实际应用中的可能性。
【关键词】:网络钓鱼 特征 机器学习 AdaBoost 代价
【学位授予单位】:江西理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.08
【目录】:
  • 摘要4-5
  • Abstract5-8
  • 第一章 绪论8-14
  • 1.1 研究的背景和意义8-9
  • 1.2 国内外研究现状9-12
  • 1.2.1 基于黑白名单检测机制10
  • 1.2.2 基于网站链接检测机制10-11
  • 1.2.3 基于页面相似度检测机制11-12
  • 1.2.4 身份认证机制12
  • 1.3 研究内容和目的12-13
  • 1.4 本文组织结构13-14
  • 第二章 相关技术研究14-19
  • 2.1 网络钓鱼攻击技术14-16
  • 2.2 机器学习简介16
  • 2.3 AdaBoost算法原理16-17
  • 2.4 分词技术17-18
  • 2.4.1 正向最大匹配法17-18
  • 2.4.2 逆向最大匹配法18
  • 2.4.3 双向最大匹配法18
  • 2.5 本章小结18-19
  • 第三章 网络钓鱼检测系统的设计19-37
  • 3.1 当前网络钓鱼检测技术比较19-20
  • 3.2 系统设计流程20-21
  • 3.3 黑白名单过滤21
  • 3.4 URL中特征提取21-26
  • 3.5 网页结构中提取特征26-29
  • 3.6 网页内容中提取特征29-33
  • 3.6.1 分词处理流程30-31
  • 3.6.2 TF-IDF与特征值计算31-33
  • 3.7 数据预处理33-36
  • 3.7.1 矩阵、特征值基础知识33-34
  • 3.7.2 矩阵分解34-35
  • 3.7.3 低阶近似35-36
  • 3.8 分类器检测36
  • 3.9 人工审核36
  • 3.10 本章小结36-37
  • 第四章 分类器模型的选取37-50
  • 4.1 K-近邻算法模型37
  • 4.2 朴素贝叶斯模型37-39
  • 4.3 逻辑回归39-41
  • 4.4 分类器检测性能比较41-45
  • 4.4.1 检测主要指标42-43
  • 4.4.2 实验样本集43-44
  • 4.4.3 实验结果44-45
  • 4.5 AdaBoost算法的改进45-46
  • 4.6 实验结果与分析46-49
  • 4.6.1 非均衡性指标评价46-47
  • 4.6.2 实验数据的选取47
  • 4.6.3 训练样本集中正负样本的比例47-48
  • 4.6.4 实验结果48-49
  • 4.7 本章小结49-50
  • 第五章 总结和展望50-52
  • 5.1 论文工作总结50
  • 5.2 研究展望50-52
  • 参考文献52-55
  • 致谢55-56
  • 攻读学位期间的研究成果56-57

【共引文献】

中国期刊全文数据库 前10条

1 陈好刚;王运琼;冯乔生;王树峰;王培涌;;一种基于2DPCA和LDA的人脸表情识别算法[J];微计算机信息;2010年25期

2 刘q,

本文编号:848222


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/848222.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5ec48***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com