一种基于堆叠模型的钓鱼网站检测方法

发布时间：2021-03-21 19:34

　　随着互联网的高速发展,上网冲浪、浏览网页成为人们日常生活中越来越重要的习惯。不法分子通过假冒知名网站的登录页面,诱骗用户进行登录操作,进而获取用户的隐私信息,这种行为被称为网络钓鱼攻击。近年来,网络钓鱼攻击的数量呈现出惊人的增长趋势,在攻击形式上出现了很多变化。网络钓鱼攻击具有欺骗性强、针对性高和时效性短等特点,这些特点使得没有接受过网络钓鱼知识科普的人很难人为的识别钓鱼网站。在钓鱼网站检测领域中,目前在工业界应用最为广泛的是黑白名单加规则的方法。但是,钓鱼网站一般存活时间很短,这使得维护一个数量庞大且具有时效性的黑白名单数据库成本很高;另外,人为设定的规则很容易被钓鱼者通过其他方法来绕开规则的检测。近年来,在学术界研究最广泛的方法是通过机器学习的方法来检测钓鱼网站。这类方法具有准确率高,鲁棒性强等优点。但是,要训练机器学习模型,需要大量的数据,目前来说,有关钓鱼网站的公开数据集非常稀少;另外,过于复杂的系统识别的速度比较慢,做不到实时检测。为了应对上述问题,本文提出了一种基于堆叠（stacking）模型的使用多源特征的钓鱼网站检测方法。该方法能实时检测钓鱼网站,并且能识别钓鱼网站的假...

【文章来源】：广东工业大学广东省

【文章页数】：65 页

【学位级别】：硕士

【部分图文】：

一种基于堆叠模型的钓鱼网站检测方法

钓鱼网页中标题品牌名和URL品牌名不一致Fig.2.4InconsistentbetweentitlebrandandURLbrandinphishingwebpage

长度分布,长度分布,数据集,网页

文方法的有效性；接下来讨论模型中一些参数的设置以及对比特征的有效性和重要性；最后对提出的假冒目标识别方法进行实验评估。4.1 数据集及性能指标介绍4.1.1 数据集1）2K 钓鱼检测数据集（2K-PD）这个小数据集包含 2000 个网页，数据内容包括网页的 URL、HTML 文档以及网页的页面截图，其中有 1000 个正常网页和 1000 个钓鱼网页。正常网页收集的是Alexa 网站7上排名从 100000 到 101000 的网页，钓鱼网页收集的是 Phishtank 上已被验证为钓鱼网页的，日期从 2017 年 7 月 12 日到 2017 年 7 月 15 日。数据集的URL 长度分布如图 4-1 所示。

长度分布,长度分布,数据集,网页

第四章实验评估及分析2）50K 钓鱼检测数据集（50K-IPD）这个较大规模的数据集包含 53103 个网页的 URL、HTML 文档以及网页的页面截图，其中有 28320 个正常网页和 24789 个钓鱼网页。为了使正常网页的 URL 长度分布和钓鱼网页的 URL 长度分布不要相差太大，对于正常网页的收集，本文首先按照 Alexa 排名在 10000 到 15000 收集了 5000 个正常网页，剩下的 23320 个是从这些网页的超链接收集到的。这样收集的原因是正常网页里面的链接通常不会指向钓鱼网页。钓鱼网页同样收集的是 Phishtank 上已被验证为钓鱼网页的，日期从 2009年 6 月到 2017 年 2 月。50K-IPD 数据集的 URL 长度分布如图 4-2 所示。

本文编号：3093430

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3093430.html

上一篇：基于混沌和DNA编码的图像加密算法研究
下一篇：非结构化文本上领域本体的抽取

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|