基于URL的钓鱼目标识别的研究
发布时间:2021-04-07 17:03
钓鱼网站是网络攻击的主要形式之一,为了维护信息安全,各类钓鱼检测技术在不断改进,但目前针对钓鱼网站攻击目标的识别缺少专门的研究和解决方法,而确定攻击目标对有针对性地提醒用户和被攻击网站,使他们提前做出防范措施,及指导未来钓鱼网站的研究方向有重要意义。研究人员主要从URL、网页特征这两个角度进行钓鱼网站识别,而对其攻击目标进行识别只是作为钓鱼检测的一个附加功能,也是从URL和网页特征中进行初步的识别,准确率较低,而且特征提取的复杂度较高。同时,攻击者也在不断更新攻击方式来逃避各种钓鱼网站识别技术。为了应对钓鱼者的检测逃避策略,同时准确识别出其意图攻击的目标,本文对此展开钓鱼目标识别的研究,本文主要内容如下:(1)提出基于URL相似性的目标识别算法。通过对URL中域名字符串的相似性分析,改进编辑距离的计算方式来识别利用填充字符实现逃避检测的钓鱼网站,另外通过确定候选目标减少编辑距离的计算次数,提高算法的整体效率。(2)提出基于URL语言特征的钓鱼网站识别算法。对于无法从URL上直接识别出目标的网站,通过分析URL蕴含的语言特征选择可以有效分类的域名特征,利用域名特征建立决策树分类模型实现对...
【文章来源】:中国矿业大学江苏省 211工程院校 教育部直属院校
【文章页数】:82 页
【学位级别】:硕士
【部分图文】:
钓鱼网站实例Figure5-1Examplesofphishingwebsites标签下是网页的主要内容,可以通过浏览器呈现给用户,里面常包含
5 基于搜索引擎的目标识别钓鱼检测,直接将整个标题内容转换成 unicode 编码形式如图 5-2 (a),或者只转换其中的敏感字符串如图 5-2 (b),仅将“paypal”转换成了 unicode 编码,这样既能迷惑用户又可以逃避检测。在对最近仍然存活的钓鱼网站进行分析时发现,这类钓鱼网站的数量不在少数,unicode 编码形式已经成为钓鱼者逃避检测的新策略。
图 5-4 准确率随 n 的变化Figure 5-4 The change of Acc with n从总体上来说,利用上述三种搜索引擎进行目标识别的准备率随 n 的增加加。其中,Yahoo 的准确率稳步增加;Google 的准确率呈波动上升趋势,这为有些钓鱼网站在 Google 的排名较高,被误判为合法网站,基于此实验结果了降低整体的误判率,在综合利用三种搜索引擎进行目标识别时,若某条记出现在 Google 的前 top-n 个返回的结果中,而未出现在另外两个搜索引擎的结果中时,仍然判断其为钓鱼网站;百度的准确率在 n=1 时明显低于另外搜索引擎,可能是因为一些网站为了获取点击量和赢利会利用各种手段提高,而官方网站的排名通常在第三名左右,当 n>3 时,百度的准确率有明显提高 n>6 时,三种搜索引擎的准确率都达到稳定状态,没有明显变化。因此综合搜索引擎的实验结果,文中将 n 的值设置为 6。4.3 性能分析1)标签对比Baidu Google Yahoo
【参考文献】:
期刊论文
[1]深度神经网络并行化研究综述[J]. 朱虎明,李佩,焦李成,杨淑媛,侯彪. 计算机学报. 2018(08)
[2]基于改进的C4.5算法对车辆加速性能分类研究[J]. 陆宝红,陈晨,曹曦文,陈眺,曾洁,史昇,宋雪桦. 软件导刊. 2018(01)
[3]一种利用关联规则挖掘的多标记分类算法[J]. 刘军煜,贾修一. 软件学报. 2017(11)
[4]短规则有效的快速多模式匹配算法[J]. 夏念,嵩天. 计算机工程与应用. 2017(07)
[5]基于页面敏感特征的金融类钓鱼网页检测方法[J]. 胡向东,刘可,张峰,林家富,付俊,郭智慧. 网络与信息安全学报. 2017(02)
[6]基于分割的字符串相似性查找算法[J]. 刘慧婷,黄厚柱,刘志中,赵鹏. 计算机科学与探索. 2018(01)
[7]基于页面布局相似性的钓鱼网页发现方法[J]. 邹学强,张鹏,黄彩云,陈志鹏,孙永,刘庆云. 通信学报. 2016(S1)
[8]基于词素特征的轻量级域名检测算法[J]. 张维维,龚俭,刘茜,刘尚东,胡晓艳. 软件学报. 2016(09)
[9]一种改进的C4.5决策树算法[J]. 王志春,刘丽娜. 电子技术与软件工程. 2016(09)
[10]决策树C4.5算法的优化与应用[J]. 苗煜飞,张霄宏. 计算机工程与应用. 2015(13)
硕士论文
[1]基于K-Means和SVM的钓鱼网站识别的研究[D]. 赵加林.西南交通大学 2016
本文编号:3123846
【文章来源】:中国矿业大学江苏省 211工程院校 教育部直属院校
【文章页数】:82 页
【学位级别】:硕士
【部分图文】:
钓鱼网站实例Figure5-1Examplesofphishingwebsites标签下是网页的主要内容,可以通过浏览器呈现给用户,里面常包含
5 基于搜索引擎的目标识别钓鱼检测,直接将整个标题内容转换成 unicode 编码形式如图 5-2 (a),或者只转换其中的敏感字符串如图 5-2 (b),仅将“paypal”转换成了 unicode 编码,这样既能迷惑用户又可以逃避检测。在对最近仍然存活的钓鱼网站进行分析时发现,这类钓鱼网站的数量不在少数,unicode 编码形式已经成为钓鱼者逃避检测的新策略。
图 5-4 准确率随 n 的变化Figure 5-4 The change of Acc with n从总体上来说,利用上述三种搜索引擎进行目标识别的准备率随 n 的增加加。其中,Yahoo 的准确率稳步增加;Google 的准确率呈波动上升趋势,这为有些钓鱼网站在 Google 的排名较高,被误判为合法网站,基于此实验结果了降低整体的误判率,在综合利用三种搜索引擎进行目标识别时,若某条记出现在 Google 的前 top-n 个返回的结果中,而未出现在另外两个搜索引擎的结果中时,仍然判断其为钓鱼网站;百度的准确率在 n=1 时明显低于另外搜索引擎,可能是因为一些网站为了获取点击量和赢利会利用各种手段提高,而官方网站的排名通常在第三名左右,当 n>3 时,百度的准确率有明显提高 n>6 时,三种搜索引擎的准确率都达到稳定状态,没有明显变化。因此综合搜索引擎的实验结果,文中将 n 的值设置为 6。4.3 性能分析1)标签对比Baidu Google Yahoo
【参考文献】:
期刊论文
[1]深度神经网络并行化研究综述[J]. 朱虎明,李佩,焦李成,杨淑媛,侯彪. 计算机学报. 2018(08)
[2]基于改进的C4.5算法对车辆加速性能分类研究[J]. 陆宝红,陈晨,曹曦文,陈眺,曾洁,史昇,宋雪桦. 软件导刊. 2018(01)
[3]一种利用关联规则挖掘的多标记分类算法[J]. 刘军煜,贾修一. 软件学报. 2017(11)
[4]短规则有效的快速多模式匹配算法[J]. 夏念,嵩天. 计算机工程与应用. 2017(07)
[5]基于页面敏感特征的金融类钓鱼网页检测方法[J]. 胡向东,刘可,张峰,林家富,付俊,郭智慧. 网络与信息安全学报. 2017(02)
[6]基于分割的字符串相似性查找算法[J]. 刘慧婷,黄厚柱,刘志中,赵鹏. 计算机科学与探索. 2018(01)
[7]基于页面布局相似性的钓鱼网页发现方法[J]. 邹学强,张鹏,黄彩云,陈志鹏,孙永,刘庆云. 通信学报. 2016(S1)
[8]基于词素特征的轻量级域名检测算法[J]. 张维维,龚俭,刘茜,刘尚东,胡晓艳. 软件学报. 2016(09)
[9]一种改进的C4.5决策树算法[J]. 王志春,刘丽娜. 电子技术与软件工程. 2016(09)
[10]决策树C4.5算法的优化与应用[J]. 苗煜飞,张霄宏. 计算机工程与应用. 2015(13)
硕士论文
[1]基于K-Means和SVM的钓鱼网站识别的研究[D]. 赵加林.西南交通大学 2016
本文编号:3123846
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3123846.html