基于文本分析的钓鱼邮件识别方法的设计与实现
发布时间:2019-11-11 09:27
【摘要】:长久以来网络钓鱼攻击都是互联网上的一种主要的安全威胁,同时钓鱼邮件又是网络钓鱼的一种主要的攻击方式,给正常的网络用户带来巨大的经济损失,也极大地制约着互联网以及电子商务的发展。钓鱼邮件攻击的主要攻击过程为恶意攻击者利用精心编辑过的钓鱼邮件骗取受害者的邮箱或者其他账户的用户名密码从而进行其他进一步的恶意攻击行为,最终给受害者带来巨大的损失和潜在的威胁。以往的鉴别钓鱼邮件的方法基本都是基于黑白名单、网站地址链接以及视觉相似的相关方法来鉴别,本文基于文本分析折的方法设计实现了一种钓鱼邮件的识别方法,可以将该方法和电子邮箱结合起来,将其绑定在收件箱上,对收到的电子邮件进行鉴别和过滤,设计方案为首先提取普通邮件以及收集的钓鱼邮件的文本特征,通过提取新收到邮件的文本特征,进而根据从新邮件文本中提取出的特征与普通邮件和钓鱼邮件特征的相似性的对比对该邮件进行分类,从而判断邮件到底是普通邮件还是恶意攻击者冒名发送的钓鱼邮件。
【图文】:
3-13.2.关键功能模块设计逡逑3.2.1.文本处理模块设计逡逑文本处理模块用来对输入的邮件文件进行文本内容的读取,但在该模块逡逑执行前还有一个文本预处理的步骤,,目前该步骤暂时手动执行,后续希望能逡逑够支持自动化处理。文本预处理的目的是使原始的邮件文件变为可被程序直逡逑接读取的格式,主要工作是去除邮件头和邮件正文的标点符号等,将原始邮逡逑件处理为纯单词形式的文本。下面对文本处理模块的主要功能和重要原理做逡逑一下详细介绍。逡逑14逡逑
抽取出的真实钓鱼邮件。本文使用的数据集均为英文文本,因此文本的预处逡逑理可以不做分词处理直接进行词频统计,仅对文本内容的冗余信息进行处理逡逑即可,包括邮件头部信息的删除以及标点符号的处理等,原始邮件如图3-2逡逑所示。逡逑jfrtessage-ID:邋<8572706.1075855378498.邋JavaMail.邋evans@thyme>逡逑Date:邋Thu
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.098
本文编号:2559192
【图文】:
3-13.2.关键功能模块设计逡逑3.2.1.文本处理模块设计逡逑文本处理模块用来对输入的邮件文件进行文本内容的读取,但在该模块逡逑执行前还有一个文本预处理的步骤,,目前该步骤暂时手动执行,后续希望能逡逑够支持自动化处理。文本预处理的目的是使原始的邮件文件变为可被程序直逡逑接读取的格式,主要工作是去除邮件头和邮件正文的标点符号等,将原始邮逡逑件处理为纯单词形式的文本。下面对文本处理模块的主要功能和重要原理做逡逑一下详细介绍。逡逑14逡逑
抽取出的真实钓鱼邮件。本文使用的数据集均为英文文本,因此文本的预处逡逑理可以不做分词处理直接进行词频统计,仅对文本内容的冗余信息进行处理逡逑即可,包括邮件头部信息的删除以及标点符号的处理等,原始邮件如图3-2逡逑所示。逡逑jfrtessage-ID:邋<8572706.1075855378498.邋JavaMail.邋evans@thyme>逡逑Date:邋Thu
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.098
【参考文献】
相关期刊论文 前3条
1 蔺亚东;;基于URL特征的钓鱼网站检测方式[J];电子测试;2014年03期
2 彭富明;张卫丰;彭寅;;基于文本特征分析的钓鱼邮件检测[J];南京邮电大学学报(自然科学版);2012年05期
3 杨明;杜彦辉;刘晓娟;;网络钓鱼邮件分析系统的设计与实现[J];中国人民公安大学学报(自然科学版);2012年02期
相关硕士学位论文 前1条
1 殷兰芳;融合网页噪声和n-gram的钓鱼网站检测研究[D];中南林业科技大学;2015年
本文编号:2559192
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2559192.html