基于大数据分析的恶意域名检测技术研究与实现
发布时间:2020-12-12 03:16
网络安全是我们永远无法回避的话题,不法分子在互联网上常常会使用域名作为传播网络攻击的手段,比如连接木马、僵尸网络通信等。速变域名和域名生成算法等技术的应用使得网络攻击更加隐蔽、恶意域名更难被识别,域名黑名单在这种情况下作用有限,而通过分析域名的DNS数据来识别检测恶意域名成为一种更有效的方法。本文首先调研了恶意域名检测的相关技术,分析了当前恶意域名检测面临的困难,总结了目前已有的技术方案以及相关研究成果,同时研究了机器学习分类模型和大数据技术,利用HadooP、Spark、Kafka等搭建了大数据分析的基础架构。在此基础上,本文从大量DNS数据入手,利用机器学习方法构建了基于DNS行为特征的恶意域名检测模型。通过分析DNS数据的统计分布,从4个维度提取了 22个特征,通过交叉验证比较随机森林和梯度提升决策树两种分类模型,测试证明随机森林在准确率、召回率等指标上具有优势。最后,基于大数据平台设计和实现了恶意域名检测系统,并将构建的检测模型应用到系统中。系统架构的设计考虑了输入来源、数据存储、执行效率、可扩展性等一系列问题,最终划分成4个功能模块。为了保证系统能够在高速网络中保持稳定可用,...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:78 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景及意义
1.2 研究现状
1.3 研究内容
1.4 论文组织结构
第二章 相关技术研究
2.1 恶意域名检测技术分析
2.1.1 恶意域名检测面临的困难
2.1.2 恶意域名检测的技术方案
2.2 机器学习分类模型研究
2.2.1 随机森林模型
2.2.2 梯度提升决策树模型
2.3 大数据技术研究
2.3.1 Hadoop体系架构
2.3.2 Spark体系架构
2.3.3 Kafka体系架构
第三章 恶意域名检测模型的构建
3.1 数据准备
3.1.1 数据内容
3.1.2 数据标注
3.2 特征提取
3.2.1 基于时间的特征
3.2.2 基于DNS响应报文的特征
3.2.3 基于TTL的特征
3.2.4 基于域名的特征
3.3 特征选择
3.3.1 基于Sigmoid的特征选择算法
3.3.2 基于信息增益比的特征排序算法
3.3.3 特征选择过程
3.4 模型训练
3.4.1 初始训练数据处理
3.4.2 模型选择方法与评价指标
3.4.3 模型效果对比评估
3.4.4 模型泛化能力检验
第四章 恶意域名检测系统的设计
4.1 需求分析
4.1.1 功能需求
4.1.2 技术挑战
4.2 系统架构设计
4.2.1 功能架构
4.2.2 技术架构
4.2.3 数据架构
4.3 系统各模块设计
4.3.1 DNS数据获取模块
4.3.2 数据处理模块
4.3.3 模型检测模块
4.3.4 结果展示模块
4.4 数据库设计
第五章 恶意域名检测系统的实现和测试
5.1 系统运行环境配置
5.1.1 软硬件配置
5.1.2 系统接入位置配置
5.2 系统各模块实现
5.2.1 DNS数据获取模块
5.2.2 数据处理模块
5.2.3 模型检测模块
5.2.4 结果展示模块
5.3 系统测试
5.3.1 功能测试
5.3.2 性能测试
第六章 总结与展望
6.1 研究工作总结
6.2 不足和展望
参考文献
致谢
攻读学位期间发表的学术论文
【参考文献】:
期刊论文
[1]基于Passive DNS的速变域名检测[J]. 周昌令,陈恺,公绪晓,陈萍,马皓. 北京大学学报(自然科学版). 2016(03)
[2]僵尸网络研究[J]. 诸葛建伟,韩心慧,周勇林,叶志远,邹维. 软件学报. 2008(03)
[3]高速网络内容监控若干关键技术[J]. 程圣宇,白英杰,肖瀛,芦东昕. 计算机应用. 2003(S2)
硕士论文
[1]网络数据获取与协议还原系统的设计与实现[D]. 杨帆.华中科技大学 2009
[2]Fast-flux服务网络检测方法研究[D]. 汪洋.华中科技大学 2009
本文编号:2911753
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:78 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景及意义
1.2 研究现状
1.3 研究内容
1.4 论文组织结构
第二章 相关技术研究
2.1 恶意域名检测技术分析
2.1.1 恶意域名检测面临的困难
2.1.2 恶意域名检测的技术方案
2.2 机器学习分类模型研究
2.2.1 随机森林模型
2.2.2 梯度提升决策树模型
2.3 大数据技术研究
2.3.1 Hadoop体系架构
2.3.2 Spark体系架构
2.3.3 Kafka体系架构
第三章 恶意域名检测模型的构建
3.1 数据准备
3.1.1 数据内容
3.1.2 数据标注
3.2 特征提取
3.2.1 基于时间的特征
3.2.2 基于DNS响应报文的特征
3.2.3 基于TTL的特征
3.2.4 基于域名的特征
3.3 特征选择
3.3.1 基于Sigmoid的特征选择算法
3.3.2 基于信息增益比的特征排序算法
3.3.3 特征选择过程
3.4 模型训练
3.4.1 初始训练数据处理
3.4.2 模型选择方法与评价指标
3.4.3 模型效果对比评估
3.4.4 模型泛化能力检验
第四章 恶意域名检测系统的设计
4.1 需求分析
4.1.1 功能需求
4.1.2 技术挑战
4.2 系统架构设计
4.2.1 功能架构
4.2.2 技术架构
4.2.3 数据架构
4.3 系统各模块设计
4.3.1 DNS数据获取模块
4.3.2 数据处理模块
4.3.3 模型检测模块
4.3.4 结果展示模块
4.4 数据库设计
第五章 恶意域名检测系统的实现和测试
5.1 系统运行环境配置
5.1.1 软硬件配置
5.1.2 系统接入位置配置
5.2 系统各模块实现
5.2.1 DNS数据获取模块
5.2.2 数据处理模块
5.2.3 模型检测模块
5.2.4 结果展示模块
5.3 系统测试
5.3.1 功能测试
5.3.2 性能测试
第六章 总结与展望
6.1 研究工作总结
6.2 不足和展望
参考文献
致谢
攻读学位期间发表的学术论文
【参考文献】:
期刊论文
[1]基于Passive DNS的速变域名检测[J]. 周昌令,陈恺,公绪晓,陈萍,马皓. 北京大学学报(自然科学版). 2016(03)
[2]僵尸网络研究[J]. 诸葛建伟,韩心慧,周勇林,叶志远,邹维. 软件学报. 2008(03)
[3]高速网络内容监控若干关键技术[J]. 程圣宇,白英杰,肖瀛,芦东昕. 计算机应用. 2003(S2)
硕士论文
[1]网络数据获取与协议还原系统的设计与实现[D]. 杨帆.华中科技大学 2009
[2]Fast-flux服务网络检测方法研究[D]. 汪洋.华中科技大学 2009
本文编号:2911753
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2911753.html