分布式恶意网站检测模型研究
发布时间:2017-05-15 16:24
本文关键词:分布式恶意网站检测模型研究,由笔耕文化传播整理发布。
【摘要】:互联网的出现给经济发展带来了新的机遇,但也带来了新的挑战。就在人们对互联网的依赖越来越深的同时,数以百万计的不法分子正在互联网上通过恶意网站进行诈骗和传播恶意软件,这些非法行为无时无刻不威胁着人们的隐私和财产安全。为了保护普通用户的合法权益,恶意网站的检测方法应运而生。然而在黑客技术飞速更新和大数据大行其道的当下,传统的检测方法存在着很多局限性。由此,该文提出了一种基于在线学习的分布式恶意网站检测模型,其主要的工作内容如下:(1)对恶意网站检测方法进行了深入研究分析,分析了现有检测方法的局限性和不足,并重点分析了基于机器学习的恶意网站检测方法;(2)对恶意网站特征进行了详细分析,提出了一种基于WOE算法的域名注册机构特征提取方法。该方法仅使用一个特征来表示不同域名注册机构对恶意网站的相关度,不仅降低了特征向量维度,还可以有效适应新注册机构出现的情况;(3)对在线学习算法进行了深入分析和研究,提出了一种改进的学习率选取方法。该方法采用多维学习率,为每一个特征设置不同的学习率,并根据恶意特征的检出情况来单独进行动态调整,避免了使用统一学习率而导致对低检出率特征学习不足的问题,从而提高了检测效果;(4)对分布式并行策略进行了分析,提出了一种基于特征切分的分布式在线学习模型。该模型将特征的提取以及在线学习的训练过程分布到多台机器之上,具有较好的横向扩展能力,达到了处理大数据的目的。基于以上研究,该文采用Java作为开发语言,设计和实现了基于在线学习算法的分布式恶意网站检测系统,该系统包括特征提取模块,在线学习和预测模块以及WEB交互模块。且通过实验对系统进行了性能分析,实验结果论证了该系统的有效性、正确性和实用性。
【关键词】:恶意网站 在线学习 机器学习 分布式
【学位授予单位】:重庆理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
- 摘要4-5
- ABSTRACT5-9
- 1 绪论9-18
- 1.1 课题背景与研究意义9-10
- 1.2 国内外研究现状10-16
- 1.2.1 特征匹配10-12
- 1.2.2 蜜罐技术12-14
- 1.2.3 机器学习14-16
- 1.2.4 其他方法16
- 1.3 本文的研究内容16
- 1.4 本文的组织结构16-18
- 2 机器学习基础18-25
- 2.1 机器学习的基本概述18-19
- 2.2 常用的分类算法19-23
- 2.2.1 朴素贝叶斯(Naive-Bayesian)19-20
- 2.2.2 K最近邻算法(K-Nearest-Neighbor,KNN)20-21
- 2.2.3 Logistic回归(Logistic-Regression)21-23
- 2.3 本章小结23-25
- 3 基于在线学习的恶意网站检测方法25-42
- 3.1 特征提取25-30
- 3.1.1 HTML特征25-26
- 3.1.2 JavaScript特征26-27
- 3.1.3 URL和主机特征27-29
- 3.1.4 基于WOE算法的域名注册机构特征提取方法29-30
- 3.2 在线学习算法30-36
- 3.2.1 Perceptron算法31-32
- 3.2.2 CW(Confidence-Weighted)算法32-33
- 3.2.3 OGD(Online-Gradient-Descent)算法33-34
- 3.2.4 对OGD算法学习率的改进34-36
- 3.3 对比实验36-40
- 3.3.1 实验数据36-37
- 3.3.2 实验环境37
- 3.3.3 在线学习算法对比实验37-39
- 3.3.4 改进OGD学习率后的效果39-40
- 3.4 本章小结40-42
- 4 分布式系统设计与实现42-54
- 4.1 并行策略42-43
- 4.2 分布式在线学习算法43-44
- 4.3 系统设计与实现44-50
- 4.3.1 特征提取模块45-47
- 4.3.2 在线学习和预测模块47-49
- 4.3.3 WEB交互模块49-50
- 4.4 对比实验50-52
- 4.4.1 实验数据50
- 4.4.2 实验环境50
- 4.4.3 采用分布式架构后的效果50-52
- 4.5 本章小结52-54
- 5 总结与展望54-56
- 5.1 全文总结54-55
- 5.2 展望55-56
- 致谢56-58
- 参考文献58-62
- 个人简历、在学期间发表的学术论文及取得的研究成果62
【参考文献】
中国硕士学位论文全文数据库 前2条
1 魏为;基于内容的网页恶意代码检测的研究与实现[D];华中科技大学;2011年
2 张小康;基于数据挖掘和机器学习的恶意代码检测技术研究[D];中国科学技术大学;2009年
本文关键词:分布式恶意网站检测模型研究,,由笔耕文化传播整理发布。
本文编号:368299
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/368299.html