面向日志分类的蚁群聚类算法研究
发布时间:2017-04-12 02:01
本文关键词:面向日志分类的蚁群聚类算法研究,由笔耕文化传播整理发布。
【摘要】:随着人们对于网络依赖程度的加深,网络安全中的问题以及个人信息和隐私的保护受到了广泛关注,成为研究的热点问题。网络中的设备如服务器主机、防火墙、交换机、路由器等都会记录日志,通过对日志数据的分析来发现网络中的异常行为是研究网络安全的一种重要方法。 数据挖掘为从大量数据中搜索关联信息提供了方法。在数据挖掘中,蚁群聚类算法是一种优秀的聚类算法,可以在不具备任何先验知识的情况下实现自主聚类,并且具有灵活性、健壮性和可视化等优点。但是,由于蚁群聚类算法的聚类时间花费较长,在聚类效率和聚类的准确率上都还有很多改进和提高的空间。在日志分析领域,对蚁群聚类算法的研究也很少。日志文本有其自身的特点,如果针对日志文本的特点有效地将日志文本转化为向量,将更有利于聚类的划分。 针对以上这些问题,本文对蚁群聚类算法进行了深入的研究,并对算法提出改进。本文首先结合日志文本的特点,提出一种新的将日志转换为向量的方法,该方法使转换后的向量尽量保留了原始日志文本中词的信息。本文从两个方面改进蚁群聚类算法。第,为蚁群设置记忆,记录最近被成功放下的对象及其位置信息,减少了离群点和错分点的数量,提高了聚类的准确率和效率。第二,增加对象适应度列表,改进蚂蚁拾取对象策略,提高了聚类质量。 最后,在实验中通过对比不同算法对日志数据集进行聚类的结果,验证了改进的有效性。本文中改进后的算法在时间花费可以接受的情况下,聚类准确率和聚类质量都大幅提高。
【关键词】:数据挖掘 蚁群聚类 日志分类 集群智能
【学位授予单位】:华东理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13;TP393.08
【目录】:
- 摘要5-6
- Abstract6-9
- 第1章 绪论9-16
- 1.1 研究背景9-10
- 1.2 研究现状10-13
- 1.2.1 使用频繁项集建立日志分类器10-11
- 1.2.2 日志时间序列算法的研究11-12
- 1.2.3 蚁群聚类算法的研究12-13
- 1.3 研究内容和目标13-14
- 1.3.1 日志文本到向量模型转换的研究13
- 1.3.2 蚁群聚类算法的研究13-14
- 1.4 本文的组织结构14-16
- 第2章 日志数据挖掘概述16-28
- 2.1 网络环境及日志的采集16-18
- 2.2 日志数据挖掘算法介绍18-22
- 2.2.1 Apriori算法18-19
- 2.2.2 FP-tree算法19-20
- 2.2.3 基于距离的异常检测方法20-22
- 2.3 蚁群聚类相关算法22-27
- 2.3.1 蚁群聚类算法22-24
- 2.3.2 蚁群聚类算法与其他算法相结合24-27
- 2.4 本章小结27-28
- 第3章 日志文本向量化研究28-37
- 3.1 文本检索简介28-34
- 3.1.1 索引28-30
- 3.1.2 创建索引30-34
- 3.2 根据日志文本索引建立向量34-36
- 3.2.1 日志向量的建立过程34-35
- 3.2.2 加权方式的比较35-36
- 3.2.3 距离公式的选取36
- 3.3 本章小结36-37
- 第4章 蚁群聚类算法的改进37-46
- 4.1 蚂蚁记忆改进为蚁群记忆37-41
- 4.1.1 存在的问题37-40
- 4.1.2 为算法设置蚁群记忆40-41
- 4.2 设置对象适应度列表41-45
- 4.2.1 原算法中存在的问题41-42
- 4.2.2 设置对象适应度列表的改进方法42
- 4.2.3 算法的改进在系统中的实现42-45
- 4.3 本章小结45-46
- 第5章 实验及分析46-58
- 5.1 日志采集及预处理46-49
- 5.1.1 日志采集系统46-48
- 5.1.2 日志转换为向量48-49
- 5.2 聚类结果处理及评价49-51
- 5.2.1 实验结果的处理49-50
- 5.2.2 实验评价指标50-51
- 5.3 实验结果及分析51-57
- 5.4 本章小结57-58
- 第6章 总结与展望58-60
- 6.1 本文总结58-59
- 6.2 展望59-60
- 参考文献60-63
- 致谢63
【参考文献】
中国期刊全文数据库 前1条
1 段丹青;陈松乔;杨卫平;;基于SVM主动学习的入侵检测系统[J];计算机工程;2007年01期
本文关键词:面向日志分类的蚁群聚类算法研究,,由笔耕文化传播整理发布。
本文编号:300434
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/300434.html