基于文本分类技术的漏洞分类
发布时间:2017-08-21 23:39
本文关键词:基于文本分类技术的漏洞分类
【摘要】:伴随着信息技术的飞跃发展,计算机应用的不断普及,人们的生产生活已经无法离开这个不可或缺的工具。随之而来的则是计算机和网络所带来的安全问题。计算机和网络的安全问题成为近几年来信息安全领域中的研究热点。计算机上的操作系统和应用软件中存在的安全漏洞则成为计算机和网络安全的罪魁祸首。同时,由于近几年来计算机上的安全漏洞呈现爆炸式的增长,如何有效地对已存在的漏洞进行分类,则成为计算机漏洞有效管理的瓶颈。本文的主要工作是针对漏洞分类技术的研究,将文本分类技术作为漏洞分类技术的支撑,故而漏洞分类以漏洞文本为依据;同时深入学习了机器学习中有关信息熵的相关理论知识,为下文提出的基于模糊熵的漏洞文本特征提取算法和基于类别熵的二叉树多类支持向量机的漏洞分类算法做理论支撑。最后通过收集国际通用的公共漏洞和暴露(CVE)列表中的相关漏洞文本信息和参考国际上通用的弱点枚举(CWE)对漏洞分类类别的定义,结合二者为本文的漏洞分类实验做数据支撑。具体工作如下:(1)给出了计算机漏洞的定义和漏洞分类的原理;深入分析文本分类的特点和文本分类的六个步骤;深入研究了机器学习中的有关本文所使用的分类算法。(2)将信息熵理论和模糊集理论结合起来,阐述了模糊熵的概念,并将模糊熵应用于漏洞文本特征的提取中,提出基于模糊熵的漏洞文本特征提取算法。根据此算法将计算出的每个特征的模糊熵值按升序排列,取熵值较小的特征组成特征子集,并对特征子集中的特征进行加权后构成漏洞向量空间。通过实验与其他两种常见的且特征提取效果良好的提取算法进行分类对比实验,进而体现本文提出的特征提取算法的优越性和先进性。(3)将类别熵和二叉树在分类中的优点结合起来,提出基于类别熵的二叉树多类SVM的分类算法,并将此算法应用于漏洞分类中。同时为了可以通过计算漏洞类别的熵值来量化样本分布的混乱程度,还定义漏洞类别的最小超球体和延伸超球体这两个概念来分别描述某一类别的漏洞样本空间中的聚集程度和与其周边不同漏洞类别的样本的混乱程度。(4)最后从CVE列表中收集到3000个漏洞作为实验数据,取出其中的2500个漏洞作为训练基于类别熵的二叉树多类SVM的分类算法的训练样本,剩余的用于测试分类模型的测试样本。通过与基于KNN和基于二叉树多类SVM的漏洞分类算法进行对比实验,验证本文提出的漏洞分类算法的准确性和先进性。测试实验结果表明,本文提出的漏洞分类的平均正确率高达93.3%。本文的研究成果能够大大提高漏洞的修复和分析等管理的效率,能够最大限度的减少计算机漏洞管理所需要的人力物力,故而具有一定的应用研究价值。
【关键词】:漏洞分类 机器学习 模糊熵 类别熵
【学位授予单位】:贵州师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1;TP393.08
【目录】:
- 摘要5-7
- Abstract7-11
- 第一章 绪论11-15
- 1.1 课题来源11
- 1.2 课题的背景11-12
- 1.3 课题研究的目的和意义12
- 1.4 国内外研究概况12-13
- 1.5 本文的研究内容13-14
- 1.6 本章小结14-15
- 第二章 漏洞分类15-21
- 2.1 漏洞分类的理论基础15-16
- 2.1.1 计算机漏洞的定义15
- 2.1.2 漏洞分类的原理15-16
- 2.2 文本分类16-17
- 2.2.1 文本分类的特点16
- 2.2.2 文本分类的流程16-17
- 2.3 机器学习(Machine Learning, ML)17-20
- 2.3.1 机器学习的定义17
- 2.3.2 机器学习中的相关算法简介17-20
- 2.4 本章小结20-21
- 第三章 基于模糊熵的漏洞文本特征提取算法21-27
- 3.1 常见的特征提取算法21-22
- 3.1.1 文本频数(DF)21
- 3.1.2 2c统计量21-22
- 3.2 模糊理论22
- 3.3 隶属度函数的设计22-23
- 3.4 模糊熵的计算23-24
- 3.5 基于模糊熵的漏洞特征选择算法24
- 3.6 实验对比与分析24-26
- 3.6.1 实验数据的来源24-25
- 3.6.2 实验步骤25
- 3.6.3 实验结果的对比25-26
- 3.6.4 实验结果分析26
- 3.7 本章小结26-27
- 第四章 基于类别熵的二叉树多类SVM的漏洞分类算法27-32
- 4.1 类别熵27
- 4.2 构建基于类别熵的二叉树27-28
- 4.2.1 传统的二叉树构建27-28
- 4.2.2 基于类别熵的二叉树的构建思路28
- 4.3 基于类别熵的二叉树多类SVM的漏洞分类算法28-31
- 4.3.1 算法的相关说明28-30
- 4.3.2 构建分类算法30-31
- 4.4 本章小结31-32
- 第五章 漏洞自动化分类的实现32-45
- 5.1 漏洞分类模型设计32-33
- 5.2 漏洞分类的实验过程33-41
- 5.2.1 发现漏洞33-35
- 5.2.2 漏洞文本信息的收集35-36
- 5.2.3 漏洞文本信息预处理36-38
- 5.2.4 特征词集的建立与漏洞的向量38-40
- 5.2.5 训练漏洞分类模型40
- 5.2.6 分类性能的评估40-41
- 5.3 漏洞分类的实验与结果分析41-44
- 5.3.1 实验数据来源41
- 5.3.2 实验步骤41-42
- 5.3.3 分类实验结果42-43
- 5.3.4 实验结果分析43-44
- 5.4 本章小结44-45
- 第六章 结束语45-47
- 6.1 主要工作和创新点45
- 6.2 后续研究工作45-47
- 参考文献47-51
- 致谢51-52
- 攻读硕士学位期间取得的成果52-53
【参考文献】
中国期刊全文数据库 前5条
1 张涛;吴冲;;信息系统安全漏洞研究[J];哈尔滨工业大学学报(社会科学版);2008年04期
2 刘健;刘忠;熊鹰;;改进的二叉树支持向量机多类分类算法研究[J];计算机工程与应用;2010年33期
3 李仁兵;李艾华;蔡艳平;李亮;王涛;;基于欧氏距离的支持向量机拒识区域解决方案[J];计算机应用;2010年02期
4 谢娟英;张兵权;汪万紫;;基于双支持向量机的偏二叉树多类分类算法[J];南京大学学报(自然科学版);2011年04期
5 鲁松,白硕,黄雄;基于向量空间模型中义项词语的无导词义消歧[J];软件学报;2002年06期
,本文编号:715855
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/715855.html