不平衡网络异常数据代价敏感特征及实例选择
本文选题:网络异常数据 + 类不平衡 ; 参考:《太原理工大学》2016年博士论文
【摘要】:随着通讯技术的发展及异构网络的广泛融合,网络数据呈现爆炸式增长态势。虽然其中的异常事件属于稀有类,但仍会对国家、企业及个人造成严重打击和损失。如何提高稀有类识别率已成为网络安全领域亟待解决的问题。本文以网络异常数据中的稀有类为研究对象,以稀有类的分类问题为切入点,以代价敏感学习为支撑,以概率论、混沌理论、信息论、统计学为理论基础,首先从数据特征入手,提出一种基于混沌遗传的代价敏感特征选择方法,设计了基于文化基因构架的高效代价敏感特征选择方法;之后从数据实例角度出发,并提出适用于不平衡数据集的双向实例选择分层策略。通过上述策略及方法的使用,能够对较大规模不平衡网络异常数据进行分类前的综合优化处理,从而有效提升后续异常分类识别的效果。本文主要工作及所取得研究成果包括以下三个方面:(1)提出一种基于混沌遗传的代价敏感特征选择算法针对网络异常数据类不平衡问题,引入代价敏感学习理论到特征选择方法,聚焦于特征选择阶段的代价因素,设计出一种代价敏感特征选择算法CSFSG,应用于网络异常数据分类。综合考虑网络异常事件识别过程中误分类代价及测试代价,借鉴贝叶斯理论,基于最近邻规则构造代价敏感适应度函数,利用混沌运动系统固有特性改进基于Tent混沌映射优化的遗传搜索策略,改善遗传搜索后期的收敛问题,以提高搜索速度。CSFSG注意两种代价均衡关系,以最小化总代价为目标。实验表明,CSFSG能够有效简化特征选择过程得到有助于稀有类异常数据识别的特征子集,进而达到可以降低算法运行成本,提高异常攻击识别精度的目标。(2)提出基于文化基因构架的高效代价敏感特征选择算法针对大数据在资源受限环境中分析成本高、效率低的问题,改进基于文化基因构架的传统特征选择方法,引进贝叶斯理论构造代价矩阵,提出了一种以降低总误分类成本并提高分类性能为目标的高效代价敏感特征选择算法CFSM。该算法使用遗传算法进行全局搜索,引入误分类代价因子的总成本函数构造适应度函数,通过使用近似马尔科夫毯以信息相关系数为评价指标,微调增加相关特征,移除冗余或不相关特征,以提高最优子集寻优收敛速度。实验结果表明,CFSM在稀有类识别上表现出较好的性能。与基于遗传算法的传统文化基因架构下特征选择算法及代价敏感特征选择算法相比,该算法更加高效且能以更少的特征及误分类代价获得更高的分类精度。(3)提出基于稀有类拓展的双向实例选择分层策略当不平衡的网络数据遇到大规模化问题,往往会造成网络异常攻击识别率降低,甚至失效。本文基于经典分层理论,提出基于稀有类拓展的双向实例选择分层策略。该策略根据实例类别选择多数类,然后借助属性与均匀分布随机点定理构造随机数表达式的方式将其拓展为iSMOTE稀有类,并使得数据集趋于平衡。实验结果表明该策略可以有效提高稀有类别实例数量和分类效果,尤其在处理数量特别稀少的稀有类及数据量整体规模较大的数据集时,其效果更加显著。
[Abstract]:With the development of communication technology and the extensive integration of heterogeneous networks, network data presents an explosive growth trend. Although abnormal events belong to rare classes, it will still cause serious attacks and losses to the country, enterprises and individuals. How to improve the recognition rate of rare classes has become an urgent problem in the field of network security. This paper is based on the network The rare class in abnormal data is the research object, taking the classification of rare classes as the breakthrough point, taking the cost sensitive learning as the support, taking the probability theory, chaos theory, information theory and statistics as the theoretical basis. First, starting with the data characteristics, a method based on the chaotic genetic based generation valence sensitive feature selection is proposed, and a cultural genetic structure based on the cultural genetic structure is designed. The high efficient cost sensitive feature selection method of the frame, and then from the point of view of the data instance, and proposes a two way instance selection stratification strategy for unbalanced data sets. Through the use of the above strategy and method, the comprehensive optimization of the abnormal data of large scale unbalance network can be optimized before classification, which can effectively improve the subsequent exception. The main work and achievements of this paper include the following three aspects: (1) a cost sensitive feature selection algorithm based on chaos genetic algorithm is proposed for the network anomaly data imbalance problem, the cost sensitive learning theory is introduced to the feature selection method, and the cost factors focusing on the feature selection stage are designed. A cost sensitive feature selection algorithm, CSFSG, is applied to network anomaly data classification. Considering the cost of misclassification and testing cost in the process of network anomaly recognition, we use Bayesian theory to construct a cost sensitive fitness function based on the nearest neighbor rule, and improve the Tent chaos mapping optimization based on the inherent characteristics of the chaotic transport system. The genetic search strategy is used to improve the convergence problem of the late genetic search, to improve the search speed.CSFSG to pay attention to two cost equilibrium relations and minimize the total cost. The experiment shows that CSFSG can effectively simplify the feature selection process to help the rare class abnormal data recognition of other feature subsets, and thus can reduce the algorithm transport. (2) a high efficient and cost sensitive feature selection algorithm based on cultural genetic architecture is proposed to analyze the high cost and low efficiency of large data in the resource constrained environment, improve the traditional feature selection method based on the cultural genetic framework and introduce the Bayesian theory to construct the cost matrix. An efficient cost sensitive feature selection algorithm for reducing the total error classification cost and improving the classification performance CFSM., the algorithm uses the genetic algorithm for global search, and constructs the fitness function by introducing the total cost function of the misclassified cost factor. By using the approximate Malcov blanket, the information correlation coefficient is used as the evaluation index. The correlation features are added to remove redundant or unrelated features to improve the optimal convergence rate. The experimental results show that CFSM shows good performance in the recognition of rare classes. Compared with the traditional cultural genetic algorithm based feature selection algorithm and the cost sensitive feature selection algorithm based on the genetic algorithm, the algorithm is more efficient and can be used. Higher classification accuracy is obtained with fewer features and misclassification costs. (3) a hierarchical strategy of two-way case selection based on rare class expansion is proposed. When the imbalance of network data meets large-scale problems, the recognition rate of network anomaly attacks will often be reduced and even invalid. Based on the classical stratification theory, this paper proposes a rare class expansion. This strategy chooses most classes according to the class of instances, and then extends it to iSMOTE rare class by means of attribute and uniform distribution random point theorem, and makes the data set balanced. The experimental results show that the strategy can effectively improve the number and classification of rare class instances. The effect is especially significant when dealing with rare classes and data sets of large scale.
【学位授予单位】:太原理工大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP393.08
【相似文献】
相关期刊论文 前10条
1 何劲松,施泽生;特征选择方法中的信号分析方法研究[J];中国科学技术大学学报;2001年01期
2 孙霞;郑庆华;;一种面向非平衡数据的邻居词特征选择方法[J];小型微型计算机系统;2008年12期
3 蒋盛益;郑琪;张倩生;;基于聚类的特征选择方法[J];电子学报;2008年S1期
4 王加龙;朱颢东;;结合类别相关性和辨识集的特征选择方法[J];微型机与应用;2009年23期
5 朱颢东;周姝;钟勇;;结合差别对象对集的综合性特征选择方法[J];计算机工程与设计;2010年03期
6 姜慧研;柴天佑;;基于可信间隔的特征选择方法研究[J];控制与决策;2011年08期
7 姚旭;王晓丹;张玉玺;权文;;特征选择方法综述[J];控制与决策;2012年02期
8 王志昊;王中卿;李寿山;李培峰;;不平衡情感分类中的特征选择方法研究[J];中文信息学报;2013年04期
9 张玉红;周全;胡学钢;;面向跨领域情感分类的特征选择方法[J];模式识别与人工智能;2013年11期
10 李敏;卡米力·木依丁;;特征选择方法与算法的研究[J];计算机技术与发展;2013年12期
相关会议论文 前6条
1 徐燕;王斌;李锦涛;孙春明;;知识增益:文本分类中一种新的特征选择方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 肖婷;唐雁;;文本分类中特征选择方法及应用[A];2008年计算机应用技术交流会论文集[C];2008年
3 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
4 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
5 顾成杰;张顺颐;刘凯;黄河;;基于粗糙集和禁忌搜索的特征选择方法[A];江苏省电子学会2010年学术年会论文集[C];2010年
6 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
相关博士学位论文 前6条
1 张逸石;基于冗余—互补散度及特征包络前沿的数据驱动特征选择方法研究[D];华中科技大学;2016年
2 边婧;不平衡网络异常数据代价敏感特征及实例选择[D];太原理工大学;2016年
3 毛勇;基于支持向量机的特征选择方法的研究与应用[D];浙江大学;2006年
4 尹留志;关于非平衡数据特征问题的研究[D];中国科学技术大学;2014年
5 裴志利;数据挖掘技术在文本分类和生物信息学中的应用[D];吉林大学;2008年
6 刘明霞;属性学习若干重要问题的研究及应用[D];南京航空航天大学;2015年
相关硕士学位论文 前10条
1 曹晋;基于SVDD的特征选择方法研究及其应用[D];苏州大学;2015年
2 张强;静态图像上的行人检测方法研究[D];中国科学技术大学;2015年
3 张晓梅;基于融合特征的微博主客观分类方法研究[D];山西大学;2014年
4 王君;基于SVM-RFE的特征选择方法研究[D];大连理工大学;2015年
5 于海珠;面向文本聚类的特征选择方法及应用研究[D];大连理工大学;2015年
6 赵世琛;文本分类中特征选择方法研究[D];山西大学;2014年
7 王丹;特征选择算法研究及其在异常检测中的应用[D];电子科技大学;2014年
8 林艳峰;中文文本分类特征选择方法的研究与实现[D];西安电子科技大学;2014年
9 卢志浩;基于GEP的kNN算法改进研究[D];广西师范学院;2015年
10 王立鹏;面向图数据的特征选择方法及其应用研究[D];南京航空航天大学;2015年
,本文编号:2037764
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/2037764.html