基于互信息选择聚类集成的网络流量分类方法
本文选题:聚类集成 切入点:K均值 出处:《计算机应用》2013年01期 论文类型:期刊论文
【摘要】:针对互联网流量标注困难以及单个聚类器的泛化能力较弱,提出一种基于互信息(MI)理论的选择聚类集成方法,以提高流量分类的精度。首先计算不同初始簇个数K的K均值聚类结果与训练集中流量协议的真实分布之间的规范化互信息(NMI);然后基于NMI的值来选择用于聚类集成的K均值基聚类器的K值序列;最后采用二次互信息(QMI)的一致函数生成一致聚类结果,并使用一种半监督方法对聚类簇进行标注。通过实验比较了聚类集成方法与单个聚类算法在4个不同测试集上总体分类精度。实验结果表明,聚类集成方法的流量分类总体精度能达到90%。所提方法将聚类集成模型应用到网络流量分类中,提高了流量分类的精度和在不同数据集上的分类稳定性。
[Abstract]:According to Internet traffic marking difficulties and poor generalization ability of single clustering is proposed, based on mutual information (MI) integrated methods clustering theory, in order to improve the traffic classification accuracy. K means clustering results calculated with different initial cluster number K between the true distribution and training flow protocol standardization of each other information (NMI); then based on the NMI values selected for clustering ensemble average K base clustering K sequence; finally using two mutual information (QMI) favorable function to generate consistent clustering results, and the cluster labeling using a semi supervised method. By comparing the clustering ensemble method with a single clustering algorithm in 4 different test sets the overall classification accuracy. The experimental results show that the overall accuracy of traffic classification clustering ensemble method can reach 90%. the proposed method clustering model is applied to network traffic In the classification, the accuracy of the flow classification and the classification stability on different data sets are improved.
【作者单位】: 西北工业大学计算机学院;咸阳师范学院信息工程学院;
【基金】:国家863计划项目(2009AA01Z424) 陕西省教育厅专项(12JK0933)
【分类号】:TP181;TP393.06
【参考文献】
相关博士学位论文 前1条
1 罗会兰;聚类集成关键技术研究[D];浙江大学;2007年
【共引文献】
相关博士学位论文 前5条
1 何灵敏;支持向量机集成及在遥感分类中的应用[D];浙江大学;2006年
2 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
3 高琰;基于多特征的Web社区发现关键技术研究[D];中南大学;2007年
4 吕天阳;三维模型检索中基于聚类与基于语义方法的研究[D];吉林大学;2007年
5 罗会兰;聚类集成关键技术研究[D];浙江大学;2007年
相关硕士学位论文 前4条
1 杨红;基于选择性集成的入侵检测系统的研究与实现[D];江苏大学;2005年
2 王丽丽;集成学习算法研究[D];广西大学;2006年
3 刘净;基于多分类器集成的聚类算法研究[D];河海大学;2007年
4 徐山;神经网络集成技术及其在矿产预测中的应用研究[D];吉林大学;2007年
【二级参考文献】
相关期刊论文 前2条
1 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期
2 邸凯昌,李德仁,李德毅;从空间数据库发现聚类:一种基于数学形态学的算法[J];中国图象图形学报;1998年03期
【相似文献】
相关博士学位论文 前1条
1 高琰;基于多特征的Web社区发现关键技术研究[D];中南大学;2007年
相关硕士学位论文 前6条
1 宋凌;基于半监督聚类的入侵防御系统研究[D];湘潭大学;2008年
2 项阳;Internet流量与拥塞控制问题研究[D];南京航空航天大学;2003年
3 崔灵珍;Web文本摘要技术的研究与应用[D];武汉理工大学;2007年
4 刘扬;入侵检测系统中的聚类算法研究[D];大连理工大学;2008年
5 席卓;局域网络综合管理系统的研究与实现[D];北京邮电大学;2012年
6 马晓春;数据挖掘在网络入侵检测系统中的应用研究[D];西北工业大学;2005年
,本文编号:1623334
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1623334.html