基于Bagging-SVM集成分类器的网页作弊检测
本文选题:网页作弊 + 集成分类器 ; 参考:《计算机科学》2015年01期
【摘要】:网页作弊不仅造成信息检索质量下降,而且给互联网的安全也带来了极大的挑战。提出了一种基于Bagging-SVM集成分类器的网页作弊检测方法。在预处理阶段,首先采用K-means方法解决数据集的不平衡问题,然后采用CFS特征选择方法筛选出最优特征子集,最后对特征子集进行信息熵离散化处理。在分类器训练阶段,通过Bagging方法构建多个训练集并分别对每个训练集进行SVM学习来产生弱分类器。在检测阶段,通过多个弱分类器投票决定测试样本所属类别。在数据集WEBSPAM-UK2006上的实验结果表明,在使用特征数量较少的情况下,本检测方法可以获得非常好的检测效果。
[Abstract]:Web cheating not only leads to the deterioration of information retrieval quality, but also brings great challenges to the security of the Internet. This paper presents a method of web page cheating detection based on Bagging-SVM integrated classifier. In the preprocessing stage, K-means method is used to solve the unbalance problem of the data set, and then the CFS feature selection method is used to select the optimal feature subset. Finally, the information entropy discretization of the feature subset is carried out. In the stage of classifier training, several training sets are constructed by bagging method and each training set is trained by SVM to generate weak classifier. In the detection phase, multiple weak classifiers vote to determine the category of the test sample. The experimental results on the data set WEBSPAM-UK2006 show that this method can achieve a very good detection effect under the condition that the number of features is small.
【作者单位】: 西南交通大学信息科学与技术学院;
【基金】:四川省学术和技术带头人后备人选培养基金(X800912371309)资助
【分类号】:TP393.092
【相似文献】
相关期刊论文 前10条
1 骆玉霞,陈焕伟;角度分类器与距离分类器比较研究——以盐渍土分类为例[J];国土资源遥感;2002年02期
2 孙加庆;具有自学习功能的分类器的自动生成[J];计算机时代;2002年12期
3 潘翔,姚明海,陈国华;多分类器的一种动态联合方法[J];计算机工程与应用;2002年12期
4 马耀华,何瑗;Augmented Bayes分类器的一种学习方法[J];计算机工程与应用;2002年17期
5 王正群,孙兴华,杨静宇;多分类器组合研究[J];计算机工程与应用;2002年20期
6 冯彦杰,王浣尘;学习分类器在绩效寻优中的应用及其组织决策意义[J];控制理论与应用;2003年03期
7 唐春生,金以慧;基于全信息矩阵的多分类器集成方法[J];软件学报;2003年06期
8 唐春生;金以慧;;权重自适应调整的多分类器集成判决及其在文本分类中的应用[J];计算机科学;2003年01期
9 刘宁钟;杨静宇;;基于遗传算法的组合式分类器选择[J];模式识别与人工智能;2003年03期
10 柏延臣,王劲峰;结合多分类器的遥感数据专题分类方法研究[J];遥感学报;2005年05期
相关会议论文 前10条
1 王占一;徐蔚然;刘东鑫;郭军;;一种基于两级分类器的垃圾短信过滤方法[A];第五届全国信息检索学术会议论文集[C];2009年
2 陈继航;刘家锋;赵巍;唐降龙;;联机手写识别笔段特征分类器的学习方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
3 翟静;李海宏;唐常杰;陈敏敏;李智;;可验证对象集分类器的再训练演进[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 穆明生;;基于特征集的多种分类器模型的在线笔迹认证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
5 彭涛;左万利;赫枫龄;;基于链接上下文的分类器主题爬行技术(英文)[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
6 王岚;陈珂;迟惠生;;基于多特征组合多分类器的方法用于“与文本无关”的说话人辨认[A];第四届全国人机语音通讯学术会议论文集[C];1996年
7 谢秋玲;;应用于心电图分类的KNN-SVM分类器研究[A];2006中国控制与决策学术年会论文集[C];2006年
8 胡琼;汪荣贵;胡韦伟;孙见青;;基于级联分类器的快速人脸检测方法[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
9 李兰春;王双成;杜瑞杰;;认知结构评估的动态贝叶斯网络分类器方法[A];2011年中国智能自动化学术会议论文集(第一分册)[C];2011年
10 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
相关重要报纸文章 前1条
1 黄明;精子分类器决定生男生女[N];广东科技报;2000年
相关博士学位论文 前10条
1 刘明;分类器组合技术研究及其在人机交互系统中的应用[D];北京交通大学;2008年
2 严志永;在划分数据空间的视角下基于决策边界的分类器研究[D];浙江大学;2011年
3 王U,
本文编号:2073009
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2073009.html