基于遗传规划集成学习的网络作弊检测
发布时间:2018-04-15 10:22
本文选题:网络作弊 + 集成学习 ; 参考:《中文信息学报》2012年05期
【摘要】:网络作弊检测是搜索引擎的重要挑战之一,该文提出基于遗传规划的集成学习方法 (简记为GPENL)来检测网络作弊。该方法首先通过欠抽样技术从原训练集中抽样得到t个不同的训练集;然后使用c个不同的分类算法对t个训练集进行训练得到t*c个基分类器;最后利用遗传规划得到t*c个基分类器的集成方式。新方法不仅将欠抽样技术和集成学习融合起来提高非平衡数据集的分类性能,还能方便地集成不同类型的基分类器。在WEBSPAM-UK2006数据集上所做的实验表明无论是同态集成还是异态集成,GPENL均能提高分类的性能,且异态集成比同态集成更加有效;GPENL比AdaBoost、Bagging、RandomForest、多数投票集成、EDKC算法和基于Prediction Spamicity的方法取得更高的F-度量值。
[Abstract]:Online cheating detection is one of the most important challenges in search engines. This paper proposes an integrated learning method (GPENL) based on genetic programming to detect online cheating.In this method, firstly, t different training sets are sampled from the original training set by under-sampling technique, and then t / c basic classifiers are obtained by training t training sets with c different classification algorithms.Finally, genetic programming is used to get the ensemble method of TOC basis classifiers.The new method not only combines under-sampling and ensemble learning to improve the classification performance of unbalanced datasets, but also integrates different types of base-classifiers conveniently.Experiments on WEBSPAM-UK2006 datasets show that both homomorphism and heteromorphism can improve the classification performance.The heteromorphic ensemble is more effective than homomorphic integration than Ada boost Baggingling / RandomForest.Most vote integration / EDKC algorithm and the method based on Prediction Spamicity obtain higher F- metric value.
【作者单位】: 山东大学计算机科学与技术学院;山东建筑大学计算机科学与技术学院;清华大学计算机科学与技术系;
【基金】:国家自然科学基金资助项目(60970047,61103151,61173068) 山东省自然科学基金资助项目(Y2008G19) 山东省高等学校优秀青年教师国内访问学者资助项目
【分类号】:TP18;TP391.3
【参考文献】
相关硕士学位论文 前1条
1 孙丽娜;集成异种分类器分类稀有类[D];郑州大学;2007年
【相似文献】
相关期刊论文 前10条
1 秦姣龙;王蔚;;Bagging组合的不平衡数据分类方法[J];计算机工程;2011年14期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相关会议论文 前1条
1 余慧佳;刘奕群;张敏;马少平;茹立云;;基于目的分析的作弊页面分类[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
相关博士学位论文 前1条
1 王林泓;热释电红外信号特征分析及人体识别方法研究[D];重庆大学;2010年
相关硕士学位论文 前2条
1 解晓敏;最小最大模块化支持向量机数据划分及其应用研究[D];南京邮电大学;2012年
2 宁延彬;集成学习方法在指纹识别中的应用研究[D];山东大学;2012年
,本文编号:1753716
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1753716.html