当前位置:主页 > 管理论文 > 移动网络论文 >

三种用于垃圾网页检测的随机欠采样集成分类器

发布时间:2018-06-02 04:54

  本文选题:垃圾网页检测 + 不平衡分类 ; 参考:《计算机应用》2017年02期


【摘要】:针对垃圾网页检测过程中轻微的不平衡分类问题,提出三种随机欠采样集成分类器算法,分别为一次不放回随机欠采样(RUS-once)、多次不放回随机欠采样(RUS-multiple)和有放回随机欠采样(RUS-replacement)算法。首先使用其中一种随机欠采样技术将训练样本集转换成平衡样本集,然后对每个平衡样本集使用分类回归树(CART)分类器算法进行分类,最后采用简单投票法构建集成分类器对测试样本进行分类。实验表明,三种随机欠采样集成分类器均取得了良好的分类效果,其中RUS-multiple和RUS-replacement比RUS-once的分类效果更好。与CART及其Bagging和Adaboost集成分类器相比,在WEBSPAM UK-2006数据集上,RUS-multiple和RUS-replacement方法的AUC指标值提高了10%左右,在WEBSPAM UK-2007数据集上,提高了25%左右;与其他最优研究结果相比,RUS-multiple和RUS-replacement方法在AUC指标上能达到最优分类结果。
[Abstract]:In order to solve the problem of slight unbalance classification in the process of garbage page detection, three kinds of random under-sampling ensemble classifier algorithms are proposed, which are single unretractable random under-sampling (RUS-onceg), multiple unretractable random under-sampling (RUS-multiple) and random under-sampling (RUS-replacementation) algorithm. Firstly, one of the random under-sampling techniques is used to transform the training sample set into a balanced sample set, and then each balanced sample set is classified by using the classifying regression tree / cart classifier algorithm. Finally, a simple voting method is used to construct an integrated classifier to classify test samples. The experimental results show that all of the three random under-sampling ensemble classifiers have good classification effect, and RUS-multiple and RUS-replacement have better classification effect than RUS-once. Compared with CART and its Bagging and Adaboost integrated classifiers, the AUC index value of RUS-multiple and RUS-replacement methods on WEBSPAM UK-2006 data sets is increased by about 10%, and on WEBSPAM UK-2007 data sets by about 25%. Compared with other optimal results, the RUS-multiple and RUS-replacement methods can achieve the optimal classification results on the AUC index.
【作者单位】: 南昌大学信息工程学院;南昌大学软件学院;
【基金】:江西省科技支撑计划项目(20131102040039)~~
【分类号】:TP393.092

【参考文献】

相关期刊论文 前2条

1 卢晓勇;陈木生;吴政隆;张百栈;;基于免疫克隆特征选择和欠采样集成的垃圾网页检测[J];计算机应用;2016年07期

2 卢晓勇;陈木生;;基于随机森林和欠采样集成的垃圾网页检测[J];计算机应用;2016年03期

【共引文献】

相关期刊论文 前3条

1 陈木生;卢晓勇;;三种用于垃圾网页检测的随机欠采样集成分类器[J];计算机应用;2017年02期

2 张莉;孙丽娜;郭峰;;在线社会网络中近似网页识别方法研究[J];微电子学与计算机;2017年02期

3 卢晓勇;陈木生;吴政隆;张百栈;;基于免疫克隆特征选择和欠采样集成的垃圾网页检测[J];计算机应用;2016年07期

【二级参考文献】

相关期刊论文 前4条

1 卢晓勇;陈木生;;基于随机森林和欠采样集成的垃圾网页检测[J];计算机应用;2016年03期

2 王莉丽;朱焱;马永强;;基于朴素贝叶斯的伪装型垃圾网页检测[J];计算机应用;2013年S1期

3 房晓南;张化祥;高爽;;基于SMOTE和随机森林的Web spam检测[J];山东大学学报(工学版);2013年01期

4 林舒杨;李翠华;江弋;林琛;邹权;;不平衡数据的降采样方法研究[J];计算机研究与发展;2011年S3期

【相似文献】

相关期刊论文 前10条

1 吕岳,施鹏飞,赵宇明;多分类器组合的投票表决规则[J];上海交通大学学报;2000年05期

2 韩宏;杨静宇;;多分类器组合及其应用[J];计算机科学;2000年01期

3 陈刚,戚飞虎;多分类器结合的人脸识别[J];上海交通大学学报;2001年02期

4 韩宏,杨静宇,娄震;基于层次的分类器组合[J];南京理工大学学报(自然科学版);2002年01期

5 赵谊虹,程国华,史习智;多分类器融合中一种新的加权算法[J];上海交通大学学报;2002年06期

6 王正群,叶晖,孙兴华,杨静宇;模糊多分类器组合[J];小型微型计算机系统;2003年01期

7 杨利英,覃征,王向华;多分类器融合实现机型识别[J];计算机工程与应用;2004年15期

8 杨利英,覃征,王卫红;多分类器融合系统设计与应用[J];计算机工程;2005年05期

9 陈湘;;1-范数软间隔分类器的风险[J];湖北大学学报(自然科学版);2006年02期

10 秦锋;杨波;程泽凯;;分类器性能评价标准研究[J];计算机技术与发展;2006年10期

相关会议论文 前10条

1 王占一;徐蔚然;刘东鑫;郭军;;一种基于两级分类器的垃圾短信过滤方法[A];第五届全国信息检索学术会议论文集[C];2009年

2 翟静;李海宏;唐常杰;陈敏敏;李智;;可验证对象集分类器的再训练演进[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

3 陈继航;刘家锋;赵巍;唐降龙;;联机手写识别笔段特征分类器的学习方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年

4 穆明生;;基于特征集的多种分类器模型的在线笔迹认证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年

5 彭涛;左万利;赫枫龄;;基于链接上下文的分类器主题爬行技术(英文)[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年

6 王岚;陈珂;迟惠生;;基于多特征组合多分类器的方法用于“与文本无关”的说话人辨认[A];第四届全国人机语音通讯学术会议论文集[C];1996年

7 谢秋玲;;应用于心电图分类的KNN-SVM分类器研究[A];2006中国控制与决策学术年会论文集[C];2006年

8 胡琼;汪荣贵;胡韦伟;孙见青;;基于级联分类器的快速人脸检测方法[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

9 李兰春;王双成;杜瑞杰;;认知结构评估的动态贝叶斯网络分类器方法[A];2011年中国智能自动化学术会议论文集(第一分册)[C];2011年

10 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年

相关重要报纸文章 前1条

1 黄明;精子分类器决定生男生女[N];广东科技报;2000年

相关博士学位论文 前10条

1 张非;对抗逃避攻击的防守策略研究[D];华南理工大学;2015年

2 张文博;多类别智能分类器方法研究[D];西安电子科技大学;2014年

3 许劲松;智能交通中目标检测与分类关键技术研究[D];南京理工大学;2014年

4 余家林;普通场景视频人脸检测与识别的关键技术研究[D];浙江大学;2016年

5 赵作林;基于图像分析的北京地区杨树种类识别研究[D];北京林业大学;2015年

6 任亚峰;基于标注和未标注数椐的虚假评论识别研究[D];武汉大学;2015年

7 曹鹏;不均衡数据分类方法的研究[D];东北大学;2014年

8 刘明;分类器组合技术研究及其在人机交互系统中的应用[D];北京交通大学;2008年

9 严志永;在划分数据空间的视角下基于决策边界的分类器研究[D];浙江大学;2011年

10 王U,

本文编号:1967502


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1967502.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6c24d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com