基于随机森林和欠采样集成的垃圾网页检测
发布时间:2017-06-19 22:03
本文关键词:基于随机森林和欠采样集成的垃圾网页检测,由笔耕文化传播整理发布。
【摘要】:为解决垃圾网页检测过程中的不平衡分类和"维数灾难"问题,提出一种基于随机森林(RF)和欠采样集成的二元分类器算法。首先使用欠采样技术将训练样本集大类抽样成多个子样本集,再将其分别与小类样本集合并构成多个平衡的子训练样本集;然后基于各个子训练样本集训练出多个随机森林分类器;最后用多个随机森林分类器对测试样本集进行分类,采用投票法确定测试样本的最终所属类别。在WEBSPAM UK-2006数据集上的实验表明,该集成分类器算法应用于垃圾网页检测比随机森林算法及其Bagging和Adaboost集成分类器算法效果更好,准确率、F1测度、ROC曲线下面积(AUC)等指标提高至少14%,13%和11%。与Web spam challenge 2007优胜团队的竞赛结果相比,该集成分类器算法在F1测度上提高至少1%,在AUC上达到最优结果。
【作者单位】: 南昌大学软件学院;南昌大学信息工程学院;
【关键词】: 垃圾网页检测 随机森林 欠采样 集成分类器 机器学习
【基金】:江西省科技支撑计划项目(20131102040039)~~
【分类号】:TP391.3;TP393.092
【正文快照】: 0引言垃圾网页(Web spam)指的是自身真实价值很低,却在搜索引擎结果页面(Search Engine Result Page,SERP)排名靠前的网页[1]。研究表明,互联网上的垃圾网页大约占到10%~15%[1]。垃圾网页产生的原因,是由于大多数搜索引擎使用者只会浏览SERP的前3页[2],在SERP中排名越靠前,被
本文关键词:基于随机森林和欠采样集成的垃圾网页检测,,由笔耕文化传播整理发布。
本文编号:463853
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/463853.html