基于免疫克隆特征选择和欠采样集成的垃圾网页检测
本文关键词:基于免疫克隆特征选择和欠采样集成的垃圾网页检测
更多相关文章: 垃圾网页检测 集成学习 免疫克隆算法 特征选择 欠采样 随机森林
【摘要】:为解决垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种基于免疫克隆特征选择和欠采样(US)集成的二元分类器算法。首先,使用欠采样技术将训练样本集大类抽样成多个与小类样本数相近的样本集,再将其分别与小类样本合并构成多个平衡的子训练样本集;然后,设计一种免疫克隆算法遴选出多个最优的特征子集;基于最优特征子集对平衡的子样本集进行投影操作,生成平衡数据集的多个视图;最后,用随机森林(RF)分类器对测试样本进行分类,采用简单投票法确定测试样本的最终类别。在WEBSPAM UK-2006数据集上的实验结果表明,该集成分类器算法应用于垃圾网页检测:与随机森林算法及其Bagging和Ada Boost集成分类器算法相比,准确率、F1测度、AUC等指标均提高11%以上;与其他最优的研究结果相比,该集成分类器算法在F1测度上提高2%,在AUC上达到最优。
【作者单位】: 南昌大学软件学院;南昌大学信息工程学院;元智大学资讯学院;
【关键词】: 垃圾网页检测 集成学习 免疫克隆算法 特征选择 欠采样 随机森林
【基金】:江西省科技支撑计划项目(20131102040039)~~
【分类号】:TP391.3;TP393.092
【正文快照】: 0引言垃圾网页指的是那些在搜索引擎查询结果中具有良好的排名而实际价值却较差的网站和网页。垃圾网页之所以会出现,是由于搜索引擎用户倾向于只点击那些排名靠前的链接。为了取得靠前的排名,各网站便想方设法采取各种手段优化网站。而通过正当手段提高网站排名,成本极其高昂
【相似文献】
中国期刊全文数据库 前10条
1 李晓丽;;基于改进免疫克隆算法的终端区航班进场调度[J];计算机测量与控制;2013年06期
2 刘士荣;张波涛;;采用生物信息机制的量子免疫克隆算法[J];模式识别与人工智能;2011年03期
3 朱建东;蒋卫菊;;基于免疫克隆算法的课表编排方案[J];计算机工程;2011年22期
4 刘洋;黄晋英;;免疫克隆算法收敛性及其在路径规划中的应用[J];信息技术与信息化;2014年01期
5 漆杨;秦子玄;陈霞;于中华;;基于免疫克隆算法的容量受限工厂选址问题研究[J];计算机应用;2009年01期
6 王娟;李飞;;一种基于实数编码的量子免疫克隆算法[J];计算机工程;2012年18期
7 吴秋逸;焦李成;李阳阳;邓晓政;;自适应量子免疫克隆算法及其收敛性分析[J];模式识别与人工智能;2008年05期
8 唐正;胡珉;;空间自适应免疫克隆选择优化算法[J];计算机应用;2009年02期
9 徐海黎;朱志松;王恒;朱龙彪;;环境变异免疫克隆算法解决有约束优化问题[J];系统仿真学报;2011年11期
10 张敏辉;;基于结合鲍德温效应和周期变异的免疫克隆优化算法的研究[J];电脑与信息技术;2012年02期
中国重要会议论文全文数据库 前3条
1 马威;顾幸生;;一种求解多目标flow shop调度问题的免疫克隆算法[A];上海市化学化工学会2010年度学术年会论文集(自动化专题)[C];2010年
2 戴键;杨宏晖;;用于水声目标识别的自适应免疫克隆特征选择算法[A];2011'中国西部声学学术交流会论文集[C];2011年
3 王芸;杨宏晖;戴健;;加权免疫克隆样本选择与特征选择融合算法[A];第三届上海——西安声学学会学术会议论文集[C];2013年
中国重要报纸全文数据库 前3条
1 聂晓刚;免疫克隆公司又遇麻烦[N];科技日报;2002年
2 曹嘉智;免疫克隆公司迎来黎明?[N];医药经济报;2003年
3 ;免疫克隆公司遭遇最后通牒[N];科技日报;2002年
中国博士学位论文全文数据库 前2条
1 孙奕菲;基于小世界网络模型和免疫克隆优化的智能计算方法以及应用[D];西安电子科技大学;2014年
2 刘若辰;免疫克隆策略算法及其应用研究[D];西安电子科技大学;2005年
中国硕士学位论文全文数据库 前10条
1 张国龙;基于免疫克隆算法的船舶远程故障诊断研究[D];大连海事大学;2015年
2 李润心;基于免疫克隆选择的维数缩减及其应用[D];西安电子科技大学;2010年
3 王娟;量子免疫克隆算法研究及在压缩感知重构中的应用[D];南京邮电大学;2012年
4 张丽霞;免疫克隆智能优化算法的研究与应用[D];西北大学;2008年
5 冯静;基于免疫克隆的投影寻踪聚类算法及其应用[D];西安电子科技大学;2010年
6 张晓琳;基于免疫克隆选择算法的作业车间调度问题研究[D];西安电子科技大学;2009年
7 马红梅;基于Curvelet冗余字典和免疫克隆优化的压缩感知重构[D];西安电子科技大学;2012年
8 杨茸;求解随机机会约束规划的免疫克隆混合算法及应用[D];太原理工大学;2012年
9 马威;基于免疫克隆算法的多目标flow shop生产调度的研究[D];华东理工大学;2011年
10 徐聪;稀疏自然计算的学习算法及应用研究[D];西安电子科技大学;2013年
,本文编号:921330
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/921330.html