当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于SMOTE和随机森林的Web spam检测

发布时间:2017-12-11 16:28

  本文关键词:基于SMOTE和随机森林的Web spam检测


  更多相关文章: 集成学习 搜索引擎垃圾网页 随机森林 SMOTE 搜索引擎作弊


【摘要】:Web spam是指采用某些技术手段,使得网页在搜索引擎检索结果中的排名高于其应得排名的行为,它严重影响搜索结果的质量。考虑到Web spam数据集的严重不平衡情况,本研究提出先使用SMOTE过抽样方法平衡数据集,再利用随机森林算法训练分类器。通过对常见的单分类器和集成学习分类器的对比实验,发现SMOTE+RF方法表现较为突出,并根据实验结果优化了方法中的重要参数,对使用SMOTE方法后AUC值提高的原因进行了分析。在WEBSPAM UK2007数据集上的实验证明,该方法可以显著提高分类器的分类效果,其AUC值已经超过了Web Spam Challenge 2008上的最好成绩。
【作者单位】: 山东师范大学信息科学与工程学院;山东省分布式计算机软件新技术重点实验室;
【基金】:国家自然科学基金资助项目(61170145) 教育部高等学校博士点专项基金资助项目(20113704110001) 山东省自然科学基金资助项目(ZR2010FM021)
【分类号】:TP391.3
【正文快照】: 0引言由于大多数搜索引擎使用者在查看返回的结果时,一般只关注前3页的内容[1],因此很多的网站管理者会通过搜索引擎优化(search engine optimi-zation,SEO)的手段来提高在搜索结果中的排名[2]。然而有些网站利用搜索引擎排序算法的漏第1期房晓南,等:基于SMOTE和随机森林的Web

【参考文献】

中国期刊全文数据库 前2条

1 许传轲;陈月辉;赵亚欧;;基于改进伪氨基酸组成的蛋白质相互作用预测[J];山东大学学报(理学版);2009年09期

2 李智超;余慧佳;刘奕群;马少平;;网页作弊与反作弊技术综述[J];山东大学学报(理学版);2011年05期

【共引文献】

中国期刊全文数据库 前1条

1 肖卓磊;;搜索引擎作弊及反作弊技术探究[J];阜阳师范学院学报(自然科学版);2011年04期

【二级参考文献】

中国期刊全文数据库 前4条

1 李哲谦;刘书朋;严壮志;黄海;;基于支持向量机的蛋白质相互作用预测[J];电子测量技术;2008年05期

2 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的搜索引擎用户行为分析[J];中文信息学报;2007年01期

3 余慧佳;刘奕群;张敏;马少平;茹立云;;基于目的分析的作弊页面分类[J];中文信息学报;2009年02期

4 任仙文;李北平;王月兰;岳俊杰;梁龙;;蛋白质相互作用的生物信息学研究进展[J];生物技术通讯;2006年06期

【相似文献】

中国期刊全文数据库 前10条

1 刘郁,陈耘志,张兵;图像挖掘中利用类特征集成的自动学习算法研究[J];电脑知识与技术;2005年30期

2 琚旭;王浩;姚宏亮;;基于Boosting的支持向量机组合分类器[J];合肥工业大学学报(自然科学版);2006年10期

3 陈华;魏连;郑志娴;许榕生;;基于集成学习的网络取证模型[J];福建电脑;2007年10期

4 赵洋;冀俊忠;李文斌;;基于复杂网络的分类器融合[J];科学技术与工程;2008年14期

5 向坚;叶绿;朱红丽;;基于子空间集成学习的3维人体运动识别[J];中国图象图形学报;2008年10期

6 贾瑞玉;冯伦阔;李永顺;张新建;;基于集成学习的覆盖算法[J];计算机技术与发展;2009年07期

7 张振宇;;稳健的多支持向量机自适应提升算法[J];大连交通大学学报;2010年02期

8 张燕平;窦蓉蓉;赵姝;曹振田;;基于集成学习的规范化LDA人脸识别[J];计算机工程;2010年14期

9 孙建文;杨宗凯;刘三(女牙);王佩;;基于集成学习与遗传算法的网络书写纹识别研究[J];计算机科学;2011年06期

10 谢华;夏顺仁;张赞超;;医学图像识别中多分类器融合方法的研究进展[J];国际生物医学工程杂志;2006年03期

中国重要会议论文全文数据库 前4条

1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年

2 刘伍颖;王挺;;一种多过滤器集成学习垃圾邮件过滤方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

3 王中卿;李寿山;朱巧明;李培峰;周国栋;;基于不平衡数据的中文情感分类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

4 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年

中国博士学位论文全文数据库 前10条

1 方育柯;集成学习理论研究及其在个性化推荐中的应用[D];电子科技大学;2011年

2 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年

3 向坚;基于三维捕获数据的人体运动分析关键技术研究[D];浙江大学;2007年

4 李成安;分布式环境下聚类分析新方法的研究[D];浙江大学;2006年

5 陶晓燕;基于支持向量机和流形学习的分类方法研究[D];西安电子科技大学;2008年

6 沈道义;基于最小化训练误差的子空间分类算法研究[D];中国科学技术大学;2008年

7 薛安荣;空间离群点挖掘技术的研究[D];江苏大学;2008年

8 关菁华;基于贝叶斯网数据挖掘若干问题研究[D];吉林大学;2009年

9 艾解清;双边多议题自动协商研究[D];浙江大学;2011年

10 张冬梅;文本情感分类及观点摘要关键问题研究[D];山东大学;2012年

中国硕士学位论文全文数据库 前10条

1 张家红;集成分类学习算法研究[D];山东师范大学;2011年

2 赵万鹏;基于Adaboost算法的数字识别技术的研究与应用[D];中国科学院研究生院(成都计算机应用研究所);2006年

3 王健;基于本体技术的个性化集成学习环境研究[D];山东师范大学;2010年

4 卢廷玉;基于粒子群优化算法的集成学习研究[D];吉林大学;2008年

5 王志伟;信息隐藏应用于数据库及集成学习隐密分析方法研究[D];大连理工大学;2008年

6 田慧;支持向量机集成及在音乐分类中的应用[D];山东师范大学;2009年

7 李杉;选择性聚类集成算法研究[D];山东师范大学;2010年

8 张敬娜;基于集成学习的语音信息隐藏分析技术研究[D];华北电力大学;2011年

9 冯伦阔;基于集成学习的覆盖算法研究[D];安徽大学;2010年

10 刘艳霞;基于eEP的稀有类分类问题研究[D];郑州大学;2005年



本文编号:1279168

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1279168.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9f29c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com