基于改进的LogitBoost算法的垃圾网页检测研究
本文选题:垃圾网页识别 切入点:集成学习 出处:《科技视界》2015年27期
【摘要】:实现垃圾网页的有效检测可以有效提高搜索引擎检索质量,促使网页的设计向着面向用户的方向发展。由于垃圾网页是面向搜索引擎设计的,正常网页是面向用户设计的,因而两者在特征方面存在众多区别,通过机器学习方法可以根据垃圾网页与正常网页在特征方面的不同对垃圾网页进行有效识别。通过对常见单分类器和集成学习分类器处理垃圾网页数据集的对比实验,发现集成学习方法 logitboost较为突出,所得结果明显优于单一分类器和常用集成学习算法,所得结果也更接近真实值,并通过对logitboost所用的预处理方法和基分类器进行改进,发现用resample对垃圾网页进行预处理,以REPTree算法为基分类器的logitboost算法对垃圾网页数据集的分类有较高的精确度。
[Abstract]:The effective detection of spam pages can effectively improve the search engine search quality and promote the design of web pages towards the direction of user oriented.Since spam pages are designed for search engines and normal pages are designed for users, there are many differences between the two in terms of features.The machine learning method can be used to identify garbage pages effectively according to the differences of features between junk pages and normal pages.Through the contrast experiment of common single classifier and integrated learning classifier to deal with garbage web page data set, it is found that the integrated learning method logitboost is more outstanding, and the result is obviously superior to single classifier and common integrated learning algorithm.The result is closer to the real value, and by improving the preprocessing method and base classifier used in logitboost, it is found that resample is used to preprocess garbage pages.The logitboost algorithm based on REPTree algorithm has a high accuracy for the classification of garbage page data sets.
【作者单位】: 山东师范大学信息科学与工程学院;
【基金】:2014年度国家级大学生创新训练项目(201401223)
【分类号】:TP393.092
【参考文献】
相关期刊论文 前2条
1 房晓南;张化祥;高爽;;基于SMOTE和随机森林的Web spam检测[J];山东大学学报(工学版);2013年01期
2 周济;文志强;林海龙;;集成学习有效性研究[J];软件导刊;2014年06期
相关硕士学位论文 前2条
1 邱齐辉;基于决策树和贝叶斯算法的垃圾网页检测的研究和实现[D];北京工业大学;2012年
2 谢娜娜;基于不均衡数据集的文本分类算法研究[D];重庆大学;2013年
【共引文献】
相关期刊论文 前2条
1 冯莉;;基于分类器组合增量集成的远程教育学生表现预测[J];计算机与数字工程;2014年11期
2 赵煜;邵必林;边根庆;宋丹;;面向不平衡微博数据集的转发行为预测方法[J];计算机应用;2015年07期
相关硕士学位论文 前2条
1 刘进华;基于随机森林的语音情感识别研究[D];华南理工大学;2013年
2 吕越;Web Spam检测技术研究与实现[D];武汉理工大学;2014年
【二级参考文献】
相关期刊论文 前10条
1 林阳,祝智庭;国外因特网内容标记与过滤技术调查[J];电化教育研究;2002年02期
2 费宗莲;病毒防火墙的内容过滤技术[J];计算机安全;2004年04期
3 孙春来,段米毅,毛克峰;基于内容过滤的网络监控技术研究[J];高技术通讯;2001年11期
4 吕汇新;一个基于模式匹配入侵检测技术的防信息泄露系统的设计与实现[J];哈尔滨师范大学自然科学学报;2004年03期
5 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
6 裴英博;刘晓霞;;文本分类中改进型CHI特征选择方法的研究[J];计算机工程与应用;2011年04期
7 翟云;杨炳儒;曲武;;不平衡类数据挖掘研究综述[J];计算机科学;2010年10期
8 樊兴华;孙茂松;;一种高性能的两类中文文本分类方法[J];计算机学报;2006年01期
9 卢军,卢显良,韩宏,任立勇;实时网络信息过滤系统的设计与实现[J];计算机应用;2002年10期
10 孙蕾,周明全,李丙春;一种非平衡分布数据的支持向量机新算法[J];计算机应用;2004年12期
相关博士学位论文 前4条
1 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年
2 方育柯;集成学习理论研究及其在个性化推荐中的应用[D];电子科技大学;2011年
3 陈景年;选择性贝叶斯分类算法研究[D];北京交通大学;2008年
4 蒋良孝;朴素贝叶斯分类器及其改进算法研究[D];中国地质大学;2009年
相关硕士学位论文 前4条
1 袁新成;基于向量空间模型的自适应文本过滤研究[D];哈尔滨工业大学;2006年
2 董梅;文本内容的信息过滤技术研究[D];合肥工业大学;2006年
3 方柯;面向网络不良文本过滤的概念网技术研究与实现[D];上海交通大学;2007年
4 荣光;中文文本分类方法研究[D];山东师范大学;2009年
,本文编号:1718907
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1718907.html