集成Web质量的垃圾网页分级检测机制研究
发布时间:2018-01-23 22:24
本文关键词: 垃圾网页检测 Web质量特征 分级检测机制 分类算法 Adaboost算法 出处:《西南交通大学》2013年硕士论文 论文类型:学位论文
【摘要】:随着互联网爆炸式的高速发展,使用搜索引擎获取信息已成为人们最频繁使用的Web应用之一。垃圾网页的出现降低了搜索引擎的效率及名声,并可能导致用户遭受恶意攻击或经济损失,同时使正规合法网站流失大量客户,蒙受巨大的利益损害。因此,如何有效的检测垃圾网页,保障Web信息安全,已成为互联网搜索引擎面临的一大挑战。 垃圾网页的检测是一个分类问题。传统的垃圾网页检测方法通过提取网页的特征来训练分类器,并用生成的分类模型对未标注的网页进行分类。这个过程中有两个不足点:一是网页特征的提取仅仅考虑了网页的内容特征和链接特征,而忽略了网页的质量特征;二是分类的结果只给出了网页是否是垃圾网页,而没有对于垃圾网页究其内容危害程度进行分级。大量调研表明,权威性高的网站通常网页质量较高,而垃圾网站的网页质量通常较低。另外,按内容危害程度对垃圾网页进行分级有助于搜索引擎制定更合理的过滤策略。因此本文综合考虑了网页的内容特征、链接特征以及质量特征,并对检测出的垃圾网页按其内容危害程度进行分级,设计实现了一个集成Web质量的垃圾网页分级检测原型系统。 最后,本文设计了多组对比实验,使用WEBSPAM-UK2007网页样本集和中文网页样本集对垃圾网页分级检测系统进行了验证。实验结果表明,本文提出的分级检测机制具有令人满意的效果。
[Abstract]:With the rapid development of Internet explosion , the use of search engine to get information has become one of the most frequently used Web applications . The appearance of spam web pages reduces the efficiency and reputation of the search engine , and may lead to malicious attacks or economic losses . At the same time , it can lead users to suffer malicious attacks or economic losses . Therefore , how to effectively detect spam web pages and secure Web information security has become a major challenge for Internet search engines . The detection of spam web pages is a classification problem . The traditional spam web page detection method trains the classifier by extracting features of the web page , and classifies the untagged web pages by the generated classification model . Finally , a series of comparison experiments are designed , and the classification and detection system of spam web pages is verified by using Web page sample set and Chinese webpage sample set . The experimental results show that the grading detection mechanism proposed in this paper has a satisfactory effect .
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP393.092
【参考文献】
相关期刊论文 前4条
1 韩晓红;胡_g;;K-means聚类算法的研究[J];太原理工大学学报;2009年03期
2 徐远超;刘江华;刘丽珍;关永;;基于Web的网络爬虫的设计与实现[J];微计算机信息;2007年21期
3 朱焱;唐慧佳;马永强;;基于ISO/IEC 9126的Web资源质量评测系统[J];西南交通大学学报;2008年02期
4 钟宁,尹旭日,陈世福;基于信息增益的最佳属性集发现方法[J];小型微型计算机系统;2002年04期
,本文编号:1458386
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1458386.html