当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于语义分析的垃圾页面检测算法研究

发布时间:2018-05-05 21:22

  本文选题:搜索引擎 + 垃圾网页检测 ; 参考:《大连理工大学》2013年硕士论文


【摘要】:垃圾网页是针对搜索引擎结果排名设计的,而不是为了提高用户上网体验。为了能使某些页面在搜索引擎的检索排名中比较靠前,垃圾网页制作者往往采用欺骗搜索引擎的手段。垃圾网页的猖獗使得搜索引擎的检索排名越来越不能反映网页的真实价值,用户的搜索体验不断下降,垃圾网页已经成为搜索引擎面临的最大挑战之一。因此,研究有效的垃圾网页检测算法具有深远的意义。 本文首先对搜索引擎的工作原理进行了简单描述,并介绍了几种常用的垃圾网页检测技术,对他们的研究状况做了简单的分析。接着说明了这些技术的基本原理以及他们的特点,总结了一系列反搜索引擎技术。 本文针对垃圾网页的特点,围绕特征提取和分类器设计等关键问题进行了研究,并用机器学习的方法,系统设计了垃圾网页检测框架。核心思想是提取网页中具有代表性的内容特征,然后用机器学习算法训练这些特征,构建检测模型,再用生成的检测模型对网页进行分类。这样就把垃圾网页的检测转化成机器学习中的分类问题,采用C4.5决策树算法,将网页分类为正常网页和垃圾网页。之后又加入了Bagging和Boosting方法,进一步提高了分类的准确度。本文在公开的标准测试数据集WEBSPAM-UK2007上进行了实验,实验结果表明用本文的基于语义分析的分类算法可以有效的检测垃圾网页。
[Abstract]:Spam pages are designed for ranking search engine results, not for improving the user's online experience. In order to make some pages rank higher in search engines, spam web page makers often use the means of cheating search engines. The rampant spam pages make the search ranking of search engines more and more unable to reflect the true value of web pages, and the search experience of users is declining. Spam pages have become one of the biggest challenges facing search engines. Therefore, it is of great significance to study the effective spam detection algorithm. In this paper, the working principle of search engine is briefly described, and several common spam page detection techniques are introduced, and their research status is analyzed briefly. Then it explains the basic principle of these technologies and their characteristics, and summarizes a series of anti-search engine technologies. According to the characteristics of garbage pages, this paper studies the key problems such as feature extraction and classifier design, and designs the detection framework of garbage pages by means of machine learning. The core idea is to extract the representative content features from web pages, then train these features with machine learning algorithm, construct the detection model, and then use the generated detection model to classify the web pages. In this way, the detection of garbage pages is transformed into a classification problem in machine learning, and C4.5 decision tree algorithm is used to classify web pages into normal pages and junk pages. Then Bagging and Boosting methods were added to further improve the accuracy of classification. The experimental results on the open standard test data set (WEBSPAM-UK2007) show that the classification algorithm based on semantic analysis can effectively detect garbage pages.
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 王秋;;校园网页设计[J];中国教育网络;2008年12期

2 一号;;Dreamweaver必备网页设计技巧[J];网络与信息;2007年02期

3 ;平面设计师生存手册(3) 机会风从网上来[J];电脑爱好者;2009年20期

4 阿嘉;;东方网页王Ⅲ 网页制作一气呵成[J];电脑采购周刊;2001年43期

5 余晶;韩俊;;新闻网站设计中的视觉传达[J];新闻前哨;2008年01期

6 刘海桃;;浅谈网页设计[J];科技传播;2010年21期

7 林文发;;网页设计中的色彩搭配[J];信息与电脑(理论版);2010年12期

8 段新宇;;浅谈网页设计中的文字运用[J];赤峰学院学报(自然科学版);2007年01期

9 唐雨薇;;CSS在网页编程应用[J];中国商界(下半月);2010年07期

10 郑文硕;;如何搞好网页设计的布局[J];China's Foreign Trade;2011年04期

相关会议论文 前10条

1 王谨;;水墨风格在网页设计中的运用[A];城市文化与艺术审美[C];2008年

2 许文惠;;图书馆网站及网页设计初探[A];图书馆理论与实践[C];2002年

3 王新;滕玉才;李长富;;浅谈船上甚高频无线电话使用中的不良现象与管理[A];2002航海实用新技术论文集[C];2002年

4 孙宇航;;科技期刊网站的建设探讨[A];第4届中国科技期刊青年编辑学术研讨会论文集[C];2004年

5 姚秋明;甄莉;;基于NEWS油藏综合解释系统的网站建设[A];油气地球物理实用新技术——中国石化石油勘探开发研究院南京石油物探研究所2005年学术交流会论文集[C];2005年

6 杨孙超;;县级公共图书馆网站建设的思考[A];福建省图书馆学会2006年学术年会论文集[C];2006年

7 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年

8 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[A];第三届学生计算语言学研讨会论文集[C];2006年

9 杜玉梅;杜习英;刘晓云;;中小企业网站建设方案[A];计算机模拟与信息技术会议论文集[C];2001年

10 余嵘华;;大学物理网上教学系统的安全设计[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年

相关重要报纸文章 前10条

1 本报记者 黄继新;反垃圾信息:技术抑或法律?[N];经济观察报;2004年

2 杨永猛;西藏移动维护消费者权益[N];人民邮电;2008年

3 苗莎莎;内蒙古移动遏制不良信息出新举[N];人民邮电;2008年

4 何宗卯 本报特约记者 李典胜;向垃圾信息说不[N];解放军报;2011年

5 本报记者 刘燕;各大社区联手打响垃圾信息围歼战[N];科技日报;2011年

6 ;垃圾信息有望缴清[N];中国电脑教育报;2011年

7 本报记者 秦国防;绿色联盟能否扫清信息垃圾[N];河南日报;2008年

8 记者 周国勇 实习生 金丹;手文明:你会丢东西吗?[N];绍兴日报;2011年

9 张英;权威调查:用户平均每周收到8.29条垃圾短信[N];人民邮电;2006年

10 魏达嘉;跳出“一企一事” 关注国计民生[N];文汇报;2006年

相关博士学位论文 前10条

1 程红蓉;垃圾图像特征提取与选择研究[D];电子科技大学;2011年

2 李辉;移动商务导购系统的研究[D];大连理工大学;2008年

3 夏虎;移动社交网络结构和行为研究及其应用[D];电子科技大学;2012年

4 卢湖川;人脸识别中几个关键算法研究[D];大连理工大学;2008年

5 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年

6 邓蔚;垃圾邮件过滤中的敌手分类问题研究[D];电子科技大学;2011年

7 张开敏;移动Web浏览系统的若干关键技术研究[D];中国科学技术大学;2012年

8 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年

9 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年

10 赖布尔(Muhammad Nabeel Talib);语义支持的一种面向盲人使用者的电子商务语音浏览方法研究[D];华中科技大学;2011年

相关硕士学位论文 前10条

1 彭聪;一种在移动网络环境下的网页排序算法的研究[D];湖南大学;2010年

2 刘俊荣;基于行为识别的网页文本分类算法研究与实现[D];北京邮电大学;2010年

3 宋鳌;网页去噪在交互电视中的应用与研究[D];上海交通大学;2011年

4 任昌;基于多特征融合的网页对象自动定位技术研究[D];中北大学;2011年

5 刘阳;基于内容的搜索引擎网页去重研究[D];江苏大学;2010年

6 陈烨;面向用户体验的网页界面优化设计方法研究[D];重庆大学;2010年

7 刘典型;多页面特殊网页文字提取与合并技术研究[D];湖南大学;2010年

8 董娟;基于页面结构分析的网页信息抽取方法研究[D];中国石油大学;2010年

9 李文娇;基于语义分析的垃圾页面检测算法研究[D];大连理工大学;2013年

10 宋玲;网页交互设计的视觉体验[D];西安美术学院;2010年



本文编号:1849346

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1849346.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户88331***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com