基于主题与语义的作弊网页检测方法研究
发布时间:2017-05-02 11:01
本文关键词:基于主题与语义的作弊网页检测方法研究,由笔耕文化传播整理发布。
【摘要】:随着互联网的高速发展,网络中的信息量呈爆炸式增长,互联网已经成为人们获取信息的最主要渠道之一。作为信息检索过程中不可缺少的重要工具,搜索引擎在给人们带来便利的同时,也给用户带来了潜在的安全隐患。网页作弊(Web Spam)是一种通过不正当方式来误导搜索引擎,从而向用户提供不良信息的行为,其严重影响用户的上网体验,给用户带来了安全隐患,同时也影响着搜索引擎的性能。如何对作弊网页进行识别与过滤,提供高质量的搜索结果,已成为现代搜索引擎的巨大挑战之一。本文的主要研究内容以及研究成果包括:(1)研究网页作弊的相关原理及技术。对搜索引擎相关原理进行分析,并研究了搜索结果排序原理,如TFIDF模型与PageRank等算法;结合搜索引擎结果排序原理,分析作弊网页的特点,研究作弊原理以及相关技术;根据常见的网页作弊手段,研究对应的反作弊方法。(2)提出了一种基于主题与语义的作弊网页检测方法。对主题模型与语义分析原理进行分析;研究作弊网页在主题与语义方面的特点,提出基于主题与语义的检测特征;对网页内容进行主题建模与语义分析,提取相关特征;构建分类器对作弊网页进行分类识别。(3)设计并实现了一个基于主题与语义的作弊网页检测系统。构建网络爬虫程序,实现对互联网网页的抓取;对网页进行分析与处理,进行主题建模,提取相关特征,构建检测样本;构建机器学习分类器,对网页进行分类检测,并展示结果。(4)设计实验对本文提出的基于主题与语义的作弊网页检测方法的可行性进行验证。实验结果表明,本文提出的作弊网页检测方法能够有效的对作弊网页进行识别,比起传统的基于统计的检测方法,本文的方法可以获得更高的精确率、查全率与F1测度。
【关键词】:网页作弊 搜索引擎 主题模型 语义分析
【学位授予单位】:北京化工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092;TP391.1
【目录】:
- 学位论文数据集3-4
- 摘要4-6
- ABSTRACT6-14
- 第一章 绪论14-20
- 1.1 研究背景及意义14
- 1.2 国内外研究现状14-16
- 1.3 主要研究工作和创新点16-17
- 1.3.1 主要研究工作16-17
- 1.3.2 本课题的创新点17
- 1.4 本文组织结构17-20
- 第二章 相关理论20-32
- 2.1 搜索引擎20-21
- 2.2 搜索引擎结果排序算法21-23
- 2.2.1 TF/IDF21-22
- 2.2.2 PageRank算法22
- 2.2.3 HITS算法22-23
- 2.3 网页作弊23-25
- 2.3.1 基丁内容的作弊23-24
- 2.3.2 基于链接的作弊24
- 2.3.3 隐藏的作弊24-25
- 2.3.4 其他的作弊方式25
- 2.4 反作弊技术25-27
- 2.4.1 基于内容的作弊识别25-26
- 2.4.2 基于链接的作弊识别26
- 2.4.3 其他的反作弊技术26-27
- 2.5 主题模型27
- 2.6 决策树分类27-30
- 2.6.1 ID3算法与C4.5算法28-29
- 2.6.2 随机森林算法29-30
- 2.6.3 集成学习30
- 2.7 本章小结30-32
- 第三章 基于主题模型与语义分析的Web Spam检测方法研究32-42
- 3.1 基于主题模型的语义分析方法32-33
- 3.2 特征表示33-39
- 3.2.1 基于主题与语义的特征33-38
- 3.2.2 基于统计的特征38-39
- 3.3 基于主题模型与语义分析的作弊网页检测算法39-41
- 3.3.1 算法思想与框架39-40
- 3.3.2 特征提取40-41
- 3.3.3 学习分类41
- 3.4 本章小结41-42
- 第四章 作弊网页检测系统设计与实现42-54
- 4.1 作弊网页检测系统架构设计42-43
- 4.2 数据存储模块设计43-45
- 4.3 网页抓取模块设计45-46
- 4.4 样本构建模块设计46-49
- 4.4.1 网页特征提取47-48
- 4.4.2 网页样本构建48-49
- 4.5 网页检测模块设计49
- 4.6 系统实现49-53
- 4.7 本章小结53-54
- 第五章 实验分析54-60
- 5.1 实验数据集54-55
- 5.2 实验评测指标55
- 5.3 实验过程与结果分析55-58
- 5.3.1 比较LDA参数K与twords对检测效果的影响56-57
- 5.3.2 比较不同分类器的检测效果57-58
- 5.3.3 与其他检测方法的效果比较58
- 5.4 本章小结58-60
- 第六章 总结与展望60-62
- 6.1 全文总结60
- 6.2 未来展望60-62
- 参考文献62-66
- 致谢66-68
- 研究成果及发表的学术论文68-70
- 作者与导师简介70-71
- 附件71-72
【参考文献】
中国期刊全文数据库 前2条
1 刘宏哲;须德;;基于本体的语义相似度和相关度计算研究综述[J];计算机科学;2012年02期
2 黄宇达;范太华;;决策树ID3算法的分析与优化[J];计算机工程与设计;2012年08期
本文关键词:基于主题与语义的作弊网页检测方法研究,由笔耕文化传播整理发布。
,本文编号:340795
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/340795.html