当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于关键词的垃圾网页判别研究

发布时间:2017-04-29 07:05

  本文关键词:基于关键词的垃圾网页判别研究,,由笔耕文化传播整理发布。


【摘要】:目前搜索引擎已经成为网民获取信息的主要渠道,但是搜索引擎中存在一些垃圾网页。这些垃圾网页不仅浪费了搜索引擎的资源,也影响了网民的搜索体验。垃圾网页具有以下特征:网页中存在大量的无关跳转链接;网页内容杂乱无序,不能提供有用的信息;存在SEO作弊。目前的研究主要是利用自然语言处理和机器学习的方法进行垃圾网页的判别。语义分析需要预先建立庞大的语料库和繁琐的标注工作,机器学习的方法同样需要预先进行自然语言的处理。自然语言处理耗时比较长、处理难度较大。本研究的目的建立一系列指标来描述一个网页,根据这些指标利用统计判别方法进行垃圾网页的识别,避免自然语言处理和机器学习的麻烦。本研究从网页整体维度、文本维度和链接维度三个方面分别建立一套指标来描述一个网页,使用fisher判别法、logistic回归和贝叶斯判别三种常用的统计判别方法进行指标体系判别效果的分析验证,根据判别的有效性和准确性来进行指标合理性的验证。为了验证利用统计方法进行垃圾网页的判别具有可操作性,本研究在采用计算机自动进行网页的解析工作,利用中文分词技术对网页文本进行分词处理,然后统计出各个指标的数值。
【关键词】:统计判别 垃圾网页 指标体系 关键词
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3;TP393.092
【目录】:
  • 摘要4-5
  • ABSTRACT5-8
  • 第1章 绪论8-18
  • 1.1 课题来源及研究的目的和意义8-10
  • 1.1.1 课题来源8-9
  • 1.1.2 课题研究的目的和意义9-10
  • 1.2 国内外在该方向的研究现状及分析10-15
  • 1.2.1 垃圾网页概述10-12
  • 1.2.2 网页解析研究现状12-13
  • 1.2.3 垃圾网页过滤研究现状13-15
  • 1.2.4 研究现状分析15
  • 1.3 本文主要研究内容及论文结构15-18
  • 1.3.1 主要内容15-16
  • 1.3.2 论文结构16-18
  • 第2章 网页内容解析方法研究18-32
  • 2.1 网页结构分析18-20
  • 2.1.1 页面的结构特点及其表示18-20
  • 2.1.2 基于HTML标签的页面结构分析20
  • 2.2 网页内容提取方法设计20-26
  • 2.2.1 网页内容提取原理20-22
  • 2.2.2 页面结构标准化算法设计22-23
  • 2.2.3 标签树构建算法设计23-25
  • 2.2.4 网页内容提取方法实现25-26
  • 2.3 网页内容文本的切分方法设计26-30
  • 2.3.1 正向定长词语切分方法26-27
  • 2.3.2 词语获取规则27-29
  • 2.3.3 复合词组合算法29-30
  • 2.4 本章小结30-32
  • 第3章 垃圾网页判别方法研究32-41
  • 3.1 垃圾网页特征分析32-35
  • 3.1.1 滥发关键词32-33
  • 3.1.2 滥发链接33-34
  • 3.1.3 内容杂乱34-35
  • 3.2 构建判别指标35-39
  • 3.2.1 网页维度指标35-37
  • 3.2.2 文本维度指标37-38
  • 3.2.3 链接维度指标38-39
  • 3.3 统计判别方法39-40
  • 3.3.1 FISHER判别法39
  • 3.3.2 LOGISTIC回归39-40
  • 3.3.3 贝叶斯判别40
  • 3.4 本章小结40-41
  • 第4章 数据验证及结果分析41-52
  • 4.1 数据收集41-45
  • 4.1.1 数据源和数据量41-42
  • 4.1.2 数据结构42-43
  • 4.1.3 数据处理43-45
  • 4.2 指标体系判别方法可行性分析45-49
  • 4.2.1 FISHER判别法45-47
  • 4.2.2 LOGISTIC回归47-48
  • 4.2.3 贝叶斯判别48-49
  • 4.3 指标体系判别方法实用性分析49-51
  • 4.3.1 定义判别指标49-50
  • 4.3.2 统计判别结果50-51
  • 4.4 本章小结51-52
  • 结论52-54
  • 参考文献54-58
  • 致谢58

【参考文献】

中国期刊全文数据库 前2条

1 高爽;张化祥;房晓南;;基于独立成分分析和协同训练的垃圾网页检测[J];山东大学学报(工学版);2013年02期

2 李兆翠;朱振方;许红云;;基于SVM的三重网页过滤方法研究[J];软件导刊;2014年11期


  本文关键词:基于关键词的垃圾网页判别研究,由笔耕文化传播整理发布。



本文编号:334378

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/334378.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7324a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com