当前位置:主页 > 科技论文 > 搜索引擎论文 >

主题网络爬虫关键技术的研究与应用

发布时间:2017-05-19 15:16

  本文关键词:主题网络爬虫关键技术的研究与应用,,由笔耕文化传播整理发布。


【摘要】:互联网技术的快速发展带动着Web信息量的急剧增长。从大量网页中快速、准确查找需要的信息,特别是针对特定领域、主题的信息检索成为了人们越来越迫切的需求。搜索引擎如何采集主题相关的Web信息、对信息内容有效组织和定位,并将相关检索结果快速展示给用户变得尤为重要。本文分析了主题爬虫研究的必要性,重点研究了页面主题相关性判别和主题信息在爬虫Web页面搜索中的指导作用。在此基础上,论文对主题爬虫系统的关键模块进行了研究和设计,主要包括以下几个模块:页面下载、正文提取、主题判别、链接价值预测、调度模块和主题库存储模块。所做的主要研究工作如下: (1)分析了网页正文的内容特征和分布特征,按照网页中正文分布遵循一定的规则,提出了一种基于句子分块密度和标点符号的网页正文提取算法。 (2)研究了文本内部词语的分布网络特点,利用基于语义加权网络的关键词提取方法构建训练文本的类别关键词,并设计了一种基于类别关键词的贝叶斯分类器,用于判断网页是否与主题相关。 (3)通过分析Web链接和Web页面分布的特点,提出了一种改进的基于链接内容价值评价的搜索策略。 (4)根据上述页面主题判别算法和改进的搜索策略,用JAVA语言编写了一套主题爬虫系统程序。利用该系统对大量网页进行测试,结果表明上述改进方法效果良好。
【关键词】:主题爬虫 相关性判别 搜索策略 正文提取 关键词提取
【学位授予单位】:北京理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
  • 摘要5-6
  • Abstract6-10
  • 第1章 绪论10-16
  • 1.1 研究背景与意义10-11
  • 1.2 国内外研究现状11-14
  • 1.2.1 国外研究现状12-13
  • 1.2.2 国内研究现状13-14
  • 1.3 研究中的主要问题14
  • 1.4 本文组织结构14-16
  • 第2章 主题爬虫模型16-27
  • 2.1 主题爬虫系统框架17-18
  • 2.2 页面下载模块18-19
  • 2.3 正文提取模块19-23
  • 2.4 主题判别模块23-26
  • 2.4.1 向量空间模型24
  • 2.4.2 常用分类算法24-26
  • 2.5 本章小结26-27
  • 第3章 基于改进贝叶斯分类器的主题判别算法27-39
  • 3.1 朴素贝叶斯分类27-28
  • 3.2 特征降维28-31
  • 3.3 文本关键词自动提取31-36
  • 3.3.1 语义加权网络31-32
  • 3.3.2 词语重要性度量32-34
  • 3.3.3 关键词提取算法34-36
  • 3.4 改进贝叶斯分类器判别主题36-37
  • 3.5 实验分析37-38
  • 3.6 本章小结38-39
  • 第4章 主题搜索策略研究39-48
  • 4.1 Web 链接和页面分布特性39-41
  • 4.1.1 链接构成分析39
  • 4.1.2 主题页面分布特性39-41
  • 4.2 通用搜索策略41-42
  • 4.3 常用主题搜索策略42-44
  • 4.3.1 基于内容评价的搜索策略42-43
  • 4.3.2 基于链接结构评价的搜索策略43-44
  • 4.4 改进的 Best-First 搜索策略44-47
  • 4.5 本章小结47-48
  • 第5章 主题爬虫系统设计与实现48-58
  • 5.1 主题爬虫系统实现48-51
  • 5.1.1 软硬件环境48
  • 5.1.2 系统实现结构48-49
  • 5.1.3 系统工作流程49-51
  • 5.2 正文提取模块测试51-52
  • 5.2.1 单一页面测试51-52
  • 5.2.2 准确率测试52
  • 5.3 关键词提取模块测试52-54
  • 5.3.1 单文本测试52-53
  • 5.3.2 准确率测试53-54
  • 5.4 主题判别模块测试54-56
  • 5.4.1 基于类别关键词的贝叶斯分类算法搜索效率测试54-55
  • 5.4.2 类别关键词比例λ的设置55-56
  • 5.5 改进的搜索策略测试56-57
  • 5.6 本章小结57-58
  • 结论58-60
  • 参考文献60-64
  • 攻读硕士期间发表论文与研究成果清单64-65
  • 致谢65

【参考文献】

中国期刊全文数据库 前10条

1 宋明秋;张瑞雪;吴新涛;李文立;;网页正文信息抽取新方法[J];大连理工大学学报;2009年04期

2 张丽敏;;垂直搜索引擎的主题爬虫策略[J];电脑知识与技术;2010年15期

3 高燕;;关键词自动标引方法综述[J];电子世界;2012年06期

4 杨丽萍;;网页正文提取技术的分析与研究[J];计算机光盘软件与应用;2012年22期

5 李静梅,孙丽华,张巧荣,张春生;一种文本处理中的朴素贝叶斯分类器[J];哈尔滨工程大学学报;2003年01期

6 卢苇;彭雅;;几种常用文本分类算法性能比较与分析[J];湖南大学学报(自然科学版);2007年06期

7 李学勇,欧阳柳波,李国徽,钟敏娟;网络蜘蛛搜索策略比较研究[J];计算机工程与应用;2004年04期

8 印鉴,陈忆群,张钢;搜索引擎技术研究与发展[J];计算机工程;2005年14期

9 李学勇,田立军,谭义红,欧阳柳波,李国徽;一种基于非贪婪策略的网络蜘蛛搜索算法[J];计算技术与自动化;2004年02期

10 李勇;韩亮;;主题搜索引擎中网络爬虫的搜索策略研究[J];计算机工程与科学;2008年03期


  本文关键词:主题网络爬虫关键技术的研究与应用,由笔耕文化传播整理发布。



本文编号:379041

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/379041.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1d046***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com