WEB信息资源主题搜索技术研究
发布时间:2017-10-01 14:34
本文关键词:WEB信息资源主题搜索技术研究
更多相关文章: 主题搜索 网络爬虫 主题判定 网页去重 中文分词
【摘要】:随着网络技术的发展、Web3.0时代的到来以及信息需求的变化,通用搜索引擎的缺点表现得越来越明显。互联网上每天都有海量信息生成、共享和更新,而目前通用搜索引擎更新的时间相对较久,不能满足人们日益增长的个性化服务的需要,,主题搜索技术的出现将很好地解决这一问题。 本文对通用搜索引擎的出现、发展以及搜索引擎的基本知识、技术进行了研究,并系统的分析了搜索引擎的系统结构、关键技术;在此基础上对通用搜索引擎与主题搜索引擎的关键技术进行了重点研究、对比,并对主题搜索引擎中的关键技术进行了剖析。 在上述研究的基础上,本文在Nutch开源软件的基础上设计实现了垂直搜索引擎的各个模块,主要就主题判定、网页去重、中文分词等模块进行了算法的设计与改进,使得垂直搜索引擎的准确率、召回率和效率都远远高于通用搜索引擎。主要工作包括: 1)就目前比较成熟的网络爬虫策略算法的PageRank、HITS、Partial PageRank进行了研究,针对现存的问题提出了新的爬取策略IPR(Improved PageRank)算法,可以实现主题信息的重点提取与保存。 2)各式各样的网站层出不穷,相同的内容可能被几个网站同时报道、登录,这将造成网页的重复爬取与存取,所以网页的去重是本文研究的重点之一,主要就网页信息的提取、网页相似度的对比判定进行了研究改进,降低存储网页的重复率。 3)中文分词是中文搜索引擎的关键技术之一,好的中文分词是搜索引擎高召回率、高效率的保障,本文在最大匹配算法的基础上提出了IMMM算法,配合主题搜索引擎很好的提高了分词准确率。
【关键词】:主题搜索 网络爬虫 主题判定 网页去重 中文分词
【学位授予单位】:河北工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
- 摘要4-5
- ABSTRACT5-8
- 第一章 绪论8-14
- 1.1 课题研究背景8-9
- 1.2 主题搜索的国内外研究现状9-10
- 1.3 论文的主要研究内容10-12
- 1.4 论文章节安排12-14
- 第二章 搜索引擎技术概述14-28
- 2.1 搜索引擎的出现及其发展14-15
- 2.2 搜索引擎的 4 大需求15-16
- 2.3 搜索引擎的 4 大体系16-22
- 2.3.1 下载系统16-18
- 2.3.2 分析系统18-20
- 2.3.3 索引系统20-21
- 2.3.4 查询系统21-22
- 2.4 主题搜索引擎的出现22-26
- 2.4.1 主题搜索引擎与通用搜索引擎的区别23-25
- 2.4.2 主题搜索引擎的优势25-26
- 2.5 本章小结26-28
- 第三章 主题搜索主要技术剖析28-36
- 3.1 主题相关性判断28-31
- 3.1.1 主题相关性28-29
- 3.1.2 主题相关性算法29-31
- 3.2 网页去重问题31-32
- 3.2.1 网页去重策略31
- 3.2.2 网页重复判断算法31-32
- 3.3 中文分词32-35
- 3.3.1 中文分词的应用32-33
- 3.3.2 中文分词的分类33-35
- 3.4 本章小结35-36
- 第四章 主题搜索系统设计实现36-56
- 4.1 Nutch 介绍36-38
- 4.1.1 Nutch 体系结构36-37
- 4.1.2 Nutch 工作流程37-38
- 4.2 主题搜索设计框架38-39
- 4.3 主题爬虫模块的设计与实现39-43
- 4.3.1 主题相关度判断40-41
- 4.3.2 爬虫链接更新策略41-43
- 4.4 网页去重模块的设计与实现43-50
- 4.4.1 属性信息的提取45-48
- 4.4.2 网页重复度计算48-50
- 4.5 中文分词模块的设计与实现50-54
- 4.5.1 中文分词算法设计50-53
- 4.5.2 中文分词模块实现53-54
- 4.6 本章小结54-56
- 第五章 主题搜索系统测试56-60
- 5.1 测试系统环境56
- 5.2 测试系统部署56
- 5.3 系统主要模块测试与分析56-59
- 5.4 本章小结59-60
- 第六章 总结与展望60-62
- 6.1 本文总结60-61
- 6.2 展望61-62
- 参考文献62-66
- 攻读学位期间所取得的相关科研成果66-68
- 致谢68
【参考文献】
中国期刊全文数据库 前5条
1 钱揖丽,郑家恒;文本切分知识获取及其应用[J];计算机工程与应用;2003年02期
2 付年钧;彭昌水;王慰;;中文分词技术及其实现[J];软件导刊;2011年01期
3 陈军;陈竹敏;;基于网页分块的Shark-Search算法[J];山东大学学报(理学版);2007年09期
4 邵秀丽;刘彬;张涛;;基于Nutch的垂直搜索引擎的设计和实现[J];计算机工程与设计;2011年02期
5 闻玉彪;贾时银;邓世昆;李远方;;一种改进的最大匹配中文分词算法[J];计算机技术与发展;2011年10期
本文编号:954040
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/954040.html