基于Lucene的垂直搜索引擎的研究与实现
本文关键词:基于Lucene的垂直搜索引擎的研究与实现
更多相关文章: 垂直搜索引擎 Heritrix Lucene HtmlParser 中文分词算法
【摘要】:随着互联网上的信息不断膨胀以及信息形式的日渐多元化,通用搜索引擎所需要采集、索引和查询的内容越来越多,然而面对庞大的搜索返回结果,用户寻找自己所需要的信息是一件很费力的事情。所以,一个专注于特定领域的、数据全面深入、更新及时、注重专业化与结构分析的垂直搜索引擎应运而生,如何准确、及时地返回结构化的信息,以及如何实现垂直搜索引擎在特定领域中的应用具有重要的研究意义。 在搜索引擎领域,中文分词对搜索结果排名的影响非常大,因为搜索引擎在建立索引和检索结果的过程中,都需要先分词。本文在深入研究基于理解的分词、基于统计的分词和基于词典的分词、以及歧义词和未登录词处理的基础上,设计了一种基于字典的字符串匹配方法和基于统计相结合的分词算法,其中基于字典的方法采用逆向最大匹配方法。算法中的词典由核心词典和临时词典组成,并且核心词典采用二级哈希存储结构,在此基础上使用整词二分法的首字哈希查找技术,可在兼顾结构简单、空间占用小的情况下提高查找效率。临时词典采用单字哈希以简化其构造和维护。统计策略是解决歧义问题及未登录词问题的关键,一个好的统计策略的制定至关重要。本文计算词频的统计策略来解决新词的识别,其中新词包括未登录词和歧义词。实验证明,改进后的分词算法在经过不断的统计与学习之后,分词准确率保持在98%左右,选择合适的语料,经过不断地统计与学习,其性能得到很大的提高并能满足具体领域的应用。 在改进的中文分词算法基础上,本文针对手机信息的特点和手机产品详细信息的搜索需求进行需求分析,在Eclipse开发环境中利用Lucene开源框架实现了一个可在Tomcat服务器上运行的手机信息垂直搜索引擎系统。该系统的设计方案为:首先改进Heritrix爬虫框架,在Heritrix开源爬虫框架中定制特定的抓取手机网页的类,对互联网上电子商务网站中的手机信息进行采集,然后使用正则表达式和HtmlParser提取网页内容,并在系统中加入中文分词算法对信息进行处理,同时构建手机信息词库,建立手机信息数据库和索引结构,实现用于接收用户查询信息的检索功能,最后将查询结果返回给用户。通过系统测试,本文设计的手机信息垂直搜索引擎返回的结果准确率高、性能良好,能够满足用户需要,该设计方法具有可借鉴性,可在其他领域应用。
【关键词】:垂直搜索引擎 Heritrix Lucene HtmlParser 中文分词算法
【学位授予单位】:成都理工大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3
【目录】:
- 摘要4-6
- Abstract6-10
- 第1章 引言10-13
- 1.1 研究背景10-11
- 1.2 研究现状11-12
- 1.3 研究内容12-13
- 第2章 垂直搜索引擎的关键技术13-22
- 2.1 垂直搜索引擎概述13-15
- 2.1.1 垂直搜索引擎简介13
- 2.1.2 垂直搜索的特点13-14
- 2.1.3 垂直搜索引擎框架14-15
- 2.2 Heritrix网络爬虫简介15-17
- 2.2.1 Heritrix的工作流程及其构架15
- 2.2.2 Heritrix主要组件包含的类15-17
- 2.3 Lucene全文搜索框架17-22
- 2.3.1 Lucene的索引18-21
- 2.3.1.1 Lucene的索引记录19-20
- 2.3.1.2 Lucene的索引工具20-21
- 2.3.2 Lucene的搜索方式21-22
- 第3章 中文分词算法22-38
- 3.1 中文分词技术概述22-25
- 3.1.1 中文分词代表23-24
- 3.1.2 中文分词系统的评价标准24-25
- 3.2 中文分词算法的分类25
- 3.2.1 基于字符串匹配的分词方法25
- 3.2.2 基于理解的分词方法25
- 3.2.3 基于统计的分词方法25
- 3.3 中文分词技术面临的问题25-28
- 3.3.1 歧义识别26-27
- 3.3.2 未登录词的识别27-28
- 3.4 中文分词算法28-34
- 3.4.1 算法设计所针对的问题28
- 3.4.2 分词词典的设计28-31
- 3.4.3 统计策略的设计31
- 3.4.4 语料库的获取31-32
- 3.4.5 分词算法32-34
- 3.5 实验结果分析34-38
- 3.5.1 综合性能测试一34-35
- 3.5.2 综合性能测试二35-36
- 3.5.3 分全率和分词效率实验36
- 3.5.4 歧义词和未登录词处理能力测试36-38
- 第4章 手机信息垂直搜索引擎系统分析38-43
- 4.1 系统功能模块分析38-39
- 4.2 系统功能模块概述39-43
- 4.2.1 网页抓取模块39
- 4.2.2 网页预处理和索引模块39-40
- 4.2.2.1 网页净化与消重39-40
- 4.2.2.2 PageRank算法40
- 4.2.3 用户检索模块40-41
- 4.2.4 后台管理模块41-43
- 第5章 垂直搜索引擎的系统设计与实现43-62
- 5.1 网页抓取模块设计43-46
- 5.1.1 网页抓取流程43-44
- 5.1.2 网页抓取逻辑44-46
- 5.2 网页信息解析模块设计46-48
- 5.3 词库的建立48
- 5.4 数据库与索引结构48-53
- 5.4.1 Product类49
- 5.4.2 数据库结构49
- 5.4.3 数据库处理类49-50
- 5.4.4 索引结构50
- 5.4.5 索引处理类50-51
- 5.4.6 综合处理类51-53
- 5.5 用户检索模块设计53-62
- 5.5.1 信息检索的实现53-54
- 5.5.2 检索结果的排序54-55
- 5.5.3 搜索引擎后台55-57
- 5.5.4 Bean类的设计57
- 5.5.5 Web页面设计与实现57-60
- 5.5.6 手机垂直搜索引擎系统性能评价60-62
- 结论62-64
- 致谢64-65
- 参考文献65-67
- 攻读学位期间取得学术成果67
【参考文献】
中国期刊全文数据库 前9条
1 吴汉荣;曾勇军;;Simply Hired:职位搜索新天地[J];电脑与电信;2009年03期
2 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
3 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
4 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期
5 揭春雨,刘源,梁南元;汉语自动分词实用系统CASS的设计和实现[J];中文信息学报;1991年04期
6 徐秉铮,詹剑,贺前华;基于神经网络的分词方法[J];中文信息学报;1993年02期
7 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
8 王文钧;李巍;;垂直搜索引擎的现状与发展探究[J];情报科学;2010年03期
9 王冬;雷景生;;一种基于PageRank的页面排序改进算法[J];微电子学与计算机;2009年04期
中国硕士学位论文全文数据库 前10条
1 李海升;垂直搜索引擎的研究与实现[D];西安电子科技大学;2009年
2 杜佳伦;面向用户体验需求的垂直搜索引擎的研究[D];吉林大学;2011年
3 李宜兵;基于搜索引擎网页排序算法研究[D];沈阳理工大学;2011年
4 杨成宝;我国搜索引擎市场发展趋势与策略研究[D];山东大学;2011年
5 任丽芸;搜索引擎中文分词技术研究[D];重庆理工大学;2011年
6 仇亚东;面向农业领域的垂直搜索技术的研究[D];南京农业大学;2010年
7 陈洁惠;搜索引擎排序算法的研究[D];河海大学;2007年
8 姜华;基于Lucene面向主题搜索引擎的研究与设计[D];华东师范大学;2007年
9 李广丽;垂直搜索引擎的研究与设计[D];华东交通大学;2008年
10 任军;基于网页结构特征的垂直搜索引擎研究与实现[D];上海交通大学;2008年
,本文编号:1037135
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1037135.html