基于Lucene和Heritrix的小型主题搜索引擎的研究及实现
本文关键词:基于Lucene和Heritrix的小型主题搜索引擎的研究及实现,由笔耕文化传播整理发布。
【摘要】:近年来互联网不断高速的发展,网络上的信息越来越繁杂。光靠用户自己定位寻找信息已经越来越不可行,用户对信息搜索的需求越来越大。而目前通用搜索引擎提供给用户的搜索结果往往掺杂了很多的不必要信息,用户开始寻求更准确的搜索专项内容的搜索引擎。所以对专项搜索引擎技术的研究显得很有必要。本文分析了搜索引擎的主要组成模块和实现的基本步骤,介绍了一些在搭建搜索引擎时需要的背景知识。将构建专项搜索引擎拆分为数据搜集处理和数据搜索这两个主要的处理模块。结合Heritrix的源代码和架构,研究并实现了数据搜集模块,包括url的解析和分配、多线程机制的实现等。对Heritrix在面向专项内容进行搜索时的不足之处进行了原因分析,提出了具体改进的方法。解决了包括仅针对专项网页内容进行url解析,针对爬虫多线程机制在单一网站搜集时失效等多个问题。并给出了利用正则表达式对搜集完的数据信息进行预处理的方法。结合Lucene信息检索工具包的源代码分析,实现了数据搜索模块。并根据专项搜索的需求,定制了专门对返回的搜索结果进行进一步排序和过滤的机制。针对Lucene工具包对中文的支持度不够,在对查询语句的关键词划分时,增加了一些对中文语言的优化支持。在分析实现的过程中结合了具体的编程语言机制,说明了在该语言下实现时的一些注意事项。最后示范了一个对某一网站中散文类别的文章进行专项搜集和对其搜索的主题搜索引擎的实现方法。针对主题搜索引擎的主要功能点进行了相关的测试验证,并在最后根据其它的搜索查找原理对搜索结果进行了验证。从最后的搜索的结果来看,准确取得了预期的搜索结果。并在数据搜集阶段充分利用了多线程机制提升了搜集速度。在研究过程中,也存在一些不足和缺陷。比如没有采用分布式的机制去实现搜索。对搜索引擎的用户界面没有优化,对用户不够友好。后续会考虑采用Solr和DWR技术来实现一个友好的用户交互界面。DWR是一个Ajax封装框架。可以较方便的实现在浏览器交互。本主题搜索引擎在对中文分词的过程中并没有采取比较好的词典分词方法。因为采用词典分词方法的话,对词典的构建,需要大量的人工数据统计与分析工作。以后会在一个合适的词典库的基础上构建一个自己的分词库。在给出搜索结果时,只是给出了相关文章内容的首行文字作为简介。不如给出文章中相关关键词附近的文本内容作为简介的方式更加形象。
【关键词】:Lucene 多线程 正则表达式 Heritrix 搜索引擎
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.52;TP391.3
【目录】:
- 摘要5-6
- ABSTRACT6-11
- 符号对照表11-12
- 缩略语对照表12-15
- 第一章 绪论15-21
- 1.1 论文研究目的和意义15-16
- 1.2 搜索引擎和网络爬虫的发展与概述16-18
- 1.2.1 搜索引擎的概念和发展历史16-18
- 1.2.2 网络爬虫的概念18
- 1.3 本文的工作内容18-19
- 1.4 本章小结19-21
- 第二章 专项主题搜索引擎的相关技术21-29
- 2.1 常见索引形式的介绍21-22
- 2.2 正则表达式的介绍22-23
- 2.3 网络爬虫的常用技术分析23-27
- 2.4 本章小结27-29
- 第三章 搜索引擎信息准备过程的研究与实现29-47
- 3.1 开源网络爬虫Heritrix的结构分析与研究29-37
- 3.2 Heritrix爬虫功能扩展与定制的实现37-44
- 3.2.1 Heritrix爬虫需要改进的地方37-39
- 3.2.2 Heritrix爬虫功能扩展与定制的实现39-44
- 3.3 从网页中提取索引内容的实现44-46
- 3.4 本章小结46-47
- 第四章 Lucene全文搜索工具的分析研究与扩展定制47-65
- 4.1 对Lucene的原理分析与研究47-57
- 4.1.1 Lucene建立索引的过程分析47-52
- 4.1.2 Lucene对建立好的索引进行搜索的方法52-54
- 4.1.3 Lucene对搜索结果的处理方法54-57
- 4.2 针对主题搜索引擎而对Lucene进行的定制57-63
- 4.2.1 对返回搜索结果的排序和过滤规则的定制57-59
- 4.2.2 在关键词划分时进行筛选和过滤方法的定制59-61
- 4.2.3 对查询语句的一些中文优化61-63
- 4.3 本章小结63-65
- 第五章 主题搜索引擎的实现与测试65-75
- 5.1 信息搜集的实现过程65-68
- 5.2 信息搜索查询的实现68-70
- 5.3 针对散文主题的搜索过滤方法70-71
- 5.4 主题搜索引擎的功能测试71-74
- 5.5 本章小结74-75
- 第六章 结束语75-77
- 6.1 完成的工作75
- 6.2 需要改进和继续研究的地方75-77
- 参考文献77-79
- 致谢79-81
- 作者简介81
【相似文献】
中国期刊全文数据库 前10条
1 余川江;;基于Lucene的垂直搜索引擎的研究与实现[J];经营管理者;2014年11期
2 孔维亭;闫宏印;;基于Lucene的自动答疑系统的设计[J];电脑开发与应用;2012年04期
3 喻金平;谭鸣;夏小云;;基于Lucene技术的垂直搜索引擎的研究[J];软件导刊;2008年03期
4 陈忱;;Lucene排序算法的个性化改进[J];科技与企业;2012年02期
5 阮曙芬;;基于Lucene的全文搜索排序算法的研究与改进[J];武汉纺织大学学报;2013年06期
6 葛振国;李建;何林糠;吴军;;基于Lucene的Oracle数据库全文检索[J];信息技术;2010年03期
7 冯宇;;基于模糊层次分析法的Lucene网页排序算法研究[J];计算机与现代化;2011年01期
8 杨元峰;赵敏涯;廖黎莉;;基于Lucene的客服知识库系统结构设计[J];福建电脑;2012年01期
9 陈艳春;李双平;;基于Lucene的企业级搜索引擎的设计与实现[J];现代图书情报技术;2007年08期
10 匡振国;倪宏;嵇智辉;刘磊;;一种基于Lucene的影片搜索引擎的研究和应用[J];计算机工程与应用;2008年29期
中国重要会议论文全文数据库 前2条
1 朱高平;乐嘉锦;;基于刻面分类和Lucene架构的Web服务发现技术的研究[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
2 刘寿强;;基于Lucene的分级鉴权企业搜索引擎研究与设计[A];第二十一次全国计算机安全学术交流会论文集[C];2006年
中国硕士学位论文全文数据库 前10条
1 于雪丽;LUCENE中文分词在科研文档全文检索系统的应用研究[D];青岛大学;2011年
2 孙静;基于Lucene的手机查询软件的研究与实现[D];重庆大学;2014年
3 文义;基于LUCENE的群体个性化搜索引擎研究[D];武汉理工大学;2010年
4 张彬;基于lucene的搜索引擎[D];上海师范大学;2010年
5 张正龙;基于LUCENE的主题搜索引擎研究与实现[D];重庆大学;2008年
6 杨光伟;基于Lucene的个性化搜索引擎的研究与实现[D];内蒙古大学;2009年
7 花洁;基于Lucene的搜索引擎应用与研究[D];湖北工业大学;2009年
8 姜华;基于Lucene面向主题搜索引擎的研究与设计[D];华东师范大学;2007年
9 高磊;基于LUCENE的搜索引擎研究与实现[D];武汉理工大学;2007年
10 李沛环;基于Lucene的搜索引擎的设计和优化[D];吉林大学;2008年
本文关键词:基于Lucene和Heritrix的小型主题搜索引擎的研究及实现,,由笔耕文化传播整理发布。
本文编号:390212
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/390212.html