一种基于Lucene的文档检索系统的研究及应用
本文选题:全文检索 + 页面排序 ; 参考:《大连交通大学》2012年硕士论文
【摘要】:全文检索是现代信息检索技术的一个非常重要的分支,它既是处理非结构化数据的强大工具,也是现代搜索领域的核心技术之一。本文对全文检索的有关技术进行了深入的研究。在页面排序算法方面,本文提出了一种改进的PageRank页面排序算法,同传统PageRank算法相比,很好的改进了传统算法在主题漂移和权值沉积方面的问题。本文的重点放在了全文检索技术的应用上,对新技术的利用、检索性能的改善、加快检索速度等方面都做了重点研究。 PageRank算法是Google提出的一种基于网页链接的页面排序算法。传统的PageRank存在着主题漂移和权重值沉积两个方面的不足。本文在对传统PageRank算法进行了深入研究的基础上,提出了一种二次加权的改进PageRank算法,改进后的算法有效的改善了主题漂移和权值沉积。 当前,全文检索的平台并不是很常见,本文介绍了一种全文检索工具包-Lucene,它功能强大,完全用Java写成,便于嵌入到各种应用中。近年来被广泛使用。Lucene同时也是一款完全开放源代码的软件包,对于我们学习搜索引擎的核心技术提供了非常好的机会,对其源代码的研读、二次开发都是一件有意义的事情。 在应用方面,本文设计并实现了基于Lucene的服务外包政策文档搜索系统。这个系统是一个B/S模式的Web应用程序,采用主流的MVC模式设计,软件架构采用Struts,开发语言为Java。系统包括文档录入模块,索引建立模块,检索查询模块以及结果处理模块。在结果处理部分,通过二次加权的PageRank算法对Lucene的页面排序算法进行改进,通过大量的实验后得到了很好的效果。
[Abstract]:Full-text retrieval is a very important branch of modern information retrieval technology. It is not only a powerful tool to deal with unstructured data, but also one of the core technologies in the field of modern search. In this paper, the related technology of full-text retrieval has been deeply studied. In the aspect of page sorting algorithm, this paper proposes an improved PageRank page sorting algorithm, which is better than the traditional PageRank algorithm in topic drift and weight deposition. This paper focuses on the application of full-text retrieval technology, the utilization of new technology, the improvement of retrieval performance, PageRank algorithm is a page sorting algorithm based on web link proposed by Google. Traditional PageRank has two disadvantages: topic drift and weight deposition. Based on the deep study of the traditional PageRank algorithm, this paper proposes an improved PageRank algorithm with quadratic weighting, which effectively improves the topic drift and weight deposition. At present, the platform of full-text retrieval is not very common. This paper introduces a kind of full-text retrieval tool-Lucene, which is powerful, written in Java and easy to embed in various applications. Lucene has been widely used in recent years, and it is also a completely open source software package, which provides a very good opportunity for us to learn the core technology of search engine. In the aspect of application, this paper designs and implements the policy document search system of service outsourcing based on Lucene. This system is a Web application based on B / S pattern. It adopts the mainstream MVC pattern design, the software architecture adopts Struts, and the development language is Java. The system includes document input module, index building module, retrieval and query module and result processing module. In the part of result processing, Lucene's page sorting algorithm is improved by using PageRank algorithm, which is weighted twice, and good results are obtained through a lot of experiments.
【学位授予单位】:大连交通大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3
【参考文献】
相关期刊论文 前10条
1 马海波;陈时勇;;基于网页等级的PageRank算法改进[J];大连交通大学学报;2010年02期
2 何国斌;赵晶璐;;Web页面主题相关性排序算法的研究[J];计算机工程与应用;2009年23期
3 田甜;倪林;;基于PageRank算法的权威值不均衡分配问题[J];计算机工程;2007年18期
4 杨劲松;凌培亮;;搜索引擎PageRank算法的改进[J];计算机工程;2009年22期
5 王德广;周志刚;梁旭;;PageRank算法的分析及其改进[J];计算机工程;2010年22期
6 陈再良;凌力;周强;;dPageRank——一种改进的分布式PageRank算法[J];计算机应用;2006年01期
7 李晓明;王韬;刘东;杜江凌;;走进多核时代[J];计算机科学与探索;2008年06期
8 乔维;孙茂松;;汉语交集型歧义切分字段关于专业领域的统计特性[J];中文信息学报;2008年04期
9 李子臣;;搜索技术的现状及发展前景[J];情报科学;2007年07期
10 刘伟;严华梁;肖建国;曾建勋;;一种Web评论自动抽取方法[J];软件学报;2010年12期
相关博士学位论文 前1条
1 吴炜;密文全文检索系统中的索引机制研究[D];华中科技大学;2009年
相关硕士学位论文 前10条
1 张砚明;基于链接结构分析的Web页面排序算法[D];西安电子科技大学;2010年
2 张校乾;基于Lucene的全文检索系统的研究与应用[D];大连理工大学;2005年
3 王军;基于文本分类的WEB信息检索技术的研究[D];大连交通大学;2008年
4 程建;一种网页搜索引擎原型系统的设计与实现[D];北京邮电大学;2009年
5 陈时勇;Web挖掘中搜索引擎的研究[D];大连交通大学;2010年
6 徐元浩;基于潜在语义分析的专利文献分析与搜索技术的研究[D];浙江大学;2010年
7 岳莉;基于Lucene的全文检索系统的研究与应用[D];西安电子科技大学;2010年
8 县小平;搜索引擎PageRank算法研究[D];西北大学;2010年
9 胡鹏飞;Lucene与中文分词技术的研究及应用[D];北京交通大学;2010年
10 苏景春;基于Lucene的全文检索系统的研究与应用[D];北京交通大学;2010年
,本文编号:2074301
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2074301.html