基于Lucene的蒙古文全文检索系统研究与实现
发布时间:2018-05-07 10:19
本文选题:Lucene + 全文检索 ; 参考:《内蒙古师范大学》2013年硕士论文
【摘要】:随着计算机技术和网络技术的不断发展,从海量数据资源中获取有用的信息,已成为广大用户急需解决的一个问题。蒙古文是我国重要的少数民族语言文字之一,随着蒙古族人民网络知识的不断增长,从互联网上获取丰富的数据信息已成为广大蒙古族人民的迫切需要。因此,为了帮助蒙古族用户快速准确地检索所需信息,构建一个蒙古文全文检索系统是非常有必要的。 本文研究并实现的基于Lucene的国际标准编码蒙古文全文检索系统,不仅可以实现国际标准编码蒙古文的全文检索功能,推动国际标准编码蒙古文网络化应用的发展,同时还对蒙古文字适应信息时代发展的需求和国际标准编码蒙古文搜索引擎的快速发展起着积极作用。随着蒙古文信息处理研究工作的不断深入,,蒙古文全文检索技术还可以为蒙古文搜索引擎、语法信息词典建设、机器翻译、文本自动分类、自动摘要、自动校对等领域的快速发展提供帮助。因此,基于Lucene的国际标准编码蒙古文全文检索技术的研究具有非常关键的作用。 本文以实现国际标准编码的蒙古文全文检索系统为研究目标。学习了全文检索的基础理论和发展现状;解析了基于Lucene的全文检索系统的架构;了解了全文检索系统的结构与功能、建立索引、查询处理、结果优化处理和信息检索评价的方法等;分析了Lucene的一些基本概念、组织结构和工作原理等。本文重点研究了国际标准编码蒙古文的构词特点,并设计了一个符合蒙古文构词特点的蒙古文分词器,实现了对国际标准编码蒙古文词的正确切分,进而设计了基于Lucene的蒙古文全文检索系统,实现了对国际标准编码蒙古文的全文检索功能。实验结果表明本系统对蒙古文全文检索的查全率和查准率都有了很大提升,进而说明本文方法是有效的。
[Abstract]:With the continuous development of computer technology and network technology, obtaining useful information from massive data resources has become an urgent problem for the majority of users. Mongolian language is one of the most important minority languages in China. With the increasing of Mongolian people's network knowledge, it has become an urgent need for the vast numbers of Mongolian people to obtain abundant data and information from the Internet. Therefore, it is necessary to construct a Mongolian full-text retrieval system in order to help Mongolian users retrieve the required information quickly and accurately. In this paper, an international standard coding Mongolian full-text retrieval system based on Lucene is studied and implemented, which can not only realize the full-text retrieval function of international standard coding Mongolian, but also promote the development of international standard coding Mongolian network application. It also plays an active role in adapting Mongolian characters to the needs of the development of the information age and the rapid development of the international standard coding search engine. With the development of Mongolian information processing research, Mongolian full-text retrieval technology can also be used for Mongolian search engine, grammar information dictionary construction, machine translation, automatic text classification, automatic summary. Automatic proofreading and other areas of rapid development to help. Therefore, the research of Lucene-based international standard coding Mongolian full-text retrieval technology is very important. The aim of this thesis is to realize the Mongolian full-text retrieval system with international standard coding. This paper studies the basic theory and development status of full-text retrieval, analyzes the framework of full-text retrieval system based on Lucene, understands the structure and function of full-text retrieval system, establishes index and query processing, Results some basic concepts, organization structure and working principle of Lucene were analyzed. This paper focuses on the study of the word-formation characteristics of the international standard coding Mongolian, and designs a Mongolian word segmentation device which accords with the Mongolian word-formation characteristics, and realizes the correct segmentation of the international standard coding Mongolian words. Furthermore, a Mongolian full-text retrieval system based on Lucene is designed, and the full-text retrieval function of international standard coding Mongolian is realized. The experimental results show that the recall rate and precision rate of Mongolian full-text retrieval have been greatly improved by this system, which further shows that the method in this paper is effective.
【学位授予单位】:内蒙古师范大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
【参考文献】
相关期刊论文 前1条
1 蒋明原;孔令德;;基于Lucene的藏文信息采集及检索系统研究[J];电脑开发与应用;2011年02期
相关硕士学位论文 前10条
1 岳俊英;蒙古文信息检索系统中检索单元选取方法的研究[D];内蒙古大学;2011年
2 明玉;基于词典、规则与统计的蒙古文词切分系统的研究[D];内蒙古大学;2011年
3 关高娃;蒙古文停用词和英文停用词比较研究[D];内蒙古大学;2011年
4 塔娜;面向跨语言信息检索的蒙汉语义词典构建[D];内蒙古师范大学;2011年
5 李立;中文信息检索系统研究[D];华中师范大学;2008年
6 王睿;蒙古文网页抓取及编码识别转换研究[D];内蒙古大学;2008年
7 金威;蒙古文信息检索模型的研究[D];内蒙古大学;2009年
8 阿雅娜;蒙古文停用词表和词干提取对蒙古文文本分类的影响[D];内蒙古大学;2009年
9 赵伟;条件随机场在蒙古语词切分中的应用[D];内蒙古大学;2009年
10 刘莺迎;基于lucene中文全文检索系统的研究与实现[D];郑州大学;2009年
本文编号:1856538
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1856538.html