Lucene中文分词在电子档案全文检索中的应用研究
发布时间:2017-12-19 07:35
本文关键词:Lucene中文分词在电子档案全文检索中的应用研究
【摘要】:现在的电子档案基本都为用户提供了信息检索功能,但觉大多数的电子档案系统仅支持关键字匹配检索,且只能检索数据库中的信息,对于那些以文件方式存储在磁盘上信息却无能为力,或者一些系统采用了数据库自带的全文检索功能,但是检索结果却很难令用户满意。本文的工作是为华录松下电子档案管理系统的项目而做的。该电子档案管理系统的文件存储在蓝光光盘上,文件的格式主要有word、pdf和txt等。项目要求实现全文检索的功能,现有成熟的搜索引擎不适合该项目。Lucene作为一个开源的全文检索引擎工具包,具有完整的索引引擎和搜索引擎。因此,本文利用Lucene开发该项目专属的全文检索系统。针对Lucene对中文分词支持效果不理想的问题,本文做了如下工作:提出了采用正逆向逐字切分法;加入了词性标注模块,使其在歧义处理和未登录词处理方面的效果得到了提高;添加了人名、地名等链接词库,进一步提高了分词准确性。本文的全文检索对象是计算机相关文档,因此对索引模块做如下优化:(1)改进索引词典文件结构,将检索词按计算机专业词汇和非计算机专业词汇进行分类。检索时只将存放计算机专业词汇的索引词典文件导入内存中,减少不必要的检索响应时间;(2)对待索引文档设置权值。Lucene没有对待索引文档设置权值。为了提高搜索的效果,本文对待索引文档设置不同的权值;(3)改变索引方式。Lucene的索引方式频繁地进行I/0操作,索引效率较低。本文采用以内存为缓冲区建索引文件的分布式并行索引建立方式,缩短索引的建立时间。本文最后对所构建的全文检索系统进行相关测试。从最终的测试结果可以看出:本文所提出的中文分词算法在精度和效率两个方面能够基本满足需要;优化之后的索引模块在进行检索时具有更高的效率。
【学位授予单位】:大连海事大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【参考文献】
中国硕士学位论文全文数据库 前1条
1 张校乾;基于Lucene的全文检索系统的研究与应用[D];大连理工大学;2005年
,本文编号:1307362
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1307362.html