当前位置:主页 > 科技论文 > 计算机论文 >

基于Lucene多核并行索引方法的设计与实现

发布时间:2021-08-20 20:20
  随着多核处理器技术日趋成熟,并行计算思想得到了推广和普及,这为大幅提高软件性能提供了有力的软硬件支持。本文通过对多核并行计算技术的分析和研究,针对全文检索引擎Lucene在索引大数据集文档时的性能瓶颈问题,提出了一种基于Lucene多核并行索引的设计实现方法。本文提出的多核并行索引是一种在多核环境下进行高效快速构建Lucene索引的设计方案。多核并行索引以多核并行计算思想为理论基础,根据Lucene索引特性和并行库的支持,通过使用工作池和缓冲策略,优化了传统Lucene索引的I/O瓶颈,并采用生产者/消费者模式,解决了并行多任务索引的负载均衡问题。最终对Lucene传统的串行索引过程进行了多核并行化整合设计与实现。本文提出了一种多核并行索引的观点用以提高Lucene索引速度,其主要有两种具体实现:一种是并行缓存索引,主要针对大数据集初次创建索引和数据恢复重建索引的场景;另一种是并行增量索引,主要针对由于文档数据增减而需要频繁更新索引的场景。本文对多核并行缓存索引方法的设计和实现进行了详细的论述,阐述了任务池的构建、缓存索引的并行化、并发任务队列的应用等。最后针对基于Lucene的多核并... 

【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校

【文章页数】:55 页

【学位级别】:硕士

【部分图文】:

基于Lucene多核并行索引方法的设计与实现


Lucene系统结构图

索引过程


Lucene索引过程

索引文件,概念结构,域名


图 2-3 Lucene 索引文件概念结构图Fig.2-3 Diagram of logic structure of Lucene index file项(Term)是最小的索引概念,它直接代表了一个字符串以及其在文件中的位置现次数等相关信息。而域 (Filed) 是一个关联的二元组,由一个域名和一个域值成。域名是一个字符串,域值是一个项。例如将“Title”作为域名和将代表“Title

【参考文献】:
期刊论文
[1]Lucene全文检索系统的研究与实现[J]. 龚磊,武友新.  计算机与数字工程. 2010(05)
[2]基于Lucene的中文倒排索引技术的研究[J]. 郑榕增,林世平.  计算机技术与发展. 2010(03)
[3]基于Lucene.Net的分布式全文检索系统[J]. 谭文堂,贺明科,李阜.  计算机应用与软件. 2009(09)
[4]基于Lucene的索引系统的设计与实现[J]. 黄少林,王华,张玉红,蒋一峰.  现代情报. 2009(07)
[5]基于Lucene搜索引擎的设计与实现[J]. 严良达.  宁波职业技术学院学报. 2009(02)
[6]走进多核时代[J]. 李晓明,王韬,刘东,杜江凌.  计算机科学与探索. 2008(06)
[7]基于Lucene的全文检索系统研究与开发[J]. 郎小伟,王申康.  计算机工程. 2006(04)
[8]一种基于Lucene检索引擎的全文数据库的研究与实现[J]. 张校乾,金玉玲,侯丽波.  现代图书情报技术. 2005(02)

硕士论文
[1]基于多核的并行软件工程的CDT模型的研究[D]. 陈辉.北京工业大学 2009
[2]基于Lucene的全文检索系统的研究与应用[D]. 张校乾.大连理工大学 2005



本文编号:3354164

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3354164.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a4c19***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com