当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Tika和Lucene的桌面搜索引擎研究与实现

发布时间:2017-10-21 13:20

  本文关键词:基于Tika和Lucene的桌面搜索引擎研究与实现


  更多相关文章: 桌面搜索引擎 索引优化 索引片断 多线程索引 多线程写入


【摘要】:在桌面搜索引擎中,对于二进制文件格式的处理,通常需要针对每一种具体的文件格式编写独立的解析器,复杂度较高且不易维护。从分析开源搜索引擎Lucene出发,提出一种基于Tika和Lucene的桌面搜索引擎框架,能够使用统一的应用编程接口来处理不同二进制格式的文档。整个框架均为开放源代码形式,各模块间耦合度低,易于扩展。在实现方面,基于最新的Lucene4.1,实现了对桌面系统内文档的全文搜索;并在索引性能优化方面,相比于传统的参数配置优化和内存缓冲优化两方面,使用最新的DWPT(documents writer per thread)技术,使索引性能提升了35%。
【作者单位】: 首都师范大学信息工程学院;北京理工大学图书馆;
【关键词】桌面搜索引擎 索引优化 索引片断 多线程索引 多线程写入
【基金】:国家自然科学基金项目(61272446) 北京市属高等学校人才强教深化计划“中青年骨干人才”基金项目(PHR201008083)
【分类号】:TP391.3
【正文快照】: 0引言桌面计算机上分布着数量庞大、内容包罗万象的文档资源,对于这些不同格式的文档,管理起来较为复杂,并随着文档数量的日益增加,在短时间内很难找出需要的文档;而且,仅通过文件名的文档查找方式,很多时候无法满足用户需求。文献[1-4]提出了全文搜索的方法,使得桌面搜索的

【参考文献】

中国期刊全文数据库 前1条

1 义天鹏;陈启安;;基于Lucene的中文分析器分词性能比较研究[J];计算机工程;2012年22期

【共引文献】

中国期刊全文数据库 前2条

1 李丽枝;陶振凯;;基于Lucene全文检索的设计与实现[J];计算机光盘软件与应用;2013年19期

2 王璐;于超;王博;王国春;林金花;李辉;;本体语义检索系统[J];长春工业大学学报(自然科学版);2013年06期

中国硕士学位论文全文数据库 前3条

1 衣波;网络舆情信息的话题发现和追踪技术的研究与应用[D];广东工业大学;2013年

2 史仁仁;网络舆情话题识别与跟踪系统的研究与实现[D];电子科技大学;2013年

3 范晨熙;基于Hadoop的搜索引擎的研究与应用[D];浙江理工大学;2013年

【二级参考文献】

中国期刊全文数据库 前2条

1 胡长春;刘功申;;面向搜索引擎Lucene的中文分析器[J];计算机工程与应用;2009年12期

2 闻玉彪;贾时银;邓世昆;李远方;;一种改进的最大匹配中文分词算法[J];计算机技术与发展;2011年10期

【相似文献】

中国期刊全文数据库 前10条

1 李伟超;;桌面搜索引擎评析[J];现代情报;2007年12期

2 乔俊;Sybase SQL Server素引的使用和优化原则研究[J];电脑知识与技术;2004年23期

3 南天浩;浅谈数据库优化查询技术[J];山东教育学院学报;2004年06期

4 王爱军;基于数据库查询过程优化设计[J];电子科技大学学报;2003年02期

5 ;亟待突破瓶颈——文档管理和桌面搜索期望更加适用和高效[J];微电脑世界;2006年03期

6 黄昆;;桌面搜索:海水和火焰共生[J];中国计算机用户;2006年34期

7 罗海波;王加阳;;浅析数据库的查询优化和合理索引[J];中国中医药现代远程教育;2007年03期

8 陈甫;龚玉霞;;关系数据库中索引优化浅谈[J];科学咨询(科技管理);2010年08期

9 梁京章;李幼红;潘莹;叶云;;P2P资料搜索引擎的研究和设计[J];广西大学学报(自然科学版);2006年04期

10 徐丰;用二叉树结构索引优化检索系统[J];情报理论与实践;1987年06期

中国重要会议论文全文数据库 前5条

1 申兵一;巩青歌;;基于Lucene桌面搜索引擎系统的设计和实现[A];江苏省电子学会2010年学术年会论文集[C];2010年

2 陈涛;;Oracle应用系统的优化方案[A];海南省通信学会学术年会论文集(2008)[C];2008年

3 王晓辉;王柏;;通过有效使用索引优化Oracle应用系统性能[A];第九届全国青年通信学术会议论文集[C];2004年

4 蒋华;;基于B~+树批量加入算法的空间数据库索引优化策略[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年

5 张延松;龚玮薇;王占伟;黄伟;胡伟;季晓东;黄云奎;王珊;;ScaMMDB:面向可扩展内存数据库系统的研究[A];第二十五届中国数据库学术会议论文集(一)[C];2008年

中国重要报纸全文数据库 前1条

1 郑依华;搜索引擎也开源[N];计算机世界;2006年

中国博士学位论文全文数据库 前1条

1 刘科;内容感知存储系统中的信息检索关键技术研究[D];华中科技大学;2012年

中国硕士学位论文全文数据库 前10条

1 许志敏;基于Android的桌面搜索引擎的研究与实现[D];哈尔滨工业大学;2010年

2 焦明飞;基于安卓系统的桌面搜索引擎的设计与实现[D];华南理工大学;2013年

3 孟美华;桌面搜索引擎的设计与实现[D];大连理工大学;2009年

4 谢海潮;手机桌面搜索引擎的研究与实现[D];大连理工大学;2009年

5 肖晨;CMS中检索子系统的设计与实现[D];解放军信息工程大学;2007年

6 彭涛;煤炭销售票管理系统数据库优化方法应用的研究[D];太原科技大学;2011年

7 王利;SQL SERVER数据库性能调整与优化[D];电子科技大学;2007年

8 黄均乐;基于lucene的图像搜索[D];中南民族大学;2008年

9 李运莉;web数据库应用系统性能优化[D];华中科技大学;2006年

10 曾雪;海量数据的快速查询算法研究[D];南京邮电大学;2012年



本文编号:1073581

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1073581.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c4370***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com