当前位置:主页 > 科技论文 > 搜索引擎论文 >

融合词性与位置信息改进的Lucene排序算法

发布时间:2021-12-18 03:11
  文档检索的相关性是依据用户的搜索需求对搜索结果的一种符合用户期望的排名。为了提高用户对检索系统的满意度,考虑到查询与文档大多由名词和动词组成,而且在不同上下文中词性可以起到语义消岐的作用;另外,考虑到文档的不同字段具有不同的重要程度,因此词位置加权将有效改进检索系统的性能。由于默认的Lucene排序算法未考虑文档不同字段、查询词词性和词性分布对检索相关性排名的影响,因此在Lucene排序算法的基础上,提出一种融合词性与位置信息的改进算法。通过对比实验分析,该改进算法能够有效提升检索系统的性能,相比默认的Lucene排名算法,准确率、召回率与F值都有不同程度的提升。 

【文章来源】:电脑知识与技术. 2019,15(17)

【文章页数】:4 页

【部分图文】:

融合词性与位置信息改进的Lucene排序算法


Lucene算法改进前后准确率对比本栏目责任编辑:谢媛媛

对比图,召回率,算法改进


本栏目责任编辑:谢媛媛软件设计开发第15卷第17期(2019年6月)ComputerKnowledgeandTechnology电脑知识与技术图2Lucene算法改进前后召回率对比图3Lucene算法改进前后F值对比实验结果分析:如图1-3所示,Lucene算法在改进后,相比改进前准确率、召回率与F值都有不同程度的提高。改进后算法的性能在基于关键字和组合人名与关键字查询上面表现很好,准确率、召回率、F值的提升空间都很大。但是对于基于人名的查询上三种评价指标的上升幅度较小,这里考虑是分词的影响。4总结与展望本文通过对Lucene默认评分算法进行分析,针对默认评分算法存在的不足进行改进。改进策略主要分为两个方面,将词性信息作为负载添加到Lucene默认算法的公式中;另外分析查询字段的词性分布,基于此为不同字段添加权重改进默认Lucene排序算法;考虑查询词出现在文档的不同位置重要性的差别,改进Lucene默认评分算法。实验结果表明,与Lucene默认排序算法相比改进后的排序算法的准确率、召回率和F值均有不同程度的提升。当然还存在一些缺点,例如负载信息的添加可能导致搜索引擎中存储数据增加;另外每次查询时需要先进行词性分析,可能导致搜索实时性下降。下一步的工作就是优化上述问题,以及研究不同的词性分析方法,进一步提升检索的相关性,以及研究如何减少检索系统对分词的依赖性。参考文献:[1]CooperWS.GettingbeyondBoole.[J].InformationProcessing&Management,1988,24(3):243-248.[2]WuHC,LukRWP,WongKF,etal.InterpretingTF-IDFtermweightsasmakingrelevancedecisions[J].ACMTransactionsonInformationSystems,2008,26(3).[3]RobertsonS,ZaragozaH.Theprobab

【参考文献】:
期刊论文
[1]融合位置相关和概率排序的Lucene排序算法改进[J]. 胡博,蒋宗礼.  计算机科学. 2016(09)
[2]词性对中英文文本聚类的影响研究[J]. 韩普,王东波,刘艳云,苏新宁.  中文信息学报. 2013(02)
[3]词性标注对信息检索系统性能的影响[J]. 苏祺,昝红英,胡景贺,项锟.  中文信息学报. 2005(02)

硕士论文
[1]基于Lucene的垂直搜索引擎研究与实现[D]. 胡博.北京工业大学 2016
[2]基于Lucene的搜索引擎优化[D]. 闻峥.北京交通大学 2011
[3]词性在汉语科技文献检索中的作用与影响[D]. 程彬彬.南京农业大学 2008



本文编号:3541509

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3541509.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9aafa***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com