基于Lucene的教学资源垂直搜索引擎的研究与实现
发布时间:2021-10-16 03:33
随着计算机和网络技术的迅速发展,互联网上的教育资源呈指数级增长。如何能够在这数量巨大、形式多样的信息中准确地找到自己需要的呢?通用搜索引擎在针对某一具体领域检索资源时,搜索结果往往覆盖面非常广泛,信息相关性差,不能很好地为用户提供准确的检索服务。而垂直搜索引擎则是针对某一个行业、某一特定人群需求所设计的专业搜索引擎,它只搜索特定领域,并且可以对搜索结果按照该领域内人们所关心的关键信息予以呈现,这样能够为用户提供更高质量的检索服务。本文使用Lucene和其它相关技术实现一个教育领域内的专业垂直搜索引擎。它主要包括以下六个方面:(1)按照教育资源元数据规范、元数据提取的难易程度以及学习者需求确定搜索结果的元数据;(2)支持网络上常见的各种文档的全文检索;(3)比较并分析当下流行的中文分词工具包,并从中选择适合Lucene、分词准确率较高、系统消耗比较合理的分词工具;(4)针对教育资源的特殊性,改进Lucene的排序算法,增加了发布者、资源的评分和浏览次数三个权重,使排序结果更加合理。(5)过滤搜索结果,用户可按照特定需求选择特定发布人或者发布时间的资源。(6)合理的搜索界面的设计。该搜索引...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
去哪儿对查询词“北京邮电大学”的查询结果
宦畚幕?贚ucene的教学资源垂直搜索引擎的研究与实现翼豁l嘟黝}耀黝图3一 1Lucene的整体功能逻辑图各个模块使用符合MOA规则,方便用户选择有效地接口,也为用户定制自己所需的各个模块提供高可扩展性。各个模块之间保持固定的协议,将实现方法隐藏起来。从图3一1可以看出L。。ene的系统架构分为以下几个部分l)文档是被解析过的oocument,各种类型的资源通过解析器被转换成Locene可以分析处理的oocument流。相应的文档结构包为org.即aehe.lueene.doeument,负责索引存储时的文档结构管理。2)分析模块(An。}yzer)为搜索模块和索引模块提供相同的解析过程。相应的分析包为。rg.aPache.lucene.analysis,主要功能就是对文本进行切分词、过滤等操作。3)写入索引 (lnde、write)是对文本内容建立索引,而对索引维护也可以通过该接口实现,如更新索引信息,优化索引。相应的索引包为
LuCene的搜索方法需要一个Qoery对象作为参数。对查询表达式的解析实际上是将用户输入例如“L。。 eneORApache”的查询表达式转换成对应的Qoery实例的过程,该处理流程如图3一3所示。图3一3查询表达式转换成Query的流程图
【参考文献】:
期刊论文
[1]中文分词算法研究综述[J]. 张启宇,朱玲,张雅萍. 情报探索. 2008(11)
[2]搜索引擎技术的现状和热点[J]. 崔维梅,范荣鹏. 青年记者. 2006(16)
[3]网站用户满意度评价[J]. 丁念. 情报理论与实践. 2006(03)
[4]基于Lucene的全文检索系统研究与开发[J]. 郎小伟,王申康. 计算机工程. 2006(04)
[5]科学搜索引擎Scirus研究[J]. 程妮. 现代图书情报技术. 2005(03)
[6]网络信息资源评价研究综述[J]. 孙瑾. 大学图书馆学报. 2005(01)
[7]网络引文搜索引擎CiteSeer评析[J]. 黄日昆. 情报杂志. 2004(06)
[8]描述教育资源的元数据标准[J]. 曹树金,马利霞. 大学图书馆学报. 2004(02)
[9]垂直搜索引擎研究[J]. 肖冬梅. 图书馆学研究. 2003(02)
硕士论文
[1]面向领域的垂直搜索引擎的研究与实现[D]. 邱伟林.大连海事大学 2011
[2]基于主题信息服务的垂直搜索引擎的设计与实现[D]. 董超.北京邮电大学 2010
[3]基于Nutch的搜索系统的研究[D]. 尹辉.电子科技大学 2008
本文编号:3439064
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
去哪儿对查询词“北京邮电大学”的查询结果
宦畚幕?贚ucene的教学资源垂直搜索引擎的研究与实现翼豁l嘟黝}耀黝图3一 1Lucene的整体功能逻辑图各个模块使用符合MOA规则,方便用户选择有效地接口,也为用户定制自己所需的各个模块提供高可扩展性。各个模块之间保持固定的协议,将实现方法隐藏起来。从图3一1可以看出L。。ene的系统架构分为以下几个部分l)文档是被解析过的oocument,各种类型的资源通过解析器被转换成Locene可以分析处理的oocument流。相应的文档结构包为org.即aehe.lueene.doeument,负责索引存储时的文档结构管理。2)分析模块(An。}yzer)为搜索模块和索引模块提供相同的解析过程。相应的分析包为。rg.aPache.lucene.analysis,主要功能就是对文本进行切分词、过滤等操作。3)写入索引 (lnde、write)是对文本内容建立索引,而对索引维护也可以通过该接口实现,如更新索引信息,优化索引。相应的索引包为
LuCene的搜索方法需要一个Qoery对象作为参数。对查询表达式的解析实际上是将用户输入例如“L。。 eneORApache”的查询表达式转换成对应的Qoery实例的过程,该处理流程如图3一3所示。图3一3查询表达式转换成Query的流程图
【参考文献】:
期刊论文
[1]中文分词算法研究综述[J]. 张启宇,朱玲,张雅萍. 情报探索. 2008(11)
[2]搜索引擎技术的现状和热点[J]. 崔维梅,范荣鹏. 青年记者. 2006(16)
[3]网站用户满意度评价[J]. 丁念. 情报理论与实践. 2006(03)
[4]基于Lucene的全文检索系统研究与开发[J]. 郎小伟,王申康. 计算机工程. 2006(04)
[5]科学搜索引擎Scirus研究[J]. 程妮. 现代图书情报技术. 2005(03)
[6]网络信息资源评价研究综述[J]. 孙瑾. 大学图书馆学报. 2005(01)
[7]网络引文搜索引擎CiteSeer评析[J]. 黄日昆. 情报杂志. 2004(06)
[8]描述教育资源的元数据标准[J]. 曹树金,马利霞. 大学图书馆学报. 2004(02)
[9]垂直搜索引擎研究[J]. 肖冬梅. 图书馆学研究. 2003(02)
硕士论文
[1]面向领域的垂直搜索引擎的研究与实现[D]. 邱伟林.大连海事大学 2011
[2]基于主题信息服务的垂直搜索引擎的设计与实现[D]. 董超.北京邮电大学 2010
[3]基于Nutch的搜索系统的研究[D]. 尹辉.电子科技大学 2008
本文编号:3439064
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3439064.html