当前位置:主页 > 教育论文 > 教育技术论文 >

基于Lucene的教学资源垂直检索系统的研究与实现

发布时间:2020-04-30 17:54
【摘要】:随着信息技术的进步与网络的普及,网络上的教学资源数量逐年呈指数级增加,越来越多的用户通过互联网接受在线教育。面对数目巨大、形式各异的信息,用户需要快速准确地找到自己需要的教学资源。尽管传统的检索系统信息数量庞大、覆盖面广,但其检索结果的准确性较差,用户仍然需要从浩瀚的检索结果中找出自己所需要的资源,而垂直检索系统可以提供针对某一行业或特定领域的更高质量的检索服务。研究并开发针对教育领域的垂直检索系统可以提高用户的学习效率,是十分有必要的。本文以用户对教学资源的检索需求为研究背景,通过分析现有检索系统现状及其工作原理,基于全文检索工具包Lucene,设计并且实现面向教育领域的垂直检索系统。首先,分析研究全文检索工具包Lucene相关技术,并在原有的排序算法中加入浏览次数和权威来源两个参数,对算法进行了改进。其次,针对XML文档结构较复杂、查询较困难的情况,提出利用开源软件包Dom4j来解析和读取XML文档。再次,由于传统检索系统是基于关键字的检索,但每个用户的生活背景和知识水平不尽相同,对同一概念的表述可能会使用语义相近的查询词,导致查询结果不全面,针对此不足,设计并实现同义词扩展机制。从而使得结果更加全面,降低漏检的可能性,提高检索的召回率。最后,基于以上三个研究重点,本文对面向教学资源的垂直检索系统进行了设计,利用现有成熟的开发技术完成系统的实现,对提供教学资源检索服务的各类平台具有较强的借鉴意义。
【图文】:

体系结构图,体系结构,索引,模块


图 2.1 Lucene 体系结构图上图中,Org.apache.lucene.index(索引)模块主要负责对初始文档进行建立索引、删除索引、更新索引等操作,其中包含 IndexReader 和 IndexWriter 两个类,IndexReader主要对已生成的索引进行优化、删除、更新等操作,IndexWriter 主要对文本创建索引。Org.apache.lucene.search(搜索)模块主要负责将用户查询(query)在 Analysis 模块解析后,,在生成的索引文件进行搜索,并按照一定的评分机制,对结果排序返回给用户。对索引的检索利用 IndexSearch 类来实现。Org.apache.lucene.analysis(分析)模块主要负责对用户查询和建立的索引中的文本内容进行切词、去掉停用词和标点符号、过滤等一系列操作,最终都转换成基本单元Term。Org.apache.lucene.queryPaser(查询解析)模块主要负责对用户查询请求进行语法解析,完成词项之间的逻辑计算。Org.apache.lucene.store(数据存储)模块主要负责创建索引时底层的 I/O 操作。

文档集,电子期刊


本论文采用的教学资源是 XML 格式的电子期刊,这些电子期刊大多来自于新闻、报纸、政府文献(比如能源部报告)和专利等。每一篇文档都有惟一的一个文档编号。本系统用到的 XML 格式的文档集合包含 3500 个文件,共 310MB。图 3.2 中展示了本系统用到的部分文档集合。
【学位授予单位】:西北大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:G434

【参考文献】

相关期刊论文 前10条

1 杨月华;杜军平;平源;;基于本体的智能信息检索系统[J];软件学报;2015年07期

2 胡德华;种乐熹;邱均平;李俊;;国内外知识检索研究的进展与趋势[J];图书情报知识;2015年03期

3 李爱明;;基于本体和用户查询意图的查询扩展方法研究[J];情报科学;2015年05期

4 田野;杨眉;祝忠明;张静蓓;;关联数据驱动的查询扩展技术研究[J];图书情报工作;2015年04期

5 黄伟群;;基于用户视角的交互式查询扩展研究[J];图书情报工作;2014年05期

6 白培发;王成良;徐玲;;一种融合词语位置特征的Lucene相似度评分算法[J];计算机工程与应用;2014年02期

7 周军锋;孟小峰;;XML关键字查询处理研究[J];计算机学报;2012年12期

8 赵琳;;几种信息检索模型的比较[J];煤炭技术;2012年08期

9 李小青;廖湖声;张晓博;;XQuery实现技术研究综述[J];计算机科学;2012年03期

10 张新华;何永前;;软件测试方法概述[J];科技视界;2012年04期

相关会议论文 前1条

1 马少平;张敏;;信息检索研究:过去三十年中我们走了多远[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

相关博士学位论文 前1条

1 刘喜平;XML文档搜索中的查询处理技术研究[D];江西财经大学;2010年

相关硕士学位论文 前10条

1 贺骥波;高职院校教学资源库管理系统的设计与实现[D];湖南大学;2016年

2 陆新锋;计算机网络教学资源整合系统设计与开发[D];苏州大学;2016年

3 徐娟;基于用户行为分析的核能领域垂直检索系统研究[D];合肥工业大学;2015年

4 叶浩明;面向高等教育领域的垂直搜索引擎的设计与实现[D];电子科技大学;2014年

5 张锦;基于教育领域的垂直搜索引擎的研究与设计[D];兰州交通大学;2014年

6 胡楠楠;面向XML文档的信息检索研究与应用[D];山东大学;2013年

7 王\~;基于Lucene的同义词扩展检索的研究与实现[D];天津财经大学;2011年

8 黎立文;XPath查询模型研究[D];湖南师范大学;2010年

9 周晓滨;基于DTD的XML-GL与XQuery的查询转算法[D];山东大学;2009年

10 高珊;信息检索中的查询扩展及相关技术研究[D];华中师范大学;2008年



本文编号:2646031

资料下载
论文发表

本文链接:https://www.wllwen.com/jiaoyulunwen/jykj/2646031.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户aa112***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com