当前位置:主页 > 社科论文 > 图书档案论文 >

基于Lucene框架的Latex数学公式检索研究

发布时间:2020-05-17 03:47
【摘要】:数学公式是一种特殊的符号表达方式,是一种非线性结构的符号描述,在一些科技文档中,它能使文章展现出更加清晰的逻辑关系。如何像普通文本一样,实现对数学公式的检索,是目前信息检索领域的课题之一。 本文采用Lucene框架,研究基于Latex公式语言的数学公式检索系统。首先,选择Latex作为数学公式的描述语言,通过对Latex语言进行详细解析,,构建针对数学公式的分析器,该分析器分别按照公式中的普通字符集、公式中的特殊字符集进行构建,公式中的特殊字符集中又细分为函数、运算符、公式同义符号等。根据传统的分词算法,实现针对数学公式的拆分算法和对Latex数学公式的解析;其次,基于Lucene框架构建Latex数学公式的预处理模块、索引模块以及搜索模块,其中预处理模块的主要功能是进行公式格式转换,使之成为Lucene可处理的文本文件类型;索引模块根据以运算为主线的按层次分类的索引方法创建索引;搜索模块采用Lucene中的模糊查询,提高了检索系统的查全率。基于Lucene框架的Latex数学公式检索系统取得了较好的实验效果。
【学位授予单位】:河北大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:G354

【参考文献】

相关期刊论文 前10条

1 张成昱 ,窦天芳 ,吴滨 ,高竞妹;数学公式的采集、组织和检索[J];大学图书馆学报;2005年05期

2 郝保水;;数学公式检索与匹配技术研究[J];大众科技;2011年05期

3 崔林卫;苏伟;郭卫;李廉;;基于Nutch的Web数学公式提取[J];广西师范大学学报(自然科学版);2011年01期

4 陈平;刘晓霞;李亚军;;基于字典和统计的分词方法[J];计算机工程与应用;2008年10期

5 苏潭英;郭宪勇;金鑫;;一种基于Lucene的中文全文检索系统[J];计算机工程;2007年23期

6 聂俊;陈天莹;符红光;;基于Latex的互联网数学公式搜索引擎[J];计算机应用;2010年S2期

7 严华云;刘其平;肖良军;;信息检索中的相关反馈技术综述[J];计算机应用研究;2009年01期

8 王继明;杨国林;;基于Lucene的中文文本分词[J];内蒙古工业大学学报(自然科学版);2007年03期

9 梁刚;基于机械分词与统计学的新词识别研究[J];情报理论与实践;2005年05期

10 卢托;于俊清;廖兆存;聂江;;基于Web的数学公式检索系统设计与实现[J];微处理机;2008年02期

相关硕士学位论文 前4条

1 刘志伟;数学搜索引擎研究[D];兰州大学;2011年

2 张校乾;基于Lucene的全文检索系统的研究与应用[D];大连理工大学;2005年

3 刘平冰;基于Lucene的Web站内信息搜索系统[D];电子科技大学;2005年

4 景珂;网络数学搜索中的数学查询语言与索引的研究[D];兰州大学;2009年



本文编号:2667876

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/2667876.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b8649***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com