数学表达式检索系统的设计与实现
发布时间:2017-10-05 06:20
本文关键词:数学表达式检索系统的设计与实现
更多相关文章: 数学表达式 数学表达式检索 搜索引擎 分词器
【摘要】:互联网的发展,给信息的产生和传播带来了极大的便利。搜索引擎的出现,在很大程度上解决的人们查找信息的困难。人们通过搜索引擎可以从互联网上获取到各方面的信息。然而,在数学表达式的搜索这个特定的领域,目前的基于文本检索技术的搜索引擎还不能进行有效的输入和检索。如何才能像检索普通文本一样检索数学表达式,是目前信息检索领域的需要解决的问题之一。 本论文利用成熟的文本检索技术,,基于MathML数学描述语言,通过扩展开源全文检索框架Lucene使之适应数学表达式检索的方法来构建数学表达式检索原型系统FormulaSearch。论文主要开展以下工作: ①论文分析了数学表达式检索的一般模型和典型的数学表达式检索系统,在此基础上,提出了数学表达式检索系统FormulaSearch的总体架构。FormulaSearch由输入模块、预处理模块、索引模块和检索模块等四大模块组成。其中,输入模块主要完成数学表达式的输入和数学表达式转化为MathML代码;预处理模块主要完成数学表达式的提取和分词;索引模块主要完成倒排索引的构建。检索模块主要完成数学表达式的检索,结果的排序和高亮呈现。 ②为了使Lucene对数学表达式这种高度结构化的文本也有较好的的检索效果,本文重新设计了针对数学表达式的Lucene分词器。其设计思想是基于MathML文档的DOM树结构,将每一个子树都看作是数学表达式的一个分词结果。通过对DOM树子树的分析,得到数学表达式的分词结果。 ③为了检索系统的实际需要,本文使用SilverLight技术实现了一个简单的数学表达式编辑器,可以实现对含有+、-、*、%、分式、开方、积分等常用数学表达式的输入。 ④为了检验FormulaSearch的实际检索效果,本文以200道初中数学试题为测试数据,通过实验检测了系统的响应时间、查全率、查准率和F-Measure四项检验指标。实验表明,FormulaSearch的实际检索效果良好。
【关键词】:数学表达式 数学表达式检索 搜索引擎 分词器
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
- 摘要3-4
- ABSTRACT4-8
- 1 绪论8-12
- 1.1 研究背景及意义8-9
- 1.2 研究现状9-11
- 1.2.1 数学表达式搜素引擎9-10
- 1.2.2 数学表达式描述语言10-11
- 1.3 本文的主要工作及组织结构11-12
- 1.3.1 本文的主要工作11
- 1.3.2 组织结构11-12
- 2 数学表达式检索相关理论和技术12-22
- 2.1 数学表达式的描述语言12-15
- 2.1.1 基于 XML 的数学标记方法概述12
- 2.1.2 MathML 标记语言12-14
- 2.1.3 OpenMath 标记语言14-15
- 2.2 数学表达式检索15-20
- 2.2.1 数学表达式检索的概念与构成16-17
- 2.2.2 典型的数学表达式检索系统17-19
- 2.3.3 现有搜索引擎对比19-20
- 2.3 全文检索引擎框架 Lucene20-21
- 2.4 本章小结21-22
- 3 FormulaSearch 系统设计22-42
- 3.1 设计需求22
- 3.2 FormulaSearch 的系统设计22-23
- 3.3 数据库的设计23-25
- 3.3.1 XML 文档数据库24-25
- 3.3.2 数学表达式数据库25
- 3.4 输入模块25-30
- 3.4.1 数学表达式的编辑26-29
- 3.4.2 将数学表达式存储为 MathML 代码29-30
- 3.5 预处理模块30-37
- 3.5.1 提取子模块32
- 3.5.2 分词子模块32-37
- 3.6 索引模块37-39
- 3.6.1 Lucene 索引过程分析37-38
- 3.6.2 FormulaSearch 索引模块的设计38-39
- 3.7 检索模块39-41
- 3.7.1 Lucene 检索过程分析39-40
- 3.7.2 FormulaSearch 检索模块的设计40-41
- 3.8 本章小结41-42
- 4 FormulaSearch 系统实现42-52
- 4.1 开发环境42
- 4.1.1 硬件环境42
- 4.1.2 软件环境42
- 4.2 输入模块的实现42-43
- 4.3 预处理模块的实现43-46
- 4.3.1 提取子模块的实现43-44
- 4.3.2 分词子模块的实现44-46
- 4.4 索引模块的实现46-48
- 4.5 检索模块的实现48-51
- 4.5.1 数学表达式检索的实现48-49
- 4.5.2 检索结果高亮的实现49-51
- 4.6 本章小结51-52
- 5 实验结果及分析52-56
- 5.1 实验结果52-54
- 5.1.1 数学表达式的输入和呈现52
- 5.1.2 数学表达式的分词52-54
- 5.1.3 数学表达式的检索54
- 5.2 FormulaSearch 实验结果分析54-56
- 6 总结与展望56-58
- 6.1 总结56
- 6.2 后续工作展望56-58
- 致谢58-59
- 参考文献59-61
【参考文献】
中国期刊全文数据库 前10条
1 张成昱 ,窦天芳 ,吴滨 ,高竞妹;数学公式的采集、组织和检索[J];大学图书馆学报;2005年05期
2 郝保水;;数学公式检索与匹配技术研究[J];大众科技;2011年05期
3 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
4 张瑞雪;宋明秋;公衍磊;;逆序解析DOM树及网页正文信息提取[J];计算机科学;2011年04期
5 聂俊;陈天莹;符红光;;基于Latex的互联网数学公式搜索引擎[J];计算机应用;2010年S2期
6 蔡川;苏伟;李廉;;Presentation数学公式到Content转换关键问题研究[J];计算机应用与软件;2012年08期
7 杨炜辰;凌海风;武鹏;徐伟亚;;一种基于相似度矩阵的本体检索匹配算法[J];计算机工程与应用;2013年22期
8 程岚岚;;基于正则表达式的大规模网页术语对抽取研究[J];情报杂志;2008年11期
9 吴刚,唐杰,李涓子,王克宏;细粒度语义网检索[J];清华大学学报(自然科学版);2005年S1期
10 卢托;于俊清;廖兆存;聂江;;基于Web的数学公式检索系统设计与实现[J];微处理机;2008年02期
本文编号:975237
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/975237.html