当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向语义的数学公式N-grams索引结构研究

发布时间:2017-11-01 10:01

  本文关键词:面向语义的数学公式N-grams索引结构研究


  更多相关文章: 搜索引擎 MathSearch 公式搜索 N-grams划分 子公式权重 常见计算


【摘要】:近几年来,数学公式搜索已经成为信息学科领域的热点问题。数学公式结构复杂且语义丰富,会出现一种表示形式多种含义以及一种含义多种表示形式等问题,而且子公式的检索、公式类型划分与常见计算也成为数学公式搜索的一个研究点。国内外一些知名的数学搜索研究机构在检索数学公式时,没有考虑数学公式的结构特点和语义信息,对等价公式、相关公式的检索也没有展开相关研究。本论文首先对现有的几种数学搜索系统的索引结构进行了仔细研究,并借鉴文本搜索引擎的N-gram方法,提出了数学公式N-grams划分的方法,通过实验确定了划分的粒度,即N∈[2,15],并提出了一种基于公式复杂度、N-grams长度和深度的计算子公式权重的方法。其次,本论文给出了等价公式、相关公式的定义,它们应该和查询公式是高度相关的,应该作为数学搜索排序过程中重点考虑的因素,实现等价公式和相关公式的有效存储与管理。本论文通过Wolfram Alpha对数学公式常见类型进行了研究,结合数学公式的特点和用户搜索意图,对公式类型做了三级分类,其中,一级分类有27种,二级分类有50种,三级分类有77种,制定了数学公式类型标准,并通过实验对250个公式进行了统计,确定了不同类型公式的相关计算,找出了每一种常见计算的影响因素,通过这些因素来判定常见计算的类型。同时,本论文对数学公式的存储结构及流程进行了详细设计和分析,能够实现等价公式、相关公式和子公式搜索,实现了存储数据和查询数据的有机统一。综上,本论文借鉴现有系统的长处,弥补其不足,构建了适合数学搜索的面向语义的数学公式N-grams索引机制。本文提出的方法是一种基于语义的快速方便的存储和查询数学表达式和符号的方法,该方法可以实现子公式、等价公式、相关公式的有效搜索,满足不同用户对数学公式搜索的需求,提高数学公式的查全率和查准率,能够在很大程度上提升数学搜索的语义检索效率,促进数学知识的交流与共享。
【关键词】:搜索引擎 MathSearch 公式搜索 N-grams划分 子公式权重 常见计算
【学位授予单位】:兰州大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
  • 中文摘要3-4
  • Abstract4-8
  • 第一章 绪论8-14
  • 1.1 研究背景及意义8-9
  • 1.2 国内外研究现状9-13
  • 1.2.1 数学公式搜索引擎索引模型简介9-12
  • 1.2.2 小结12-13
  • 1.3 文章组织结构13-14
  • 第二章 数学公式N-grams划分14-29
  • 2.1 MathSearch概述14-15
  • 2.2 文本搜索引擎中的N-grams技术研究15-16
  • 2.3 数学公式的N-grams划分16-21
  • 2.3.1 数学公式的特点17-18
  • 2.3.2 数学公式的N-grams划分18-21
  • 2.4 N-grams实验---N的范围确定21-24
  • 2.4.1 文本搜索中N值的选择21-22
  • 2.4.2 数学搜索中N的范围确定22-24
  • 2.5 N-grams划分下子公式权重计算方法24-27
  • 2.6 小结27-29
  • 第三章 公式类型与常见计算研究29-44
  • 3.1 数学公式标准化29-30
  • 3.2 相关公式30-31
  • 3.3 公式类型与常见计算31-43
  • 3.4 小结43-44
  • 第四章 数学公式存储研究44-54
  • 4.1 数据库设计44-48
  • 4.2 数学公式的存储流程48-50
  • 4.3 数学公式的查询流程50-52
  • 4.4 小结52-54
  • 第五章 总结与展望54-57
  • 5.1 总结54-55
  • 5.2 展望55-57
  • 参考文献57-59
  • 附录59-68
  • 附录一 数学公式测试集(250个)59-68
  • 在学期间的研究成果68-69
  • 致谢69

【参考文献】

中国期刊全文数据库 前2条

1 刘金红;陆余良;;基于Ontology改进的N-Gram文本分类模型研究[J];计算机工程与设计;2007年13期

2 余小军;刘峰;张春;;基于N-Gram文本特征提取的改进算法[J];现代计算机(专业版);2012年34期

中国博士学位论文全文数据库 前1条

1 苏伟;基于Web的数学公式输入及可访问性关键问题研究[D];兰州大学;2010年

中国硕士学位论文全文数据库 前1条

1 刘志伟;数学搜索引擎研究[D];兰州大学;2011年



本文编号:1126307

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1126307.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户84188***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com