基于数学表达式特征的科技文档检索模型
发布时间:2020-02-27 18:40
【摘要】:数学表达式是科技信息交流的重要载体和科技文献中的重要成分,但由于数学表达式有别于普通文本的特殊属性,导致目前面向普通文本的检索技术和搜索引擎难以实现以数学表达式为特征的科技文献检索,影响了科技信息的传播与交流,是目前信息检索与人工智能领域亟待解决的关键问题之一。针对上述问题,本文通过对科技文档构成元素与结构的分析,研究、设计基于数学表达式特征的科技文档检索模型,实现以数学表达式为查询语言的科技文档检索。首先,在科技文档检索特征的选择与提取阶段,提取科技文档的重要信息并组织成文档信息表及公式信息表;其次,在科技文档索引阶段,利用文档特征信息和文档内公式特征信息以及利用数学公式解析算法得到的数学表达式的子式信息,采用分层索引思想构建科技文档索引表与子式索引表;然后,在检索阶段,根据数学查询表达式的特征信息构建特征向量,设计了精确匹配、包含匹配和相似匹配等匹配模式检索出符合要求的科技文档结果集;最后,根据查询项出现在文档不同区域的重要程度以及与查询式的匹配程度,结合tf-idf加权方法,采用余弦相似度进行科技文档的相似度计算,得到有序的科技文档检索结果。实验结果表明,该模型实现了以数学表达式为特征对科技文档进行检索的目标。
【图文】:
2( ) 2mathQ a b n p q;成析取范式(1,0,1) (0,1,1) (1,1,1)mathQDNF ;文档 A 和文档 B 的三元组分别对应的是(1,1,0)和(1,1,1其匹配成功,作为结果集。间模型型[3,4]是上世纪 70 年代 Salton 等人提出来的检索效果较检索模型。档1d 、2d 以及3d 含有索引项公式1T 、2T 以及3T ,查询,其中文档1d 、2d 以及3d 的权重分别为(2,3,5),(3,73d 可以表示为1 1 2 3D 2T 3T 5T,2 1 2 3D 3T 7T T,2 D
图 2 科技文档检索模型图文档特征的提取的资源信息的存储形式可以分为两类:第一类,将资源信息手动或自动的方式对其进行组织和管理;第二类,将资源信上,可以采用网络爬虫技术将资源站点上科技文档的资源信进行组织和管理。学表达式解析式解析的目标是对数学表达式的特征信息进行提取。特征提准确地描述一个大型的数据集[45]。针对 LaTex 格式描述的数维文本形式的数学表达式进行分析和提取,得到数学表达式构。针对 MathML 格式描述的数学表达式解析的目标是对 X进行分析和提取,得到数学表达式的各种成分以及二维运算技文档索引的构建
【学位授予单位】:河北大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.3
本文编号:2583351
【图文】:
2( ) 2mathQ a b n p q;成析取范式(1,0,1) (0,1,1) (1,1,1)mathQDNF ;文档 A 和文档 B 的三元组分别对应的是(1,1,0)和(1,1,1其匹配成功,作为结果集。间模型型[3,4]是上世纪 70 年代 Salton 等人提出来的检索效果较检索模型。档1d 、2d 以及3d 含有索引项公式1T 、2T 以及3T ,查询,其中文档1d 、2d 以及3d 的权重分别为(2,3,5),(3,73d 可以表示为1 1 2 3D 2T 3T 5T,2 1 2 3D 3T 7T T,2 D
图 2 科技文档检索模型图文档特征的提取的资源信息的存储形式可以分为两类:第一类,将资源信息手动或自动的方式对其进行组织和管理;第二类,将资源信上,可以采用网络爬虫技术将资源站点上科技文档的资源信进行组织和管理。学表达式解析式解析的目标是对数学表达式的特征信息进行提取。特征提准确地描述一个大型的数据集[45]。针对 LaTex 格式描述的数维文本形式的数学表达式进行分析和提取,得到数学表达式构。针对 MathML 格式描述的数学表达式解析的目标是对 X进行分析和提取,得到数学表达式的各种成分以及二维运算技文档索引的构建
【学位授予单位】:河北大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.3
【参考文献】
相关期刊论文 前2条
1 张明宝;米传民;;一种改进的基于文档结构的信息检索方法[J];情报理论与实践;2009年08期
2 卢托;于俊清;廖兆存;聂江;;基于Web的数学公式检索系统设计与实现[J];微处理机;2008年02期
相关硕士学位论文 前10条
1 刘惠丛;基于互关联后继树的数学表达式检索模型[D];河北大学;2017年
2 李彬;基于SFE的LaTeX表达式检索系统[D];河北大学;2017年
3 周南;基于层次结构特征的数学表达式检索模型[D];河北大学;2016年
4 徐月霞;面向语义的数学公式N-grams索引结构研究[D];兰州大学;2015年
5 李远辉;数学表达式检索系统的设计与实现[D];重庆大学;2014年
6 陶启立;基于语义的科技文档信息资源检索系统的设计与实现[D];西北大学;2011年
7 刘志伟;数学搜索引擎研究[D];兰州大学;2011年
8 刘东阁;基于MathML的公式检索系统的设计与实现[D];东北大学;2009年
9 景珂;网络数学搜索中的数学查询语言与索引的研究[D];兰州大学;2009年
10 卢托;科技文档中数学公式的描述与检索[D];华中科技大学;2007年
,本文编号:2583351
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2583351.html