基于文本和公式的科技文档相似度计算研究
发布时间:2021-10-14 09:36
常用的文档相似度计算方法主要包括集合模型方法、向量空间模型方法、潜在语义分析法等,这些方法仅利用文本信息计算文档相似度。然而,科技文档中包含着大量的非文本信息,如公式、图和表,从而使得原有方法已不太适用。本文提出一种基于文本和公式的科技文档相似度计算方法。该方法主要考虑科技文档中的文本和公式信息,在得到文本相似度和文档间公式相似度的基础上,利用线性组合方法得到科技文档相似度。在MREC数据集上的实验结果表明,文本和公式方法在宏平均F1-score(MF)上最大可提高3%。结合公式信息计算科技文档相似度,不仅能有效提高科技文档相似度的准确性,而且可以实现跨语言科技文档的相似度计算。本文的主要工作包括:公式相似度计算方法有很多种,在不考虑公式变量的前提下,本文提出两种公式相似度计算方法。针对基于文本方法中未考虑公式特征元素有序性的问题,提出一种基于特征序列化的公式相似度计算方法。该方法有序提取公式的运算符、常量和括号作为其特征元素,将公式特征元素的位置映射为位置向量,通过计算位置向量是否相等得到公式相似度。针对混合方法中子树的无效匹配问题,提出一种基于有效匹配子树的公式相似度计算方法。该方...
【文章来源】:河北大学河北省
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
词-文本矩阵
货物运输优化图
图 2-3 公式树型结构及子路径Yokoi 将子路径集定义为从根节点到叶子节点的任何一条路径。一个公式树型其子路径集如图 2-3 所示。获取到公式树型结构的子路径集后,采用公式(2.11)计算公式相似度。
【参考文献】:
期刊论文
[1]文本相似度计算方法研究综述[J]. 王春柳,杨永辉,邓霏,赖辉源. 情报科学. 2019(03)
[2]基于数学表达式特征的科技文档检索模型[J]. 田学东,崔晓娟. 河北大学学报(自然科学版). 2017(06)
[3]基于维基百科的多种类型文献自动分类研究[J]. 李湘东,阮涛,刘康. 数据分析与知识发现. 2017(10)
[4]文本相似度计算方法研究综述[J]. 陈二静,姜恩波. 数据分析与知识发现. 2017(06)
[5]基于RPYS分析的引文分析研究:起源和演化[J]. 李信,赵薇,肖香龙,吴梦佳. 图书馆论坛. 2017(11)
[6]基于术语同义关系的文档相似度研究[J]. 张锡忠,徐建民. 河北大学学报(自然科学版). 2017(01)
[7]深度文本匹配综述[J]. 庞亮,兰艳艳,徐君,郭嘉丰,万圣贤,程学旗. 计算机学报. 2017(04)
[8]基于语义概念分析的科技文献检索研究[J]. 张孝飞,孔繁秀. 情报理论与实践. 2016(08)
[9]基于有效路径权重的XML树匹配算法[J]. 赵艳妮,郭华磊. 计算机工程与设计. 2016(04)
[10]基于术语间本体关联度的文档相关度研究[J]. 吴树芳,刘畅,徐建民. 现代情报. 2014(09)
硕士论文
[1]基于共引的科技文献聚类算法的研究与应用[D]. 王秋秋.浙江工业大学 2017
[2]融入数学表达式特征的科技论文个性化推荐[D]. 李晓雨.河北大学 2017
[3]匈牙利算法及其推广[D]. 谢博耶夫.华东师范大学 2016
[4]基于word2vec的中文文本相似度研究与实现[D]. 吴多坚.西安电子科技大学 2016
[5]基于Hadamard变换的编码压缩及其主成分增强技术[D]. 何永龙.湖南大学 2014
[6]文本相似度计算理论与应用研究[D]. 马军红.西北大学 2011
[7]基于图的科技文献相似性搜索关键技术研究[D]. 朱戈.黑龙江大学 2011
[8]科技文档中数学公式的描述与检索[D]. 卢托.华中科技大学 2007
本文编号:3435908
【文章来源】:河北大学河北省
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
词-文本矩阵
货物运输优化图
图 2-3 公式树型结构及子路径Yokoi 将子路径集定义为从根节点到叶子节点的任何一条路径。一个公式树型其子路径集如图 2-3 所示。获取到公式树型结构的子路径集后,采用公式(2.11)计算公式相似度。
【参考文献】:
期刊论文
[1]文本相似度计算方法研究综述[J]. 王春柳,杨永辉,邓霏,赖辉源. 情报科学. 2019(03)
[2]基于数学表达式特征的科技文档检索模型[J]. 田学东,崔晓娟. 河北大学学报(自然科学版). 2017(06)
[3]基于维基百科的多种类型文献自动分类研究[J]. 李湘东,阮涛,刘康. 数据分析与知识发现. 2017(10)
[4]文本相似度计算方法研究综述[J]. 陈二静,姜恩波. 数据分析与知识发现. 2017(06)
[5]基于RPYS分析的引文分析研究:起源和演化[J]. 李信,赵薇,肖香龙,吴梦佳. 图书馆论坛. 2017(11)
[6]基于术语同义关系的文档相似度研究[J]. 张锡忠,徐建民. 河北大学学报(自然科学版). 2017(01)
[7]深度文本匹配综述[J]. 庞亮,兰艳艳,徐君,郭嘉丰,万圣贤,程学旗. 计算机学报. 2017(04)
[8]基于语义概念分析的科技文献检索研究[J]. 张孝飞,孔繁秀. 情报理论与实践. 2016(08)
[9]基于有效路径权重的XML树匹配算法[J]. 赵艳妮,郭华磊. 计算机工程与设计. 2016(04)
[10]基于术语间本体关联度的文档相关度研究[J]. 吴树芳,刘畅,徐建民. 现代情报. 2014(09)
硕士论文
[1]基于共引的科技文献聚类算法的研究与应用[D]. 王秋秋.浙江工业大学 2017
[2]融入数学表达式特征的科技论文个性化推荐[D]. 李晓雨.河北大学 2017
[3]匈牙利算法及其推广[D]. 谢博耶夫.华东师范大学 2016
[4]基于word2vec的中文文本相似度研究与实现[D]. 吴多坚.西安电子科技大学 2016
[5]基于Hadamard变换的编码压缩及其主成分增强技术[D]. 何永龙.湖南大学 2014
[6]文本相似度计算理论与应用研究[D]. 马军红.西北大学 2011
[7]基于图的科技文献相似性搜索关键技术研究[D]. 朱戈.黑龙江大学 2011
[8]科技文档中数学公式的描述与检索[D]. 卢托.华中科技大学 2007
本文编号:3435908
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3435908.html