MathML格式数学公式查重检测算法研究
本文关键词:MathML格式数学公式查重检测算法研究
更多相关文章: MathML 数学公式 查重检测 结构码 树 XML
【摘要】:随着互联网的快速发展,学术研究成果的交流也趋于信息化、网络化,资源共享性越来越高。但随之而来的是学术抄袭现象日益增多。因此,对学术论文查重检测技术的研究已成为当前研究的热点。目前,对于纯文本内容的检测研究已经取得了很大的进展并得到广泛的应用。但对数学公式的查重检测技术的研究尚处于探索阶段。由于学术论文,特别是理工类学术论文,其核心思想都是通过数学公式表示。因此,为了防止学术抄袭、剽窃,对数学公式查重检测技术的研究具有十分重要的意义。本文提出了一种MathML格式的数学公式查重检测算法。首先,根据MathML的编码特征在待检测文档中查找数学公式,并依据数学公式编码生成其树形结构表示,利用规则库和多模式匹配算法对树形结构作归一化处理。然后,先序遍历树,对变量名作归一化处理,层次遍历树,得到树的结构码,在公式检测库中查找表名为该结构码的数据表,若在检测库中找到表名为该结构码的数据表,则遍历树得到其先序遍历序列和后序遍历序列。最后,在数据表中查找与遍历序列相同的记录,若存在这样的记录,则显示包含该数学公式的文档信息。实验结果表明,该算法准确地实现了MathML格式数学公式的查重检测,不仅可以实现结构相同的数学公式的检测,对于语义相同的数学公式的检测也适用。该算法检测速度快,实用性较强。
【关键词】:MathML 数学公式 查重检测 结构码 树 XML
【学位授予单位】:渤海大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.41
【目录】:
- 摘要4-5
- ABSTRACT5-11
- 1 绪论11-15
- 1.1 研究背景与意义11
- 1.2 国内外研究现状11-13
- 1.3 论文主要工作及结构13-15
- 2 相关知识和技术15-29
- 2.1 XML语言15
- 2.2 MathML语言15-18
- 2.3 数学公式识别技术18-19
- 2.3.1 分支定界文本行识别方法18
- 2.3.2 基于文本行的数学公式识别方法18
- 2.3.3 基于基线结构的数学公式识别方法18-19
- 2.4 数学公式检索技术19
- 2.4.1 分层索引法19
- 2.4.2 MathWebSearch检索方法19
- 2.4.3 基于文本的数学符号索引方法19
- 2.5 数学公式匹配技术19-28
- 2.5.1 单模式匹配算法--KMP20-21
- 2.5.2 单模式匹配算法--BM21-23
- 2.5.3 多模式匹配算法--AC23-26
- 2.5.4 多模式匹配算法--SWM26-28
- 2.6 本章小结28-29
- 3 一种MATHML格式数学公式匹配算法29-35
- 3.1 数学公式的树型结构表示29-31
- 3.2 归一化处理31-32
- 3.3 数学公式匹配算法32-33
- 3.4 实验结果与分析33-34
- 3.5 本章小结34-35
- 4 一种XML格式数学公式查重检测算法35-40
- 4.1 数学公式识别与提取35
- 4.2 数据库设计35-36
- 4.3 复制检测算法36-38
- 4.4 实验结果与分析38-39
- 4.5 本章小结39-40
- 5 总结与展望40-41
- 参考文献41-46
- 发表论文情况46-47
- 致谢47-48
【相似文献】
中国期刊全文数据库 前10条
1 王卫华;;随意输入复杂数学公式[J];电脑迷;2009年17期
2 罗德智;全屏幕数学公式编排软件初探[J];小型微型计算机系统;1989年06期
3 文合平;数学公式的计算机表达[J];现代教育技术;2003年02期
4 肖建于;洪留荣;胡智文;;基于模糊理论的数学公式上下标关系判别[J];计算机工程与设计;2008年04期
5 郝保水;;Equation Chapter 1 Section 1联机手写数学公式识别技术[J];大众科技;2011年06期
6 郝保水;;联机手写数学公式识别技术[J];大众科技;2011年09期
7 马鸿键;李文钊;陈俏;;网络化教学中数学公式输入的简便实现[J];电脑知识与技术;2013年16期
8 王可胜;;透镜数学公式设计法问世[J];仪器制造;1984年01期
9 张晓东;;数学公式编排软件的结构与实现[J];计算机应用与软件;1988年03期
10 罗亮生;;数学公式编排中的美学原则[J];编辑之友;1989年04期
中国重要会议论文全文数据库 前3条
1 靳简明;江红英;;印刷体数学公式处理研究现状[A];2001年中国智能自动化会议论文集(上册)[C];2001年
2 肖敏;黄磊;刘迎建;;数学公式识别系统[A];第八届全国汉字识别学术会议论文集[C];2002年
3 王庆林;周东华;刘文;;Croos下垂问题的数学模型及验证[A];1996中国控制与决策学术年会论文集[C];1996年
中国重要报纸全文数据库 前10条
1 许中银;编辑数学试卷的 小技巧[N];中国电脑教育报;2004年
2 张清;数学公式输入不求人[N];中国电脑教育报;2002年
3 杨振中;汉王发布手写公式[N];电子资讯时报;2006年
4 张亚君;如何实现公式颜色的更改[N];中国电脑教育报;2007年
5 山东 吕立霞;一步一步学数学公式的输入[N];电脑报;2005年
6 李刚;在WPSOffice2003中编辑数学试卷的小技巧[N];江苏经济报;2004年
7 江山;汉王发布手写公式[N];中华工商时报;2006年
8 特派记者 彭瑞球;用数学公式开解时装[N];21世纪经济报道;2013年
9 杨建邺;数学公式还会吓跑人吗?[N];中国图书商报;2006年
10 特约记者 王握文 本报通讯员 徐莎 本报记者 唐先武;数学的威力有多大?[N];科技日报;2012年
中国博士学位论文全文数据库 前2条
1 李峰;英文科技文档中数学公式的定位、识别与重建[D];大连理工大学;2007年
2 苏伟;基于Web的数学公式输入及可访问性关键问题研究[D];兰州大学;2010年
中国硕士学位论文全文数据库 前10条
1 徐伟欣;面向检索的Word文档数学公式提取方法[D];河北大学;2015年
2 徐月霞;面向语义的数学公式N-grams索引结构研究[D];兰州大学;2015年
3 程铭;数学公式的线性输入方法研究[D];兰州大学;2015年
4 王琪辉;基于深度学习的印刷体数学公式符号识别方法研究[D];沈阳工业大学;2016年
5 白华;数学公式读法歧义性研究[D];兰州大学;2016年
6 郭俊楠;MathML格式数学公式查重检测算法研究[D];渤海大学;2016年
7 卢托;科技文档中数学公式的描述与检索[D];华中科技大学;2007年
8 徐旭明;在线手写数学公式识别的研究[D];淮北师范大学;2010年
9 孙友艳;数学公式到中国盲文自动转换研究[D];兰州大学;2013年
10 张婷;网络数学公式转换的研究与实现[D];兰州大学;2009年
,本文编号:1054714
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1054714.html