公式相似度算法及其在论文查重中的应用研究
本文关键词:公式相似度算法及其在论文查重中的应用研究,由笔耕文化传播整理发布。
【摘要】:随着信息技术的发展以及互联网的普及,人们获取信息的方式越来越便利。为了更加方便、快捷地共享与交流新的学术研究成果,学术资源网络化已经成为发展趋势,但网络学术资源的共享性质以及获取成本的降低,使得抄袭、剽窃等不道德行为日益增多。 文本形式的数字化学术论文是网络学术资源的重要组成部分,为了防止文本的非法复制与抄袭,文本复制检测技术已成为研究热点,给学术论文文本查重提供了方法,并且取得了很大进展,,但对图像、图表、公式等非文本类元素的复制检测技术尚处于起步阶段,有待进一步的研究。 本文首先阐述了复制检测技术,分析了现有复制检测系统的处理方式。其次,分析了文本、源码复制检测与公式复制检测的特点,提出一种基于二叉树结构的LaTeX格式数学表达式匹配算法,首先根据数学公式的LaTeX格式生成其二叉树表示,并对树形结构作归一化处理,然后先序遍历二叉树并对变量名作归一化处理,最后根据对应位相同的公式元素计算两个公式的相似度。在此基础上,提出了一种数学公式抄袭检测算法。首先生成待检测数学公式的二叉树表示及结构码,然后在与结构码同名的表中查找记录,计算相似度,最后根据阀值确定是否为抄袭。实验结果表明,该算法准确地实现了数学公式的抄袭检测,是一种较实用的算法。
【关键词】:抄袭检测 数学公式 相似度 LaTeX
【学位授予单位】:渤海大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.1
【目录】:
- 摘要4-5
- Abstract5-10
- 1 绪论10-14
- 1.1 研究背景与意义10
- 1.2 论文查重技术研究现状10-13
- 1.2.1 论文查重技术11
- 1.2.2 国外研究现状11-12
- 1.2.3 国内研究现状12-13
- 1.4 本文工作13-14
- 2 抄袭检测技术14-19
- 2.1 程序代码抄袭检测技术14-15
- 2.1.1 属性计数法14
- 2.1.2 结构度量法14-15
- 2.2 文本抄袭检测技术15-17
- 2.2.1 基于词频统计的方法15-16
- 2.2.2 基于数字指纹的方法16-17
- 2.2.3 基于语义相似的方法17
- 2.3 数学公式抄袭检测17-18
- 2.3.1 数学公式的输入格式17
- 2.3.2 相似度计算方法17-18
- 2.4 本章小结18-19
- 3 基于二叉树结构的数学公式匹配算法19-26
- 3.1 相似度的定义19-20
- 3.2 基于二叉树的数学公式匹配算法20-25
- 3.2.1 二叉树构造20-22
- 3.2.2 归一化处理22
- 3.2.3 数学公式匹配算法22-24
- 3.2.4 实验结果及分析24-25
- 3.3 算法适用性分析25
- 3.4 本章小结25-26
- 4 基于结构码的数学公式抄袭检测算法26-36
- 4.1 数学表达式检索技术26-31
- 4.1.1 数学表达式的格式分类27-29
- 4.1.2 索引粒度29
- 4.1.3 索引方法29-31
- 4.2 基于二叉树的数学公式抄袭检测算法31-34
- 4.2.1 结构码生成31-32
- 4.2.2 公式检测数据库设计32
- 4.2.3 数学公式检测算法32-34
- 4.3 算法适用性分析34-35
- 4.4 本章小结35-36
- 5 数学表达式复制检测原型系统36-40
- 5.1 系统总体分析与设计36-37
- 5.2 系统功能模块分析与设计37-39
- 5.2.1 预处理模块功能分析与设计37
- 5.2.2 检索模块功能分析与设计37-38
- 5.2.3 相似度计算模块分析与设计38-39
- 5.3 本章小结39-40
- 6 论文总结与展望40-41
- 参考文献41-44
- 发表论文情况44-45
- 致谢45-46
【参考文献】
中国期刊全文数据库 前10条
1 史彦军,滕弘飞,金博;抄袭论文识别研究与进展[J];大连理工大学学报;2005年01期
2 金博;史彦军;滕弘飞;;基于篇章结构相似度的复制检测算法[J];大连理工大学学报;2007年01期
3 张成昱 ,窦天芳 ,吴滨 ,高竞妹;数学公式的采集、组织和检索[J];大学图书馆学报;2005年05期
4 郭育生;黄磊;刘昌平;;基于多候选的数学公式识别系统[J];计算机研究与发展;2007年07期
5 秦玉平;李祥纳;王秀坤;王春立;;基于超球支持向量机的类增量学习算法研究[J];计算机科学;2008年08期
6 陈康,许婷,戴文俊,武港山;基于Web的全文搜索引擎的设计与实现[J];计算机工程;2005年20期
7 王成;刘金刚;;一种改进的字符串匹配算法[J];计算机工程;2006年02期
8 秦玉平;冷强奎;王秀坤;王春立;;基于局部词频指纹的论文抄袭检测算法[J];计算机工程;2011年06期
9 宋擒豹,杨向荣,沈钧毅,齐勇;数字商品非法复制的检测算法[J];计算机学报;2002年11期
10 靳简明;江红英;王庆人;;数学公式识别系统:MatheReader[J];计算机学报;2006年11期
中国硕士学位论文全文数据库 前3条
1 刘志伟;数学搜索引擎研究[D];兰州大学;2011年
2 卢托;科技文档中数学公式的描述与检索[D];华中科技大学;2007年
3 刘东阁;基于MathML的公式检索系统的设计与实现[D];东北大学;2009年
本文关键词:公式相似度算法及其在论文查重中的应用研究,由笔耕文化传播整理发布。
本文编号:410586
本文链接:https://www.wllwen.com/wenshubaike/gzzj/410586.html