当前位置:主页 > 论文百科 > 论文查重 >

基于语义结构的学术论文复制检测技术研究与实现

发布时间:2017-07-27 03:15

  本文关键词:基于语义结构的学术论文复制检测技术研究与实现


  更多相关文章: 复制检测 论文剽窃 语义结构 多层次决策


【摘要】: 随着互联网、数字图书馆和数字化分布式媒体的发展,海量信息以各种形态充斥着我们的日常生活。丰富的数字化资源给人们提供便利的同时,也给复制抄袭行为提供了滋生的温床。尤其是近几年来,学术造假、论文剽窃等一系列学术不端事件屡见不鲜。为此,通过设计并实现有效的抄袭检测系统,从技术层面上防止学术抄袭、抵制学术造假具有重要的理论意义和使用价值。 基于文本的复制检测技术是保护文本知识产权和提高信息检索效率的最重要手段,而基于语义的论文复制检测识别则是复制检测的核心和重点。 在对复制检测技术的基本原理和现有复制检测系统的系统结构与特点进行分析和综合的基础上,研究并提出了一种基于语义的多层次多策略的复制检测算法以提高复制检测的准确率和效率。具体主要研究工作和成果如下: 通过分析中文论文抄袭的现实情况,将论文抄袭划分为一稿多投和普通抄袭两种分类结构。并针对这两种抄袭分别采用不同的识别算法,一稿多投使用基于数字指纹的识别方法,普通抄袭使用词频统计的识别方法,提高了检测效率和精度。 根据学术论文的特点以及算法设计的考虑,提出了将论文结构化、分层提取特征项综合考虑的思想,将学术论文结构分为否决层、判断层和识别层。在这三个层次中,每一层在识别流程中功能各异,依次递推、层层推理以提高识别精度。 在文本预处理过程中,针对中文文本自然语言处理的特点,建立同义词词表知识库,对文本内容进行“重构”,以实现同义词替换,从语义层面检测基于“替换同义词”的抄袭现象。 在普通抄袭复制检测识别的实现过程中,采用了多层次多策略的思想,根据识别层中的特征项在论文中的不同位置以及对相似度判断的贡献大小,分别设置不同的权值,从而提高了相似度计算的精确度。此外,考虑到不同研究领域的技术指标有所差异,在阈值的设定策略上也没有单一确定,而是根据不同的论文学科分类动态的设定阈值,利用多策略的方法提高识别算法的适用范围。 实验结果表明,本文算法的准确率和召回率都优于现有的复制检测原型系统。
【关键词】:复制检测 论文剽窃 语义结构 多层次决策
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1
【目录】:
  • 摘要4-6
  • ABSTRACT6-10
  • 第一章 绪论10-17
  • 1.1 研究背景及意义10-12
  • 1.2 国内外研究现状12-15
  • 1.2.1 复制检测技术的分类12
  • 1.2.2 国外的研究现状12-14
  • 1.2.3 国内的研究现状14-15
  • 1.3 本课题研究内容与本文组织结构15-16
  • 1.4 本章小结16-17
  • 第二章 复制检测技术概述17-30
  • 2.1 数字指纹技术17-19
  • 2.2 词频统计技术19-22
  • 2.3 现有复制检测原型系统22-28
  • 2.3.1 COPS原型系统22-23
  • 2.3.2 SCAM原型系统23-25
  • 2.3.3 ROST系统25-26
  • 2.3.4 AMLC系统26-28
  • 2.4 通用的文档复制检测系统结构28
  • 2.5 复制检测系统的测评指标28-29
  • 2.6 本章小结29-30
  • 第三章 学术论文复制检测系统的设计30-48
  • 3.1 学术论文抄袭的界定与分类30-33
  • 3.1.1 抄袭的相关概念30-31
  • 3.1.2 抄袭的常见分类31-32
  • 3.1.3 本文定义的抄袭类别32-33
  • 3.2 学术论文的结构和内容特点33-36
  • 3.3 学术论文复制检测方法设计36-47
  • 3.3.1 系统总体框架36-37
  • 3.3.2 论文分层特征提取模块37
  • 3.3.3 预处理模块37-40
  • 3.3.4 学术论文复制检测流程40-41
  • 3.3.5 一稿多投识别算法41-44
  • 3.3.6 普通抄袭识别算法44-47
  • 3.4 本章小结47-48
  • 第四章 实验验证及结果分析48-58
  • 4.1 系统开发环境48
  • 4.2 实验数据集的构建48-50
  • 4.2.1 测试数据集的构建48-49
  • 4.2.2 训练参数数据集的构建49-50
  • 4.3 实验结果与分析50-57
  • 4.3.1 相似度阈值学习50-51
  • 4.3.2 普通抄袭相似度计算权值判定51-52
  • 4.3.3 对比试验52-56
  • 4.3.4 文本片段实例56-57
  • 4.4 本章小结57-58
  • 第五章 总结与展望58-60
  • 5.1 全文总结58-59
  • 5.2 进一步工作59-60
  • 参考文献60-64
  • 致谢64-66
  • 攻读硕士学位期间发表的论文66

【引证文献】

中国硕士学位论文全文数据库 前1条

1 宋杰;改进的基于串匹配的中文文档复制检测方法研究[D];湖南大学;2012年



本文编号:579572

资料下载
论文发表

本文链接:https://www.wllwen.com/wenshubaike/gzzj/579572.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d7597***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com