当前位置:主页 > 论文百科 > 论文查重 >

基于文本挖掘技术的论文抄袭判定研究

发布时间:2017-10-05 08:14

  本文关键词:基于文本挖掘技术的论文抄袭判定研究


  更多相关文章: 文本挖掘 抄袭判定 文本分类 文本相似度 词频统计


【摘要】: 自20世纪90年代学术界提出反对学术腐败以来,被揭露出来的学术腐败事件最多的是学术造假,其中又以学术著作和论文的抄袭为最。解决论文抄袭的判定问题不但对于保护知识产权、提高学术论文质量、净化学术领域、防止学术腐败都有很重要的意义,而且可以有效的防止一稿多投和减轻审稿人员的工作负担。 文本挖掘是数据挖掘研究面向非结构化和半结构化文本数据的自然延伸。人们日常生活和工作中接触到的信息有大多数都是以文本形式出现的,文本挖掘是从文本或文本集中发现和挖掘归纳性的有效、创新、有用和最终可理解的模式、模型、趋势、规则等知识的非平凡过程。文本挖掘是利用智能算法,并结合文字处理技术,分析大量的非结构化文本源(如文档、电子表格、电子邮件、书籍、网页等)抽取或标记关键字概念,文字间的关系,并按照内容对分档进行分类,获取有用的知识和信息。 如何将文本挖掘中的主要技术应用于论文抄袭判定中,这是本文的主要研究目的。主要研究成果工作如下: (1)依据论文抄袭界定的法律,分析归纳了论文抄袭的类型和论文抄袭判定的主要技术,包括数字指纹技术和词频统计技术; (2)探讨和研究了文本挖掘中涉及的信息检索与信息抽取技术以及文本挖掘的主要方法(关联分析、文本分类、文本聚类、自动文摘等); (3)在分析各种文本相似度计算主要方法的基础上,设计和实现了基于文本分类的文档相似度计算和基于段落词频统计的文档相似度计算,在实际测试中,效果较好; (4)结合全文相似度计算、段落相似度计算和语句相似度计算的技巧,设计并实现一个基于文本分类思想的论文抄袭判定系统。
【关键词】:文本挖掘 抄袭判定 文本分类 文本相似度 词频统计
【学位授予单位】:合肥工业大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.1
【目录】:
  • 摘要5-6
  • Abstract6-7
  • 致谢7-12
  • 第一章 绪论12-16
  • 1.1 研究背景和研究意义12
  • 1.2 国内外研究现状12-13
  • 1.3 本文研究内容13-14
  • 1.4 本文结构14
  • 1.5 本章小结14-16
  • 第二章 论文抄袭问题概述16-23
  • 2.1 论文抄袭界定的法律依据16-17
  • 2.2 论文抄袭的类型17-18
  • 2.2.1 论点抄袭17
  • 2.2.2 内容抄袭17-18
  • 2.3 论文抄袭判定常用方法18-22
  • 2.3.1 论点抄袭的判定方法18
  • 2.3.2 内容抄袭的判定方法18-22
  • 2.4 本章小结22-23
  • 第三章 文本挖掘技术概述23-37
  • 3.1 文本挖掘概念23
  • 3.2 信息检索与信息抽取23-28
  • 3.2.1 信息检索23-26
  • 3.2.2 信息抽取26-27
  • 3.2.3 信息检索和信息抽取的关系27-28
  • 3.3 文本挖掘主要方法28-36
  • 3.3.1 关联分析28
  • 3.3.2 文档分类28-32
  • 3.3.3 文档聚类32-34
  • 3.3.4 自动文摘34-36
  • 3.4 本章小结36-37
  • 第四章 文本相似度的计算37-51
  • 4.1 文本相似度概念37
  • 4.2 文本相似度的主要计算方法37-44
  • 4.2.1 基于向量空间模型的文本相似度计算37-38
  • 4.2.2 隐性语义标引38-40
  • 4.2.3 基于海明距离的文本相似度计算40-41
  • 4.2.4 基于属性论的文本相似度计算41-43
  • 4.2.5 基于语义理解的文本相似度计算43-44
  • 4.3 基于文本分类的文档相似度计算44-46
  • 4.4 基于段落词频统计的文档相似度计算46-48
  • 4.5 基于段落向量空间的文档相似度计算48-49
  • 4.6 本章小结49-51
  • 第五章 论文抄袭判定系统的设计与实现51-57
  • 5.1 系统分析51
  • 5.2 系统总体框架51
  • 5.3 系统主要模块与具体算法51-53
  • 5.4 系统实现53-55
  • 5.5 实验结果及分析55-56
  • 5.6 本章小结56-57
  • 第六章 总结与展望57-59
  • 6.1 全文总结57
  • 6.2 后续工作57-59
  • 参考文献59-62
  • 攻读硕士学位期间主要科研工作及成果62

【引证文献】

中国硕士学位论文全文数据库 前3条

1 王森;基于主题树的自上而下文本复制检测研究[D];大连理工大学;2010年

2 蔡尚辉;范例推理在智能车辆监控数据处理系统中的应用[D];河北科技大学;2011年

3 杨茂;基于句子相似度的文本比对算法研究[D];电子科技大学;2010年



本文编号:975703

资料下载
论文发表

本文链接:https://www.wllwen.com/wenshubaike/gzzj/975703.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f8e23***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com