当前位置:主页 > 科技论文 > 信息工程论文 >

复制粘贴的快捷键_基于主题树的自上而下文本复制检测研究

发布时间:2016-12-02 19:31

  本文关键词:中文文本复制检测技术研究,由笔耕文化传播整理发布。


《大连理工大学》 2010年

基于主题树的自上而下文本复制检测研究

王森  

【摘要】: 最近几年受社会一些不良风气的影响论文抄袭现象越来越严重,引起越来越多的人甚至是全社会的关注。为了保护知识产权、端正学术风气,并减少论文抄袭现象带来的严重后果,进行文本复制检测技术的研究变得十分必要。 本文针对基于字符串匹配算法的文本块选择难题和基于词频统计算法没有充分考虑文本的语义和结构信息等问题,提出了基于主题树的自上而下文本复制检测算法。首先阐述了文本的主题树表示方式:根结点用文本的题目、作者、单位、摘要、关键词和分类号信息表示;分支结点用主题包表示,由语义聚类的方法形成主题,再由句子关系图方法抽取具有代表性的句子,从而形成主题包;叶结点用文本的所有句子表示。然后提出自上而下的主题树相似度计算方法:第一,计算根结点相似度,即比较两篇文本的根结点信息,若根结点不相似则相似度计算结束,否则继续计算下一层结点相似度;第二,计算分支结点相似度,以句子相似度为基础计算两篇文本的主题包之间的相似度,若分支结点总相似度小于阈值则相似度计算结束,否则继续计算下层结点相似度;第三,计算叶结点相似度,即计算两篇文本所有句子的相似度,若叶结点总相似度小于阈值则认为两篇文本不存在抄袭,否则认为两篇文本之间存在抄袭。 本文设计并实现了文本复制检测系统,实验中分别收集了五个不同领域的论文各200篇。然后对每个领域的论文分别进行不同级别的复制,形成论文20篇,并收集了5篇完全无关的论文,这25篇论文作为实验中的待检测论文。为了验证本文提出的新的复制检测算法的有效性,利用作者之前提出的多种复制检测算法作了3组对比实验,实验结果显示,本文提出的算法耗费的时间少、抄袭判定的区分度好、检测准确率高。

【关键词】:
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1
【目录】:

  • 摘要4-5
  • Abstract5-8
  • 1 绪论8-13
  • 1.1 研究背景及意义8-10
  • 1.1.1 理论意义8-9
  • 1.1.2 应用价值9-10
  • 1.2 技术路线及研究内容10-13
  • 2 文本复制检测基本理论13-22
  • 2.1 文本复制检测研究综述13-16
  • 2.1.1 文本复制检测基本概念13
  • 2.1.2 文本复制检测国内外研究现状13-16
  • 2.2 经典的复制检测系统16-21
  • 2.2.1 SIF原型系统16
  • 2.2.2 COPS系统16-17
  • 2.2.3 SCAM系统17-19
  • 2.2.4 CHECK系统19-20
  • 2.2.5 MDR系统20
  • 2.2.6 CDSDG系统20-21
  • 2.3 多示例学习基本理论21-22
  • 3 文本预处理22-34
  • 3.1 文本格式转换22-23
  • 3.2 文本分句和切词23-24
  • 3.3 文本表示24-31
  • 3.3.1 根结点表示26-27
  • 3.3.2 分支结点的主题包表示27-30
  • 3.3.3 叶结点的句子表示30-31
  • 3.4 文本库构建31-34
  • 4 文本相似度计算34-39
  • 4.1 根结点相似度34-36
  • 4.2 分支结点相似度36-37
  • 4.2.1 主题包相似度计算36
  • 4.2.2 分支结点相似度计算36-37
  • 4.3 叶结点相似度37
  • 4.4 论文相似度37-39
  • 5 文本复制检测系统构建39-46
  • 5.1 系统架构以及功能模块39-41
  • 5.1.1 文本注册模块39-40
  • 5.1.2 文本库模块40
  • 5.1.3 复制检测模块40-41
  • 5.2 实验结果及分析41-46
  • 5.2.1 基于句子包的文本复制检测算法42-43
  • 5.2.2 基于文本结构树的自下而上复制检测算法43
  • 5.2.3 基于不同主题提取方法的复制检测算法43-44
  • 5.3.4 实验结果及分析44-46
  • 结论46-48
  • 参考文献48-52
  • 攻读硕士学位期间发表学术论文情况52-53
  • 致谢53-55
  • 下载全文 更多同类文献

    CAJ全文下载

    (如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

    CAJViewer阅读器支持CAJ、PDF文件格式


    【参考文献】

    中国期刊全文数据库 前10条

    1 汤世平;樊孝忠;;基于多示例学习的题库重复性检测研究[J];北京理工大学学报;2005年12期

    2 吕学强,任飞亮,黄志丹,姚天顺;句子相似模型和最相似句子查找算法[J];东北大学学报(自然科学版);2003年06期

    3 金博;史彦军;滕弘飞;;基于篇章结构相似度的复制检测算法[J];大连理工大学学报;2007年01期

    4 张莉,周伟达,焦李成;核聚类算法[J];计算机学报;2002年06期

    5 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期

    6 蔡自兴,李枚毅;多示例学习及其研究现状[J];控制与决策;2004年06期

    7 鲍军鹏,沈钧毅,刘晓东,宋擒豹;自然语言文档复制检测研究综述[J];软件学报;2003年10期

    8 黎铭,薛晓冰,周志华;基于多示例学习的中文Web目录页面推荐[J];软件学报;2004年09期

    9 廉站俊;吕学强;张玉杰;施水才;;基于句子相似度计算的信息抽取[J];现代图书情报技术;2007年06期

    10 林鸿飞,战学刚,姚天顺;文本结构分析与基于示例的文本过滤[J];小型微型计算机系统;2000年04期

    中国硕士学位论文全文数据库 前1条

    1 于海英;程序代码相似度识别的研究[D];内蒙古师范大学;2006年

    【共引文献】

    中国期刊全文数据库 前10条

    1 汤世平;樊孝忠;;基于多示例学习的题库重复性检测研究[J];北京理工大学学报;2005年12期

    2 郑岩,黄荣怀,战晓苏,周春光;基于遗传算法的动态模糊聚类[J];北京邮电大学学报;2005年01期

    3 姜永常;;基于知识元的知识仓库构建[J];图书与情报;2005年06期

    4 王凌峰;;学术规范中反剽窃的信息技术视角[J];图书与情报;2006年04期

    5 吕佳;;核聚类算法及其在模式识别中的应用[J];重庆师范大学学报(自然科学版);2006年01期

    6 林鸿飞,战学刚,姚天顺;中文文本挖掘的特征导航机制[J];东北大学学报(自然科学版);2000年03期

    7 曲昭伟;郑岩;吕廷杰;;基于聚类实现客户行为分析[J];东北师大学报(自然科学版);2006年02期

    8 杨思春;;一种改进的句子相似度计算模型[J];电子科技大学学报;2006年06期

    9 林鸿飞,高仁璟;基于潜在语义索引的文本摘要方法[J];大连理工大学学报;2001年06期

    10 林鸿飞;丁洪文;杨志豪;赵晶;;基于概念和统计的问答系统实现机制[J];大连理工大学学报;2006年02期

    中国重要会议论文全文数据库 前9条

    1 饶鲜;李斌;杨绍全;;用核聚类法进行异常检测[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年

    2 程新荣;杨仁刚;;网页自动分类在搜索引擎上的应用研究[A];2007'中国仪器仪表与测控技术交流大会论文集(二)[C];2007年

    3 龚慧超;项文波;侯晓霞;茅耀斌;;基于多示例学习的不良内容图像过滤算法研究[A];第十四届全国图象图形学学术会议论文集[C];2008年

    4 梁久祯;;核函数参数优化的聚类算法[A];第三届全国信息获取与处理学术会议论文集[C];2005年

    5 万敏;罗振声;郭玉箐;;自动文摘系统中的意义段划分问题研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年

    6 连浩;刘悦;许洪波;王斌;程学旗;;一种改进的基于内容的快速网页查重算法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

    7 朱海军;张桂平;蔡东风;王炜华;;科技论文的标题识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

    8 赵骞;赵胜川;;基于核聚类算法的交通事故主要原因分类及分析[A];第六届交通运输领域国际学术会议论文集(下卷)[C];2006年

    9 张煜;李素建;欧阳佑;;动态多文档自动摘要研究[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年

    中国博士学位论文全文数据库 前10条

    1 张道强;基于核的联想记忆及聚类算法的研究与应用[D];南京航空航天大学;2005年

    2 潘志松;基于神经网络的入侵检测研究[D];南京航空航天大学;2003年

    3 张莉;支撑矢量机与核方法研究[D];西安电子科技大学;2002年

    4 周伟达;核机器学习方法研究[D];西安电子科技大学;2003年

    5 解应春;基于Kernel学习机的建模与分类的应用算法研究[D];浙江大学;2003年

    6 王莉;数据挖掘中聚类方法的研究[D];天津大学;2004年

    7 郭秀娟;基于关联规则数据挖掘算法的研究[D];吉林大学;2004年

    8 彭强;复杂系统远程智能故障诊断技术研究[D];南京理工大学;2004年

    9 陈才扣;基于核的非线性特征抽取与图象识别研究[D];南京理工大学;2004年

    10 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年

    中国硕士学位论文全文数据库 前10条

    1 何宏;数字水印及其在网络版权保护中的应用研究[D];武汉大学;2005年

    2 杨海东;基于Ajax技术的异步搜索引擎研究与实现[D];南京信息工程大学;2007年

    3 张昭涛;数据挖掘聚类算法研究[D];西南交通大学;2005年

    4 王萌;基于概念向量空间模型的中文自动文摘研究[D];华中师范大学;2005年

    5 葛强;亲属关系逻辑推理专家系统的研究[D];河南大学;2005年

    6 周舫;汉语句子相似度计算方法及其应用的研究[D];河南大学;2005年

    7 钱昱;数据挖掘在入侵检测中的应用研究[D];安徽大学;2004年

    8 马长林;中文自动文摘技术若干问题的研究[D];华中师范大学;2002年

    9 章成志;基于文本层次模型的Web概念挖掘研究[D];南京农业大学;2002年

    10 傅赛香;基于Internet的智能信息检索技术研究[D];广西师范大学;2002年

    【二级参考文献】

    中国期刊全文数据库 前10条

    1 骆正华,樊孝忠,刘林,龚永罡;基于E-Chunk的问句实例分析系统[J];北京理工大学学报;2005年01期

    2 吕学强,任飞亮,黄志丹,姚天顺;句子相似模型和最相似句子查找算法[J];东北大学学报(自然科学版);2003年06期

    3 朱靖波,王宝库,姚天顺;一种规则描述语言NPRDL语言[J];东北大学学报(自然科学版);1996年06期

    4 史彦军,滕弘飞,金博;抄袭论文识别研究与进展[J];大连理工大学学报;2005年01期

    5 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期

    6 金博;史彦军;滕弘飞;;基于篇章结构相似度的复制检测算法[J];大连理工大学学报;2007年01期

    7 谷波,张永奎;文本聚类算法的分析与比较[J];电脑开发与应用;2003年11期

    8 郑逢斌,陈志国,姜保庆,乔保军;语义校对系统中的句子语义骨架模糊匹配算法[J];电子学报;2003年08期

    9 杨新伦,唐培和,刘浩;ASP.NET对XML文档的支持与处理方式[J];广西工学院学报;2003年01期

    10 李广原,陈丹;文本信息检索技术[J];广西科学院学报;2001年02期

    中国重要会议论文全文数据库 前1条

    1 车万翔;刘挺;秦兵;李生;;面向双语句对检索的汉语句子相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

    中国博士学位论文全文数据库 前1条

    1 李素建;汉语组块计算的若干研究[D];中国科学院研究生院(计算技术研究所);2002年

    中国硕士学位论文全文数据库 前2条

    1 沈斌;基于分词的中文文本相似度计算研究[D];天津财经大学;2006年

    2 于海英;程序代码相似度识别的研究[D];内蒙古师范大学;2006年

    【相似文献】

    中国期刊全文数据库 前10条

    1 邓爱萍;徐国梁;肖奔;;基于串匹配方法的源代码复制检测技术研究[J];科学技术与工程;2007年10期

    2 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期

    3 李静柏;;多信息源图像的融合技术研究[J];黑龙江科技信息;2011年12期

    4 王钟斐;;一种改进的PageRank算法[J];计算机与数字工程;2011年06期

    5 范伟,宣国荣;VR系统三维建模中细节水平分割的分析[J];计算机工程;1998年01期

    6 李振星,徐泽平,唐卫清,唐荣锡;网页多词元快速聚类算法[J];计算机工程;2003年02期

    7 孙宏伟,田新广,李学春,张尔扬;一种改进的IDS异常检测模型[J];计算机学报;2003年11期

    8 贺晓,刘景宁,李淑霞;基于灰色关联理论的案例推理在故障智能诊断系统中的应用[J];中国机械工程;2004年22期

    9 田捷,何余良,陈宏,杨鑫;一种基于相似度聚类方法的指纹识别算法[J];中国科学E辑;2005年02期

    10 李志东,云晓春,杨武,辛毅;基于相似通信特征扩散分析的未知蠕虫检测[J];计算机工程与应用;2005年19期

    中国重要会议论文全文数据库 前10条

    1 李娆娆;雷沛霖;黄兰岚;原思通;刘营;;芫花药材高效液相指纹图谱研究[A];中华中医药学会四大怀药与地道药材研究论坛暨中药炮制分会第二届第五次学术会与第三届会员代表大会论文集[C];2007年

    2 张虎;郭玉翠;宫尚宝;;移动Ad-hoc网络中基于第三方观察机制的信任管理研究[A];第十六届全国青年通信学术会议论文集(上)[C];2011年

    3 王志松;;决策树中数据遗失值填充方法的研究[A];2001年中国智能自动化会议论文集(下册)[C];2001年

    4 汤丽华;赵吴静;金菊良;张明;;基于熵的水质综合评价的相似插值模型[A];第八届中国管理科学学术年会论文集[C];2006年

    5 王娟;;一种基于粗糙集理论的操作风险判别方法[A];科学发展观与系统工程——中国系统工程学会第十四届学术年会论文集[C];2006年

    6 刘晓林;郁滨;;基于相似度的遗传算法模式理论研究[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年

    7 金保华;高湘飞;柳雪环;张磊;;基于XML框架与CBR智能预案管理的研究[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年

    8 王超;许方;;一种基于奇异值分解的印刷体数字识别算法[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年

    9 麦智毅;杨春玲;;基于结构相似度的H.264帧内预测快速算法[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年

    10 李增扬;李兵;何克清;;本体中复杂网络特性的发现[A];2006全国复杂网络学术会议论文集[C];2006年

    中国重要报纸全文数据库 前10条

    1 证券时报记者  韩如冰;[N];证券时报;2006年

    2 聂磊 曹进 罗国安;[N];中国医药报;2006年

    3 孟祥宁 张亚萌 郭青剑;[N];中国艺术报;2009年

    4 聂磊;曹进;罗国安;[N];中国医药报;2005年

    5 海潮;[N];中国医药报;2007年

    6 栾海;[N];医药经济报;2007年

    7 沈阳药科大学药学院 孙国祥;[N];中国中医药报;2007年

    8 记者 李学梅;[N];新华每日电讯;2009年

    9 小新;[N];中国医药报;2007年

    10 天相投顾 王聃聃;[N];证券时报;2007年

    中国博士学位论文全文数据库 前10条

    1 李旭;基于指纹和语义知识表示的中文文档复制检测方法[D];燕山大学;2010年

    2 顾本柏;客体相似性表征的认知和发展机制研究[D];西南大学;2011年

    3 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年

    4 杜方;复杂网络系统间相似性识别及其应用[D];浙江大学;2010年

    5 肖宇;聚类分析及其在图像处理中的应用[D];北京交通大学;2012年

    6 游扬声;一般分布模式下GIS位置数据的不确定性研究[D];武汉大学;2005年

    7 孙平;高科技品牌延伸的评价模型与消费者评价实证研究[D];山东大学;2008年

    8 张旭秀;盲源分离及其在脑电信号处理中应用的研究[D];大连理工大学;2006年

    9 刘晓东;面向无线传感器网络数据传输与查询的节能算法与理论研究[D];中国海洋大学;2009年

    10 刘建华;粒子群算法的基本理论及其改进研究[D];中南大学;2009年

    中国硕士学位论文全文数据库 前10条

    1 王森;基于主题树的自上而下文本复制检测研究[D];大连理工大学;2010年

    2 刘双明;文档复制检测的应用研究[D];太原理工大学;2010年

    3 马勤;文档复制检测技术在学术监管中的应用研究[D];郑州大学;2012年

    4 宋杰;改进的基于串匹配的中文文档复制检测方法研究[D];湖南大学;2012年

    5 卢小康;中文文本复制检测技术研究[D];杭州电子科技大学;2009年

    6 李旭;基于串匹配方法的文档复制检测系统研究[D];燕山大学;2006年

    7 李婷婷;基于语义结构的学术论文复制检测技术研究与实现[D];北京邮电大学;2010年

    8 孙伟;基于文档复制检测技术的研究与实现[D];辽宁工程技术大学;2010年

    9 伍星宇;基于相似度的社区发现算法研究[D];华中科技大学;2012年

    10 闫小龙;文档复制计算机辅助检测系统的研究与实现[D];太原理工大学;2008年


      本文关键词:中文文本复制检测技术研究,由笔耕文化传播整理发布。



    本文编号:202527

    资料下载
    论文发表

    本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/202527.html


    Copyright(c)文论论文网All Rights Reserved | 网站地图 |

    版权申明:资料由用户2ed92***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com