基于句子相似度的论文抄袭检测模型研究
本文关键词:基于句子相似度的论文抄袭检测模型研究,由笔耕文化传播整理发布。
【摘要】:提出一种基于句子相似度的论文抄袭检测模型。利用局部词频指纹算法对大规模文档进行快速检测,找出疑似抄袭文档。根据最长有序公共子序列算法计算句子间的相似度,并标注抄袭细节,给出抄袭依据。在标准中文数据集SOGOU-T上进行的实验表明,该模型具有较强的局部信息挖掘能力,在一定程度上克服了现有的论文抄袭检测算法精度不高的缺点。
【作者单位】: 渤海大学信息科学与工程学院;大连海事大学信息科学技术学院;
【关键词】: 句子相似度 抄袭检测 局部词频 最长有序公共子序列
【基金】:国家自然科学基金(No.60603023) 辽宁省教育厅重点实验室项目(No.LS2010180)~~
【分类号】:TP391.1
【正文快照】: 1引言剽窃他人研究成果,篡改或伪造数据并继续发表,给学术研究带来严重危害。建立一种快速、准确的论文抄袭检测模型具有现实意义,论文抄袭检测算法已成为当前研究的热点。与英文学术论文不同,中文学术论文语法形式灵活多变,语用歧义性大,且词与词之间无明显分隔,所以检测难
【参考文献】
中国期刊全文数据库 前4条
1 林贤明,李堂秋,陈毅东;句子相似度的动态规划求解及改进[J];计算机工程与应用;2004年35期
2 李彬,刘挺,秦兵,李生;基于语义依存的汉语句子相似度计算[J];计算机应用研究;2003年12期
3 史彦军,滕弘飞,金博;抄袭论文识别研究与进展[J];大连理工大学学报;2005年01期
4 金博;史彦军;滕弘飞;;基于篇章结构相似度的复制检测算法[J];大连理工大学学报;2007年01期
【共引文献】
中国期刊全文数据库 前6条
1 杨思春;;一种改进的句子相似度计算模型[J];电子科技大学学报;2006年06期
2 金博;史彦军;滕弘飞;;基于篇章结构相似度的复制检测算法[J];大连理工大学学报;2007年01期
3 张小艳;;中文主观题自动批改中相似句子检索算法[J];南京师范大学学报(工程技术版);2007年02期
4 龚如义;;学术论文署名失范、违规、侵权的分析及应对[J];四川教育学院学报;2006年01期
5 马治国;李晓鸣;;学术论文剽窃的认定及法律责任[J];西安交通大学学报(社会科学版);2005年04期
6 廉站俊;吕学强;张玉杰;施水才;;基于句子相似度计算的信息抽取[J];现代图书情报技术;2007年06期
中国重要会议论文全文数据库 前4条
1 赵妍妍;秦兵;刘挺;张俐;苏中;;基于多特征融合的句子相似度计算[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 菅小艳;郑家恒;;一种改进的句子相似度计算方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 刘宝艳;林鸿飞;杨志豪;;基于改进编辑距离和依存结构的句子相似度计算[A];第三届学生计算语言学研讨会论文集[C];2006年
4 宋彦;张桂平;蔡东风;;基于N-gram的句子相似度计算技术[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前1条
1 谢能付;基于语义Web技术的知识融合和同步方法研究[D];中国科学院研究生院(计算技术研究所);2006年
中国硕士学位论文全文数据库 前10条
1 曾锦麒;语义WEB的知识表示语言及其应用研究[D];中南大学;2004年
2 张瑞霞;基于语义的汉语句法分析系统的研究与实现[D];西北大学;2005年
3 张学;EBMT系统中翻译模板的抽取与匹配[D];大连理工大学;2006年
4 张艳;面向高校师生的应用文机辅写作关键技术研究[D];大连理工大学;2006年
5 菅小艳;基于HMM模型的农作物信息抽取方法研究[D];山西大学;2006年
6 陈志敏;基于主题划分的Web文档自动摘要研究[D];扬州大学;2006年
7 曲晓;受限条件下学生作业文本相似度的研究[D];内蒙古师范大学;2006年
8 黄日茂;语义Web知识表示方法的研究[D];贵州大学;2006年
9 于国权;面向C语言题库的相似试题辨别方法研究[D];哈尔滨工业大学;2006年
10 张玉娟;基于《知网》的句子相似度计算的研究[D];中国地质大学(北京);2006年
【二级参考文献】
中国期刊全文数据库 前10条
1 史彦军,滕弘飞,金博;抄袭论文识别研究与进展[J];大连理工大学学报;2005年01期
2 郭艳华,周昌乐;一种汉语语句依存关系网协动生成方法研究[J];杭州电子工业学院学报;2000年04期
3 王继成 ,武港山 ,周源远 ,张福炎;一种篇章结构指导的中文Web文档自动摘要方法[J];计算机研究与发展;2003年03期
4 张曦煌;须文波;;基于增量学习的超球支持向量机设计[J];计算机工程与应用;2006年13期
5 宋擒豹,杨向荣,沈钧毅,齐勇;数字商品非法复制的检测算法[J];计算机学报;2002年11期
6 唐发明,王仲东,陈绵云;支持向量机多类分类算法研究[J];控制与决策;2005年07期
7 孔锐,张冰;一种快速支持向量机增量学习算法[J];控制与决策;2005年10期
8 张益民,陆汝占,沈李斌;一种混合型的汉语篇章结构自动分析方法[J];软件学报;2000年11期
9 鲍军鹏,沈钧毅,刘晓东,宋擒豹;自然语言文档复制检测研究综述[J];软件学报;2003年10期
10 董振东,董强;面向信息处理的词汇语义研究中的若干问题[J];语言文字应用;2001年03期
中国重要会议论文全文数据库 前1条
1 车万翔;刘挺;秦兵;李生;;面向依存文法分析的搭配抽取方法研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【相似文献】
中国期刊全文数据库 前10条
1 吕学强,任飞亮,黄志丹,姚天顺;句子相似模型和最相似句子查找算法[J];东北大学学报(自然科学版);2003年06期
2 赵巾帼;徐德智;罗庆云;;汉语句子相似度计算方法比对之研究[J];福建电脑;2007年10期
3 耿崇;薛德军;;中文文档复制检测方法研究[J];现代图书情报技术;2007年06期
4 秦新国;;基于句子相似度的文档复制检测算法研究[J];现代图书情报技术;2007年11期
5 秦兵,刘挺,王洋,郑实福,李生;基于常问问题集的中文问答系统研究[J];哈尔滨工业大学学报;2003年10期
6 薛慧芳;;句子相似度计算初探[J];科技信息;2009年19期
7 吉胜军;;基于Levenshtein distance算法的句子相似度计算[J];电脑知识与技术;2009年09期
8 何维;王宇;;基于句子关系图的网页文本主题句抽取[J];现代图书情报技术;2009年03期
9 郭书杰;黄明;梁旭;;陪护机器人口语对话系统设计与实现[J];网络安全技术与应用;2010年12期
10 刘建舟;刘晓华;;主观题自动批改技术的研究[J];湖北工业大学学报;2006年04期
中国重要会议论文全文数据库 前4条
1 宋彦;张桂平;蔡东风;;基于N-gram的句子相似度计算技术[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
2 周法国;杨炳儒;;一种新改进的句子相似度计算方法[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
3 张宇;刘挺;高立琦;车万翔;朱传靖;;基于常问问题集的在线客服实验研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 菅小艳;郑家恒;;一种改进的句子相似度计算方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国博士学位论文全文数据库 前2条
1 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
2 宋玲;语义相似度计算及其应用研究[D];山东大学;2009年
中国硕士学位论文全文数据库 前10条
1 薛慧芳;句子相似度计算理论及应用研究[D];西北大学;2011年
2 杨茂;基于句子相似度的文本比对算法研究[D];电子科技大学;2010年
3 张振幸;基于知网的模块化的中文句子相似度计算研究[D];安徽工业大学;2010年
4 李双红;基于框架核心语义依存图的句子相似度计算研究[D];山西大学;2010年
5 张磊;基于聚类算法的中文自动文摘方法研究[D];厦门大学;2009年
6 吴全娥;汉语句子相似度计算及其在自动问答系统中的应用[D];西南大学;2011年
7 侯丽敏;基于网络的智能答疑系统的研究与实现[D];河南大学;2005年
8 方莹;基于句子聚类的信息抽取方法研究[D];山西大学;2005年
9 黄丽琼;中文自动文摘及评价方法的研究[D];重庆大学;2007年
10 张yN挺;语义角色标注及其在句子相似度计算上的应用[D];北京邮电大学;2008年
本文关键词:基于句子相似度的论文抄袭检测模型研究,由笔耕文化传播整理发布。
,本文编号:378277
本文链接:https://www.wllwen.com/wenshubaike/gzzj/378277.html