基于篇章结构相似度的中文学术论文复制检测技术研究
本文关键词:基于篇章结构相似度的中文学术论文复制检测技术研究
更多相关文章: 复制检测 向量空间模型 特征提取 篇章结构 文本相似度
【摘要】:文档复制检测技术能够自动检测出数字文档间的重叠信息,它是保护知识产权和提高信息检索效率的一种有力手段。为解决中文学术论文复制检测难题,给出一种基于篇章结构相似度的中文学术论文复制检测算法及其问题的数学模型。在分析论文篇章结构的基础上,利用数字指纹和词频统计等技术,经编程实现,用于中文论文复制的初步检测。
【作者单位】: 海军航空工程学院;
【关键词】: 复制检测 向量空间模型 特征提取 篇章结构 文本相似度
【分类号】:TP391.1
【正文快照】: 0引言随着网上数字学术资源的不断丰富,为广大科研工作者提供便捷的学术交流机会的同时,也给剽窃提供了机会。文档复制检测技术是为了防止数字文档的非法复制和扩散而提出的,在知识产权保护和信息检索中有着重要应用,是近年来数据安全领域研究的热点。文档复制检测就是判断一
【参考文献】
中国期刊全文数据库 前5条
1 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
2 鲍军鹏,沈钧毅,刘晓东,宋擒豹;自然语言文档复制检测研究综述[J];软件学报;2003年10期
3 宋擒豹,杨向荣,沈钧毅,齐勇;数字商品非法复制的检测算法[J];计算机学报;2002年11期
4 金博;史彦军;滕弘飞;;基于篇章结构相似度的复制检测算法[J];大连理工大学学报;2007年01期
5 鲍军鹏,沈钧毅,刘晓东;一个基于网格的文本复制检测系统[J];微电子学与计算机;2004年09期
【共引文献】
中国期刊全文数据库 前6条
1 王凌峰;;学术规范中反剽窃的信息技术视角[J];图书与情报;2006年04期
2 史彦军,滕弘飞,金博;抄袭论文识别研究与进展[J];大连理工大学学报;2005年01期
3 金博;史彦军;滕弘飞;;基于篇章结构相似度的复制检测算法[J];大连理工大学学报;2007年01期
4 金博,史彦军,滕弘飞;中文文档复制检测系统研究[J];计算机工程;2005年19期
5 王生发;顾新建;郭剑锋;马军;战洪飞;;面向产品设计的知识主动推送研究[J];计算机集成制造系统;2007年02期
6 白广慧,连浩,刘悦,程学旗;网页查重技术在企业数据仓库中的应用[J];计算机应用;2005年07期
中国重要会议论文全文数据库 前1条
1 连浩;刘悦;许洪波;王斌;程学旗;;一种改进的基于内容的快速网页查重算法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前1条
1 于宝琴;成套电器企业异构数据整合及其物流系统的研究[D];天津大学;2006年
中国硕士学位论文全文数据库 前10条
1 王金宝;基于增量学习和阀值优化的自适应信息过滤[D];大连理工大学;2006年
2 张艳;面向高校师生的应用文机辅写作关键技术研究[D];大连理工大学;2006年
3 沈斌;基于分词的中文文本相似度计算研究[D];天津财经大学;2006年
4 连浩;基于布尔模型的网页查重算法研究[D];中国科学院研究生院(计算技术研究所);2006年
5 李志辉;基于专业知网的中文智能答疑系统模型研究[D];西南大学;2006年
6 熊志勇;数据挖掘在反垃圾邮件领域中的应用与研究[D];南昌大学;2006年
7 于海英;程序代码相似度识别的研究[D];内蒙古师范大学;2006年
8 杨俊;网格环境下数据存储方法的研究[D];黑龙江大学;2005年
9 黄永光;基于网页挖掘的搜索引擎若干技术的研究[D];哈尔滨工业大学;2006年
10 张玉娟;基于《知网》的句子相似度计算的研究[D];中国地质大学(北京);2006年
【二级参考文献】
中国期刊全文数据库 前9条
1 史彦军,滕弘飞,金博;抄袭论文识别研究与进展[J];大连理工大学学报;2005年01期
2 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
3 金博;史彦军;滕弘飞;;基于篇章结构相似度的复制检测算法[J];大连理工大学学报;2007年01期
4 王继成 ,武港山 ,周源远 ,张福炎;一种篇章结构指导的中文Web文档自动摘要方法[J];计算机研究与发展;2003年03期
5 李素建;基于语义计算的语句相关度研究[J];计算机工程与应用;2002年07期
6 卢汉清,孔维新,廖明,马颂德;基于内容的视频信号与图像库检索中的图像技术[J];自动化学报;2001年01期
7 张益民,陆汝占,沈李斌;一种混合型的汉语篇章结构自动分析方法[J];软件学报;2000年11期
8 鲍军鹏,沈钧毅,刘晓东,宋擒豹;自然语言文档复制检测研究综述[J];软件学报;2003年10期
9 余刚;裴仰军;朱征宇;陈华月;;基于词汇语义计算的文本相似度研究[J];计算机工程与设计;2006年02期
中国重要会议论文全文数据库 前2条
1 郝长伶;董强;;知网知识库描述语言[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 车万翔;刘挺;秦兵;李生;;面向双语句对检索的汉语句子相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国硕士学位论文全文数据库 前1条
1 程克敏;基于文本结构和内容的中文论文复制检测系统研究[D];合肥工业大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 王爱军;;数字电视的信息过滤技术分析与应用[J];科技资讯;2010年03期
2 汪忠国;吴敏;;基于向量空间模型的题库相似度检查算法[J];计算机系统应用;2010年03期
3 刘声田;卢守东;刘忠强;;基于用户关联行为的个性化搜索系统设计[J];计算机系统应用;2010年03期
4 邢长征;孙伟;;一种改进的基于句子相似度的检测算法[J];计算机系统应用;2010年02期
5 索红光;孙珊珊;王玉伟;梁玉环;;基于主题短语的搜索引擎结果聚类[J];计算机系统应用;2010年03期
6 吉家友;;学术不端文献检测系统数据分析[J];中国出版;2010年04期
7 陆伟;刘杰;秦喜艳;;基于专长词表的图情领域专家检索与评价[J];中国图书馆学报;2010年02期
8 胡晓翠;陈建勋;;对数码产品主题爬虫的设计与实现[J];计算机应用与软件;2010年02期
9 宋宣辰;刘贵全;;基于主题概念抽取的多文档文摘方法[J];计算机工程;2010年04期
10 赵敏涯;;结合语言模型的自动文本分类的应用研究[J];计算机与现代化;2010年03期
中国重要会议论文全文数据库 前10条
1 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
2 柏桂荣;章勇;;基于RSS的用户兴趣模型研究[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
3 杜鲁燕;苗振江;;基于语言模型的中文文本分类系统[A];第十届全国人机语音通讯学术会议暨国际语音语言处理研讨会论文摘要集[C];2009年
4 陈庆轩;郑德权;赵铁军;;多分类器融合的文本分类技术研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
5 刘国刚;;人工智能客户服务体系的研究与实现[A];2008年中国通信学会无线及移动通信委员会学术年会论文集[C];2008年
6 林臻彪;陈性元;汪永伟;;基于数据流分析的内网防泄密系统[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
7 郭鸿志;陈清才;康永燕;王晓龙;;一种基于网站特征识别的搜索引擎排序算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 邹博伟;张宇;范基礼;郑伟;刘挺;;基于改进的TextTiling方法的用户新兴趣发现的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 李军;李涓子;;新闻专题内子话题划分[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 黄国斌;王明文;叶浩;;一种新的基于中间语义的跨语言信息检索模型[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国重要报纸全文数据库 前2条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
中国博士学位论文全文数据库 前10条
1 王小芳;文本主题域划分与无监督特征提取[D];吉林大学;2009年
2 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
3 王菁;P2P系统中资源管理机制的研究[D];中国科学技术大学;2007年
4 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
5 熊文新;信息检索Query语言分析[D];北京语言大学;2006年
6 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
7 王修力;基于描述复杂性的信息检索理论与若干模型研究[D];北京语言大学;2006年
8 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
9 乔林;基于多关键词检索的企业竞争情报搜集方法研究[D];中国科学技术大学;2006年
10 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年
中国硕士学位论文全文数据库 前10条
1 邱萌;基于内容的多源新闻聚合关键技术研究与实现[D];华东师范大学;2010年
2 高娟;基于K-means算法的文本聚类的研究与实现[D];江西理工大学;2010年
3 李s,
本文编号:1046564
本文链接:https://www.wllwen.com/wenshubaike/lwzy/1046564.html