当前位置:主页 > 科技论文 > 信息工程论文 >

短信复制的文本在哪里_基于语句相似度的中文文本复制检测技术研究

发布时间:2016-11-08 19:17

  本文关键词:中文文本复制检测技术研究,由笔耕文化传播整理发布。


《北京邮电大学》 2015年

基于语句相似度的中文文本复制检测技术研究

张慧云  

【摘要】:随着网络和计算机的普及,电子文档成为一种应用广泛的信息存储形式。电子文档方便共享、存储代价低,为知识的传播提供了很大的便利,但是这一特性也导致了复制抄袭的普遍性,文本复制检测技术应运而生。文本复制检测技术主要用于检测文本之间是否存在复制、抄袭等,是自然语言处理领域重要的研究方向,该技术可以应用在数字图书馆系统、搜索系统、论文提交系统等很多领域。 在研究基于知网的词语相似度计算方法的基础上,本文提出一种改进的词语相似度计算方法。该方法通过知网的KDML语言,把词语的相似度转换为义原集合的相似度,综合词语含义的共性和差异性,使得相似度计算结果更加合理。此外,还提出一种改进的基于词语结构和词语顺序的文本相似度计算方法。该方法综合考虑了文本的词语语义特征、局部结构特征和词序特征,提取的特征更为全面,计算得到的文本相似度结果更加准确。 最后,本文利用提出的基于词语结构和词序的相似度计算方法,实现了中文文本复制检测系统。该复制检测系统基于B/S结构,采用SSH技术框架,包含文本预处理模块、文本检测模块、结果显示模块和样本库模块。论文利用该复制检测系统进行了算法验证,结果证明了改进方法的有效性。

【关键词】:
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:

下载全文 更多同类文献

CAJ全文下载

(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

CAJViewer阅读器支持CAJ、PDF文件格式


【参考文献】

中国期刊全文数据库 前9条

1 田久乐;赵蔚;;基于同义词词林的词语相似度计算方法[J];吉林大学学报(信息科学版);2010年06期

2 梅家驹;竺一鸣;高蕴琦;殷鸿翔;;编纂汉语类义词典的尝试——《同义词词林》简介[J];辞书研究;1983年01期

3 吕学强,任飞亮,黄志丹,姚天顺;句子相似模型和最相似句子查找算法[J];东北大学学报;2003年06期

4 董振东,董强;知网和汉语研究[J];当代语言学;2001年01期

5 杨小平,丁浩,黄都培;基于向量空间模型的中文信息检索技术研究[J];计算机工程与应用;2003年15期

6 章志凌;虞立群;陈奕秋;罗海飞;邵晓敏;;基于Corpus库的词语相似度计算方法[J];计算机应用;2006年03期

7 于江生 ,俞士汶;中文概念词典的结构[J];中文信息学报;2002年04期

8 李峰;李芳;;中文词语语义相似度计算——基于《知网》2000[J];中文信息学报;2007年03期

9 董振东;语义关系的表达和知识系统的建造[J];语言文字应用;1998年03期

【共引文献】

中国期刊全文数据库 前10条

1 刘高军;马砚忠;段建勇;;基于维基百科的中文命名实体关联度计算[J];北方工业大学学报;2012年01期

2 赵欣欣;索红光;刘玉树;张利萍;;基于带权语义距离的网页预取方法[J];北京理工大学学报;2006年08期

3 耿增民;刘万春;朱玉文;;受限领域的自动文摘方法研究[J];北京理工大学学报;2006年08期

4 陈康;樊孝忠;刘杰;贾可亮;;基于问句语义表征的中文问句相似度计算方法[J];北京理工大学学报;2007年12期

5 王涛;樊孝忠;林培光;陈康;;基于复杂特征集的剽窃检测[J];北京理工大学学报;2008年02期

6 齐波;王成良;;现代汉语短语的机器识别[J];重庆工学院学报(自然科学版);2007年12期

7 王东海;张志毅;王丽英;;电子词典编纂中的语义网与义链研究[J];长江学术;2007年04期

8 伍莹;;基于“词群—词位变体”理论的现代汉语形容词语义网络构建——以“胖”类形容词为例[J];长江学术;2011年02期

9 高元梓;;基于CEF和WordNet的词汇拓展框架的构建[J];重庆文理学院学报(社会科学版);2010年03期

10 张燕;宋锦斌;;卡通动画数字媒体资源管理系统[J];长沙医学院学报;2010年02期

中国重要会议论文全文数据库 前10条

1 哈斯那顺乌日图;;蒙古文WordNet名词同义词集合构建算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

2 徐文堪;;信息革命时代的语言理论和词典编纂[A];中国辞书论集2000[C];2000年

3 邓辉;林柏钢;;一种基于《知网》的敏感信息预测技术[A];第十届中国科协年会论文集(三)[C];2008年

4 戴玲真;;从《朗文多功能分类词典》看语义场理论在分类词典编撰中的应用[A];福建省外国语文学会2005年年会暨学术研讨会论文集[C];2005年

5 王惠;苏新春;;XHK基于语法知识的汉语词义描述[A];第六届汉语词汇语义学研讨会论文集[C];2005年

6 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年

7 胡金柱;陈俊平;卢丽君;赵东萌;张琮;王益维;;基于本体视图的特征项抽取方法研究[A];第二十二届中国(天津)'2008IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2008年

8 胡金柱;陈俊平;卢丽君;赵东萌;张琮;王益维;;基于本体视图的特征项抽取方法研究[A];第二十三届中国(天津)2009IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2009年

9 陈慧清;林世平;;基于知网和模式自举的概念间分类关系获取方法[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年

10 刘国刚;;人工智能客户服务体系的研究与实现[A];2008年中国通信学会无线及移动通信委员会学术年会论文集[C];2008年

中国硕士学位论文全文数据库 前10条

1 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年

2 王森;基于主题树的自上而下文本复制检测研究[D];大连理工大学;2010年

3 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年

4 吕韶华;面向中文评论文本的情感倾向性研究[D];大连理工大学;2010年

5 邢鑫岩;基于序列模型的情感分析研究[D];大连理工大学;2010年

6 蔡颂梅;语义增强的关系相似度度量算法研究[D];华东师范大学;2011年

7 杨朝玉;基于知网的受限域问答系统原型的设计与实现[D];华南理工大学;2010年

8 王阿婷;基于概念集合的网页内容过滤方法的研究[D];北京交通大学;2010年

9 樊春雷;基于语义分析的糖尿病健康教育系统研究与实现[D];华东理工大学;2011年

10 胡青;语义目录的实现机制研究[D];武汉科技大学;2010年

【二级参考文献】

中国期刊全文数据库 前10条

1 赵蔚;刘秀琴;邱百爽;;语义网自适应学习系统中领域本体的构建[J];吉林大学学报(信息科学版);2008年05期

2 朱靖波,王宝库,姚天顺;一种规则描述语言NPRDL语言[J];东北大学学报;1996年06期

3 程涛;施水才;王霞;吕学强;;基于同义词词林的中文文本主题词提取[J];广西师范大学学报(自然科学版);2007年02期

4 鲁川,缑瑞隆,刘钦荣;交易类四价动词及汉语谓词配价的分类系统[J];汉语学习;2000年06期

5 邱百爽;赵蔚;刘秀琴;;基于语义网的自适应学习系统中用户模型的研究[J];开放教育研究;2008年04期

6 黄河燕,陈肇雄,胡曾剑;IHSMTS中实例模式获取机制的设计与实现[J];计算机研究与发展;2002年05期

7 王长胜,刘群;基于实例的汉英机器翻译系统研究与实现[J];计算机工程与应用;2002年08期

8 吴健,吴朝晖,李莹,邓水光;基于本体论和词汇语义相似度的Web服务发现[J];计算机学报;2005年04期

9 章志凌;虞立群;陈奕秋;罗海飞;邵晓敏;;基于Corpus库的词语相似度计算方法[J];计算机应用;2006年03期

10 余正涛,高盛祥,纪鹏程;RDAQAS中问句相似度计算方法研究[J];昆明理工大学学报(理工版);2004年02期

中国重要会议论文全文数据库 前3条

1 鲁松;白硕;;词距离的计算方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年

2 关毅;王晓龙;;基于统计的汉语词汇间语义相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

3 颜伟;荀恩东;;基于WordNet的英语词语相似度计算[A];第二届全国学生计算语言学研讨会论文集[C];2004年

【相似文献】

中国期刊全文数据库 前10条

1 郭帆;余敏;叶继华;;一种基于分类和相似度的报警聚合方法[J];计算机应用;2007年10期

2 许鹏远;党延忠;;基于元相似度的推荐算法[J];计算机应用研究;2011年10期

3 孙喜来;王欣;葛昂;郑家民;邓宏斌;;面向相似度的多维异构数据比对模型研究[J];信息安全与技术;2011年09期

4 杨云;朱学峰;;一种新的计算中药指纹图谱相似度方法与实现[J];计算机测量与控制;2007年10期

5 熊子奇;张晖;林茂松;;基于相似度的中文网页正文提取算法[J];西南科技大学学报;2010年01期

6 刘萍;陈烨;;词汇相似度研究进展综述[J];现代图书情报技术;2012年Z1期

7 孙瑶瑶;刘杰;;基于Embedded MATLAB函数模块的图像相似度的实现[J];计算机与数字工程;2010年02期

8 朱新懿;耿国华;;颅面重构中颅面相似度比较[J];计算机应用研究;2010年08期

9 厉晗;徐向民;尤芳敏;钱民;马东;;利用相似度分割特征集的混合核构造方法[J];科学技术与工程;2007年04期

10 邢长征;孙伟;;一种改进的基于句子相似度的检测算法[J];计算机系统应用;2010年02期

中国重要会议论文全文数据库 前4条

1 杜琦;巩政;;基于字符串相似度的自动评分算法实现[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年

2 韩敏;唐常杰;段磊;李川;巩杰;;基于TF/IDF相似度的标签聚类方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年

3 郭帆;叶继华;余敏;;分布式IDS报警聚合研究与实现[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年

4 何梅;刘亚军;陈耿;;词性划分和差额法在主观题阅卷中的应用[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年

中国博士学位论文全文数据库 前2条

1 朱新懿;三维颅面相似度比较的研究[D];西北大学;2012年

2 吴迪;基于加权相似度的序列聚类算法研究[D];燕山大学;2014年

中国硕士学位论文全文数据库 前10条

1 唐凌志;基于语义理解的论文相似度研究[D];湘潭大学;2011年

2 梁浩;网络新闻相似度检测系统[D];吉林大学;2011年

3 单晗怀;跨媒体相似度机制研究和实现[D];浙江大学;2006年

4 朱松;术语相似度和术语相关度的融合研究及应用[D];河北大学;2008年

5 裴冬梅;程序代码相似度中的代码转换技术的研究[D];内蒙古师范大学;2008年

6 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年

7 黄妮;网络学习平台中的分词与句子相似度算法研究[D];陕西师范大学;2012年

8 张金鹏;基于语义的文本相似度算法研究及应用[D];重庆理工大学;2014年

9 张慧云;基于语句相似度的中文文本复制检测技术研究[D];北京邮电大学;2015年

10 王艳红;基于节点相似度的复杂网络社区发现算法的研究[D];西安电子科技大学;2014年


  本文关键词:中文文本复制检测技术研究,由笔耕文化传播整理发布。



本文编号:168438

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/168438.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户71a48***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com