藏文文本复制检测技术研究

发布时间:2018-08-09 07:32
【摘要】:文本是互联网信息资源的一种主要存在形式。随着互联网的不断发展和网络数字资源的日益丰富,给人们提供了资源共享和信息交流的便利平台。已经成为人们信息获取的重要来源,同时为广大科研工作者和师生提供了便捷的学术交流机会。一个文本经过增添删改字词或改变说法重述之后便可以形成新的文本,这种行为称为文本的复制或抄袭。文本复制检测技术就是防止这种行为、保护文本知识产权、端正学术风气和提高信息检索效率的重要手段。目前,中英文文本复制检测技术较成熟。但由于藏文与中英文语言天然存在差异,诸多中英文自然语言的复制检测技术并不能完全适用于藏文,也无法用它们来检测藏文文本的复制率。这一空白导致了很多民族高校和藏学研究者出现了论文质量低、学术气氛差和学术创新难以提高等现象。那么,如何针对这种现象设计并实现藏文文本的复制率检测系统是本课题研究的重点。经过分析中英文复制检测结果,发现一般抄袭者所抄袭的最小单元不会小于句子这个粒度。因为句子是文本内容中具有完整语义的基本文本单元。因此,本文是基于藏文句子级别的复制检测方法,利用空间向量的余弦相似度算法计算藏语句子的相似度。该算法的关键是选取特征向量,用特征向量生成向量空间模型,最后计算余弦相似度。文中对文本复制检测技术进行了研究。根据文本复制检测的基本步骤对藏文文本进行预处理、文本分块、特征提取、句子相似度计算,最后用句子相似度来度量整篇藏文文本的抄袭率。在藏文文本预处理时,考虑了编码的统一性和可存储性分别对藏文文本的编码和藏文字符编码进行了研究,将其统一转换成Unicode编码。在藏文文本分块时,采用了藏文句子边界识别方法,把藏文文本按句子为粒度进行分块处理。同时建立句子与文档的倒排索引表,减少重复句子的两两比较和定位句子的位置信息。在藏文文本的特征提取时,采用了藏文自动分词方法,用TF-IDF计算每个词的频率,构建词频向量集。其次,计算待检测文本的每个文本块与库文本的文本块之间的相似度来度量整片文本的复制率。最后,用待检测文本进行测试,对测试结果进行了比较和分析,用查准率和查全率两个性能指标评价藏文文本复制检测技术。
[Abstract]:Text is one of the main forms of Internet information resources. With the continuous development of the Internet and the increasingly rich digital resources of the network, it provides a convenient platform for people to share resources and exchange information. It has become an important source for people to obtain information, and provides convenient opportunities for scientific research workers and teachers and students to communicate with each other. A new text can be formed after a text has been added, deleted, or restated, which is called a copy or plagiarism of the text. Text copy detection technology is an important means to prevent this kind of behavior, to protect the intellectual property rights of text, to correct the academic atmosphere and to improve the efficiency of information retrieval. At present, Chinese and English text copy detection technology is more mature. However, due to the natural differences between Tibetan and Chinese, many natural language replication and detection techniques can not be fully applicable to Tibetan, nor can they be used to detect the copy rate of Tibetan text. This gap has led to the low quality of papers, poor academic atmosphere and difficult to improve academic innovation in many ethnic colleges and universities and Tibetology researchers. So, how to design and implement the copy detection system of Tibetan text is the focus of this research. It is found that the minimum unit of plagiarism is not smaller than the grain size of sentence. Because sentence is the basic text unit with complete semantics in text content. Therefore, this paper is based on Tibetan sentence level replication detection method, using space vector cosine similarity algorithm to calculate the similarity of Tibetan sentences. The key of the algorithm is to select the feature vector, generate the vector space model with the feature vector, and calculate the cosine similarity finally. In this paper, the text copy detection technology is studied. According to the basic steps of text copy detection, the Tibetan text is preprocessed, partitioned, feature extracted, sentence similarity calculated, and the plagiarism rate of the whole Tibetan text is measured by sentence similarity. In the preprocessing of Tibetan text, the unity and storability of encoding are considered, and the encoding of Tibetan text and Tibetan character coding are studied, respectively, and the unified conversion to Unicode coding is carried out. When the Tibetan text is divided into blocks, the Tibetan sentence boundary recognition method is adopted, and the Tibetan text is processed in blocks according to the grain size of the sentences. At the same time, the inverted index table of sentence and document is established to reduce the pairwise comparison of repeated sentences and locate the position information of sentences. In the feature extraction of Tibetan text, the Tibetan automatic word segmentation method is adopted, the frequency of each word is calculated by TF-IDF, and the word frequency vector set is constructed. Secondly, the similarity between each block of text to be detected and the block of library text is calculated to measure the copy rate of the whole piece of text. Finally, the test results are compared and analyzed with the text to be tested, and two performance indexes, precision and recall, are used to evaluate the copy detection technology of Tibetan text.
【学位授予单位】:青海民族大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 郑炜冬;;试卷相似度自动评估技术的研究[J];智能计算机与应用;2011年06期

2 赵涛;肖建;;二型模糊相似度及其应用[J];计算机工程与应用;2013年08期

3 徐志明;李栋;刘挺;李生;王刚;袁树仑;;微博用户的相似性度量及其应用[J];计算机学报;2014年01期

4 李桂林,陈晓云;关于聚类分析中相似度的讨论[J];计算机工程与应用;2004年31期

5 秦玉平;杨兴凯;;基于案例推理的区间属性相似度研究[J];辽宁师范大学学报(自然科学版);2006年04期

6 蒋鹏;;基于本体的应急案例相似度算法研究[J];南昌高专学报;2009年03期

7 何亚;;词语相似度算法的分析与改进[J];硅谷;2011年24期

8 仇丽青;陈卓艳;;基于共同邻居相似度的社区发现算法[J];信息系统工程;2014年05期

9 焦鹏;唐见兵;查亚兵;;仿真可信度评估中相似度方法的改进及其应用[J];系统仿真学报;2007年12期

10 姜毅;乐庆玲;;一种基于兴趣相似度的学习社区算法[J];电脑知识与技术(学术交流);2007年16期

相关会议论文 前10条

1 刘海波;郑德权;赵铁军;;基于相似度线性加权方法的检索结果聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

2 陆劲挺;路强;刘晓平;;对比相似度计算方法及其在功能树扩展中的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

3 董刊生;方金云;;基于向量距离的词序相似度算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

4 刘晓平;陆劲挺;;任意功能树的物元相似度求解方法[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年

5 王茜;张卫星;;基于分类树相似度加权的协同过滤算法[A];2008年计算机应用技术交流会论文集[C];2008年

6 洪文学;王金甲;常凤香;宋佳霖;刘文远;王立强;;基于图形特征增强的相似度分类器的研究[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(上册)[C];2007年

7 雷庆;吴扬扬;;一种基于语义信息计算XML文档相似度的新方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

8 叶正;林鸿飞;杨志豪;;基于问句相似度的中文FAQ问答系统研究[A];第三届学生计算语言学研讨会论文集[C];2006年

9 罗辛;欧阳元新;熊璋;袁满;;通过相似度支持度优化基于K近邻的协同过滤算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年

10 王健;刘衍珩;焦玉;;VANETs信任传播建模[A];中国通信学会通信软件技术委员会2009年学术会议论文集[C];2009年

相关重要报纸文章 前1条

1 王伽 卫江;出入境证件照片应及时更换[N];中国国门时报;2008年

相关博士学位论文 前10条

1 操震洲;矢量数据动态多尺度网络传输研究[D];南京大学;2015年

2 程亮;基于本体的疾病数据整合与挖掘方法研究[D];哈尔滨工业大学;2014年

3 张明西;信息网络中的相似度搜索问题研究[D];复旦大学;2013年

4 武威;异质数据相似度学习及其在网络搜索中的应用[D];北京大学;2012年

5 朱娜斐;基于RTT相似度的网络延迟估测理论和方法[D];北京工业大学;2012年

6 钱鹏飞;基于模糊相似度的异构本体映射、合并及校验方法的研究[D];上海交通大学;2008年

7 马海平;基于概率生成模型的相似度建模技术研究及应用[D];中国科学技术大学;2013年

8 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年

9 夏云庆;IHSMTS系统中启发式类比翻译处理机制(HATM)的设计与实现[D];中国科学院研究生院(计算技术研究所);2001年

10 姜雅文;复杂网络社区发现若干问题研究[D];北京交通大学;2014年

相关硕士学位论文 前10条

1 杨巧;基于改进相似度的社会网络链接预测研究[D];华南理工大学;2015年

2 张宁;某于《知网》的词语相似度优化算法[D];昆明理工大学;2015年

3 沈迤淳;歌曲中相似片段的检测及其应用[D];复旦大学;2014年

4 梁霄;社交网络中的社区聚集研究[D];上海交通大学;2015年

5 王魁;在线社交中基于微博的好友推荐系统设计与实现[D];电子科技大学;2015年

6 洪耀停;基于共同作者图的合作者推荐系统[D];浙江大学;2015年

7 褚立超;基于相似度评分模型的人员识别方法研究[D];广西大学;2015年

8 蒲进兴;基于动态相似度的错误定位优先排序[D];北京化工大学;2015年

9 余超;基于Google Map的地理位置查询系统[D];电子科技大学;2014年

10 乌兰;基于动力学行为的复杂网络社区检测研究[D];内蒙古工业大学;2015年



本文编号:2173367

资料下载
论文发表

本文链接:https://www.wllwen.com/falvlunwen/zhishichanquanfa/2173367.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户50cf8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com