基于元搜索引擎的文本复制检测方法研究
发布时间:2017-05-19 04:14
本文关键词:基于元搜索引擎的文本复制检测方法研究,由笔耕文化传播整理发布。
【摘要】:随着计算机技术、通信技术和网络技术的迅猛发展,互联网已成为人们获取信息的一种重要途径。网络大数据背景下,互联网中文本数据的数量和价值呈指数增长,复制网络中文本的现象越来越多,相同和近似文本也越来越多,不仅极大的浪费了网络存储空间、降低检索效率,而且不利于电子文本知识产权的保护,如何快速检测文本是否复制于因特网文本已成为急需解决的问题。 本文在对已有文本复制检测方法进行分析研究的基础上,提出了一种基于元搜索引擎的文本复制检测方法,本文主要工作包括: 首先对已有文本复制检测方法进行研究,主要包括文本复制检测的基本原理、典型的文本复制检测系统的实现方法、通用的文本复制的基本流程,并对实现文本复制检测常用到的关键技术以及关键问题的解决策略进行分析研究,主要包括中文文本的预处理技术,如中文文本的分词、词性标注,文本块的选择策略和文本特征的选择策略等,为设计新的文本复制检测系统中的关键问题提供了解决思路。 然后结合当前复制检测网络文本的行为越来越多的状况,基于元搜索引擎的优势,提出了一种基于元搜索引擎的文本复制检测方法。其中,为减少请求元搜索引擎的次数以提高系统效率,结合词性信息改进TF-ISF算法抽取文本特征句子;为获取更加全面的疑似复制文本,以特征句子的线索词作为请求元搜索引擎的查询词获取网络在线参考文本集;由于传统基于LCS的句子相似度计算方法忽略了最长公共子序列数量对句子相似度的影响,,结合最长公共子序列数量的改进LCS句子相似度计算方法。 最后设计文本复制检测系统进行实验验证。使用SOGOU-T中文数据集对改进的TF-ISF方法和基于元搜索引擎的文本复制检测方法的效率和F1-score进行实验分析。
【关键词】:文本复制检测 文本预处理 中文分词技术 元搜索引擎 TF-ISF 最长公共子序列算法
【学位授予单位】:郑州大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
- 摘要4-5
- Abstract5-10
- 图目录10-11
- 表目录11-12
- 1 绪论12-18
- 1.1 研究背景及意义12-14
- 1.2 国内外研究现状14-16
- 1.2.1 国外研究现状14-15
- 1.2.2 国内研究现状15-16
- 1.3 本文主要工作16
- 1.4 本文组织安排16-18
- 2 文本复制检测概述18-27
- 2.1 文本复制检测原理18
- 2.2 典型的文本复制检测方法18-24
- 2.2.1 基于特征空间的文本复制检测方法18-22
- 2.2.2 基于数字指纹的文本复制检测方法22-24
- 2.3 文本复制检测的流程24-26
- 2.4 本章小结26-27
- 3 中文文本复制检测的关键问题与技术27-35
- 3.1 中文自动分词技术27-28
- 3.2 文本块的选取策略28-30
- 3.3 文本特征选取30-31
- 3.4 文本相似度计算方法31-33
- 3.5 本章小结33-35
- 4 基于元搜索引擎的文本复制检测方法35-45
- 4.1 基于元搜索引擎的文本复制检测方法36-38
- 4.2 文本预处理38-40
- 4.3 改进的 TF-ISF 特征句子提取方法40-41
- 4.4 搜索结果的获取与融合41-42
- 4.5 基于 LCS 句子相似度计算方法42-44
- 4.6 文章小结44-45
- 5 实验结果及分析45-52
- 5.1 实验软硬件环境45
- 5.2 元搜索引擎的实现45-48
- 5.3 实验的性能评估指标48-49
- 5.4 实验结果及分析49-51
- 5.4.1 改进型 TF-ISF 方法的性能分析49
- 5.4.2 基于元搜索引擎的文本复制检测方法性能分析49-51
- 5.5 本章小结51-52
- 6 结论与展望52-54
- 6.1 本文工作总结52-53
- 6.2 未来工作展望53-54
- 参考文献54-56
- 致谢56-57
- 个人简历、在学期间发表的学术论文57
- 个人简介57
- 在学期间发表的学术论文57
【参考文献】
中国期刊全文数据库 前10条
1 麻会东;刘国华;梁鹏;苑迎;;文档复制检测技术[J];燕山大学学报;2007年05期
2 蒋昌金;彭宏;陈建超;马千里;;基于主题词权重和句子特征的自动文摘[J];华南理工大学学报(自然科学版);2010年07期
3 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
4 陈平;刘晓霞;李亚军;;基于字典和统计的分词方法[J];计算机工程与应用;2008年10期
5 仇壮丽;;在线论文复制检测系统设计[J];计算机工程与应用;2011年19期
6 宋擒豹,杨向荣,沈钧毅,齐勇;数字商品非法复制的检测算法[J];计算机学报;2002年11期
7 张廷华;Web元搜索引擎的改进[J];计算机应用;2002年02期
8 夏天,樊孝忠,刘林;利用JNI实现ICTCLAS系统的Java调用[J];计算机应用;2004年S2期
9 李欣,舒风笛;最长公共子序列问题的改进快速算法[J];计算机应用研究;2000年02期
10 刘海峰;王元元;;基于向量模型的文本检索若干问题研究[J];情报杂志;2006年10期
本文关键词:基于元搜索引擎的文本复制检测方法研究,由笔耕文化传播整理发布。
本文编号:377758
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/377758.html