基于汉字部件直方图的文本复制检测技术研究
本文关键词:基于汉字部件直方图的文本复制检测技术研究
更多相关文章: 中文文本 相似度 复制检测 部件直方图 直方图距离
【摘要】:文本复制检测技术是文本相似度计算的一项基础应用,在网页去重、知识产权保护、搜索引擎、数字图书馆等方面发挥着重要作用。但是针对中文文本的复制检测技术起步较晚,且由于中文文本的精深复杂,中文文本复制检测技术更难于实现。因此,该领域值得我们进一步开展研究和探讨。本文首先对该领域内基于字符匹配和基于词频统计的两类复制检测算法做了较为详细的论述,归纳和总结了现有算法各自的特点和不足。针对其文本特征表示向量高维且稀疏、相似度计算复杂、资源利用率低等问题,本文提出了一种新的基于汉字部件直方图的文本复制检测模型。论文的主要工作如下:1)提出了以汉字部件直方图作为文本指纹特征的提取方法。首先根据汉字的结构特征和汉字的数学表达式理论将整个文本中出现的所有汉字进行部件拆分,接着分别对每种汉字部件进行计数统计,通过概率计算公式得到每种汉字部件在该文本中出现的概率,然后以汉字的部件编号为横坐标,以部件概率为纵坐标,做出统计图,称为文本汉字部件直方图,最终以此汉字部件直方图作为该文本的指纹特征标识。2)提出了通过计算部件直方图间的距离匹配值作为待检测文本之间复制检测结果的判断标准。本文分别设计了4种距离对比标准进行文本部件直方图间的距离匹配值运算,并通过实验分析最终选取了最合适的巴氏距离作为衡量直方图相似度距离的计算公式。3)采集了一定规模的数据源进行算法的模拟和实现。本文通过搜集400个词条文档作为数据源开展实验,实验结果表明基于汉字部件直方图的文本复制检测算法具有较好的查准率、召回率和F1值,同时在与基于余弦定理和基于Jaccard系数的复制检测方法对比实验中也进一步验证,新的复制检测方法不仅在时间复杂度和空间复杂度方面具有优势,在综合评价指标F1值上也具有可取性。
【关键词】:中文文本 相似度 复制检测 部件直方图 直方图距离
【学位授予单位】:中南林业科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 摘要4-5
- ABSTRACT5-9
- 1 绪论9-16
- 1.1 论文的研究背景和意义9-10
- 1.2 国内外研究现状10-13
- 1.2.1 国内外研究现状10-12
- 1.2.2 现行研究存在的问题12-13
- 1.3 研究内容和章节安排13-16
- 1.3.1 论文的研究内容13
- 1.3.2 论文的章节安排13-16
- 2 复制检测技术概述16-30
- 2.1 复制检测的基本含义16-20
- 2.1.1 文本相似度检测16-17
- 2.1.2 复制检测17-18
- 2.1.3 复制检测算法的性质18-19
- 2.1.4 复制检测技术的应用19-20
- 2.2 现有文本复制检测算法20-29
- 2.2.1 文本复制检测算法的分类20-21
- 2.2.2 基于字符串比较的方法21-24
- 2.2.3 基于词频统计的方法24-29
- 2.3 本章小结29-30
- 3 基于汉字部件直方图的文本复制检测模型30-38
- 3.1 汉字的基本知识30-33
- 3.1.1 相关理论30-31
- 3.1.2 汉字的数学表达式理论31-33
- 3.2 汉字部件直方图的构造方法33-36
- 3.2.1 部件频次统计方法33-34
- 3.2.2 部件直方图的相关概念34-36
- 3.2.3 部件直方图的性质36
- 3.3 部件直方图的距离计算36-37
- 3.4 本章小结37-38
- 4 算法描述和分析38-44
- 4.1 算法描述38-42
- 4.2 算法分析42-43
- 4.2.1 时间复杂度分析42
- 4.2.2 空间复杂度分析42-43
- 4.3 本章小结43-44
- 5 实验研究与对比44-50
- 5.1 实验准备44-45
- 5.2 实验结果与分析45-49
- 5.2.1 参数分析46-47
- 5.2.2 对比实验分析47-49
- 5.3 本章小结49-50
- 6 总结与展望50-53
- 6.1 总结50
- 6.2 展望50-53
- 参考文献53-60
- 附录 攻读学位期间的主要学术成果60-61
- 致谢61
【参考文献】
中国期刊全文数据库 前10条
1 万其明;汪闽;张星月;蒋圣;谢玉林;;基于五叉树分解与多特征直方图匹配的高分辨遥感图像检索[J];地球信息科学学报;2010年02期
2 翟东海;CUI Jing-jing;NIE Hong-yu;DU Jia;;New event detection based on sorted subtopic matching algorithm[J];Journal of Chongqing University(English Edition);2013年04期
3 李飞;朱科军;赵京伟;王靓;刘英杰;;BESIII在线直方图软件的设计与实现[J];核电子学与探测技术;2007年03期
4 孙星明,殷建平,陈火旺,吴泉源,景新海;汉字的数学表达式研究[J];计算机研究与发展;2002年06期
5 田涌涛,李霞,王有庆,李从心;基于采样的直方图生成方法[J];计算机工程;2002年12期
6 林进,张兆庆,祝明发;基于SIMD机器的优化数据传输的并行循环分割[J];计算机学报;1998年07期
7 黄承慧;印鉴;侯f ;;一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J];计算机学报;2011年05期
8 邹杜;陈育青;张凌;;基于语义匹配的抄袭检测方法(英文)[J];华南理工大学学报(自然科学版);2013年07期
9 霍亚松;张锟;;非重叠低维度梯度方向直方图[J];模式识别与人工智能;2014年03期
10 杨航;徐望明;程果;;基于内容的图像近复制检测系统设计[J];信息技术;2015年01期
中国博士学位论文全文数据库 前2条
1 孙德才;基于q-gram过滤的近似串匹配技术研究[D];湖南大学;2012年
2 袁鑫攀;基于minwise哈希的文档复制检测的研究及应用[D];中南大学;2012年
中国硕士学位论文全文数据库 前1条
1 宋杰;改进的基于串匹配的中文文档复制检测方法研究[D];湖南大学;2012年
,本文编号:1018531
本文链接:https://www.wllwen.com/falvlunwen/zhishichanquanfa/1018531.html