文本复制比不能超过_wps文档怎么复制文本_中文文本复制检测技术的研究.pdf 全文 文档投稿网
本文关键词:中文文本复制检测技术研究,由笔耕文化传播整理发布。
杭州电子科技大学
硕士学位论文
中文文本复制检测技术研究
姓名:卢小康
申请学位级别:硕士
专业:计算机软件与理论
指导教师:王小华
20091101
杭州电子科技大学硕士学位论文
摘
要
在信息社会中,随着计算机技术、通信技术、网络技术的快速发展,网络已成
为人们获取信息的一个重要途径。人们预测,在不久的将来网络媒体将会取代平
面媒体成为人们获取信息的主要渠道。面对因特网上信息持续爆炸式地增长,如
何从中快速找到用户所需要的信息成为一个难题。
为解决这个难题,搜索引擎技术应运而生。然而,现在的搜索引擎技术并非
十分完善,返回结果集合中存在大量重复网页。这些重复网页主要是因为网站间
的转载引起的,它不但加大了用户检索到所需信息的难度,也浪费了存储空间。
因此,检测出大量重复网页,避免重复存储,使信息检索做到快速、准确是一项
有意义的工作。另一方面,在因特网电子商务环境下,数字商品很容易被非法复
制和扩散,这无疑会妨碍电子商务的健康发展。复制检测技术一定程度上能辅助
解决上述问题。目前国内中文文本复制检测研究还不成熟,没有一个完善的解决
方案,许多问题需要解决。
本文首先对文本复制检测技术的现状和发展进行了简要的回顾,对文本复制
检测技术的相关技术作了研究,并对中文文本预处理过程、文本分块和特征提取
策略、文本相似度的度量方法、文本复制检测算法等问题进行了详细论述。分析
了常用的复制检测算法,并对
本文关键词:中文文本复制检测技术研究,,由笔耕文化传播整理发布。
本文编号:94639
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/94639.html