安卓文本复制器_手机怎样强行复制文本_《杭州电子科技大学》2009年硕士论文
本文关键词:中文文本复制检测技术研究,由笔耕文化传播整理发布。
《杭州电子科技大学》 2009年
中文文本复制检测技术研究
卢小康
【摘要】:在信息社会中,随着计算机技术、通信技术、网络技术的快速发展,网络已成为人们获取信息的一个重要途径。人们预测,在不久的将来网络媒体将会取代平面媒体成为人们获取信息的主要渠道。面对因特网上信息持续爆炸式地增长,如何从中快速找到用户所需要的信息成为一个难题。 为解决这个难题,搜索引擎技术应运而生。然而,现在的搜索引擎技术并非十分完善,返回结果集合中存在大量重复网页。这些重复网页主要是因为网站间的转载引起的,它不但加大了用户检索到所需信息的难度,也浪费了存储空间。因此,检测出大量重复网页,避免重复存储,使信息检索做到快速、准确是一项有意义的工作。另一方面,在因特网电子商务环境下,数字商品很容易被非法复制和扩散,这无疑会妨碍电子商务的健康发展。复制检测技术一定程度上能辅助解决上述问题。目前国内中文文本复制检测研究还不成熟,没有一个完善的解决方案,许多问题需要解决。 本文首先对文本复制检测技术的现状和发展进行了简要的回顾,对文本复制检测技术的相关技术作了研究,并对中文文本预处理过程、文本分块和特征提取策略、文本相似度的度量方法、文本复制检测算法等问题进行了详细论述。分析了常用的复制检测算法,并对算法性能、优缺点做了分析和比较。然后,本文着重研究了中文文本复制检测算法,并提出两种改进的算法。 传统基于N-Gram的中文文本复制检测方法虽然可以避免文本分词,但在文本特征提取方面并不完善。本文改进了基于N-Gram的文本复制检测方法,将N-Gram方法与滑动窗口技术结合起来,使得提取少量的文本特征就能较准确地计算文本相似度,从而提高算法的效率。实验证明,该方法是行之有效的,取得了比较理想的查全率和查准率。 本文提出了一种改进的基于句子比较的文本复制检测方法。方法采用句子-文档多层索引存储结构,使得在进行文本复制检测时,通过句子能够直接查找到存在该句子的所有文档的信息。 本文最后用经过人工标注的文本测试语料对文中改进的两种文本复制检测方法进行测试,对测试结果进行分析和比较,用查准率和查全率两个性能评价指标对两种复制检测方法的检测结果进行评价。实验结果显示,本文所改进的两种复制检测方法均能达到较为理想的检测效果。
【关键词】:
【学位授予单位】:杭州电子科技大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.1
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【引证文献】
中国硕士学位论文全文数据库 前1条
1 宋杰;改进的基于串匹配的中文文档复制检测方法研究[D];湖南大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 李旭;赵亚伟;刘国华;;基于指纹和语义特征的文档复制检测方法[J];燕山大学学报;2008年04期
2 樊勇;郑家恒;;基于主题的网页去重[J];电脑开发与应用;2008年04期
3 阎亚杰;;网页去重方法研究[J];电脑开发与应用;2008年08期
4 赵巾帼;徐德智;罗庆云;;汉语句子相似度计算方法比对之研究[J];福建电脑;2007年10期
5 林清波,吴锤红;求最长公共子序列长度的一个新方法[J];福建农业大学学报;1998年04期
6 麻会东;刘国华;李现伟;刘春辉;;基于文档指纹的中文复制检测方法[J];广西师范大学学报(自然科学版);2007年04期
7 宋擒豹,沈钧毅;数字商品非法复制和扩散的监测机制[J];计算机研究与发展;2001年01期
8 张义忠,赵明生,朱精南;基于内容的网页特征提取[J];计算机工程与应用;2001年10期
9 杨文峰,李星;基于PAT TREE统计语言模型与关键词自动提取[J];计算机工程与应用;2001年15期
10 麻会东;刘国华;李旭;梁鹏;刘春辉;张凌宇;;基于提取关键词的中文文档复制检测研究[J];计算机工程与科学;2007年10期
中国硕士学位论文全文数据库 前1条
1 李健;聚类分析及其在文本挖掘中的应用[D];西安电子科技大学;2005年
【共引文献】
中国期刊全文数据库 前10条
1 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
2 吴斐;唐雁;补嘉;;基于N-gram的VB源代码抄袭检测方法[J];重庆理工大学学报(自然科学);2012年02期
3 李艳红;庞小平;李海亭;;地名分词搜索的词典设计与匹配方法研究[J];测绘信息与工程;2011年02期
4 李跃民;王浩;赵生慧;;有词典中文分词算法研究[J];滁州学院学报;2008年03期
5 麻会东;刘国华;梁鹏;苑迎;;文档复制检测技术[J];燕山大学学报;2007年05期
6 李旭;赵亚伟;刘国华;;基于指纹和语义特征的文档复制检测方法[J];燕山大学学报;2008年04期
7 张玉连;王莎莎;宋桂江;;基于元搜索的网页去重算法[J];燕山大学学报;2011年02期
8 金博;史彦军;滕弘飞;;基于篇章结构相似度的复制检测算法[J];大连理工大学学报;2007年01期
9 王雯;廖祥忠;;数字图像作品抄袭鉴定研究[J];大连理工大学学报;2011年S1期
10 郑天宏;许杭杰;董黎刚;;中文文本抄袭检查系统的改良与设计[J];电脑编程技巧与维护;2010年20期
中国重要会议论文全文数据库 前8条
1 曹玉娟;牛振东;彭学平;江鹏;;一个基于特征向量的近似网页去重算法[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
2 连浩;刘悦;许洪波;王斌;程学旗;;一种改进的基于内容的快速网页查重算法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
3 王智超;季铎;蔡东风;张桂平;;文本聚类中基于知网的特征抽取方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 沙芸;周俊武;张国英;;基于主题关键词的新闻去重算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 张亮;尹存燕;陈家骏;;基于语义树的中文词语相似度计算与分析[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 韩咏;孔蕾蕾;齐浩亮;;科技论文原创性检查系统的研究[A];第五届全国信息检索学术会议论文集[C];2009年
7 耿崇;宋丹;薛德军;张灿;;基于词位置与同现特征的中文自动文摘研究[A];第五届全国信息检索学术会议论文集[C];2009年
8 吴继媛;孙淳;侯敏;;面向传媒语言语料库的关键词自动抽取研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 卢建平;基于拓扑学和统计学的无字库汉字智能造字研究[D];华南理工大学;2010年
2 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
3 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
4 孙晶涛;基于内容的垃圾邮件过滤技术研究[D];兰州理工大学;2010年
5 龙军;基于信任感知与演化的服务组合关键技术研究[D];中南大学;2011年
6 赵威;电网数据中心的数据安全问题研究[D];燕山大学;2011年
7 肖珊;基于概念语义的言说动词系统研究[D];武汉大学;2011年
8 李世奇;面向文景转换的中文浅层语义分析方法研究[D];哈尔滨工业大学;2011年
9 魏圆圆;基于本体论的农业知识建模及推理研究[D];中国科学技术大学;2011年
10 李侠;配价理论与语义词典[D];黑龙江大学;2011年
中国硕士学位论文全文数据库 前10条
1 王森;基于主题树的自上而下文本复制检测研究[D];大连理工大学;2010年
2 孙伟;基于文档复制检测技术的研究与实现[D];辽宁工程技术大学;2010年
3 杨芹;基于最大熵模型的中文网页分类器设计和实现[D];苏州大学;2010年
4 刘金凤;面向自然语言处理的汉语句子语义知识库构建研究[D];鲁东大学;2009年
5 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
6 李福转;基于内容的垃圾邮件过滤技术的研究[D];电子科技大学;2010年
7 孟祥燕;问答对自动获取的研究[D];昆明理工大学;2008年
8 陈林;基于指令词的软件特征技术研究[D];解放军信息工程大学;2010年
9 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
10 陈磊;用例图到顺序图转换的研究[D];西安电子科技大学;2009年
【同被引文献】
中国期刊全文数据库 前10条
1 麻会东;刘国华;梁鹏;苑迎;;文档复制检测技术[J];燕山大学学报;2007年05期
2 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
3 金博;史彦军;滕弘飞;;基于篇章结构相似度的复制检测算法[J];大连理工大学学报;2007年01期
4 龙树全;赵正文;唐华;;中文分词算法概述[J];电脑知识与技术;2009年10期
5 王建勇,谢正茂,雷鸣,李晓明;近似镜像网页检测算法的研究与评价[J];电子学报;2000年S1期
6 宋擒豹,沈钧毅;数字商品非法复制和扩散的监测机制[J];计算机研究与发展;2001年01期
7 杨小平,丁浩,黄都培;基于向量空间模型的中文信息检索技术研究[J];计算机工程与应用;2003年15期
8 宋擒豹,杨向荣,沈钧毅,齐勇;数字商品非法复制的检测算法[J];计算机学报;2002年11期
9 董振东;董强;郝长伶;;知网的理论发现[J];中文信息学报;2007年04期
10 李玲娟;张睿;;数据泄漏防御算法的研究[J];计算机应用研究;2009年11期
中国博士学位论文全文数据库 前1条
1 李旭;基于指纹和语义知识表示的中文文档复制检测方法[D];燕山大学;2010年
中国硕士学位论文全文数据库 前3条
1 秦新国;电子作业管理和作业抄袭检测技术研究[D];南京师范大学;2007年
2 甘灿;基于同义词替换的自然语言文本信息隐藏技术研究[D];湖南大学;2008年
3 李婷婷;基于语义结构的学术论文复制检测技术研究与实现[D];北京邮电大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 赵明臻;网络信息检索障碍及排除策略探论[J];图书与情报;2005年01期
2 史彦军,滕弘飞,金博;抄袭论文识别研究与进展[J];大连理工大学学报;2005年01期
3 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
4 金博;史彦军;滕弘飞;;基于篇章结构相似度的复制检测算法[J];大连理工大学学报;2007年01期
5 王建勇,谢正茂,雷鸣,李晓明;近似镜像网页检测算法的研究与评价[J];电子学报;2000年S1期
6 卢世光,丁方忠;搜索引擎使用技术回顾和发展趋势探讨[J];广东通信技术;1999年05期
7 黄丽琼;何中市;;基于统计语义和结构特征的自动文摘[J];广西师范大学学报(自然科学版);2006年04期
8 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期
9 秦兵,刘挺,王洋,郑实福,李生;基于常问问题集的中文问答系统研究[J];哈尔滨工业大学学报;2003年10期
10 何明;胡彩霞;;一种文本相似性的度量方法和计算方法[J];黄山学院学报;2005年06期
中国博士学位论文全文数据库 前1条
1 袁方;面向智能信息检索的Web挖掘关键技术研究[D];东北大学;2006年
中国硕士学位论文全文数据库 前1条
1 岳文;信息检索算法在Web中的应用与研究[D];湖南大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 鲍军鹏,沈钧毅,刘晓东;一个基于网格的文本复制检测系统[J];微电子学与计算机;2004年09期
2 卢小康;王小华;王荣波;;一种句子级别的中文文本复制检测方法[J];杭州电子科技大学学报;2009年06期
3 杨俊丽;彭新光;;中文文本复制检测系统[J];山西大同大学学报(自然科学版);2008年02期
4 燕继坤,郑辉,席建民;相似文本的快速搜索[J];计算机工程;2004年15期
5 李旭;刘国华;余靖;王蕾;;一种面向文档复制检测的特征提取方法[J];小型微型计算机系统;2008年05期
6 仇壮丽;;在线论文复制检测系统设计[J];计算机工程与应用;2011年19期
7 金博,史彦军,滕弘飞;中文文档复制检测系统研究[J];计算机工程;2005年19期
8 徐德玉;王迪;;基于COPS原型系统的网上文章复制检测[J];科技信息;2009年31期
9 程玉柱;邬书跃;;基于部件的文本相似度计算[J];计算机工程与设计;2006年18期
10 宋擒豹,沈钧毅;数字商品非法复制和扩散的监测机制[J];计算机研究与发展;2001年01期
中国重要会议论文全文数据库 前10条
1 郑天宏;许杭杰;董黎刚;;中文文本抄袭检查技术的研究[A];浙江省电子学会2010学术年会论文集[C];2010年
2 徐幸;王厚峰;;中文文本蕴含的推理模型[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 齐攀;陈晓云;;一种基于统计信息的无字典中文文本特征提取算法[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
4 高楚舒;丁于思;;因特网中文文本信息分析[A];计算机模拟与信息技术会议论文集[C];2001年
5 王晔;黄上腾;;基于n-gram相邻字的中文文本特征提取算法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 潘丽;邹建成;;一种基于英文文本内容的零水印新算法[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
7 肖志文;陈伟;梁久祯;雷彬;;基于LZW算法的中文文本压缩算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
8 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
9 蒙应杰;司蕾;是垚;;基于矢量图形的中文文本零水印算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
10 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
中国重要报纸全文数据库 前10条
1 中国社科院法学所研究员 刘仁文;[N];法制日报;2008年
2 吴子桐;[N];中华读书报;2010年
3 赛迪评测计算机外围设备实验室;[N];中国计算机报;2003年
4 ;[N];中国计算机报;2004年
5 赛迪评测硬件评测事业部计算机外设实验室;[N];中国计算机报;2003年
6 记者 齐泽萍;[N];山西经济日报;2002年
7 詹亦文;[N];中国改革报;2003年
8 赛迪评测外设测试实验室;[N];中国计算机报;2002年
9 本报记者 曹树林 朱虹;[N];人民日报;2011年
10 赛迪评测外设测试实验室;[N];中国计算机报;2002年
中国博士学位论文全文数据库 前10条
1 陈秀新;多特征融合视频复制检测关键技术研究[D];北京工业大学;2013年
2 李旭;基于指纹和语义知识表示的中文文档复制检测方法[D];燕山大学;2010年
3 袁鑫攀;基于minwise哈希的文档复制检测的研究及应用[D];中南大学;2012年
4 王鉴全;基于概念图挖掘的中文文本倾向性研究[D];大连理工大学;2012年
5 李南希;非特定人的自然书写脱机中文文本行识别[D];华南理工大学;2010年
6 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
7 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
8 毛昱;基于流形正则化和情感要素的半监督中文文本情感分类[D];北京邮电大学;2012年
9 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
10 徐迎晖;文本载体信息隐藏技术研究[D];北京邮电大学;2006年
中国硕士学位论文全文数据库 前10条
1 卢小康;中文文本复制检测技术研究[D];杭州电子科技大学;2009年
2 李婷婷;基于语义结构的学术论文复制检测技术研究与实现[D];北京邮电大学;2010年
3 王森;基于主题树的自上而下文本复制检测研究[D];大连理工大学;2010年
4 马勤;文档复制检测技术在学术监管中的应用研究[D];郑州大学;2012年
5 廖兴伟;文档复制检测方法研究与系统实现[D];哈尔滨工业大学;2012年
6 孙伟;基于文档复制检测技术的研究与实现[D];辽宁工程技术大学;2010年
7 宋杰;改进的基于串匹配的中文文档复制检测方法研究[D];湖南大学;2012年
8 刘双明;文档复制检测的应用研究[D];太原理工大学;2010年
9 唐亚伟;公式相似度算法及其在论文查重中的应用研究[D];渤海大学;2013年
10 党蕾;中文文本多粒度情感分类计算的研究[D];西北大学;2010年
本文关键词:中文文本复制检测技术研究,,由笔耕文化传播整理发布。
本文编号:94638
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/94638.html