当前位置:主页 > 科技论文 > 搜索引擎论文 >

中文新闻重复网页检测研究

发布时间:2017-06-07 16:17

  本文关键词:中文新闻重复网页检测研究,由笔耕文化传播整理发布。


【摘要】:当今世界,互联网已成为人们获取和传播信息的主要途径。其中,网页是互联网传播信息的主要载体。然而,互联网中存在的大量重复网页给人们在浏览网页时造成了许多困扰。因此,网页文档需要进行重复检测处理。新闻网页是人们浏览最多的网页类型之一,解决新闻网页的查重处理问题,可以在很大程度上提高用户获取信息的效率。因此,本文主要针对中文新闻网页的查重处理进行研究,旨在找到一种方法来同时提高中文新闻网页查重处理的精度和效率。重复文档检测是信息检索领域中一个非常重要的问题,由于网页文档在结构和内容上的复杂性,重复网页文档检测问题显得尤为重要。重复网页检测问题已有许多经典研究工作,然而这些研究工作均是针对英文文本进行处理,由于中文文本在语法和语义上的特殊性,现有的网页查重技术所基于的特征提取和相似性计算等方法均不适用于中文文本的处理,因此,它们在中文网页查重上没有达到很好的准确性。而且,随着网页数量的急剧增加,网页查重技术需要针对网页数据的快速增加问题提供相应的解决方法。经研究发现,句号在中文新闻网页查重处理过程中起到非常重要的作用。一方面,句号通常只在中文网页的正文内容中出现,而不会在诸如广告、外链和版权声明等非正文内容中出现,因此,中文句号可以很好的用于区分正文内容和非正文内容;另一方面,基于中文句号提取的特征可以很好的用于网页之间的相似性计算。基于上述思想,本文提出一种基于句号特征的中文网页查重算法,称为CCDeto首先,CCDet算法采用了一种新的相似性度量模型,称为CCS和CLR,这种度量模型可同时度量网页的重复关系和包含关系;其次,CCDet算法基于中文句号特征来完成重复文档的相似性计算,并提出了一种基于索引剪切的噪音特征过滤方法;最后,为了适应大规模新闻网页的查重处理,本文使用MapReduce编程框架实现了并行化的CCDet算法,使之能够并行化地进行重复网页检测。实验结果表明,并行化的CCDet算法具有较好的检测效果和计算性能,并具有良好的可扩展性。为了验证CCDet算法在真实的分布式搜索引擎运行环境中行之有效,本文还基于CCDet算法实现了一个具有重复网页检测功能的分布式搜索引擎,称为Bingo。Bingo基于已有的开源框架Hadoop和Nutch,运行在分布式集群环境下,可及时更新每天爬取到的大量网页数据。同时,Bingo会对用户的搜索结果进行查重处理,并将搜索结果以更加合理的方式展示给用户。搜索结果表明,Bingo在处理大量中文新闻网页数据时是行之有效的。
【关键词】:CCDet算法 重复网页检测 中文句号特征 索引剪切 Bingo
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092
【目录】:
  • 摘要6-7
  • Abstract7-11
  • 第一章 绪论11-24
  • 1.1 重复网页检测研究的背景11-13
  • 1.2 重复网页检测相关研究现状13-21
  • 1.2.1 研究工作的主要发展历程13-15
  • 1.2.2 重复网页检测相关算法简介15-21
  • 1.2.3 现有研究工作的不足21
  • 1.3 本文研究内容和主要工作21-22
  • 1.4 本文的组织结构22-24
  • 第二章 重复网页检测算法24-33
  • 2.1 重复网页检测算法的总体思路24-25
  • 2.2 相似性度量模型25-26
  • 2.3 中文句号特征26-27
  • 2.3.1 中文句号特征的作用26-27
  • 2.3.2 句号特征的定义和抽取27
  • 2.4 噪音特征的过滤27-28
  • 2.5 CCDet算法的实现28-31
  • 2.5.1 相似性计算过程28-29
  • 2.5.2 噪音特征的过滤过程29-30
  • 2.5.3 完整的重复网页检测和判定过程30-31
  • 2.6 本章小结31-33
  • 第三章 重复网页检测算法并行化33-39
  • 3.1 MapReduce并行化框架33-34
  • 3.2 基于MapReduce实现CCDet算法的各个步骤34-38
  • 3.2.1 获取文档34-35
  • 3.2.2 提取特征并建立倒排索引35-36
  • 3.2.3 噪音特征过滤并统计文档对相同句号特征36-37
  • 3.2.4 计算相似性并判断重复关系37-38
  • 3.3 本章小结38-39
  • 第四章 实验及其结果分析39-47
  • 4.1 实验数据和环境设置39
  • 4.2 精确率和召回率对比实验39-44
  • 4.2.1 CCDet与SpotSigs,Shingling和CoDet的比较40-43
  • 4.2.2 CCDet与IMatch(-S/-P)和LSH(-S/-P)比较43-44
  • 4.2.3 倒排索引剪切44
  • 4.3 算法效率比较实验44-45
  • 4.4 并行化算法的性能和可扩展性实验45-46
  • 4.5 本章实验小结46-47
  • 第五章 搜索引擎原型系统设计47-56
  • 5.1 Bingo系统框架47-48
  • 5.2 Nutch介绍48-50
  • 5.3 Bingo的后端设计50-52
  • 5.3.1 Bingo的模块设计50
  • 5.3.2 重复网页的聚类50-52
  • 5.3.3 Bingo的索引设计52
  • 5.4 Bingo的前端设计52-53
  • 5.5 Bingo的检索结果53-56
  • 第六章 总结56-58
  • 6.1 本文小结56-57
  • 6.2 未来工作57-58
  • 参考文献58-62
  • 致谢62-63
  • 附录63-64

【相似文献】

中国期刊全文数据库 前10条

1 朱松岩;;网页设计之特性分析[J];山东省农业管理干部学院学报;2009年03期

2 安琳;;国外网页信息存档项目及相关问题研究[J];图书馆建设;2009年12期

3 蒋桂梅;;网页设计的艺术性[J];电脑知识与技术;2010年05期

4 龙正义;;网页长期保存的策略与方法研究[J];档案管理;2010年03期

5 李志义;梁士金;;国内网页去重技术研究:现状与总结[J];图书情报工作;2011年07期

6 王烁;;美国网页归档项目——Internet Archive发展研究[J];兰台世界;2012年17期

7 栗勇兵;韩平;董启雄;;网页信息自动提取的设计与实现[J];计算机光盘软件与应用;2012年18期

8 何立波;周世波;;网页设计中的艺术研究[J];考试周刊;2011年25期

9 秦永平;网页信息共享技术[J];计算机应用;2000年02期

10 项镇;网页设计新概念[J];江西教育学院学报(自然科学);2001年06期

中国重要会议论文全文数据库 前10条

1 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年

2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

3 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

4 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年

5 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年

6 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年

7 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

8 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年

9 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

10 王宇;黄炜;肖艳芹;任建立;李天柱;;ORBASE用于基于内容的Web查询[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年

中国重要报纸全文数据库 前10条

1 本报记者 曾居仁 通讯员 郝金荣;贵州“万村千乡”网页工程开辟为农服务新渠道[N];中国气象报;2012年

2 壮壮;批量保存网页信息[N];电脑报;2004年

3 罗震宇 严小斌;一种新型WEB开发技术的探讨[N];中国冶金报;2011年

4 钱鹏;网尽Web页中的好东东[N];电脑报;2004年

5 星之海洋;迈出网页制作的第一步[N];电脑报;2004年

6 河南 张金贵;FrontPage2000组件详解(四)[N];电脑报;2001年

7 枫尔;网站浏览提速的五大秘方[N];中国证券报;2004年

8 飘零剑客;网络监控利器——AnyView[N];中国电脑教育报;2004年

9 八戒;眨眼之间 答案立现[N];电脑报;2013年

10 ;网络应用 天龙八“步” 申请上网账号[N];电脑报;2002年

中国博士学位论文全文数据库 前10条

1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年

2 龚昌盛;基于语义标注的网页广告加载模型研究[D];武汉大学;2010年

3 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年

4 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年

5 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年

6 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年

7 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年

8 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年

9 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年

10 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年

中国硕士学位论文全文数据库 前10条

1 杨寻;地域文化的视觉元素在旅游网页设计中的应用研究[D];西南交通大学;2015年

2 毛凯;基于Jsoup的通用网页采集系统的设计与实现[D];电子科技大学;2015年

3 王延江;企业搜索引擎排序技术的研究[D];大连海事大学;2016年

4 石雁;基于查询偏好的个性化搜索引擎的研究与实现[D];江南大学;2016年

5 王一兵;病友系统关键技术应用研究与实现[D];浙江大学;2016年

6 肖悦;基于文本密度和页面结构的网页信息抽取技术研究与实现[D];中国海洋大学;2015年

7 聂英;网页设计中信息传达的人性化探究[D];西北师范大学;2015年

8 陈屹;基于多特征的网页信息抽取技术的研究与应用[D];中国海洋大学;2015年

9 韦永壮;中文新闻重复网页检测研究[D];南京大学;2014年

10 李明冬;基于内存计算的文本聚类算法的研究与实现[D];东南大学;2015年


  本文关键词:中文新闻重复网页检测研究,,由笔耕文化传播整理发布。



本文编号:429616

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/429616.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户29b8f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com