基于正文结构树的近似网页去重研究
本文关键词:基于正文结构树的近似网页去重研究
更多相关文章: 网页去重 前缀过滤 正文结构树 网页指纹相似度 布隆过滤器
【摘要】:随着Internet的不断发展,网络信息呈指数级的增长。大量信息一方面带来更多的消息渠道,另一方面重复网页也带来了检索困难。重复网页不但浪费时间、使索引质量降低,而且还会使排序靠后。因此面对日益增长的网页信息,如何快速、准确的网页去重,成了互联网的一个重要问题。首先,针对各大网站网页互相转载、复制时,转载网页仅仅在内容上进行增删操作,而在网页正文结构上很少作调整这一普遍的现象,分析重复网页产生的原因并阐述传统网页去重算法的优缺点,在其基础上提出基于正文结构树的去重算法,可有效地提高去重的准确率和召回率。其次,结合网页正文结构树的特点,提出基于正文结构树和关键句的去重算法。对网页进行预处理,引入前缀过滤算法初步去重,对保留网页建立正文结构树;采用IDFTF-统计方法对关键字分析时引入标签权重,同时为了避免标签权重过大使得最后的分词权重可比性降低,对标签权重标准化;关键句提取时,采用根据段落长短按比例进行关键句提取的方法;之后用MD5算法进行相似性“指纹”比较。再次,结合网页正文结构树的特点,提出基于正文结构树的布隆过滤去重算法。对预处理后的网页建立正文结构树;网页特征串提取时,采用首1尾2个汉字的提取方法;利用Bloom Filter算法,计算并比较正文结构树的每层结点的“指纹”相似度,该算法能够在允许一定误差的情况下,有效地降低时间和空间复杂度。最后,对提出的算法在去重结果和去重时间方面进行实验验证和分析。
【关键词】:网页去重 前缀过滤 正文结构树 网页指纹相似度 布隆过滤器
【学位授予单位】:燕山大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3;TP393.092
【目录】:
- 摘要5-6
- Abstract6-10
- 第1章 绪论10-16
- 1.1 课题背景和意义10-11
- 1.2 国内外研究现状11-14
- 1.3 研究内容和目标14-15
- 1.4 论文的组织结构15-16
- 第2章 网页去重相关理论概述16-24
- 2.1 搜索引擎介绍16-18
- 2.1.1 搜索引擎种类16-17
- 2.1.2 搜索引擎组成及原理17-18
- 2.2 重复网页简述18-22
- 2.2.1 网页重复产生的原因18-20
- 2.2.2 网页重复的类型20-22
- 2.3 搜索引擎的评价标准22-23
- 2.3.1 准确率和召回率22-23
- 2.3.2 重复网页对搜索引擎的影响23
- 2.4 本章小结23-24
- 第3章 基于正文结构树和关键句去重算法24-38
- 3.1 前缀过滤以及倒排索引25-28
- 3.1.1 前缀过滤25-27
- 3.1.2 倒排索引27-28
- 3.2 正文结构树28-34
- 3.2.1 网页要素提取28-32
- 3.2.2 标签权重的设定32-33
- 3.2.3 正文结构树建立33-34
- 3.3 正文关键句的提取34-35
- 3.3.1 关键字筛选34-35
- 3.3.2 网页段落关键句提取35
- 3.4 基于正文结构树和关键句去重算法描述35-37
- 3.5 本章小结37-38
- 第4章 基于正文结构树的布隆过滤器去重算法38-48
- 4.1 Bloom Filter算法38-40
- 4.1.1 Bloom Filter算法原理38-39
- 4.1.2 Bloom Filter算法实现39-40
- 4.2 基于正文结构树的布隆过滤器去重算法40-45
- 4.2.1 基于正文结构树的布隆过滤器去重算法系统结构41-42
- 4.2.2 特征串提取42-43
- 4.2.3 判断正文标题的相似性43-44
- 4.2.4 判断正文关键词的相似性44-45
- 4.2.5 判断结构树各层结点的相似性45
- 4.3 基于正文结构树的布隆过滤器去重算法描述45-47
- 4.4 本章小结47-48
- 第5章 实验结果与分析48-55
- 5.1 实验环境配置48
- 5.2 实验评价标准48-49
- 5.3 实验结果分析49-54
- 5.3.1 不同算法网页去重结果分析49-51
- 5.3.2 不同算法网页去重时间分析51
- 5.3.3 准确率与召回率关系分析51-52
- 5.3.4 算法对不同类型近似镜像网页分析52-54
- 5.4 本章小结54-55
- 结论55-57
- 参考文献57-60
- 致谢60
【相似文献】
中国期刊全文数据库 前10条
1 朱松岩;;网页设计之特性分析[J];山东省农业管理干部学院学报;2009年03期
2 安琳;;国外网页信息存档项目及相关问题研究[J];图书馆建设;2009年12期
3 蒋桂梅;;网页设计的艺术性[J];电脑知识与技术;2010年05期
4 龙正义;;网页长期保存的策略与方法研究[J];档案管理;2010年03期
5 李志义;梁士金;;国内网页去重技术研究:现状与总结[J];图书情报工作;2011年07期
6 王烁;;美国网页归档项目——Internet Archive发展研究[J];兰台世界;2012年17期
7 栗勇兵;韩平;董启雄;;网页信息自动提取的设计与实现[J];计算机光盘软件与应用;2012年18期
8 何立波;周世波;;网页设计中的艺术研究[J];考试周刊;2011年25期
9 秦永平;网页信息共享技术[J];计算机应用;2000年02期
10 项镇;网页设计新概念[J];江西教育学院学报(自然科学);2001年06期
中国重要会议论文全文数据库 前10条
1 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年
2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
6 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
7 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
9 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 王宇;黄炜;肖艳芹;任建立;李天柱;;ORBASE用于基于内容的Web查询[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
中国重要报纸全文数据库 前10条
1 本报记者 曾居仁 通讯员 郝金荣;贵州“万村千乡”网页工程开辟为农服务新渠道[N];中国气象报;2012年
2 壮壮;批量保存网页信息[N];电脑报;2004年
3 罗震宇 严小斌;一种新型WEB开发技术的探讨[N];中国冶金报;2011年
4 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
5 星之海洋;迈出网页制作的第一步[N];电脑报;2004年
6 河南 张金贵;FrontPage2000组件详解(四)[N];电脑报;2001年
7 枫尔;网站浏览提速的五大秘方[N];中国证券报;2004年
8 飘零剑客;网络监控利器——AnyView[N];中国电脑教育报;2004年
9 八戒;眨眼之间 答案立现[N];电脑报;2013年
10 ;网络应用 天龙八“步” 申请上网账号[N];电脑报;2002年
中国博士学位论文全文数据库 前10条
1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
2 龚昌盛;基于语义标注的网页广告加载模型研究[D];武汉大学;2010年
3 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
4 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
5 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年
6 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
7 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年
8 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
9 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年
10 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 杨寻;地域文化的视觉元素在旅游网页设计中的应用研究[D];西南交通大学;2015年
2 毛凯;基于Jsoup的通用网页采集系统的设计与实现[D];电子科技大学;2015年
3 王延江;企业搜索引擎排序技术的研究[D];大连海事大学;2016年
4 石雁;基于查询偏好的个性化搜索引擎的研究与实现[D];江南大学;2016年
5 王一兵;病友系统关键技术应用研究与实现[D];浙江大学;2016年
6 肖悦;基于文本密度和页面结构的网页信息抽取技术研究与实现[D];中国海洋大学;2015年
7 聂英;网页设计中信息传达的人性化探究[D];西北师范大学;2015年
8 陈屹;基于多特征的网页信息抽取技术的研究与应用[D];中国海洋大学;2015年
9 韦永壮;中文新闻重复网页检测研究[D];南京大学;2014年
10 李明冬;基于内存计算的文本聚类算法的研究与实现[D];东南大学;2015年
,本文编号:917315
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/917315.html