基于关键词的搜索引擎网页去重算法研究
发布时间:2020-12-27 21:40
互联网的飞速发展使得互联网的数据得到了指数级增长。与报纸、电视和广播这些传统的传输媒体相比,互联网更加高效实时、经济直观,并极具开放性,是新一代的大众传媒。互联网上的信息纷繁复杂,并存在大量的相似重复网页信息。这些相似重复网页信息不但给网络用户带来了相当大的困扰,增加了搜索目标信息的难度;也降低了竞争情报系统和搜索引擎的网页信息采集分析工作的效率。因此,关于相似重复网页去重技术的研究是一个极具实际意义的研究课题。本文在分析了当前相似网页去重技术的基础上,详细阐述了网页去重技术的整体流程,包括网页预处理、网页特征提取和相似性判断等,网页预处理包括网页格式正规化处理和网页主题内容提取。提取网页主题内容需先构建DOM文档结构树,然后去除图片、表单和网页脚本等噪声节点,最后定位候选子树节点和进行噪声指数计算。在相似网页去重算法上,以SimHash算法为基础进行适当的改进,为更准确地表征网页主题内容,在进行网页分词和去除停用词与无意义词后,采用单步前进制的单词序列作为网页特征项,融入了单词与单词的相互位置关系。为降低算法的时间空间复杂度,在进行网页特征项的权重计算的同时,提取出适当数量的网页关键...
【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
3训练得到词典
MASTTR'S?THESIS??本文的网页去重算法实现方案是建立在在图5.2的架构设想基础上的,即采取??个开源的搜索引擎,并对此捜索引擎中的网页数据去重模块应用上章内容描述的??似网页去重算法加W改进。Nutch是一个Java实现的开源的捜索引擎,提供了网??爬虫、全文检索和分布式存储等诸多工具,在本文中我们将基于N山址对网页去??算法进行验证。??5.1实验环境??Nut沈是Apache基金会下的一个基于Java实现的开源的搜索引擎,是一个髙??可扩展的开源网络爬虫软件项目。它致力于减少软件开发者的王作量,使其能在??短的时间内完成Web搜索引擎的开发王作。Nutch下有一系列的工具和模块,提??了一系列比较完整的捜索引擎实现。开发人员只需在己有的工具和模块基础上进??适当的修改,就能快速地开发出高效稳定的搜索引擎系统。N山ch各个模块之间的??系如图5.3所示。??
_==_====??Nutch对插件机制的支持非常友好I其大部分的扩展功能都是通过插件机制实??现的,包括网页分词、网页页面分析、页面评分和url地址过滤等搜索引擎的核屯、??功能。一个完整的插件包含代码文件和配置文件两个部分。代码文件负责插件逻辑??业务功能的具体实现;配置文件用于处理插件本身属性和各插件及系统之间的交互??关系。插件机制有如下优点??1、可扩展能力(Extensibility)??2、灵活性(Fex批lity)??3、可维护性(Maintainability)??Nutch的插件体系结构从上到下共包括H个层次:上层是微内核、扩展点与扩展,??微内核负责统一调度,扩展点则对相应的功能进行声明,功能的具体实现由扩展完??成;中间层次包括H个部分,分别是插件、插件描述清单W及插件清单描述器,主要??完成对扩展W及其所需资源的统一管理;底层由插件工厂和插件清单解析器构成,??主要功能是负责插件的注册过程及取得扩展点的功能。Nutch插件系统结构如图??5.4所示。??
【参考文献】:
期刊论文
[1]Asp.net中伪静态的应用与实现[J]. 侯鹏. 电脑知识与技术. 2013(34)
[2]网页净化及去重研究综述[J]. 罗元. 现代计算机. 2013(15)
[3]一种结合正向最大匹配法和互信息的中文分词算法[J]. 桑书娟,王庆喜. 计算机光盘软件与应用. 2012(07)
[4]基于多SimHash指纹的近似文本检测[J]. 董博,郑庆华,宋凯磊,田锋,马瑞. 小型微型计算机系统. 2011(11)
[5]用于网页相关性判断的聚焦查询文摘算法研究[J]. 蒋效宇. 计算机工程与应用. 2011(33)
[6]国内网页去重技术研究:现状与总结[J]. 李志义,梁士金. 图书情报工作. 2011(07)
[7]基于Bloom Filter的网页去重算法[J]. 徐娜,刘四维,汪翔,倪卫明. 微型电脑应用. 2011(03)
[8]基于SLCS的元搜索去重技术研究[J]. 秦杰,谢蕙,王春云. 图书情报工作. 2010(15)
[9]Nutch的插件机制分析[J]. 夏天. 广西师范大学学报(自然科学版). 2010(01)
[10]基于词汇链的中文新闻网页关键词抽取方法[J]. 胡学钢,李星华,谢飞,吴信东. 模式识别与人工智能. 2010(01)
硕士论文
[1]科技情报采集系统的设计及其快速文本聚类方法研究[D]. 宋辰.北京工业大学 2014
[2]网络舆情信息的话题发现和追踪技术的研究与应用[D]. 衣波.广东工业大学 2013
[3]移动终端通讯录数据去重合并关键技术研究[D]. 吴朋朋.北京邮电大学 2014
[4]主题搜索引擎的研究与应用[D]. 黄波.成都理工大学 2007
[5]基于本体的面向股票领域搜索引擎的实现技术研究[D]. 黄堃.天津大学 2007
本文编号:2942532
【文章来源】:华中师范大学湖北省 211工程院校 教育部直属院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
3训练得到词典
MASTTR'S?THESIS??本文的网页去重算法实现方案是建立在在图5.2的架构设想基础上的,即采取??个开源的搜索引擎,并对此捜索引擎中的网页数据去重模块应用上章内容描述的??似网页去重算法加W改进。Nutch是一个Java实现的开源的捜索引擎,提供了网??爬虫、全文检索和分布式存储等诸多工具,在本文中我们将基于N山址对网页去??算法进行验证。??5.1实验环境??Nut沈是Apache基金会下的一个基于Java实现的开源的搜索引擎,是一个髙??可扩展的开源网络爬虫软件项目。它致力于减少软件开发者的王作量,使其能在??短的时间内完成Web搜索引擎的开发王作。Nutch下有一系列的工具和模块,提??了一系列比较完整的捜索引擎实现。开发人员只需在己有的工具和模块基础上进??适当的修改,就能快速地开发出高效稳定的搜索引擎系统。N山ch各个模块之间的??系如图5.3所示。??
_==_====??Nutch对插件机制的支持非常友好I其大部分的扩展功能都是通过插件机制实??现的,包括网页分词、网页页面分析、页面评分和url地址过滤等搜索引擎的核屯、??功能。一个完整的插件包含代码文件和配置文件两个部分。代码文件负责插件逻辑??业务功能的具体实现;配置文件用于处理插件本身属性和各插件及系统之间的交互??关系。插件机制有如下优点??1、可扩展能力(Extensibility)??2、灵活性(Fex批lity)??3、可维护性(Maintainability)??Nutch的插件体系结构从上到下共包括H个层次:上层是微内核、扩展点与扩展,??微内核负责统一调度,扩展点则对相应的功能进行声明,功能的具体实现由扩展完??成;中间层次包括H个部分,分别是插件、插件描述清单W及插件清单描述器,主要??完成对扩展W及其所需资源的统一管理;底层由插件工厂和插件清单解析器构成,??主要功能是负责插件的注册过程及取得扩展点的功能。Nutch插件系统结构如图??5.4所示。??
【参考文献】:
期刊论文
[1]Asp.net中伪静态的应用与实现[J]. 侯鹏. 电脑知识与技术. 2013(34)
[2]网页净化及去重研究综述[J]. 罗元. 现代计算机. 2013(15)
[3]一种结合正向最大匹配法和互信息的中文分词算法[J]. 桑书娟,王庆喜. 计算机光盘软件与应用. 2012(07)
[4]基于多SimHash指纹的近似文本检测[J]. 董博,郑庆华,宋凯磊,田锋,马瑞. 小型微型计算机系统. 2011(11)
[5]用于网页相关性判断的聚焦查询文摘算法研究[J]. 蒋效宇. 计算机工程与应用. 2011(33)
[6]国内网页去重技术研究:现状与总结[J]. 李志义,梁士金. 图书情报工作. 2011(07)
[7]基于Bloom Filter的网页去重算法[J]. 徐娜,刘四维,汪翔,倪卫明. 微型电脑应用. 2011(03)
[8]基于SLCS的元搜索去重技术研究[J]. 秦杰,谢蕙,王春云. 图书情报工作. 2010(15)
[9]Nutch的插件机制分析[J]. 夏天. 广西师范大学学报(自然科学版). 2010(01)
[10]基于词汇链的中文新闻网页关键词抽取方法[J]. 胡学钢,李星华,谢飞,吴信东. 模式识别与人工智能. 2010(01)
硕士论文
[1]科技情报采集系统的设计及其快速文本聚类方法研究[D]. 宋辰.北京工业大学 2014
[2]网络舆情信息的话题发现和追踪技术的研究与应用[D]. 衣波.广东工业大学 2013
[3]移动终端通讯录数据去重合并关键技术研究[D]. 吴朋朋.北京邮电大学 2014
[4]主题搜索引擎的研究与应用[D]. 黄波.成都理工大学 2007
[5]基于本体的面向股票领域搜索引擎的实现技术研究[D]. 黄堃.天津大学 2007
本文编号:2942532
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2942532.html