当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Nutch的节能减排垂直搜索引擎的设计与实现

发布时间:2017-04-09 20:15

  本文关键词:基于Nutch的节能减排垂直搜索引擎的设计与实现,由笔耕文化传播整理发布。


【摘要】:为了促进经济的可持续发展,缓解环境保护的压力,国家开始推行节能减排工作,希望借此解决当代中国发展所面临有关资源环境方面的问题,最终实现以环境友好的方式进行经济建设。伴随着互联网技术的发展,互联网上有关节能减排的信息急剧上升,相关用户也希望能够快速有效的找到与节能减排相关的信息。但使用传统的搜索引擎进行检索一般会出现大量无用的信息,使得用户获取有价值信息的难度加大。为了解决这一问题,本文采用开源框架Nutch实现了一个针对节能减排领域的搜索引擎。主要内容如下:(1)面向节能减排领域,完成垂直搜索引擎的开发工作。为了用户更方便的获取节能减排领域的信息,本文在开源网络爬虫Nutch基础上利用插件机制对其进行二次开发,并结合了信息提取、分类和主题判定等技术。本文采用了网页模板技术对网络爬虫抓取下来的网页进行过滤,去除不符合模板提取规则的页面,并对网页部分信息进行提取,提高信息提取的准确性;采用了向量空间模型对节能减排主题领域进行判断,获取主题相关页面;采用了关键词判断与朴素贝叶斯分类算法相结合的方式将网页分成政策资讯、标准规范、技术文献三类,并用同样的方法将网页按照行业进行分类。(2)针对搜索引擎完成系统管理平台的开发工作。为了方便不熟悉搜索引擎的人员能够完成对本搜索引擎相关功能的扩展和管理,设计并完成了一个基于B/S模式的系统管理平台。该平台主要提供了检索关键词管理,标准规范和技术文献两类本地库的索引管理,初始种子管理,网页模板和模版库管理以及网页信息类别管理等功能。
【关键词】:节能减排 Nutch 垂直搜索引擎 网页模板 向量空间模型 朴素贝叶斯分类算法
【学位授予单位】:安徽工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
  • 摘要3-4
  • Abstract4-8
  • 第一章 绪论8-14
  • 1.1 课题的背景和意义8-9
  • 1.2 搜索引擎发展历史9
  • 1.3 国内外研究现状9-11
  • 1.3.1 国外研究现状10-11
  • 1.3.2 国内研究现状11
  • 1.4 研究的主要内容11-12
  • 1.5 论文的组织结构12-14
  • 第二章 垂直搜索引擎原理及Nutch技术14-27
  • 2.1 搜索引擎概述14-17
  • 2.1.1 通用搜索引擎14-15
  • 2.1.2 垂直搜索引擎15
  • 2.1.3 搜索引擎原理结构15-16
  • 2.1.4 垂直搜索引擎与通用搜索引擎的比较16-17
  • 2.2 垂直搜索引擎关键技术17-23
  • 2.2.1 信息抓取技术17-20
  • 2.2.2 信息抽取技术20-21
  • 2.2.3 索引技术21-22
  • 2.2.4 中文分词技术22-23
  • 2.3 Nutch相关技术23-27
  • 2.3.1 Nutch简介23-24
  • 2.3.2 Nutch系统架构24-26
  • 2.3.3 Nutch插件机制26-27
  • 第三章 垂直搜索引擎的实现27-46
  • 3.1 搜索引擎总架构设计27-29
  • 3.1.1 搜索引擎体系结构27-28
  • 3.1.2 搜索引擎设计思路28-29
  • 3.2 网络爬虫设计29-32
  • 3.2.1 Nutch网络爬虫的搭建30-31
  • 3.2.2 初始URL种子设定31-32
  • 3.3 网页模板技术的实现32-34
  • 3.3.1 网页的特征32-33
  • 3.3.2 网页模板的设计33-34
  • 3.4 特征词库的确定34-37
  • 3.4.1 权重的计算方法35-36
  • 3.4.2 特征词库选择步骤36-37
  • 3.5 主题相关性判别的实现37-40
  • 3.5.1 向量空间模型37-39
  • 3.5.2 主题相关性判别方法39-40
  • 3.6 网页信息分类的实现40-44
  • 3.6.1 朴素贝叶斯分类算法41-42
  • 3.6.2 网页信息分类方法42-44
  • 3.7 用户检索接口功能扩展44-46
  • 第四章 垂直搜索引擎系统管理平台的设计与实现46-55
  • 4.1 系统管理平台需求分析46-47
  • 4.2 系统管理平台系统设计47-55
  • 4.2.1 系统功能模块设计47-51
  • 4.2.2 数据库设计51-55
  • 第五章 系统运行和测试55-66
  • 5.1 系统运行条件55
  • 5.2 垂直搜索引擎测试和分析55-60
  • 5.2.1 系统的运行55-57
  • 5.2.2 系统相关测试57-60
  • 5.3 垂直搜索引擎管理平台测试和分析60-66
  • 5.3.1 管理平台运行60
  • 5.3.2 主要模块功能测试60-66
  • 第六章 总结与展望66-68
  • 6.1 总结66-67
  • 6.2 展望67-68
  • 参考文献68-71
  • 在学研究成果71-72
  • 致谢72

【相似文献】

中国期刊全文数据库 前10条

1 杨坚争;李朝平;;垂直搜索引擎及其应用[J];电子商务;2006年10期

2 罗丽姗;;垂直搜索引擎发展概述[J];图书馆学研究;2006年12期

3 严宏伟;何俊;;基于房源分析系统的垂直搜索引擎关键技术的探讨[J];中国科技信息;2007年05期

4 胡华梁;何进;钟元生;;图书垂直搜索引擎的设计[J];计算机与现代化;2007年08期

5 郑凯明;李义杰;;垂直搜索引擎及其应用价值[J];信息技术;2008年04期

6 毕建涛;霍云福;;垂直搜索引擎赢利模式探讨[J];大连大学学报;2008年03期

7 许鑫;黄仲清;;垂直搜索引擎应用中的若干策略探讨——以12580餐饮垂直搜索为例[J];现代图书情报技术;2009年02期

8 孔祥春;李义杰;郑凯明;;垂直搜索引擎应用研究[J];计算机系统应用;2009年07期

9 杨皖苏;闫冬;;垂直搜索引擎发展策略探讨[J];商业时代;2009年23期

10 肖婷;;垂直搜索引擎与旅游行业探讨[J];农业网络信息;2009年11期

中国重要会议论文全文数据库 前4条

1 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年

2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

3 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

4 毛华扬;刘卫;;会计信息搜索方法研究[A];第十届全国会计信息化年会论文集[C];2011年

中国重要报纸全文数据库 前10条

1 北大纵横管理顾问公司高级顾问戴晓东;“商搜”变法 垂直搜索引擎的春天还远吗?[N];中国经营报;2006年

2 王艳;垂直搜索引擎市场看好[N];中国旅游报;2000年

3 王靖;赛迪网推出垂直搜索引擎[N];人民日报海外版;2000年

4 杨国民;国内生物医药行业 垂直搜索引擎诞生[N];经济日报;2007年

5 本报记者 王晓雁;垂直搜索引擎著作权之争未破题[N];法制日报;2009年

6 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年

7 中新;生意宝推“生意搜”搅局电子商务搜索市场[N];经理日报;2008年

8 源讯 编译;搜索巨头的下一步[N];计算机世界;2006年

9 赛迪网 方刚;不只是网站才垂直[N];中国计算机报;2000年

10 ;沱沱网“亮剑”国际消费电子博览会 专业服务带来B2B差异化变革[N];中国贸易报;2007年

中国博士学位论文全文数据库 前5条

1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年

2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年

3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年

4 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年

5 王桂红;农产品市场价格web信息分析方法研究[D];沈阳农业大学;2013年

中国硕士学位论文全文数据库 前10条

1 韩冰;垂直搜索引擎个性化推荐研究与应用[D];大连理工大学;2009年

2 关小敏;垂直搜索引擎的研究与实现[D];北京邮电大学;2012年

3 吴燕玮;基于行业知识垂直搜索引擎的研究与实现[D];北京邮电大学;2012年

4 柳力丽;旅游垂直搜索引擎的品牌传播研究[D];西南大学;2015年

5 钱永杰;面向网络文学的垂直搜索引擎的研究与实现[D];曲阜师范大学;2015年

6 袁凤云;垂直搜索引擎关键技术研究与实现[D];电子科技大学;2014年

7 任睿丽;面向旅游业的垂直搜索引擎的设计与实现[D];电子科技大学;2014年

8 张高伟;基于ElasticSearch的分布式视频垂直搜索引擎的设计与实现[D];哈尔滨工业大学;2014年

9 朱鹏;英文语料库垂直搜索引擎的研究与实现[D];北京邮电大学;2015年

10 杨小丹;面向教育资源c\索引擎的研究与实现[D];电子科技大学;2015年


  本文关键词:基于Nutch的节能减排垂直搜索引擎的设计与实现,由笔耕文化传播整理发布。



本文编号:296033

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/296033.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户bb304***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com