当前位置:主页 > 管理论文 > 项目管理论文 >

基于Hadoop的分布式藏文新闻网站垂直搜索引擎设计与实现

发布时间:2017-09-10 22:20

  本文关键词:基于Hadoop的分布式藏文新闻网站垂直搜索引擎设计与实现


  更多相关文章: 藏文 垂直搜索引擎 分布式 新闻


【摘要】:在网络发展日新月异的今天,各种形式的信息呈现爆炸式增长的态势,这给传统搜索引擎快速去除无关内容、及时索引、准确检索带来了严峻的挑战。同时,面对传统搜索引擎返回的海量检索结果,我们常常需要花费很长时间来寻找真正需要的内容,可是结果仍然未必能如我们所愿,这一点无论是国外还是国内的搜索引擎都无法给出完美的解决方案。而垂直搜索引擎因其针对某一特定领域或人群的特性,有效地改善了这一现状,过滤了海量无关、冗余信息,提高了检索效率,最重要的是帮助用户快速、精准地锁定目标信息。随着藏族网民数量的逐年增加,人们获取藏文新闻的需求也越来越普遍。然而藏文的新闻网站却存在分布的比较分散,访问难度大;新闻更新不及时、新闻质量没有保证;网站之间新闻内容区分度不高,并且含有大量的无效网址、乱码新闻页面的特点,这给藏文新闻的传播带来了巨大阻碍。为了帮助人们高效、精确地浏览藏文新闻,本文设计和实现了一个基于Hadoop的分布式藏文新闻网站垂直搜索引擎,将垂直搜索引擎首次应用在藏文新闻领域。本文的设计方案在保证垂直搜索引擎精准性的前提下,有效地解决了上述问题,本文主要贡献如下:(1)设计并实现了基于Hadoop的分布式藏文新闻网站垂直搜索引擎系统。本系统严格按照传统软件项目管理流程设计。首先,从功能、界面、性能需求三个方向对软件进行细致的需求分析,并完成系统总体架构分析;其次,通过研究语料的选取来确定研究的领域,并具体分析系统研究数据的各项指标;最后,实现系统的功能模块,包括网络爬虫模块、信息预处理模块及索引和检索模块三大部分。(2)提出了藏文网络爬虫解决方案。本文分析了常见网络爬虫的工作原理,在此基础上开发了适合藏文新闻网站的爬虫解决方案,此解决方案实现了跨平台性,增加了系统可靠性。(3)提出了高频文章推荐算法。结合藏文新闻网页数量较少的特点,本文开发了高频文章推荐算法,将时下用户关注的热点新闻定向推荐给用户。(4)基于Hadoop的分布式藏文新闻网站垂直搜索引擎系统软件测试。系统开发结束,即进行了细致的软件测试。通过黑盒测试对系统界面、用户交互和性能三方面进行测试发现,本系统符合设计预期,可以满足用户使用需求。总之,本文的创新点在于,设计、实现了基于Hadoop的分布式藏文新闻网站垂直搜索引擎系统,通过了全面而系统的软件测试,并提出了藏文网络爬虫解决方案和高频文章推荐算法。
【关键词】:藏文 垂直搜索引擎 分布式 新闻
【学位授予单位】:中央民族大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3;TP393.092
【目录】:
  • 摘要3-6
  • ABSTRACT6-14
  • 第一章 绪论14-19
  • 1.1 研究背景与意义14-15
  • 1.2 研究现状15-17
  • 1.2.1 国内研究现状15-16
  • 1.2.2 国外研究现状16-17
  • 1.3 主要研究内容17
  • 1.4 论文组织结构17-19
  • 第二章 系统理论基础及关键技术分析19-30
  • 2.1 搜索引擎概述19-21
  • 2.1.1 搜索引擎的概念19-20
  • 2.1.2 搜索引擎的发展20-21
  • 2.1.3 垂直搜索引擎的优势和特征21
  • 2.2 网络爬虫技术21-23
  • 2.2.1 网络爬虫(Spider)21-22
  • 2.2.2 网络爬虫的工作过程22-23
  • 2.3 分布式存储技术23-24
  • 2.4 藏文分词技术24-25
  • 2.4.1 藏文分词的方法24-25
  • 2.5 网页去重技术25-28
  • 2.5.1 网页去重策略26-28
  • 2.6 倒排索引技术28
  • 2.7 检索排序技术28-29
  • 2.8 本章小结29-30
  • 第三章 系统需求分析30-35
  • 3.1 系统需求分析30-33
  • 3.1.1 系统的功能需求30-32
  • 3.1.2 系统的界面需求32
  • 3.1.3 系统的性能需求32-33
  • 3.2 系统总体架构分析33-34
  • 3.3 本章小结34-35
  • 第四章 系统设计与实现35-45
  • 4.1 研究语料35-36
  • 4.2 网络爬虫模块设计与实现36-39
  • 4.3 信息预处理模块设计与实现39-42
  • 4.3.1 去噪预处理40-41
  • 4.3.2 藏文分词预处理41-42
  • 4.4 索引和检索模块设计与实现42-44
  • 4.4.1 索引模块42
  • 4.4.2 查询模块42-44
  • 4.4.3 高频文章推荐44
  • 4.5 本章小结44-45
  • 第五章 系统测试45-56
  • 5.1 测试的评价原则与标准45-46
  • 5.2 测试的环境46-48
  • 5.3 系统功能测试48-53
  • 5.4 系统性能测试53-54
  • 5.5 本章小结54-56
  • 第六章 总结与展望56-58
  • 参考文献58-62
  • 致谢62-63
  • 攻读学位期间发表的学术论文目录63

【相似文献】

中国期刊全文数据库 前10条

1 杨坚争;李朝平;;垂直搜索引擎及其应用[J];电子商务;2006年10期

2 罗丽姗;;垂直搜索引擎发展概述[J];图书馆学研究;2006年12期

3 严宏伟;何俊;;基于房源分析系统的垂直搜索引擎关键技术的探讨[J];中国科技信息;2007年05期

4 胡华梁;何进;钟元生;;图书垂直搜索引擎的设计[J];计算机与现代化;2007年08期

5 郑凯明;李义杰;;垂直搜索引擎及其应用价值[J];信息技术;2008年04期

6 毕建涛;霍云福;;垂直搜索引擎赢利模式探讨[J];大连大学学报;2008年03期

7 许鑫;黄仲清;;垂直搜索引擎应用中的若干策略探讨——以12580餐饮垂直搜索为例[J];现代图书情报技术;2009年02期

8 孔祥春;李义杰;郑凯明;;垂直搜索引擎应用研究[J];计算机系统应用;2009年07期

9 杨皖苏;闫冬;;垂直搜索引擎发展策略探讨[J];商业时代;2009年23期

10 肖婷;;垂直搜索引擎与旅游行业探讨[J];农业网络信息;2009年11期

中国重要会议论文全文数据库 前4条

1 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年

2 林欢欢;王文杰;史忠植;;移动环境下垂直搜索引擎[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

3 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年

4 毛华扬;刘卫;;会计信息搜索方法研究[A];第十届全国会计信息化年会论文集[C];2011年

中国重要报纸全文数据库 前10条

1 北大纵横管理顾问公司高级顾问戴晓东;“商搜”变法 垂直搜索引擎的春天还远吗?[N];中国经营报;2006年

2 王艳;垂直搜索引擎市场看好[N];中国旅游报;2000年

3 王靖;赛迪网推出垂直搜索引擎[N];人民日报海外版;2000年

4 杨国民;国内生物医药行业 垂直搜索引擎诞生[N];经济日报;2007年

5 本报记者 王晓雁;垂直搜索引擎著作权之争未破题[N];法制日报;2009年

6 电子工业出版社 董娅 工业和信息化部电子科学技术情报研究所 周峻松;用开源软件建垂直搜索引擎[N];计算机世界;2010年

7 中新;生意宝推“生意搜”搅局电子商务搜索市场[N];经理日报;2008年

8 源讯 编译;搜索巨头的下一步[N];计算机世界;2006年

9 赛迪网 方刚;不只是网站才垂直[N];中国计算机报;2000年

10 ;沱沱网“亮剑”国际消费电子博览会 专业服务带来B2B差异化变革[N];中国贸易报;2007年

中国博士学位论文全文数据库 前5条

1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年

2 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年

3 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年

4 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年

5 王桂红;农产品市场价格web信息分析方法研究[D];沈阳农业大学;2013年

中国硕士学位论文全文数据库 前10条

1 韩冰;垂直搜索引擎个性化推荐研究与应用[D];大连理工大学;2009年

2 关小敏;垂直搜索引擎的研究与实现[D];北京邮电大学;2012年

3 吴燕玮;基于行业知识垂直搜索引擎的研究与实现[D];北京邮电大学;2012年

4 黄兴财;大学生职位垂直c\索引擎的设计与实现[D];电子科技大学;2015年

5 陈龙飞;垂直搜索引擎在烟草行业的研究与应用[D];浙江理工大学;2016年

6 林祖新;视频垂直搜索引擎中信息抽取与存储系统的设计与实现[D];北京邮电大学;2013年

7 张亚凤;垂直搜索引擎中关键技术的研究[D];长春工业大学;2016年

8 桂佳;招聘信息垂直搜索引擎系统设计与实现[D];华中科技大学;2014年

9 韩志强;基于Hadoop的分布式藏文新闻网站垂直搜索引擎设计与实现[D];中央民族大学;2016年

10 吴昊;垂直搜索引擎关键技术研究及分布式实现[D];东南大学;2016年



本文编号:826968

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/xiangmuguanli/826968.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c51f9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com