当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向网络文学的垂直搜索引擎的研究与实现

发布时间:2017-04-27 03:08

  本文关键词:面向网络文学的垂直搜索引擎的研究与实现,由笔耕文化传播整理发布。


【摘要】:伴随着互联网信息爆炸式的增长,海量数据不断产生,人们在网络上查找所需文学作品的效率越来越低。并且随着文学在互联网中的高速传播与发展,盗版、侵权、肆意抄袭作品的形势变的越来越严峻。所以迫切需要一个更优异的搜索服务,以提高搜索效率和保护网络作品版权。搜索引擎质量的好坏,对搜索引擎的使用用户来说具有重要意义,同时也是衡量搜索引擎技术优劣的关键指标。对页面进行重要性评估并按重要性排序是搜索引擎排序算法要深入研究的最重要的问题之一。垂直搜索引擎应运而生,它把具体专业与搜索引擎结合起来,为使用者提供了更高的质量和更优质的服务。本文研究的主要内容是建立在网络文学发展的基础上,本文研究的核心技术是建立在搜索引擎发展的基础上。通过研究课题的背景和意义,并深入了解搜索引擎的发展史、垂直搜索引擎的技术现状以及搜索引擎未来的发展趋势等知识,为本课题的研究与实现奠定了良好的理论基础。本文首先讨论了垂直搜索引擎的概念和工作流程,在深入研究垂直搜索引擎原理的基础上,对于垂直搜索引擎所用到的核心技术,如网络蜘蛛、网络蜘蛛搜索策略、信息抽取技术、中文分词技术等,和垂直搜索引擎所需要的搜索引擎开源框架Nutch,进行了详细的介绍。其次,分析并研究了搜索引擎领域经典的两种网页排序算法:PageRank算法和HITS算法,联系当前互联网研究现状并结合所研究的课题方向,针对传统的PageRank算法存在的主题飘逸现象、网页权值分配不合理、偏重旧网页等现象,结合网页内容之间的相似度信息、网页页面结构和网页产生的时间等提出了一种改进的页面排序算法。改进算法加入了时间衰减因子,减少了主题漂移现象的发生,提高了查询的准确率。最后,本课题结合搜索引擎开源框架Nutch和改进后的网页排序算法,设计并实现了基于网络文学为主题的垂直搜索引擎原型系统。通过和主流搜索引擎的对比以及数据测试和仿真验证了系统的可行性与优越性。
【关键词】:垂直搜索引擎 PageRank算法 Nutch 网页排序算法
【学位授予单位】:曲阜师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
  • 摘要3-4
  • Abstract4-8
  • 第一章 绪论8-13
  • 1.1 课题研究背景和意义8-9
  • 1.2 研究现状与发展趋势9-11
  • 1.2.1 搜索引擎发展史9-10
  • 1.2.2 垂直搜索引擎技术现状10-11
  • 1.2.3 搜索引擎的发展趋势11
  • 1.3 本文的主要内容11-12
  • 1.4 课题论文架构12-13
  • 第二章 垂直搜索引擎的相关技术13-20
  • 2.1 垂直搜索引擎的工作流程13-14
  • 2.2 垂直搜索引擎的核心技术14-18
  • 2.2.1 网络蜘蛛14-15
  • 2.2.2 网络蜘蛛的搜索策略15
  • 2.2.3 信息抽取技术15-16
  • 2.2.4 中文分词技术16-18
  • 2.3 Nutch介绍18-19
  • 2.4 本章小结19-20
  • 第三章 垂直搜索引擎算法的改进20-29
  • 3.1 网页排序算法研究20-25
  • 3.1.1 PageRank算法20-23
  • 3.1.2 HITS算法23-24
  • 3.1.3 PageRank算法和HITS算法对比24-25
  • 3.2 基于PageRank的改进算法25-28
  • 3.2.1 PageRank算法缺点25-26
  • 3.2.2 PageRank算法改进26-28
  • 3.3 本章小结28-29
  • 第四章 垂直搜索引擎的实现与结果分析29-41
  • 4.1 面向网络文学作品搜索引擎的实现29-35
  • 4.1.1 开发环境的介绍29-30
  • 4.1.2 垂直搜索引擎的配置30-33
  • 4.1.3 网络文学搜索系统流程图33-35
  • 4.2 网络文学搜索系统的实现界面35-37
  • 4.3 数据分析与对比37-40
  • 4.3.1 各搜索引擎系统数据对比37-38
  • 4.3.2 算法改进前后系统数据分析与对比38-40
  • 4.4 本章小结40-41
  • 第五章 总结与展望41-43
  • 5.1 总结41
  • 5.2 展望41-43
  • 参考文献43-45
  • 在校期间发表的学术论文45-46
  • 致谢46

【参考文献】

中国期刊全文数据库 前4条

1 李昕,朱永胜,武港山;Web结构分析算法HITS的改进及应用[J];计算机工程;2005年06期

2 王宁;毛垣生;;水平和垂直搜索引擎的比较与应用实践[J];图书馆工作与研究;2009年12期

3 马志杰;;国内外搜索引擎评价比较研究[J];情报科学;2013年08期

4 卢承山;;基于本体语义树的主题空间向量模型[J];计算机系统应用;2011年10期


  本文关键词:面向网络文学的垂直搜索引擎的研究与实现,,由笔耕文化传播整理发布。



本文编号:329782

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/329782.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2439c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com