当前位置:主页 > 社科论文 > 图书档案论文 >

搜索引擎Nutch在数字图书馆中集成应用的研究与实现

发布时间:2020-03-20 11:50
【摘要】: 计算机技术与通信网络技术高速发展,网页资源日益成为一种重要的学术资源形式,在数字图书馆的资源建设中受到重视。然而网络信息有着数据量大,更新速度快、分布灵活分散,无序化等特点。因此,如何实现对特定领域、学科的实时监测和有效分析,使图书馆用户在检索专业内容时,可以从网络信息中更快速,更准确的找到有用信息,成为数字图书馆专题资源建设工作的重点研究课题。 本文在数字图书馆系统集成应用的框架下,通过对主题搜索引擎技术原理和应用的研究,对目前具有代表性的开源网络抓取软件进行了比较分析,最终选择在Nutch基础之上进行多种扩展和改进,采用正则表达式过滤、lucene全文索引、基于字典的中文分词、多线程控制、webservice、层次化自动聚类等关键技术,研究并实现了基于Nutch的专题网络资源定向采集服务系统N-WHSS (Nutch-based Website Harvest and Service system in Special field). N-WHSS系统在引入搜索引擎基本架构模型,即抓取器、索引器、查询器的基础上,根据数字图书馆系统集成应用的实用化要求,设计开发了GUI信息定制模块、信息过滤模块、基于字典的中文分词模块、专题知识库信息加工标引模块和基于webservice的检索服务模块。使得系统功能和性能方面以及实用性、易用性方面都有很大的提升。此外,在系统独立功能实现的基础上,本文特别研究了系统在数字图书馆中的集成应用,介绍了与中心仓储系统、资源加工系统和统一检索系统的集成,提高了系统的松耦合和扩展性,不仅具有实用价值也符合SOA技术发展的要求。 文中首先对搜索引擎的概念,发展历史和工作原理进行了简要分析,对N-WHSS系统所依托的开源搜索引擎框架Nutch以及根据应用需求对其进行扩展改进过程中所使用的关键技术进行了深入研究,详细论述了N-WHSS的体系架构和设计方案。该文最后在系统实现的基础上,对基于Nutch的专题网络资源定向采集服务系统在数字图书馆中的实用化集成应用做了总结,并对下一步研究做了展望和建议。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.3;G250.76

【引证文献】

相关博士学位论文 前1条

1 李鹏;数字图书馆内容管理开源软件应用与评价研究[D];吉林大学;2012年

相关硕士学位论文 前1条

1 陈车前;基于Nutch的并行搜索系统的优化设计[D];华南理工大学;2011年



本文编号:2591738

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/2591738.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dc007***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com