基于Lucene的云平台学术搜索引擎
发布时间:2017-06-07 04:04
本文关键词:基于Lucene的云平台学术搜索引擎,由笔耕文化传播整理发布。
【摘要】:随着全球互联网的高速发展,网络信息总量正在迅猛增长。以Google、百度为代表的通用搜索引擎成为人们获取互联网信息的重要入口。然而此类大型搜索引擎却不能完全应对面向专业领域的检索需求,垂直搜索引擎的出现满足了这类需求。本文针对互联网上存在的海量学术文献数据,在Apache Lucene全文检索工具库的基础上,提出了一种基于MooseFS云存储平台的垂直搜索引擎设计实现方案。该方案专注于互联网海量学术文献的信息检索服务,检索结果整合多个网站的文献数据,具备较高的准确性与全面性。使用云存储平台进行索引存储,能够提高存储可扩展性,保证了系统面对大规模数据的检索处理能力。本文研究内容主要包括:设计实现高可定制性和高爬取性能的多线程定向网络爬虫,用于论文数据的定向爬取工作。研究全文检索技术及全文检索工具库Apache Lucene的实现原理,并在此基础上进行二次开发,完成论文数据检索系统设计与实现。研究分布式数据库集群和分布式缓存集群技术,设计实现基于一致性哈希的数据库分片集群方案和基于Redis的LRU分布式缓存方案。研究MooseFS云存储平台原理与架构,使用MooseFS云存储平台构建Lucene索引存储平台。结合上述多种方法提出基于Lucene的云平台学术搜索引擎解决方案。本文提出的垂直搜索引擎技术框架及其云存储平台实现方案,实现了多个学术数据库数据的整合检索,能够有效提高用户对互联网上的海量文献信息的检索效率,具有重要的理论意义与现实意义。
【关键词】:垂直搜索引擎 信息检索 网络爬虫 云平台
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3;TP393.09
本文关键词:基于Lucene的云平台学术搜索引擎,,由笔耕文化传播整理发布。
本文编号:428112
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/428112.html