基于ElasticSearch的分布式搜索引擎的设计与实现
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.3
【图文】:
用命中相关的数据,就通过后台建立的索引库查询出与搜索相关的信息,对检索词逡逑与搜索结果进行匹配度计算,再对搜索结果进行排序,最后在搜索结果中显示搜索逡逑结果的部分信息返回给用户。搜索引擎基本工作原理的结构如图2-1所示。逡逑缓存服务器数据索引服网络爬虫服务器逡逑s邋//逦』逦<逡逑//mm逦S逦flS逡逑V邋/逦V逡逑p]邋LJjJ邋wjj逡逑搜索服务器逦i____J逦索弓丨存储服务器网页存储服务器逡逑B志存储服务逡逑图2-1搜索引擎工作原理简单结构图逡逑Figure邋2-1邋Simple邋Structure邋of邋the邋Search邋Engine邋Working邋Principle逡逑5逡逑
通大学硕士专业学位论文逦搜索引擎相关理论与关键技术搜索引擎系统结构体系主要包括索引服务、搜索服务、缓存服务、日志列服务模块,各个服务模块相辅相成,支撑着搜索引擎的整个工作流搜索引擎框架逡逑随着搜索技术的快速发展,为了使搜索技术能够更好的服务于开发人员出现了很多与搜索引擎有关的优秀产品,包括Apache邋Nutch,Apache邋SasticSearch。逡逑(1)邋Apache邋Nutch:是一个开源的基于Java开发的以Lucene为核心爬虫项目,主要包括爬虫服务、索引服务、搜索服务等。在实际的搜索,如果数据源需要通过其他渠道抓取,则可以使用Nutch提供检索服务。单工程流程示意图如图2-2所示。逡逑Crawler邋逦逦逦?邋Sementement……'emen
系统需求分析逡逑索结果中用户可以根据教学视频、讲师以及标签的分类对结果做进一步的筛选。本逡逑系统的用例图如图3-1所不。逡逑搖黎引)逡逑Cmcludes)逡逑《》nchi£l#s>Cincludes)逦?''N逡逑逦逦^邋Cindudes>邋,逦、逡逑逦逦^逡逑NB逦逡逑<inciud^s>邋逦逦逦邋.^>V邋KB^邋y逡逑逦逦逦邋逦逦逦逡逑-jhr ̄^^逡逑二思\逦—e ̄逡逑\邋*-%逦逡逑\邋、逦逡逑\逦??,八、NB邋h邋健标)逡逑\邋^逦<.ndudesl邋逦^邋Cmdude*s>邋X逦逦^逡逑、逦'(^clud?)逦JT—^邋{.ndudeO^逦、逡逑图3-1系统用例图逡逑Figure邋3-1邋System邋Use邋Case邋Diagram逡逑根据上述的业务场景分析,本搜索引擎的设计目标是:改善传统搜索引擎,提逡逑高用户的满意程度。主要分为以下几点:逡逑(1)
【参考文献】
相关期刊论文 前9条
1 李佳;陈亚军;;中文智能搜索引擎技术研究[J];软件导刊;2015年07期
2 张艳辉;刘培玉;;基于互信息的微博新词发现算法[J];科技视界;2015年15期
3 王琳琳;;规则与统计相结合的中文新词识别研究[J];嘉兴学院学报;2014年06期
4 窦晓峰;陈胜;王熠航;麦联叨;由建宏;;应用分布式索引提高海量数据查询性能[J];计算机系统应用;2014年06期
5 霍帅;张敏;刘奕群;马少平;;基于微博内容的新词发现方法[J];模式识别与人工智能;2014年02期
6 陈智鹏;吕玉琴;刘华生;刘刚;屠辉;;基于N-gram统计模型的搜索引擎中文纠错[J];中国电子科学研究院学报;2009年03期
7 管建和;甘剑峰;;基于Lucene全文检索引擎的应用研究与实现[J];计算机工程与设计;2007年02期
8 苏菲,王丹力,戴国忠;基于标记的规则统计模型与未登录词识别算法[J];计算机工程与应用;2004年15期
9 欧振猛,余顺争;中文分词算法在搜索引擎应用中的研究[J];计算机工程与应用;2000年08期
相关硕士学位论文 前7条
1 王欣;微博新词发现及新词情感极性判断方法[D];重庆师范大学;2018年
2 齐爽;基于新词发现的微博文本情感倾向性分析研究[D];杭州电子科技大学;2018年
3 沈健;基于统计模型的搜索引擎查询纠错系统[D];大连理工大学;2017年
4 曾亚飞;基于Elasticsearch的分布式智能搜索引擎的研究与实现[D];重庆大学;2016年
5 张高伟;基于ElasticSearch的分布式视频垂直搜索引擎的设计与实现[D];哈尔滨工业大学;2014年
6 孙善禄;搜索引擎纠错算法研究与纠错Bad Case挖掘[D];大连理工大学;2013年
7 韩冰;垂直搜索引擎个性化推荐研究与应用[D];大连理工大学;2009年
本文编号:2747890
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2747890.html