当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于ElasticSearch的分布式搜索引擎的设计与实现

发布时间:2020-07-09 19:34
【摘要】:在当今大数据时代的背景下,随着各行各业信息化的快速发展,各个垂直领域的信息数据呈爆炸式增长。无论是在工作还是生活中,人们已经习惯依赖互联网来获取有效信息,然而海量的数据容易造成信息过载的情况,如何快速并且高效的获取对用户有用的信息已经成为搜索引擎面临的主要问题。针对传统搜索引擎的业务扩展性差以及搜索效率与性能差等问题,本文提出了一种基于ElasticSearch的分布式搜索引擎,在提高检索效率和检索精度的基础上,对用户历史搜索记录进行分析与利用,让搜索引擎能更加智能、更加友好的与用户进行交互。在深入分析系统需求的基础上,主要把系统分为离线数据处理过程和实时搜索显示过程。离线数据处理过程主要包括数据预处理、数据存储、索引更新、扩充词库等问题;实时搜索显示过程主要包括搜索词纠错、搜索词提示、搜索结果排序并显示等问题。本文搜索引擎的设计与实现过程中主要使用到的相关技术包括ElasticSearch框架、文本分词技术、消息队列、新词发现算法、排序算法、N-Gram语言模型以及最短编辑距离算法等。其中,本文采用N-Gram语言统计模型与最短编辑距离算法实现搜索词纠错功能;采用BM25算法对搜索结果进行排序,使得搜索结果更加符合用户的实际需求;采用的是基于统计的新词发现算法来实现词库的扩充,定期通过分析用户的行为日志来进行新词发现,从而可以提高分词的准确度。通过多方面的测试与分析,验证了本系统的实用性、有效性以及实时性。通过对词库的扩充提高了分词的准确度,通过对搜索结果的重排序,返回给用户更满意的结果,改善了用户的体验,提高了付费视频点击率及成交额。目前,本系统已经通过了测试并交付用户使用,得到了用户的积极反馈,搜索引擎系统并未出现重大异常现象。本文在视频领域设计并实现了一个基于ElasticSearch的分布式搜索引擎。首先,本文阐述了项目的研究背景及意义,并分析了搜索引擎的国内外研究现状,然后,本文介绍了系统的实现过程中涉及到的技术,其次,本文阐述了系统的功能性与非功能性需求、概要设计、详细设计与实现,最后对系统进行了测试与性能分析。
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.3
【图文】:

简单结构,存储服务器,网络爬虫


用命中相关的数据,就通过后台建立的索引库查询出与搜索相关的信息,对检索词逡逑与搜索结果进行匹配度计算,再对搜索结果进行排序,最后在搜索结果中显示搜索逡逑结果的部分信息返回给用户。搜索引擎基本工作原理的结构如图2-1所示。逡逑缓存服务器数据索引服网络爬虫服务器逡逑s邋//逦』逦<逡逑//mm逦S逦flS逡逑V邋/逦V逡逑p]邋LJjJ邋wjj逡逑搜索服务器逦i____J逦索弓丨存储服务器网页存储服务器逡逑B志存储服务逡逑图2-1搜索引擎工作原理简单结构图逡逑Figure邋2-1邋Simple邋Structure邋of邋the邋Search邋Engine邋Working邋Principle逡逑5逡逑

示意图,流程,示意图,搜索引擎


通大学硕士专业学位论文逦搜索引擎相关理论与关键技术搜索引擎系统结构体系主要包括索引服务、搜索服务、缓存服务、日志列服务模块,各个服务模块相辅相成,支撑着搜索引擎的整个工作流搜索引擎框架逡逑随着搜索技术的快速发展,为了使搜索技术能够更好的服务于开发人员出现了很多与搜索引擎有关的优秀产品,包括Apache邋Nutch,Apache邋SasticSearch。逡逑(1)邋Apache邋Nutch:是一个开源的基于Java开发的以Lucene为核心爬虫项目,主要包括爬虫服务、索引服务、搜索服务等。在实际的搜索,如果数据源需要通过其他渠道抓取,则可以使用Nutch提供检索服务。单工程流程示意图如图2-2所示。逡逑Crawler邋逦逦逦?邋Sementement……'emen

用例图,搜索引擎,场景分析,用例图


系统需求分析逡逑索结果中用户可以根据教学视频、讲师以及标签的分类对结果做进一步的筛选。本逡逑系统的用例图如图3-1所不。逡逑搖黎引)逡逑Cmcludes)逡逑《》nchi£l#s>Cincludes)逦?''N逡逑逦逦^邋Cindudes>邋,逦、逡逑逦逦^逡逑NB逦逡逑<inciud^s>邋逦逦逦邋.^>V邋KB^邋y逡逑逦逦逦邋逦逦逦逡逑-jhr ̄^^逡逑二思\逦—e ̄逡逑\邋*-%逦逡逑\邋、逦逡逑\逦??,八、NB邋h邋健标)逡逑\邋^逦<.ndudesl邋逦^邋Cmdude*s>邋X逦逦^逡逑、逦'(^clud?)逦JT—^邋{.ndudeO^逦、逡逑图3-1系统用例图逡逑Figure邋3-1邋System邋Use邋Case邋Diagram逡逑根据上述的业务场景分析,本搜索引擎的设计目标是:改善传统搜索引擎,提逡逑高用户的满意程度。主要分为以下几点:逡逑(1)

【参考文献】

相关期刊论文 前9条

1 李佳;陈亚军;;中文智能搜索引擎技术研究[J];软件导刊;2015年07期

2 张艳辉;刘培玉;;基于互信息的微博新词发现算法[J];科技视界;2015年15期

3 王琳琳;;规则与统计相结合的中文新词识别研究[J];嘉兴学院学报;2014年06期

4 窦晓峰;陈胜;王熠航;麦联叨;由建宏;;应用分布式索引提高海量数据查询性能[J];计算机系统应用;2014年06期

5 霍帅;张敏;刘奕群;马少平;;基于微博内容的新词发现方法[J];模式识别与人工智能;2014年02期

6 陈智鹏;吕玉琴;刘华生;刘刚;屠辉;;基于N-gram统计模型的搜索引擎中文纠错[J];中国电子科学研究院学报;2009年03期

7 管建和;甘剑峰;;基于Lucene全文检索引擎的应用研究与实现[J];计算机工程与设计;2007年02期

8 苏菲,王丹力,戴国忠;基于标记的规则统计模型与未登录词识别算法[J];计算机工程与应用;2004年15期

9 欧振猛,余顺争;中文分词算法在搜索引擎应用中的研究[J];计算机工程与应用;2000年08期

相关硕士学位论文 前7条

1 王欣;微博新词发现及新词情感极性判断方法[D];重庆师范大学;2018年

2 齐爽;基于新词发现的微博文本情感倾向性分析研究[D];杭州电子科技大学;2018年

3 沈健;基于统计模型的搜索引擎查询纠错系统[D];大连理工大学;2017年

4 曾亚飞;基于Elasticsearch的分布式智能搜索引擎的研究与实现[D];重庆大学;2016年

5 张高伟;基于ElasticSearch的分布式视频垂直搜索引擎的设计与实现[D];哈尔滨工业大学;2014年

6 孙善禄;搜索引擎纠错算法研究与纠错Bad Case挖掘[D];大连理工大学;2013年

7 韩冰;垂直搜索引擎个性化推荐研究与应用[D];大连理工大学;2009年



本文编号:2747890

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2747890.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户79ff8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com