当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于golang的分布式全文检索系统研究与实现

发布时间:2017-12-12 02:02

  本文关键词:基于golang的分布式全文检索系统研究与实现


  更多相关文章: 全文检索 字符串哈希算法 中文分词 golang 分布式


【摘要】:近年来,随着城轨线网规模的扩大,城市轨道交通系统中每天产生的数据量也急剧增长,如何从日积月累的海量数据中快速地获取工作人员所需的信息成为一大挑战。全文检索不同于传统的数据库信息管理技术,其处理的对象是非结构化数据,用户可以通过内容关键字来检索相关的文档,从而高效,多维度的利用信息资源。互联网上蓬勃发展的搜索引擎其核心技术也是全文检索技术,但是出于企业商业信息的安全性等方面来考虑,在互联网上应用良好的搜索引擎比如谷歌、百度、bing等并不能直接应用于企业环境之中,因此需要针对特定的行业建设一套垂直领域的检索系统。本文以城轨线网为背景,针对单机检索系统在处理海量数据时出现的性能瓶颈问题,基于nginx、Flask、wukong等工具和框架,用golang语言设计了一套适用于城轨线网领域的分布式全文检索系统,重点研究了分布式全文检索系统中的字符串哈希算法、中文分词技术、权值问题。本文的主要工作如下:(1)对常用的字符串哈希算法进行了分析和对比后,根据系统应用场景哈希字符串长度短的特点,选用mumurhash3字符串哈希算法来实现分布式检索模型,用于解决单机检索系统性能上的瓶颈。(2)分析对比了几类常见的分词算法,并重点研究了基于统计的分词算法模型:隐马尔可夫模型和条件随机场模型,在此基础上实现了一种基于隐马尔科夫模型加字典的组合分词算法,实验结果表明该分词算法有着良好的切分性能和分词效果。(3)在上述研究的基础上,利用nginx作代理服务器,Flask作为web框架,wukong作为检索引擎,搭建了一套分布式全文检索系统。实验结果表明,该全文检索系统具有良好的性能,在检索方面有着较高的查全率和查准率,并且能够准确及时地为用户提供所需的结果。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3

【参考文献】

中国期刊全文数据库 前10条

1 李智超;熊风;富羽鹏;马少平;;分布式大规模文本检索系统[J];广西师范大学学报(自然科学版);2007年02期

2 吴泽彬;魏洁;李蔚清;吴慧中;;面向服务架构的全文检索研究[J];华中科技大学学报(自然科学版);2007年S1期

3 黄德根;焦世斗;周惠巍;;基于子词的双层CRFs中文分词[J];计算机研究与发展;2010年05期

4 许君;王朝坤;李瑞;王建民;刘璋;;基于内容的分布式FTP搜索引擎的设计与实现[J];计算机研究与发展;2011年S3期

5 朱岸青;黄杰;;基于Lucene的全文检索系统模型的研究和开发[J];暨南大学学报(自然科学与医学版);2009年05期

6 欧振猛,余顺争;中文分词算法在搜索引擎应用中的研究[J];计算机工程与应用;2000年08期

7 张裔智;赵毅;汤小斌;;MD5算法研究[J];计算机科学;2008年07期

8 吴栋,滕育平;中文信息检索引擎中的分词与检索技术[J];计算机应用;2004年07期

9 杨广翔,俞宁,谌莉;搜索引擎结果的重排序方法[J];计算机应用;2005年02期

10 谭文堂;贺明科;李阜;;基于Lucene.Net的分布式全文检索系统[J];计算机应用与软件;2009年09期

中国博士学位论文全文数据库 前1条

1 李志敏;哈希函数设计与分析[D];北京邮电大学;2009年

中国硕士学位论文全文数据库 前3条

1 朱世猛;中文分词算法的研究与实现[D];电子科技大学;2011年

2 徐建军;基于分布对象的WEB计算技术研究与实现[D];西北工业大学;2001年

3 吴海明;基于Lucene的搜索引擎技术的研究与改进[D];暨南大学;2006年



本文编号:1280721

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1280721.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4ee8d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com