基于Hadoop的分布式商品搜索引擎设计与实现
本文关键词:基于Hadoop的分布式商品搜索引擎设计与实现,由笔耕文化传播整理发布。
【摘要】:近年来,在电商领域中各种各样的网购平台发展迅速,网上购物已成为许多人选购商品的基本途径。同时随着C2C经营模式的普及,越来越多的人纷纷在网上开店,网购平台上每时每刻都有新商家入驻,商品上下架,伴随着海量的商品信息更新。如何实时准确地收集并更新大量数据,怎样让消费者在网购平台快速找到自己心目中的商品,这些问题使网购平台所使用的商品搜索引擎面临着巨大挑战。目前市上的搜索引擎很多都采用相同的架构——集中式架构,即搜索引擎所有构建都集中搭建在一台机器上,导致引擎对单节点机器硬件设备要求很高,而且系统的稳定性、移植性都很难得到保证。为了克服这个缺点就不得不采购极为昂贵的高性能计算机,这对搜索服务提供商来说是一笔较大的资金投入。本文在电商门户网站的平台上提出了一个在电商垂直领域上的分布式商品搜索引擎(下文简称引擎)。该引擎包含建立索引,查询数据,集群管理,服务管理,集群监控等功能,不包括信息数据爬取步骤。该分布式搜索引擎预计为国内某网购平台提供查询服务,它由多个团队人员协同设计开发完成。相比现有的众多搜索引擎,本文提出的基于Hadoop的分布式商品搜索引擎能够在消耗更少机器资源的情况下提供更多数量级(数十亿商品)的快速检索服务。针对某些数量巨大,被高频率反复搜索的商品,本文也提出了截断索引等思想,完美的解决了因商品倒排链过长而导致的检索缓慢难题,同时该产品有很好的扩展性,能支持多种搜索业务,产品原始文档Key-value格式的字段设计使其不但能为电商门户网站提供高效的检索服务,还能作为通用的网页搜索引擎使用。
【关键词】:垂直搜索 索引 搜索引擎 分布式计算 商品搜索
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.52;TP391.3
【目录】:
- 摘要4-5
- ABSTRACT5-9
- 第1章 绪论9-14
- 1.1 商品搜索引擎搜索简介9
- 1.2 商品搜索国内外研究现状9-13
- 1.3 本文组织结构13-14
- 第2章 需求分析与总体设计14-25
- 2.1 需求分析14-18
- 2.1.1 产品需求背景14-15
- 2.1.2 产品目标15
- 2.1.3 产品用户群体15-16
- 2.1.4 产品功能需求16-17
- 2.1.5 产品非功能需求17-18
- 2.2 总体设计18-23
- 2.2.1 引擎基本原理18-19
- 2.2.2 引擎功能结构19-20
- 2.2.3 引擎数据分配机制20-21
- 2.2.4 引擎检索机制21
- 2.2.5 引擎数据流机制21-22
- 2.2.6 分布式索引22-23
- 2.3 本章小结23-25
- 第3章 商品搜索引擎模块设计25-68
- 3.1 引擎词典设计25-28
- 3.1.1 词典结构25-26
- 3.1.2 多模式串匹配算法26-28
- 3.2 正排索引28-40
- 3.2.1 正排简介28
- 3.2.2 索引结构28-32
- 3.2.3 索引建立流程32
- 3.2.4 数据查询32-33
- 3.2.5 正排读取流程33-34
- 3.2.6 索引更新34
- 3.2.7 正排设计34-38
- 3.2.8 索引建立交互流程38-40
- 3.3 倒排索引40-49
- 3.3.1 倒排简介40
- 3.3.2 倒排结构40-43
- 3.3.3 倒排压缩43-44
- 3.3.4 截断索引44
- 3.3.5 分布式索引建立44-49
- 3.4 参数解析模块49-58
- 3.4.1 模块简介49-50
- 3.4.2 设计目标50
- 3.4.3 参数形式50-51
- 3.4.4 设计思路51-52
- 3.4.5 详细接口52-54
- 3.4.6 流程设计54-55
- 3.4.7 配置举例55-56
- 3.4.8 参数解析56-58
- 3.5 排序模块58-67
- 3.5.1 排序简介58-59
- 3.5.2 设计原则59-60
- 3.5.3 详细设计60-67
- 3.5.4 分布式排序67
- 3.6 本章小结67-68
- 第4章 系统测试与分析68-75
- 4.1 实验环境68
- 4.2 查询功能测试68-72
- 4.2.1 正常查询68-70
- 4.2.2 容错查询70-71
- 4.2.3 过滤查询71-72
- 4.3 测试数据分析72-73
- 4.4 本章小结73-75
- 结论75-76
- 参考文献76-80
- 致谢80-81
- 个人简历81
【相似文献】
中国期刊全文数据库 前10条
1 逄利华;张锦春;;基于Hadoop的分布式数据库系统[J];办公自动化;2014年05期
2 郑玮;;Hadoop释放大数据潜能[J];软件和信息服务;2012年10期
3 刘尔凯;崔振东;;基于HADOOP技术 实现银行历史数据线上化研究[J];金融电子化;2014年01期
4 邹群;;一种基于Hadoop的数字图书存储系统设计方案[J];黑龙江史志;2014年01期
5 谌章义;毕伟;向万红;王国安;吴爱国;;基于Hadoop的海量电费数据处理模型[J];计算机系统应用;2014年05期
6 ;大数据不等于Hadoop[J];办公自动化;2014年06期
7 ;保障Hadoop数据安全的十大措施[J];计算机与网络;2013年08期
8 王峰;雷葆华;;Hadoop分布式文件系统的模型分析[J];电信科学;2010年12期
9 苏小会;何婧媛;;Hadoop中任务调度算法的改进[J];电子设计工程;2012年22期
10 林伟伟;;一种改进的Hadoop数据放置策略[J];华南理工大学学报(自然科学版);2012年01期
中国重要报纸全文数据库 前8条
1 本报记者 郭涛;机器大数据也离不开Hadoop[N];中国计算机报;2013年
2 本报记者 王星;Hadoop引发大数据之战[N];电脑报;2012年
3 本报记者 邹大斌;Hadoop一体机降低大数据门槛[N];计算机世界;2012年
4 孙定;云计算、大数据与Hadoop[N];计算机世界;2011年
5 乐天 编译;Hadoop:打开大数据之门的金钥匙[N];计算机世界;2012年
6 范范 编译;Hadoop用户可以使用多种搜索引擎[N];网络世界;2013年
7 波波 编译;Hadoop、Web 2.0为磁带带来新商机[N];网络世界;2013年
8 本报记者 郭涛;让更多人能够使用Hadoop[N];中国计算机报;2012年
中国博士学位论文全文数据库 前1条
1 宋亚奇;云平台下电力设备监测大数据存储优化与并行处理技术研究[D];华北电力大学(北京);2016年
中国硕士学位论文全文数据库 前10条
1 刘君;基于Hadoop技术的气象数据采集及数据挖掘平台的研究[D];天津理工大学;2015年
2 谭旭;基于物流数据的快递网络分析与建模[D];浙江大学;2015年
3 赵伟;基于Hadoop的数据挖掘算法并行化研究[D];西南交通大学;2015年
4 赵振崇;基于Hadoop的决策树挖掘算法的研究[D];兰州大学;2015年
5 郭凯振;基于Hadoop的分布式计算系统的设计与实现[D];大连海事大学;2015年
6 白亮;基于Hadoop的民航高价值旅客发现方法研究[D];中国民航大学;2015年
7 席屏;基于Hadoop的视频大数据智能预警系统应用研究[D];江苏科技大学;2015年
8 董立明;基于HADOOP的分布式推荐引擎[D];复旦大学;2013年
9 陆艺达;基于Hadoop分布式计算框架的垃圾短信群发检测系统[D];复旦大学;2013年
10 沈德利;基于Hadoop的密文检索关键技术研究[D];西安电子科技大学;2014年
本文关键词:基于Hadoop的分布式商品搜索引擎设计与实现,,由笔耕文化传播整理发布。
本文编号:501335
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/501335.html