基于kafka的电商企业搜索引擎数据综合处理系统的研究与应用
发布时间:2020-05-20 22:00
【摘要】:随着电子商务行业的高速发展,线上与线下加速融合,伴随业务的不断发展,系统中存储的数据量也大幅增长。而对其中的数据,比如商品数据、库存数据、门店数据等多种类数据的汇集、查询、排序、筛选的需求日渐突出。这对企业电商平台的搜索功能提出了更高的要求。构建一个符合企业业务场景的商品搜索引擎,可以大大提升顾客的购物体验,对企业有着重大的战略和实际意义。而数据综合处理系统可以解决商品搜索引擎的数据来源问题,是搜索引擎建设的重要前提。本文旨在基于KAFKA构建一个多源导入的数据综合处理系统,通过对数据的汇集和综合处理,获得满足需要的结构化宽表数据作为计算结果,从而解决电商搜索引擎数据的导入与更新的问题。使得搜索引擎业务能够迅速构建开展。通过研究发现,传统的基于关系型数据库的数据综合处理,在面对业务逻辑复杂、应用规模扩展性方面存在瓶颈。而常见的通用性ETL工具,一方面基于离线场景,数据的实时响应不够,另一方面,可定制性不强,并且需要专业的维护人员,投入成本高。本文从企业的实际需求出发,通过对需求的梳理和筛选,综合项目经济性、人员经济性、项目进度、系统功能完善度、系统扩展性等方面因素,选择了自研数据综合处理系统的方案。首先对需求进行了收集,对系统的周边生态,功能定位进行了定义,同时对系统的非功能性需求进行了确定。进一步的,对数据综合处理的子系统进行了功能定位和边界的划分,明确了每个模块的要求和职责。然后,对数据接收子系统、数据处理子系统、数据提交子系统、任务调度子系统进行了详细设计和实现。通过使用KAFKA、Cassandra、vert.x框架及elastic-job等开源分布式组件的引入,在设计之初,就保证了系统的高性能和可扩展性。同时,设计了应用端统一的系统接收流程规范,从而保证了数据接收的可靠性。通过独特的时间片数据处理机制,发挥了Cassandra、vert.x框架及elastic-job等的特性,使系统可以多类型任务的并行处理,轻量级实现地实现宽表的合并。同时,通过数据接收的顺序性,version的唯一性,解决了任务状态冲突的问题。最后对系统进行了功能性测试和非功能性测试。本文通过对数据综合处理系统研究,发现了目前通用的方案存在的扩展性、实时性、定制性、经济性等问题,通过使用开源分布式组件,自研数据综合处理系统,解决了通用系统在性能和扩展性上的问题,同时,通过设计系统接收流程规范和时间片数据处理机制,增加了系统的可靠性,最终保证了系统的顺利上线。
【学位授予单位】:上海师范大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:F724.6;TP391.3
本文编号:2673258
【学位授予单位】:上海师范大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:F724.6;TP391.3
【参考文献】
相关期刊论文 前4条
1 赵凯;王敏;;基于Solr的企业级搜索引擎的设计[J];电子世界;2013年22期
2 霍庆;刘培植;;使用Solr为大数据库搭建搜索引擎[J];软件;2011年06期
3 安康健;;企业级搜索引擎的“蓝海”[J];上海信息化;2011年06期
4 缪嘉嘉,邓苏,刘青宝;ETL综述[J];计算机工程;2004年03期
,本文编号:2673258
本文链接:https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/2673258.html