电商流量大数据处理系统设计与开发
本文关键词: Hadoop Elasticsearch 数据处理 电商流量 出处:《浙江工业大学》2016年硕士论文 论文类型:学位论文
【摘要】:计算机技术的发展和互联网的日益普及,使得电子商务飞速发展,电商企业不断涌现,用户数量成倍增加,导致电商网站的多源流量数据也随之快速攀升。传统的电商流量数据处理方式存储数据量有限,支持的数据源格式少,亟需引入现代化的电商流量大数据处理系统,以满足企业流量数据处理的需求。论文基于Hadoop技术和Elasticsearch技术,设计并开发电商流量大数据处理系统,实现海量电商流量原始数据的快速提取、转化、加载和管理,最终计算得到电商网站的页面点击量、独立访客数、页面转化率、页面跳出率、页面导出率等流量指标。论文主要工作如下:1.在文献查阅的基础上,综述了论文研究背景与意义,以及电商流量数据处理的国内外现状,详细介绍Elasticsearch中的搜索引擎Lucene和分布式存储技术、ETL技术中的分布式文件存储系统HDFS和编程模型MapReduce以及开源框架SpringMVC、Spring和Mybatis技术。2.从市场需求、社会经济效益、功能需求等方面对系统进行总体分析,基于原始数据ETL模块和流量统计服务模块的详细需求分析,设计系统的数据导入、数据ETL、数据管理和参数统计四个功能模块,并详细介绍了各个模块的功能。3.原始数据ETL系统采用Hadoop集群中的分布式文件系统HDFS存储数据,采用MapReduce编程模型处理流量数据,同时支持Oracle、MySql和PostgreSql等关系型数据库、数据接口以及其它类型的原始数据源的处理。4.流量统计服务系统采用Elasticsearch集群作为流量数据源,可根据需要进行集群扩容,采用Oracle数据库存储系统常规数据,采用SSM框架搭建系统后台,采用Bootstrap、Jquery和Ajax等技术进行前端开发。5.原始数据ETL系统实现原始流量数据的提取、处理和管理,以及将处理后的流量数据导入到Elasticsearch集群中;流量统计服务系统基于Elasticsearch集群中的流量数据和Oracle数据库中的常规数据实现了多种流量参数的统计,同时实现了人员管理、流量报警和定时邮件等常用功能。目前,电商流量大数据处理系统已经在国内某著名大型电商企业投入运营,系统运行稳定、反应良好。
[Abstract]:With the development of computer technology and the increasing popularity of the Internet, e-commerce has developed rapidly, e-commerce enterprises have been emerging, and the number of users has multiplied. As a result, the multi-source traffic data of e-commerce websites is also rising rapidly. Traditional e-commerce traffic data processing methods have limited storage data and less data source formats, so it is urgent to introduce a modern e-commerce traffic big data processing system. In order to meet the demand of enterprise traffic data processing, based on Hadoop technology and Elasticsearch technology, this paper designs and develops an e-commerce traffic big data processing system, which can quickly extract, transform, load and manage the raw data of mass e-commerce traffic. Finally, we calculate the number of page hits, number of independent visitors, page conversion rate, page jump rate, page export rate, etc. The main work of this paper is as follows: 1. On the basis of literature review, the main work of this paper is as follows: 1. This paper summarizes the research background and significance of the paper, as well as the domestic and foreign status of e-commerce traffic data processing. This paper introduces in detail the search engine Lucene in Elasticsearch, the distributed file storage system HDFS and programming model MapReduce in distributed storage technology, and the open source framework Spring Lucene and Mybatis technology. 2. Based on the detailed requirement analysis of the original data ETL module and the flow statistics service module, the design of the system data import, data ETL, data management and parameter statistics four functional modules, The function of each module is introduced in detail. The original data ETL system uses HDFS, a distributed file system in Hadoop cluster to store data, uses MapReduce programming model to process traffic data, and supports relational databases such as Oracle SQL and PostgreSql. Data interface and other types of original data source processing .4.The traffic statistics service system uses Elasticsearch cluster as the traffic data source, can expand the capacity of the cluster according to the need, and uses the Oracle database to store the conventional data of the system. SSM framework is used to build the background of the system, and Bootstrapper Jquery and Ajax are used to develop the front-end. 5.The raw data ETL system can extract, process and manage the original traffic data, and import the processed traffic data into the Elasticsearch cluster. The traffic statistics service system realizes the statistics of various traffic parameters based on the traffic data in the Elasticsearch cluster and the regular data in the Oracle database. At the same time, it realizes the common functions such as personnel management, traffic alarm and regular mail. The e-commerce flow big data processing system has been put into operation in a famous domestic e-commerce enterprise. The system runs stably and responds well.
【学位授予单位】:浙江工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13;TP274
【相似文献】
相关期刊论文 前10条
1 杨则正;生产数据处理系统的可供选择方案[J];管理科学文摘;1996年11期
2 任仓钰;尹和平;;测绘数据处理系统介绍[J];工程地质计算机应用;2000年02期
3 张建文,汤军社,李险峰;炉温均匀性测试数据处理系统的设计与实现[J];机械与电子;2004年09期
4 夏小群;陈国定;王建磊;徐凯;;基于商业软件连接的数据处理系统研究[J];机械设计与制造;2005年12期
5 陈金刚;舒攀;;高校网上录取数据处理系统的设计与实现[J];广西工学院学报;2007年02期
6 李春;何洪林;刘敏;苏文;伏玉玲;张雷明;温学发;于贵瑞;;ChinaFLUX CO_2通量数据处理系统与应用[J];地球信息科学;2008年05期
7 马辉;;招生数据处理系统的设计与实现[J];安徽电子信息职业技术学院学报;2009年04期
8 潘龙翔;;航空数据处理系统现状综述[J];火控技术;1985年01期
9 刘育刚;;机关事务数据处理系统的设计与实现[J];哈尔滨船舶工程学院学报;1986年S1期
10 王树棠;;用微机实现数据处理系统的途径[J];强度与环境;1986年01期
相关会议论文 前10条
1 牟其铎;张雁如;陈强;刘淳;黄俊秋;;地震报告数据处理系统[A];1991年中国地球物理学会第七届学术年会论文集[C];1991年
2 朱新河;严新平;萧汉梁;;计算机辅助油液监测数据处理系统[A];第二届全国青年摩擦学学术会议论文专辑[C];1993年
3 郭丰宇;;数据处理系统的测试与安全性问题[A];第三次全国计算机安全技术交流会论文集[C];1988年
4 张增珧;俞君;岳健;杨晓萍;;低成本高性能的NMR数据处理系统的开发研究[A];第七届全国波谱学学术会议论文摘要集[C];1992年
5 刘云生;代一尘;邓华锋;;流数据处理系统自适应机制研究[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
6 安艳辉;谢飞;付洪波;;基于CAD平台的城市部件普查数据处理系统研究[A];地理信息与物联网论坛暨江苏省测绘学会2010年学术年会论文集[C];2010年
7 彭宇;邹向荣;杨悦;;招生数据处理系统的研究与实现[A];中国高等教育学会教育信息化分会第十次学术年会论文集[C];2010年
8 左炜;王殊;刘富明;;分布式光纤传感器中的数据处理系统[A];四川省通信学会2005年学术年会论文集[C];2005年
9 程东;严志军;朱新河;王宏志;;船舶机械油液检测数据处理系统分析及设计[A];中国航海学会船舶机电专业委员会2000年度学术报告会论文集[C];2000年
10 甄刚;史光平;;天津VTS新开发的船舶数据处理系统(SDPS)[A];中国航海学会航标专业委员会第七届大会论文集[C];2003年
相关重要报纸文章 前5条
1 周谷风;德国海量数据处理系统创低能耗纪录[N];中国高新技术产业导报;2010年
2 邝宁华;普查系统用过不再扔掉[N];中国计算机报;2006年
3 黄勇 杨晓萍;大型桥梁有了健康档案[N];中华建筑报;2002年
4 见习记者 童超;自主可控 国产厂商特色化服务受青睐[N];政府采购信息报;2014年
5 魏杰;录井数据处理系统软件通过专家评审[N];中国石油报;2004年
相关硕士学位论文 前10条
1 安云凤;基于云计算的氋铁数据处理系统的设计与实现[D];西南交通大学;2015年
2 郭永刚;海洋环境监测数据处理系统的设计与实现[D];哈尔滨工业大学;2015年
3 柳春;视频会议客户端数据处理系统设计与实现[D];中国科学院研究生院(沈阳计算技术研究所);2015年
4 沈海石;雅科公司振动测试与数据处理系统设计与实现[D];大连理工大学;2015年
5 刘宝军;基于虚拟仪器的被动水声跟踪数据处理系统[D];电子科技大学;2015年
6 邱奕炜;桂林市自动气象站数据处理系统的设计与实现[D];电子科技大学;2015年
7 丁铁凡;基于云计算的医疗数据处理系统的关键技术研究[D];华北理工大学;2015年
8 周圣添;商业银行审计信息数据处理系统的设计与实现[D];山东大学;2015年
9 暴春;基于IDL语言的海表温度船测数据处理系统设计与实现[D];中国海洋大学;2015年
10 程辙;基于任务的海量保险数据处理系统设计与实现[D];南京大学;2016年
,本文编号:1532177
本文链接:https://www.wllwen.com/jingjilunwen/jiliangjingjilunwen/1532177.html