基于Spark电商用户行为数据的分析与研究

发布时间:2022-02-16 11:27
  随着时代的进步和发展,数据对我们来说越来越重要。大数据的到来创新了计算机和其他行业的技术,将我们带入了大数据的时代。由于电商的发展迅速,现在很多的电商平台也使用了大数据技术或者是云计算来进行数据管理[1]。当下使用最多的大数据框架有Hadoop和Spark,通过从电商平台获得到的用户行为数据进行分析,从而猜测和推荐用户的喜好商品,满足用户的需求。因此了解用户的行为,是电商行业发展的必要条件。本文是基于大数据角度来进行分析的,数据是通过相关平台的运营商提供的真实的数据,把这些得到的数据进行处理、挖掘以及分析并且得到相对应的结果。通过分析用户的行为,运用均值聚类算法、朴素贝叶斯方法、决策树算法等方法的结合将这些数据进行整合分类,电商平台根据这些分类的数据预测出用户喜爱偏好的商品,可以更加有针对性的为用户提供相应的商品,节省彼此的时间。本论文主要研究工作如下:(1)本文从电商用户行为数据的预处理,用户行为特征数据挖掘和用户行为分析三个方面入手,对用户数据进行分类,通过分类来分别对数据进行分析,得到结果。(2)处理数据的过程中会有一些冗余的数据,首先要去除分离这些数据,以... 

【文章来源】:沈阳师范大学辽宁省

【文章页数】:57 页

【学位级别】:硕士

【文章目录】:
中文摘要
Abstract
第1章 引言
    1.1 课题研究背景
    1.2 国内外研究现状
    1.3 课题研究目的及意义
        1.3.1 研究目的
        1.3.2 研究意义
    1.4 课题研究主要内容及创新点
        1.4.1 研究主要内容
        1.4.2 论文创新点
第2章 大数据分析工具的介绍
    2.1 分布式系统
        2.1.1 分布式与集中式
        2.1.2 分布式与计算机网络
        2.1.3 分布式系统层次结构
        2.1.4 分布式系统分类
    2.2 Hadoop
    2.3 Spark
    2.4 Hadoop与 Spark的对比
    2.5 本章小结
第3章 电商用户行为数据的来源分析
    3.1 用户行为分析的目的
    3.2 用户的类型分析
        3.2.1 用户行为分类
        3.2.2 新增用户和总用户分析
        3.2.3 活跃用户分析
    3.3 电商平台数据分析
        3.3.1 订单分析
        3.3.2 事件分析
        3.3.3 会话分析
    3.4 网络数据分析
        3.4.1 浏览器PV分析
        3.4.2 地域信息分析
        3.4.3 外链信息分析
    3.5 本章小结
第4章 涉及的算法以及分析过程的研究
    4.1 聚类分析算法
    4.2 K-means聚类算法
    4.3 决策树算法
    4.4 朴素贝叶斯方法
    4.5 电商用户行为数据的分析过程
        4.5.1 数据的预处理阶段
        4.5.2 数据挖掘阶段
        4.5.3 数据分析阶段
    4.6 本章小结
第5章 用户行为数据分析结果的研究与评估
    5.1 Spark的环境搭建
        5.1.1 安装Spark
        5.1.2 Spark SQL
        5.1.3 Spark整合hive
    5.2 用户行为数据的获取
    5.3 聚类算法与决策树算法分类数据
        5.3.1 聚类算法对数据初步分类
        5.3.2 决策树算法对数据细化分类
    5.4 用户行为数据的特征加权分析结果与评估
    5.5 本章小结
第6章 总结与展望
    6.1 本文总结
    6.2 研究展望
参考文献
致谢
个人简历


【参考文献】:
期刊论文
[1]基于用户行为数据分析的个性化推荐算法分析[J]. 皇甫汉聪,肖招娣.  电子设计工程. 2019(07)
[2]基于机器学习及电商数据预测用户行为[J]. 周志远.  通讯世界. 2019(03)
[3]Spark平台下关联规则算法的优化实现[J]. 梁瑷云,袁丁,严清,刘小久.  计算机工程与设计. 2018(12)
[4]一种Spark下分布式DBN并行加速策略[J]. 黄震,钱育蓉,于炯,英昌甜,赵京霞.  微电子学与计算机. 2018(11)
[5]基于XGBoost算法的用户行为预测与风险分析[J]. 邱耀,杨国为.  工业控制计算机. 2018(09)
[6]基于Apache Spark的大数据分析引擎应用研究[J]. 王军.  电子测试. 2018(16)
[7]基于Spark的移动用户行为轨迹大数据分析[J]. 张嘉诚,张晓滨.  西安工程大学学报. 2018(03)
[8]基于Pyspark平台的协同过滤推荐算法应用与实现[J]. 许文英,向强.  西南民族大学学报(自然科学版). 2018(02)
[9]基于Spark的蚁群算法在物流配送路径优化问题中的应用研究[J]. 郭宝恩.  信息与电脑(理论版). 2018(03)
[10]基于RDD关键度的Spark检查点管理策略[J]. 英昌甜,于炯,卞琛,王维庆,鲁亮,钱育蓉.  计算机研究与发展. 2017(12)

博士论文
[1]基于MapReduce大数据并行处理的若干关键技术研究[D]. 张滨.东华大学 2017
[2]面向农业领域的大数据关键技术研究[D]. 郭雷风.中国农业科学院 2016

硕士论文
[1]基于Spark分布式的关联挖掘优化研究与综治决策应用[D]. 黄祖邦.东华理工大学 2019
[2]基于考试成绩得分的知识点关联关系分析研究[D]. 吴雅锋.华中科技大学 2019
[3]基于Spark增量聚类的投资组合推荐系统的研究与实现[D]. 赵瑞珠.黑龙江大学 2019
[4]基于异构Spark集群的分区动态负载调度算法研究[D]. 朱迅.电子科技大学 2019
[5]基于电商平台的大数据技术设计与研究[D]. 丁一.武汉工程大学 2018
[6]大数据下的用户金融肖像模型及其反馈演化机制研究[D]. 朱建楠.兰州交通大学 2018
[7]基于Spark的三支决策聚类集成方法研究[D]. 陈云.重庆邮电大学 2018
[8]基于聚类分析和决策树算法的案件分析挖掘[D]. 王健豪.江苏科技大学 2018
[9]基于Web日志的用户行为大数据分析[D]. 宋芷萱.沈阳师范大学 2018
[10]大数据视角下的相关性思维研究[D]. 张明成.太原科技大学 2018



本文编号:3627881

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3627881.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户23347***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com