当前位置:主页 > 科技论文 > 软件论文 >

数据驱动的连锁超市销售数据分析与系统设计

发布时间:2021-08-28 05:36
  对于传统零售业来说,销售是决定其能否成功的要素之一。近年互联网的疾速发展使得销售数据规模和种类急剧增长,依靠传统的人为分析海量销售数据从而决策的方式越来越无法满足企业的高效率要求,将销售数据分析与数据挖掘进行结合成为必然。因此,本文针对连锁超市的销售提出了销售异常发现与定位模型和销售预测模型,并在Hadoop云计算平台的Spark分布式处理框架下实现模型,最后设计开发原型系统展示相关数据和结果,为企业的高效决策提供了数据支持。销售数据由于受到节假日等因素影响而在一定程度上不具备可比性,采用传统异常检测方法的检测结果并不理想。对于连锁超市而言,检测异常和定位异常,实现责任到人都是其重要需求,因此针对销售数据的异常发现与定位方法成为一大难题。于是本文提出了异常发现与定位模型,模型首先根据连锁超市的管理模式将数据划分为四个层次,然后将每个层次的原始销售数据曲线转换为权重曲线使得数据具有一定程度的可比性,再进行异常发现并通过建立概率模型实现异常定位,最终实现责任到人。该模型在异常定位方面具有创新性,另外结合步步高连锁超市历史销售数据,该模型在检测异常的正确率和召回率方面也具有一定优势。无论企业... 

【文章来源】:湖南科技大学湖南省

【文章页数】:69 页

【学位级别】:硕士

【部分图文】:

数据驱动的连锁超市销售数据分析与系统设计


全局离群点与局部离群点分布

离群点,集体


湖南科技大学硕士学位论文-7-异都会导致消费金额、消费频率的不同,因此首先指定情境,比如说先将人群分类再进行检测会更加有效。情境离群点分析更加灵活,在许多应用中会更加适用。(3)单属性离群点和多属性离群点离群点根据考虑在内的属性数量可划分为单属性离群点和多属性离群点。单属性离群点是指仅通过一个属性来判断检测离群点,比如仅按身高来划分人群,那么身高3米的则是离群点。多属性离群点通过多个属性判断检测离群点。比如按照身高和体重共同划分人群,那么1.5米高和300斤重的人很多,但既1.5米高又体重达到300斤的人则是离群点。(4)集体离群点顾名思义,当一些样本点的集合在整体上表现为偏离于整个数据集时则称之为集体离群点。比如对物流公司来说,每天有大量的配送货车从仓库出发,一辆配送货车的延误现象相对而言是正常的,但如果某一天几十辆甚至上百辆货车延误,那么这些货车整体来看就形成了离群点。集体离群点分布如图2.2所示,C2显著偏离了整个数据集,为集体离群点。图2.2集体离群点分布Fig.2.2Distributionofoutliercluster2.2.2异常检测方法异常检测本质上就是对离群点的挖掘,目前离群点挖掘方法[45]很多,大致分为以下五类:(1)基于分布的方法假设给定的数据集符合某种概率分布模型(例如正态分布)或利用给定的数据集自动构造其概率分布模型,然后根据分布模型采用不一致性检验来确定离群点[45,46]。较为常见的有正态分布和盒图等。但该方法的缺点在于对模型的依赖度较高,因为大多数场景下

曲线,时间序列数据


13-第三章销售异常发现与定位模型3.1问题引入异常检测有利于连锁超市两个方面的决策。一方面,为连锁超市根据历史销售进行奖惩决策提供数据支撑;另一方面,为未来销售的相关营销策略提供数据支持。异常检测是可用于支持连锁超市相关决策的一大方向。零售业数据量庞大,及时发现销售收入状况的异常并对其进行准确定位是极为重要的。零售业的销售总会被各种因素影响而导致销售数据在不同时间所具有的属性并不完全一致,从而致使其失去可比性,采用一般的离群点检测方法无法直接进行数据分析或使分析结果准确率降低。以图3.1为例,当采用普通离群点检测方法时,图中的许多峰值由于明显偏离于其他点且数量极少都将被检测为离群点,或由这些点构成离群簇。但如果这些数据为销售收入数据并按照时间排序,那么显然这些峰值在时间上具有规律性,这些峰值所在时间可能都是同一特殊日期,也就是说在这一时间上数值理应增长,那么这些峰值与其它数值就不具备可比性,这种现象在销售情境下也并不能称之为异常。于是,本章提出了基于权重处理销售数据的异常挖掘模型,即销售异常发现与定位模型(AnomalyDetectingandLocatingModel,ADLM),它一定程度上解决了数据可比性的问题后,通过离群点检测实现异常发现,最后实施对异常数据的定位,与以往直接进行数据分析、仅挖掘异常数据的方法相比具有创新和实用意义。该模型包含三个部分:划分层次、异常发现和异常定位。划分层次后首先针对每一层面进行异常发现与定位,异常发现通过权重曲线和异常判断挖掘出所有销售异常数据。然后将四个层面的分析有机结合实现异常定位。由于连锁超市销售数据量庞大,整个模型在Hadoop云计算平台的Spark框架下处理实现。图3.1时间序列数据Fig.3.1Timeseriesdata

【参考文献】:
期刊论文
[1]基于多维灰色模型及神经网络的销售预测[J]. 黄鸿云,刘卫校,丁佐华.  软件学报. 2019(04)
[2]基于概率统计模型的电力IT监控对象特征异常检测[J]. 卫薇,龙玉江,钟掖.  山东农业大学学报(自然科学版). 2019(04)
[3]基于主成分分析的实时全网络异常检测方法[J]. 张天奇,张顺康.  电子科技. 2019(12)
[4]基于数据挖掘的电网企业收入预算预测系统研究[J]. 赖婧,欧通泽.  金融经济. 2019(04)
[5]基于改进加权移动平均法的服装销售预测[J]. 陈银光,于守健.  智能计算机与应用. 2018(06)
[6]基于Apache Spark的大数据分析引擎应用研究[J]. 王军.  电子测试. 2018(16)
[7]基于混合式聚类算法的离群点挖掘在异常检测中的应用研究[J]. 尹娜,张琳.  计算机科学. 2017(05)
[8]基于离散灰色预测模型与人工神经网络混合智能模型的时尚销售预测[J]. 刘卫校.  计算机应用. 2016(12)
[9]云计算中Hadoop技术研究与应用综述[J]. 夏靖波,韦泽鲲,付凯,陈珍.  计算机科学. 2016(11)
[10]基于核函数技术的时尚服装需求预测方法[J]. 孟志青,马珂,郑英.  计算机科学. 2016(S2)



本文编号:3367907

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3367907.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8db3b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com