某医药流通企业销售数据的统计特征提取K-means聚类的实证研究
本文关键词:某医药流通企业销售数据的统计特征提取K-means聚类的实证研究 出处:《华南理工大学》2015年硕士论文 论文类型:学位论文
更多相关文章: 销售数据 统计特征 指标体系 聚类分析 R语言
【摘要】:某医药流通公司(简称A公司)是一家集科研、生产、销售为一体的大型医药流通企业,每年所经营商品有六千多种,企业内部缺乏统一、科学管理,采购数量主要是靠经验、凭感觉,近年库存积压严重。A公司数据库中拥有大量经营数据,但目前数据利用率非常低,“数据丰富、信息匮乏”,A公司所经营商品种类繁多,异常销量高,增加了销售预测和统一管理的难度。本文以A公司2012年所有在营商品每周销量为研究对象,首先从A公司6837种商品的销售数据的集中程度、波动情况、分布状况、销售曲线形状、盈利能力、季节性等维度对A公司所有在营商品的统计特征进行一次探索性分析,发现A公司商品平均销量差异大、大异常值比例高、小异常值比例低、销量为0的周数比例高,商品生命周期难以界定,盈利能力各不相同、部分商品销量存在很强的季节性。基于A公司商品销售数据的集中程度、分布情况、异常情况、缺失情况、季节因素、盈利能力等方面,选取和构建统计指标,并建立了一个销售数据的特征指标体系,该体系可帮助企业经营者快速掌握商品的销售特性。进一步,基于时间序列聚类的思想对特征指标体系中的部分统计指标进行K-means聚类及分析。结果表明,所选统计指标能较好地解释聚类结果,各聚类所反映的商品销售特征可为A公司商品经营提供一定的参考依据和数据支撑,为商品分类管理提供一个研究方向。本文基于箱线图和变异系数,引入箱线系数。箱线系数可以消除商品间箱线图的尺寸和量纲的影响,均值结合箱线系数,可以掌握商品间的销售水平及分别情况。本文K-means算法中,k值的选取是首先将k值限定在n,n为样本数。然后通过计算不同k值对应的类间平方和总量与生成类的总体距离平方和的比值,将比值最大时对应的k值作为聚类数目,该方法可以达到类内紧凑、类间分离的效果。
[Abstract]:A pharmaceutical circulation company (referred to as "A company") is a large pharmaceutical circulation enterprise which integrates scientific research, production and sales. It operates more than 6,000 kinds of commodities every year, and lacks unity and scientific management within the enterprise. The purchase quantity mainly depends on the experience, according to the feeling, in recent years the stock backlog serious. A company database has the massive management data, but at present the data utilization ratio is very low, "the data is rich, the information is scarce". Company A has a wide variety of products and high sales volume, which increases the difficulty of sales forecasting and unified management. This paper takes the weekly sales volume of all the commodities in operation in 2012 as the research object. First, from the A company 6837 commodity sales data concentration, fluctuation, distribution, sales curve shape, profitability. Seasonality and other dimensions of all the company in operation of the statistical characteristics of a exploratory analysis, found that A company's average sales volume difference is large, the proportion of large outliers is high, the proportion of small abnormal value is low. Sales of the number of weeks is high, the commodity life cycle is difficult to define, profitability is different, some of the sales volume has a strong seasonality. Based on the concentration of A company's commodity sales data, distribution. Abnormal situation, missing situation, seasonal factors, profitability and other aspects, select and build a statistical index, and establish a sales data characteristic index system. The system can help business operators to quickly grasp the characteristics of the sale of goods. Based on the idea of time series clustering, the K-means clustering and analysis of some statistical indicators in the characteristic index system are carried out. The results show that the selected statistical indicators can better explain the clustering results. The commodity sales characteristics reflected by each cluster can provide a certain reference basis and data support for A company's commodity management, and provide a research direction for commodity classification management. This paper is based on box diagram and coefficient of variation. The box line coefficient can be used to eliminate the influence of the dimension and dimension of the box line diagram, and the mean value can be combined with the box line coefficient. This paper K-means algorithm in the selection of K value is the first to limit the value of k in n. N is the number of samples. Then, by calculating the ratio of the sum of square between classes corresponding to different k values and the total distance square sum of generated classes, the corresponding k value when the ratio is maximum is taken as the clustering number. This method can achieve the effect of compactness and separation between classes.
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:F426.72;O212.1
【参考文献】
相关期刊论文 前10条
1 马志强;系统的可观测性与不良数据的再估计识别[J];电网技术;1979年02期
2 王莹;李仁旺;李斌;张志乐;;基于CURE算法和C4.5决策树的服装销售预测模型[J];纺织学报;2008年09期
3 于剑,程乾生;模糊聚类方法中的最佳聚类数的搜索范围[J];中国科学E辑:技术科学;2002年02期
4 宁俊举,王伟,于达仁;基于关联规则的时延不良数据检验PCA方法[J];节能技术;2003年06期
5 毛韶阳;李肯立;;优化K-means初始聚类中心研究[J];计算机工程与应用;2007年22期
6 袁方;周志勇;宋鑫;;初始聚类中心优化的k-means算法[J];计算机工程;2007年03期
7 菅志刚,金旭;数据挖掘中数据预处理的研究与实现[J];计算机应用研究;2004年07期
8 贾澎涛;何华灿;刘丽;孙涛;;时间序列数据挖掘综述[J];计算机应用研究;2007年11期
9 赵伟;张姝;李文辉;;改进K-means的空间聚类算法[J];计算机应用研究;2008年07期
10 张小刚,章兢,陈华;模糊时间序列挖掘在复杂系统模糊建模中的应用[J];控制理论与应用;2002年06期
相关博士学位论文 前2条
1 杨风召;高维数据挖掘中若干关键问题的研究[D];复旦大学;2003年
2 何晓旭;时间序列数据挖掘若干关键问题研究[D];中国科学技术大学;2014年
相关硕士学位论文 前4条
1 冯超;K-means聚类算法的研究[D];大连理工大学;2007年
2 吴晓蓉;K-均值聚类算法初始中心选取相关问题的研究[D];湖南大学;2008年
3 陈路莹;高维数据的聚类分析方法研究及其应用[D];厦门大学;2009年
4 苗润华;基于聚类和孤立点检测的数据预处理方法的研究[D];北京交通大学;2012年
,本文编号:1388248
本文链接:https://www.wllwen.com/kejilunwen/yysx/1388248.html