当前位置:主页 > 经济论文 > 国际贸易论文 >

基于电商用户消费行为数据的聚类分析

发布时间:2018-05-18 09:18

  本文选题:数据挖掘 + 聚类分析 ; 参考:《兰州大学》2017年硕士论文


【摘要】:随着互联网技术的高速发展,依托于互联网的各种产品给我们的生活带来无限的便利,但随之而来的是信息的爆炸,每天有大量的用户行为数据被收集。面对着这些海量的数据,有效的数据挖掘的工作一方面可以帮助企业深层次的挖掘未知的信息,找到企业新的创收点,另一方面,可以基于用户历史消费行为数据进行个性化服务,从而增加客户粘度。本文基于为电商增加用户粘度的考虑,利用用户消费行为的历史数据进行聚类分析,然后在属于同一群体内的消费者进行分析,挖掘其消费行为的规律,从而达到个性化服务的作用。一般情况下,在对人群进行划分的时候采用聚类算法,这其中K-means聚类算法由于其算法逻辑简单,结果便于解释被广泛的使用。K-means聚类算法通过比较用户距离不同类心的距离,将用户划入不同的类簇,其中,在计算样本相似度时,一般采用的是欧氏距离,欧氏距离没有将样本特征的重要性加以区分,没有考虑样本特征间的差异,这就导致在聚类时信息表达不够准确。为了改进K-means算法中的不足,本文利用信息论中熵的概念,对用户的特征向量进行权值的修改,达到充分描述用户消费行为的作用,此外,还采用了PSO算法优化初始类心的选取。最后,改进后的聚类算法结果表明在该场景下可以显著地提高聚类算法的性能,用户的聚类效果更加显著。
[Abstract]:With the rapid development of Internet technology, a variety of products relying on the Internet bring us unlimited convenience in our lives, but with the explosion of information, a large number of user behavior data are collected every day. In the face of these huge amounts of data, effective data mining can help enterprises to mine unknown information and find new income points on the one hand, on the other hand, Personalized services can be provided based on historical consumer behavior data, thereby increasing customer viscosity. Based on the consideration of increasing user viscosity for e-commerce, this paper uses the historical data of consumer behavior to cluster analysis, and then analyzes the consumers belonging to the same group, and excavates the rules of consumer behavior. In order to achieve the role of personalized services. In general, the clustering algorithm is used when dividing the crowd, in which the K-means clustering algorithm is easy to explain by comparing the distance between the user and different centers because of the simple logic of the algorithm, and the result is convenient to explain the widely used .K-means clustering algorithm by comparing the distance between the user and the center of the cluster. Users are grouped into different clusters, in which Euclidean distance is generally used in calculating sample similarity. Euclidean distance does not distinguish the importance of sample features and does not consider the differences between sample features. This leads to inaccurate information expression in clustering. In order to improve the deficiency of K-means algorithm, this paper uses the concept of entropy in information theory to modify the weight of the user's eigenvector to fully describe the user's consumption behavior. In addition, the PSO algorithm is used to optimize the selection of the initial class center. Finally, the improved clustering algorithm results show that the performance of the clustering algorithm can be significantly improved in this scenario, and the clustering effect of users is more significant.
【学位授予单位】:兰州大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13;F713.55

【参考文献】

相关期刊论文 前10条

1 殷瑞刚;魏帅;李晗;于洪;;深度学习中的无监督学习方法综述[J];计算机系统应用;2016年08期

2 庄池杰;张斌;胡军;李秋硕;曾嵘;;基于无监督学习的电力用户异常用电模式检测[J];中国电机工程学报;2016年02期

3 李涛;曾春秋;周武柏;周绮凤;郑理;;大数据时代的数据挖掘——从应用的角度看大数据挖掘[J];大数据;2015年04期

4 贾真;何大可;尹红风;李天瑞;;基于无监督学习的部分-整体关系获取[J];西南交通大学学报;2014年04期

5 何清;李宁;罗文娟;史忠植;;大数据下的机器学习算法综述[J];模式识别与人工智能;2014年04期

6 吉根林;赵斌;;面向大数据的时空数据挖掘综述[J];南京师大学报(自然科学版);2014年01期

7 王梦雪;;数据挖掘综述[J];软件导刊;2013年10期

8 刘滨;;分布式数据挖掘综述[J];河北科技大学学报;2014年01期

9 贺瑶;王文庆;薛飞;;基于云计算的海量数据挖掘研究[J];计算机技术与发展;2013年02期

10 李明江;唐颖;周力军;;数据挖掘技术及应用[J];中国新通信;2012年22期

相关博士学位论文 前6条

1 朱林;基于特征加权与特征选择的数据挖掘算法研究[D];上海交通大学;2013年

2 白雪;聚类分析中的相似性度量及其应用研究[D];北京交通大学;2012年

3 周世兵;聚类分析中的最佳聚类数确定方法研究及应用[D];江南大学;2011年

4 王骏;无监督学习中聚类和阈值分割新方法研究[D];南京理工大学;2011年

5 赵恒;数据挖掘中聚类若干问题研究[D];西安电子科技大学;2005年

6 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年

相关硕士学位论文 前5条

1 崔广风;数据挖掘中的统计方法及其应用研究[D];西南石油大学;2014年

2 侯丹丹;基于属性权重的聚类算法研究[D];河北工业大学;2011年

3 许丽利;聚类分析的算法及应用[D];吉林大学;2010年

4 李丹丹;基于权重设计的聚类融合算法研究及应用[D];辽宁工程技术大学;2009年

5 郭军华;数据挖掘中聚类分析的研究[D];武汉理工大学;2003年



本文编号:1905288

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/1905288.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9a76b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com