当前位置:主页 > 经济论文 > 国际贸易论文 >

基于数据挖掘的消费者购买预测的研究

发布时间:2017-03-16 16:03

  本文关键词:基于数据挖掘的消费者购买预测的研究,,由笔耕文化传播整理发布。


【摘要】:随着电子商务的发展,网络购物已经成为一种主要的消费模式,相比于线下,线上消费具有价格低廉、品种繁多、比价方便、受营业时间、地域的影响更小等优点。但恰恰是海量的商品信息,更多元的购买选择,使得消费者要从中搜寻到合适的商品需要花费过多的时间和精力。与此同时,电子商务平台上的激烈竞争,使得商家们为了更好地贴近消费者的实际需要,细化了产品需求,这也使每种产品针对的用户范围更狭窄了。如何才能快速有效地从茫茫人海中定位出相应的消费者,并建立更有针对性的营销方案,是电商们在接下来的竞争和发展中,不得不考虑的重要环节。而消费者在电子商务平台上产生了大量的行为数据,使得分析消费者的购买意图和消费习惯成为可能,从而实现一对一的的精准推荐。本文采用天池大数据科研平台提供的真实数据,在用户交互过的商品中,预测哪些商品短期内将会被该用户购买。模型的建立分为四步:第一步是数据的预处理。先探索数据的基本分布情况,对数据进行初步处理。这一步为特征的提取方式以及算法的选取提供参考和依据。第二步是样本的选取。样本数据中,存在着正样本数量过少,且正负样本比例悬殊过大的问题。通过三次处理来解决:首先,通过滑窗构造取样增加正样本的数量。然后,通过对交互行为时效性的分析,压缩了预测期前选取交互样本的时间窗口,降低了正负样本比例。最后,对负样本进行不放回的随机采样,而正样本全部入样。第三步是特征工程。通过多种角度构造出用户(user)特征、商品(item)特征、商品类别(item_category)特征、用户-商品交互(user-item)特征四大特征群。然后采用不同手段加工、扩充已有的特征群:在简单特征的基础上,通过各种变换得到更适用于预测模型的二次特征;在单一特征的基础上,通过各种特征的组合方式得到更能体现数据特点和业务需求的衍生特征。特征是预测模型的自变量,决定了预测模型预测效果的上限,通过尝试不同的算法以及调试参数,可以逼近这个理论上限。第四步是模型训练和预测。本文采用逻辑回归和GBDT分别建立预测模型,通过测试集的验证比较,发现GBDT的预测效果更好。为了进一步提升预测模型的性能,将逻辑回归的结果作为新加入的特征,进入GBDT模型中重新预测,发现预测效果有所提高。分析原因后,发现和GBDT本身就是基于回归树的强分类器的性质有关。最后,本文阐述了该预测模型在电子商务推荐场景中的现实意义,并对该模型进一步提升的方向进行了较为详细的讨论。
【关键词】:推荐系统 特征工程 逻辑回归 GBDT 模型融合
【学位授予单位】:云南财经大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:F713.55
【目录】:
  • 摘要3-5
  • Abstract5-10
  • 第一章 引言10-22
  • 第一节 选题背景10-11
  • 第二节 研究目的和意义11
  • 第三节 文献综述11-13
  • 第四节 推荐系统发展概述13-21
  • 一、基于人口统计学的推荐13
  • 二、基于关联规则的推荐系统13-15
  • 三、基于协同过滤算法的推荐系统15-18
  • 四、基于混合推荐策略构建推荐模型18-19
  • 五、推荐系统的发展趋势19-21
  • 第五节 论文的组织结构21-22
  • 第二章 数据处理22-32
  • 第一节 数据源介绍22-23
  • 第二节 数据探查23-27
  • 一、用户购买商品总数的分布23
  • 二、商品销售数量的分布23-24
  • 四、商品交互过的用户数量的分布24-25
  • 五、用户与商品交互的四种行为分布25
  • 六、三种基本行为导致购买的转化率25-26
  • 七、交易量随时间的分布26-27
  • 第三节 数据清洗27-28
  • 一、噪声来源分析27
  • 二、消除噪声27-28
  • 第四节 样本选取28-32
  • 一、正负样本的设定28-30
  • 二、对正负样本比例不均衡的处理30-32
  • 第三章 特征工程32-41
  • 第一节 特征工程简介32
  • 第二节 特征工程的组成32-36
  • 一、特征提取32-34
  • 二、特征的选择34-36
  • 三、构建特征体系的流程36
  • 第三节 特征设计思路的补充36-38
  • 一、构建商品类别特征36-37
  • 二、商品竞争力特征37
  • 三、商品热卖趋势37
  • 四、双十二的影响37-38
  • 第四节 特征构造展示38-41
  • 一、用户特征38-39
  • 二、商品特征39
  • 三、商品类别特征39-40
  • 四、用户与商品的交互特征40-41
  • 第四章 算法介绍41-45
  • 第一节 逻辑回归算法介绍41-43
  • 第二节 GBDT算法介绍43-45
  • 第五章 实验结果与分析45-55
  • 第一节 模型评价指标45-47
  • 一、混淆矩阵45-46
  • 二、ROC曲线图46-47
  • 第二节 基于逻辑回归的预测模型47-49
  • 一、逻辑回归的参数设置47
  • 二、防止过拟合47-48
  • 三、模型评价48-49
  • 第三节 基于GDBT的预测模型49-51
  • 一、GDBT参数设置49
  • 二、模型评价49-51
  • 第四节 两种模型的比较51-52
  • 一、预测效果的比较51-52
  • 二、时间成本与运算成本的比较52
  • 三、可解释性52
  • 第五节 模型融合52-55
  • 一、模型融合的方式52-53
  • 二、模型评估53
  • 三、模型比较53-55
  • 第六章 总结55-59
  • 第一节 模型在电子商务中的现实意义55-56
  • 第二节 模型改进56-59
  • 参考文献59-62
  • 致谢62

【相似文献】

中国期刊全文数据库 前10条

1 周春平;;收入、收入满意度对居民主观幸福感影响实证研究——来自江苏的证据[J];南京航空航天大学学报(社会科学版);2013年01期

2 刘遵雄;黄志强;郑淑娟;张恒;;基于内点法的稀疏逻辑回归财务预警模型[J];计算机工程与设计;2013年06期

3 ;《信用风险评分卡研究》[J];银行家;2014年02期

4 张秀兰;;逻辑回归模型下的企业财务预警实证研究[J];求索;2012年01期

5 刘遵雄;黄志强;孙清;张恒;;SCAD惩罚逻辑回归的财务预警模型[J];统计与信息论坛;2012年12期

6 邢秋菊,赵纯勇,高克昌,郭跃;基于GIS的滑坡危险性逻辑回归评价研究[J];地理与地理信息科学;2004年03期

7 林辰乐;吕翔涛;;影响城市低保受助者就业的政策因素分析——就业的双项逻辑回归模型及访谈实证研究[J];中国软科学;2012年08期

8 李霞;;基于逻辑回归的电子企业员工工作满意度研究[J];郑州航空工业管理学院学报;2010年01期

9 田永峰;王仕军;;让经济逻辑回归文化自觉——亚当·斯密理论体系中两条主线关系的辨正[J];湖北经济学院学报;2012年01期

10 赵路明;;ST公司有效利用盈余管理的实证研究[J];黑龙江科技信息;2007年02期

中国博士学位论文全文数据库 前1条

1 张道军;逻辑回归空间加权技术及其在矿产资源信息综合中的应用[D];中国地质大学;2015年

中国硕士学位论文全文数据库 前10条

1 粟武林;一种基于逻辑回归的微博用户可信度评估方法[D];河北大学;2015年

2 胡俊;基于多元逻辑回归和邻域信息的高光谱遥感影像半监督分类[D];中国矿业大学;2015年

3 伊瑶瑶;基于Hadoop的数据挖掘技术研究[D];南京邮电大学;2015年

4 张晓旭;基于复杂网络理论的厄尔尼诺分析与预测[D];中国海洋大学;2015年

5 乔宁;多元逻辑回归在实时竞价中的应用研究[D];河北工业大学;2015年

6 李雁林;小样本低质量数据下贷款需求分类模型研究[D];吉林大学;2016年

7 代成雷;基于逻辑回归的在线广告CTR优化和预测[D];浙江大学;2016年

8 马姝;基于数据挖掘的消费者购买预测的研究[D];云南财经大学;2016年

9 董纯洁;基于实例与逻辑回归的多标签分类模型[D];南京大学;2013年

10 祁全昌;基于内容广告平台的点击率预估系统的设计与实现[D];南京大学;2012年


  本文关键词:基于数据挖掘的消费者购买预测的研究,由笔耕文化传播整理发布。



本文编号:251982

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/251982.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户59d0a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com