基于LightGBM算法的O2O优惠券精准投放研究
发布时间:2020-07-07 10:40
【摘要】:O2O(Online To Offline)是一种将线上活动与线下体验紧密结合的电子商务模式。在移动互联网背景下,发放O2O优惠券是一种主要的营销手段。O2O平台都在不断思考如何挖掘用户的行为特征和消费偏好,并根据用户需求精准投放优惠券,从而使用较低的营销成本去盘活老用户、吸引更多的新用户。由于O2O电子商务与传统电子商务存在差异,拥有其特有的线下体验环节,如果直接把传统电子商务的研究运用到O2O电子商务模式中会出现准确率低、效果差的状况,达不到精准营销的目的。因此,通过分析O2O模式的具体特征,结合传统电子商务的研究方法,构建适用于O2O电子商务的预测模型,是本文研究的出发点和落脚点。本文主要研究目的是构建O2O优惠券精准投放模型,着眼于O2O优惠券的用户使用预测,通过预测结果将优惠券发放给最有可能使用的人群,以达到精准投放的目的。本文主要工作如下:(1)结合O2O优惠券和精准投放知识,分析用户使用优惠券的影响因素,以此作为特征构造的理论依据;(2)在对原始数据处理分析后,结合业务逻辑,设计并构造了可直接应用于实际业务场景的特征,包含5个基础特征群和4个组合特征群,共78个特征。(3)提出了一种新的特征选择算法RFPS(Random Forest-Pearson-SBS),并使用RFPS算法筛选特征,最终得到特征影响因子高的52个特征;(4)为处理正负样本不平衡问题,将Easy-Ensemble算法与LightGBM算法结合为E-LightGBM,并用其构建O2O优惠券精准投放模型,取得了良好的效果,证明该算法适合在类似的问题中被广泛推广和应用;(5)结合O2O行业发展状况和实验分析结果,为O2O优惠券精准投放提出建议。本文得出的主要结论有:(1)在O2O模式背景下,建立基于用户历史数据分析的优惠券使用预测模型,为O2O优惠券精准投放提供理论依据和数据支持;(2)使用RFPS算法进行特征筛选之后,模型运行时间减少了16%,公测AUC值提升了0.028,在降低模型复杂度的同时提高了模型分类效果;(3)使用E-LightGBM算法构建O2O优惠券精准投放模型,公测AUC值达0.798。实验证明该算法在分类性能上优于其他分类集成算法,更适合处理正负样本不平衡、数据量大、时效性要求高的O2O电子商务场景数据。
【学位授予单位】:山西财经大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:F724.6;F274
【图文】:
论文基本框架图
图 2.5 随机森林算法流程图用 Bootstraping 方法随机有放回采练集。分别训练 n 个决策树模型。 m,使用第 i 个 bootstrap 样本训益/信息增益比/基尼指数选择最直分裂下去,在决策树的分裂过程树按一定的集成策略组合成随机定分类结果;对于回归问题,求得ng Decision Tree)是 Boosting 框架下
图 3.1 用户消费特征图图 3.1(上)是优惠券发放量与被使用量的分布图,图 3.1(下)展示相应优惠券的使用率[67]。由图分析可知 O2O 优惠券的使用率大多数在 20%以内,从整体分布上看,O2O 优惠券使用率很大程度上受到时间的影响。例如在 2016 年 2 月份左右,对应的时间段为春节假期,优惠券发放量是最多的,但优惠券的使用率却是最低的。其次在 3 月 20 日左右,在优惠券发放量正常的情况下,优惠券的使用率是最高的。通过对总体用户消费特征的可视化分析,可以发现数据中的隐藏信息,这些信息为后续的分析提供基础 。3.2.2 缺失值处理缺失值是指数据集中部分属性的值是不完全的,存在空缺。数据值缺失是数据挖掘过程中常遇到的问题之一。缺失值的存在使分类器的不确定性更加显著,可能
本文编号:2745021
【学位授予单位】:山西财经大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:F724.6;F274
【图文】:
论文基本框架图
图 2.5 随机森林算法流程图用 Bootstraping 方法随机有放回采练集。分别训练 n 个决策树模型。 m,使用第 i 个 bootstrap 样本训益/信息增益比/基尼指数选择最直分裂下去,在决策树的分裂过程树按一定的集成策略组合成随机定分类结果;对于回归问题,求得ng Decision Tree)是 Boosting 框架下
图 3.1 用户消费特征图图 3.1(上)是优惠券发放量与被使用量的分布图,图 3.1(下)展示相应优惠券的使用率[67]。由图分析可知 O2O 优惠券的使用率大多数在 20%以内,从整体分布上看,O2O 优惠券使用率很大程度上受到时间的影响。例如在 2016 年 2 月份左右,对应的时间段为春节假期,优惠券发放量是最多的,但优惠券的使用率却是最低的。其次在 3 月 20 日左右,在优惠券发放量正常的情况下,优惠券的使用率是最高的。通过对总体用户消费特征的可视化分析,可以发现数据中的隐藏信息,这些信息为后续的分析提供基础 。3.2.2 缺失值处理缺失值是指数据集中部分属性的值是不完全的,存在空缺。数据值缺失是数据挖掘过程中常遇到的问题之一。缺失值的存在使分类器的不确定性更加显著,可能
【相似文献】
相关期刊论文 前4条
1 谢勇;项薇;季孟忠;彭俊;黄益槐;;基于Xgboost和LightGBM算法预测住房月租金的应用分析[J];计算机应用与软件;2019年09期
2 王芳杰;王福建;王雨晨;边驰;;基于LightGBM算法的公交行程时间预测[J];交通运输系统工程与信息;2019年02期
3 周文;王瑜;李长胜;肖洪兵;邢素霞;;LightGBM算法在阿尔茨海默症结构磁共振成像分类中的应用[J];中国医学物理学杂志;2019年04期
4 熊苏生;;基于改进LightGBM的交通模式识别算法[J];计算机与现代化;2018年10期
相关硕士学位论文 前2条
1 谭晶;基于LightGBM算法的O2O优惠券精准投放研究[D];山西财经大学;2019年
2 姜加才;基于LightGBM算法的量化选股策略方案策划[D];上海师范大学;2019年
本文编号:2745021
本文链接:https://www.wllwen.com/guanlilunwen/yingxiaoguanlilunwen/2745021.html