基于软决策树的实时竞价展示广告成交价格预测
发布时间:2020-08-14 17:11
【摘要】:实时竞价(Real-Time Bidding,RTB)是大数据时代新兴的具有影响力的展示广告购买机制,RTB系统基于对互联网用户产生的大量数据的分析,能够识别每个广告展现(Impression)目标受众的特征和兴趣,并自动投放最佳匹配的广告。RTB系统中最受关注的是与需求方平台(Demand-Side Platform,DSP)相关的研究工作,DSP代表了广告主的诉求,DSP竞价策略的优劣直接影响广告主获取优质流量的能力,进而影响广告营销所带来的转化。在DSP中,成交价格作为广告展现的成本,能够有效地指导竞价策略的制定和投放预算的分配。本文针对成交价格预测展开了相关的研究工作,提出了基于软决策树的成交价预测模型,解决了两方面的问题:(1)目前,关于成交价格预测的相关研究工作通常是假设成交价格服从某种参数化的函数分布形式。但在实际中,成交价格来自成百上千广告主对某次广告展现的竞价,并不简单服从于某种假定的函数分布形式。而决策树模型可以避免这个问题,决策树提供了从输入到输出的自学习过程,无需函数假设;(2)普通决策树的构建过程忽视了维度间可能存在的相关性,而软决策树不同于普通决策树,软决策树在结点分裂时能根据不同概率影响左右子结点,利用这种特性能够建模维度间的相关性。此外,由于RTB过程采用第二竞价机制,DSP只有竞价成功才能观测到成交价格,竞价失败只能知道自身的出价,因此在成交价格预测中会面临数据缺失的问题。本文结合生存分析对软决策树模型提出了改进,采用K-M乘积限方法无偏估计竞价成功概率,并使用逆概率加权方法修正成交价格的真实误差,使竞价成功和竞价失败的数据记录能够同时反馈到软决策树模型的学习中,减少了实际应用中成交价格数据缺失问题带来的模型偏差。本文基于真实展示广告数据集iPinYou设计实验并进行实验验证,实验分别对比了基于假设分布和基于普通决策树的成交价格预测模型。实验结果表明,对比其他模型,本文提出的模型在预测误差上表现更佳,同时验证了考虑缺失数据的有效性和必要性。最后在树模型规模的比较上,本文提出的模型具有更小的树模型复杂度。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:F713.8
【图文】:
投放计划(3427)的维度相关系数矩阵
21图 3-2 投放计划(3358)的维度相关系数矩阵本文采用 Sigmoid 作为软决策树的概率决策函数( )nf X ,Sigmoid 函数取值范1] ,满足概率决策函数的要求,并且 Sigmoid 函数还具有连续单调递增,关于中,易于求导等良好性质,在机器学习领域有非常广泛且有效的应用。在接下来
4.4.1 在胜出数据集上的结果模型组 1 在胜出数据上的实验结果如图 4-2,可以从图中看出,DT 模型在大部分投放计划(除了 1458 和 2997)的均方误差都低于 LM 模型,从一定程度上说明了树结构模型的优越性,而 SDT 在所有投放计划上的均方误差都比 LM 和 DT 低,说明基于软决策树的模型要优于其他两种模型;模型组 2 在胜出数据的实验结果如图 4-3,模型组 在训练的时候都考虑缺失数据的影响,用模型组 2 预测胜出数据的成交价格,SDT_C 在所有投放计划上优于 LM_C 和 DT_C,但从整体来说,考虑了缺失数据的模型组 2,在胜出数据成交价格预测上,均方误差要高于模型组 1。这是因为,模型组 1 的训练过程只有胜出数据参与,模型过多了学习了胜出数据的特点,导致模型组 1 能非常好地预测胜出数据的成交价格,即模型组 1 在胜出数据上是过拟合的,这一点在接下来失败数据的对比结果能很好地体现出来。其中各个模型的具体均方误差以及基于软决策树模型的提升幅度见表 4-4 和表 4-5。
本文编号:2793310
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:F713.8
【图文】:
投放计划(3427)的维度相关系数矩阵
21图 3-2 投放计划(3358)的维度相关系数矩阵本文采用 Sigmoid 作为软决策树的概率决策函数( )nf X ,Sigmoid 函数取值范1] ,满足概率决策函数的要求,并且 Sigmoid 函数还具有连续单调递增,关于中,易于求导等良好性质,在机器学习领域有非常广泛且有效的应用。在接下来
4.4.1 在胜出数据集上的结果模型组 1 在胜出数据上的实验结果如图 4-2,可以从图中看出,DT 模型在大部分投放计划(除了 1458 和 2997)的均方误差都低于 LM 模型,从一定程度上说明了树结构模型的优越性,而 SDT 在所有投放计划上的均方误差都比 LM 和 DT 低,说明基于软决策树的模型要优于其他两种模型;模型组 2 在胜出数据的实验结果如图 4-3,模型组 在训练的时候都考虑缺失数据的影响,用模型组 2 预测胜出数据的成交价格,SDT_C 在所有投放计划上优于 LM_C 和 DT_C,但从整体来说,考虑了缺失数据的模型组 2,在胜出数据成交价格预测上,均方误差要高于模型组 1。这是因为,模型组 1 的训练过程只有胜出数据参与,模型过多了学习了胜出数据的特点,导致模型组 1 能非常好地预测胜出数据的成交价格,即模型组 1 在胜出数据上是过拟合的,这一点在接下来失败数据的对比结果能很好地体现出来。其中各个模型的具体均方误差以及基于软决策树模型的提升幅度见表 4-4 和表 4-5。
【相似文献】
相关期刊论文 前6条
1 吴霞;张家录;王鲁达;;命题逻辑公式模糊软集语义及其在决策分析中的应用[J];模式识别与人工智能;2018年03期
2 吕国飞;王海燕;申晓红;闫永胜;;非理想信道不同量化规则软决策算法性能分析[J];电子设计工程;2013年07期
3 孙冰;;人事管理系统的决策方法介绍[J];自动化学报;1990年01期
4 相明,王昭,李宏,赵俊渭;一种分布式软决策数据融合系统的性能分析[J];西北工业大学学报;2000年01期
5 郭黎利;高飞;孙志国;;基于局部软决策的分布式检测算法[J];华南理工大学学报(自然科学版);2016年01期
6 赵汝进;张启衡;左颢睿;吴明军;;一种基于直线特征的单目视觉位姿测量方法[J];光电子.激光;2010年06期
相关博士学位论文 前2条
1 肖智;基于软信息的软决策新方法研究[D];重庆大学;2003年
2 梁继民;多传感器决策融合方法研究[D];西安电子科技大学;1999年
相关硕士学位论文 前4条
1 陈乔伟;基于软决策树的实时竞价展示广告成交价格预测[D];华南理工大学;2019年
2 赵宇曦;基于SMSE的MIMO波形发生器设计及其参数优化选取[D];哈尔滨工程大学;2018年
3 魏有权;基于噪声估计的语音增强算法研究[D];昆明理工大学;2015年
4 连惠琼;基于树形关键词集合的中文文本分类方法研究与实现[D];华南理工大学;2015年
本文编号:2793310
本文链接:https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/2793310.html