基于特征组合的展示广告点击率预估模型研究
发布时间:2020-08-05 16:08
【摘要】:随着机器学习在计算广告领域中为互联网企业带来越来越多的收入,近年来关于广告点击率预估问题的研究也随之不断地深入,尤其是类目型特征的处理,在近年来获得非常高的关注度。对于此问题,业界的解决方案以基于业务理解的人工特征组合为主,辅以逻辑回归等模型,需要耗费大量的人工精力,而在学术研究中则更多对基于特征组合的深度学习模型进行研究,但仍旧存在模型可解释性较差,在大规模数据集中调参难度较高等问题。本文从数据挖掘竞赛中基于业务理解进行特征组合构造的方法出发,总结常见的特征组合构造方式,提出一套较为完备的自动化特征组合构造框架AutoFeature,同时为了进一步优化特征组合构造的效率,本文提出一种基于矩阵分解的启发式特征组合搜索框架MF-AutoFeature,并将其应用于百万级用户量与千万级样本量的数据集中。实验表明,无论是与经典的因子分解机及其变体相比还是与近年来的基于特征组合的深度学习模型相比,该框架在与梯度提升树级联之后都能具备相对优异的预测能力,同时该框架构造的特征依旧能保持较好的可解释性,并且在特征组合构造的过程中无需进行人工调参。除此之外,本文还优化了近年热门的基于特征组合的深度学习模型,主要工作如下:本文基于深度因子分解机模型DeepFM,分别将注意力机制和神经网络加入到DeepFM的因子分解机部分,提出基于注意力机制的深度因子分解机模型DeepAFM和深度神经因子分解机模型DeepNFM。实验表明,在百万级用户量,千万级样本量的数据集中,DeepAFM和DeepNFM的预测精度从总体上均优于深度因子分解机等模型。本文还尝试将序列信息融入因子分解机,提出循环神经因子分解机RFM以及深度循环神经因子分解机DeepRFM,将循环神经网络加入到基于特征组合的深度学习模型中,使得在进行序列信息建模的同时能够进行自动特征组合。实验表明,RFM和DeepRFM对于历史记录较为丰富的用户的点击率预估效果显著优于因子分解机和深度因子分解机。
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP181;F713.8
【图文】:
华南理工大学工程硕士学位论文分钟级统计时级统计天级统计用户点击次数用户触发广告展示次数图 5-4 异常用户分析方法除了这两个角度的观察以外,本文还针对这两个角度下的三个不同时间粒度的用户行为次数进行统计,表明用户在不同时间粒度下的行为发生情况。
图 5-4 异常用户分析方法除了这两个角度的观察以外,本文还针对这两个角度下的三个不同时间粒度的用户行为次数进行统计,表明用户在不同时间粒度下的行为发生情况。图 5-5 一天内单个用户触发广告展示的次数以及点击次数如图 5-5 所示为一天内单个用户触发广告展示次数(图左)以及点击次数(图右)的双对数条形图。横轴为一天内单个用户触发广告展示次数或点击次数取对数,纵轴为用户数取对数,与此类似的还有小时级的统计如图 5-6,分钟级的统计如图 5-7 所示。
图 5-7 一分钟内单个用户触发广告展示的次数以及点击次数通过式 5-2 可知图 5-5 到图 5-7 中的整体形状应该可以通过直线进行拟合。整个拟合过程如图 5-8、5-9 和 5-10 所示,其横纵坐标与图 5-5 到图 5-7 相同。图 5-8 一天内单个用户触发广告展示的次数以及点击次数拟合情况其中“Original-R2”表示对图 5-5 到图 5-7 直接进行线性拟合的决定系数,表明线性拟
本文编号:2781720
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP181;F713.8
【图文】:
华南理工大学工程硕士学位论文分钟级统计时级统计天级统计用户点击次数用户触发广告展示次数图 5-4 异常用户分析方法除了这两个角度的观察以外,本文还针对这两个角度下的三个不同时间粒度的用户行为次数进行统计,表明用户在不同时间粒度下的行为发生情况。
图 5-4 异常用户分析方法除了这两个角度的观察以外,本文还针对这两个角度下的三个不同时间粒度的用户行为次数进行统计,表明用户在不同时间粒度下的行为发生情况。图 5-5 一天内单个用户触发广告展示的次数以及点击次数如图 5-5 所示为一天内单个用户触发广告展示次数(图左)以及点击次数(图右)的双对数条形图。横轴为一天内单个用户触发广告展示次数或点击次数取对数,纵轴为用户数取对数,与此类似的还有小时级的统计如图 5-6,分钟级的统计如图 5-7 所示。
图 5-7 一分钟内单个用户触发广告展示的次数以及点击次数通过式 5-2 可知图 5-5 到图 5-7 中的整体形状应该可以通过直线进行拟合。整个拟合过程如图 5-8、5-9 和 5-10 所示,其横纵坐标与图 5-5 到图 5-7 相同。图 5-8 一天内单个用户触发广告展示的次数以及点击次数拟合情况其中“Original-R2”表示对图 5-5 到图 5-7 直接进行线性拟合的决定系数,表明线性拟
【参考文献】
相关期刊论文 前2条
1 李思琴;林磊;孙承杰;;基于卷积神经网络的搜索广告点击率预测[J];智能计算机与应用;2015年05期
2 施梦圜;顾津吉;;基于平衡采样的轻量级广告点击率预估方法[J];计算机应用研究;2014年01期
相关硕士学位论文 前8条
1 胡平伍;移动广告点击率预测方法的研究与实现[D];东南大学;2017年
2 邓丽芳;搜索广告点击率预测中的冷启动问题研究[D];哈尔滨工业大学;2016年
3 董书超;基于逻辑回归模型的广告点击率预估系统的设计与实现[D];哈尔滨工业大学;2016年
4 王志威;图片广告点击率预测方法的研究及改进[D];哈尔滨工业大学;2015年
5 王朝禄;基于贝叶斯网的广告点击率预测方法及实现[D];云南大学;2013年
6 司向辉;个性化广告点击率预测的研究和实现[D];北京邮电大学;2013年
7 王兵;一种基于逻辑回归模型的搜索广告点击率预估方法的研究[D];浙江大学;2013年
8 刘唐;基于多类别特征的在线广告点击率预测研究[D];北京邮电大学;2013年
本文编号:2781720
本文链接:https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/2781720.html