基于多分类器融合模型的展示广告点击率预估研究
发布时间:2021-02-21 09:07
当今互联网广告的投放的主流趋势为“精准化”投放,智能营销平台积累了海量的广告数据和用户数据,如何有效利用这些数据去预测用户的广告点击概率,是大数据应用在精准营销中的关键问题。本文主要基于特征工程和模型构建两个方面,构建展示广告点击率预测模型,对广告主实现精确投放、广告媒介追求利益最大化及提高用户上网体验具有重要的指导意义。特征工程阶段。首先,对广告数据进行一系列可视化的探索性分析,具体通过饼图、堆积图、箱线图和柱形图等,直接观察数据集结构和特征,初步验证不同类别特征的点击率分布存在显著差异。接着,对不同类型特征进行数据清洗、特征规约和特征变换等处理,有效降低数据噪音。最后,从特征选择、特征提取和特征构造三个方面,对广告素材信息、用户信息、上下文信息以及媒体信息等多源特征进行融合提取,获得大量有效的特征集数据,为之后的机器学习算法能够达到更佳的性能提供可靠的基础。模型构建阶段。首先,分别使用原始数据集、通过特征工程处理得到的数据集,依次训练Logistic回归、XGBoost模型和LightGBM模型这三个单一算法模型,通过比较LogLoss和AUC,得到基于特征工程的LightGBM模...
【文章来源】:上海师范大学上海市
【文章页数】:54 页
【学位级别】:硕士
【部分图文】:
直方图算法示意图
范大学硕士学位论文 第 2 章 文献综述和相4)带深度限制的叶子生长策略。LightGBM 在迭代过程中采用 Leaf长策略,每次从当前所有叶子中,找到分裂增益最大的一个叶子,此循环,如图所示。因此同 Level-wise 相比,在分裂次数相同的情wise 可以降低更多的误差,得到更好的精度。此外,LightGBM 增加度的限制,在保证高效率的同时防止过拟合。
图 3.1 数据集正负样本分布饼图由图 3.2,可以看到 1 到 6 号连续六天的展示广告点击量占曝光量比例无显著差异,说明不存在异常日期数据。由图 3.3,进一步分析不同时刻的展示广告点击率变化,发现展示广告的点击量波动趋势和曝光量波动趋势近似保持一致且一天中的上午 6 点及之前的广告点击率较低,平均点击率为 15%,而上午 点之后的广告点击率较高,平均点击率近 28%。
【参考文献】:
期刊论文
[1]基于特征降维和DBN的广告点击率预测[J]. 杨长春,梅佳俊,吴云,顾寰. 计算机工程与设计. 2018(12)
[2]一种基于多种特征融合的人脸识别算法[J]. 杨赛,赵春霞,刘凡,陈峰. 计算机辅助设计与图形学学报. 2017(09)
[3]模式分类中的特征融合方法[J]. 刘渭滨,邹智元,邢薇薇. 北京邮电大学学报. 2017(04)
[4]基于特征融合与分类器在线学习的目标跟踪算法[J]. 胡秀华,郭雷,李晖晖. 控制与决策. 2017(09)
[5]基于用户相似度和特征分化的广告点击率预测研究[J]. 潘书敏,颜娜,谢瑾奎. 计算机科学. 2017(02)
[6]广告点击率预估技术综述[J]. 陈巧红,余仕敏,贾宇波. 浙江理工大学学报. 2015(11)
[7]基于多特征融合的深度置信网络图像分类算法[J]. 许庆勇,江顺亮,黄伟,李菁,徐少平,叶发茂. 计算机工程. 2015(11)
[8]泛化误差的各种交叉验证估计方法综述[J]. 杨柳,王钰. 计算机应用研究. 2015(05)
[9]不平衡数据的集成分类算法综述[J]. 李勇,刘战东,张海军. 计算机应用研究. 2014(05)
[10]广告点击率估算技术综述[J]. 纪文迪,王晓玲,周傲英. 华东师范大学学报(自然科学版). 2013(03)
硕士论文
[1]基于非平衡数据的集成学习分类及其应用[D]. 周宾宾.华南理工大学 2014
本文编号:3044136
【文章来源】:上海师范大学上海市
【文章页数】:54 页
【学位级别】:硕士
【部分图文】:
直方图算法示意图
范大学硕士学位论文 第 2 章 文献综述和相4)带深度限制的叶子生长策略。LightGBM 在迭代过程中采用 Leaf长策略,每次从当前所有叶子中,找到分裂增益最大的一个叶子,此循环,如图所示。因此同 Level-wise 相比,在分裂次数相同的情wise 可以降低更多的误差,得到更好的精度。此外,LightGBM 增加度的限制,在保证高效率的同时防止过拟合。
图 3.1 数据集正负样本分布饼图由图 3.2,可以看到 1 到 6 号连续六天的展示广告点击量占曝光量比例无显著差异,说明不存在异常日期数据。由图 3.3,进一步分析不同时刻的展示广告点击率变化,发现展示广告的点击量波动趋势和曝光量波动趋势近似保持一致且一天中的上午 6 点及之前的广告点击率较低,平均点击率为 15%,而上午 点之后的广告点击率较高,平均点击率近 28%。
【参考文献】:
期刊论文
[1]基于特征降维和DBN的广告点击率预测[J]. 杨长春,梅佳俊,吴云,顾寰. 计算机工程与设计. 2018(12)
[2]一种基于多种特征融合的人脸识别算法[J]. 杨赛,赵春霞,刘凡,陈峰. 计算机辅助设计与图形学学报. 2017(09)
[3]模式分类中的特征融合方法[J]. 刘渭滨,邹智元,邢薇薇. 北京邮电大学学报. 2017(04)
[4]基于特征融合与分类器在线学习的目标跟踪算法[J]. 胡秀华,郭雷,李晖晖. 控制与决策. 2017(09)
[5]基于用户相似度和特征分化的广告点击率预测研究[J]. 潘书敏,颜娜,谢瑾奎. 计算机科学. 2017(02)
[6]广告点击率预估技术综述[J]. 陈巧红,余仕敏,贾宇波. 浙江理工大学学报. 2015(11)
[7]基于多特征融合的深度置信网络图像分类算法[J]. 许庆勇,江顺亮,黄伟,李菁,徐少平,叶发茂. 计算机工程. 2015(11)
[8]泛化误差的各种交叉验证估计方法综述[J]. 杨柳,王钰. 计算机应用研究. 2015(05)
[9]不平衡数据的集成分类算法综述[J]. 李勇,刘战东,张海军. 计算机应用研究. 2014(05)
[10]广告点击率估算技术综述[J]. 纪文迪,王晓玲,周傲英. 华东师范大学学报(自然科学版). 2013(03)
硕士论文
[1]基于非平衡数据的集成学习分类及其应用[D]. 周宾宾.华南理工大学 2014
本文编号:3044136
本文链接:https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/3044136.html