基于XGBoost方法的广告点击率预估研究

发布时间：2020-11-12 09:01

【摘要】：长期以来,广告变现是互联网公司收入的主要来源之一。互联网领域的领头羊(如谷歌、Facebook、阿里等)已将广告作为公司的核心产业,越来越多的公司意识到技术驱动下的广告投放更具竞争力。广告点击率(Click-Through-Rate,CTR)预估研究的本质是使广告主、广告平台、用户三方利益最大化,即广告主获得高的点击率、广告平台的收益能最大化、用户的满意度增加,因此,增加广告变现的CTR预估研究具有挑战性和重要性。目前,业界所进行的CTR预估任务的研究已相对成熟,但仍存在一些不足之处值得我们深入思考。第一,应用最多的LR模型是大多数公司做CTR预估时的首要选择,这种模型简单易实现,训练速度快,面对亿级别数据也能快速迭代完成,但这种方法学习能力有限,不能提取特征间的非线性关系,需要有计算广告背景的工程师做人工特征组合。第二,随着时间推移,公司业务不断扩展,需要处理的数据量也越来越多,如何利用当前的模型快速的迭代计算CTR值,保证广告投放模块稳定运行,是值得关注的问题。围绕以上问题,本文主要工作如下:(1)针对单一LR模型难以表达特征间非线性关系的问题,本文在该模型的基础上加入了极限梯度提升树模型(eXtreme Gradient Boosting,XGBoost),由于它具有自动构建组合特征、建树过程并行化的优势,因此可用XGBoost特征优化后的输出作为LR迭代计算的输入,这种XGBoost+LR的融合模型通过挖掘特征间隐藏关系,不仅能提高预估精度,还能加快计算速度。(2)针对广告数据量可能发生差异性变化或者业务场景迁移问题,模型的计算环境需要部署为具有较好扩展性、容错性、吞吐量高的分布式计算平台。该平台的主要工作是离线训练点击率预估模型,将训练好的模型更新到线上,再实时计算候选广告库中的CTR值。
【学位授予单位】：广东工业大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：F713.8;O212
【图文】：

市场规模,广告

p 等不仅改变了人们的生活方式，而且推动了传统产业不断升级。今天已拥有数千亿级别的市场，大多数媒体网站都是靠推送广告求不断涌现，传统的互联网模式逐渐被淘汰，新的模式慢慢衍生网广告模式已由“粗放式”投放转变为“精准化”投放，由最初到竞价广告、再到现在的以数据产品为主导的大规模程序化交易算取代人工和服务。换句话说，互联网广告的核心是数据和计算广告”随之产生了[1]。余年里，互联网广告的爆炸式增长在经历严峻挑战的同时，也获遇[2]，Google、Facebook、百度、阿里等数个百亿级、千亿级互业已成为公司变现和收入的主要来源之一，未来互联网广告行业续上升。如图 1-1，艾瑞咨询[3]2018 年互联网产业总结报告9 年中国互联网广告市场变化情况，规模已从 2011 年的 492.5 亿8 年的 3420 亿元，预计未来几年仍会保持 15%左右的增速增长。

广告,系统架构,广告学,广告主

2.1 计算广告学的相关知识2.1.1 计算广告学计算广告学是一门交叉学科，由信息科学、文本分析、机器学习、统计学、经济学等学科融合而成。计算广告主要研究上下文、用户、广告三者间的最佳匹配，目标是最大化媒体、受众、广告主三方的利益。2.1.2 计算广告系统一个高效的个性化计算广告系统架构中，广告主、媒体、受众等信息数据的收集、存储、转换、建模和使用是关键，因为它从根本上决定了广告投放带来的利润和变现能力，所以说数据驱动下的广告投放有着巨大的商业价值和高的发展空间。在实践中，广告系统的建立应该是循序渐进的。

工作机制

代的到来很好的解决了这一问题，它的思想是宁可移动计算也不移动数据，同时每个节点既能存储数据也能计算数据。Hadoop 最重要的两个部分是分布式文件存储系统和 MapReduce 编程模型，这两者均源自于 Google 大数据技术方面的成果[34-36]。如今 Hadoop 已由 Apache 基金会维护，新的生态系统不断完善，例如有专为存储稀疏数据的非关系型数据库 HBase、做表格数据汇总的数据仓库 Hive、还有扩展机器学习算法的 Mahout 等。下面介绍 Hadoop 的两个核心组件。（1）HDFSHDFS 是目前大数据领域运用最成熟也是最广泛的分布式存储系统，当客户端往HDFS中上传数据时，客户端并不会直接往 datanode中写数据，而是先向namenode通信要上传一份文件，此时 namenode 会告知客户端可以往哪些 datanode 中写数据，然后客户端将文件划分成若干个大小是 128M 的 block 块，逐个上传到对应 datanode上，接收到 block 块的 datanode 同时还要向另外两个 datanode 写入 block 块的副本，默认副本是三个。HDFS 的工作机制如图 2-2 所示。
【相似文献】

中国期刊全文数据库前10条

1 钟颖;邵毅明;吴文文;胡广雪;;基于XGBoost的短时交通流预测模型[J];科学技术与工程;2019年30期

2 叶倩怡;饶泓;姬名书;;基于Xgboost的商业销售预测[J];南昌大学学报(理科版);2017年03期

3 李学锋;;基于XGBoost的个人信贷违约预测研究[J];电脑知识与技术;2019年33期

4 蔡元凯;姚善化;郑晓亮;;基于XGBoost的网络安全风险评估模型研究[J];安徽理工大学学报(自然科学版);2019年05期

5 张洪侠;郭贺;王金霞;徐岩艳;吕斌;闫东;常佳;胡光瑞;王雪;李洪军;刘天戟;李燕林;赵志强;牛晓强;;基于XGBoost算法的2型糖尿病精准预测模型研究[J];中国实验诊断学;2018年03期

6 李杰;兰巧玲;;基于XGBoost集成模型的社会基本医疗保险参保人欺诈风险预测研究[J];中国卫生统计;2019年06期

7 朱继峰;闫飞;郑水明;洪星芸;徐正国;;基于XGBoost的磨煤机效率异常检测[J];计算机应用;2019年S2期

8 彭佳丽;刘春容;李旭;易芳;李佳圆;;采用XGBoost和随机森林探索中国西部女性乳腺癌危险因素[J];现代预防医学;2020年01期

9 苏兵杰;周亦鹏;梁勋鸽;;基于XGBoost算法的电商评论文本情感识别模型[J];物联网技术;2018年01期

10 杨贵军;徐雪;赵富强;;基于XGBoost算法的用户评分预测模型及应用[J];数据分析与知识发现;2019年01期

中国硕士学位论文全文数据库前10条

1 杨承相;基于Xgboost和复杂网络的大学生授信额度研究[D];云南大学;2019年

2 曾虎;基于XGBoost方法的广告点击率预估研究[D];广东工业大学;2019年

3 王勇;基于多源数据和XGBoost算法的上海市能见度预测模型研究[D];华东师范大学;2019年

4 王玉霞;基于XGBoost算法的电商企业商品销量预测方法研究[D];河北工业大学;2017年

5 王子通;基于XGBoost的沪深300股指期货交易策略研究[D];西北大学;2019年

6 邸海波;基于XGBOOST和随机森林的热门微博预测研究[D];天津大学;2017年

7 贾文慧;基于XGBoost算法的骨科辅助诊断模型研究[D];太原理工大学;2018年

8 李想;基于XGBoost算法的多因子量化选股方案策划[D];上海师范大学;2017年

9 张诚诚;基于深度自编码器和XGBoost的转录调控构建算法研究[D];哈尔滨工业大学;2017年

10 徐彬心;基于优化的xgboost模型的商业银行电话营销效果分析[D];兰州大学;2017年

本文编号：2880549

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/2880549.html

上一篇：共生视角下的我国互联网金融与传统金融的关系研究
下一篇：我国滑雪场地服务业复原力研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|