广告点击率预估的深层神经网络模型研究
本文关键词:广告点击率预估的深层神经网络模型研究
更多相关文章: 广告点击率 机器学习 非线性 深层神经网络 逻辑回归
【摘要】:随着现代科技的飞速发展,互联网广告投放也在全球普及。点击率(Click-Through-Rate, CTR)预估是互联网广告投放的核心问题,通过使用机器学习方法,充分利用广告系统日志中的数据进行预测,计算出用户对候选广告点击概率的大小,从中选出被用户点击的概率较大的广告展示给用户。逻辑回归模型是常用的机器学习方法之一,但是逻辑回归是一个线性模型,不能学习到数据中的非线性特征信息,而且逻辑回归模型参数较多,容易造成过拟合的问题,这给广告点击率预估问题带来了困难。 本文在充分调研点击率预估问题常用机器学习模型的前提下,将深层神经网络模型应用于广告点击率预告问题中,据我调研文献之后所知学术界当前的研究还没有涉及到这种方法。本文主要做了以下几个工作: (1)对实验数据进行了分析与处理,针对数值连续型特征进行离散化,针对类别型特征直接使用One-hot Encoding进行特征编码。 (2)用Python编程实现逻辑回归模型的代码模块,并使用该模型进行广告点击率预估问题的实验,实验结果作为基准与深层神经网络模型的结果对比。 (3)调研深层神经网络模型,用深层神经网络模型为广告点击率预估问题建模。针对神经网络模型进行特征设计,并分别选取了Sigmoid与Relu两种激活函数进行实验。本文实验基于开源机器学习平台Petuum中的深层神经网络模块,使用的数据来自于广告公司Cretio的实际数据。
【关键词】:广告点击率 机器学习 非线性 深层神经网络 逻辑回归
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP183
【目录】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 绪论9-17
- 1.1 研究背景9-11
- 1.2 研究现状11-13
- 1.3 研究内容和意义13-15
- 1.3.1 研究内容13-14
- 1.3.2 研究意义14-15
- 1.4 论文章节安排15-17
- 第二章 广告点击率预估问题及相关技术17-29
- 2.1 计算广告学介绍17-20
- 2.1.1 展示广告系统组成17-18
- 2.1.2 广告竞价机制与投放方式18-20
- 2.1.3 AUC 指标20
- 2.2 机器学习方法20-25
- 2.2.1 浅层机器学习模型20-24
- 2.2.2 深层神经网络模型24-25
- 2.3 梯度优化算法25-27
- 2.3.1 基于一阶梯度优化算法25-26
- 2.3.2 基于二阶梯度拟牛顿优化算法26-27
- 2.4 Petuum计算平台27-28
- 2.5 本章小结28-29
- 第三章 基于深层神经网络的点击率预估模型29-43
- 3.1 广告点击率预估问题29-30
- 3.2 逻辑回归浅层模型30-33
- 3.2.1 模型输入及输出30-32
- 3.2.2 目标函数及求解算法32-33
- 3.3 深层神经网络模型33-41
- 3.3.1 模型输入及输出33-34
- 3.3.2 目标函数及求解算法34-37
- 3.3.3 模型激活函数分析37-39
- 3.3.4 权值初始化39-41
- 3.4 本章小结41-43
- 第四章 点击率预估实验设计43-53
- 4.1 数据集及特征分析43-46
- 4.2 逻辑回归实验设计46-49
- 4.2.1 特征设计46-48
- 4.2.2 模型训练48-49
- 4.3 深层神经网络实验设计49-51
- 4.3.1 特征设计49-50
- 4.3.2 模型训练50-51
- 4.4 本章小结51-53
- 第五章 实验结果分析53-59
- 5.1 运行环境与开发语言53
- 5.2 评估指标53-54
- 5.3 实验结果及分析54-58
- 5.3.1 逻辑回归模型试验结果54-55
- 5.3.2 深层神经网络实验结果55-58
- 5.4 本章小结58-59
- 第六章 总结与展望59-61
- 6.1 文章总结59
- 6.2 工作展望59-61
- 6.2.1 样本不均衡问题59-60
- 6.2.2 新广告的问题60
- 6.2.3 激活函数选择60-61
- 参考文献61-65
- 致谢65-67
- 攻读硕士学位期间主要的研究成果67
【共引文献】
中国期刊全文数据库 前10条
1 蔡坤琪;;基于相关鉴别分析和随机森林的人脸识别方法[J];安徽电子信息职业技术学院学报;2012年01期
2 李飞;高小榕;高上凯;;基于随机森林算法的高维脑电特征优选[J];北京生物医学工程;2007年04期
3 陈建新;西广成;王伟;赵慧辉;陈静;;数据挖掘分类算法在冠心病临床应用的比较[J];北京生物医学工程;2008年03期
4 熊文;王枞;;改进粒子群与支持向量机混合的特征变换[J];北京邮电大学学报;2009年06期
5 蔡金锭;鄢仁武;;基于小波分析与随机森林算法的电力电子电路故障诊断[J];电力科学与技术学报;2011年02期
6 胥海威;何宽;;改进随机决策树群算法在监督分类中的应用[J];地理与地理信息科学;2010年06期
7 张郴;张捷;;中国入境旅游需求预测的神经网络集成模型研究[J];地理科学;2011年10期
8 马昕;郭静;孙啸;;蛋白质中RNA-结合残基预测的随机森林模型[J];东南大学学报(自然科学版);2012年01期
9 胡锋;邢洁清;;一种基于小波变换与随机森林的人脸识别方法[J];电脑知识与技术;2011年16期
10 叶圣永;王晓茹;刘志刚;钱清泉;;电力系统暂态稳定评估组合模型的比较[J];电网技术;2008年23期
中国重要会议论文全文数据库 前10条
1 贾少春;胡秀珍;;A Method of Predicting theβ-hairpin Motifs in Proteins[A];第四届全国生物信息学与系统生物学学术大会论文集[C];2010年
2 李胜朋;王洪礼;冯剑丰;;基于不连续回归树的最大李雅谱诺夫指数计算方法[A];第九届全国振动理论及应用学术会议论文集[C];2007年
3 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
4 张红梅;;基于粗糙集特征约简的SVM集成入侵检测模型[A];2009中国控制与决策会议论文集(3)[C];2009年
5 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
6 曹东升;许青松;梁逸曾;;Computer-Aided Prediction of Toxicity with Substructure Pattern and Random Forest[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
7 李梦龙;;Systematically analyze and select key features to microRNA precursors identification based on random forests[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
8 秦文丽;李益洲;李娟;余乐正;郭延芝;李梦龙;;基于蛋白质序列信息的信号肽上有害非同义单核苷酸多态性的预测[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年
9 冯飞翔;冯辅周;江鹏程;刘菁;刘建敏;;随机森林和k-近邻法在某型坦克变速箱状态识别中的应用[A];第八届全国转子动力学学术讨论会论文集[C];2008年
10 饶国强;冯辅周;江鹏程;靳莹;范结绪;;模糊识别在变速箱状态识别中的应用研究[A];2008年全国振动工程及应用学术会议暨第十一届全国设备故障诊断学术会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年
3 姚志明;基于步态触觉信息的身份识别研究[D];中国科学技术大学;2010年
4 杜方;复杂网络系统间相似性识别及其应用[D];浙江大学;2010年
5 甘良志;核学习算法与集成方法研究[D];浙江大学;2010年
6 王树云;基于Bayes方法和图限制下正规化方法的变量选择问题及其在基因组数据中的应用[D];山东大学;2010年
7 王中锋;树型贝叶斯网络分类器鉴别式训练研究[D];北京交通大学;2011年
8 田健;计算机辅助分子设计提高蛋白质热稳定性的研究[D];中国农业科学院;2011年
9 戴俊程;基于全基因组关联研究的中国女性乳腺癌风险预测模型研究[D];南京医科大学;2011年
10 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年
中国硕士学位论文全文数据库 前10条
1 马冉冉;集成学习算法研究[D];山东科技大学;2010年
2 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年
3 陈松峰;利用PCA和AdaBoost建立基于贝叶斯的组合分类器[D];郑州大学;2010年
4 李红;数据挖掘中特征选择与聚类算法研究[D];大连理工大学;2010年
5 李海燕;互信息特征选择的研究及在代谢组学中的应用[D];大连理工大学;2010年
6 朱新荣;径向基函数神经网络集成算法的研究及应用[D];大连理工大学;2010年
7 严康;基于支持向量机的特征选择算法研究[D];大连理工大学;2010年
8 唐晓敏;基于霍夫变换及条件概率模型的多目标检测[D];大连理工大学;2010年
9 王若飞;基于机器学习的蛋白质折叠预测算法研究[D];湘潭大学;2010年
10 杨向军;Web spam检测系统的设计和实现[D];华南理工大学;2010年
,本文编号:902817
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/902817.html