当前位置:主页 > 文艺论文 > 广告艺术论文 >

基于概率图模型的数据密集型广告点击率预测系统设计与实现

发布时间:2017-06-09 20:16

  本文关键词:基于概率图模型的数据密集型广告点击率预测系统设计与实现,,由笔耕文化传播整理发布。


【摘要】:随着Web2.0、互联网和电子商务的迅猛发展与广泛应用,互联网广告成为了互联网公司最主要的收入模式。广告点击率是评价广告投放成功与否的一个重要标准,成功的广告投放能显著提升互联网公司的收益。而且,对广告的点击率进行准确的预测有利于提升用户的体验。 在线用户之间都存在着浏览和搜索等行为上的相似性,这种相似性本身具有不确定性。然而,贝叶斯网作为一种重要的概率图模型,是进行不确定知识表示和推理的重要工具。因此,针对没有浏览或点击历史记录的用户对潜在广告的点击率预测问题,我们利用贝叶斯网的不确定表示和推理方法对用户之间存在的依赖关系进行建模计算,最终预测目标用户对广告的点击率。 本文利用Hadoop平台和MapReduce编程模型,以贝叶斯网作为支撑理论,从海量的用户浏览和搜索广告的历史数据出发,设计并实现了数据密集型的广告点击率预测分布式并行算法,包括数据预处理、贝叶斯网构建和基于贝叶斯网推理的广告点击率预测算法,具体如下: ●基于MapReduce的海量的用户广告搜索历史日志处理。我们将海量的用户搜索广告历史数据存入分布式文件系统HDFS中,设计MapReduce算法读取海量的用户搜索广告历史数据,提取搜索关键词作为用户特征,存入分布式数据库HBase中,为后续的贝叶斯网有向无环图结构的构建做好了准备。 ●基于MapReduce的贝叶斯网构建。通过并行读取、处理HBase中的数据,高效地构建了贝叶斯网的有向无环图结构,再利用MapReduce分布式框架并行处理HBase中的数据,计算贝叶斯网中各个节点的条件概率表,均存入HBase。 ■基于MapReduce贝叶斯网推理的广告点击率预测。利用分布式框架快速、高效地计算出相似用户集合,并利用用户间的相似性进行广告点击率的预测。 本文以上述三方面的研究工作为核心,实现了基于Hadoop平台的数据密集型广告点击率预测系统,可以使搜索引擎简单地通过调用系统的接口函数得到目标用户对广告点击率的预测结果。
【关键词】:计算广告 点击率预测 用户相似性 贝叶斯网 数据密集型计算
【学位授予单位】:云南大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.52
【目录】:
  • 摘要3-4
  • Abstract4-8
  • 第1章 前言8-15
  • 1.1 研究背景及意义8-11
  • 1.2 研究现状11-13
  • 1.2.1 CTR 预测的研究现状11-12
  • 1.2.2 数据密集型计算的研究现状12-13
  • 1.3 本文的主要研究内容13-14
  • 1.4 论文结构14-15
  • 第2章 背景知识15-27
  • 2.1 Hadoop简介15-22
  • 2.1.1 HDFS简介15-17
  • 2.1.2 MapReduce简介17-19
  • 2.1.3 HBase简介19-22
  • 2.2 贝叶斯网22-26
  • 2.2.1 概率论基础知识23-25
  • 2.2.2 贝叶斯网推理25-26
  • 2.3 本章小结26-27
  • 第3章 系统架构及算法设计27-46
  • 3.1 整体架构27
  • 3.2 数据预处理模块27-30
  • 3.2.1 海量数据处理与数据存储28-30
  • 3.3 贝叶斯网构建30-37
  • 3.3.1 贝叶斯网DAG构建30-34
  • 3.3.2 条件概率表计算34-37
  • 3.4 广告点击率预测37-45
  • 3.4.1 联合概率分布表计算37-40
  • 3.4.2 得到相似用户集合40-42
  • 3.4.3 广告点击率预测42-45
  • 3.5 本章小结45-46
  • 第4章 实验及分析46-53
  • 4.1 实验数据和实验环境46-48
  • 4.1.1 实验数据设置46-47
  • 4.1.2 实验环境设置47-48
  • 4.2 系统的正确性验证48
  • 4.3 系统的有效性验证48-52
  • 4.3.1 系统的执行时间49-51
  • 4.3.2 系统的加速比与并行效率51-52
  • 4.4 实验结果分析52-53
  • 第5章 原型系统设计实现53-64
  • 5.1 系统分析53-54
  • 5.2 系统模块设计54-57
  • 5.2.1 数据预处理模块54
  • 5.2.2 贝叶斯网构建模块54-55
  • 5.2.3 广告点击率预测模块55-57
  • 5.3 系统整体架构及时序图57-58
  • 5.4 系统运行状态演示58-64
  • 5.4.1 数据预处理59-60
  • 5.4.2 贝叶斯网构建60-61
  • 5.4.3 广告点击率预测61-64
  • 第6章 总结与展望64-65
  • 附录65-71
  • 参考文献71-74
  • 致谢74

【参考文献】

中国期刊全文数据库 前7条

1 王珊;王会举;覃雄派;周p

本文编号:436597


资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/436597.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户05047***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com