基于流式计算的广告特征提取系统的设计与实现
本文关键词:基于流式计算的广告特征提取系统的设计与实现
更多相关文章: 机器学习 流式计算 Task Manager HDFS MapReduce
【摘要】:伴随着互联网日新月异的发展,信息呈现出剧烈的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。对于绝大部分的商用搜索引擎,像Google、Bing和Baidu等,通常在用户查询响应的结果页中提供结构化的Web结果,同时也插入基于流量的点击付费模式的文本广告。为了在页面上最佳位置展现最相关的广告,需要通过一些机器学习算法来动态估算给定上下文中一个广告被点击的可能性。上下文可能包括广告权重、用户偏好、历史查询、历史点击等信息。一个主搜索引擎可能每秒钟处理上千万次查询,每个页面都可能会包含多个广告。为了及时处理用户反馈,需要广告数据处理引擎保证低延迟、可扩展和高可靠性。本文所介绍的流式广告特征提取系统就是这样一种实时的广告数据处理引擎,通过从搜索引擎实时生成的检索记录的广告展现日志和点击日志中提取下游—广告点击率预估模型中各个机器学习算法所需要的广告特征数据,不断训练、更新广告预估被点击的概率,搜索引擎依据这些实时更新的广告预估点击率来决定下次检索时应该展现什么广告,以实现用户、广告主与百度三方的共赢。本流式广告特征提取系统基于百度自主开发的流式计算框架Task Manager,结合了HDFS、MapReduce等相关技术方法。在百度凤巢广告系统的应用中,通过本流式广告特征提取系统,广告展现日志和点击日志数据反馈到广告点击率预估模型的时间缩短至分钟级,系统每天处理的输入广告日志数据量达到数十T,生成的广告特征数据量达到数百G。本文首先介绍了流式广告特征提取系统的项目背景,然后将项目所涉及的相关技术背景和项目所使用的相关技术、框架做了简要的说明,接着详细描述了系统的需求分析、总体设计和模块设计,并对系统的几个关键模块的设计和实现进行了详尽的论述,最后对项目和论文的工作做了一个总结,并且对后续的下一阶段工作进行了展望。
【关键词】:机器学习 流式计算 Task Manager HDFS MapReduce
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.3
【目录】:
- 摘要5-6
- Abstract6-11
- 第一章 引言11-15
- 1.1 项目背景11-12
- 1.2 搜索广告日志处理的发展概况12
- 1.3 本文主要研究的工作12-13
- 1.4 本文的组织结构13-15
- 第二章 技术综述15-22
- 2.1 流式计算15-18
- 2.1.1 流式计算概述15-16
- 2.1.2 流式计算研究现状16-18
- 2.2 Task Manager流式计算框架18-19
- 2.3 Hadoop相关技术19-21
- 2.4 本章小结21-22
- 第三章 广告特征提取系统的分析与设计22-49
- 3.1 百度凤巢广告CTR预估系统简介22-23
- 3.2 项目总体规划23-24
- 3.3 系统需求分析24-34
- 3.3.1 功能需求24-25
- 3.3.2 非功能需求25-27
- 3.3.3 用例图27-28
- 3.3.4 关键用例描述28-34
- 3.4 系统总体设计34-35
- 3.4.1 系统设计目标34
- 3.4.2 总体结构34-35
- 3.5 系统模块设计35-48
- 3.5.1 模块划分36-37
- 3.5.2 distcp模块37-38
- 3.5.3 bundler_pretreat模块38-40
- 3.5.4 bundler模块40-42
- 3.5.5 extractor_asp模块42-43
- 3.5.6 extractor_clk模块43-44
- 3.5.7 extractor_feature模块44-46
- 3.5.8 joiner模块46-47
- 3.5.9 exporter模块47-48
- 3.6 本章小结48-49
- 第四章 广告特征提取系统的实现49-70
- 4.1 extractor_asp模块的实现49-56
- 4.1.1 数据结构49-53
- 4.1.2 详细实现53-56
- 4.2 extractor_feature模块的实现56-60
- 4.2.1 数据结构56-58
- 4.2.2 详细实现58-60
- 4.3 joiner模块的实现60-65
- 4.3.1 数据结构60-63
- 4.3.2 详细实现63-65
- 4.4 部署与评估65-67
- 4.5 测试工作67-68
- 4.6 本章小结68-70
- 第五章 总结与展望70-72
- 5.1 总结70-71
- 5.2 进一步工作展望71-72
- 参考文献72-74
- 致谢74-76
【共引文献】
中国期刊全文数据库 前10条
1 郎波;张博宇;;面向大数据的非结构化数据管理平台关键技术[J];信息技术与标准化;2013年10期
2 邵景峰;崔尊民;王进富;白晓波;;大数据下纺织制造执行系统的构建[J];纺织器材;2013年06期
3 张亚楠;谭跃生;;基于MapReduce的并行遮盖文本聚类算法[J];内蒙古科技大学学报;2013年03期
4 周国亮;朱永利;王桂兰;;CC-MRSJ:Hadoop平台下缓存敏感的星型联接算法[J];电信科学;2013年10期
5 王鹏;黄焱;刘峰;安俊秀;;大数据技术中计算与数据的协作机制[J];成都信息工程学院学报;2014年01期
6 杜政颉;王鹏;黄焱;郎福通;;一种基于Storm编程模型的迭代Topology方案[J];成都信息工程学院学报;2014年01期
7 范飞;黄文明;邓珍荣;;Oozie工作流在Mahout分布式数据挖掘中的应用[J];桂林电子科技大学学报;2014年01期
8 丁玉成;诸葛晴凤;沙行勉;;云计算环境下排序算法的性能分析[J];重庆大学学报;2014年04期
9 乔媛媛;刘芳;凌艳;尹劲松;;云计算环境下MapReduce的资源建模与性能预测[J];北京邮电大学学报;2014年S1期
10 刘琼;赵荣;孙立坚;;Map/Reduce框架下的粗糙集空间数据挖掘改进算法[J];测绘科学;2014年05期
中国重要会议论文全文数据库 前7条
1 乔媛媛;刘芳;凌艳;尹劲松;;云计算环境下MapReduce的资源建模与性能预测[A];2013年全国通信软件学术会议论文集[C];2013年
2 Xiaoguang Han;Jigang Sun;Wu Qu;Xuanxia Yao;;Distributed Malware Detection based on Binary File Features in Cloud Computing Environment[A];第26届中国控制与决策会议论文集[C];2014年
3 陈佐旗;余柏蒗;吴健平;;基于GPU通用计算的遥感数据处理——以计算地表太阳辐射值为例[A];第十八届中国环境遥感应用技术论坛论文集[C];2014年
4 白永超;付伟;辛阳;;基于Hadoop和Nutch的分布式搜索引擎研究与仿真[A];第十九届全国青年通信学术年会论文集[C];2014年
5 李超越;徐国胜;;Hadoop公平调度算法的改进[A];第十九届全国青年通信学术年会论文集[C];2014年
6 张恺玉;陈磊;;一种基于Hadoop架构的指挥系统大数据挖掘方法[A];第三届中国指挥控制大会论文集(上册)[C];2015年
7 朱健军;张彤;吴哲夫;;基于权值的Hadoop调度算法改进与实现[A];浙江省电子学会2014学术年会论文集[C];2014年
中国博士学位论文全文数据库 前10条
1 李健;云计算环境下最小化运营开销的调度技术研究[D];北京邮电大学;2013年
2 韩晶;大数据服务若干关键技术研究[D];北京邮电大学;2013年
3 程祥;高效可靠的虚拟网络映射技术研究[D];北京邮电大学;2013年
4 李韧;基于Hadoop的大规模语义Web本体数据查询与推理关键技术研究[D];重庆大学;2013年
5 卢风顺;面向CPU/GPU异构体系结构的并行计算关键技术研究[D];国防科学技术大学;2012年
6 孙鹏;动车组维修物联网及其关键技术研究[D];中国铁道科学研究院;2013年
7 肖奎;维基百科大数据的知识挖掘与管理方法研究[D];武汉大学;2013年
8 程兴国;仿生算法的动态反馈机制及其并行化实现方法研究[D];华南理工大学;2013年
9 马冯;数据密集型计算环境下贝叶斯网的学习、推理及应用[D];云南大学;2013年
10 韩海雯;MapReduce计算任务调度的资源配置优化研究[D];华南理工大学;2013年
中国硕士学位论文全文数据库 前10条
1 陈贞;HDFS环境下的访问控制技术研究[D];重庆大学;2013年
2 张丹;HDFS中文件存储优化的相关技术研究[D];南京师范大学;2013年
3 潘吴斌;基于云计算的并行K-means气象数据挖掘研究与应用[D];南京信息工程大学;2013年
4 赵洪昌;云计算下的关联分析和模糊聚类研究[D];南京信息工程大学;2013年
5 汪洋;通信网云计算平台资源调度策略与算法研究[D];南昌大学;2013年
6 吕天然;基于MapReduce的可视化工作流遥感并行处理平台及关键技术研究[D];河南大学;2013年
7 但光祥;云计算环境下混合加密算法研究与实现[D];重庆大学;2013年
8 周涛;基于Hadoop的遥感数字图像处理方法研究[D];东北师范大学;2013年
9 程伟;海量信令并行即时分析系统的研究与设计[D];中国海洋大学;2013年
10 贾玉辉;面向语音交互的云计算系统的研究[D];中国海洋大学;2013年
,本文编号:1095034
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/1095034.html