基于在线视频用户数据的DMP系统的设计与实现
发布时间:2017-06-07 14:09
本文关键词:基于在线视频用户数据的DMP系统的设计与实现,,由笔耕文化传播整理发布。
【摘要】:随着个人电脑和智能手机的不断普及,以及网络带宽成本的不断下降,在线观看网络视频已经成为人们生活中常见的一种娱乐或学习方式。国内几个著名的在线视频网站每天都会有亿级的访问量,因此会产生大量的用户数据。如何存储和有效的利用这些数据,来支持公司的广告精准营销,用户统计,数据挖掘,效果评估等不同的业务场景,是需要解决的问题。针对此问题,本人所在的实习公司优酷土豆实现了一个DMP系统,即数据管理平台。在技术选型时,主要考虑以下几点:DMP的原始数据量非常大,对于数据处理能力要求高,但是这份数据的生成时效性要求不高。DMP需要有一个实时查询的接口来满足外部业务要求,对所生成的结果数据的操作需要有强大的实时计算技术来支撑。综合上述两点,我们在技术上分别采用了MapReduce的框架和SPARK的计算框架,来实现离线和实时的计算任务。在优酷土豆工作期间,本人主要参与和完成了DMP系统的需求分析,设计,开发,测试以及维护工作。工作内容如下:(1)参与并完成了系统的需求分析,包括功能需求与非功能需求。(2)参与并完成了系统的概要设计,包括系统的总体概要设计,数据预处理功能、数据合并功能、人群筛选与投影功能等功能模块的概要设计。(3)负责并完成了系统多个模块的详细设计与实现,包括标签体系的详细设计,日志解析模块的设计与实现,用户频道偏好挖掘设计与实现,用户偏好Top20子频道的设计与实现,用户广告关键词偏好的挖掘设计与实现,数据清洗模块的设计与实现,Hive中UDF函数的实现,数据合并模块的设计与实现,人群筛选管理接口详细设计与实现,人群投影接口详细设计与实现。(4)负责并完成了多个功能模块的测试用例编写与实际功能测试工作。(5)负责系统的维护与更新,包括自动化脚本的编写,以使各分区数据定时更新。在实现该项目的过程中,主要用到的技术为Hadoop 的 MapReduce框架以及Spark Sql,实现的语言为Java、Hive口shell脚本。使用Git进行版本控制,Maven进行项目管理。本系统目前已经上线,且运行稳定,公司多个业务场景和广告产品都已经做了对接,效果反响良好。
【关键词】:数据管理 MapReduce ETL处理 url解析 字符串分词 偏好挖掘 实时计算接口
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.52
【目录】:
- 致谢5-6
- 摘要6-7
- ABSTRACT7-12
- 1 引言12-15
- 1.1 项目背景及意义12
- 1.2 DMP发展现状12-13
- 1.3 本人工作总结13
- 1.4 论文组织结构13-15
- 2 关键技术介绍15-21
- 2.1 HDFS功能介绍15-16
- 2.2 Mapreduce框架介绍16-17
- 2.3 Hive功能原理介绍17
- 2.4 Spark功能原理介绍17-20
- 2.5 Git的原理介绍20
- 2.6 Jcseg分词工具20
- 2.7 本章小结20-21
- 3 DMP系统的可行性分析与需求分析21-29
- 3.1 系统可行性分析21-22
- 3.1.1 市场可行性分析21
- 3.1.2 技术可行性分析21-22
- 3.1.3 经济可行性分析22
- 3.2 系统总体需求概述22-23
- 3.3 系统功能需求分析23-27
- 3.3.1 基础层模块功能需求24-25
- 3.3.2 数据合并功能需求25
- 3.3.3 人群筛选与投影功能需求25-27
- 3.4 系统非功能需求分析27-28
- 3.4.1 性能需求27
- 3.4.2 可靠性需求27
- 3.4.3 易用性需求27-28
- 3.4.4 可扩展性需求28
- 3.5 本章小结28-29
- 4 系统概要设计29-34
- 4.1 系统架构设计29-33
- 4.1.1 基础层模块30-31
- 4.1.2 数据合并模块31-32
- 4.1.3 人群筛选与投影模块32-33
- 4.2 本章小结33-34
- 5 系统的详细设计与实现34-64
- 5.1 基础层模块34-55
- 5.1.1 标签体系设计34-36
- 5.1.2 日志解析子模块设计36-40
- 5.1.3 日志解析子模块的实现40-42
- 5.1.4 用户频道偏好挖掘设计42-43
- 5.1.5 用户频道偏好挖掘实现43-45
- 5.1.6 用户偏好Top20子频道挖掘设计45
- 5.1.7 用户偏好Top20子频道挖掘实现45-47
- 5.1.8 用户广告关键词偏好挖掘设计47-49
- 5.1.9 用户广告关键词偏好挖掘实现49-52
- 5.1.10 Hive中的一个UDF函数的实现52
- 5.1.11 数据清洗模块设计52-53
- 5.1.12 数据清洗模块的实现53-55
- 5.2 数据合并模块55-56
- 5.2.1 数据合并模块的设计55
- 5.2.2 数据合并模块的实现55-56
- 5.3 人群筛选与投影模块的设计与实现56-63
- 5.3.1 人群筛选管理设计56-58
- 5.3.2 人群筛选管理接口层详细设计58-61
- 5.3.3 人群投影管理设计61-62
- 5.3.4 人群投影管理模块接口详细设计62-63
- 5.4 本章小结63-64
- 6 系统的测试与代码审查64-69
- 6.1 功能测试64-68
- 6.2 code review规则68
- 6.3 本章小结68-69
- 7 结论69-70
- 参考文献70-72
- 附录A72-74
- 作者简历74-76
- 学位论文数据集76
【相似文献】
中国期刊全文数据库 前10条
1 袁楚;;手机在线视频似近实远[J];互联网天地;2009年04期
2 王道才;;不用工具 在线视频轻松拿下[J];电脑爱好者(普及版);2009年04期
3 ;艾瑞咨询:2012年中国在线视频行业六大盘点[J];电视技术;2013年02期
4 邓祖平;;在线视频广告监管系统[J];广播与电视技术;2013年02期
5 丁佳琪;;中国在线视频行业发展分析[J];传媒;2014年06期
6 南湖秋水;;在线视频体验影院模式[J];网友世界;2010年10期
7 loading;;从在线视频用户中消失[J];电脑迷;2004年10期
8 日出东方;;在线视频 不能没有你[J];电脑迷;2006年14期
9 惜朝;;流畅看电影,优酷优跳不(YouTube)都别卡[J];电脑爱好者;2009年02期
10 Aa酱;;向在线视频提要求[J];电脑迷;2009年06期
中国重要会议论文全文数据库 前1条
1 柴焱;李s
本文编号:429269
本文链接:https://www.wllwen.com/guanlilunwen/xiangmuguanli/429269.html