当前位置:主页 > 文艺论文 > 广告艺术论文 >

基于Spark的数据管理平台的设计与实现

发布时间:2017-05-24 01:09

  本文关键词:基于Spark的数据管理平台的设计与实现,由笔耕文化传播整理发布。


【摘要】:随着Android操作系统的快速发展,以Android智能手机为阵营的手机APP呈现出爆发式的增长,用户的娱乐时间也从PC端转移到了移动端。用户每天运行APP产生大量的日志文件数据成为挖掘用户兴趣爱好的重要数据来源,通过用户的兴趣爱好来准确把握用户群体,圈定高质量的用户群体,定向投放广告与内容分发,可以提高营销效益。本文首先介绍了相关的背景,然后深入介绍数据处理领域的相关技术,包括分布式计算框架Spark、分布式文件系统HDFS等,同时介绍了用户画像系统和推荐系统的相关算法。最后,基于Spark构建了大数据管理平台DMP,使用Spark生态圈的数据处理技术构建高可用的数据管理平台,在此基础之上进行APP的推荐,取得了良好的效果。本论文的主要研究成果包括:(1)针对企业内部运营部门的实际需求,并结合当前大数据领域的相关技术,设计了基于Spark集群的数据管理平台总体架构,以满足运营部门APP内容分发的需求。(2)设计数据仓库,使用Spark编程模型实现数据仓库ETL自动化操作。(3)设计用户画像系统,给每一个用户都打上详细的属性维度标签和兴趣维度标签,并且使用NoSQL数据库存储标签,构建完整的可扩展的用户画像系统。(4)设计推荐系统的引擎。针对用户的历史数据,设计使用推荐系统的相关算法。
【关键词】:DMP 数据管理 用户画像 Spark 标签系统 APP
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.52
【目录】:
  • 摘要4-5
  • Abstract5-11
  • 第1章 绪论11-16
  • 1.1 课题背景和意义11-12
  • 1.2 国内外发展现状12-14
  • 1.2.1 数据处理技术发展现状12-13
  • 1.2.2 数据仓库发展现状13
  • 1.2.3 DMP数据管理平台发展现状13-14
  • 1.3 本文的主要研究内容14-15
  • 1.4 本文组织结构安排15-16
  • 第2章 数据处理相关技术16-34
  • 2.1 Hadoop分布式文件系统16-18
  • 2.1.1 HDFS分布式文件系统简介16-17
  • 2.1.2 HDFS分布式文件系统架构17-18
  • 2.2 Spark分布式计算框架18-23
  • 2.2.1 Spark简述18-19
  • 2.2.2 Spark整体运行架构19-21
  • 2.2.3 Spark上层应用框架21-22
  • 2.2.4 Spark与MapReduce比较22-23
  • 2.3 Hive数据仓库23-24
  • 2.4 HBase列式存储数据库24-27
  • 2.4.1 HBase基本架构24-25
  • 2.4.2 HBase数据模型25-27
  • 2.4.3 HBase的特点27
  • 2.5 用户画像系统简述27-28
  • 2.6 推荐系统简述28-33
  • 2.6.1 推荐系统简介28-29
  • 2.6.2 推荐算法29-32
  • 2.6.2.1 协同过滤29-31
  • 2.6.2.2 混合推荐系统31-32
  • 2.6.3 推荐系统评价指标32-33
  • 2.7 本章小结33-34
  • 第3章 基于Spark的数据管理平台设计34-60
  • 3.1 数据管理平台总体架构图34-37
  • 3.2 数据仓库的设计37-44
  • 3.2.1 原始层数据流程设计38-41
  • 3.2.2 数据集描述41
  • 3.2.3 数据仓库表设计41-43
  • 3.2.4 自动上传文件功能设计43
  • 3.2.5 IP解析服务设计43-44
  • 3.3 用户画像系统44-56
  • 3.3.1 用户画像的详细架构45-47
  • 3.3.2 HBase用户标签数据库的设计47-50
  • 3.3.3 标签算法设计50-56
  • 3.3.3.1 数据集描述50-51
  • 3.3.3.2 apk相似度算法设计51-54
  • 3.3.3.3 用户标签标识实现算法54-56
  • 3.4 推荐系统引擎56-59
  • 3.5 本章小结59-60
  • 第4章 基于Spark的数据管理平台的实现60-77
  • 4.1 数据仓库的实现60-64
  • 4.1.1 自动上传工具的实现60-61
  • 4.1.2 IP解析服务的实现61-62
  • 4.1.2.1 IP解析服务端提供者的实现61
  • 4.1.2.2 IP解析客户端消费者实现61-62
  • 4.1.3 parquet文件表的实现62-63
  • 4.1.4 SparkSQL数据查询63-64
  • 4.1.5 其他语言查询64
  • 4.2 用户画像系统的实现64-72
  • 4.2.1 SparkSQL查询数据仓库64-66
  • 4.2.2 用户标签实现66-69
  • 4.2.2.1 基于编辑距离的APP相似度查找树算法的实现67-69
  • 4.2.2.2 HBase插入用户标签的实现69
  • 4.2.3 用户数据可视化实现69-71
  • 4.2.4 用户画像扩展71-72
  • 4.3 推荐系统引擎的实现72
  • 4.4 DMP数据管理平台操作72-76
  • 4.5 本章小结76-77
  • 第5章 DMP数据管理平台的部署与测试77-81
  • 5.1 实验环境的配置与部署77-79
  • 5.1.1 硬件部署77
  • 5.1.2 软件部署77-79
  • 5.2 系统效果测试79-81
  • 第6章 总结与展望81-83
  • 6.1 工作总结81
  • 6.2 下一步工作81-83
  • 参考文献83-87
  • 致谢87

【相似文献】

中国期刊全文数据库 前10条

1 黄行;;构筑历史数据管理平台[J];金融电子化;2005年05期

2 付强;萧蕴诗;;油田数据管理平台的研究与开发[J];佳木斯大学学报(自然科学版);2006年04期

3 吴燕;;统一数据管理平台[J];信息系统工程;2008年02期

4 牟彬;;推进银行数据管理平台系统建设 为银行应用系统提供基础支持[J];金融电子化;2005年09期

5 陈德旺;魏天磊;侯赞;;嵌入式数字轨道地图数据管理平台的研究与设计[J];铁路计算机应用;2010年07期

6 孔维生;沈春山;吴仲城;申飞;;稳态强磁场数据管理平台的设计与实现[J];计算机工程与设计;2011年04期

7 董冬;朱成亮;胡瑛;刘晓;李恒;;试验数据管理平台设计研究[J];火箭推进;2014年04期

8 关颖;陈云鹏;;分析网络化环境监测数据管理平台设计与开发[J];计算机光盘软件与应用;2013年13期

9 冯宇;;非结构化数据管理平台研究与建设[J];电力信息化;2012年02期

10 万俊;;试验数据管理平台建设的研究----以飞机研制单位为例[J];数字技术与应用;2014年04期

中国重要报纸全文数据库 前6条

1 李群立 王忠贤;费县地税局 依托数据管理平台 加强数据检查考核[N];联合日报;2009年

2 记者 李建国;内蒙古建成统一水资源数据管理平台[N];中国水利报;2014年

3 ;客户数据管理平台DataMatch发布[N];计算机世界;2008年

4 郭涛;H3C UDM统一数据管理平台[N];中国计算机报;2008年

5 本报记者 邹大斌;VMware中国研发进入核心领域[N];计算机世界;2011年

6 记者 桂雪琴;联通信息“孤岛” 为精益造船夯实基础[N];中国船舶报;2012年

中国硕士学位论文全文数据库 前10条

1 朱颖;电力系统海量实时数据管理平台设计与实现[D];华北电力大学;2015年

2 武元平;A大学主数据管理平台解决方案设计[D];内蒙古大学;2015年

3 杨楚骅;基于SOA的水利地理信息数据管理平台的设计与实现[D];中山大学;2015年

4 刘鹏;基于Spark的数据管理平台的设计与实现[D];浙江大学;2016年

5 谢家旺;基于云计算的寻畅网数据管理平台开发[D];复旦大学;2010年

6 奈存剑;虚拟化数据管理平台研究[D];华中科技大学;2013年

7 张宇波;上海空气质量自动监测数据管理平台设计与开发[D];复旦大学;2012年

8 石路遥;广告投放数据管理平台的设计与实现[D];北京交通大学;2015年

9 李勇;主数据管理平台在国药集团系统整合中应用研究[D];电子科技大学;2012年

10 王凯;面向SLA的网络运行监测系统[D];电子科技大学;2008年


  本文关键词:基于Spark的数据管理平台的设计与实现,由笔耕文化传播整理发布。



本文编号:389499

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/389499.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户36130***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com