基于大数据平台的通讯数据管理系统研究与应用

发布时间:2020-11-11 02:10
   近年来,随着通讯行业数据量的急剧膨胀,通讯运营商越来越重视数据的价值,对大数据技术的要求越来越高。很多公司都开始利用其资源优势,挖掘数据价值,开拓属于自己的核心业务。因为通讯业务种类繁多,系统繁杂,从而大数据平台的运维成本也日渐提高。由此可见一个高性能的,安全可拓展的,便于管理的大数据管理系统的运用将有助企业免受繁琐的系统运维之苦,特别是在通讯业务系统中,能够助力企业专注于自身业务的开发。本文首先对已有的数据管理系统进行调研,分析其优点和短板。针对其不太轻量,数据迁移的时效性不足,数据分析不够创新等问题,设计出一款比较高效的、方便易用的大数据管理平台。首先对大数据管理系统进行设计,根据大数据处理的流程,依托于通讯大数据平台架构,设计了接口采集、程序调度、数据聚合、平台告警、营销分析、可视化六个模块。管理系统主要在于数据的接入和数据的挖掘分析,所以本文的主要模块是程序调度、数据聚合和营销分析模块,而其他模块是基于企业原有的大数据管理系统做了少量改进。本文主要围绕程序调度、数据聚合存储和营销分析模块这三个模块做了相关研究工作。因为大数据平台对于数据的处理主要有生产环境和测试环境,除了生产环境的大数据集群,本文基于云计算容器技术创建业务测试环境,包括搭建相应的docker容器集群。接着设计并搭建了相应的调度模块架构流程,设计了相应的调度规则和相关调度信息字段表,并改进了数据聚合存储。程序调度模块设计得更加轻量化便于使用,数据迁移模块使数据迁移的时效性增加。在系统的营销分析模块中,我们在传统的通讯数据仓库的基础上进行TopN产品实时销量推荐,用大数据flink构建实时数据仓库业务应用情景进行销量分析,用深度学习DNN预测算法进行客户业务数据预测。并且利用相关通讯实验数据,对相应模块进行实验和测试,一系列测试验证了管理系统的有效性。
【学位单位】:湖北工业大学
【学位级别】:硕士
【学位年份】:2020
【中图分类】:TP311.13;F626
【部分图文】:

架构图,架构,体系


湖北工业大学硕士学位论文5第2章相关知识系统介绍2.1云计算云计算一种利用互联网实现随时随地、按需、便捷地访问共享资源池(如计算设施、存储设备、应用程序等)的计算模式。云计算模式具有按需自助服务、广泛的网络访问、共享的资源池、快速弹性能力、可度量的服务等五个特点。云计算有4种部署方式:私有云、社区云、公有云、混合云。云服务体系架构总共包含三个层次,在与计算日益成熟的今天,其已经形成了一套完整的架构体系,其系统结构模型可详见图2-1。图2-1云服务架构体系第一部分是IaaS,即InfrastructureasaService,Iaas模式能通过供应商得到所需计算、存储资源来满足装载需求,仅仅支付一定费用来租赁资源,供应商能给予有效的管理,帮助用户省去大量麻烦。第二部分是PaaS模式,平台及服务。程序员在一个平台,此平台提供软件开发工具包、文档及运行环境以助于完成各项目的开发、调试及运行。第三部分是SoftwareasaService,简称为SaaS,软件即服务。以web的形式将云上的程序和应用让用户使用,是既已完成的软件服务。

架构图,数据仓库,数据,主题


湖北工业大学硕士学位论文7图2-2通讯数据仓库架构图通过制定模型设计规范,帮助模型设计人员在模型设计过程能达到思想统一,设计出的模型更易理解,易用。不同的层数都有不同的作用和功能,每个层数的定义如下图所示:ODS数据接口层:存放来自各个系统的原始数据,一般保留7天,不对数据做任何操作,ODS层的数据不会做压缩操作。DWD数据整合层:对ODS层数据进行清洗、转换,按主题域存储数据,进行简单的关联。比如映射表的关联,无法说明字段的意义,在这一层裁剪掉。DW业务汇总层:根据业务分析需求,并按二级主题域的数据进行汇总。应用分析的话,原则上先使用DW,再访问DWD层,最后访问ODS层。DM信息子层:建立跨域的业务主题模型,比如中高端用户、拍照用户等,DM层不能进行同层引用。ST应用层:针对前端进行设计,大部分的表都是汇总数据,没有明细数据。2.2.2.基于Flink的数据流式计算为了解决日益增长的实时数据处理需求,一些公司正在将其部分大数据基础架构转换为流式处理模型。基于流数据的基础架构不仅能够更好地解决延迟敏感

状态图,大数,和会,状态


湖北工业大学硕士学位论文9图2-3计算窗口和会话窗口状态大数据起源自批处理,Spark最初的定位就是改进Hadoop,更快速的进行批处理.Storm擅长的则是进行无状态的流计算(在无状态的流计算领域,它的延迟是最小的),而Flink则是Storm的下一代解决方案(当然Flink的设计之初并不是改进storm),能够进行高吞吐,低延迟(毫秒级)的有状态流计算。我们知SparkStreaming也可以处理mini-batch的,但是却要调度一个批处理作业,开销大。Flink只需启动一个流计算拓扑,处理持续不断的数据,Flink的处理延迟在毫秒级别.如果计算中涉及到多个网络shuffle,Flink和spark之间的延迟差距会进一步拉大。2.3DNN网络概述神经网络是基于感知机的扩展来的,DNN可以看作隐藏层多的神经网络模型,DNN也叫做多层感知机(Multi-Layerperceptron,MLP)。选择DNN,是因为在神经网络的训练层数较多时,容易出现计算资源不足和带标注的训练数据等问题,还会表现出梯度消失问题和梯度爆炸问题。DNN与NN主要的区别在于把sigmoid函数替换成了ReLU,maxout,克服了梯度消失的问题。根据不同层的位置来看,DNN内部的神经网络层可以分为输入层,隐藏层和输出层三层。一般来说首层是输入层,中间的层数全部是隐藏层,最后一层是输出层(如下图2-4)。
【参考文献】

相关期刊论文 前10条

1 徐雅斌;孙晓晨;;位置社交网络的个性化位置推荐[J];北京邮电大学学报;2015年05期

2 刘冬;;大数据时代企业管理的创新[J];中国商贸;2014年32期

3 张会根;张博;赵焕芳;;基于大数据分析技术的智能运维体系探索[J];金融电子化;2014年12期

4 叶可江;吴朝晖;姜晓红;何钦铭;;虚拟化云计算平台的能耗管理[J];计算机学报;2012年06期

5 高文涛;郭明森;;Cloud Foundry:第一个开源Platform as a Service[J];科技传播;2012年01期

6 吴劲松;陈孚;;云计算发展及应用研究[J];广西通信技术;2011年02期

7 张建勋;古志民;郑超;;云计算研究进展综述[J];计算机应用研究;2010年02期

8 蔡键;王树梅;;基于Google的云计算实例分析[J];电脑知识与技术;2009年25期

9 陈康;郑纬民;;云计算:系统实例与研究现状[J];软件学报;2009年05期

10 范昊;余婷;;一种新型的网络分布式计算——云计算[J];高性能计算技术;2008年06期


相关博士学位论文 前2条

1 许贺洋;云计算环境下的任务调度与虚拟机整合研究[D];电子科技大学;2017年

2 徐昕;基于博弈论的云计算资源调度方法研究[D];华东理工大学;2015年


相关硕士学位论文 前4条

1 陈大林;面向银行应用场景的大数据平台管理系统设计与实现[D];北京邮电大学;2019年

2 王玲;云计算下任务调度算法的研究与实现[D];电子科技大学;2016年

3 宋乐怡;海量出租车轨迹数据分析与位置推荐服务[D];华东师范大学;2015年

4 杨小晔;IT运维管理平台的设计与实现[D];北京邮电大学;2011年



本文编号:2878602

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2878602.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ff783***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com