基于大数据的铁路客运用户画像系统研究及应用
【学位授予单位】:中国铁道科学研究院
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:U293.2;TP311.13
【图文】:
图 2-1Apache Flume 架构Fig.2-1 Apache Flume architectureFlume 的最小独立运行单元是 Agent,每一个 Agent 相当于一个小的虚Flume 主要由 Source、Channel、Sink 组件构成,不同类型组件之间可以进组合来满足不同复杂度和需求的系统。Source 组件主要实现对数据发送方志数据的采集接收,Channel 组件主要负责建立 Source 和 Sink 组件的临时道,Sink 组件主要实现了将采集到的数据发送到存储、分析、缓存等系统实现数据的最终存储。Flume 具有高度可扩展性,支持多级分流处理,可以根据不同的业务功能需求对 Flume 的组件进行不同方式的组合,从而构建出一套低耦合、高可用的强壮的采集系统。(2) Kafka 分布式发布订阅消息系统Kafka[14]是最初由 Linkedin 公司开发的一个分布式,具有高吞吐量、可扩展性、持久性、可靠性、容错性、高并发性的基于发布与订阅模式的
图 2-2 Kafka 主要架构Fig.2-2 Kafka main architectureKafka 主要由 Broker、Topic、Partition、Producer、Consumer Group、Zookee等组件构成,详细介绍如下:Broker:Kafka 集群包含一个或多个服务器,这种服务器被称为 broker。Topic:每条发布到 Kafka 集群的消息都有一个类别,这个类别被称为 Top物理上不同 Topic 的消息分开存储,逻辑上一个 Topic 的消息虽然保存于一个多个 broker 上,但用户只需指定消息的 Topic 即可生产或消费数据而不必关数据存于何处。Partition:Partition 是物理上的概念,每个 Topic 包含一个或多个 PartitioProducer:负责发布消息到 Kafka broker。Consumer:消息消费者,向 Kafka broker 读取消息的客户端。Consumer Group:每个 Consumer 属于一个特定的 Consumer Group,可为个 Consumer 指定 group name,若不指定 group name 则属于默认的 group。
图 2-3 Spark Streaming 主要架构Fig.2-3 Spark Streaming main architectureSpark Streaming 处理机制:先接收实时流的数据,并根据一定的时间间隔拆一批批的数据,每批次的数据在 Spark 内核中对应一个 RDD 实例,然后通过rk 核心的作业处理这些批数据,最终对处理后的数据进行存储。非常适合实时志的结构化处理。其具有流式处理、高容错、延迟低、吞吐量高等特点,并供了丰富的 API 接口对接 HDFS、Hive、Kafka、Flume 等系统。 数据存储技术研究.1 Hive 数据仓库Hive[16]是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,用来进行数据提取转换加载(ETL),这是一种可以存储、查询和分析存储在doop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为
【参考文献】
相关期刊论文 前10条
1 周飞;高茂庭;;基于PageRank的网络社区意见领袖发现算法[J];计算机工程;2018年02期
2 郭鹏程;李迎春;付春燕;曹炳尧;;海量日志数据采集系统的设计与优化[J];电子测量技术;2018年01期
3 赵文芳;刘旭林;;Spark Streaming框架下的气象自动站数据实时处理系统[J];计算机应用;2018年01期
4 曾俊;;一种基于Hadoop架构的并行挖掘算法研究[J];现代电子技术;2018年01期
5 赵哲;谭海波;赵赫;王卫东;李晓风;;基于Zabbix的网络监控系统[J];计算机技术与发展;2018年01期
6 陈沛;马卫东;;一种基于Nginx的负载均衡算法实现[J];电子设计工程;2017年19期
7 郝晓培;单杏花;杨立鹏;王拓;;基于大数据技术的铁路互联网售票异常用户行为分析研究与实现[J];铁路计算机应用;2017年05期
8 宋佳慧;刘远刚;林琳;李绅弘;许帆;;基于eCharts的动态统计图表绘制技术研究[J];电脑知识与技术;2017年12期
9 陶抒青;刘晓强;李柏岩;Shen Jie;;基于密度聚类和投票判别的三维数据去噪方法[J];计算机应用研究;2018年02期
10 艾新;郑晓娟;;基于HIVE的通信系统KPI数据存储方案的信令系统构建研究[J];通讯世界;2017年02期
相关硕士学位论文 前9条
1 何雪莹;探索性数据可视化分析系统的设计与实现[D];西南交通大学;2017年
2 王郑合;基于Kafka的消息队列在射天文数据处理中应用的研究[D];昆明理工大学;2017年
3 陶满;SZA航空公司营销策略研究[D];电子科技大学;2016年
4 贺录;基于云计算的医疗器械检测平台设计与实现[D];西安工业大学;2016年
5 邱藤;基于高斯混合模型的EM算法及其应用研究[D];电子科技大学;2015年
6 张哲;基于微博数据的用户画像系统的设计与实现[D];华中科技大学;2015年
7 刘静;数据仓库在零售业商业智能系统的应用[D];江苏科技大学;2014年
8 付威;面向实时数据仓库的达梦数据交换平台改进[D];华中科技大学;2012年
9 金奎;基于分布式存储系统的数据安全传输的设计与实现[D];哈尔滨工业大学;2009年
本文编号:2784708
本文链接:https://www.wllwen.com/guanlilunwen/yingxiaoguanlilunwen/2784708.html