当前位置:主页 > 管理论文 > 营销论文 >

基于大数据的铁路客运用户画像系统研究及应用

发布时间:2020-08-07 23:51
【摘要】:随着铁路的高速发展以及“互联网+”商业模式的快速推广,互联网已渗透到铁路客运的各个服务场景,铁路互联网用户呈现爆发式的增长,已经积累了大量的用户行为数据。通过用户的行为数据构建铁路客运用户画像系统,能够更加准确的把握旅客群体,圈定高质量旅客,针对不同的旅客群体制定个性化、差异化的营销和服务策略,在细分价值等级的旅客基础上合理配置铁路客运资源,实现铁路从传统的营销策略拓展为以旅客价值为依据的铁路利益最大化和旅客服务质量最优化的共赢策略。本文首先介绍了相关的社会背景和技术背景,深入的研究了大数据生态环境中的相关技术,包括分布式文件系统HDFS、分布式数据仓库工具Hive、分布式计算框架Spark等。同时研究并实现了铁路客运用户画像系统的总体架构和用户标签计算的相关算法。最后介绍了铁路客运用户画像系统的运用场景,取得了良好的应用效果。本论文主要研究成果包括:(1)针对铁路12306互联网售票系统,站车WIFI运营服务、广告平台、互联网订餐等信息系统的实际需求,并结合当前大数据领域的相关技术,研究并设计了铁路客运用户画像系统的总体架构。(2)针对铁路不同信息系统产生的数据特点,深入研究并实现了结构化数据以及非结构化数据的批量处理和实时增量处理的方法。(3)对铁路旅客行为数据进行了深入的研究,设计了铁路旅客标签体系,对基础标签、统计类标签、潜在标签的计算方法进行了详细的研究。(4)针对海量的旅客行为数据,研究并实现了基于MapReduce的K-means算法、BP神经网络算法、PassengerRank算法,提高了潜在标签(例如:用户价值)的计算效率。(5)针对铁路客运用户画像系统,设计了系统安全预警系统,实时监控铁路客运用户画像系统的运行情况,以实现运维人员对系统运行异常的快速反应。(6)基于铁路客运用户画像系统,介绍了多个应用场景,研究并设计了一套完整的为第三方提供数据核验服务的平台,并取得了良好的应用效果。
【学位授予单位】:中国铁道科学研究院
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:U293.2;TP311.13
【图文】:

架构图,架构,组件


图 2-1Apache Flume 架构Fig.2-1 Apache Flume architectureFlume 的最小独立运行单元是 Agent,每一个 Agent 相当于一个小的虚Flume 主要由 Source、Channel、Sink 组件构成,不同类型组件之间可以进组合来满足不同复杂度和需求的系统。Source 组件主要实现对数据发送方志数据的采集接收,Channel 组件主要负责建立 Source 和 Sink 组件的临时道,Sink 组件主要实现了将采集到的数据发送到存储、分析、缓存等系统实现数据的最终存储。Flume 具有高度可扩展性,支持多级分流处理,可以根据不同的业务功能需求对 Flume 的组件进行不同方式的组合,从而构建出一套低耦合、高可用的强壮的采集系统。(2) Kafka 分布式发布订阅消息系统Kafka[14]是最初由 Linkedin 公司开发的一个分布式,具有高吞吐量、可扩展性、持久性、可靠性、容错性、高并发性的基于发布与订阅模式的

架构图,架构,消息


图 2-2 Kafka 主要架构Fig.2-2 Kafka main architectureKafka 主要由 Broker、Topic、Partition、Producer、Consumer Group、Zookee等组件构成,详细介绍如下:Broker:Kafka 集群包含一个或多个服务器,这种服务器被称为 broker。Topic:每条发布到 Kafka 集群的消息都有一个类别,这个类别被称为 Top物理上不同 Topic 的消息分开存储,逻辑上一个 Topic 的消息虽然保存于一个多个 broker 上,但用户只需指定消息的 Topic 即可生产或消费数据而不必关数据存于何处。Partition:Partition 是物理上的概念,每个 Topic 包含一个或多个 PartitioProducer:负责发布消息到 Kafka broker。Consumer:消息消费者,向 Kafka broker 读取消息的客户端。Consumer Group:每个 Consumer 属于一个特定的 Consumer Group,可为个 Consumer 指定 group name,若不指定 group name 则属于默认的 group。

架构图,架构


图 2-3 Spark Streaming 主要架构Fig.2-3 Spark Streaming main architectureSpark Streaming 处理机制:先接收实时流的数据,并根据一定的时间间隔拆一批批的数据,每批次的数据在 Spark 内核中对应一个 RDD 实例,然后通过rk 核心的作业处理这些批数据,最终对处理后的数据进行存储。非常适合实时志的结构化处理。其具有流式处理、高容错、延迟低、吞吐量高等特点,并供了丰富的 API 接口对接 HDFS、Hive、Kafka、Flume 等系统。 数据存储技术研究.1 Hive 数据仓库Hive[16]是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,用来进行数据提取转换加载(ETL),这是一种可以存储、查询和分析存储在doop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为

【参考文献】

相关期刊论文 前10条

1 周飞;高茂庭;;基于PageRank的网络社区意见领袖发现算法[J];计算机工程;2018年02期

2 郭鹏程;李迎春;付春燕;曹炳尧;;海量日志数据采集系统的设计与优化[J];电子测量技术;2018年01期

3 赵文芳;刘旭林;;Spark Streaming框架下的气象自动站数据实时处理系统[J];计算机应用;2018年01期

4 曾俊;;一种基于Hadoop架构的并行挖掘算法研究[J];现代电子技术;2018年01期

5 赵哲;谭海波;赵赫;王卫东;李晓风;;基于Zabbix的网络监控系统[J];计算机技术与发展;2018年01期

6 陈沛;马卫东;;一种基于Nginx的负载均衡算法实现[J];电子设计工程;2017年19期

7 郝晓培;单杏花;杨立鹏;王拓;;基于大数据技术的铁路互联网售票异常用户行为分析研究与实现[J];铁路计算机应用;2017年05期

8 宋佳慧;刘远刚;林琳;李绅弘;许帆;;基于eCharts的动态统计图表绘制技术研究[J];电脑知识与技术;2017年12期

9 陶抒青;刘晓强;李柏岩;Shen Jie;;基于密度聚类和投票判别的三维数据去噪方法[J];计算机应用研究;2018年02期

10 艾新;郑晓娟;;基于HIVE的通信系统KPI数据存储方案的信令系统构建研究[J];通讯世界;2017年02期

相关硕士学位论文 前9条

1 何雪莹;探索性数据可视化分析系统的设计与实现[D];西南交通大学;2017年

2 王郑合;基于Kafka的消息队列在射天文数据处理中应用的研究[D];昆明理工大学;2017年

3 陶满;SZA航空公司营销策略研究[D];电子科技大学;2016年

4 贺录;基于云计算的医疗器械检测平台设计与实现[D];西安工业大学;2016年

5 邱藤;基于高斯混合模型的EM算法及其应用研究[D];电子科技大学;2015年

6 张哲;基于微博数据的用户画像系统的设计与实现[D];华中科技大学;2015年

7 刘静;数据仓库在零售业商业智能系统的应用[D];江苏科技大学;2014年

8 付威;面向实时数据仓库的达梦数据交换平台改进[D];华中科技大学;2012年

9 金奎;基于分布式存储系统的数据安全传输的设计与实现[D];哈尔滨工业大学;2009年



本文编号:2784708

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/yingxiaoguanlilunwen/2784708.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1a492***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com