基于大数据的铁路客运用户画像系统研究及应用

发布时间：2020-08-07 23:51

【摘要】：随着铁路的高速发展以及“互联网+”商业模式的快速推广,互联网已渗透到铁路客运的各个服务场景,铁路互联网用户呈现爆发式的增长,已经积累了大量的用户行为数据。通过用户的行为数据构建铁路客运用户画像系统,能够更加准确的把握旅客群体,圈定高质量旅客,针对不同的旅客群体制定个性化、差异化的营销和服务策略,在细分价值等级的旅客基础上合理配置铁路客运资源,实现铁路从传统的营销策略拓展为以旅客价值为依据的铁路利益最大化和旅客服务质量最优化的共赢策略。本文首先介绍了相关的社会背景和技术背景,深入的研究了大数据生态环境中的相关技术,包括分布式文件系统HDFS、分布式数据仓库工具Hive、分布式计算框架Spark等。同时研究并实现了铁路客运用户画像系统的总体架构和用户标签计算的相关算法。最后介绍了铁路客运用户画像系统的运用场景,取得了良好的应用效果。本论文主要研究成果包括:(1)针对铁路12306互联网售票系统,站车WIFI运营服务、广告平台、互联网订餐等信息系统的实际需求,并结合当前大数据领域的相关技术,研究并设计了铁路客运用户画像系统的总体架构。(2)针对铁路不同信息系统产生的数据特点,深入研究并实现了结构化数据以及非结构化数据的批量处理和实时增量处理的方法。(3)对铁路旅客行为数据进行了深入的研究,设计了铁路旅客标签体系,对基础标签、统计类标签、潜在标签的计算方法进行了详细的研究。(4)针对海量的旅客行为数据,研究并实现了基于MapReduce的K-means算法、BP神经网络算法、PassengerRank算法,提高了潜在标签(例如:用户价值)的计算效率。(5)针对铁路客运用户画像系统,设计了系统安全预警系统,实时监控铁路客运用户画像系统的运行情况,以实现运维人员对系统运行异常的快速反应。(6)基于铁路客运用户画像系统,介绍了多个应用场景,研究并设计了一套完整的为第三方提供数据核验服务的平台,并取得了良好的应用效果。
【学位授予单位】：中国铁道科学研究院
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：U293.2;TP311.13
【图文】：

架构图,架构,组件

图 2-1Apache Flume 架构Fig.2-1 Apache Flume architectureFlume 的最小独立运行单元是 Agent，每一个 Agent 相当于一个小的虚Flume 主要由 Source、Channel、Sink 组件构成，不同类型组件之间可以进组合来满足不同复杂度和需求的系统。Source 组件主要实现对数据发送方志数据的采集接收，Channel 组件主要负责建立 Source 和 Sink 组件的临时道，Sink 组件主要实现了将采集到的数据发送到存储、分析、缓存等系统实现数据的最终存储。Flume 具有高度可扩展性，支持多级分流处理，可以根据不同的业务功能需求对 Flume 的组件进行不同方式的组合，从而构建出一套低耦合、高可用的强壮的采集系统。(2) Kafka 分布式发布订阅消息系统Kafka[14]是最初由 Linkedin 公司开发的一个分布式，具有高吞吐量、可扩展性、持久性、可靠性、容错性、高并发性的基于发布与订阅模式的

架构图,架构,消息

图 2-2 Kafka 主要架构Fig.2-2 Kafka main architectureKafka 主要由 Broker、Topic、Partition、Producer、Consumer Group、Zookee等组件构成，详细介绍如下：Broker：Kafka 集群包含一个或多个服务器，这种服务器被称为 broker。Topic：每条发布到 Kafka 集群的消息都有一个类别，这个类别被称为 Top物理上不同 Topic 的消息分开存储，逻辑上一个 Topic 的消息虽然保存于一个多个 broker 上，但用户只需指定消息的 Topic 即可生产或消费数据而不必关数据存于何处。Partition：Partition 是物理上的概念，每个 Topic 包含一个或多个 PartitioProducer：负责发布消息到 Kafka broker。Consumer：消息消费者，向 Kafka broker 读取消息的客户端。Consumer Group：每个 Consumer 属于一个特定的 Consumer Group，可为个 Consumer 指定 group name，若不指定 group name 则属于默认的 group。

架构图,架构

图 2-3 Spark Streaming 主要架构Fig.2-3 Spark Streaming main architectureSpark Streaming 处理机制：先接收实时流的数据，并根据一定的时间间隔拆一批批的数据，每批次的数据在 Spark 内核中对应一个 RDD 实例，然后通过rk 核心的作业处理这些批数据，最终对处理后的数据进行存储。非常适合实时志的结构化处理。其具有流式处理、高容错、延迟低、吞吐量高等特点，并供了丰富的 API 接口对接 HDFS、Hive、Kafka、Flume 等系统。数据存储技术研究.1 Hive 数据仓库Hive[16]是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，用来进行数据提取转换加载（ETL），这是一种可以存储、查询和分析存储在doop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为

【参考文献】