基于Spark的快递申诉业务数据分析系统研究与实现
发布时间:2021-02-16 16:34
随着互联网的发展及我国GDP和对外进出口货物量的持续增长,快递业飞速发展。2018年,全国快递服务企业业务量累计完成507.1亿件,同比增长26.6%;但快递途中由于多方面的问题,导致用户延迟收件或对过程服务不满意。随着快递服务监管逐渐完善,越来越多的用户通过邮政申诉维护自己权益,快递业投诉量呈现上升趋势。针对目前邮政行业申诉数据量越来越大、人工处理效率低、实名制推广等问题,本研究对申诉业务相关数据进行大量数据分析,同时基于机器学习算法进行深入挖掘,并研发快递申诉业务数据分析系统以满足用户需求。该研究有助于提高申诉业务处理效率,为调整监管政策提供参考意见,具有一定的实用意义。本课题的研究点大致包含四个部分。1、申诉文本分类:申诉文本是用户在申诉网站中描写申述理由,请求重新处理对应事件而生成的文本。针对申诉数据含有强烈不满情绪及语法句法错误多的问题,本研究提出一个基于字符级卷积神经网络的申诉文本分类模型。实验证明研究提出的模型在中英文申诉数据上均可以达到非常好的效果。2、邮政服务时限预测:快件运送时限是快递服务非常重要的指标,而用户申诉的众多原因中,近40%都与延误相关。延误分析对降低用...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景及意义
1.2 相关研究现状
1.3 研究内容
1.3.1 申诉数据文本分类模型
1.3.2 基于申诉面单的邮政服务时限分析模型
1.3.3 申诉数据姓名合理性分析
1.3.4 基于Spark的快递申诉业务数据分析系统设计与实现
1.4 本研究论文组织结构
第二章 相关概念及相关工作
2.1 模型算法相关概念及相关工作
2.1.1 卷积神经网络
2.1.2 随机森林算法
2.2 分布式相关概念及相关工作
2.3 系统架构相关概念及相关工作
2.4 本章小结
第三章 申诉数据文本分类模型
3.1 基于字符级卷积神经网络的申诉数据文本分类模型
3.1.1 负面情绪移除模块
3.1.2 字符嵌入模块
3.1.3 特征提取模块
3.1.4 网络结构
3.2 实验验证
3.2.1 实验数据与对比模型
3.2.2 实验结果与分析
3.3 模型在申诉责任判断问题分类的延伸应用
3.4 本章小结
第四章 基于申诉面单的邮政时限分析模型
4.1 延误基本分析
4.1.1 距离时长分析
4.1.2 节点处理时间分析
4.1.3 天气
4.1.4 快件收到和发出时间分布
4.2 并行化延误预测模型
4.2.1 特征提取并行化实现
4.2.2 随机森林并行化实现
4.3 实验验证
4.2.3 实验数据
4.2.4 实验结果与分析
4.4 本章小结
第五章 申诉姓名合理性分析
5.1 姓名合理性判断规则
5.2 姓名不合理原因维度分析
5.3 姓名不合理企业维度分析
5.4 姓名不合理申诉原因分析
5.5 本章小结
第六章 基于Spark的快递申诉业务数据分析系统实现
6.1 系统需求分析
6.2 系统框架搭建
6.2.1 系统环境
6.2.2 系统架构
6.3 系统模块设计
6.3.1 数据支撑模块设计
6.3.2 数据挖掘模块设计
6.3.3 管理及数据应用模块设计
6.4 数据库设计
6.5 系统展示
6.6 本章小结
第七章 总结与展望
7.1 本文总结
7.2 展望
参考文献
致谢
攻读硕士研究生期间发表的论文
攻读硕士研究生期间发表的专利
【参考文献】:
期刊论文
[1]2018年LLDPE年度报告及2019年市场展望[J]. 袁志达,李洋,韩大宇. 塑料包装. 2018(06)
[2]基于Hadoop的邮政寄递大数据分析系统设计与实现[J]. 王卫锋,杨林. 中国科学院大学学报. 2017(03)
[3]基于Spark Streaming的实时数据分析系统及其应用[J]. 韩德志,陈旭光,雷雨馨,戴永涛,张肖. 计算机应用. 2017(05)
[4]我国快递业投诉及其监管问题研究[J]. 狄浩林. 黑龙江对外经贸. 2010(06)
[5]运用层次分析法确定指标的权值[J]. 石振武,赵敏. 科技和产业. 2008(02)
[6]数据质量评估方法研究[J]. 杨青云,赵培英,杨冬青,唐世渭,童云海. 计算机工程与应用. 2004(09)
本文编号:3036618
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景及意义
1.2 相关研究现状
1.3 研究内容
1.3.1 申诉数据文本分类模型
1.3.2 基于申诉面单的邮政服务时限分析模型
1.3.3 申诉数据姓名合理性分析
1.3.4 基于Spark的快递申诉业务数据分析系统设计与实现
1.4 本研究论文组织结构
第二章 相关概念及相关工作
2.1 模型算法相关概念及相关工作
2.1.1 卷积神经网络
2.1.2 随机森林算法
2.2 分布式相关概念及相关工作
2.3 系统架构相关概念及相关工作
2.4 本章小结
第三章 申诉数据文本分类模型
3.1 基于字符级卷积神经网络的申诉数据文本分类模型
3.1.1 负面情绪移除模块
3.1.2 字符嵌入模块
3.1.3 特征提取模块
3.1.4 网络结构
3.2 实验验证
3.2.1 实验数据与对比模型
3.2.2 实验结果与分析
3.3 模型在申诉责任判断问题分类的延伸应用
3.4 本章小结
第四章 基于申诉面单的邮政时限分析模型
4.1 延误基本分析
4.1.1 距离时长分析
4.1.2 节点处理时间分析
4.1.3 天气
4.1.4 快件收到和发出时间分布
4.2 并行化延误预测模型
4.2.1 特征提取并行化实现
4.2.2 随机森林并行化实现
4.3 实验验证
4.2.3 实验数据
4.2.4 实验结果与分析
4.4 本章小结
第五章 申诉姓名合理性分析
5.1 姓名合理性判断规则
5.2 姓名不合理原因维度分析
5.3 姓名不合理企业维度分析
5.4 姓名不合理申诉原因分析
5.5 本章小结
第六章 基于Spark的快递申诉业务数据分析系统实现
6.1 系统需求分析
6.2 系统框架搭建
6.2.1 系统环境
6.2.2 系统架构
6.3 系统模块设计
6.3.1 数据支撑模块设计
6.3.2 数据挖掘模块设计
6.3.3 管理及数据应用模块设计
6.4 数据库设计
6.5 系统展示
6.6 本章小结
第七章 总结与展望
7.1 本文总结
7.2 展望
参考文献
致谢
攻读硕士研究生期间发表的论文
攻读硕士研究生期间发表的专利
【参考文献】:
期刊论文
[1]2018年LLDPE年度报告及2019年市场展望[J]. 袁志达,李洋,韩大宇. 塑料包装. 2018(06)
[2]基于Hadoop的邮政寄递大数据分析系统设计与实现[J]. 王卫锋,杨林. 中国科学院大学学报. 2017(03)
[3]基于Spark Streaming的实时数据分析系统及其应用[J]. 韩德志,陈旭光,雷雨馨,戴永涛,张肖. 计算机应用. 2017(05)
[4]我国快递业投诉及其监管问题研究[J]. 狄浩林. 黑龙江对外经贸. 2010(06)
[5]运用层次分析法确定指标的权值[J]. 石振武,赵敏. 科技和产业. 2008(02)
[6]数据质量评估方法研究[J]. 杨青云,赵培英,杨冬青,唐世渭,童云海. 计算机工程与应用. 2004(09)
本文编号:3036618
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3036618.html
最近更新
教材专著