基于Spark分布式计算框架的IPTV用户投诉预测系统设计与实现

发布时间：2020-05-19 23:49

【摘要】：随着互联网时代的发展,交互式网络电视(IPTV)被运营商、互联网企业等迅速推出,但由于IPTV业务目前处于推广阶段,存在不少应用问题,尤其是用户体验不佳。为了提高用户体验质量并适应大数据时代的到来,运营商希望利用IPTV机顶盒采集到的关键绩效指标(KPI)数据建立用户投诉预测系统,即通过对KPI数据进行数据分析并建立投诉预测模型,实时预测出潜在的投诉用户,方便运营商的运维人员及时联系相关用户并及时维修,从而提高用户的体验质量。本文从IPTV应用背景出发,结合报障指标数据筛选、用户投诉数据建模、投诉预测系统设计和实现三个部分,展开一系列的研究。具体研究内容如下:(1)首先,针对IPTV的KPI数据进行初步的数据预处理与指标的初步筛选,然后基于PCA降维法提出相关性指标计量值分析法—RePCA,对降维得到的指标数据进行反向分析,从而挑选出对投诉预测结果影响最大的指标。其目的主要是在初步指标筛选的基础上进一步减少数据的指标数量,从而能够减少预测分类处理时的计算量,使投诉预测系统具有实时性。(2)其次,针对IPTV机顶盒KPI数据的非均衡性特点,论文从算法层面分别提出EMCNE方法和SVM-KNN方法进行数据建模。在EMCNE方法中,着重解决了未报障(投诉)数据类内不均衡问题,并把测试数据与训练数据之间的空间特性考虑到了集成规则之中;在SVM-KNN方法中,使用了数据的空间距离的特性和报障数据权重相结合的方法来解决KPI数据的非均衡问题。实验结果表明,上述两种方法与传统的集成规则相比,在性能评判指标使用AUC的情况下均提高了40%,且SVM-KNN效果稍好。(3)最后,将建模部分得到的投诉预测模型应用到Spark平台并和前端页面相结合,构成IPTV用户投诉预测系统,方便运维人员及时发现预报障用户并及时联系或者维修,从而促进IPTV的市场推广和提高用户体验。
【图文】：

示意图,生态圈,示意图,大学专业

大学专业学位硕士研究生学位论文第二章相关背景知识介用 SparkSQL时会创建 SQLContext，使用 SparkStreaming 时会创建 StreamingConteontext 在使用时可以通过 SparkConf 配置相关的使用参数。SparkContext 的组建主rkConf、SparkEnv、LiveListenerBus、JobProgressListener、SparkUI、TaskScheduheduler 、 ExecutorAllocationManager 、 ContextClearner 、 SparkStatusTrackeConfiguration。

系统图,系统图

图 2.2 Spark MLlib 系统图 Spark Streaming由于在原始数据产生之后立即进行分析处理后所产生的使用价值是最大的，数据产生置的越久其可利用信息的价值就越低。在实际的业务场景之中，有一种流式计算的应用要实时对大量的数据进行快速处理，它最大的特点就是处理周期短，，一般是分钟级别是秒级或者毫秒级别，并且是 24 小时不停进行计算[33]。通常称这种计算为流式计算。对于实时流式计算，Spark 通过 Spark Streaming 组建提供了相关的功能支持。Spming 是基于 Spark Core 的，具有高吞吐量、可扩展性、自动容错、实时性等特性，它来源支持 Twitter、Tcp socket、Kafka、Flume 等数据源，可以实现 map、reduce、join操作来实现复杂的逻辑关系，其运算结果可以写入文件系统、数据库或者其他的展示同时也可以同时使用 Spark SQL、DataFrame、Spark MLlib 等一系列的 Spark 插件。
【学位授予单位】：南京邮电大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：TN949.292

【参考文献】