基于Spark分布式计算框架的IPTV用户投诉预测系统设计与实现
发布时间:2020-05-19 23:49
【摘要】:随着互联网时代的发展,交互式网络电视(IPTV)被运营商、互联网企业等迅速推出,但由于IPTV业务目前处于推广阶段,存在不少应用问题,尤其是用户体验不佳。为了提高用户体验质量并适应大数据时代的到来,运营商希望利用IPTV机顶盒采集到的关键绩效指标(KPI)数据建立用户投诉预测系统,即通过对KPI数据进行数据分析并建立投诉预测模型,实时预测出潜在的投诉用户,方便运营商的运维人员及时联系相关用户并及时维修,从而提高用户的体验质量。本文从IPTV应用背景出发,结合报障指标数据筛选、用户投诉数据建模、投诉预测系统设计和实现三个部分,展开一系列的研究。具体研究内容如下:(1)首先,针对IPTV的KPI数据进行初步的数据预处理与指标的初步筛选,然后基于PCA降维法提出相关性指标计量值分析法—RePCA,对降维得到的指标数据进行反向分析,从而挑选出对投诉预测结果影响最大的指标。其目的主要是在初步指标筛选的基础上进一步减少数据的指标数量,从而能够减少预测分类处理时的计算量,使投诉预测系统具有实时性。(2)其次,针对IPTV机顶盒KPI数据的非均衡性特点,论文从算法层面分别提出EMCNE方法和SVM-KNN方法进行数据建模。在EMCNE方法中,着重解决了未报障(投诉)数据类内不均衡问题,并把测试数据与训练数据之间的空间特性考虑到了集成规则之中;在SVM-KNN方法中,使用了数据的空间距离的特性和报障数据权重相结合的方法来解决KPI数据的非均衡问题。实验结果表明,上述两种方法与传统的集成规则相比,在性能评判指标使用AUC的情况下均提高了40%,且SVM-KNN效果稍好。(3)最后,将建模部分得到的投诉预测模型应用到Spark平台并和前端页面相结合,构成IPTV用户投诉预测系统,方便运维人员及时发现预报障用户并及时联系或者维修,从而促进IPTV的市场推广和提高用户体验。
【图文】:
大学专业学位硕士研究生学位论文 第二章 相关背景知识介用 SparkSQL时会创建 SQLContext,使用 SparkStreaming 时会创建 StreamingConteontext 在使用时可以通过 SparkConf 配置相关的使用参数。SparkContext 的组建主rkConf、SparkEnv、LiveListenerBus、JobProgressListener、SparkUI、TaskScheduheduler 、 ExecutorAllocationManager 、 ContextClearner 、 SparkStatusTrackeConfiguration。
图 2.2 Spark MLlib 系统图 Spark Streaming由于在原始数据产生之后立即进行分析处理后所产生的使用价值是最大的,数据产生置的越久其可利用信息的价值就越低。在实际的业务场景之中,有一种流式计算的应用要实时对大量的数据进行快速处理,它最大的特点就是处理周期短,,一般是分钟级别是秒级或者毫秒级别,并且是 24 小时不停进行计算[33]。通常称这种计算为流式计算。对于实时流式计算,Spark 通过 Spark Streaming 组建提供了相关的功能支持。Spming 是基于 Spark Core 的,具有高吞吐量、可扩展性、自动容错、实时性等特性,它来源支持 Twitter、Tcp socket、Kafka、Flume 等数据源,可以实现 map、reduce、join操作来实现复杂的逻辑关系,其运算结果可以写入文件系统、数据库或者其他的展示同时也可以同时使用 Spark SQL、DataFrame、Spark MLlib 等一系列的 Spark 插件。
【学位授予单位】:南京邮电大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN949.292
本文编号:2671669
【图文】:
大学专业学位硕士研究生学位论文 第二章 相关背景知识介用 SparkSQL时会创建 SQLContext,使用 SparkStreaming 时会创建 StreamingConteontext 在使用时可以通过 SparkConf 配置相关的使用参数。SparkContext 的组建主rkConf、SparkEnv、LiveListenerBus、JobProgressListener、SparkUI、TaskScheduheduler 、 ExecutorAllocationManager 、 ContextClearner 、 SparkStatusTrackeConfiguration。
图 2.2 Spark MLlib 系统图 Spark Streaming由于在原始数据产生之后立即进行分析处理后所产生的使用价值是最大的,数据产生置的越久其可利用信息的价值就越低。在实际的业务场景之中,有一种流式计算的应用要实时对大量的数据进行快速处理,它最大的特点就是处理周期短,,一般是分钟级别是秒级或者毫秒级别,并且是 24 小时不停进行计算[33]。通常称这种计算为流式计算。对于实时流式计算,Spark 通过 Spark Streaming 组建提供了相关的功能支持。Spming 是基于 Spark Core 的,具有高吞吐量、可扩展性、自动容错、实时性等特性,它来源支持 Twitter、Tcp socket、Kafka、Flume 等数据源,可以实现 map、reduce、join操作来实现复杂的逻辑关系,其运算结果可以写入文件系统、数据库或者其他的展示同时也可以同时使用 Spark SQL、DataFrame、Spark MLlib 等一系列的 Spark 插件。
【学位授予单位】:南京邮电大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN949.292
【参考文献】
相关期刊论文 前10条
1 陈小燕;;机器学习算法在数据挖掘中的应用[J];现代电子技术;2015年20期
2 董微;刘学;倪宏;;基于信息增益的自适应特征选择方法[J];计算机工程与设计;2014年08期
3 何清;李宁;罗文娟;史忠植;;大数据下的机器学习算法综述[J];模式识别与人工智能;2014年04期
4 宋小敏;张国防;邢淑兰;汪锁田;;基于数据挖掘的课程相关性分析方法[J];山西财经大学学报;2012年S3期
5 李卓然;张永;;基于集成的非均衡数据分类主动学习算法[J];计算机应用与软件;2012年06期
6 谷琼;袁磊;熊启军;宁彬;李文新;;基于非均衡数据集的代价敏感学习算法比较研究[J];微电子学与计算机;2011年08期
7 刘婷婷;;IPTV常用故障判断分析[J];科协论坛(下半月);2011年07期
8 靳燕;;基于权值控制的误分类算法研究[J];山西师范大学学报(自然科学版);2010年02期
9 林海明;;对主成分分析法运用中十个问题的解析[J];统计与决策;2007年16期
10 王珏,石纯一;机器学习研究[J];广西师范大学学报(自然科学版);2003年02期
相关博士学位论文 前1条
1 钱云;非均衡数据分类算法若干应用研究[D];吉林大学;2014年
相关硕士学位论文 前1条
1 翟永东;Hadoop分布式文件系统(HDFS)可靠性的研究与优化[D];华中科技大学;2011年
本文编号:2671669
本文链接:https://www.wllwen.com/kejilunwen/wltx/2671669.html