面向运营商IPTV数据集的用户报障行为预测研究
发布时间:2020-10-14 07:00
从交互式网络电视(IPTV)长远商业发展来看,保证良好的用户体验质量是运营商吸引用户群体,增加收益的关键所在,也是行业竞争的关键所在。本论文基于运营商IPTV机顶盒采集到的状态数据和用户的报障数据,对获得的两个数据集进行数据清洗和匹配,从中选择合适的关键绩效指标(KPI)特征。接着,针对获得的KPI数据集在分析、处理上的困难,本文从两个方面对现有的机器学习模型和算法进行了改进,建立了用户报障行为预测模型,可以有效提升预测性能。一方面,为了从原始特征中挑选出最有效的特征子集,达到去除冗余信息、降低模型复杂度的目的,本论文提出了一种利用PCA主成分矩阵进行特征选择的算法。具体而言,除了考虑每个原始特征对整个主成分的贡献度之外,也考虑到对应的主成分所占的贡献率和原始特征自身的信息增益对特征筛选的贡献,提出一种计算特征贡献度的新算法。实验结果表明,所提出的利用PCA主成分矩阵进行特征选择的算法可以进一步降低特征之间的相关性,增加后续预测算法的精度。另一方面,针对数据集建立模型的困难,本论文首先提出了改进的SMOTE算法来对少数类样本进行过采样。接着,提出利用基于K-means++算法的欠采样算法去除多数类中的冗余信息,并选择决策树作为基分类器,从而建立面向运营商IPTV数据集的用户报障预测模型。实验结果表明,改进的SMOTE算法与相比于传统Borderline-SMOTE数据生成算法可以有效改善IPTV报障预测模型的预测准确率;此外,基于K-means++算法的欠采样算法与传统的随机欠采样算法相比,能够更好地去除冗余信息,提升用户报障行为预测性能。
【学位单位】:南京邮电大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TN949.292
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景
1.2 IPTV用户报障行为预测的研究现状
1.3 论文的主要工作
1.4 论文的结构安排
第二章 相关背景知识介绍
2.1 IPTV系统架构
2.2 非均衡数据的处理方法
2.2.1 研究方法
2.2.2 性能评估指标
2.3 常用机器学习算法
2.3.1 特征选择算法
2.3.2 分类算法
2.4 本章小结
第三章 基于PCA主成分矩阵的IPTV用户报障特征选择算法
3.1 数据预处理
3.1.1 数据集
3.1.2 数据清洗
3.2 基于PCA主成分矩阵的特征选择算法
3.2.1 主成分分析
3.2.2 信息增益
3.2.3 基于PCA主成分矩阵的特征选择算法
3.2.4 实验结果与分析
3.3 本章小结
第四章 基于改进的SMOTE的IPTV用户报障数据生成算法
4.1 SMOTE算法
4.2 基于改进的SMOTE算法的少数类数据生成
4.3 基础分类算法的选取
4.3.1 决策树算法
4.3.2 K近邻算法
4.3.3 朴素贝叶斯算法
4.4 实验结果与分析
4.5 本章小结
第五章 基于K-means++的IPTV用户报障行为预测算法
5.1 聚类算法K-means
5.2 基于K-means++的欠采样算法
5.2.1 K-means++算法
5.2.2 基于K-means++的欠采样算法
5.3 实验结果与分析
5.4 本章小结
第六章 总结与展望
参考文献
附录1 攻读硕士学位期间撰写的论文
附录2 攻读硕士学位期间参加的科研项目
致谢
【参考文献】
本文编号:2840351
【学位单位】:南京邮电大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TN949.292
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景
1.2 IPTV用户报障行为预测的研究现状
1.3 论文的主要工作
1.4 论文的结构安排
第二章 相关背景知识介绍
2.1 IPTV系统架构
2.2 非均衡数据的处理方法
2.2.1 研究方法
2.2.2 性能评估指标
2.3 常用机器学习算法
2.3.1 特征选择算法
2.3.2 分类算法
2.4 本章小结
第三章 基于PCA主成分矩阵的IPTV用户报障特征选择算法
3.1 数据预处理
3.1.1 数据集
3.1.2 数据清洗
3.2 基于PCA主成分矩阵的特征选择算法
3.2.1 主成分分析
3.2.2 信息增益
3.2.3 基于PCA主成分矩阵的特征选择算法
3.2.4 实验结果与分析
3.3 本章小结
第四章 基于改进的SMOTE的IPTV用户报障数据生成算法
4.1 SMOTE算法
4.2 基于改进的SMOTE算法的少数类数据生成
4.3 基础分类算法的选取
4.3.1 决策树算法
4.3.2 K近邻算法
4.3.3 朴素贝叶斯算法
4.4 实验结果与分析
4.5 本章小结
第五章 基于K-means++的IPTV用户报障行为预测算法
5.1 聚类算法K-means
5.2 基于K-means++的欠采样算法
5.2.1 K-means++算法
5.2.2 基于K-means++的欠采样算法
5.3 实验结果与分析
5.4 本章小结
第六章 总结与展望
参考文献
附录1 攻读硕士学位期间撰写的论文
附录2 攻读硕士学位期间参加的科研项目
致谢
【参考文献】
相关期刊论文 前10条
1 芦海波;张剑;;关于IPTV视频质量监控系统研究[J];信息通信;2014年04期
2 曹鹏;李博;栗伟;赵大哲;;基于概率分布估计的混合采样算法[J];控制与决策;2014年05期
3 丁福利;孙立民;;处理不平衡样本集的欠采样算法[J];计算机工程与设计;2013年12期
4 范雪莉;冯海泓;原猛;;基于互信息的主成分分析特征选择算法[J];控制与决策;2013年06期
5 陶新民;郝思媛;张冬雪;徐鹏;;不均衡数据分类算法的综述[J];重庆邮电大学学报(自然科学版);2013年01期
6 谷琼;袁磊;宁彬;吴钊;华丽;李文新;;一种基于混合重取样策略的非均衡数据集分类算法[J];计算机工程与科学;2012年10期
7 钟瑛;朱顺痣;曾志强;洪文兴;;一种基于核学习的非均衡数据分类算法[J];厦门大学学报(自然科学版);2012年02期
8 张永;李卓然;刘小丹;;基于主动学习SMOTE的非均衡数据分类[J];计算机应用与软件;2012年03期
9 姚旭;王晓丹;张玉玺;权文;;特征选择方法综述[J];控制与决策;2012年02期
10 陶新民;童智靖;刘玉;付丹丹;;基于ODR和BSMOTE结合的不均衡数据SVM分类算法[J];控制与决策;2011年10期
本文编号:2840351
本文链接:https://www.wllwen.com/kejilunwen/wltx/2840351.html