基于决策树集成和宽度森林的网络流量分析与预测研究
发布时间:2021-08-24 02:43
近年来,新一代移动通信技术得到快速发展,智能手机、平板电脑等移动端智能设备也迅速普及开来,移动通信网络逐渐构成了当今社会必不可少的基础设施之一,不断影响着人类社会生活的各个领域。面对越来越复杂的网络环境和成倍翻升的网络流量数据,网络管理和运营者们需要花费更多的时间和资源监控并分析出实时的网络流量状况,以应对突发的网络拥挤和堵塞,或者及时关闭不需要的基站以节省能耗,确保网络质量良好。一个好的流量预测模型能够使得运营商提前发现网络异常、网络流量爆发等问题,从而保证网络的稳定性、提高网络的服务质量、节省基站的能耗等。鉴于此,本论文基于基站网络流量采集数据,研究了基于决策树集成和宽度森林的网络流量分析与预测算法。本论文的主要研究工作和创新点如下:首先,在数据预处理中,本文针对采集数据中的缺失值采用了填充处理的方式,建立起有效的缺失值填充方案的评估机制。通过对比多种填充方案,最后选择了基于高斯分布的拟合方法填充缺失值。随后完成数据的特征工程,一方面,本文分别基于时空分布和历史流量数据挖掘了流量数据特征,提出了可变周期移动窗口平均法提取历史流量数据的统计特性;另一方面,本文提出了基于随机森林的重要...
【文章来源】:南京邮电大学江苏省
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
宽度学习系统结构图
南京邮电大学硕士研究生学位论文第三章数据预处理和特征工程28图3.3随机森林对输入特征的重要性度量得分从上图实验结果可以看出,窗口值取1到5的移动平均值对流量值变化的重要度影响要远远大于窗口值取6到10的移动平均值,且随着窗口值增加,其重要性度量得分呈递减变化。在时间特征中,重要性度量得分较大的特征有date_day、date_int、month_day、weekday和day_of_all。由于是针对某个基站的流量值分析,其地理位置不变,因此地理位置对单个基站流量值的变化没有影响。最终,本文从27个提取的特征中选择了与流量值变化高度相关的12个特征,如表3.7所示,以进行进一步的预测算法设计。表3.7特征选择提取的所有特征{1,2,3,4,5,6,7,8,9,10,5min,5max,10min,10max,date_int,year_month,month_day,date_year,date_month,date_day,weekday,is_weekend,is_holiday,day_of_all,quarter,season,area}选择的重要特征{1,2,3,4,5,5min,5max,date_day,date_int,month_day,weekday,day_of_all}
行分裂,如果不加以区分地对待同一层的叶子,就会导致太多额外的开销。LightGBM中采用的Leaf-Wise策略则是一种更为高效的决策树生长方法,在每次划分结点时,从当前所有叶子中找到一个使得分裂增益最大的叶子进行分裂,不断循环,直到生成完整的一棵树。当分裂次数相同时,Leaf-Wise生成的树与Level-Wise生成的树相比,可以减少更多的损失,具有更好的精度。虽然基于Leaf-Wise生成的树可能会造成其深度过大,造成过拟合,但在这种情况下,可以利用参数max_depth,即最大深度,来限制树的深度,保证高效的同时也减少了过拟合。图4.1给出了两种决策树生长策略对比图。(a)Level-Wise策略(b)Leaf-Wise策略图4.1两种决策树生长策略对比(3)直接处理类别特征一般来说,机器学习算法在处理类别特征时,都需要通过独热编码进行转换,不仅降低了时间、空间的效率,在类别特征比较多时,还会对树模型的学习过程造成不利影响,如决策树可能由于划分增益过小而无法在这个类别特征上进行划分。为此,LightGBM增加了直接
本文编号:3359117
【文章来源】:南京邮电大学江苏省
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
宽度学习系统结构图
南京邮电大学硕士研究生学位论文第三章数据预处理和特征工程28图3.3随机森林对输入特征的重要性度量得分从上图实验结果可以看出,窗口值取1到5的移动平均值对流量值变化的重要度影响要远远大于窗口值取6到10的移动平均值,且随着窗口值增加,其重要性度量得分呈递减变化。在时间特征中,重要性度量得分较大的特征有date_day、date_int、month_day、weekday和day_of_all。由于是针对某个基站的流量值分析,其地理位置不变,因此地理位置对单个基站流量值的变化没有影响。最终,本文从27个提取的特征中选择了与流量值变化高度相关的12个特征,如表3.7所示,以进行进一步的预测算法设计。表3.7特征选择提取的所有特征{1,2,3,4,5,6,7,8,9,10,5min,5max,10min,10max,date_int,year_month,month_day,date_year,date_month,date_day,weekday,is_weekend,is_holiday,day_of_all,quarter,season,area}选择的重要特征{1,2,3,4,5,5min,5max,date_day,date_int,month_day,weekday,day_of_all}
行分裂,如果不加以区分地对待同一层的叶子,就会导致太多额外的开销。LightGBM中采用的Leaf-Wise策略则是一种更为高效的决策树生长方法,在每次划分结点时,从当前所有叶子中找到一个使得分裂增益最大的叶子进行分裂,不断循环,直到生成完整的一棵树。当分裂次数相同时,Leaf-Wise生成的树与Level-Wise生成的树相比,可以减少更多的损失,具有更好的精度。虽然基于Leaf-Wise生成的树可能会造成其深度过大,造成过拟合,但在这种情况下,可以利用参数max_depth,即最大深度,来限制树的深度,保证高效的同时也减少了过拟合。图4.1给出了两种决策树生长策略对比图。(a)Level-Wise策略(b)Leaf-Wise策略图4.1两种决策树生长策略对比(3)直接处理类别特征一般来说,机器学习算法在处理类别特征时,都需要通过独热编码进行转换,不仅降低了时间、空间的效率,在类别特征比较多时,还会对树模型的学习过程造成不利影响,如决策树可能由于划分增益过小而无法在这个类别特征上进行划分。为此,LightGBM增加了直接
本文编号:3359117
本文链接:https://www.wllwen.com/guanlilunwen/lindaojc/3359117.html