基于终端数据的电信承载网异常节点定位方法
发布时间:2021-09-22 12:31
随着电信IPTV业务的高速发展,承载网规模不断扩大,设备故障运维难度逐渐增大。当设备发生故障时,如何在大规模网络中对故障节点进行快速定位已成为运维方面的重大挑战。目前承载网设备故障告警主要依赖于设备性能日志,误告较多,且无法适应大规模网络故障定位。因此借助Spark等工具,提出一种基于终端数据的异常节点定位方法,结合网络拓扑初步实现阈值告警。并进一步以设备相关性和可靠性为分析基础,将告警过程产生的大量虚假告警进行清洗,提高故障定位精确率。实验结果表明,在承载网故障定位中该方法精确率能达到89%,具有较高实用价值。
【文章来源】:计算机工程与应用. 2019,55(11)北大核心CSCD
【文章页数】:8 页
【部分图文】:
部分特征示例
2019,55(11)常时该占比的累积分布也较为接近,相关特征较为明显,其中W正常时相关性均值Rˉ≈0.72。(4)设备可靠性设备可靠性通过韦布尔两参数模型进行量化。联合利用中位秩与最小二乘法对两参数进行估计,虽然在计算偏差方面较数值解法类较大,但计算效率较高[21]。图5给出了某设备在1个月内发生的故障时间记录,通过最小二乘法估计的累积失效概率曲线与中位秩的比较,其β和α分别对应累积失效率计算过程中的形状参数与比例参数,R2为线性回归相关指数。4故障定位为解决由阈值告警过程产生大量虚假告警的问题,通过设备统计量在网络拓扑节点上的分布状态、相关性等进行告警数据清洗、可靠性阈值告警和故障定位。4.1告警数据示例以下为所有OLT和BRAS层设备故障时刻进行直播故障数据的一些特征示例。图6(a)描述了这些设备从故障发生至恢复过程占用时段的关系,图中显示能够在48个单位时段内恢复的设备分布状态。83.78%的设备故障后能够在1至4个时间段T恢复;大于4个时段的设备从整体看来较少。部分设备在发生故障时无法自主恢复或已损坏等,需要进行维护处理,故而所需恢复时间较长。图6(b)描述了这些设备在24个自然时段的告警次数分布特点,可以看出其走势和在线人数的日均特征较为接近,在3到6点告警次数较少,13到18点较为平稳,在21点告警次数较多。图6(c)则描述了这些设备在告警时,同一设备连续两次相同性质告警间隔时长的分布特征,描述时长控制在48个单位时段。可看出在发生故障时有近82.79%的设备在6个单位时段内会产生两次相同性质的告警。4.2数据过滤数据过滤主要是针对告警过程中产生的重复及衍生数据,需要进行清洗操作。重复数据主要来源于设备故障的持续
食?黾扑?值的部分进行均值处理,从而进行阈值告警。如图9所示,如果在相关性清洗过后的设备告警时刻ti上计算所得发生故障的概率Pti≥PTHti,则认为会发生故障。且超出阈值范围越大,则认为故障可能性越大,并标记该设备为故障设备;否则认为是误告。4.4实验结果通过实验对本文告警机制进行对比分析,评估过程中,以承载网7455个设备(OLT及BRAS层级)的3个月历史监控数据和系统告警数据,作为实验基础数据。其中,测试数据的测试节点数为7455个,由故障工单核实后的平均真故障节点数为30.73个。图10给出了平均每日产生的告警数据中,被清洗的重复及衍生的告警数据量情况,其中,告警数是包含衍生类、重复类和其他类的总数。通过设备告警数据清洗过程,有近97.37%的衍生类数据量被清洗,有近87.24%的重复类告警数据被清洗,减少告警数据量,其中数据清洗的TW=8T(且T=5min)、Rth=0.70和PWth=0.80。但仍有部分告警数据无法被清洗掉,主要由于设备的统计量、相关性等特征不明显,或者部分告警在值上过于接近阈值水平,但是并没有达到阈值,而这部分数据在进行设备可靠性计算过程中,同样存在可靠性计算无法适应的情况。而在数据清洗完毕后,需要继续进行可靠性分析和阈值判断。评价过程中的混淆矩阵如表2所示。采用:精确率:Precision=TP/(TP+FP)召回率:Recall=TP/(TP+FN)F1值:F1=2PrecisionRecall/(Precision+Recall)作为评价指标,对现有承载网使用设备异常日志进行普通阈值告警机制M1、使用时移平均的动态阈值[10]告警机制M2、本文设计的告警机制M3、使用文献[4]且以承载网终端与服务端数据访问路径构建监测点的端到端识别方法M4。实验结果对?
【参考文献】:
期刊论文
[1]基于数据挖掘的网管告警处理方法研究[J]. 许劭庆,马彪,安海英. 软件工程. 2016(12)
硕士论文
[1]基于动态阈值的网络性能管理系统研究与实现[D]. 王越.山东大学 2012
[2]基于属性相似度的TD-SCDMA网络告警系统研究[D]. 侯振宇.吉林大学 2012
本文编号:3403764
【文章来源】:计算机工程与应用. 2019,55(11)北大核心CSCD
【文章页数】:8 页
【部分图文】:
部分特征示例
2019,55(11)常时该占比的累积分布也较为接近,相关特征较为明显,其中W正常时相关性均值Rˉ≈0.72。(4)设备可靠性设备可靠性通过韦布尔两参数模型进行量化。联合利用中位秩与最小二乘法对两参数进行估计,虽然在计算偏差方面较数值解法类较大,但计算效率较高[21]。图5给出了某设备在1个月内发生的故障时间记录,通过最小二乘法估计的累积失效概率曲线与中位秩的比较,其β和α分别对应累积失效率计算过程中的形状参数与比例参数,R2为线性回归相关指数。4故障定位为解决由阈值告警过程产生大量虚假告警的问题,通过设备统计量在网络拓扑节点上的分布状态、相关性等进行告警数据清洗、可靠性阈值告警和故障定位。4.1告警数据示例以下为所有OLT和BRAS层设备故障时刻进行直播故障数据的一些特征示例。图6(a)描述了这些设备从故障发生至恢复过程占用时段的关系,图中显示能够在48个单位时段内恢复的设备分布状态。83.78%的设备故障后能够在1至4个时间段T恢复;大于4个时段的设备从整体看来较少。部分设备在发生故障时无法自主恢复或已损坏等,需要进行维护处理,故而所需恢复时间较长。图6(b)描述了这些设备在24个自然时段的告警次数分布特点,可以看出其走势和在线人数的日均特征较为接近,在3到6点告警次数较少,13到18点较为平稳,在21点告警次数较多。图6(c)则描述了这些设备在告警时,同一设备连续两次相同性质告警间隔时长的分布特征,描述时长控制在48个单位时段。可看出在发生故障时有近82.79%的设备在6个单位时段内会产生两次相同性质的告警。4.2数据过滤数据过滤主要是针对告警过程中产生的重复及衍生数据,需要进行清洗操作。重复数据主要来源于设备故障的持续
食?黾扑?值的部分进行均值处理,从而进行阈值告警。如图9所示,如果在相关性清洗过后的设备告警时刻ti上计算所得发生故障的概率Pti≥PTHti,则认为会发生故障。且超出阈值范围越大,则认为故障可能性越大,并标记该设备为故障设备;否则认为是误告。4.4实验结果通过实验对本文告警机制进行对比分析,评估过程中,以承载网7455个设备(OLT及BRAS层级)的3个月历史监控数据和系统告警数据,作为实验基础数据。其中,测试数据的测试节点数为7455个,由故障工单核实后的平均真故障节点数为30.73个。图10给出了平均每日产生的告警数据中,被清洗的重复及衍生的告警数据量情况,其中,告警数是包含衍生类、重复类和其他类的总数。通过设备告警数据清洗过程,有近97.37%的衍生类数据量被清洗,有近87.24%的重复类告警数据被清洗,减少告警数据量,其中数据清洗的TW=8T(且T=5min)、Rth=0.70和PWth=0.80。但仍有部分告警数据无法被清洗掉,主要由于设备的统计量、相关性等特征不明显,或者部分告警在值上过于接近阈值水平,但是并没有达到阈值,而这部分数据在进行设备可靠性计算过程中,同样存在可靠性计算无法适应的情况。而在数据清洗完毕后,需要继续进行可靠性分析和阈值判断。评价过程中的混淆矩阵如表2所示。采用:精确率:Precision=TP/(TP+FP)召回率:Recall=TP/(TP+FN)F1值:F1=2PrecisionRecall/(Precision+Recall)作为评价指标,对现有承载网使用设备异常日志进行普通阈值告警机制M1、使用时移平均的动态阈值[10]告警机制M2、本文设计的告警机制M3、使用文献[4]且以承载网终端与服务端数据访问路径构建监测点的端到端识别方法M4。实验结果对?
【参考文献】:
期刊论文
[1]基于数据挖掘的网管告警处理方法研究[J]. 许劭庆,马彪,安海英. 软件工程. 2016(12)
硕士论文
[1]基于动态阈值的网络性能管理系统研究与实现[D]. 王越.山东大学 2012
[2]基于属性相似度的TD-SCDMA网络告警系统研究[D]. 侯振宇.吉林大学 2012
本文编号:3403764
本文链接:https://www.wllwen.com/guanlilunwen/sjfx/3403764.html