基于随机森林的异常点检测算法研究
发布时间:2021-06-17 03:22
数据挖掘旨在发现数据中隐含知识或发现数据的未知模式,从数据集中找出异常点也是数据挖掘领域中的重要任务。异常点检测作为数据挖掘的一种重要方法,在实际应用中发挥着重要作用,广泛运用于金融反欺诈、设备故障检测、网络入侵、和医疗影像分析中。异常点检测挖掘方法对提高工业生产效率、服务社会生活具有重要意义。现阶段基于集成模型的异常点检测是一个热点研究课题,而随机森林方法具有优良的分类决策性能。本文以识别出异常点为目标,对随机森林模型进行改进,提出基于随机森林模型的异常点检测算法,具体工作包括以下3个方面:1、提出一种基于模糊树节点的随机森林进行异常点检测。首先在构建随机森林的分类决策树过程中,把模糊方法引入到二叉决策树的节点中,在节点中设计关于类别划分的模糊区域,在模糊区域上设计正常与异常隶属度函数。当某样本经过决策树节点中的模糊区域时,进行样本的正常与异常隶属度计算;若该样本的异常隶属度大于正常隶属度,则该样本被判别为异常类;否则,该样本进入决策树的下层树节点,若无下层节点则被判别为正常类。该样本的最终类别由随机森林算法中的投票步骤决定。实验表明,该算法具有较好的异常点检测性能。2、提出一种基于...
【文章来源】:福建师范大学福建省
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
图2-1两层决策树节点示意图
第二章基于模糊树节点的随机森林与异常点检测-13-孩子节点。对某个样本做异常点检测时,在树节点中比较其正常隶属度与异常隶属度的大小,若异常隶属度大于正常隶属度,则表示样本落入异常区域,认为是异常点。正常类隶属度函数:()()1,211,11,21xaxbxaHAxaxbbxc(2-4)异常类隶属度函数:()()11,10,1,1xaxbxaeFAxaxbbxce(2-5)隶属度函数中,引入参数对临界点做微调整。例如,值域[10,20]是正常类数据范围,对其构建模糊区域,取1,得到隶属度函数如图2-2。图2-2隶属度函数Fig.2-2Membershipfunction
第二章基于模糊树节点的随机森林与异常点检测-19-实验对于每个数据集,使用不同比例的异常点进行测试,采用F1指标作为评价标准。图2-3比较了各个算法在四个数据集上的综合性能。IrisSeedsWineDermatology图2-3F1指标对比Fig.2-3F1indicatorcomparison由图2-3可见,在Iris和Seeds两个数据集上,新方法的综合性能F1略低于
本文编号:3234361
【文章来源】:福建师范大学福建省
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
图2-1两层决策树节点示意图
第二章基于模糊树节点的随机森林与异常点检测-13-孩子节点。对某个样本做异常点检测时,在树节点中比较其正常隶属度与异常隶属度的大小,若异常隶属度大于正常隶属度,则表示样本落入异常区域,认为是异常点。正常类隶属度函数:()()1,211,11,21xaxbxaHAxaxbbxc(2-4)异常类隶属度函数:()()11,10,1,1xaxbxaeFAxaxbbxce(2-5)隶属度函数中,引入参数对临界点做微调整。例如,值域[10,20]是正常类数据范围,对其构建模糊区域,取1,得到隶属度函数如图2-2。图2-2隶属度函数Fig.2-2Membershipfunction
第二章基于模糊树节点的随机森林与异常点检测-19-实验对于每个数据集,使用不同比例的异常点进行测试,采用F1指标作为评价标准。图2-3比较了各个算法在四个数据集上的综合性能。IrisSeedsWineDermatology图2-3F1指标对比Fig.2-3F1indicatorcomparison由图2-3可见,在Iris和Seeds两个数据集上,新方法的综合性能F1略低于
本文编号:3234361
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3234361.html