当前位置:主页 > 科技论文 > 自动化论文 >

基于集成概率信息的异常点检测研究

发布时间:2021-03-23 07:49
  在大多数机器学习算法中,我们通常假设训练集和测试集具有相同的类标签集,这些类标签集被事先定义,这样得到的分类模型才会有良好的泛化能力。但在实际应用中,经常存在一些与正常数据(在训练集中的数据)的分布不一致的数据,这些不属于被事先定义好的类标签集中的任何一个类别的数据就是异常点。这些数据可能具有特殊的含义,然而,人们往往会忽视这些数据。在某些场合,它们或许比其他正常数据包含更有价值的信息。如何找出这些行为很不同于预期对象,发现其中的规律并对异常情况作出决策和判断是数据挖掘领域所研究的重点之一。传统的异常点检测方法已经趋于成熟,但是还存在难以突破的瓶颈和局限性。针对部分局限性,本文提出了两种新颖的不同于传统的基于集成概率信息的异常点检测方法,用于解决异常点检测问题。主要内容概括如下:(1)首先提出了一种有效的基于集成概率均值的异常点检测方法——Ensemble mean Probability Value for Novelty Detection(EPVND)。该方法提供了一个可以刻画不同类的度量并利用这个度量作为基准来检测异常点。首先由训练数据构建一个集成系统,这个集成系统由n个不同个... 

【文章来源】:福建师范大学福建省

【文章页数】:72 页

【学位级别】:硕士

【部分图文】:

基于集成概率信息的异常点检测研究


图2.1区域R中的对象是异常点??Fig.2.1?The?objects?in?region?R?are?novelties??

示意图,集成学习,示意图,个体学习


2.2.1集成学习??在统计机器学习中,集成学习[4,41]通过构建并结合多个学习器来完成学习任务,??常可获得比单一学习器显著优越的泛化(预测)性能[46]。集成学习示意图如图2.2??所示。集成学习先用现有的机器学习算法通过训练数据训练得到“个体学习器”??(individual?learner),再利用某种策略将它们结合起来。如果集成中只包含同类的??的个体学习器,例如随机森林里只有决策树,这样的集成是“同质的”??(homogeneous),如果一个集成中包含不同的个体学习器,这个集成就是“异质??的”(heterogeneous)。最具代表的集成方式主要有?Boosting[41],Bagging[48%?Random??Forest[49]。??Boosting首先是从初始训练样本中训练出一个个体学习器,再根据个体学习器??的表现对训练样本分布作出调整,使得先前个体学习器做错的训练样本在后续受到??更多的关注,然后基于调整后的样本分布来训练下一个个体学习器;如此反复,直??到学习器数目达到事先指定的数目。??Bagging使用给定数据集£>创建A个训练集

人工数据,数据集


人工数据集:我们通过程序生成2个人工数据集——Datal和Data2.两个数据集??的大致信息在表3.1中呈现。Datal是由两维正态分布的五个类构成,且Data2是由??两维正态分布的6个类构成。图3.1分别展示了?Datal和Data2的分布情况。红色??十字代表正常类,蓝色十字代表异常类。从图3.1中,可以看出Datal中的异常数??据点和正常数据点非常接近,而Data2中的异常数据点远离正常数据点。??UCI数据集:我们选择了?UCI中的四个数据集:Zoo,?Wine,Balance,Segments。??四个数据集的具体细节在表3.2中列出。??Minist数据集:数字手写Minist数据集包含6000个样本组成的训练集和10000??个样本组成的测试集。Minist数据集的具体细节在表3.2中展示。??表3.3列出了人脸数据集的细节。在这个工作中,我们使用ORL人脸数据集和??AR数据集。它们通常被用于评估人脸识别算法。ORL人脸数据集总共由40个人的??400张人脸图片所组成。每个人都有10张不同的图片并且每个图片的尺寸是92*112??像素,这将形成一个10304维的特征空间。AR人脸数据是由126个不同的前视人??脸图像组成。每个人在不同的光照条件和不同的人脸表情下拍摄的,一些图片有部??分遮掩(墨镜或者毛巾)。每一个图像的人脸部分都被手工裁剪到尺寸为100*80.??在我们的试验中,我们使用了两个子集——AR1和AR2。AR1包括五个人的人脸图??像


本文编号:3095445

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3095445.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a4492***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com