当前位置:主页 > 科技论文 > 自动化论文 >

基于稀疏重构权的错误标注数据检测方法

发布时间:2019-11-09 06:24
【摘要】:数据分类的准确性依赖于数据标注的质量和数量,当训练数据被错误标注时,数据分类的准确性会受到很大的影响。针对这种情形,提出一种基于稀疏重构权的错误标注数据检测方法。首先,对含有错误标注数据集采用k近邻的方法求取其近邻点;然后,通过求解带L1-范数的最小二乘模型计算每个标注数据的局部稀疏重构权,并利用稀疏重构权计算每个标注数据的置信度;最后,通过寻找置信度曲线中最大曲率的位置,自适应地检测出错误标注数据。通过实际数据的实验验证了本文所提算法的有效性。
【图文】:

曲线,基本流程图,数据点


10]提出的基于稀疏流形聚类嵌入模型和L1范数正则化的标注错误检测SMCE_LED(SparseManifoldClusteringandEm-beddingforLabelingErrorsDetecting)。该方法有效地利用了数据集自身的数据结构,又结合数据集当中部分已知的正确数据标注,从而有效地检测出数据集当中的错误标注。然而实际获取的训练数据,往往无法或很难事先已知部分正确标注数据。Figure1Basicflowchartofthealgorithm图1本文算法的基本流程图对此,本文提出一种新的错误标注数据检测方法,在无法获取已知部分正确标注数据的情况下,实现对错误标注数据的自动检测。该方法通过求解带L1-范数的最小二乘模型计算每个标注数据的局部稀疏重构权,并利用稀疏重构权计算每个标注数据的置信度。通过寻找置信度曲线中最大曲率的位置,自适应地划分含错标注数据集,实现对含错标注数据集中错误标注的检测。2基于稀疏重构权的错误标注数据检测2.1算法原理假设含错标注数据集{x1,…,xN}可以分成c类,数据xi的标注为ci∈{1,2,…,c},本文算法的目的是自适应地检测出数据集当中错误标注的数据。在实际应用当中,数据通常分布或近似分布于一个低维流形。基于流形学习思想的假设[13],可以认为每个数据点的局部邻域具有线性结构。基于数据点的局部邻域,可以构造其局部稀疏重构权。当数据点的邻域包含异类标注数据时,异类标注数据对数据点的重构权值通常会很校基于此现象,可以利用局部稀疏重构权计算每个数据点的置信度。由于错误标注和正确标注

手写数字,邻域


Figure2Handwrittennumber1anditslocalneighborhoodimages图2手写数字1和其局部邻域图通过求解最小二乘问题(2)可以计算重构权值向量为{0.7385,0.4611,-0.12,-0.0976,0.018}。显然,手写数字7的权值明显小于其它邻域点的权值。为了进一步降低异类标注数据的权值,本文借鉴稀疏流形聚类嵌入SMCE(SparseManifoldClusteringandEmbedding)算法中的策略[15]。在最小二乘问题(2)中引入wi的L1-范数正则项,即:minwi‖Giwi‖22+λ‖Qiwi‖1s.t.eTkwi=1(3)其中,Qi∈Rk×k为一个对角正定矩阵,其对角元素为:qjj=‖xij-xi‖2∑xt∈Ni‖xt-xi‖2∈(0,1)(4)其中,xij为样本点xi的第j个邻域点。模型(3)的求解包含两个步骤:(1)通过Lasso优化算法求解mi=argminwi‖Giwi‖22+λ‖Qiwi‖1;(2)对mi进行正则化,即w*i=mieTkmi。显然,对mi的正则化处理不会改变它分量间的大小关系,但是对不同数据点的mi,正则化处理可能会改变权向量之间的大小关系。因此,,本文将基于mi而不是w*i设计流形离群点的检测方法,对于mi,本文仍称其为xi的稀疏重构权向量。通常

【相似文献】

相关期刊论文 前10条

1 卢汉清;刘静;;基于图学习的自动图像标注[J];计算机学报;2008年09期

2 刘峥;马军;;一种基于图划分和图像搜索引擎的图像标注改善算法[J];计算机研究与发展;2011年07期

3 卢英;刘金义;高辉;路宏;;地图中点状要素标注算法设计[J];计算机与数字工程;2006年05期

4 朱松豪;梁志伟;;基于半监督学习模型的自动图片标注研究[J];南京邮电大学学报(自然科学版);2010年06期

5 李劲;张华;吴浩雄;向军;辜希武;;基于社会标注质量的文本分类模型框架[J];计算机应用;2012年05期

6 袁莹;邵健;吴飞;庄越挺;;结合组稀疏效应和多核学习的图像标注[J];软件学报;2012年09期

7 褚颖娜;廖敏;宋继华;;一种基于统计的分词标注一体化方法[J];计算机系统应用;2009年12期

8 虎晓红;李炳军;苏晓珂;;基于叙词查询的图像标注方法[J];郑州大学学报(理学版);2011年02期

9 舒燕;吕学强;;搜索引擎日志短语标注规范[J];中文信息学报;2013年02期

10 邱泽宇;方全;桑基韬;徐常胜;;基于区域上下文感知的图像标注[J];计算机学报;2014年06期

相关会议论文 前5条

1 朱松豪;刘允才;;基于语义相似性的自动图片标注研究[A];第四届和谐人机环境联合学术会议论文集[C];2008年

2 邹煜;;新闻播音语言韵律标注初探[A];第二届全国学生计算语言学研讨会论文集[C];2004年

3 姜文斌;王志洋;刘群;吕雅娟;;基于马尔可夫间隔标注的中文分词算法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

4 满正行;高璐;;藏语单语料库分析及标注探讨[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

5 徐琳宏;林鸿飞;;文本情感语料库的构建和分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

相关博士学位论文 前6条

1 芮晓光;真实世界环境下的自动图像标注方法研究[D];中国科学技术大学;2010年

2 刘凯鹏;社会性标注关键技术及其在信息检索中的应用研究[D];哈尔滨工业大学;2010年

3 汪萌;基于机器学习方法的视频标注研究[D];中国科学技术大学;2008年

4 钟岑岑;基于上下文的音视频标注研究[D];北京交通大学;2014年

5 燕杨;基于条件随机场的医学文本与图像标注模型构建及应用研究[D];吉林大学;2015年

6 包胜华;基于Web的实体信息搜索与挖掘研究[D];上海交通大学;2008年

相关硕士学位论文 前10条

1 李智;CAPP系统中智能动态标注方法的设计与实现[D];北京理工大学;2016年

2 曾明明;基于图像特征及上下文的图像标注算法研究与实现[D];电子科技大学;2016年

3 何斯琼;基于稀疏回归模型的图像标注研究[D];浙江大学;2010年

4 王上;地理信息系统中地图标注问题的研究与实现[D];吉林大学;2004年

5 周宁;融合标注词相关性信息的图像语义标注研究[D];复旦大学;2009年

6 夏静;基于社会标注的主题分类及排序优化方法研究[D];华中科技大学;2011年

7 贾贝贝;基于文本的未标注图像检索算法研究[D];南京大学;2012年

8 赵勇;基于社会标注的主题爬虫研究[D];华中科技大学;2009年

9 曹月;融合视觉与语义双模态信息的自动图像标注[D];北京理工大学;2010年

10 王前程;自动图像标注中基于局部泛化误差模型的特征权重研究[D];华南理工大学;2011年



本文编号:2558300

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2558300.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b8cb8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com