当前位置:主页 > 科技论文 > 自动化论文 >

基于邻域粗糙集的主动学习方法

发布时间:2019-09-25 20:36
【摘要】:主动学习是机器学习领域的重要研究方向。现有主动学习方法通常选择不确定性的或具有代表性的样本供专家打标,然后添加到已标记的数据集中供分类器学习,但没能充分利用数据的分布信息,并且在野点采集问题上有待改进。结合邻域粗糙集理论,提出了一种基于邻域粗糙集的主动学习方法(neighhbor rough set active learning,NRS-AL)。实验结果表明,在加州大学数据集(university of California Irvine,UCI)上,该算法充分利用了数据的分布信息,同时结合样本的不确定性和代表性计算,处理了野点的选择,是一种能有效解决主动学习样本选择问题的算法,在accuracy,受试者工作特征(receiver operating characteristic curve,ROC)曲线下面的面积(area under curve,AUC)指标上优于文献中的主动学习算法。
【图文】:

原理图,无标记,邻域,样本


别的密度均值,其中,sim(o,j)为2个样本的相似度,这里考虑余弦相似度,设向量M=(M1,M2,…,Mn),N=(N1,N2,…,,Nn)sim(M,N)=Σn1(Mi×Ni)Σn1M2i醝×Σn1N2i醝(9)邻域内的无标记样本信息量原理如图1所示,在有标记样本集中计算无标记样本A和B的信息量,在A的邻域中,含有更多类别的样本,所以无标记样本A的信息量大于B,样本A更容易被选中。图1邻域内的无标记样本信息量原理图Fig.1Principleofcalculatingtheinformationquantityofthenonlabeledsamplesintheneighborhood2.1.4计算待标记样本的泛化量考虑样本的泛化性能,也就是需要待标记样本处于训练集的低密度区域,并且处于无标签数据集的高密度区域。无标签样本邻域泛化性定义如下gene(x)=dens_u(x)p/dens_l(x)q(10)(10)式中:dens_1表示样本在训练集中的邻域密度;dens_u表示样本在无标签数据集中的邻域密度;q,p为权重。无标记样本在有标记样本邻域和无标记样本邻域计算泛化量原理如图2所示,在所有样本集中计算无标记样本A和B的泛化量,在A的邻域中,A处于无标记样本集的高密度区域,有标记样本集的低密度区域,而B样本处于有标记样本的高密度区域,所以,A的泛化量大于B,样本A会更容易被选中。2.1.5计算待标记样本的重要性为了避免信息量和泛化量过大过小,所以考虑取p泛数,省去了调参过程。imp(x)=(info(x)p+gene(x)p)1/p(11)将样本按照重要性排序,取TopK添加到训练集,并从无标签样本中删除这部分样本2.1.6基于邻域样本缩减解决采集野点的问题在无标记样本集中指定一个较小的邻域半径权重w,在预处理阶段删除邻域内的样本即可,即可达到去除野点?

原理图,无标记,样本,邻域


小?图1邻域内的无标记样本信息量原理图Fig.1Principleofcalculatingtheinformationquantityofthenonlabeledsamplesintheneighborhood2.1.4计算待标记样本的泛化量考虑样本的泛化性能,也就是需要待标记样本处于训练集的低密度区域,并且处于无标签数据集的高密度区域。无标签样本邻域泛化性定义如下gene(x)=dens_u(x)p/dens_l(x)q(10)(10)式中:dens_1表示样本在训练集中的邻域密度;dens_u表示样本在无标签数据集中的邻域密度;q,p为权重。无标记样本在有标记样本邻域和无标记样本邻域计算泛化量原理如图2所示,在所有样本集中计算无标记样本A和B的泛化量,在A的邻域中,A处于无标记样本集的高密度区域,有标记样本集的低密度区域,而B样本处于有标记样本的高密度区域,所以,A的泛化量大于B,样本A会更容易被选中。2.1.5计算待标记样本的重要性为了避免信息量和泛化量过大过小,所以考虑取p泛数,省去了调参过程。imp(x)=(info(x)p+gene(x)p)1/p(11)将样本按照重要性排序,取TopK添加到训练集,并从无标签样本中删除这部分样本2.1.6基于邻域样本缩减解决采集野点的问题在无标记样本集中指定一个较小的邻域半径权重w,在预处理阶段删除邻域内的样本即可,即可达到去除野点的目的。图2无标记样本在有标记样本邻域和无标记样本邻域计算泛化量原理Fig.2Nonlabeledsamplesarecalculatedfromtheneighborhoodoflabeledsamplesandtheneighborhoodofunlabeledsamples2.2算法描述基于邻域粗糙集的主动学习方法的具体步骤。1)根据指定参数划分数据集,输入训练集占比,无标签样本占比,剩余数据为测试集,算法如下。算法1数据集划分算法输入:全部数据集ASet,训练集比重t,无标签数据比重u。
【作者单位】: 重庆邮电大学计算智能重庆市重点实验室;
【基金】:国家自然科学基金(61309014) 教育部人文社科规划项目(15XJA630003) 重庆市教委科学技术研究项目(KJ1500416) 重庆市基础与前沿研究计划项目(cstc2013jcyj A40063)~~
【分类号】:TP181

【相似文献】

相关期刊论文 前10条

1 周军,张庆灵,陈文实;覆盖粗糙集的一般化[J];东北大学学报;2004年10期

2 邱兆雷;范颖;王爱云;;粗糙集理论及进展[J];信息技术与信息化;2006年05期

3 徐伟华;张文修;;覆盖广义粗糙集的模糊性[J];模糊系统与数学;2006年06期

4 石杰;;粗糙集理论及其应用研究[J];科技信息;2008年33期

5 唐彬;;粗糙集理论和应用研究[J];内江科技;2008年03期

6 胡军;王国胤;;覆盖粗糙集的模糊度[J];重庆邮电大学学报(自然科学版);2009年04期

7 燕红文;康向平;张丽;;依赖空间与粗糙集理论[J];农业网络信息;2009年09期

8 林国平;;覆盖广义粗糙集与信任函数[J];漳州师范学院学报(自然科学版);2010年02期

9 王石平;祝峰;朱培勇;;基于抽象相关关系的粗糙集研究[J];南京大学学报(自然科学版);2010年05期

10 成新文;陈国超;李琦;;关于粗糙集的理论及应用研究[J];煤炭技术;2010年10期

相关会议论文 前10条

1 邹刚;滕书华;孙即祥;陈森林;敖永红;;一种粗糙集优化协同原型模式约简分类方法[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年

2 葛丽;傅彦;;粗糙集在科学数据属性约简中的应用[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

3 陈雪飞;;粗糙集分类中耦合数据的处理方法研究[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年

4 肖健梅;芦晓明;王锡淮;;集装箱起重机防摇系统粗糙集控制[A];第二十六届中国控制会议论文集[C];2007年

5 王印松;冯康;;主汽温调节系统性能评价的粗糙集实现方法[A];第二十七届中国控制会议论文集[C];2008年

6 卓明;王丽珍;谭旭;;基于粗糙集近似集扩展的规则提取算法[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年

7 董广军;张永生;戴晨光;范永弘;;基于粗糙集的多源信息融合处理技术[A];第三届全国信息获取与处理学术会议论文集[C];2005年

8 李雄;李胜利;徐宗昌;;基于粗糙集理论的状态监测与故障诊断(英文)[A];第三届全国信息获取与处理学术会议论文集[C];2005年

9 袁瑗;黄河清;;基于粗糙集辅助推理的故障诊断专家系统[A];全国自动化新技术学术交流会会议论文集(一)[C];2005年

10 孙亮;杨飞;于建均;陈梅莲;;一种基于指数粗糙集合的变精度控制器应用研究[A];第25届中国控制会议论文集(下册)[C];2006年

相关博士学位论文 前10条

1 马希骜;概率粗糙集属性约简理论及方法研究[D];西南交通大学;2014年

2 唐孝;基于粗糙集的知识发现方法及其在ECG信号识别中的应用[D];电子科技大学;2015年

3 曾凯;邻域粒化粗糙计算的关键技术研究与应用[D];电子科技大学;2015年

4 王永生;基于粗糙集理论的动态数据挖掘关键技术研究[D];北京科技大学;2016年

5 马周明;基于边界域的多粒度粗糙集及其相关度量[D];河北师范大学;2017年

6 孔芝;粗糙集理论若干问题的研究与应用[D];东北大学;2009年

7 秦中广;基于粗糙集的交叉研究及其在中医诊断的应用[D];华南理工大学;2002年

8 刘少辉;知识发现中粗糙集理论的研究[D];中国科学院研究生院(计算技术研究所);2003年

9 邓大勇;基于粗糙集的数据约简及粗糙集扩展模型的研究[D];北京交通大学;2007年

10 孙英娟;基于粗糙集的分类方法研究[D];吉林大学;2011年

相关硕士学位论文 前10条

1 江飞;粗糙集神经网络故障诊断方法研究[D];西安石油大学;2015年

2 张德齐;基于粗糙集理论的电机故障诊断方法研究[D];渤海大学;2015年

3 聂萌瑶;基于泛系串并模型的粗糙集概念扩展与拓扑空间[D];兰州大学;2015年

4 孙宇航;粗糙集属性约简方法在医疗诊断中的应用研究[D];苏州大学;2015年

5 车世远;基于群搜索优化粗糙集的脑科学数据研究[D];大连海事大学;2015年

6 边松珍;简易覆盖及基于覆盖的粗传播[D];山东大学;2015年

7 张雷;基于粗糙集和SVM的体域网健康评估方法研究[D];浙江师范大学;2015年

8 张宁;基于粗糙集的代价区间与多人三支决策的研究[D];浙江师范大学;2015年

9 樊兵娇;基于证据理论的知识发现与不确定性研究[D];重庆理工大学;2015年

10 程钰;基于粗糙集的属性选择系统的设计与实现[D];山西大学;2015年



本文编号:2541595

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2541595.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户87a7b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com